CN110491384B - 一种语音数据处理方法及装置 - Google Patents

一种语音数据处理方法及装置 Download PDF

Info

Publication number
CN110491384B
CN110491384B CN201910807754.0A CN201910807754A CN110491384B CN 110491384 B CN110491384 B CN 110491384B CN 201910807754 A CN201910807754 A CN 201910807754A CN 110491384 B CN110491384 B CN 110491384B
Authority
CN
China
Prior art keywords
terminal
sound source
voice data
data
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910807754.0A
Other languages
English (en)
Other versions
CN110491384A (zh
Inventor
姜馨
彭方振
张柳新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910807754.0A priority Critical patent/CN110491384B/zh
Publication of CN110491384A publication Critical patent/CN110491384A/zh
Application granted granted Critical
Publication of CN110491384B publication Critical patent/CN110491384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种语音数据处理方法及装置,识别第一对象使用终端当前的使用模式,如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据,以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位,以在存在目标对象声源时获取目标对象声源的语音数据,降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后,将目标对象声源的语音数据转换为目标个数数据,以使用模式相匹配的展示方式展示目标格式数据,实现语音数据的可视化展示。

Description

一种语音数据处理方法及装置
技术领域
本申请属于语音处理技术领域,尤其涉及一种语音数据处理方法及装置。
背景技术
目前语音处理技术在可穿戴设备上被广泛应用,例如AR(Augmented Reality,增强现实)眼镜可以获取佩戴者的语音数据(如定向采集佩戴者的语音),识别语音数据包括的内容,通过AR眼镜或者其他与AR眼镜通信的终端显示语音数据包括的内容。
发明内容
有鉴于此,本申请的目的在于提供一种语音数据处理方法及装置,实现在不同使用模式下目标对象声源的精确定位和语音数据的可视化。技术方案如下:
本申请提供一种语音数据处理方法,所述方法包括:
识别第一对象使用终端当前的使用模式;
如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据;
将所述目标对象声源的语音数据转换为目标格式数据;
以所述使用模式相匹配的展示方式展示所述目标格式数据。
优选的,所述识别第一对象使用终端当前的使用模式包括:
基于所述终端所处环境的图像数据,识别所述终端当前的使用模式;
和/或
基于所述终端所处环境的语音数据,识别所述终端当前的使用模式。
优选的,所述基于所述终端所处环境的图像数据,识别所述终端当前的使用模式包括:
获取所述图像数据对应的图像中的人物区域和/或所述图像数据对应的图像中人脸的特征数据;
基于所述人物区域在图像中的占比和/或所述人脸的特征数据,得到所述终端当前的使用模式。
优选的,所述图像数据中满足第一预设条件的所述人物区域和/或特征数据对应的人物为所述目标对象声源。
优选的,所述基于所述终端所处环境的语音数据,识别所述终端当前的使用模式包括:
基于所述终端所处环境的语音数据的音量和/或持续时长,识别所述终端当前的使用模式。
优选的,所述音量和/或持续时长满足第二预设条件的语音数据对应的声源为所述目标对象声源。
优选的,所述如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据包括:
获取第一采集设备采集到的语音数据,忽略第二采集设备采集到的语音数据,所述第一采集设备的采集范围覆盖所述目标对象声源所在位置,所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置;
或者
所述如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据包括:
获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据,所述第一采集设备的采集范围覆盖所述目标对象声源所在位置,所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置;
基于所述第二语音数据对所述第一语音数据进行处理,得到所述目标对象声源的语音数据。
优选的,所述展示方式包括:将所述目标格式数据投影到所述目标对象声源所处位置和将所述目标格式数据显示在所述终端的显示区域。
优选的,所述方法还包括:如果所述使用模式表明所述终端所处环境没有目标对象声源,禁止获取语音数据;
所述禁止获取语音数据包括:关闭所述终端的语音采集设备,或者忽略所述语音采集设备采集到的语音数据。
本申请还提供一种语音数据处理装置,所述装置包括:
识别单元,用于识别第一对象使用终端当前的使用模式;
获取单元,用于如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据;
转换单元,用于将所述目标对象声源的语音数据转换为目标格式数据;
展示单元,用于以所述使用模式相匹配的展示方式展示所述目标格式数据。
本申请还提供一种终端,所述终端包括:处理器和显示器;
所述处理器,用于识别第一对象使用终端当前的使用模式,如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据,将所述目标对象声源的语音数据转换为目标格式数据,以所述使用模式相匹配的展示方式在所述显示器中展示所述目标格式数据。
本申请还提供一种存储介质,所述存储介质中存储有计算机程序代码,所述计算机程序代码执行时实现上述语音数据处理方法。
从上述技术方案可知,识别第一对象使用终端当前的使用模式,如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据,以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位,以在存在目标对象声源时获取目标对象声源的语音数据,降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后,将目标对象声源的语音数据转换为目标个数数据,以使用模式相匹配的展示方式展示目标格式数据,实现语音数据的可视化展示。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语音数据处理方法的流程图;
图2是本申请实施例提供的另一种语音数据处理方法的流程图;
图3是本申请实施例提供的一种应用语音数据处理方法的终端的示意图;
图4是图3所示终端执行语音数据处理方法的流程图;
图5是本申请实施例提供的一种目标格式数据展示的示意图;
图6是本申请实施例提供的另一种目标格式数据展示的示意图;
图7是本申请实施例提供的再一种语音数据处理方法的流程图;
图8是本申请实施例提供的一种语音数据处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,其示出了本申请实施例提供的一种语音数据处理方法,用以实现在不同使用模式下目标对象声源的精确定位和语音数据的可视化,可以包括以下步骤:
101:识别第一对象使用终端当前的使用模式。可以理解的是:第一对象使用终端是第一对象(用户)当前使用的一终端,如用户佩戴的具有语音采集功能的可穿戴设备或者是用户使用的手机等电子设备。
其中识别终端当前的使用模式的目的是为了确定终端所处环境是否存在目标对象声源,目标对象声源是终端所处环境中除第一对象之外另一个处于讲话中的对象,以便于对目标对象声源的语音数据进行自动识别。在本实施例中识别终端当前的使用模式包括但不限于如下方式:
一种识别终端当前的使用模式的方式是:在终端的显示区域中显示各个使用模式,获取第一对象从各个使用模式中选取的使用模式。
另一种识别终端当前的使用模式的方式是:采集第一对象的语音数据或采集第一对象的身体部位的图像数据,基于第一对象的语音数据或第一对象的身体部位的图像数据,识别终端当前的使用模式。例如第一对象的语音数据包括终端的使用模式的关键词,基于第一对象的语音数据中的关键词确定终端当前的使用模式,如第一对象的语音数据中的关键词为“使用模式1”,则确定终端当前的使用模式为“使用模式1”。对于第一对象的身体部位的图像数据可以是但不限于是第一对象的手势,并预先设置不同手势对应的使用模式,由此通过采集到的第一对象的手势可以确定终端当前的使用模式。
在上述两种识别终端当前的使用模式的方式中,确定目标对象声源的方式可以是由第一对象指定,如获取终端所处环境的图像数据,从图像数据对应的图像中指定目标对象声源,或者将第一对象的手势所指对象作为目标对象声源。
再一种识别终端当前的使用模式的方式是:基于终端所处环境的环境数据,识别终端当前的使用模式,其中终端所处环境的环境数据包括:终端所处环境的图像数据和/或语音数据,由此可以基于终端所处环境的图像数据和/或语音数据,识别终端当前的使用模式。下面对基于图像数据和/或语音数据进行使用模式的识别进行说明:
终端所处环境的图像数据是指终端所处环境中除第一对象所在位置之外其他位置的图像数据,图像数据可以通过终端的摄像头获取,那么在获取图像数据时可以将终端的摄像头的拍摄范围对准除第一对象所在位置之外的其他位置,以得到终端所处环境其他位置的图像数据,以通过图像数据确定终端所处环境是否有除第一对象之外处于讲话中的对象,进而基于是否有处于讲话中的对象确定终端当前的使用模式。
在本实施例中基于图像数据识别终端当前的使用模式的一种手段是:获取图像数据对应的图像中的人物区域,基于人物区域在图像中的占比,得到终端当前的使用模式,其中人物区域在图像中的占比用于指示该人物与第一对象之间的距离,而人物与第一对象之间的距离越近说明其与第一对象进行对话的可能性越大,人物与第一对象之间的距离越远说明其与第一对象进行对话的可能性越小但第一对象倾听该人物讲话的可能性越大,为此本实施例可以通过设置人物区域在图像中的预设比例范围,通过当前采集到的图像数据对应的图像中人物区域在图像中的占比与预设比例范围,得到终端当前的使用模式。
例如预设比例范围可以包括单一的预设比例,如果当前采集到的图像数据对应的图像中人物区域在图像中的占比大于或等于该预设比例,确定终端当前的使用模式为对话模式(表示第一对象与采集到的图像中的人物处于对话中);如果当前采集到的图像数据对应的图像中人物区域在图像中的占比小于该预设比例,确定终端当前的使用模式为倾听模式(表示第一对象正在听采集到的图像中的人物讲话),当然预设比例范围还可以包括多个预设比例或者设置一个范围,同样可以确定终端当前的使用模式,对此本实施例不再阐述。
在本实施例中基于图像数据识别终端当前的使用模式的另一种手段是:获取图像数据对应的图像中人脸的特征数据,基于人脸的特征数据,得到终端当前的使用模式。其中基于人脸的特征数据得到终端当前的使用模式的方式可以是基于人脸的特征数据对应区域的至少部分是否显示在图像中和显示至少部分区域的人脸的数量中的至少一种得到终端当前的使用模式。
例如人脸的特征数据对应的全部区域显示在图像中且数量为一个,说明通过图像数据可以识别到唯一人物,此时可以确定终端处于对话模式;如果人脸的特征数据对应的全部区域显示在图像中且数量为至少两个,说明通过图像数据可以识别到多个人物,此时可以确定终端处于倾听模式。
在本实施例中基于图像数据识别终端当前的使用模式的再一种手段是:获取图像数据对应的图像中的人物区域和人脸的特征数据,基于人物区域在图像中的占比和人脸的特征数据,得到终端当前的使用模式,相对于前述两种方式来说通过人物区域在图像中的占比和人脸的特征数据相结合来确定终端当前的使用模式,提高使用模式识别的准确度,对于两者结合方式可以是通过两者识别到同一个使用模式,则将该使用模式确定为终端当前的使用模式,对于人物区域在图像中的占比和人脸的特征数据对应的使用模式的识别请参阅上述实施例中的说明,对此本实施例不再阐述。
在本实施例中基于图像数据识别终端当前的使用模式的再一种手段是:调用预设机器学习模型,得到与图像数据匹配的使用模式,其中预设机器学习模型是通过对已知使用不同的图像数据进行训练得到,例如终端的使用模式包括:对话模式、倾听模式和噪声模式,通过与这三种模式匹配的图像数据对机器学习模型(如神经网络模型)进行训练,得到预设机器学习模型。在获取到终端所处环境的图像数据之后,通过该预设机器学习模型预测获取到的图像数据匹配的使用模式。
相对应的图像数据中满足第一预设条件的人物区域对应的人物为目标对象声源,如第一预设条件可以是上述预设比例范围,如人物区域在图像中的占比大于或等于上述预设比例的人物为目标对象声源。又或者第一预设条件可以是上述人脸的特征数据对应区域的至少部分显示在图像中,符合这一特征的人脸对应的人物为目标对象声源,又或者第一预设条件为上述预设比例范围和人脸的特征数据对应区域的至少部分显示在图像中相结合来得到目标对象声源,当然第一预设条件还可以采用其他手段,具体本实施例不再阐述。
对于终端所处环境的语音数据来说,终端所处环境的语音数据是指终端所处环境中除第一对象之外其他对象的语音数据,语音数据可以通过终端的麦语音采集设备获取,那么在获取语音数据时可以将终端的语音采集设备的采集范围覆盖除第一对象所在位置之外的其他位置,以得到终端所处环境其他对象的语音数据,以通过语音数据确定终端所处环境是否有除第一对象之外处于讲话中的对象,进而基于是否有处于讲话中的对象确定终端当前的使用模式。
在本实施例中基于语音数据识别终端当前的使用模式的一种手段是:基于终端所处环境的语音数据的音量,识别终端当前的使用模式。可以理解的是不同对象的音量不同,如车辆、人、动物等的音量不同,为此本实施例可通过采集到的语音数据的音量确定是否含有处于讲话中的人物,然后基于是否含有处于讲话中的人物识别终端当前的使用模式。
例如如果没有含有处于讲话中的人物,确定终端当前的使用模式为噪声模式,如果含有处于讲话中的人物则可以确定终端当前的使用模式为对话模式或倾听模式,对于对话模式或倾听模式可以进一步结合处于讲话中的人物的数量和处于讲话中的人物是否有一个音量突出的人物来确定,如果处于讲话中的人物的数量为至少两个则确定为倾听模式,否则确定为对话模式;如果处于讲话中的人物中有一个音量突出的人物,则确定为对话模式,否则确定为倾听模式,其中音量突出的人物可以表示为一个人物的音量大于其他人物的音量。或者本实施例还可以基于语音数据中人物的音量是否大于其他对象的音量来确定终端当前的使用模式,对此本实施例不再阐述。
在本实施例中基于语音数据识别终端当前的使用模式的另一种手段是:基于终端所处环境的语音数据的持续时长,识别终端当前的使用模式。一般情况下,人物在讲话时其持续时长大于其他对象的发出声音时的持续时长,为此本实施例可预先设置一个预设时长,如果语音数据的持续时长大于该预设时长,则确定终端当前的使用模式是非噪声模式,如上述对话模式和倾听模式中的一种。或者也可以通过判断语音数据中是否有一个声音的持续时长大于其他对象的持续时长来判断,对此本实施例不再阐述。
在本实施例中基于语音数据识别终端当前的使用模式的再一种手段是:基于终端所处环境的语音数据的音量和持续时长,识别终端当前的使用模式,相对于前述两种方式来说通过音量和持续时长相结合来确定终端当前的使用模式,提高使用模式识别的准确度,对于两者结合方式可以是通过两者识别到同一个使用模式,则将该使用模式确定为终端当前的使用模式,对于音量和持续时长对应的使用模式的识别请参阅上述实施例中的说明,对此本实施例不再阐述。
相对应的,音量和/或持续时长满足第二预设条件的语音数据对应的声源为目标对象声源。其中第二预设条件可以是上述通过采集到的语音数据的音量确定是否含有处于讲话中的人物,则处于讲话中的人物为目标对象声源,和/或第二预设条件为上述预设时长,则语音数据的持续时长大于预设时长的声源为目标对象声源,对于第二预设条件的其他方式本实施例不再一一阐述。
相对于上述方式,本实施例还可以基于终端所处环境的图像数据和语音数据,识别终端当前的使用模式,以通过图像数据和语音数据来精确划分终端的使用模式,这样可以通过图像数据和语音数据相互辅助来确定终端的使用模式,提高使用模式识别的准确度。
例如终端的使用模式包括对话模式、倾听模式和噪声模式,对话模式和倾听模式表明终端所处环境存在目标对象声源,噪声模式表明终端所处环境没有目标对象声源。那么基于图像数据和语音数据识别终端当前的使用模式时,可通过图像数据识别是否处于对话模式,例如通过图像数据识别出唯一的一个处于讲话中的人物,则确定终端处于对话模式中,可以执行目标对象声源的获取,如果识别出不存在唯一的处于讲话中的人物,说明终端可能处于倾听模式或噪声模式,则通过语音数据进行使用模式的二次识别,如通过语音数据的音量和持续时长确定出存在唯一声源(即处于讲话中的人物),由此确定终端处于倾听模式;如果通过语音数据的音量和持续时长没有确定出唯一声源,则确定终端处于噪声模式。
相对应的在基于图像数据和语音数据识别终端当前的使用模式时,目标对象声源则可以是图像数据中满足第一预设条件的人物区域和/或特征数据对应的人物,音量和/或持续时长满足第二预设条件的语音数据对应的声源。
通过上述终端所处环境的图像数据和/或语音数据,不仅能够识别终端当前的使用模式,还能够在识别使用模式的同时确定出目标对象声源,实现对目标对象声源的精确定位。
102:如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据。在通过对终端的使用模式识别过程中,可以定位出目标对象声源在终端所处环境的位置,因此为了降低终端所处环境的噪声对目标对象声源的影响,本实施例可以基于目标对象声源在终端所处环境的位置,获取目标对象声源的语音数据。其中获取目标对象声源的语音数据的方式包括但不限于如下两种方式:
一种方式是:获取第一采集设备采集到的语音数据,忽略第二采集设备采集到的语音数据,其中第一采集设备的采集范围覆盖目标对象声源所在位置,第二采集设备的采集范围没有覆盖目标对象声源所在位置,从而忽略第二采集设备采集到的语音数据对目标对象声源的语音数据的影响。
另一种方式是:获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据,基于第二语音数据对第一语音数据进行处理,得到目标对象声源的语音数据,其中第一采集设备的采集范围覆盖目标对象声源所在位置,第二采集设备的采集范围没有覆盖目标对象声源所在位置。这种方式相对于上一方式的优点在于:第一采集设备的采集范围不单单对应目标对象声源,其还可能覆盖其他对象,导致第一采集设备采集到的第一语音数据包括目标对象声源的语音数据和其他对象的语音数据,第二采集设备采集的第二语音数据可能会与第一语音数据对应除目标对象声源之外的同一个对象,从而能够基于第二语音数据对第一语音数据中的噪声数据(即除目标对象声源的语音数据之外的数据)进行去燥处理,提高目标对象声源的语音数据的准确度和纯净度。
103:将目标对象声源的语音数据转换为目标格式数据。其中目标格式数据可以是对于第一对象来说便于第一对象查看的格式的数据,例如目标格式数据可以是文本数据或通过动画效果展示语音数据的内容的动画数据。
例如第一对象的听力有问题,那么目标格式数据则可以是文本数据,通过语音识别技术,将目标对象声源的语音数据中的内容转换成文字,具体过程本实施例不再阐述。又例如第一对象的年龄偏小,语音和文字形式都不能提高第一对象的关注度,则通过语音识别技术识别出目标对象声源的语音数据中的内容,确定语音数据中的内容对应的故事情节,以动画效果展示该故事情节,从而提高第一对象对目标格式数据的关注度。
104:以使用模式相匹配的展示方式展示目标格式数据,以实现对目标声源对象的语音数据的可视化展示。其中展示方式包括:将目标格式数据投影到目标对象声源所在位置和目标格式数据显示在终端的显示区域,在实际应用中可以为使用模式配置这两种展示方式中的一种方式进行展示。
例如使用模式为对话模式时,可以将目标格式数据投影到目标对象声源所在位置,这样第一对象在与目标对象声源对话过程中,目标格式数据投影到目标对象声源所在位置可以使得第一对象在阅览目标格式数据时第一对象的视线停留在目标对象声源所在位置,避免第一对象阅览目标格式数据时的视线偏移,使第一对象的注意力集中。例如可以将目标格式数据投影到目标对象声源的脸部位置,目标对象声源的脸部位置可通过终端所处环境的图像数据和/或语音数据确定,对此本实施例不再阐述。
从上述技术方案可知,识别第一对象使用终端当前的使用模式,如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据,以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位,以在存在目标对象声源时获取目标对象声源的语音数据,降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后,将目标对象声源的语音数据转换为目标个数数据,以使用模式相匹配的展示方式展示目标格式数据,实现语音数据的可视化展示。
请参阅图2,其示出了本申请实施例提供的另一种语音数据处理方法的流程图,在图1基础上还可以包括以下步骤:
105:如果使用模式表明终端所处环境没有目标对象声源,禁止获取语音数据,从而可以节省终端的资源消耗。在本实施例中禁止获取语音数据的方式包括但不限于:关闭终端的语音采集设备或者忽略语音采集设备采集到的语音数据,其中关闭终端的语音采集设备的方式可以节省语音采集设备的使用,并且降低语音采集设备对终端的资源占用。
下面通过执行本实施例提供的语音数据处理方法的终端进行说明,实施语音数据处理方法的可以是具备拍摄功能和语音数据采集功能的电子设备,或者是能够从其他设备中获得图像数据和语音数据的设备,例如本实施例可通过一可穿戴设备执行,如图3所示,可通过图3所示的眼镜实施语音数据处理方法,该眼镜包括摄像头和麦克风阵列(语音采集设备的一种方式,图3中除摄像头之外的每个圆点视为一个麦克风,多个麦克风组成麦克风阵列),通过摄像头获取图像数据以及通过麦克风阵列获取语音数据,以辅助实施上述语音数据处理方法,其中图3所示眼镜可佩戴在听力有问题的第一对象,以通过将目标对象声源的语音数据转换为文本数据(目标格式数据的一种方式)来辅助第一对象,其实施的语音数据处理方法的流程如图4所示,可以包括以下步骤:
401:通过摄像头获取眼镜所处环境的图像数据以及通过麦克风阵列获取眼镜所处环境的语音数据,其中图像数据可以是佩戴眼镜的第一对象前方区域的图像数据,这是因为第一对象在佩戴眼镜时摄像头的拍摄范围针对第一对象前方区域,所以摄像头会自动拍摄到第一对象前方区域的图像。而麦克风阵列中任一麦克风的采集范围可能不同或部分重叠,因此通过麦克风阵列可以采集到多个区域的语音数据。
402:获取图像数据中对应的图像中的人物区域和图像数据对应的图像中人脸的特征数据。
403:基于人物区域在图像中的占比和人脸的特征数据,确定是否有处于讲话中的对象,如果没有执行步骤404,如果有执行步骤410。
例如基于人物区域在图像中的占比确定人物相对于第一对象的距离,以及基于人脸的特征数据确定人物是否面对第一对象,如果人物相对于第一对象的距离小于预设距离且人物面对第一对象,则确定有处于讲话中的对象。
404:获取语音数据的音量和持续时长。
405:基于语音数据的音量和持续时长,确定是否有唯一的目标对象声源,如果有执行步骤406,如果没有执行步骤409。
例如如果语音数据中有一对象的音量大于其他对象的音量且持续时长大于预设时长,则确定该对象为唯一的目标对象声源。
406:确定终端当前的使用模式为倾听模式,其中倾听模式适用于第一对象处于剧场、会议、演讲和听课等场景。
407:通过麦克风阵列中采集范围覆盖目标对象声源所在位置的麦克风采集第一语音数据,通过其他麦克风采集第二语音数据,基于第二语音数据对第一语音数据进行去燥处理,得到目标对象声源的语音数据。
408:将目标对象声源的语音数据转换为文本数据,并将文本数据显示在眼镜的屏幕上,如显示在眼镜的镜片上,进一步显示在眼镜的镜片的下半部分区域,以降低第一对象对环境中其他事物的观看,如图5所示。
409:确定终端当前的使用模式为噪声模式,禁止获取语音数据。
410:确定终端当前的使用模式为对话模式。
411:通过图像数据识别处于讲话中的对象所在位置(处于讲话中的对象为目标对象声源)。
412:通过麦克风阵列中采集范围覆盖目标对象声源所在位置的麦克风采集第一语音数据,通过其他麦克风采集第二语音数据,基于第二语音数据对第一语音数据进行去燥处理,得到目标对象声源的语音数据。
413:将目标对象声源的语音数据转换为文本数据,并将文本数据投影在目标对象声源所在位置,如图6所示将文本数据投影在目标对象声源的脸部。
借由上述技术方案可知,在第一对象佩戴执行本实施例提供的语音数据处理方法的可穿戴设备时,能够将目标对象声源的语音数据转换为文本数据展示出来,从而辅助第一对象获知语音数据中的内容。
请参阅图7,其示出了本申请实施例提供的再一种语音数据处理方法的流程图,可以包括以下步骤:
701:识别第一对象使用终端当前的使用模式。在本实施例中终端当前的使用模式的可通过用户指定或基于终端所处环境的图像数据确定,具体请参阅上述方法实施例中的相关说明,对此本实施例不再阐述。
702:如果使用模式表明终端所处环境存在目标对象声源,开启终端的语音采集设备,这意味着终端的语音采集设备在确定终端所处环境存在目标对象声源之前一直处于关闭状态,从而可以节省语音采集设备的使用,以降低语音采集设备对终端的资源占用。
并且使用模式表明终端所处环境存在目标对象声源可以作为开启终端的语音采集设备的一种唤醒方式,使得语音采集设备可以在第一对象不知情的情况下自动唤醒,相对于现有通过特定内容唤醒语音采集设备来说,可以为第一对象提供一种更加自然的唤醒方式。例如本实施例无需第一对象向终端输入“hey siri”等特定内容就可以开启终端的语音采集设备。
在这里需要说明的一点是:如果使用模式表明终端所处环境没有目标对象声源,则可以禁止开启终端的语音采集设备,这样可以减少语音采集设备对噪声的采集。
703:通过终端的语音采集设备获取目标对象声源的语音数据。
704:将目标对象声源的语音数据转换为目标格式数据。
705:以使用模式相匹配的展示方式展示目标格式数据,以实现对目标声源对象的语音数据的可视化展示。
上述步骤703至步骤705:执行过程请参阅上述步骤102至步骤104的说明,对此本实施例不再阐述。
从上述技术方案可知,将使用模式表明终端所处环境存在目标对象声源作为开启终端的语音采集设备的一种唤醒方式,使得语音采集设备可以在第一对象不知情的情况下自动唤醒,相对于现有通过特定内容唤醒语音采集设备来说,可以为第一对象提供一种更加自然的唤醒方式。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
与上述方法实施例相对应,本申请实施例还提供一种语音数据处理装置,其结构如图8所示,可以包括:识别单元10、获取单元20、转换单元30和展示单元40。
识别单元10,用于识别第一对象使用终端当前的使用模式。其中识别终端当前的使用模式的目的是为了确定终端所处环境是否存在目标对象声源,目标对象声源是终端所处环境中除第一对象之外另一个处于讲话中的对象,以便于对目标对象声源的语音数据进行自动识别。在本实施例中识别单元10识别终端当前的使用模式包括但不限于如下方式:
一种方式是:在终端的显示区域中显示各个使用模式,获取第一对象从各个使用模式中选取的使用模式。
另一种方式是:采集第一对象的语音数据或采集第一对象的身体部位的图像数据,基于第一对象的语音数据或第一对象的身体部位的图像数据,识别终端当前的使用模式。
再一种方式是:基于终端所处环境的环境数据,识别终端当前的使用模式,例如基于终端所处环境的图像数据和/或语音数据,识别终端当前的使用模式;其中基于图像数据识别终端当前的使用模式的手段包括:获取图像数据对应的图像中的人物区域和/或图像数据对应的图像中人脸的特征数据;基于人物区域在图像中的占比和/或人脸的特征数据,得到终端当前的使用模式。相对应的图像数据中满足第一预设条件的人物区域和/或特征数据对应的人物为目标对象声源;基于语音数据识别终端当前的使用模式的手段包括:基于终端所处环境的语音数据的音量和/或持续时长,识别终端当前的使用模式。相对应的音量和/或持续时长满足第二预设条件的语音数据对应的声源为目标对象声源。
对于上述识别终端当前的使用模式的方式的执行过程请参阅上述方法实施例中的相关说明,对此本实施例不再阐述。
获取单元20,用于如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据。在通过对终端的使用模式识别过程中,可以定位出目标对象声源在终端所处环境的位置,因此为了降低终端所处环境的噪声对目标对象声源的影响,本实施例可以基于目标对象声源在终端所处环境的位置,获取目标对象声源的语音数据。其中获取单元20获取目标对象声源的语音数据的方式包括但不限于如下两种方式:
一种方式是:获取第一采集设备采集到的语音数据,忽略第二采集设备采集到的语音数据,其中第一采集设备的采集范围覆盖目标对象声源所在位置,第二采集设备的采集范围没有覆盖目标对象声源所在位置,从而忽略第二采集设备采集到的语音数据对目标对象声源的语音数据的影响。
另一种方式是:获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据,基于第二语音数据对第一语音数据进行处理,得到目标对象声源的语音数据,其中第一采集设备的采集范围覆盖目标对象声源所在位置,第二采集设备的采集范围没有覆盖目标对象声源所在位置。
转换单元30,用于将目标对象声源的语音数据转换为目标格式数据。其中目标格式数据可以是对于第一对象来说便于第一对象查看的格式的数据,例如目标格式数据可以是文本数据或通过动画效果展示语音数据的内容的动画数据,具体请参阅上述方法实施例中的相关说明,对此本实施例不再阐述。
展示单元40,用于以使用模式相匹配的展示方式展示目标格式数据,以实现对目标声源对象的语音数据的可视化展示。其中展示方式包括:将目标格式数据投影到目标对象声源所在位置和目标格式数据显示在终端的显示区域,在实际应用中可以为使用模式配置这两种展示方式中的一种方式进行展示。
从上述技术方案可知,识别第一对象使用终端当前的使用模式,如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据,以通过终端当前的使用模式对终端所处环境中的目标对象声源进行精确定位,以在存在目标对象声源时获取目标对象声源的语音数据,降低终端所处环境下噪声数据对目标对象声源的语音数据的影响。并且在获取到目标对象声源的语音数据后,将目标对象声源的语音数据转换为目标个数数据,以使用模式相匹配的展示方式展示目标格式数据,实现语音数据的可视化展示。
此外本实施例提供的语音数据处理装置还可以包括:控制单元,用于如果使用模式表明终端所处环境没有目标对象声源,禁止获取语音数据,从而可以节省终端的资源消耗。在本实施例中禁止获取语音数据的方式包括但不限于:关闭终端的语音采集设备或者忽略语音采集设备采集到的语音数据,其中关闭终端的语音采集设备的方式可以节省语音采集设备的使用,并且降低语音采集设备对终端的资源占用。
控制单元,还用于如果使用模式表明终端所处环境存在目标对象声源,开启终端的语音采集设备,以将使用模式表明终端所处环境存在目标对象声源作为开启终端的语音采集设备的一种唤醒方式,使得语音采集设备可以在第一对象不知情的情况下自动唤醒,相对于现有通过特定内容唤醒语音采集设备来说,可以为第一对象提供一种更加自然的唤醒方式。
本申请实施例还提供一种终端,终端包括:处理器和显示器。
处理器,用于识别第一对象使用终端当前的使用模式,如果使用模式表明终端所处环境存在目标对象声源,获取目标对象声源的语音数据,将目标对象声源的语音数据转换为目标格式数据,以使用模式相匹配的展示方式在显示器中展示目标格式数据,对于处理器的执行过程请参阅上述方法实施例中的相关说明,对此本实施例不再阐述。
本申请实施例还提供一种存储介质,存储介质中存储有计算机程序代码,计算机程序代码执行时实现上述语音数据处理方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种语音数据处理方法,其特征在于,所述方法包括:
基于终端所处环境的环境数据,识别第一对象使用终端当前的使用模式;
如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据;
将所述目标对象声源的语音数据转换为目标格式数据;
以所述使用模式相匹配的展示方式展示所述目标格式数据,如果用于识别所述使用模式的环境数据从满足第一条件变化为满足第二条件,终端的使用模式从与所述第一条件匹配的第一使用模式切换为与所述第二条件匹配的第二使用模式,展示目标格式数据的展示方式从与所述第一使用模式匹配的展示方式切换为与所述第二使用模式匹配的展示方式,使得展示目标格式数据的展示方式随使用模式的变化而变化。
2.根据权利要求1所述的方法,其特征在于,所述识别第一对象使用终端当前的使用模式包括:
基于所述终端所处环境的图像数据,识别所述终端当前的使用模式;
和/或
基于所述终端所处环境的语音数据,识别所述终端当前的使用模式。
3.根据权利要求2所述的方法,其特征在于,所述基于所述终端所处环境的图像数据,识别所述终端当前的使用模式包括:
获取所述图像数据对应的图像中的人物区域和/或所述图像数据对应的图像中人脸的特征数据;
基于所述人物区域在图像中的占比和/或所述人脸的特征数据,得到所述终端当前的使用模式。
4.根据权利要求3所述的方法,其特征在于,所述图像数据中满足第一预设条件的所述人物区域和/或特征数据对应的人物为所述目标对象声源。
5.根据权利要求2或3所述的方法,其特征在于,所述基于所述终端所处环境的语音数据,识别所述终端当前的使用模式包括:
基于所述终端所处环境的语音数据的音量和/或持续时长,识别所述终端当前的使用模式。
6.根据权利要求5所述的方法,其特征在于,所述音量和/或持续时长满足第二预设条件的语音数据对应的声源为所述目标对象声源。
7.根据权利要求1所述的方法,其特征在于,所述如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据包括:
获取第一采集设备采集到的语音数据,忽略第二采集设备采集到的语音数据,所述第一采集设备的采集范围覆盖所述目标对象声源所在位置,所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置;
或者
所述如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据包括:
获取第一采集设备采集到的第一语音数据以及第二采集设备采集到的第二语音数据,所述第一采集设备的采集范围覆盖所述目标对象声源所在位置,所述第二采集设备的采集范围没有覆盖所述目标对象声源所在位置;
基于所述第二语音数据对所述第一语音数据进行处理,得到所述目标对象声源的语音数据。
8.根据权利要求1至7任意一项所述的方法,其特征在于,所述展示方式包括:将所述目标格式数据投影到所述目标对象声源所处位置和将所述目标格式数据显示在所述终端的显示区域。
9.根据权利要求1至7任意一项所述的方法,其特征在于,所述方法还包括:如果所述使用模式表明所述终端所处环境没有目标对象声源,禁止获取语音数据;
所述禁止获取语音数据包括:关闭所述终端的语音采集设备,或者忽略所述语音采集设备采集到的语音数据。
10.一种语音数据处理装置,其特征在于,所述装置包括:
识别单元,用于基于终端所处环境的环境数据,识别第一对象使用终端当前的使用模式;
获取单元,用于如果所述使用模式表明所述终端所处环境存在目标对象声源,获取所述目标对象声源的语音数据;
转换单元,用于将所述目标对象声源的语音数据转换为目标格式数据;
展示单元,用于以所述使用模式相匹配的展示方式展示所述目标格式数据,如果用于识别所述使用模式的环境数据从满足第一条件变化为满足第二条件,终端的使用模式从与所述第一条件匹配的第一使用模式切换为与所述第二条件匹配的第二使用模式,展示目标格式数据的展示方式从与所述第一使用模式匹配的展示方式切换为与所述第二使用模式匹配的展示方式,使得展示目标格式数据的展示方式随使用模式的变化而变化。
CN201910807754.0A 2019-08-29 2019-08-29 一种语音数据处理方法及装置 Active CN110491384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910807754.0A CN110491384B (zh) 2019-08-29 2019-08-29 一种语音数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910807754.0A CN110491384B (zh) 2019-08-29 2019-08-29 一种语音数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN110491384A CN110491384A (zh) 2019-11-22
CN110491384B true CN110491384B (zh) 2022-04-22

Family

ID=68555100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910807754.0A Active CN110491384B (zh) 2019-08-29 2019-08-29 一种语音数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN110491384B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343420A (zh) * 2020-02-18 2020-06-26 维沃移动通信有限公司 一种语音增强方法及穿戴设备
CN113113043B (zh) * 2021-04-09 2023-01-13 中国工商银行股份有限公司 语音转图像方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN107390851A (zh) * 2016-04-25 2017-11-24 感官公司 支持准始终聆听的智能聆听模式
CN108682424A (zh) * 2018-07-13 2018-10-19 广州势必可赢网络科技有限公司 一种音频采集设备及方法
CN108762494A (zh) * 2018-05-16 2018-11-06 北京小米移动软件有限公司 显示信息的方法、装置及存储介质
CN108803871A (zh) * 2018-05-07 2018-11-13 歌尔科技有限公司 头戴显示设备中数据内容的输出方法、装置及头戴显示设备
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478587B2 (en) * 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10123450A (ja) * 1996-10-15 1998-05-15 Sony Corp 音声認識機能付ヘッドアップディスプレイ装置
CN104049721A (zh) * 2013-03-11 2014-09-17 联想(北京)有限公司 信息处理方法及电子设备
CN106301811A (zh) * 2015-05-19 2017-01-04 华为技术有限公司 实现多媒体会议的方法及装置
CN107390851A (zh) * 2016-04-25 2017-11-24 感官公司 支持准始终聆听的智能聆听模式
CN108803871A (zh) * 2018-05-07 2018-11-13 歌尔科技有限公司 头戴显示设备中数据内容的输出方法、装置及头戴显示设备
CN108762494A (zh) * 2018-05-16 2018-11-06 北京小米移动软件有限公司 显示信息的方法、装置及存储介质
CN108682424A (zh) * 2018-07-13 2018-10-19 广州势必可赢网络科技有限公司 一种音频采集设备及方法
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质

Also Published As

Publication number Publication date
CN110491384A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN109446876B (zh) 手语信息处理方法、装置、电子设备和可读存储介质
CN108052079B (zh) 设备控制方法、装置、设备控制装置及存储介质
KR102559028B1 (ko) 핸드라이팅 인식 방법 및 장치
CN108762494B (zh) 显示信息的方法、装置及存储介质
WO2021135685A1 (zh) 身份认证的方法以及装置
CN109992237B (zh) 智能语音设备控制方法、装置、计算机设备和存储介质
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
CN107666536B (zh) 一种寻找终端的方法和装置、一种用于寻找终端的装置
CN104408402A (zh) 人脸识别方法及装置
CN110992989B (zh) 语音采集方法、装置及计算机可读存储介质
CN110910887B (zh) 语音唤醒方法和装置
CN109151642B (zh) 一种智能耳机、智能耳机处理方法、电子设备及存储介质
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
CN108345581A (zh) 一种信息识别方法、装置和终端设备
CN110491384B (zh) 一种语音数据处理方法及装置
CN111091845A (zh) 音频处理方法、装置、终端设备及计算机存储介质
CN111583919A (zh) 信息处理方法、装置及存储介质
CN110096251A (zh) 交互方法及装置
KR101584685B1 (ko) 시청 데이터를 이용한 기억 보조 방법
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN110825164A (zh) 基于儿童专用穿戴智能设备的交互方法及系统
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
KR20220121661A (ko) 오디오 처리 방법 및 장치, 단말기 및 저장 매체
CN110111795B (zh) 一种语音处理方法及终端设备
EP3793275B1 (en) Location reminder method and apparatus, storage medium, and electronic device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant