CN110223696B - 一种语音信号的采集方法、装置及终端设备 - Google Patents
一种语音信号的采集方法、装置及终端设备 Download PDFInfo
- Publication number
- CN110223696B CN110223696B CN201910429068.4A CN201910429068A CN110223696B CN 110223696 B CN110223696 B CN 110223696B CN 201910429068 A CN201910429068 A CN 201910429068A CN 110223696 B CN110223696 B CN 110223696B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice signal
- remote terminal
- signal
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007613 environmental effect Effects 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004622 sleep time Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 230000003860 sleep quality Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音信号的采集方法、装置及终端设备,适用于信号处理技术领域,该方法包括:通过携带音频拾取器的智能项链,采集目标范围内的语音数据;智能项链位于目标对象的颈部;检测并分离语音数据中的用户语音信号以及环境噪声信号;获取与环境噪声信号匹配的场景类型,并加载与场景类型相对应的事件触发条件;若智能项链的实时参数信息满足事件触发条件,则将用户语音信号上传至与智能项链通信连接的远程终端,以使远程终端对所述用户语音信号进行采集。本发明提升了对语音信号的收音效果,实现了语音信号的全时采集,提高了对用户语音信号的识别准确率以及采集效率;通过对语音数据进行预处理,提高了终端采集得到的语音信号的有效性。
Description
技术领域
本发明属于信号处理技术领域,尤其涉及一种语音信号的采集方法、装置、终端设备及计算机可读存储介质。
背景技术
随着语音识别技术的不断发展,语音信息的应用领域越来越广。现有的语音识别方案,一般都需要通过智能手机来采集用户的语音信号。例如,当用户需要使用文字输入法中的语音录入功能时,则会面向智能手机的话筒发出自身所需录入的文字的语音信号。然而,由于智能手机只有在用户贴近使用时才能够具有较好的收音效果。当手机放置在口袋或闲置于桌上时,用户语音信号则较难校测以及识别。由此可见,现有的语音信号采集方案适用时间较短,无法对用户的语音信号实现准确且高效的全时采集。
发明内容
有鉴于此,本发明实施例提供了一种语音信号的采集方法、装置、终端设备及计算机可读存储介质,以解决现有的语音信号采集方案无法对用户的语音信号实现准确且高效的全时采集的问题。
本发明实施例的第一方面提供了一种语音信号的采集方法,包括:
通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部;
检测并分离所述语音数据中的用户语音信号以及环境噪声信号;
获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集。
本发明实施例的第二方面提供了一种语音信号的采集装置,包括:
采集单元,用于通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部;
分离单元,用于检测并分离所述语音数据中的用户语音信号以及环境噪声信号;
第一获取单元,用于获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
上传单元,用于若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集。
本发明实施例的第三方面提供了一种终端设备,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述语音信号的采集方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现如上述语音信号的采集方法的步骤。
本发明实施例中,由于智能项链位于目标对象的颈部,故通过利用携带音频拾取器的智能项链来采集目标范围内的语音数据,保证了音频拾取器与目标对象发声部位的距离值能够维持在较小的距离范围之内,故提升了对语音信号的收音效果,实现了语音信号的全时采集,从而也提高了对用户语音信号的识别准确率以及采集效率;另一方面,通过检测并分离原始语音数据中的用户语音信号以及环境噪声信号,根据环境噪声信号所匹配的场景类型来加载事件触发条件,实现了对语音数据的预处理操作,避免了将不符合需求的部分语音数据传输给远程终端,因此,提高了终端所采集得到的语音信号的有效性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音信号的采集方法的实现流程示意图;
图2是本发明实施例提供的语音信号的采集方法S104的具体实现流程示意图;
图3是本发明又一实施例提供的语音信号的采集方法的实现流程示意图;
图4是本发明实施例提供的语音信号的采集方法S101的具体实现流程图;
图5是本发明实施例提供的语音信号的采集装置的结构框图;
图6是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的语音信号的采集方法的实现流程图,详述如下:
S101:通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部。
本发明实施例中,智能项链内置一音频拾取器。音频拾取器包括但不限于手持麦克风、耳机话筒以及其他各类可用于采集语音数据的传感器等。通过将智能项链佩戴于目标对象的颈部,能够与目标对象的发声部位保持较小的距离值,从而可以清晰地采集到目标对象所发出的语音数据。在通过智能项链采集语音数据的过程中,除了获取目标对象所发出的用户语音信号外,若目标对象与其他用户对象进行交流,则还会采集得到上述其他用户对象的语音信号以及环境噪声信号。上述多种类型的语音信号混合在一起,作为语音数据被智能项链采集得到。
优选地,本发明实施例中,获取预先连接的远程终端所发出的控制指令。上述远程终端包括但不限于手机、平板电脑以及智能手表等终端设备,其用于安装并运行各类移动应用。远程终端根据各个已安装的移动应用的应用类型,确定语音数据的采集时间范围,并生成关于用户语音信号的采集时间表后,将包含采集时间表的控制指令发送至智能项链。若检测到智能项链的实时时间与该采集时间表匹配,则通过携带音频拾取器的智能项链,采集目标范围内的语音数据。
本发明实施例适用于多个移动应用均需要采集语音数据且不同移动应用对语音数据的采集时间具有不同要求的场景之下。例如,对于用于执行睡眠质量检测的移动应用,其启动时间为目标对象的睡眠时间,即23:00至8:00;而对于用于自动检测用户工作效率的移动应用,其启动时间应为目标对象的工作时间,即10:00至17:00。不同的移动应用对应不同的语音数据采集时间范围,因此,能够减少在采集时间范围之外对语音数据所执行的采集工作,提高了语音数据的采集有效性;同时,避免了在目标对象所设置的隐私时间之下,智能项链依然持续采集语音数据的情况发生,因而也提高了用户的隐私安全,避免了出现信息泄露的问题。
S102:检测并分离所述语音数据中的用户语音信号以及环境噪声信号。
本发明实施例中,通过预设的语音识别算法,对采集得到的语音数据进行识别处理,以分别提取出语音数据中的用户语音信号以及环境噪声信号。
在一具体实施示例中,在采集语音数据之前,智能项链中预先录入了目标对象的声纹特征。对采集得到的语音数据,从中提取出与目标对象的声纹特征相匹配的语音数据作为本次采集得到的用户语音信号,并通过预设的高通滤波器,对环境噪声信号进行分离过滤。
在另一具体实施示例中,对采集到的语音数据进行傅里叶变换,以得到语音数据对应的频谱图。基于预先获取的人声频段,将上述频谱图所对应的语音数据划分为与人声频段匹配的用户语音信号以及与人声频段不匹配的环境噪声信号。
S103:获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件。
不同类型的环境噪声信号通常出现于不同的场景之下,且不同类型的环境噪声信号会具备高低不同的频率特征。例如,在户外场景之下,容易出现风声以及树叶摇摆声等大量的低频信号;而在办公室内,则会出现空调主机声、计算机扇叶声等中高频信号。
本发明实施例中,上述步骤S103包括:对所述环境噪声信号进行傅里叶变换,生成所述环境噪声信号对应的频谱图;基于所述频谱图以及预设的频谱关系对照表,确定所述环境噪声信号的发声对象;获取与所述发声对象匹配的场景类型,并加载与所述场景类型相对应的事件触发条件。
具体地,频谱关系对照表用于记录预设的各个发声对象与其频谱特征的对应关系。对每一发生对象的频谱特征,通过将上述环境噪声信号所对应的频谱图与该频谱特征进行比对,能够判断该环境噪声信号是否与该发声对象匹配。
示例性地,若环境噪声信号的频率分布区间与一发声对象所对应的频率分布区间的重合度大于预设阈值,则确定环境噪声信号与该发声对象匹配。
本发明实施例中,根据确定出的发声对象,获取预存储的与发声对象匹配的场景类型。例如,若发声对象为汽车喇叭,则获取得到的场景类型为公路类型。在不同的场景类型下,当智能项链采集目标对象所发出的语音数据时,由于目标对象的生活习惯以及行为模式均会产生变化,因而会导致此时所采集的语音数据具备其独特的应用用途。因此,加载与场景类型相对应的事件触发条件。事件触发条件用于描述该场景类型之下智能项链所需执行的应用事件以及该应用事件的触发条件。
优选地,若环境噪声信号与多个发声对象匹配,则将包含上述多个发声对象的组合场景确定为当前时刻的场景类型。
S104:若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集。
在通过智能项链的音频拾取器持续采集语音数据的过程中,获取智能项链的实时参数信息。实时参数信息包括但不限于智能项链的系统时间、剩余存储空间占比以及语音数据采集时长等。其中,待获取的实时参数信息根据事件触发条件来确定。即,根据事件触发条件所关联的属性参数,实时获取智能项链在该属性参数上所对应的参数值。
本发明实施例中,若智能项链的实时参数信息满足事件触发条件,则将分离出的用户语音信号上传至与智能项链通信连接的远程终端,以使得该远程终端能够实现对用户语音信号进行采集,并基于对采集得到的用户语音信息的分析操作,确定目标对象的行为模式以及操控指令。
示例性地,上述事件触发条件例如可以是,当前智能项链的剩余存储空间占比小于预设阈值、当前的网络传输丢包率小于预设阈值和/或智能项链的剩余电量高于预设阈值等。
本发明实施例中,由于智能项链位于目标对象的颈部,故通过利用携带音频拾取器的智能项链来采集目标范围内的语音数据,保证了音频拾取器与目标对象发声部位的距离值能够维持在较小的距离范围之内,故提升了对语音信号的收音效果,实现了语音信号的全时采集,从而也提高了对用户语音信号的识别准确率以及采集效率;另一方面,通过检测并分离原始语音数据中的用户语音信号以及环境噪声信号,根据环境噪声信号所匹配的场景类型来加载事件触发条件,实现了对语音数据的预处理操作,避免了将不符合需求的部分语音数据传输给远程终端,因此,提高了终端所采集得到的语音信号的有效性。
作为本发明的一个实施例,图2示出了本发明实施例提供的语音信号的采集方法S104的具体实现流程,详述如下:
S1041:接收所述远程终端发出的携带应用标识的语音信息解析请求,并基于所述应用标识确定应用类型。
本发明实施例中,智能项链在通过音频拾取器采集语音数据之前,或者,在将用户语音信号反馈至远程终端之前,根据接收到的消息指令,先确定远程终端中需要采集用户语音信号的各个应用。具体地,远程终端获取具有语音识别权限的移动应用的应用标识,并在建立与智能项链的通信链路之后,将携带应用标识的语音信息解析请求发送至智能项链。其中,应用标识用于标记移动应用的应用类型,包括但不限于音乐播放类型、语音输入法类型以及视频录制类型等。智能项链对接收到的应用标识进行解析,以识别对应的各个应用类型。
S1042:获取与所述应用类型关联的语音关键词列表。
移动应用的应用类型与用户特征信息关联,可用于分析移动应用当前所主要关注的一类用户特征信息。例如,对于应用类型为音乐播放类型的移动应用来说,其主要关注的用户特征信息为用户所喜爱的歌手、歌曲名称、歌曲风格等。本发明实施例中,根据预先设定的逻辑控制指令,分别以预设的语音关键词来表征每一类别用户特征信息的可选项值,并将各个语音关键词存入语音关键词列表。
示例性地,若用户所喜爱的歌曲风格包括爵士、摇滚、嘻哈、电音、民族以及流行等六个可选项值,则分别生成对应六个可选项值的语音关键词;若用户所喜爱的歌曲名称包括老鼠爱大米、我的背包以及千年之外三个可选项值,则分别生成对应三个可选项值的语音关键词。最后,输出包含上述所有语音关键词的语音关键词列表。
不同应用类型的移动应用所关联的语音关键词列表不同。因此,根据上述S1041所确定出的应用类型,加载预存储的与该应用类型关联的一个语音关键词列表。
S1043:若所述智能项链的实时参数信息满足所述事件触发条件,则基于所述语音关键词列表对所述用户语音信号进行语义解析处理,并根据语义解析结果生成待反馈至所述远程终端的语音控制指令。
智能项链通过预设的语音识别算法,对待反馈的用户语音信号进行语义识别处理,以得到对应的文本信息。本发明实施例中,判断当前文本信息所包含的各个关键词是否存在于语音关键词列表中。若文本信息所包含的各个关键词均存在于语音关键词列表,则生成与该文本信息匹配的语音控制指令;若文本信息所包含的任一关键词不存在于语音关键词列表,则从文本信息中剔除该关键词后,再生成与当前文本信息匹配的语音控制指令。
S1044:将所述语音控制指令以及所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端中与所述应用标识匹配的移动应用对所述用户语音信号进行采集并执行对应所述语音控制指令的响应操作。
本发明实施例中,将携带应用标识的语音控制指令以及采集得到的用户语音信号同步发送至远程终端,以使远程终端根据该应用标识,确定语音控制指令所指示操控的移动应用,从而使得需要采集用户语音信号的移动应用能够直接执行与用户语音信号关联的语音控制指令并作出响应。
若移动应用作出关于语音控制指令的无效操作响应,则远程终端可对其同步接收到的用户语音信号进行二次解析处理,以重新生成待反馈至该移动应用的语音控制指令,从而提高了对用户语音信号的解析准确率以及容错率。
可选地,在上述判断当前文本信息所包含的各个关键词是否存在于语音关键词列表之前,还包括:获取与应用类型关联的访问控制列表,访问控制列表用于记录移动应用所禁止解析的语音关键词。其中,智能项链获取用户语音信息所对应的文本信息,对文本信息进行分词处理,得到多个分词。判断该文本信息所包含的各个分词是否存在于访问控制列表中。若文本信息所包含的一分词存在于访问控制列表,则从文本信息中剔除该分词。
本发明实施例中,通过接收远程终端发出的携带应用标识的语音信息解析请求,并基于应用标识确定应用类型,根据应用类型所关联的语音关键词列表来对用户语音信号进行处理,保证了智能项链能够对不存在于语音关键词列表中的关键词进行过滤,从而在后续的语音解析过程中能够得到精准有效的语音控制指令;同时,由于用户语音信号的解析过程在智能项链端进行,因而也减少了远程终端的数据运算量,提高了远程终端移动应用的响应速度。
作为本发明的又一个实施例,若上述智能项链基于应用标识所确定的应用类型为对话记录类型,则如图3所示,上述语音信号的采集方法还包括:
S105:获取预先采集的关于所述目标对象的声纹特征。
本发明实施例中,在检测到目标对象初次启动其所佩戴的智能项链时,发出音频录制提示信息,以采集目标对象的基准音频信息。具体地,智能项链输出预设的标准语料信号,并提示目标对象进行跟随朗读。在获取目标对象的基准音频信息后,对基准音频信息进行特征提取,以检测出目标对象的声纹特征。其中,声纹特征例如可以是目标对象对应的泛音规则等。
S106:基于所述声纹特征,识别所述用户语音信号中的目标对象语音信号以及第三方对象语音信号。
在通过上述步骤S102分离得到语音数据中的用户语音信号以及环境噪声信号后,由于用户语音信号可以包括目标对象所发出的语音信号以及第三方对象所发出的语音信号,因此,需要进一步分离出仅与目标对象相关的语音频段。本发明实施例中,基于泛音规则来提取目标对象相关的语音频段,即,将满足泛音规则的用户语音信号识别为目标对象语音信号,将不满足泛音规则的用户语音信号识别为第三方对象语音信号。
S107:将所述目标对象语音信号以及第三方对象语音信号分别转换为对应的文本信息,并将所述文本信息上传至与所述智能项链通信连接的远程终端,以使所述远程终端在终端显示界面输出包含各段所述文本信息的对话记录。
本发明实施例中,通过语音识别算法,智能项链分别将目标对象语音信号转换为对应的第一文本信息以及以及将第三方对象语音信号转换为对应的第二文本信息。将携带第一标记的第一文本信息以及携带第二标记的第二文本信息上传至与智能项链通信连接的远程终端。其中,第一标记为预先协商的用于标记目标对象的属性标识;第二标记为预先协商的用于标记第三方对象的属性标识。
当远程终端接收到智能项链上传的文本信息时,对于对话记录类型的移动应用,在该移动应用的运行界面中,创建两个群聊对象,并展示该群聊对象的对象名。其中,对象名用于以文字形式描述文本信息所对应的目标对象或第三方对象。例如,群聊对象的对象名可以是“机主小红”以及“对方”等。
本发明实施例中,生成包含各个群聊对象的群组内容显示框,并将接收到的文本信息展示于该群组内容显示框中。其中,文本信息所关联的群组对象的对象名将标记于该文本信息的前方位置区域。
当连续检测到智能项链上传的文本信息时,基于上述群组内容显示方式,根据各文本信息的接收时间的先后次序,在群组内容显示框中依序展示对应的各个群聊对象的对象名以及文本信息,以使得远程终端用户能够在其应用界面中,以文本形式记录并查看目标对象的对话聊天记录。
本发明实施例中,在远程终端发出的语音信息解析请求所携带的应用标识的应用类型为对话记录类型时,通过利用预先采集的目标对象的声纹特征,识别用户语音信号中的目标对象语音信号以及第三方对象语音信号,将各段语音信号分别转换为文本信息后再上传至远程终端,使得远程终端的应用能够准确、快速地以文本形式记录目标对象与他人的聊天记录过程,实现了用户语音信号的定向化处理。
在上述各个实施例的基础之上,作为本发明的一个实施例,对智能项链的启动方式作进一步的限定。具体地,如图4所示,上述步骤S101包括:
S1011:加载应用请求列表,所述应用请求列表包含预设时长内所接收到的各个语音信息解析请求中的历史应用标识。
智能项链在接收到远程终端发出的携带应用标识的语音信息解析请求时,将该应用标识存储至应用请求列表。其中,对历史时刻所接收到的各个语音信息解析请求,其携带的应用标识为历史应用标识。应用请求列表用于存储指定时长内所接收到的历史应用标识。
本发明实施例中,加载当前时刻的应用请求列表,以读取其包含的各个历史应用标识。
S1012:分别获取每一所述历史应用标识所对应的语音采集类型,所述语音采集类型包括即时反馈类型以及非即时反馈类型。
对应用请求列表中的每一个历史应用标识,根据预设的对应关系表,确定与该历史应用标识对应的语音采集类型。其中,语音采集类型为即时反馈类型或非即时反馈类型。即时反馈类型表示远程终端的移动应用需要实时获取智能项链所采集的语音数据;非即时反馈类型用于远程终端的移动应用无需实时获取智能项链采集的语音数据。
例如,若存在一移动应用需要记录用户的睡眠环境噪声,则智能项链在用户的睡眠时间内采集与环境噪声相关的语音数据的同时,并不需要马上将语音数据反馈至远程终端,也不需要在睡眠时间之外启动对语音数据的采集操作,因此,对于该移动应用所关联的应用标识,与该应用标识对应预设的语音采集类型为非即时反馈类型。
S1013:若存在任一所述历史应用标识对应的所述语音采集类型为非即时反馈类型,则保持所述智能项链的音频拾取器在预设时间段内持续处于启动状态,并通过携带所述音频拾取器的所述智能项链,采集在所述预设时间段内目标范围内的语音数据;其中,若检测到携带该历史应用标识的语音信息停止请求,则从所述应用请求列表中移除该历史应用标识。
本发明实施例中,判断是否存在任一历史应用标识所对应的语音采集类型为非即时反馈类型。若判断结果为是,则表示与该历史应用标识关联的移动应用需要采集指定时间段内的语音数据,因此,触发智能项链的语音采集事件,以保持智能项链的音频拾取器在指定时间段内处于启动状态后,持续采集目标范围内的语音数据。
特别地,对上述非即时反馈类型的历史应用标识,若当前时刻接收到携带该历史应用标识的语音信息停止请求,则表示远程终端无需再采集目标对象的语音数据,因此,从应用请求列表中移除该历史应用标识,以确保与该历史应用标识关联的语音采集事件仅在有限时长内被触发。
若应用请求列表中每一历史应用标识所对应的语音采集类型均为即时反馈类型,则与其中各个历史应用标识关联的移动应用只需要采集即时的语音数据,即,在智能项链接收到远程终端上传历史应用标识时,仅需要将该时刻所实时采集到的语音数据反馈至远程终端。因此,在当前时刻,若应用请求列表中不存在实时新增的应用标识,则控制智能项链的音频拾取器处于休眠状态,以降低其能量损耗。
本发明实施例中,在任一时刻,只要检测到存在一历史应用标识所对应的语音采集类型为非即时反馈类型,则保持智能项链的音频拾取器在预设时间段内持续处于启动状态,实现了智能项链的自动化启动;同时,避免了智能项链在非指定时间段之外全天候启动,降低了智能项链的电量消耗,由此也减少了对冗余语音数据的采集,因而提高了语音数据的采集有效性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例的方法,图5示出了本发明实施例提供的语音信号的采集装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图5示例的语音信号的采集装置可以是前述实施例提供的语音信号的采集方法的执行主体。
参照图5,该语音信号的采集装置包括:
采集单元51,用于通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部。
分离单元52,用于检测并分离所述语音数据中的用户语音信号以及环境噪声信号。
第一获取单元53,用于获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件。
上传单元54,用于若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集。
可选地,所述上传单元54包括:
接收子单元,用于接收所述远程终端发出的携带应用标识的语音信息解析请求,并基于所述应用标识确定应用类型。
第一获取子单元,用于获取与所述应用类型关联的语音关键词列表。
解析子单元,用于若所述智能项链的实时参数信息满足所述事件触发条件,则基于所述语音关键词列表对所述用户语音信号进行语义解析处理,并根据语义解析结果生成待反馈至所述远程终端的语音控制指令。
上传子单元,用于将所述语音控制指令以及所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端中与所述应用标识匹配的移动应用对所述用户语音信号进行采集并执行对应所述语音控制指令的响应操作。
可选地,若所述应用类型为对话记录类型,则所述语音信号的采集装置还包括:
第二获取单元,用于获取预先采集的关于所述目标对象的声纹特征。
识别单元,用于基于所述声纹特征,识别所述用户语音信号中的目标对象语音信号以及第三方对象语音信号。
转换单元,用于将所述目标对象语音信号以及第三方对象语音信号分别转换为对应的文本信息,并将所述文本信息上传至与所述智能项链通信连接的远程终端,以使所述远程终端在终端显示界面输出包含各段所述文本信息的对话记录。
可选地,所述采集单元51包括:
加载子单元,用于加载应用请求列表,所述应用请求列表包含预设时长内所接收到的各个语音信息解析请求中的历史应用标识。
第二获取子单元,用于分别获取每一所述历史应用标识所对应的语音采集类型,所述语音采集类型包括即时反馈类型以及非即时反馈类型。
采集子单元,用于若存在任一所述历史应用标识对应的所述语音采集类型为非即时反馈类型,则保持所述智能项链的音频拾取器在预设时间段内持续处于启动状态,并通过携带所述音频拾取器的所述智能项链,采集在所述预设时间段内目标范围内的语音数据。
其中,若检测到携带该历史应用标识的语音信息停止请求,则从所述应用请求列表中移除该历史应用标识。
可选地,所述第一获取单元53包括:
变换子单元,用于对所述环境噪声信号进行傅里叶变换,生成所述环境噪声信号对应的频谱图。
确定子单元,用于基于所述频谱图以及预设的频谱关系对照表,确定所述环境噪声信号的发声对象。
第三获取子单元,用于获取与所述发声对象匹配的场景类型,并加载与所述场景类型相对应的事件触发条件。
本发明实施例中,由于智能项链位于目标对象的颈部,故通过利用携带音频拾取器的智能项链来采集目标范围内的语音数据,保证了音频拾取器与目标对象发声部位的距离值能够维持在较小的距离范围之内,故提升了对语音信号的收音效果,实现了语音信号的全时采集,从而也提高了对用户语音信号的识别准确率以及采集效率;另一方面,通过检测并分离原始语音数据中的用户语音信号以及环境噪声信号,根据环境噪声信号所匹配的场景类型来加载事件触发条件,实现了对语音数据的预处理操作,避免了将不符合需求的部分语音数据传输给远程终端,因此,提高了终端所采集得到的语音信号的有效性。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器61以及存储器61,所述存储器61中存储有可在所述处理器61上运行的计算机程序62。所述处理器61执行所述计算机程序62时实现上述各个语音信号的采集方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器61执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至64的功能。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器61、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种语音信号的采集方法,其特征在于,包括:
通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部;
检测并分离所述语音数据中的用户语音信号以及环境噪声信号;
获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集;
其中,所述获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件,包括:
对所述环境噪声信号进行傅里叶变换,生成所述环境噪声信号对应的频谱图;
基于所述频谱图以及预设的频谱关系对照表,确定所述环境噪声信号的发声对象;
获取与所述发声对象匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
所述若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,包括:
接收所述远程终端发出的携带应用标识的语音信息解析请求,并基于所述应用标识确定应用类型;
获取与所述应用类型关联的语音关键词列表;
若所述智能项链的实时参数信息满足所述事件触发条件,则基于所述语音关键词列表对所述用户语音信号进行语义解析处理,并根据语义解析结果生成待反馈至所述远程终端的语音控制指令;
将所述语音控制指令以及所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端中与所述应用标识匹配的移动应用对所述用户语音信号进行采集并执行对应所述语音控制指令的响应操作。
2.如权利要求1所述的语音信号的采集方法,其特征在于,若所述应用类型为对话记录类型,则所述语音信号的采集方法还包括:
获取预先采集的关于所述目标对象的声纹特征;
基于所述声纹特征,识别所述用户语音信号中的目标对象语音信号以及第三方对象语音信号;
将所述目标对象语音信号以及第三方对象语音信号分别转换为对应的文本信息,并将所述文本信息上传至与所述智能项链通信连接的远程终端,以使所述远程终端在终端显示界面输出包含各段所述文本信息的对话记录。
3.如权利要求1所述的语音信号的采集方法,其特征在于,所述通过携带音频拾取器的智能项链,采集目标范围内的语音数据,包括:
加载应用请求列表,所述应用请求列表包含预设时长内所接收到的各个语音信息解析请求中的历史应用标识;
分别获取每一所述历史应用标识所对应的语音采集类型,所述语音采集类型包括即时反馈类型以及非即时反馈类型;
若存在任一所述历史应用标识对应的所述语音采集类型为非即时反馈类型,则保持所述智能项链的音频拾取器在预设时间段内持续处于启动状态,并通过携带所述音频拾取器的所述智能项链,采集在所述预设时间段内目标范围内的语音数据;
其中,若检测到携带该历史应用标识的语音信息停止请求,则从所述应用请求列表中移除该历史应用标识。
4.一种语音信号的采集装置,其特征在于,包括:
采集单元,用于通过携带音频拾取器的智能项链,采集目标范围内的语音数据;其中,所述智能项链位于目标对象的颈部;
分离单元,用于检测并分离所述语音数据中的用户语音信号以及环境噪声信号;
第一获取单元,用于获取与所述环境噪声信号匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
上传单元,用于若所述智能项链的实时参数信息满足所述事件触发条件,则将所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端对所述用户语音信号进行采集;
其中,所述第一获取单元包括:
变换子单元,用于对所述环境噪声信号进行傅里叶变换,生成所述环境噪声信号对应的频谱图;
确定子单元,用于基于所述频谱图以及预设的频谱关系对照表,确定所述环境噪声信号的发声对象;
第三获取子单元,用于获取与所述发声对象匹配的场景类型,并加载与所述场景类型相对应的事件触发条件;
所述上传单元包括:
接收子单元,用于接收所述远程终端发出的携带应用标识的语音信息解析请求,并基于所述应用标识确定应用类型;
第一获取子单元,用于获取与所述应用类型关联的语音关键词列表;
解析子单元,用于若所述智能项链的实时参数信息满足所述事件触发条件,则基于所述语音关键词列表对所述用户语音信号进行语义解析处理,并根据语义解析结果生成待反馈至所述远程终端的语音控制指令;
上传子单元,用于将所述语音控制指令以及所述用户语音信号上传至与所述智能项链通信连接的远程终端,以使所述远程终端中与所述应用标识匹配的移动应用对所述用户语音信号进行采集并执行对应所述语音控制指令的响应操作。
5.如权利要求4所述的语音信号的采集装置,其特征在于,若所述应用类型为对话记录类型,则所述语音信号的采集装置还包括:
第二获取单元,用于获取预先采集的关于所述目标对象的声纹特征;
识别单元,用于基于所述声纹特征,识别所述用户语音信号中的目标对象语音信号以及第三方对象语音信号;
转换单元,用于将所述目标对象语音信号以及第三方对象语音信号分别转换为对应的文本信息,并将所述文本信息上传至与所述智能项链通信连接的远程终端,以使所述远程终端在终端显示界面输出包含各段所述文本信息的对话记录。
6.一种终端设备,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910429068.4A CN110223696B (zh) | 2019-05-22 | 2019-05-22 | 一种语音信号的采集方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910429068.4A CN110223696B (zh) | 2019-05-22 | 2019-05-22 | 一种语音信号的采集方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223696A CN110223696A (zh) | 2019-09-10 |
CN110223696B true CN110223696B (zh) | 2024-04-05 |
Family
ID=67817926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910429068.4A Active CN110223696B (zh) | 2019-05-22 | 2019-05-22 | 一种语音信号的采集方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110223696B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602553B (zh) * | 2019-09-23 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 媒体文件播放中的音频处理方法、装置、设备及存储介质 |
CN110808030B (zh) * | 2019-11-22 | 2021-01-22 | 珠海格力电器股份有限公司 | 语音唤醒方法、系统、存储介质及电子设备 |
CN111294382A (zh) * | 2019-12-30 | 2020-06-16 | 欧普照明股份有限公司 | 一种数据实时推送方法及装置 |
CN111583946A (zh) * | 2020-04-30 | 2020-08-25 | 厦门快商通科技股份有限公司 | 一种语音信号增强方法和装置以及设备 |
CN116072282B (zh) * | 2023-04-06 | 2023-06-13 | 吉林大学 | 用于ct设备的远程智能检测分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105493180A (zh) * | 2013-08-26 | 2016-04-13 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
CN107018467A (zh) * | 2016-01-28 | 2017-08-04 | 哈曼贝克自动系统股份有限公司 | 用于车辆的外部声音合成的系统和方法 |
WO2018090451A1 (zh) * | 2016-11-15 | 2018-05-24 | 深圳Tcl新技术有限公司 | 音量控制系统及音量控制方法 |
CN109189365A (zh) * | 2018-08-17 | 2019-01-11 | 平安普惠企业管理有限公司 | 一种语音识别方法、存储介质和终端设备 |
-
2019
- 2019-05-22 CN CN201910429068.4A patent/CN110223696B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105493180A (zh) * | 2013-08-26 | 2016-04-13 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
CN107018467A (zh) * | 2016-01-28 | 2017-08-04 | 哈曼贝克自动系统股份有限公司 | 用于车辆的外部声音合成的系统和方法 |
WO2018090451A1 (zh) * | 2016-11-15 | 2018-05-24 | 深圳Tcl新技术有限公司 | 音量控制系统及音量控制方法 |
CN109189365A (zh) * | 2018-08-17 | 2019-01-11 | 平安普惠企业管理有限公司 | 一种语音识别方法、存储介质和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110223696A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223696B (zh) | 一种语音信号的采集方法、装置及终端设备 | |
US9609441B2 (en) | Smart hearing aid | |
CN111477250B (zh) | 音频场景识别方法、音频场景识别模型的训练方法和装置 | |
US20190005944A1 (en) | Operating method for voice function and electronic device supporting the same | |
WO2020155750A1 (zh) | 基于人工智能的语料收集方法、装置、设备及存储介质 | |
CN107147618A (zh) | 一种用户注册方法、装置及电子设备 | |
CN105615902A (zh) | 情绪监控方法和装置 | |
WO2015120341A1 (en) | Systems and methods for identifying a sound event | |
WO2021041146A1 (en) | Audio scene recognition using time series analysis | |
CN103117061A (zh) | 一种基于语音的动物识别方法及装置 | |
CN105488227A (zh) | 一种电子设备及其基于声纹特征处理音频文件的方法 | |
WO2015058651A1 (zh) | 音频文件均衡器参数配置的方法和装置 | |
CN104091596A (zh) | 一种乐曲识别方法、系统和装置 | |
CN105679357A (zh) | 一种移动终端及其基于声纹识别的录音方法 | |
CN109147764A (zh) | 语音交互方法、装置、设备及计算机可读介质 | |
JP2011154130A (ja) | 音声識別装置及びこれを用いた音声識別システム | |
CN109410934A (zh) | 一种基于声纹特征的多人声音分离方法、系统及智能终端 | |
CN112151038B (zh) | 语音重放攻击检测方法、装置、可读存储介质及电子设备 | |
CN110970027B (zh) | 一种语音识别方法、装置、计算机存储介质及系统 | |
CN111710339A (zh) | 一种基于数据可视化展示技术的语音识别交互系统及方法 | |
CN105930522A (zh) | 智能推荐音乐的方法、系统和装置 | |
CN110430508B (zh) | 麦克风降噪处理方法及计算机存储介质 | |
CN115510183A (zh) | 目标数据查询方法、装置、可读存储介质及电子设备 | |
CN113573096A (zh) | 视频处理方法、装置、电子设备及介质 | |
CN117608506A (zh) | 信息显示方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |