CN109448705A - 一种语音切分方法及装置、计算机装置和可读存储介质 - Google Patents
一种语音切分方法及装置、计算机装置和可读存储介质 Download PDFInfo
- Publication number
- CN109448705A CN109448705A CN201811208983.2A CN201811208983A CN109448705A CN 109448705 A CN109448705 A CN 109448705A CN 201811208983 A CN201811208983 A CN 201811208983A CN 109448705 A CN109448705 A CN 109448705A
- Authority
- CN
- China
- Prior art keywords
- intelligent household
- scene
- human body
- sensitivity
- body target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 title claims abstract description 33
- 230000035945 sensitivity Effects 0.000 claims abstract description 96
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000009434 installation Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音切分方法及装置、计算机装置和可读存储介质,其中,所述方法包括:采集获得图像;确定所述图像所对应的智能家居场景;在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。用于解决现有采用语音端点检测的语音切分方法存在错误率高,语音识别效果差的技术问题。
Description
技术领域
本发明涉及智能家居技术领域,特别涉及一种语音切分方法及装置、计算机装置和可读存储介质。
背景技术
语音端点检测作为一种人机交互的手段,在解放人类双手方面意义重大。
具体来讲,语音端点检测就是从连续的语音流中将有效语音(也就是说,人说话的声音)的部分与外界的噪音或者是静音分割开来,降低存储或传输的数据量,以减少设备的计算负载,实现语音的快速识别。其主要包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。
为了考察语音能量值的变化,需要先将语音信号按照固定时长比如20毫秒进行分割,每个分割单元称为帧。每帧中包含数量相同的采样点,然后计算每帧语音的能量值。如果音频前面部分连续M0帧的能量值低于一个事先指定的能量值阈值E0,接下来的连续M0帧能量值大于E0,则能量值增大的地方为语音的前端点。如果连续的若干帧能量值较大,随后的帧能量值变小,并且持续一定的时长,则能量值减小的地方为语音的后端点。其中,M0值的大小决定了语音端点检测的灵敏度。M0值越小,音频时长越短,语音端点检测的灵敏度越高,反之,M0值越大,音频时长越长,语音端点检测的灵敏度越低。
此外,理想情况下静音能量值为0。然而,采集音频的场景中往往有一定强度的背景音,这种单纯的背景音当然算静音,但其能量值显然不为0,因此,实际采集到的音频其背景音通常有一定的基础能量值。假设音频起始处的一小段语音是静音,在估计E0时,选取一定数量的帧(比如前100帧语音数据),计算其平均能量值,然后加上一个经验值或乘以一个大于1的系数,由此得到E0,并将其作为判断一帧语音是否是静音的基准,大于这个值就是有效语音,小于这个值就是静音。
现有语音识别设备常采用较为固定的语音端点检测灵敏度,来切分语音。比如,不管是多人交流场景,还是单人交流场景,智能家居设备A的语音端点检测的灵敏度始终为E0。然而,由于多人交流场景较单人交流场景,环境较为嘈杂,不易切分,仍采用固定的语音端点检测的灵敏度E0来进行语音切分,很容易导致语音切分错误,进而导致语音识别错误。可见,采用固定的语音端点检测的灵敏度E0来进行语音切分,切分结果时好时坏。
也就是说,现有采用语音端点检测的语音切分方法存在错误率高,语音识别效果差的技术问题。
发明内容
本发明实施例提供一种语音切分方法及装置、计算机装置及可读存储介质,用于解决现有采用语音端点检测的语音切分方法存在错误率高,语音识别效果差的技术问题。
第一方面,本发明实施例提供了一种语音切分方法,包括:
采集获得图像;
确定所述图像所对应的智能家居场景;
在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
在本发明实施例的技术方案中,通过采集图像,进而确定该图像所对应的智能家居场景,一旦在该智能家居场景下采集到音频数据,便可以按照该智能家居场景所对应的语音端点检测的灵敏度来对音频数据进行切分,进而确定待识别语音段。也就是说,在对音频数据进行切分时,根据智能家居场景自适应调整语音端点检测的灵敏度,从而保证了对音频数据的正确切分,改善了语音识别的识别效果。
可选地,确定所述图像所对应的智能家居场景,包括:
对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
基于所述特征参数,确定所述人体目标所处的智能家居场景。
在本发明实施例的技术方案中,直接通过对图像进行分析,确定表征人体目标和智能家居设备的特征参数,进而确定人体目标所处的智能家居场景。也就是说,通过图像分析,便可以快速确定人体目标所处的智能家居场景,从而实现了对智能家居场景的快速识别与确定。
可选地,基于所述特征参数,确定所述人体目标所处的智能家居场景,包括:
基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
在本发明实施例的技术方案中,通过图像分析所确定出的人体的数目、位置及行为动作,智能家居设备的数目及位置,进而确定人体目标间的关系,以及人体目标与智能家居设备间的关系,从而确定人体目标所处的智能家居场景。也就是说,对基于图像所获得的人体目标以及智能家居设备的多种特征参数进行综合分析,从而确定人体目标所处的智能家居场景,进而实现了对智能家居场景的精确识别与确定。
可选地,若所述智能家居场景为所述人体目标的数目大于预设阈值的多人交流场景,确定所述智能家居场景对应的语音端点检测的灵敏度,包括:
若所述多人交流场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度,并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。
在本发明实施例的技术方案中,若智能家居场景为人体目标的数目大于预设阈值的多人交流场景,且该多人交流场景与预设智能家居场景不同,则将预设智能家居场景对应的标准灵敏度增加至第一灵敏度,相应地,将该第一灵敏度确定为该多人交流场景对应的语音端点检测的灵敏度。也就是说,在当前采集到语音数据的多人交流场景与预设智能家居场景不同时,可以对预设智能家居场景所对应的标准灵敏度进行适应性增加调整,从而保证了多人交流场景下通过较高灵敏度对音频数据的正确切分,提高了语音识别的正确率。
可选地,若所述智能家居场景为所述人体目标的行为动作预产生噪声的场景,确定所述智能家居场景对应的语音端点检测的灵敏度,包括:
若所述人体目标的行为动作预产生噪声的场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第二灵敏度,并将所述第二灵敏度确定为所述人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。
在本发明实施例的技术方案中,若智能家居场景为人体目标的行为动作预产生噪声的场景,且该场景与预设智能家居场景不同,则将预设智能家居场景对应的标准灵敏度增加至第二灵敏度,相应地,将该第二灵敏度确定为人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。也就是说,在当前采集到语音数据的人体目标的行为动作预产生噪声的场景与预设智能家居场景不同时,可以对预设智能家居场景所对应的标准灵敏度进行适应性增加调整,从而保证了人体目标的行为动作预产生噪声的场景下通过较高灵敏度对音频数据的正确切分,提高了语音识别的正确率。
可选地,在确定待识别语音段之后,所述方法还包括:
对所述待识别语音段进行语音识别,确定文本;
对所述文本进行语义解析,确定控制指令;
执行所述控制指令。
第二方面,本发明实施例还提供了一种语音切分装置,包括:
采集单元,用于采集获得图像;
第一确定单元,用于确定所述图像对应的智能家居场景;
第二确定单元,在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
切分单元,按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
可选地,所述第一确定单元用于:
对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
基于所述特征参数,确定所述人体目标所处的智能家居场景。
可选地,所述第一确定单元还用于:
基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
可选地,若所述智能家居场景为所述人体目标的数目大于预设阈值的多人交流场景,所述第二确定单元用于:
若所述多人交流场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度,并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。
可选地,若所述智能家居场景为所述人体目标的行为动作预产生噪声的场景,所述第二确定单元用于:
若所述人体目标的行为动作预产生噪声的场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第二灵敏度,并将所述第二灵敏度确定为所述人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。
可选地,所述装置还包括处理单元,所述处理单元用于:
对所述待识别语音段进行语音识别,确定文本;
对所述文本进行语义解析,确定控制指令;
执行所述控制指令。
第三方面,本发明实施例还提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面所述的语音切分方法的步骤。
第四方面,本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音切分方法的步骤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本发明实施例中提供的一种语音切分方法的方法流程图;
图2为本发明实施例中提供的一种语音切分方法中步骤S102的方法流程图;
图3为本发明实施例中提供的一种语音切分方法中步骤S202的方法流程图;
图4为本发明实施例中提供的一种语音切分方法中在步骤S104之后的方法流程图;
图5为本发明实施例提供的一种语音切分装置的结构示意图。
具体实施方式
本发明的说明书和权利要求书及上述附图中的“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
在介绍本发明实施例中的技术方案之前,首先,对本发明提出的应用语音切分的语音切分系统进行简要的介绍。
本发明实施例中的语音切分系统至少包括图像采集装置和语音采集装置。其中,图像采集装置可以是摄像机。该摄像机可以是进行红外图像采集,还可以是进行可见光图像采集。还可以是单目摄像机,还可以是多目摄像机。此外,该摄像机上的摄像头可以是可转动的,也可以朝向某一固定方向的不可转动的。当然,本领域技术人员可以根据实际需要来选用相应的摄像机来作为图像采集装置,在此就不一一举例说明了。
语音采集装置可以是单个麦克风,还可以是麦克风阵列,当然本领域技术人员可以根据实际需要来选择相应的语音采集装置。
在具体实施过程中,在图像采集装置采集到图像之后,具体可以是由该图像装置对图像进行分析识别,确定出图像中的人体目标所处的智能家居场景,还可以是该图像采集装置将所采集到的图像发送给本地服务器或者云平台,由本地服务器或云平台对图像进行分析识别,进而确定出图像中的人体目标所处的智能家居场景。在具体实施过程中,在本地服务器或者云平台中预先存储有各种智能家居场景与语音端点检测的灵敏度间的对应关系。后续,一旦语音采集装置在该智能家居场景下采集到音频数据,该语音采集装置便可以按照该智能家居场景对应的语音端点检测的灵敏度对该音频数据进行切分,进而确定出待识别语音段。再或者,语音采集装置将在该智能家居场景下采集到的音频数据发送至本地服务器或者云平台,进而按照与该智能家居场景对应的语音端点检测的灵敏度对该音频数据进行切分,进而确定出待识别语音段。进一步地,对该待识别语音段进行语音识别。当然,本领域技术人员可以根据实际需要基于本案构思来设计语音切分系统中的各个组成部分的功能,在此就不再赘述了。
请参考图1,本发明实施例提供了一种语音切分方法,包括:
S101:采集获得图像;
S102:确定所述图像所对应的智能家居场景;
S103:在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
S104:按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
在具体实施过程中,步骤S101至步骤S104的具体实现过程如下:
首先,采集获得图像,具体可以是通过图像采集装置对其可视角范围进行采集。在获得该图像之后,可以是利用传统模式识别方法或者已经训练好的卷积神经网络检测该图像所对应的智能家居场景。当然,本领域技术人员可以根据实际需要来选择图像识别方法,在此就不再赘述了。在该智能家居场景下采集到音频数据之后,确定该智能家居场景对应的语音端点检测的灵敏度。比如,智能家居场景A对应的语音端点检测的灵敏度为M1,智能家居场景B对应的语音端点检测的灵敏度为M2。然后,便可以按照该语音端点检测的灵敏度所对应的音频时长对该音频数据进行切分,比如,在智能家居场景A下采集到音频数据之后,按照语音端点检测的灵敏度M1对该音频数据进行切分。再比如,在智能家居场景B下采集到音频数据之后,按照语音端点检测的灵敏度M2对该音频数据进行切分。然后,便可以确定出待识别语音段。后续对该待识别语音段进行语音识别。从而实现了根据智能家居场景来自适应调整语音端点检测的灵敏度,保证了对音频数据的正确切分,提高了语音识别的正确率。
在本发明实施例中,可以通过不断的机器学习,来确定不同智能家居场景下对语音正确切分的语音端点检测的灵敏度,进而建立不同智能家居场景与语音端点检测的灵敏度间的对应关系。比如,环境较嘈杂的环境,语音端点检测的灵敏度往往较高。反之,环境较安静的环境,语音端点检测的灵敏度往往较低。对于语音端点检测的灵敏度的具体数值,本领域技术人员可以通过有限次实验来确定,在此就不一一赘述了。
在本发明实施例中,请参考图2,步骤S102:确定所述图像所对应的智能家居场景,包括:
S201:对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
S202:基于所述特征参数,确定所述人体目标所处的智能家居场景。
在具体实施过程中,步骤S201至步骤S202的具体实现过程如下:
首先,对图像进行分析,确定表征人体目标和智能家居设备的特征参数,其中,该特征参数具体可以是人体目标的数目、位置及行为动作,还可以是智能家居设备的数目及位置。其中,对人体目标的检测,具体可以是通过人脸识别来实现,进而确定人体目标的数目及位置,还可以通过边缘检测确定出每个人体目标的行为动作,比如,打开窗户、关门等。此外,还可以通过深度学习来确定图像中所包括的智能家居设备的类型、数目、及位置。当然,本领域技术人员可以根据实际需要采用不同的图像识别算法来确定表征人体目标和智能家居设备的特征参数,在此就不再赘述了。
然后,基于确定出的特征参数,进而确定人体目标所处的智能家居场景。比如,确定出人体目标数目为5个,坐在投影仪后方,且张口交流的场景。再比如,确定出人体目标数目为1个,且该人体目标站在智能门附近,手放置在门把手上的智能家居场景。
在本发明实施例中,通过图像分析,便可以快速确定人体目标所处的智能家居场景,从而实现了对智能家居场景的快速识别与确定。
在本发明实施例中,请参考图3,步骤S202:基于所述特征参数,确定所述人体目标所处的智能家居场景,包括:
S301:基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
S302:基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
在具体实施过程中,步骤S301至步骤S302的具体实现过程如下:
首先,对图像进行分析,确定人体目标的数目、位置及行为动作,智能家居设备的数目及位置;然后,便可以确定出人体目标之间的第一关系,比如,人体目标彼此间所相距的距离关系,人体目标彼此间肢体语言间的关系。并确定人体目标与智能家居设备间的第二关系,比如,人体目标与智能家居设备间的距离关系。当然,本领域技术人员可以根据用户的实际使用习惯来确定人体目标之间的第一关系,以及人体目标与智能家居设备间的第二关系,在此就不再赘述了。
然后,基于第一关系和第二关系,确定人体目标所处的智能家居场景。比如,在人体目标数目为3个,且坐在智能电视机旁,其中,该智能电视机正在播放电视节目,则当前的智能家居场景为多人坐在智能电视机前观看电视节目的场景。再比如,在人体目标数目为1个,且该人体目标将手放置在已打开的智能窗户的把手上,则当前的智能家居场景为单人预关闭窗户的场景。此外,在本发明实施例中,除了可以基于人体目标的数目、位置及行为动作,智能家居设备的数目及位置,确定人体目标所处的智能家居场景外,还可以通过其它特征参数来确定人体目标所处的智能家居场景,在此就不再赘述了。
在本发明实施例中,对基于图像所获得的人体目标以及智能家居设备的多种特征参数进行综合分析,从而确定人体目标所处的智能家居场景,进而实现了对智能家居场景的精确识别与确定。
在本发明实施例中,可以通过图像采集装置实时采集图像,进而来实时确定采集音频数据时所对应的智能家居场景。还可以是在音频采集装置采集到音频数据之后,对当前的智能家居场景进行识别确定,具体是通过采集图像并分析识别来确定。然而,根据所识别确定出的智能家居场景所对应的语音端点检测的灵敏度来对该音频数据进行切分,本领域技术人员可以根据用户的实际使用习惯来设计采集图像确定智能家居场景,与采集音频数据步骤间的先后顺序。
在本发明实施例中,由于采集到音频数据的智能家居场景可能有多种情况,每种情况下智能家居场景所对应的语音端点检测灵敏度会有所不同。在具体实施过程中,若采集到音频数据的智能家居场景为人体目标的数目大于预设阈值的多人交流的场景,则步骤S103中确定所述智能家居场景对应的语音端点检测的灵敏度,包括:若所述多人交流场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度,并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。
在具体实施过程中,首先,检测采集到音频数据的智能家居场景与预设智能家居场景是否相同。若采集到音频数据的智能家居场景为多人交流场景,且多人交流场景与预设智能家居场景不同,比如,在预设阈值为3,而采集到音频数据的智能家居场景的人体目标数目为5个,且为交流场景,则采集到音频数据的智能家居场景为多人交流场景。在预设智能家居场景为无噪声下的静音场景时,则需将该静音场景对应的语音端点检测的灵敏度进行调高,并将调高后的语音端点检测的灵敏度作为多人交流场景所对应的灵敏度,从而实现了对语音端点检测的灵敏度的自适应调整。由于多人交流场景下,交流声比安静时声音大很多,环境较为嘈杂,不易切分语音,此时,通过调高后的语音端点检测的灵敏度对音频数据进行切分,从而保证了语音切分的正确率。
在本发明实施例中,若采集到音频数据的智能家居场景为人体目标的行为动作预产生噪声的场景,则步骤S103中确定所述智能家居场景对应的语音端点检测的灵敏度,包括:若所述人体目标的行为动作预产生噪声的场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第二灵敏度,并将所述第二灵敏度确定为所述人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。
在具体实施过程中,首先,检测采集到音频数据的智能家居场景与预设智能家居场景是否相同。若采集到音频数据的智能家居场景为人体目标的行为动作预产生噪声的场景,且多人交流场景与预设智能家居场景不同,比如,所采集到的音频数据的智能家居场景为人体目标的行为动作为开门、关窗、炒菜等场景,而预设智能家居场景为无噪声下的静音场景。将该静音场景对应的标准灵敏度进行调高,并将调高后的语音端点检测的灵敏度作为人体目标的行为动作预产生噪声的场景所对应的灵敏度,从而实现了对语音端点检测的灵敏度的自适应调整。由于人体目标的行为动作预产生噪声的场景下,后续将导致噪声的出现,比如,开门声、关窗声、炒菜声等。环境较为嘈杂,不易切分语音,此时,通过调高后的语音端点检测的灵敏度对音频数据进行切分,从而保证了语音切分的正确率。
在本发明实施例中,若采集音频数据的智能家居场景为人体目标相距音频采集装置较近的场景,比如,人体目标离麦克风较近,则可以采用较低的语音端点检测的灵敏度来对音频数据进行切分,便可以实现对音频数据的正确切分。也就是说,将预设智能家居场景所对应的标准灵敏度适当调低,将调低后的语音端点检测的灵敏度,作为人体目标相距音频采集装置较近的场景的语音端点检测的灵敏度来对音频数据进行切分。也就是说,可以根据采集音频数据的智能家居场景与预设智能家居场景间的异同,来适当调低语音端点检测的灵敏度,从而在保证低功耗切分的同时,还实现了对音频数据的正确切分。
当然,在采集音频数据的智能家居场景为除了上述所列的场景外,还可以其它的场景,在具体实施过程中,可以根据采集音频数据的智能家居场景与预设智能家居场景之间的区别与联系,来自适应调整语音端点检测的灵敏度,从而实现在相应智能家居场景下对音频数据的正确切分,进一步保证语音识别结果的正确性。
在本发明实施例中,请参考图4,在步骤S104中确定待识别语音段之后,所述方法还包括:
S401:对所述待识别语音段进行语音识别,确定文本;
S402:对所述文本进行语义解析,确定控制指令;
S403:执行所述控制指令。
在具体实施过程中,步骤S401至步骤S403的具体实现过程如下:
首先,对待识别语音段进行语音识别,确定文本。具体可以是基于声学模型、语言模型、词典等对待识别语音段进行对比得到文本。然后,根据语义解析(如联系上下文),确定控制指令。然后,集成有音频识别装置的智能家居设备将该控制指令发送给相应的智能家居设备,该智能家居设备执行该控制指令,比如,控制指令为“打开主卧空调!”,则主卧空调执行该控制指令,则启动工作。从而在实现了对语音识别的正确识别后,保证了受控智能家居设备的正常工作,提高了用户的使用体验。
基于同一发明构思,请参考图5,本发明实施例还提供了一种语音切分装置,包括:
采集单元10,用于采集获得图像;
第一确定单元20,用于确定所述图像对应的智能家居场景;
第二确定单元30,在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
切分单元40,按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
在本发明实施例中,第一确定单元20用于:
对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
基于所述特征参数,确定所述人体目标所处的智能家居场景。
在本发明实施例中,第一确定单元20还用于:
基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
在本发明实施例中,若所述智能家居场景为所述人体目标的数目大于预设阈值的多人交流场景,第二确定单元30用于:
若所述多人交流场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度,并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。
在本发明实施例中,若所述智能家居场景为所述人体目标的行为动作预产生噪声的场景,第二确定单元30用于:
若所述人体目标的行为动作预产生噪声的场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第二灵敏度,并将所述第二灵敏度确定为所述人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。
在本发明实施例中,所述装置还包括处理单元,所述处理单元用于:
对所述待识别语音段进行语音识别,确定文本;
对所述文本进行语义解析,确定控制指令;
执行所述控制指令。
基于同一发明构思,本发明实施例还提供一种计算机装置,该计算机装置可以是声控遥控器、手机、平板等,该计算机装置可以包括:处理器,处理器用于执行存储器中存储的计算机程序时实现本发明实施例提供的语音切分方法的步骤。
在本发明实施例中,处理器具体可以是中央处理器、特定应用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC),可以是一个或多个用于控制程序执行的集成电路。
在本发明实施例中,该计算机装置还包括与处理器连接的存储器,存储器可以包括只读存储器(英文:Read Only Memory,简称:ROM)、随机存取存储器(英文:RandomAccess Memory,简称:RAM)和磁盘存储器。存储器用于存储处理器运行时所需的数据,即存储有可被处理器执行的指令,处理器通过执行存储器存储的指令,执行如图1所示的方法。其中,存储器的数量为一个或多个。其中,存储器不是必选的功能模块。
其中,采集单元、第一确定单元、第二确定单元、切分单元所对应的实体设备均可以是前述的处理器。该终端设备可以用于执行图1所示的实施例所提供的方法。因此关于该装置中各功能模块所能够实现的功能,可参考图1所示的实施例中的相应描述,不多赘述。
本发明实施例还提供一种可读存储介质,其中,可读存储介质存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如图1所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus flash disk)、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音切分方法,其特征在于,包括:
采集获得图像;
确定所述图像所对应的智能家居场景;
在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
2.如权利要求1所述的方法,其特征在于,确定所述图像所对应的智能家居场景,包括:
对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
基于所述特征参数,确定所述人体目标所处的智能家居场景。
3.如权利要求2所述的方法,其特征在于,基于所述特征参数,确定所述人体目标所处的智能家居场景,包括:
基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
4.如权利要求3所述的方法,其特征在于,若所述智能家居场景为所述人体目标的数目大于预设阈值的多人交流场景,确定所述智能家居场景对应的语音端点检测的灵敏度,包括:
若所述多人交流场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第一灵敏度,并将所述第一灵敏度确定为所述多人交流场景对应的语音端点检测的灵敏度。
5.如权利要求3所述的方法,其特征在于,若所述智能家居场景为所述人体目标的行为动作预产生噪声的场景,确定所述智能家居场景对应的语音端点检测的灵敏度,包括:
若所述人体目标的行为动作预产生噪声的场景与预设智能家居场景不同,则将所述预设智能家居场景对应的标准灵敏度增加至第二灵敏度,并将所述第二灵敏度确定为所述人体目标的行为动作预产生噪声的场景对应的语音端点检测的灵敏度。
6.一种语音切分装置,其特征在于,包括:
采集单元,用于采集获得图像;
第一确定单元,用于确定所述图像对应的智能家居场景;
第二确定单元,在所述智能家居场景下采集到音频数据之后,确定所述智能家居场景对应的语音端点检测的灵敏度;
切分单元,按照与所述灵敏度对应的音频时长对所述音频数据进行切分,确定待识别语音段。
7.如权利要求6所述的装置,其特征在于,所述第一确定单元用于:
对所述图像进行分析,确定表征人体目标和智能家居设备的特征参数;
基于所述特征参数,确定所述人体目标所处的智能家居场景。
8.如权利要求7所述的装置,其特征在于,所述第一确定单元还用于:
基于所述人体目标的数目、位置及行为动作,所述智能家居设备的数目及位置,确定所述人体目标之间的第一关系,以及所述人体目标与所述智能家居设备间的第二关系;
基于所述第一关系和所述第二关系,确定所述人体目标所处的智能家居场景。
9.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任意一项所述的语音切分方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的语音切分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208983.2A CN109448705B (zh) | 2018-10-17 | 2018-10-17 | 一种语音切分方法及装置、计算机装置和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811208983.2A CN109448705B (zh) | 2018-10-17 | 2018-10-17 | 一种语音切分方法及装置、计算机装置和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448705A true CN109448705A (zh) | 2019-03-08 |
CN109448705B CN109448705B (zh) | 2021-01-29 |
Family
ID=65547159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811208983.2A Active CN109448705B (zh) | 2018-10-17 | 2018-10-17 | 一种语音切分方法及装置、计算机装置和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448705B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110186171A (zh) * | 2019-05-30 | 2019-08-30 | 广东美的制冷设备有限公司 | 空调器及其控制方法和计算机可读存储介质 |
CN110310625A (zh) * | 2019-07-05 | 2019-10-08 | 四川长虹电器股份有限公司 | 语音断句方法及系统 |
CN110556107A (zh) * | 2019-08-23 | 2019-12-10 | 宁波奥克斯电气股份有限公司 | 可自动调节语音识别灵敏度的控制方法、系统、空调器及可读存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN112786037A (zh) * | 2019-11-01 | 2021-05-11 | 东芝生活电器株式会社 | 设备操作系统、设备操作方法、信息处理装置及计算机程序 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801326A (zh) * | 2004-12-31 | 2006-07-12 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
CN105261357A (zh) * | 2015-09-15 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 基于统计模型的语音端点检测方法及装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN107993649A (zh) * | 2017-11-29 | 2018-05-04 | 无锡同芯微纳科技有限公司 | 基于五门限的声音端点检测方法及其应用 |
-
2018
- 2018-10-17 CN CN201811208983.2A patent/CN109448705B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1801326A (zh) * | 2004-12-31 | 2006-07-12 | 中国科学院自动化研究所 | 利用增益自适应提高语音识别率的方法 |
CN105261357A (zh) * | 2015-09-15 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 基于统计模型的语音端点检测方法及装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN107993649A (zh) * | 2017-11-29 | 2018-05-04 | 无锡同芯微纳科技有限公司 | 基于五门限的声音端点检测方法及其应用 |
Non-Patent Citations (1)
Title |
---|
杨崇林 等: "强噪声背景下汉语语音端点检测和音节分割", 《哈尔滨工程大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110186171A (zh) * | 2019-05-30 | 2019-08-30 | 广东美的制冷设备有限公司 | 空调器及其控制方法和计算机可读存储介质 |
CN110047487A (zh) * | 2019-06-05 | 2019-07-23 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110047487B (zh) * | 2019-06-05 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
CN110310625A (zh) * | 2019-07-05 | 2019-10-08 | 四川长虹电器股份有限公司 | 语音断句方法及系统 |
CN110556107A (zh) * | 2019-08-23 | 2019-12-10 | 宁波奥克斯电气股份有限公司 | 可自动调节语音识别灵敏度的控制方法、系统、空调器及可读存储介质 |
CN112786037A (zh) * | 2019-11-01 | 2021-05-11 | 东芝生活电器株式会社 | 设备操作系统、设备操作方法、信息处理装置及计算机程序 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109448705B (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109448705A (zh) | 一种语音切分方法及装置、计算机装置和可读存储介质 | |
CN107968689B (zh) | 基于无线通信信号的感知识别方法及装置 | |
US10453457B2 (en) | Method for performing voice control on device with microphone array, and device thereof | |
US11561621B2 (en) | Multi media computing or entertainment system for responding to user presence and activity | |
WO2020083110A1 (zh) | 一种语音识别、及语音识别模型训练方法及装置 | |
EP3579187B1 (en) | Facial tracking method, apparatus, storage medium and electronic device | |
CN106529406B (zh) | 一种获取视频摘要图像的方法和装置 | |
US20200202856A1 (en) | Vision-based presence-aware voice-enabled device | |
CN108198130B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN110309799B (zh) | 基于摄像头的说话判断方法 | |
CN110321863A (zh) | 年龄识别方法及装置、存储介质 | |
CN109711259A (zh) | 指纹录入方法及相关设备 | |
CN109639700A (zh) | 身份识别方法、装置、设备、云端服务器及存储介质 | |
CN104571882A (zh) | 基于终端的用户操作模式的判断方法及装置、终端 | |
CN113609976A (zh) | 一种基于WiFi设备的方向敏感多手势识别系统及方法 | |
CN104754112A (zh) | 用户信息获取方法及移动终端 | |
EP3757878A1 (en) | Head pose estimation | |
CN110262278B (zh) | 智能家电设备的控制方法及装置、智能电器设备 | |
CN117153186A (zh) | 声音信号处理方法、装置、电子设备和存储介质 | |
CN114397958A (zh) | 屏幕控制方法、装置、非触控屏系统和电子装置 | |
CN113028597A (zh) | 语音的控制方法及装置 | |
CN111739515B (zh) | 语音识别方法、设备、电子设备和服务器、相关系统 | |
CN115670397B (zh) | 一种ppg伪迹识别方法、装置、存储介质及电子设备 | |
CN113242163B (zh) | 语音唤醒方法和装置 | |
CN110970019A (zh) | 智能家居系统的控制方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |