CN107170451A - 语音信号处理方法及装置 - Google Patents

语音信号处理方法及装置 Download PDF

Info

Publication number
CN107170451A
CN107170451A CN201710501168.4A CN201710501168A CN107170451A CN 107170451 A CN107170451 A CN 107170451A CN 201710501168 A CN201710501168 A CN 201710501168A CN 107170451 A CN107170451 A CN 107170451A
Authority
CN
China
Prior art keywords
voice signal
voice
truncated
afterbody
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710501168.4A
Other languages
English (en)
Inventor
王永庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201710501168.4A priority Critical patent/CN107170451A/zh
Publication of CN107170451A publication Critical patent/CN107170451A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明的实施方式涉及一种语音信号处理方法及装置。该方法包括:获取语音信号;基于所述语音信号的能量信息,判断所述语音信号是否完整;若所述语音信号不完整,则生成提醒信号。根据本发明的实施方式,可以节约资源,提高语音命令的识别率,从而有效地改善用户体验。

Description

语音信号处理方法及装置
技术领域
本发明的实施方式涉及语音技术领域,更具体地,本发明的实施方式涉及语音信号处理方法及装置。
背景技术
电视语音识别分为近讲和远讲,近讲是利用遥控器对电视进行语音操控,远讲则是直接对电视进行语音操控。一次完整的近讲电视语音识别的步骤是:首先按住遥控器语音按键,然后对准遥控器上的麦克风进行说话,说完后,松开遥控器上的语音按键,语音进行识别,最后电视执行对应的命令。
很多电视用户,尤其是初次使用者或小孩,在按住遥控器上的语音按键对电视进行语音操控时,可能会提前松开遥控器上的语音按键,这样会导致语音识别结果不准确。在相关的现有技术中,对于上述问题给出的解决方案是,当用户松开遥控器物理按键时,遥控器录音系统继续工作,延长一段录音时间。这样,用户即便是提前松开了遥控器的语音按键,遥控器上的麦克风实际还在工作,继续接收用户的语音。
但是,本发明的发明人在研究中发现:1.延长遥控器录音工作时间是针对所有用户的,没有分析用户习惯,无针对性,然而并不是所有用户都有提前松开遥控器语音按键的习惯,这样会浪费资源。2.用户并不知道松开遥控器语音按键后还在录音,这样会影响用户体验。3.延长录音时间的长短不好控制,时间过长可能会导致新语音识别错误。
发明内容
为此,本发明的实施方式提供了一种语音信号处理方法及装置,以解决现有技术中由于直接延长遥控器录音时间而导致的资源浪费和语音识别错误的问题。
为了实现上述目的,本发明的实施方式提供如下技术方案:
在本发明的实施方式的第一方面中,提供了一种语音信号处理方法,其特征在于,包括:获取语音信号;基于所述语音信号的能量信息,判断所述语音信号是否完整;若所述语音信号不完整,则生成提醒信号。
在本发明的一个实施例中,基于所述语音信号的能量信息,判断所述语音信号是否完整,包括:基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
在本发明的另一实施例中,基于所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;基于所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。
在本发明的又一个实施例中,根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
在本发明的再一个实施例中,所述预设时间段为150毫秒到200毫秒之间,所述预设倍数为0.4;所述指定时间段为150毫秒到200毫秒之间,所述指定倍数为0.4。
在本发明的实施方式的第二方面中,提供了一种语音信号处理装置,其特征在于,包括:获取单元,用于获取语音信号;判断单元,用于基于所述语音信号的能量信息,判断所述语音信号是否完整;生成单元,用于若所述语音信号不完整,则生成提醒信号。
在本发明的一个实施例中,所述判断单元具体用于:基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
在本发明的另一实施例中,所述判断单元具体用于:根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。
在本发明的又一个实施例中,其中所述获取单元包括:所述判断单元具体用于:判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
在本发明的再一个实施例中,所述预设时间段为150毫秒到200毫秒之间,所述预设倍数为0.4;所述指定时间段为150毫秒到200毫秒之间,所述指定倍数为0.4。
在本发明的实施方式的第三方面中,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例上述任一项的语音信号处理方法。
在本发明的实施方式的第四方面中,提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本发明实施例上述任一项的语音信号处理方法。
根据本发明的实施方式,对于用户晚按或者提前松开语音按键造成获取的语音信号不完整、从而导致语音识别结果因丢字不完整的缺陷,基于语音信号的能量信息可以检测这种情况的发生,通过生成提醒信号,对用户给出友好提示,节约了资源,提高语音命令的识别率,有效地改善用户体验。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明的一实施例提供的语音信号处理方法;
图2为本发明的一实施例提供的尾部截断语音波形示意图;
图3为本发明的另一实施例提供的语音信号处理方法;
图4为本发明的另一实施例提供的语音信号处理装置;
图5为本发明的另一实施例提供的语音信号处理装置;
图6为本发明的另一实施例提供的执行语音信号处理方法的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
图1是本发明一实施例提供的一种语音信号处理方法的流程图,该语音信号处理方法可应用于各种执行用户语音命令的场景,如电视、手机等电子设备的语音控制,下面以电视应用场景为例说明该语音信号处理方法的流程。
具有语音功能的电视,用户可以通过语音输入命令,随后语音信号被传送到服务器端语音进行识别,最后电视根据服务器返回的识别结果执行对应的命令。
该方法可以包括以下几个步骤:
步骤110:获取语音信号;
用于采集语音信号的麦克风的设置位置可以是在遥控器上的各种位置,如上端,下部,等等,也可以设置在其他电视配件上,可选的,也可设置在电视本体上。
可选的,其中通过触发并维持语音信号获取功能,来获取所述语音信号。如通过按下语音键来触发并维持语音信号获取功能,当语音键被按下时,设置于遥控器的麦克风开始获取语音信号,松开时,则获取结束。对于具有语音功能的电视,电视遥控器上通常设置语音按键,用户按住遥控器上的语音按键,然后对准遥控器上的麦克风进行说话,说完后,松开遥控器上的语音按键,即完成了对语音信号的获取。
步骤120:基于所述语音信号的能量信息,判断所述语音信号是否完整;
可选的,基于所述语音信号的能量信息,判断所述语音信号是否完整,包括:基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
可选的,基于所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;基于所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。
其中,所述预设时间段和指定时间段根据实际情况设置,可以相同也可以不同。
在用户按下语音键来触发并维持语音信号获取功能时,用户说出语音命令需要和按下和松开语音案件的动作进行配合。理想情况下,按下语音按键后开始说话,说完之后松开语音按键,这样用户的全部语音命令能够被获取获取,从而识别出用户的意图。按下语音按键过晚或者松开语音按键过早,都会导致一部分语音命令无法被麦克风获取得到,容易导致无法正确识别用户的意图。
如图2所示为尾部阶段语音波形示意图,也即提前松开语音按键,导致本次识别的语音数据结尾处被截断。在用户松开语音按键之后,还说了一部分语音命令,这部分命令则被遗漏了。对波形进行直观观察,可以看出波形在尾部结束处的幅度还维持在一定的高值,而不是像正常语音结束处的衰减情形,利用检测算法,可以检测本次识别语音数据是否被截断,可以判断该用户在近讲操控电视时是否发生了提前松开语音按键的情况。对于用户按下语音键过晚的情况,即获取的语音前端被截断的情况,与图2所述的语音尾部被截断类似,即语音信号前端的波形起始即维持在一定的高值,而不是慢慢增加。能量信息能够较好的体现波形截断的情况,对于语音信号前端或者尾部的能量信息进行计算,结合整段语音信号的能量信息,可以判断语音信号的前端或者尾部是否存在能量的异常变化,进而判断截断是否产生,也即语音信号是否存在不完整。
可选的,语音按键可以是设置于遥控器或电视本体上的实体键,或设置于遥控器或电视本体上的虚拟键。遥控器上可以设置一个显示屏,采用电容屏或电阻屏,实现触控的操作。实体键可以与虚拟键同时设置,也可以仅设置实体键或虚拟键。
可选的,其中所述触发并维持语音信号获取功能包括:激活控制语音获取功能的按键,并维持该按键处于激活状态。
如上文所述,常规情况下,用户按住语音按键,以维持语音获取功能。也可以设置用户按一下语音按键激活语音获取功能,再按一次语音按键取消语音获取功能;还可以是长按一段时间松开,语音获取的时间段按照长按的时长按比例延长(即停止长按之后,还按比例获取一段时间的语音)。此处触发并维持语音信号获取功能不限于具体的形式,具有激活和维持语音信号获取功能即可。
步骤130:若所述语音信号不完整,则生成提醒信号。
如果发生了上述的语音信号不完整,前端或结尾处被截断,给出友好的提示语,改善用户体验。如在检测到用户提前松开了语音按键,导致语音信号结尾处被截断时,给出“不要提前松开按键”等类似的正确操控提示语;如果检测到用户晚开始按语音按键,导致语音信号前端被截断时,给出“请按下语音按键再开始说话”等类似的正确操控提示语。操控提示语的内容不做限制,能够向用户表达正确的操作提示即可,引导用户进行正确的操作。
可选的,向用户反馈所述语音信号不完整的信息的方式,可以是可视和/或可听的。如可以直接在电视屏幕或遥控器屏幕上显示操作提示语,或以声音播放的形式播放上述提示语,扬声器可利用电视本体扬声器,或设置于遥控器上的遥控器。
可选的,向用户反馈所述语音信号不完整的信息后,还可以设置下一次获取语音信号时对该用户采取相应的措施,例如,对于本次获取的语音信号结尾处被截取,则说明用户松开语音按键过早,因此可以设置下次用户松开语音按键后,还持续获取一段时间的语音信号,也即不立刻停止语音获取功能,而是持续再获取一段时间,以尽量避免具有提前松开语音按键习惯的该用户的语音命令继续被截断,而导致识别不准确。
该实施例中,对于用户晚按或者提前松开语音按键造成获取的语音信号不完整、从而导致语音识别结果因丢字不完整的缺陷,可以基于语音信号的能量信息检测这种情况的发生,并给出友好提示,节约了资源,提高语音命令的识别率,有效地改善用户体验。
图3是本发明另一实施例提供的一种语音信号处理方法的流程图。该实施例中,大部分步骤与前一实施例相同,不同之处在于对所述步骤S120进行如下具体描述。
根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;
根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
电视语音识别系统中是按包处理数据的,因此,我们只需要检测最后一包的数据是否截断即可,但为了精确,需要计算整个语音数据的能量作为参考值。
可选的,所述步骤S120包括:
步骤310:语音分包:将一定时间长度的语音信号数据作为一包,按包进行处理。
步骤320:计算本包语音信号能量:对本包语音信号数据点的值做平方和即为本包能量;
步骤330:计算所有语音信号的平均能量Eave:累加包能量,除以语音数据所有包的总长度即为平均能量Eave
步骤340:计算最后一包语音信号尾部平均能量Eend:对于最后一包语音信号,计算本包尾部预设时间段THDend长度的能量Eend,预设时间段THDend是一个经验值,一般取最后一包150-200ms,即计算最后一包语音信号尾部150-200ms长度的能量Eend
步骤350:判断语音信号是否截断:如果Eave大于语音阈值isSpeech,并且Eend大于THDcut倍的Eave,其中THDcut为预设倍数,则该语音为截断。一般的,THDcut是一个大于0小于1的数,经验值为0.4。这里的语音阈值isSpeech即为判断所获取的语音信号到底是不是语音的阈值,对于用户没有说话的情况下,获取的语音信号通常为噪声,其平均能量较小,通过平均能量与语音阈值isSpeech的比较,对于Eave小于语音阈值isSpeech,即判断为没有获取到正常的语音信号,对于虽然用户说话了但采集的语音信号能量非常小,无法正常进行后续识别等处理的,也通过与语音阈值isSpeech的比较,来过滤掉无法进行后续处理的那些语音信号,对于这些语音信号,判断其是否截断并没有意义,也就是说,本发明中的对语音信号是否完整的判断是对于有效语音信号进行的。
上述步骤判断的是获取的语音信号是否结尾处被截断,而对于语音信号前端是否被截断,可以采用类似的基于能量的判断方式,参数的设置也可以相同,如前文所述指定时间段也可设为150-200ms,所述指定倍数也可设为大于0且小于1,经验值为0.4,在此不再赘述。
该实施例中,对于用户晚按或者提前松开语音按键造成获取的语音信号不完整、从而导致语音识别结果因丢字不完整的缺陷,可以根据能量有效地检测这种情况的发生,并给出友好提示,节约了资源,提高语音命令的识别率,有效地改善用户体验。
图4是本发明另一实施例提供的一种语音信号处理装置,包括:
获取单元410,用于获取语音信号;
可选的,所述获取单元410通过触发并维持语音信号获取功能,来获取所述语音信号。
判断单元420,用于基于所述语音信号的能量信息,判断所述语音信号是否完整;
可选的,所述判断单元420具体用于:基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
可选的,所述判断单元420具体用于:根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。其中,所述预设时间段和指定时间段根据实际情况设置,可以相同也可以不同。
如上文所述,常规情况下,用户按住语音按键,以维持语音获取功能。也可以设置用户按一下语音按键激活语音获取功能,再按一次语音按键取消语音获取功能;还可以是长按一段时间松开,语音获取的时间段按照长按的时长按比例延长(即停止长按之后,还按比例获取一段时间的语音)。此处触发并维持语音信号获取功能不限于具体的形式,只是限定了有两个操作,激活和维持语音信号获取功能。
生成单元430,用于若所述语音信号不完整,则生成提醒信号。
可选的,其中所述生成单元430具体用于:向用户反馈所述语音信号不完整的信息。
可选的,向用户反馈所述语音信号不完整的信息的方式,可以是可视和/或可听的。如可以直接在电视屏幕或遥控器屏幕上显示操作提示语,或以声音播放的形式播放上述提示语,扬声器可利用电视本体扬声器,或设置于遥控器上的遥控器。
该实施例中,对于用户晚按或者提前松开语音按键造成获取的语音信号不完整、从而导致语音识别结果因丢字不完整的缺陷,可以检测这种情况的发生,并给出友好提示,节约了资源,提高语音命令的识别率,有效地改善用户体验。
图5是本发明另一实施例提供的一种语音信号处理装置。该实施例中,大部分步骤与前一实施例相同,不同之处在于所述判断单元420具体用于:
判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;
判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
可选的,所述判断单元420包括:
分包子单元510:用于语音分包:将一定时间长度的语音信号数据作为一包,按包进行处理。
第一计算子单元520:用于计算本包语音信号能量:对本包语音信号数据点的值做平方和即为本包能量;
第二计算子单元530:用于计算所有语音信号包平均能量Eave:累加包能量,除以语音数据所有包的总长度即为平均能量Eave
第三计算子单元540:用于计算最后一包语音信号尾部平均能量Eend:对于最后一包语音信号,计算本包尾部预设时间段THDend长度的能量Eend,THDend是一个经验值,一般取最后一包150-200ms,即计算最后一包语音信号150-200ms长度的能量Eend
判断子单元550:用于判断语音信号是否截断:如果Eave大于语音阈值isSpeech,并且Eend大于THDcut倍的Eave,其中THDcut为预设倍数,则该语音为截断。一般的,THDcut是一个大于0小于1的数,经验值为0.4。
上述判断的结果是获取的语音信号是否结尾处被截断,而对于语音信号前端是否被截断,可以采用类似的基于能量的判断方式,在此不再赘述。
该实施例中,对于用户晚按或者提前松开语音按键造成获取的语音信号不完整、从而导致语音识别结果因丢字不完整的缺陷,可以根据能量有效地检测这种情况的发生,并给出友好提示,节约了资源,提高语音命令的识别率,有效地改善用户体验。
本发明另一实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行本发明实施例上述任一项语音信号处理方法。
本发明实施例具有与方法实施例相应的有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
如图6是本发明另一实施例提供的执行语音信号处理方法的电子设备的硬件结构示意图,如图6所示,该电子设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为例。
执行语音信号处理方法的电子设备还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明的实施例中的语音信号处理方法对应的单元(例如,附图4所示的获取单元410、判断单元420、生成单元430)。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例图标显示方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储获取的应用程序的提醒事项的数量信息等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至列表项操作的处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与语音信号处理装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的语音信号处理方法。
上述产品可执行本发明的实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明的实施例所提供的方法。
本发明的实施例的电子设备可以以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有提醒事项记录功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元(模块)可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的原理或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种语音信号处理方法,其特征在于,包括:
获取语音信号;
基于所述语音信号的能量信息,判断所述语音信号是否完整;
若所述语音信号不完整,则生成提醒信号。
2.如权利要求1所述的方法,其特征在于,基于所述语音信号的能量信息,判断所述语音信号是否完整,包括:
基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
3.如权利要求2所述的方法,其特征在于,基于所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:
根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;
基于所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:
根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。
4.如权利要求3所述的方法,其特征在于,
根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断,包括:
判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;
根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断,包括:
判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
5.如权利要求4所述的方法,其特征在于,
所述预设时间段为150毫秒到200毫秒之间,所述预设倍数为0.4;
所述指定时间段为150毫秒到200毫秒之间,所述指定倍数为0.4。
6.一种语音信号处理装置,其特征在于,包括:
获取单元,用于获取语音信号;
判断单元,用于基于所述语音信号的能量信息,判断所述语音信号是否完整;
生成单元,用于若所述语音信号不完整,则生成提醒信号。
7.如权利要求6所述的方法,其特征在于,所述判断单元具体用于:基于所述语音信号的能量信息,判断所述语音信号尾部和所述语音信号前端中的至少一个是否被截断;如果所述语音信号尾部和所述语音信号前端中的至少一个被截断,确定所述语音信号不完整。
8.如权利要求7所述的方法,其特征在于,所述判断单元具体用于:
根据所述语音信号尾部预设时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号尾部是否被截断;
根据所述语音信号前端指定时间段内的能量信息和所述语音信号的能量信息,判断所述语音信号前端是否被截断。
9.如权利要求8所述的方法,其特征在于,所述判断单元具体用于:
判断所述语音信号尾部预设时间段内的平均能量是否大于所述语音信号的平均能量的预设倍数;如果所述语音信号尾部预设时间段内的平均能量大于所述语音信号的平均能量的预设倍数,确定所述语音信号尾部被截断;所述预设倍数大于0且小于1;
判断所述语音信号前端指定时间段内的平均能量是否大于所述语音信号的平均能量;如果所述语音信号前端指定时间段内的平均能量大于所述语音信号的平均能量的指定倍数,确定所述语音信号前端被截断;所述指定倍数大于0且小于1。
10.如权利要求9所述的方法,其特征在于,
所述预设时间段为150毫秒到200毫秒之间,所述预设倍数为0.4;
所述指定时间段为150毫秒到200毫秒之间,所述指定倍数为0.4。
11.一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任一项所述的语音信号处理方法。
12.一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任一项所述的语音信号处理方法。
CN201710501168.4A 2017-06-27 2017-06-27 语音信号处理方法及装置 Pending CN107170451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710501168.4A CN107170451A (zh) 2017-06-27 2017-06-27 语音信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710501168.4A CN107170451A (zh) 2017-06-27 2017-06-27 语音信号处理方法及装置

Publications (1)

Publication Number Publication Date
CN107170451A true CN107170451A (zh) 2017-09-15

Family

ID=59826911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710501168.4A Pending CN107170451A (zh) 2017-06-27 2017-06-27 语音信号处理方法及装置

Country Status (1)

Country Link
CN (1) CN107170451A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN110931047A (zh) * 2019-12-06 2020-03-27 广州国音智能科技有限公司 语音数据采集方法、装置、采集终端及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894565A (zh) * 2009-05-19 2010-11-24 华为技术有限公司 语音信号修复方法和装置
US20150030017A1 (en) * 2012-03-23 2015-01-29 Dolby Laboratories Licensing Corporation Voice communication method and apparatus and method and apparatus for operating jitter buffer
CN104603874A (zh) * 2012-08-31 2015-05-06 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
CN104780263A (zh) * 2015-03-10 2015-07-15 广东小天才科技有限公司 一种语音断点延长判断的方法及装置
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894565A (zh) * 2009-05-19 2010-11-24 华为技术有限公司 语音信号修复方法和装置
US20150030017A1 (en) * 2012-03-23 2015-01-29 Dolby Laboratories Licensing Corporation Voice communication method and apparatus and method and apparatus for operating jitter buffer
CN104603874A (zh) * 2012-08-31 2015-05-06 瑞典爱立信有限公司 用于语音活动性检测的方法和设备
CN104780263A (zh) * 2015-03-10 2015-07-15 广东小天才科技有限公司 一种语音断点延长判断的方法及装置
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105845138A (zh) * 2016-03-25 2016-08-10 乐视控股(北京)有限公司 语音信号处理方法及装置
CN110931047A (zh) * 2019-12-06 2020-03-27 广州国音智能科技有限公司 语音数据采集方法、装置、采集终端及可读存储介质

Similar Documents

Publication Publication Date Title
CN105635387B (zh) 一种天线控制方法及移动终端
EP2669889A2 (en) Method and apparatus for executing voice command in electronic device
CN105139858B (zh) 一种信息处理方法及电子设备
CN107910014A (zh) 回声消除的测试方法、装置及测试设备
WO2022022536A1 (zh) 音频播放方法、音频播放装置和电子设备
CN110265064A (zh) 音频爆音检测方法、装置和存储介质
CN108564948A (zh) 一种语音识别方法及电子设备
CN109599108A (zh) 一种听写辅助方法及听写辅助装置
CN104363205B (zh) 应用登录方法和装置
CN111491249A (zh) 一种耳机入耳状态的检测方法、装置、耳机及存储介质
US10950221B2 (en) Keyword confirmation method and apparatus
CN106228047B (zh) 一种应用程序图标处理方法及终端设备
CN109561222A (zh) 一种语音数据的异常检测方法及装置
CN107170451A (zh) 语音信号处理方法及装置
CN109364477A (zh) 基于语音控制进行打麻将游戏的方法及装置
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
CN109243488A (zh) 音频检测方法、装置及存储介质
CN109686370A (zh) 基于语音控制进行斗地主游戏的方法及装置
CN111161746B (zh) 声纹注册方法及系统
CN109256145A (zh) 基于终端的音频处理方法、装置、终端和可读存储介质
CN105920803A (zh) 一种播放方法和耳机
CN108804648A (zh) 一种基于语音搜索的生字词收录方法及电子设备
CN115665319B (zh) 基于无线耳机的应用控制方法、装置、设备以及存储介质
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
CN107888776A (zh) 语音播报方法及装置、计算机装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Room 301-1, Room 301-3, Area B2, Animation Building, No. 126 Animation Road, Zhongxin Eco-city, Tianjin Binhai New Area, Tianjin

Applicant after: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

Address before: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant before: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address after: 300453 Tianjin Binhai New Area, Tianjin Eco-city, No. 126 Animation and Animation Center Road, Area B1, Second Floor 201-427

Applicant after: Xinle Visual Intelligent Electronic Technology (Tianjin) Co.,Ltd.

Address before: 300467 Tianjin Binhai New Area, Tianjin ecological city animation Middle Road, building, No. two, B1 District, 201-427

Applicant before: LE SHI ZHI XIN ELECTRONIC TECHNOLOGY (TIANJIN) Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination