CN114333810A - 一种控制方法、装置和录音设备 - Google Patents
一种控制方法、装置和录音设备 Download PDFInfo
- Publication number
- CN114333810A CN114333810A CN202011043943.4A CN202011043943A CN114333810A CN 114333810 A CN114333810 A CN 114333810A CN 202011043943 A CN202011043943 A CN 202011043943A CN 114333810 A CN114333810 A CN 114333810A
- Authority
- CN
- China
- Prior art keywords
- recording
- instruction
- control instruction
- executing
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供了一种控制方法、装置和录音设备,其中,所述方法包括:录音设备获取语音数据;对所述语音数据进行语音识别,确定对应的控制指令;执行所述控制指令对应的控制操作;进而使得用户能够通过语音控制录音设备,简化了用户与录音设备交互过程中的操作。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种控制方法、装置和录音设备。
背景技术
近年来,录音设备作为专业领域的产品,发展迅速并进入大众领域。记者、学生、教师等各种群体,通常都需要录音设备进行录音。此外各种电视节目、电影、音乐等录制也需要使用到录音设备。
在使用录音设备的过程中,可以控制录音设备开始录音、暂停录音、切换至各种模式、对录音数据进行后处理等等。然而这些操作都需要用户手动操作录音设备的的物理按钮或屏幕上的按钮,十分繁琐。
发明内容
本发明实施例提供一种控制方法,以简化用户与录音设备交互过程中的操作。
相应的,本发明实施例还提供了一种控制装置和一种录音设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种控制方法,具体包括:录音设备获取语音数据;对所述语音数据进行语音识别,确定对应的控制指令;执行所述控制指令对应的控制操作。
可选地,所述录音设备设置有语音助手;所述对所述语音数据进行语音识别,确定对应的控制指令,包括:所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
可选地,在所述执行所述控制指令对应的控制操作之后,所述的方法还包括:合成执行结果对应的语音播报数据并播报。
可选地,所述执行所述控制指令对应的控制操作,包括:在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;当所述控制指令为转写指令时,执行转写操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启录音指令时,执行开启录音操作;当所述控制指令为暂停录音指令时,执行暂停录音操作;当所述控制指令为继续录音指令时,执行继续录音操作;当所述控制指令为关闭录音指令时,执行关闭录音操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
本发明实施例还公开了一种控制装置,具体包括:获取模块,用于获取语音数据;识别模块,用于对所述语音数据进行语音识别,确定对应的控制指令;操作执行模块,用于执行所述控制指令对应的控制操作。
可选地,所述录音设备设置有语音助手;所述识别模块,用于调用所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,调用所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
可选地,所述的装置还包括:播报模块,用于在所述执行所述控制指令对应的控制操作之后,合成执行结果对应的语音播报数据并播报。
可选地,所述操作执行模块,包括:编辑子模块,用于在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;转写子模块,用于在所述录音设备在录音过程中或录音结束后,当所述控制指令为转写指令时,执行转写操作。
可选地,所述操作执行模块,包括:录音控制子模块,当所述控制指令为开启录音指令时,执行开启录音操作;当所述控制指令为暂停录音指令时,执行暂停录音操作;当所述控制指令为继续录音指令时,执行继续录音操作;当所述控制指令为关闭录音指令时,执行关闭录音操作。
可选地,所述操作执行模块,包括:翻译子模块,用于当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
可选地,所述操作执行模块,包括:模式切换子模块,用于当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如本发明实施例任一所述的控制方法。
本发明实施例还公开了一种录音设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取语音数据;对所述语音数据进行语音识别,确定对应的控制指令;执行所述控制指令对应的控制操作。
可选地,所述录音设备设置有语音助手;所述对所述语音数据进行语音识别,确定对应的控制指令,包括:调用所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,调用所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
可选地,在所述执行所述控制指令对应的控制操作之后,还包含用于进行以下操作的指令:合成执行结果对应的语音播报数据并播报。
可选地,所述执行所述控制指令对应的控制操作,包括:在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;当所述控制指令为转写指令时,执行转写操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启录音指令时,执行开启录音操作;当所述控制指令为暂停录音指令时,执行暂停录音操作;当所述控制指令为继续录音指令时,执行继续录音操作;当所述控制指令为关闭录音指令时,执行关闭录音操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
本发明实施例包括以下优点:
本发明实施例中,录音设备可以获取语音数据,然后对所述语音数据进行语音识别,确定对应的控制指令并执行所述控制指令对应的控制操作;进而使得用户能够通过语音控制录音设备,简化了用户与录音设备交互过程中的操作。
附图说明
图1是本发明的一种控制方法实施例的步骤流程图;
图2是本发明的一种控制方法可选实施例的步骤流程图;
图3是本发明的另一种控制方法可选实施例的步骤流程图;
图4是本发明的又一种控制方法可选实施例的步骤流程图;
图5是本发明实施例的一种控制方法处理过示意图;
图6是本发明的一种控制装置实施例的结构框图;
图7是本发明的一种控制装置可选实施例的结构框图;
图8根据一示例性实施例示出的一种录音设备的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
现有技术中,用户与录音设备的交互过程中,如控制录音设备开始录音、暂停录音、切换至各种模式、对录音数据进行后处理等等;都需要用户手动操作录音设备的的物理按钮或屏幕上的按钮,十分繁琐。
因此本发明实施例提供一种控制方法,录音设备可以根据用户发出的语音指令,执行对应的控制操作;进而使得用户能够通过语音控制录音设备,简化了用户与录音设备交互过程中的操作。
其中,所述录音设备可以指具有录音功能的设备,如录音笔、翻译笔、翻译机等,本发明实施例对此不作限制。
所述录音设备中可以设置有语音采集模块,用于采集语音数据;所述语音采集模块可以包括麦克风阵列,所述麦克风阵列可以包括全向麦克风阵列和/或定向麦克风阵列,本发明实施例对此不作限制。
此外,所述录音设备可以设置显示屏幕,也可以不设置显示屏幕;所述录音设备可以设置物理按键,也可以不设置物理按键;本发明实施例对此不作限制。
参照图1,示出了本发明的一种控制方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、录音设备获取语音数据。
步骤104、对所述语音数据进行语音识别,确定对应的控制指令。
步骤106、执行所述控制指令对应的控制操作。
本发明实施例中,当用户需要控制录音设备时,如控制录音设备开始录音、暂停录音、切换至各种模式、对录音数据进行后处理等等,可以发出语音指令。对应的,录音设备的语音采集模块可以采集用户发出的语音指令所对应的语音数据,然后可以对所述语音数据进行语音识别,确定该语音数据对应的控制指令。
其中,对所述语音数据进行语音识别的方式可以包括多种,例如:基于动态时间规整的算法、基于参数模型的隐马尔可夫模型的方法、基于非参数模型的矢量量化等,另外,还有基于人工神经网络的算法等,本发明实施例对此不作限制。
在确定控制指令后,录音设备可以执行该控制指令对应的控制操作;所述控制指令可以包括多种,如:开启录音指令、关闭录音指令等;对应的控制操作也可以包括多种,如开启录音操作、关闭录音操作等等。
综上,本发明实施例中,录音设备可以获取语音数据,然后对所述语音数据进行语音识别,确定对应的控制指令并执行所述控制指令对应的控制操作;进而使得用户能够通过语音控制录音设备,简化了用户与录音设备交互过程中的操作。
本发明实施例中,所述录音设备中可以设置有语音助手,可以由语音助手执行对所述语音数据进行语音识别,确定对应的控制指令。
参照图2,示出了本发明的一种控制方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤202、录音设备中的语音助手获取语音数据。
本发明实施例中,录音设备中语音助手开启后,所述语音助手可以进入监听状态,以监听用户是否需要唤醒语音助手,以由语音助手识别用户的控制指令。其中,可以预先设置预设唤醒词,所述预设唤醒词可以用于唤醒语音助手;所述预设唤醒词可以由录音设备自动设置,也可以由录音设备按照用户自定义唤醒词设置,本发明实施例对此不作限制。
本发明的一个示例中,用户可以先说唤醒词,唤醒语音助手后;再说语音指令,来实现控制录音设备;例如,用户:“小搜”,语音助手响应如“我在”后,用户“开始录音”。进而在所述语音助手处于监听状态过程中,录音设备中的语音助手获取语音数据,并监听所述语音数据中是否存在预设唤醒词;当监听到所述语音数据中存在预设唤醒词时,唤醒所述语音助手。然后再次执行步骤202:获取语音数据,以及执行步骤204。
本发明的一个示例中,用户可以连说唤醒词和语音指令,例如“小搜,开始录音”。进而在所述语音助手处于监听状态过程中,录音设备中的语音助手获取语音数据,并监听所述语音数据中是否存在预设唤醒词;当监听到所述语音数据中存在预设唤醒词时,可以唤醒所述语音助手;然后执行步骤204。
当然,也可以无需设置唤醒词。进而用户可以直接输入语音指令,例如“开始录音”。进而在语音助手处于监听状态过程中,录音设备中的语音助手获取语音数据,并唤醒所述语音助手;然后执行步骤204。
步骤204、录音设备中的语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或所述语音助手将所述语音数据发送至服务器,由服务器对所述语音数据进行语音识别,确定对应的控制指令;接收服务器返回的控制指令。
本发明的一个示例中,可以由语音助手自身进行语音识别,确定对应的控制指令。其中,所述语音助手可以借助录音设备本地资源如算法、模型等,对所述语音数据进行语音识别,确定对应的控制指令。
本发明的一个示例中,语音助手可以借助服务器进行语音识别,确定对应的控制指令。其中,所述语音助手可以将所述语音数据发送至服务器;然后由服务器对所述语音数据进行语音识别,确定对应的控制指令;再将控制指令返回给语音助手;进而语音助手可以接收服务器返回的控制指令。
当然,当语音助手在本地无法确定控制指令时,可以借助服务器进行语音识别,确定对应的控制指令。
步骤206、录音设备的处理模块执行所述控制指令对应的控制操作。
本发明实施例中,所述录音设备可以包括处理模块,语音助手确定控制指令后,可以将所述控制指令发送给处理模块;然后由处理模块执行所述控制指令对应的控制操作。
综上,本发明实施例中,所述录音设备设置有语音助手,可以由所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;无需上传到服务器,避免网络延迟造成的对录音设备进行控制的延迟,提高了对录音设备进行控制的的效率。
其次,本发明实施例中,所述语音助手也可以将所述语音数据发送至服务器,由服务器对所述语音数据进行语音识别,确定对应的控制指令;接收服务器返回的控制指令;进而能够降低录音设备的本地运算,且由于服务器的计算资源丰富以及计算能力强,还能够提高确定控制指令的准确性。
以下针对录音设备基于不同的控制指令执行不同的控制操作进行说明。
参照图3,示出了本发明的另一种控制方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤302、录音设备获取语音数据。
步骤304、对所述语音数据进行语音识别,确定对应的控制指令。
其中,步骤302-步骤304,与上述步骤202-步骤204类似,在此不在赘述。
其中,所述控制指令所包括的指令,可以根据录音设备的功能确定;可以与录音设备的功能对应。例如,录音设备包括录音功能,所述控制指令可以包括用于控制录音设备录音的指令,如开启录音指令、暂停录音指令、继续录音指令、关闭录音指令等。又如,录音设备包括翻译功能,所述控制指令可以包括用于控制录音设备翻译的指令,如开启翻译功能指令、关闭翻译功能指令等。又如,录音设备包括同声传译功能,所述控制指令可以包括用于控制录音设备同声传译的指令,如开启同声传译功能、关闭同声传译功能指令等。又如,录音设备包括多种录音模式,所述控制指令可以包括用于切换控制录音设备模式的指令,如会议模式切换指令、听课模式切换指令、采访模式切换指令等。又如,录音设备包括后处理功能,所述控制指令可以包括用于控制录音设备对语音数据进行后处理的指令,如编辑指令,所述编辑指令可以包括多种,如语音数据删除指令、添加音效指令等等;又如包括转写指令,用于将语音数据转写为对应的文本信息。当然,当录音设备还包括其他功能如备忘录功能时,所述控制指令可以包括用于控制录音设备其他功能的指令,如开启备忘录功能、关闭备忘录功能指令等,本发明实施例对此不作限制。
当控制指令不同的,录音设备所执行的操作也对应不同,可以如下:
步骤306、当所述控制指令为开启录音指令时,执行开启录音操作。
当所述控制指令为开启录音指令时,录音设备执行开启录音操作;进而录音设备的录音功能被开启,录音设备进入录音状态。从而用户可以通过语音指令,实现开启录音设备的录音功能;然后采用录音设备进行录音。
步骤308、当所述控制指令为暂停录音指令时,执行暂停录音操作。
当控制指令为暂停录音指令时,录音设备可以执行暂停录音操作,进而录音设备暂停录音。从而在采用录音设备录音过程中,用户可以通过语音指令,实现控制录音设备暂停录音。
例如,预设唤醒词为“小搜”。公司部门例会的场景:进入播放演示视频或者中途休息时间,需要暂停录音。会议组织者可以发出语音指令:“小搜,小搜”,“暂停录音”;然后录音设备自动暂停录音。
步骤310、当所述控制指令为继续录音指令时,执行继续录音操作。
当控制指令为继续录音指令时,录音设备可以执行继续录音操作,进而录音设备继续录音。从而在采用录音设备录音过程中录音设备暂停录音后,用户可以通过语音指令,实现控制录音设备继续录音。
例如,在上述公司部门例会的场景中,大家继续开会的时候,会议组织者可以说:“小搜,小搜,继续录音;录音设备即可恢复录音。
步骤312、当所述控制指令为关闭录音指令时,执行关闭录音操作。
当所述控制指令为关闭录音指令时,录音设备执行关闭录音操作;进而录音设备的录音功能被关闭。从而用户可以通过语音指令,实现关闭录音设备的录音功能。
本发明实施例中,用户可以通过语音开启录音设备的录音功能、关闭录音设备的录音功能;以及在录音过程中,通过语音控制录音设备暂停录音和继续录音;从而无需用户手动触发录音设备中的按键,即可实现控制录音设备录音,操作简便,能够提高用户体验。此外,尤其在录音设备与用户存在一定距离时,本发明实施例通过语音控制录音设备录音,显得尤其简便。
步骤314、当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作。
当所述控制指令为开启翻译功能指令时,录音设备可以执行开启翻译功能的操作;进而录音设备的翻译功能被开启。若当前处于录音过程中,则可以在每采集一段语音数据后对该段语音数据翻译;若当前是录音结束后,则可以对在先的录制的语音数据进行翻译。
步骤316、当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作。
当所述控制指令为关闭翻译功能指令时,录音设备可以执行关闭翻译功能的操作;进而录音设备的翻译功能被关闭。若当前处于录音过程中,则可以停止对每段采集的语音数据进行翻译;若当前是录音结束后,则可以停止对在先的录制的语音数据进行翻译。
步骤318、当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作。
当所述控制指令为开启同声传译功能指令时,录音设备可以执行开启同声传译功能的操作;进而录音设备的同声传译功能被开启;从而录音设备可以实时的对当前采集的语音数据进行同声传译。
步骤320、当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
当所述控制指令为关闭同声传译功能指令时,录音设备可以执行关闭同声传译功能的操作;进而录音设备的同声传译功能被关闭;从而录音设备可以停止实时的对当前采集的语音数据进行同声传译。
本发明实施例中,用户可以通过语音开启/关闭录音设备的翻译功能,以及开启/关闭录音设备的同声传译功能;从而无需用户手动触发录音设备中的按键,即可实现控制录音设备翻译/同声传译,操作简便,能够提高用户体验。此外,尤其在录音设备与用户存在一定距离时,本发明实施例通过语音控制录音设备翻译/同声传译,显得尤其简便。
步骤322、当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作。
当所述控制指令为会议模式切换指令时,录音设备可以执行切换至会议模式的操作,进而实现将录音设备的录音模式切换至会议模式。从而用户可以采用录音设备在会议模式下进行录音。
步骤324、当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作。
当所述控制指令为听课模式切换指令时,录音设备可以执行切换至听课模式的操作,进而实现将录音设备的录音模式切换至听课模式。从而用户可以采用录音设备在听课模式下进行录音。
例如:技术分享会议的场景:会议开始前半部分是分享人主要做技术分享演讲,将录音模式设置为指向性更好的“听课模式”,所达到的录音效果更好;后半部分,需要大家提问、讨论,将录音模式切换为360度收音的“会议模式”,所达到的录音效果更好。因此在会议开始时,会议组织者可以发出语音指令:“小搜,小搜,切换听课模式”;进而录音设备切换录音模式为“听课模式”;然后继续录音。在进入提问、讨论环节时,会议组织者可以发出语音指令:“小搜,小搜,切换会议模式”,进而录音设备切换录音模式为“会议模式”;然后继续录音。
步骤326、当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作。
当所述控制指令为采访模式切换指令时,录音设备可以执行切换至采访模式的操作,进而实现将录音设备的录音模式切换至采访模式。从而用户可以采用录音设备在采访模式下进行录音。其中,录音设备的录音模式切换至采访模式后,用户可以发出“一对一”对话指令,以语音控制录音设备进行“一对一”对话录音。
步骤328、当所述控制指令为音乐会模式切换指令时,执行切换至音乐会模式的操作。
当所述控制指令为音乐会模式切换指令时,录音设备可以执行切换至音乐会模式的操作,进而实现将录音设备的录音模式切换至音乐会模式。从而用户可以采用录音设备在音乐会模式下进行录音,能够达到更好的录音效果。
本发明实施例中,用户可以通过语音控制录音设备进行录音模式的切换;相对于现有技术在录音过程中切换录音模式时,需要退出录音后再手动操作切换录音模式而言,本发明实施例能够快速、简单的实现控制录音设备进行录音模式的切换,提高了用户体验。此外,尤其在录音设备与用户存在一定距离时,本发明实施例通过语音控制录音设备切换录音模式,显得尤其简便。
步骤330、在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作。
当所述控制指令为编辑指令时,执行语音编辑操作;进而可以对语音数据进行编辑。其中,当编辑指令为添加音效指令时,对应可以执行添加音效的操作;如添加鼓掌、笑声;当编辑指令为语音数据删除中,对应可以执行删除语音数据的操作,如删除刚才录音中说错的部分、去除录音中空录音的部分(停顿时间很久)等等。
本发明实施例不仅可以在录音结束后,用户可以通过语音控制录音设备进行编辑;还可以在录音过程中通过语音控制录音设备进行编辑,例如录音设备使用者觉得发言者发言精彩时,可以发出语音指令“为刚刚那段话添加掌声”;对应的,录音设备可以为距离当前时间较近的一段语音数据添加掌声。又例如,发言者说“不好意思,刚刚说错了”;录音设备使用者可以发出语音指令“删除刚刚那段话”;对应的,录音设备可以将为距离当前时间较近的一段语音数据删除,等等。相对于现有技术仅能在录音结束后对语音数据进行编辑且需要在指定界面进行操作而言,本发明实施例的用户能够通过语音控制录音设备对语音数据进行编辑,且还能够在录音过程中对语音数据进行编辑,从而实现简单、实时、高效的对语音数据进行编辑,提高了用户体验。
步骤332、在所述录音设备在录音过程中或录音结束后,当所述控制指令为转写指令时,执行转写操作。
当所述控制指令为转写指令时,执行转写操作;进而将语音数据转写为文本信息。
本发明实施例不仅可以在录音结束后,用户可以通过语音控制录音设备进行转写,也可以在录音过程中控制录音设备进行转写;本发明实施例对此不作限制。
当所述控制指令为开启备忘录指令时,执行开启备忘录操作;进而录音设备可以开启备忘录,并将采集到的语音数据存储在备忘录中。当所述控制指令为关闭备忘录指令时,执行关闭备忘录操作,进而关闭备忘录。
本发明的一个实施例中,录音设备执行控制指令对应的控制操作后,还可以基于执行结果进行语音播报,实现对用户发出的语音执行进行响应,进一步提高用户使用体验。
参照图4,示出了本发明的又一种控制方法可选实施例的步骤流程图。
步骤402、录音设备获取语音数据。
步骤404、对所述语音数据进行语音识别,确定对应的控制指令。
其中,步骤402-步骤404,与上述步骤202-步骤204类似,在此不在赘述。
步骤406、执行所述控制指令对应的控制操作。
其中,步骤406,可以参照上述步骤306-步骤328,在此不再赘述。
步骤408、合成执行结果对应的语音播报数据并播报。
本发明实施例中,录音设备执行控制操作后,可以确定执行控制操作对应的执行结果;然后可以基于执行结果合成语音播报数据,再播报该语音播报数据。进而便于用户获知录音设备执行用户执行的执行结果;提高用户体验。
其中,所述执行结果可以包括成功执行所述控制指令对应控制操作的执行结果(可以称为成功执行结果),以及执行失败所述控制指令对应控制操作的执行结果(可以称为失败执行结果)。当听到录音设备播报的是成功执行结果对应的语音播报数据时,用户可以继续发出下一个语音指令也对录音设备进行控制;当然也可以不作任何操作。当用户听到录音设备播报的是失败执行结果对应的语音播报数据时,可以再一次发出上一次发出的语音指令;以使录音设备执行上一次控制指令对应的控制操作。
例如,部门例会的场景:进入播放演示视频或者中途休息时间,需要暂停录音。会议组织者发出语音指令:“小搜,小搜”,“暂停录音”;若录音设备暂停录音后,可以播报:“录音已暂停”;此时会议组织者无需进行任何操作。若录音设备未能暂停录音,可以播报:“录音未暂停成功”;此时会议组织者再次发出语音指令:“小搜,小搜”,“暂停录音”;以控制录音设备暂停录音。
例如:技术分享会议的场景:会议开始前半部分是分享人主要做技术分享演讲,将录音模式设置为指向性更好的“听课模式”,所达到的录音效果更好;后半部分,需要大家提问、讨论,将录音模式切换为360度收音的“会议模式”,所达到的录音效果更好。因此在会议开始时,会议组织者可以发出语音指令:“小搜,小搜,切换听课模式”;当录音设备切换录音模式为“听课模式”后,可以播报:“已切换至听课模式”然后继续录音;此时会议组织者无需进行任何操作。若录音设备未能切换至听课模式,可以播报:“听课模式未切换成功”;此时会议组织者再次发出语音指令:“小搜,小搜,切换听课模式”;以控制录音设备切换至听课模式。在进入提问、讨论环节时,会议组织者可以发出语音指令:“小搜,小搜,切换会议模式”;当录音设备切换录音模式为“会议模式”后,可以播报:“已切换至会议模式”然后继续录音;此时会议组织者无需进行任何操作。若录音设备未能切换至会议模式,可以播报:“会议模式未切换成功”;此时会议组织者再次发出语音指令:“小搜,小搜,切换会议模式”;以控制录音设备切换至会议模式。
当然,除了基于执行结果对用户进行语音提示之外,还可以基于执行结果对用户进行振动提示和/或进行灯光提示。其中,进行振动提示的方式包括多种,如基于振动次数进行提示,如成功执行结果,可以对应振动一下;失败执行结果可以对应振动两下;又如基于振动时长进行提示,成功执行结果,可以对应振动0.5秒;失败执行结果可以对应振动3秒。进行灯光提示的方式也包括多种,如基于灯光颜色进行提示成功执行结果,亮绿灯;失败执行结果,亮红灯;又如基于灯光闪烁频率进行提示,如成功执行结果,可以1秒闪烁10次;失败执行结果,可以对应1秒闪烁20次等等。
参照图5,本发明的一个示例中,录音设备开机后,可以开启语音助手;语音助手开启后可以处于监听状态。当监听到预设唤醒词时,可以唤醒语音助手;然后由语音助手采集语音数据并进行语音识别。其中,语音助手可以将采集的语音数据发送至语音识别服务器,确定语音识别结果;然后语音识别服务器将语音识别结果发送至语义识别服务器,由语义识别服务器基于语音识别结果,确定控制指令并返回给语音助手。语音助手再将接收到的控制指令发送至处理模块,由处理模块执行对应的控制操作,如执行录音控制操作、执行翻译控制操作、执行模式切换控制操作和执行编辑操作。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明的一种控制装置实施例的结构框图,具体可以包括如下模块:
获取模块602,用于获取语音数据;
识别模块604,用于对所述语音数据进行语音识别,确定对应的控制指令;
操作执行模块606,用于执行所述控制指令对应的控制操作。
参照图7,示出了本发明的一种控制装置可选实施例的结构框图。
本发明一个可选的实施例中,所述录音设备设置有语音助手;
所述识别模块604,用于调用所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,调用所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
本发明一个可选的实施例中,所述的装置还包括:
播报模块608,用于在所述执行所述控制指令对应的控制操作之后,合成执行结果对应的语音播报数据并播报。
本发明一个可选的实施例中,所述操作执行模块606,包括:
编辑子模块6062,用于在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;
转写子模块6064,用于在所述录音设备在录音过程中或录音结束后,当所述控制指令为转写指令时,执行转写操作。
本发明一个可选的实施例中,所述操作执行模块606,包括:
录音控制子模块6066,当所述控制指令为开启录音指令时,执行开启录音操作;当所述控制指令为暂停录音指令时,执行暂停录音操作;当所述控制指令为继续录音指令时,执行继续录音操作;当所述控制指令为关闭录音指令时,执行关闭录音操作。
本发明一个可选的实施例中,所述操作执行模块606,包括:
翻译子模块6068,用于当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
本发明一个可选的实施例中,所述操作执行模块606,包括:
模式切换子模块60610,用于当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
综上,本发明实施例中,录音设备可以获取语音数据,然后对所述语音数据进行语音识别,确定对应的控制指令并执行所述控制指令对应的控制操作;进而使得用户能够通过语音控制录音设备,简化了用户与录音设备交互过程中的操作。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图8是根据一示例性实施例示出的一种录音设备800的结构框图。例如,录音设备800可以是录音笔、翻译笔、翻译机等。
参照图8,录音设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制录音设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在录音设备800的操作。这些数据的示例包括用于在录音设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为录音设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为录音设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述录音设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当录音设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当录音设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为录音设备800提供各个方面的状态评估。例如,传感器组件814可以检测到录音设备800的打开/关闭状态,组件的相对定位,例如所述组件为录音设备800的显示器和小键盘,传感器组件814还可以检测录音设备800或录音设备800一个组件的位置改变,用户与录音设备800接触的存在或不存在,录音设备800方位或加速/减速和录音设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于录音设备800和其他设备之间有线或无线方式的通信。录音设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件814还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,录音设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由录音设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行一种数据处理方法,所述方法包括:录音设备获取语音数据;对所述语音数据进行语音识别,确定对应的控制指令;执行所述控制指令对应的控制操作。
可选地,所述录音设备设置有语音助手;所述对所述语音数据进行语音识别,确定对应的控制指令,包括:所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
可选地,在所述执行所述控制指令对应的控制操作之后,所述的方法还包括:合成执行结果对应的语音播报数据并播报。
可选地,所述执行所述控制指令对应的控制操作,包括:在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;当所述控制指令为转写指令时,执行转写操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启录音指令时,执行开启录音操作;当所述控制指令为暂停录音指令时,执行暂停录音操作;当所述控制指令为继续录音指令时,执行继续录音操作;当所述控制指令为关闭录音指令时,执行关闭录音操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
可选地,所述执行所述控制指令对应的控制操作,包括:当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种控制方法、一种控制装置和一种录音设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种控制方法,其特征在于,包括:
录音设备获取语音数据;
对所述语音数据进行语音识别,确定对应的控制指令;
执行所述控制指令对应的控制操作。
2.根据权利要求1所述的方法,其特征在于,所述录音设备设置有语音助手;
所述对所述语音数据进行语音识别,确定对应的控制指令,包括:
所述语音助手在本地对所述语音数据进行语音识别,确定对应的控制指令;和/或,
所述语音助手将所述语音数据发送至服务器,由所述服务器对所述语音数据进行语音识别,确定对应的控制指令;接收所述服务器返回的控制指令。
3.根据权利要求1所述的方法,其特征在于,在所述执行所述控制指令对应的控制操作之后,所述的方法还包括:
合成执行结果对应的语音播报数据并播报。
4.根据权利要求1所述的方法,其特征在于,所述执行所述控制指令对应的控制操作,包括:
在所述录音设备在录音过程中或录音结束后,当所述控制指令为编辑指令时,执行语音编辑操作;
当所述控制指令为转写指令时,执行转写操作。
5.根据权利要求1所述的方法,其特征在于,所述执行所述控制指令对应的控制操作,包括:
当所述控制指令为开启录音指令时,执行开启录音操作;
当所述控制指令为暂停录音指令时,执行暂停录音操作;
当所述控制指令为继续录音指令时,执行继续录音操作;
当所述控制指令为关闭录音指令时,执行关闭录音操作。
6.根据权利要求1所述的方法,其特征在于,所述执行所述控制指令对应的控制操作,包括:
当所述控制指令为开启翻译功能指令时,执行开启翻译功能操作;
当所述控制指令为关闭翻译功能指令时,执行关闭翻译功能操作;
当所述控制指令为开启同声传译功能指令时,执行开启同声传译功能操作;
当所述控制指令为关闭同声传译功能指令时,执行关闭同声传译功能操作。
7.根据权利要求1所述的方法,其特征在于,所述执行所述控制指令对应的控制操作,包括:
当所述控制指令为会议模式切换指令时,执行切换至会议模式的操作;
当所述控制指令为听课模式切换指令时,执行切换至听课模式的操作;
当所述控制指令为采访模式切换指令时,执行切换至采访模式的操作;
当所述控制指令为音乐会模式切换指令时,执行切换至采访模式的操作。
8.一种控制装置,其特征在于,应用于录音设备中,所述的装置包括:
获取模块,用于获取语音数据;
识别模块,用于对所述语音数据进行语音识别,确定对应的控制指令;
操作执行模块,用于执行所述控制指令对应的控制操作。
9.一种录音设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音数据;
对所述语音数据进行语音识别,确定对应的控制指令;
执行所述控制指令对应的控制操作。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由录音设备的处理器执行时,使得录音设备能够执行如方法权利要求1-7任一所述的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043943.4A CN114333810A (zh) | 2020-09-28 | 2020-09-28 | 一种控制方法、装置和录音设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043943.4A CN114333810A (zh) | 2020-09-28 | 2020-09-28 | 一种控制方法、装置和录音设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333810A true CN114333810A (zh) | 2022-04-12 |
Family
ID=81011934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043943.4A Pending CN114333810A (zh) | 2020-09-28 | 2020-09-28 | 一种控制方法、装置和录音设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333810A (zh) |
-
2020
- 2020-09-28 CN CN202011043943.4A patent/CN114333810A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634483B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
JP6811758B2 (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
CN107644646B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
WO2021031308A1 (zh) | 音频处理方法、装置及存储介质 | |
CN106024033B (zh) | 播放控制方法及装置 | |
CN111696553B (zh) | 一种语音处理方法、装置及可读介质 | |
CN111063354B (zh) | 人机交互方法及装置 | |
CN107945806B (zh) | 基于声音特征的用户识别方法及装置 | |
CN113362812A (zh) | 一种语音识别方法、装置和电子设备 | |
CN108648754B (zh) | 语音控制方法及装置 | |
US11354520B2 (en) | Data processing method and apparatus providing translation based on acoustic model, and storage medium | |
CN115273831A (zh) | 语音转换模型训练方法、语音转换方法和装置 | |
US11553019B2 (en) | Method, apparatus, electronic device and storage medium for acquiring programs in live streaming room | |
CN111739529A (zh) | 一种交互方法、装置、耳机和服务器 | |
CN109658924B (zh) | 会话消息处理方法、装置及智能设备 | |
CN114333810A (zh) | 一种控制方法、装置和录音设备 | |
CN113409765B (zh) | 一种语音合成方法、装置和用于语音合成的装置 | |
CN113259701B (zh) | 个性化音色的生成方法、装置及电子设备 | |
CN109285545A (zh) | 信息处理方法及装置 | |
CN108735212A (zh) | 语音控制方法及装置 | |
CN111124332B (zh) | 设备呈现内容的控制方法、控制装置及存储介质 | |
CN111739528A (zh) | 一种交互方法、装置和耳机 | |
CN111816174A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN111968680A (zh) | 一种语音处理方法、装置及存储介质 | |
CN108173802B (zh) | 一种通讯处理方法、装置和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |