CN105161094A

CN105161094A - 一种语音音频切分手动调整切分点的系统及方法

Info

Publication number: CN105161094A
Application number: CN201510364419.XA
Authority: CN
Inventors: 徐信
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-06-26
Filing date: 2015-06-26
Publication date: 2015-12-16

Abstract

本发明属于语音识别技术领域，涉及一种语音音频切分，手动调整切分点的方法。系统包括显示单元、处理单元、手动操作单元。获取系统自动切分的语音文件及对应的音频波形图。打开调整开关，鼠标单击或双击新切分点的位置，或按住鼠标任意键，拖动波形图中语音片段的开始或结束点，或按住鼠标任意键，拖动调整定位线到新切分点处，或鼠标直接双击波形图新切分点的位置，完成调整切分点；或通过菜单项，选择增加、修改、删除切分点。本发明的有益效果：1、将连续自然语音音频的切分点调整到自然语句一句话完结处或语句停顿处，提高了语音识别率；2、将较长的若干语句组成的过长语句，重新切分成若干个短语句，方便了后期依据语音进行文本校对。

Description

一种语音音频切分手动调整切分点的系统及方法

技术领域

本发明属于语音识别技术领域，具体涉及以一种语音音频切分手动调整切分点的系统及方法。

背景技术

通过语音识别技术将连续的自然语音转换成文字，首先需要将语音流切分成若干语音分段。目前连续语音的识别技术是按词、按句进行的，所以理想的切分点最好是在每一句话的完结处或语音的停顿处，这在语音声能的表现上，应该是能量的低点。但在计算机根据算法进行自动切分的时候，往往不能做到100％的正确，而连续自然语音切分点的正确与否，直接关系到语音识别率。因此，手动修改、调整切分点是连续自然语音识别不可缺少的一步。也是语音精准文本化过程中，进行后期校对方便性所必须的。

发明内容

为了有效解决上述问题，本发明提供一种语音音频切分手动调整切分点的系统及方法。本发明要解决的技术问题是：能够快速修改、调整语音音频切分点，弥补计算机根据算法进行自动切分所产生的差误。从而有效的提高语音识别的正确率，并为后期的校对工作提供方便。

本发明的技术方案是：提供一种语音音频切分手动调整切分点的系统及方法，所述系统包括显示单元、处理单元、手动操作单元；所述显示单元及手动操作单元均连接在所述处理单元上。

进一步地，所述处理单元包括语音音频分划处理判断模块、语音音频波形图显示模块、中央处理模块及发送模块。

进一步地，所述语音音频分划处理判断模块、语音音频波形图显示模块及发送模块均连接在所述中央处理模块上，所述中央处理模块逻辑连接所述显示单元，所述手动操作单元连接所述中央处理模块上。

进一步地，所述语音音频分划处理判断模块进行识别判断手动操作单元发送的操作方式，并传给处理单元。处理单元接收手动操作单元的指令，反馈在显示单元上，显示手动操作单元的操作步骤，所述该显示单元还显示包括显示视频波形图栏及处理显示栏。

进一步地，所述语音波形图显示模块，手动操作单元的操作步骤通过中央处理模块发送至显示单元，显示单元将切分点调整好的波形图进行显示。

进一步地，所述发送模块，将语音音频切分点调整后的语音片段发送至云端识别。

一种语音音频切分手动调整切分点的方法，所述方法具体包括以下步骤：

A)首先获取计算机自动切分的音视频语音文件及对应的语音音频波形图显示；

B)手动操作修改、调整切分点；

C)将切分点调整后的语音段发送至云端再次识别。

进一步的，步骤A中所述获取计算机自动切分的音视频语音文件及对应的语音音频波形图，是一种精准完成连续自然语音文本化的处理系统中，经过预处理后的音视频语音文件及对应的波形图。

进一步的，步骤B中所述手动操作修改、调整切分点，包括：

B1：打开调整切分点开关，通过鼠标任意键单击或双击波形图新切分点的位置，完成切分点的调整；

B2：按住鼠标任意键，并拖动波形图中语音片段的开始点或结束点，结束拖动完成切分点调整；

B3：按住鼠标任意键，拖动调整切分点定位线到新切分点出，结束拖动完成切分点调整；

B4：通过鼠标任意键直接双击波形图新切分点的位置，完成调整切分点；

B5：通过鼠标任意键或快捷键弹出菜单项，增加切分点、修改切分点、删除切分点。

进一步的，步骤C中所述将切分点调整后的语音段发送至云端再次识别，是经过上述方法调整切分点并确认后，通过发送开关将新调整的语音段送到云端识别。

本发明的有益效果：1、将连续自然语音音频的切分点调整到自然语句一句话的完结处或语句的停顿处，进一步提高了语音识别率；2、将较长的(一般在40-100字以上)若干语句组成的过长语句，重新切分成若干个短语句，方便了后期依据语音进行文本校对。

附图说明

图1为语音音频切分手动调整切分点的第一流程图；

图2为语音音频切分手动调整切分点的第二流程图；

图3为语音音频切分手动调整切分点的第三流程图；

图4为语音音频切分手动调整切分点的第四流程图；

图5为语音音频切分手动调整切分点的第五流程图；

图6为语音音频切分手动调整切分点的第六流程图；

图7为语音音频切分手动调整切分点的切分调整流程图。

具体实施例：

下面结合实例对本发明的技术方案进行详细说明，显然，所描述的实例仅仅是本发明中很小的一部分，而不是全部的实例。基于本发明中的实例，本领域人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。

本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤：

A、按下任意键或任意组合键打开调整切分点功能开关；

设定任意键或任意键的组合，作为修改、调整切分点的开关。可设定开关模式是按下还是按住，选择模式为按住表示：按住键或组合键打开开关，抬起键或组合键则关闭开关；选择模式为按下表示：第一次按下键或组合键打开开关，再次按下键或组合键关闭开关。

B、通过鼠标任意键单击或双击波形图新切分点的位置，完成切分点调整；

C、确认新切分点，将新调整的语音段送到云端识别。

如图2所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤：

A、通过按住鼠标任意键，拖动波形图中语音片段的开始点或结束点，结束拖动完成切分点调整；

首先按住设定的鼠标任意键，然后，将鼠标放在高亮波形图的开始或结束虚线位置时，鼠标会变为左右箭头此时可按住鼠标任意键左右拖动改变选中音频段的开始或结束位置，即完成切分点调整；

B、确认新切分点，将新调整的语音段送到云端识别。

A、通过按住鼠标任意键，拖动调整切分点定位线到新切分点处，结束拖动完成切分点调整；

首先设定切分点定位线，然后按住鼠标任意键拖动定位线到新切分点处，即完成切分点调整。

B、确认新切分点，将新调整的语音段送到云端识别。

如图4所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤：

A、切分点定位线保持不动，通过按住鼠标任意键拖动波形图，拖动到想改变到新切分点的位置与切分点定位线重合，完成切分点调整；

B、确认新切分点，将新调整的语音段送到云端识别。

如图5所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤：

A、鼠标任意键直接双击波形图新切分点的位置，完成调整切分点；

B、确认新切分点，将新调整的语音段送到云端识别。

本发明的应用实例：

1、通过音频波形图直观的修改、调整音频切分点的方法

通过按住鼠标左键操作拖动波形图中语音片段的结束处，结束拖动完成切分点调整，确认后将新调整的语音段送到云端识别。

高亮部分波形对应当前在下方音频段列表中选中的音频段，用户移动光标放在高亮波形图的结束端虚线位置时，光标会变为左右箭头，此时可按住鼠标左键左右拖动可改变选中音频段的结束位置，之后点击工具栏按钮的手动调整切分点按钮可实现改变音频切分。

2、按住Shift键，然后鼠标左单击波形图新切分点的位置，完成切分点调整，确认后将新调整的语音段送到云端识别。

3、鼠标左键双击波形图新切分点的位置，完成调整切分点，确认后将新调整的语音段送到云端识别。

4、在波形图上点击鼠标右键，显示菜单：增加切分点或删除切分点。

点击增加切分点则在之前鼠标右键点击的位置增加一个切分点，即将一个音频段分成两个音频段；点击删除切分点则删除当前选中音频段的结尾切分点，即当前音频段和下一个音频段合并为一个音频段。

增加切分点功能，右键点击位置应在选中的波形内，然后再选择增加切分点菜单项，否则可能导致数据错误。

Claims

1.一种语音音频切分手动调整切分点的系统，其特征在于，所述系统包括显示单元、处理单元、手动操作单元；所述显示单元及手动操作单元均连接在所述处理单元上。

2.根据权利要求1所述的一种语音音频切分手动调整切分点的系统，其特征在于，所述处理单元包括语音音频分划处理判断模块、语音音频波形图显示模块、中央处理模块及发送模块；

所述语音音频分划处理判断模块、语音音频波形图显示模块及发送模块均连接在所述中央处理模块上，所述中央处理模块逻辑连接所述显示单元，所述手动操作单元连接所述中央处理模块上。

3.根据权利要求1所述的一种语音音频切分手动调整切分点的系统，其特征在于，所述处理单元接收手动操作单元的指令，反馈在显示单元上，显示手动操作单元的操作步骤，所述该显示单元还显示包括显示视频波形图栏及处理显示栏。

4.根据权利要求1所述的一种语音音频切分手动调整切分点的系统，其特征在于，所述中央处理模块获取经过计算机或云端自动切分的音视频语音文件及对应的语音音频波形图，并发送至显示单元，显示单元将获取的波形图进行显示，所述该波形图具有能量低点，所述语音音频分划处理判断模块进行识别判断手动操作单元发送的操作方式；所述发送模块将调整后的语音段发送至云端识别。

5.根据权利要求4所述的一种语音音频切分手动调整切分点的方法，其特征在于，所述操作方式包括打开调整切分点开关，通过鼠标任意键单击或双击波形图新切分点的位置，完成切分点的调整。

6.根据权利要求4所述的一种语音音频切分手动调整切分点的方法，其特征在于，所述操作方式包括通过按住鼠标任意键，并拖动波形图中语音片段的开始点或结束点，结束拖动完成切分点调整。

7.根据权利要求4所述的一种语音音频切分手动调整切分点的方法，其特征在于，所述操作方式包括通过按住鼠标任意键，拖动调整切分点定位线到新切分点出，结束拖动完成切分点调整。

8.根据权利要求4所述的一种语音音频切分手动调整切分点的方法，其特征在于，所述操作方式包括通过鼠标任意键直接双击波形图新切分点的位置，完成调整切分点。

9.根据权利要求4所述的一种语音音频切分手动调整切分点的方法，其特征在于，所述操作方式包括通过鼠标任意键或快捷键弹出菜单项，增加切分点、修改切分点、删除切分点。

10.一种语音音频切分手动调整切分点的方法，其特征在于，所述方法具体包括以下步骤：

A)首先获取计算机或云端自动切分的音视频语音文件及对应的语音音频波形图显示；

B)手动操作修改、调整切分点；

C)切分点调整完成后，将调整后的语音片段发送至云端再次识别。