CN105161094A - 一种语音音频切分手动调整切分点的系统及方法 - Google Patents

一种语音音频切分手动调整切分点的系统及方法 Download PDF

Info

Publication number
CN105161094A
CN105161094A CN201510364419.XA CN201510364419A CN105161094A CN 105161094 A CN105161094 A CN 105161094A CN 201510364419 A CN201510364419 A CN 201510364419A CN 105161094 A CN105161094 A CN 105161094A
Authority
CN
China
Prior art keywords
cut
speech audio
oscillogram
adjustment
mouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510364419.XA
Other languages
English (en)
Inventor
徐信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510364419.XA priority Critical patent/CN105161094A/zh
Publication of CN105161094A publication Critical patent/CN105161094A/zh
Pending legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明属于语音识别技术领域,涉及一种语音音频切分,手动调整切分点的方法。系统包括显示单元、处理单元、手动操作单元。获取系统自动切分的语音文件及对应的音频波形图。打开调整开关,鼠标单击或双击新切分点的位置,或按住鼠标任意键,拖动波形图中语音片段的开始或结束点,或按住鼠标任意键,拖动调整定位线到新切分点处,或鼠标直接双击波形图新切分点的位置,完成调整切分点;或通过菜单项,选择增加、修改、删除切分点。本发明的有益效果:1、将连续自然语音音频的切分点调整到自然语句一句话完结处或语句停顿处,提高了语音识别率;2、将较长的若干语句组成的过长语句,重新切分成若干个短语句,方便了后期依据语音进行文本校对。

Description

一种语音音频切分手动调整切分点的系统及方法
技术领域
本发明属于语音识别技术领域,具体涉及以一种语音音频切分手动调整切分点的系统及方法。
背景技术
通过语音识别技术将连续的自然语音转换成文字,首先需要将语音流切分成若干语音分段。目前连续语音的识别技术是按词、按句进行的,所以理想的切分点最好是在每一句话的完结处或语音的停顿处,这在语音声能的表现上,应该是能量的低点。但在计算机根据算法进行自动切分的时候,往往不能做到100%的正确,而连续自然语音切分点的正确与否,直接关系到语音识别率。因此,手动修改、调整切分点是连续自然语音识别不可缺少的一步。也是语音精准文本化过程中,进行后期校对方便性所必须的。
发明内容
为了有效解决上述问题,本发明提供一种语音音频切分手动调整切分点的系统及方法。本发明要解决的技术问题是:能够快速修改、调整语音音频切分点,弥补计算机根据算法进行自动切分所产生的差误。从而有效的提高语音识别的正确率,并为后期的校对工作提供方便。
本发明的技术方案是:提供一种语音音频切分手动调整切分点的系统及方法,所述系统包括显示单元、处理单元、手动操作单元;所述显示单元及手动操作单元均连接在所述处理单元上。
进一步地,所述处理单元包括语音音频分划处理判断模块、语音音频波形图显示模块、中央处理模块及发送模块。
进一步地,所述语音音频分划处理判断模块、语音音频波形图显示模块及发送模块均连接在所述中央处理模块上,所述中央处理模块逻辑连接所述显示单元,所述手动操作单元连接所述中央处理模块上。
进一步地,所述语音音频分划处理判断模块进行识别判断手动操作单元发送的操作方式,并传给处理单元。处理单元接收手动操作单元的指令,反馈在显示单元上,显示手动操作单元的操作步骤,所述该显示单元还显示包括显示视频波形图栏及处理显示栏。
进一步地,所述语音波形图显示模块,手动操作单元的操作步骤通过中央处理模块发送至显示单元,显示单元将切分点调整好的波形图进行显示。
进一步地,所述发送模块,将语音音频切分点调整后的语音片段发送至云端识别。
一种语音音频切分手动调整切分点的方法,所述方法具体包括以下步骤:
A)首先获取计算机自动切分的音视频语音文件及对应的语音音频波形图显示;
B)手动操作修改、调整切分点;
C)将切分点调整后的语音段发送至云端再次识别。
进一步的,步骤A中所述获取计算机自动切分的音视频语音文件及对应的语音音频波形图,是一种精准完成连续自然语音文本化的处理系统中,经过预处理后的音视频语音文件及对应的波形图。
进一步的,步骤B中所述手动操作修改、调整切分点,包括:
B1:打开调整切分点开关,通过鼠标任意键单击或双击波形图新切分点的位置,完成切分点的调整;
B2:按住鼠标任意键,并拖动波形图中语音片段的开始点或结束点,结束拖动完成切分点调整;
B3:按住鼠标任意键,拖动调整切分点定位线到新切分点出,结束拖动完成切分点调整;
B4:通过鼠标任意键直接双击波形图新切分点的位置,完成调整切分点;
B5:通过鼠标任意键或快捷键弹出菜单项,增加切分点、修改切分点、删除切分点。
进一步的,步骤C中所述将切分点调整后的语音段发送至云端再次识别,是经过上述方法调整切分点并确认后,通过发送开关将新调整的语音段送到云端识别。
本发明的有益效果:1、将连续自然语音音频的切分点调整到自然语句一句话的完结处或语句的停顿处,进一步提高了语音识别率;2、将较长的(一般在40-100字以上)若干语句组成的过长语句,重新切分成若干个短语句,方便了后期依据语音进行文本校对。
附图说明
图1为语音音频切分手动调整切分点的第一流程图;
图2为语音音频切分手动调整切分点的第二流程图;
图3为语音音频切分手动调整切分点的第三流程图;
图4为语音音频切分手动调整切分点的第四流程图;
图5为语音音频切分手动调整切分点的第五流程图;
图6为语音音频切分手动调整切分点的第六流程图;
图7为语音音频切分手动调整切分点的切分调整流程图。
具体实施例:
下面结合实例对本发明的技术方案进行详细说明,显然,所描述的实例仅仅是本发明中很小的一部分,而不是全部的实例。基于本发明中的实例,本领域人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本发明保护的范围。
本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤:
A、按下任意键或任意组合键打开调整切分点功能开关;
设定任意键或任意键的组合,作为修改、调整切分点的开关。可设定开关模式是按下还是按住,选择模式为按住表示:按住键或组合键打开开关,抬起键或组合键则关闭开关;选择模式为按下表示:第一次按下键或组合键打开开关,再次按下键或组合键关闭开关。
B、通过鼠标任意键单击或双击波形图新切分点的位置,完成切分点调整;
C、确认新切分点,将新调整的语音段送到云端识别。
如图2所示,为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤:
A、通过按住鼠标任意键,拖动波形图中语音片段的开始点或结束点,结束拖动完成切分点调整;
首先按住设定的鼠标任意键,然后,将鼠标放在高亮波形图的开始或结束虚线位置时,鼠标会变为左右箭头此时可按住鼠标任意键左右拖动改变选中音频段的开始或结束位置,即完成切分点调整;
B、确认新切分点,将新调整的语音段送到云端识别。
如图2所示,为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤:
A、通过按住鼠标任意键,拖动调整切分点定位线到新切分点处,结束拖动完成切分点调整;
首先设定切分点定位线,然后按住鼠标任意键拖动定位线到新切分点处,即完成切分点调整。
B、确认新切分点,将新调整的语音段送到云端识别。
如图4所示,为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤:
A、切分点定位线保持不动,通过按住鼠标任意键拖动波形图,拖动到想改变到新切分点的位置与切分点定位线重合,完成切分点调整;
B、确认新切分点,将新调整的语音段送到云端识别。
如图5所示,为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤:
A、鼠标任意键直接双击波形图新切分点的位置,完成调整切分点;
B、确认新切分点,将新调整的语音段送到云端识别。
本发明的应用实例:
1、通过音频波形图直观的修改、调整音频切分点的方法
通过按住鼠标左键操作拖动波形图中语音片段的结束处,结束拖动完成切分点调整,确认后将新调整的语音段送到云端识别。
高亮部分波形对应当前在下方音频段列表中选中的音频段,用户移动光标放在高亮波形图的结束端虚线位置时,光标会变为左右箭头,此时可按住鼠标左键左右拖动可改变选中音频段的结束位置,之后点击工具栏按钮的手动调整切分点按钮可实现改变音频切分。
2、按住Shift键,然后鼠标左单击波形图新切分点的位置,完成切分点调整,确认后将新调整的语音段送到云端识别。
3、鼠标左键双击波形图新切分点的位置,完成调整切分点,确认后将新调整的语音段送到云端识别。
4、在波形图上点击鼠标右键,显示菜单:增加切分点或删除切分点。
点击增加切分点则在之前鼠标右键点击的位置增加一个切分点,即将一个音频段分成两个音频段;点击删除切分点则删除当前选中音频段的结尾切分点,即当前音频段和下一个音频段合并为一个音频段。
增加切分点功能,右键点击位置应在选中的波形内,然后再选择增加切分点菜单项,否则可能导致数据错误。

Claims (10)

1.一种语音音频切分手动调整切分点的系统,其特征在于,所述系统包括显示单元、处理单元、手动操作单元;所述显示单元及手动操作单元均连接在所述处理单元上。
2.根据权利要求1所述的一种语音音频切分手动调整切分点的系统,其特征在于,所述处理单元包括语音音频分划处理判断模块、语音音频波形图显示模块、中央处理模块及发送模块;
所述语音音频分划处理判断模块、语音音频波形图显示模块及发送模块均连接在所述中央处理模块上,所述中央处理模块逻辑连接所述显示单元,所述手动操作单元连接所述中央处理模块上。
3.根据权利要求1所述的一种语音音频切分手动调整切分点的系统,其特征在于,所述处理单元接收手动操作单元的指令,反馈在显示单元上,显示手动操作单元的操作步骤,所述该显示单元还显示包括显示视频波形图栏及处理显示栏。
4.根据权利要求1所述的一种语音音频切分手动调整切分点的系统,其特征在于,所述中央处理模块获取经过计算机或云端自动切分的音视频语音文件及对应的语音音频波形图,并发送至显示单元,显示单元将获取的波形图进行显示,所述该波形图具有能量低点,所述语音音频分划处理判断模块进行识别判断手动操作单元发送的操作方式;所述发送模块将调整后的语音段发送至云端识别。
5.根据权利要求4所述的一种语音音频切分手动调整切分点的方法,其特征在于,所述操作方式包括打开调整切分点开关,通过鼠标任意键单击或双击波形图新切分点的位置,完成切分点的调整。
6.根据权利要求4所述的一种语音音频切分手动调整切分点的方法,其特征在于,所述操作方式包括通过按住鼠标任意键,并拖动波形图中语音片段的开始点或结束点,结束拖动完成切分点调整。
7.根据权利要求4所述的一种语音音频切分手动调整切分点的方法,其特征在于,所述操作方式包括通过按住鼠标任意键,拖动调整切分点定位线到新切分点出,结束拖动完成切分点调整。
8.根据权利要求4所述的一种语音音频切分手动调整切分点的方法,其特征在于,所述操作方式包括通过鼠标任意键直接双击波形图新切分点的位置,完成调整切分点。
9.根据权利要求4所述的一种语音音频切分手动调整切分点的方法,其特征在于,所述操作方式包括通过鼠标任意键或快捷键弹出菜单项,增加切分点、修改切分点、删除切分点。
10.一种语音音频切分手动调整切分点的方法,其特征在于,所述方法具体包括以下步骤:
A)首先获取计算机或云端自动切分的音视频语音文件及对应的语音音频波形图显示;
B)手动操作修改、调整切分点;
C)切分点调整完成后,将调整后的语音片段发送至云端再次识别。
CN201510364419.XA 2015-06-26 2015-06-26 一种语音音频切分手动调整切分点的系统及方法 Pending CN105161094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510364419.XA CN105161094A (zh) 2015-06-26 2015-06-26 一种语音音频切分手动调整切分点的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510364419.XA CN105161094A (zh) 2015-06-26 2015-06-26 一种语音音频切分手动调整切分点的系统及方法

Publications (1)

Publication Number Publication Date
CN105161094A true CN105161094A (zh) 2015-12-16

Family

ID=54801927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510364419.XA Pending CN105161094A (zh) 2015-06-26 2015-06-26 一种语音音频切分手动调整切分点的系统及方法

Country Status (1)

Country Link
CN (1) CN105161094A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791087A (zh) * 2016-02-27 2016-07-20 深圳市金立通信设备有限公司 一种媒体分割方法及终端
CN106653029A (zh) * 2016-12-02 2017-05-10 广东小天才科技有限公司 一种音频批量分割方法及装置
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及系统
CN107316639A (zh) * 2017-05-19 2017-11-03 北京新美互通科技有限公司 一种基于语音识别的信息输入方法及装置,电子设备
CN110390930A (zh) * 2018-04-15 2019-10-29 高翔 一种音频文字校对的方法和系统
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN113096643A (zh) * 2021-03-25 2021-07-09 北京百度网讯科技有限公司 视频的处理方法和装置
CN114464198A (zh) * 2021-11-30 2022-05-10 中国人民解放军战略支援部队信息工程大学 一种可视化人声分离系统、方法以及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5204969A (en) * 1988-12-30 1993-04-20 Macromedia, Inc. Sound editing system using visually displayed control line for altering specified characteristic of adjacent segment of stored waveform
CN1279462A (zh) * 1999-06-30 2001-01-10 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法和装置
CN1348580A (zh) * 1999-01-04 2002-05-08 高通股份有限公司 分段和识别语音信号的系统和方法
CN1514997A (zh) * 2001-06-08 2004-07-21 �ʼҷ����ֵ������޹�˾ 音频信号的编辑
CN1567381A (zh) * 2003-06-20 2005-01-19 北京北佳信息系统有限公司 多媒体素材同步编辑装置
CN1664923A (zh) * 2005-03-28 2005-09-07 何宏山 互联网语音速记方法
CN1779777A (zh) * 2005-08-16 2006-05-31 深圳市彩秀科技有限公司 一种通过截取音频波形进行音频编辑和转化的方法
CN1889173A (zh) * 2005-06-30 2007-01-03 凌阳科技股份有限公司 一种压缩音频数据的编辑装置及方法
CN101165779A (zh) * 2006-10-20 2008-04-23 索尼株式会社 信息处理装置和方法、程序及记录介质
CN101419796A (zh) * 2008-12-02 2009-04-29 无敌科技(西安)有限公司 自动分割单字语音信号的装置与方法
CN101527047A (zh) * 2008-03-05 2009-09-09 深圳迈瑞生物医疗电子股份有限公司 使用超声图像检测组织边界的方法与装置
CN102576524A (zh) * 2009-06-01 2012-07-11 音乐策划公司 接收、分析并编辑音频来创建音乐作品的系统和方法
CN102655002A (zh) * 2011-03-01 2012-09-05 株式会社理光 音频处理方法和音频处理设备
CN102663143A (zh) * 2012-05-18 2012-09-12 徐信 一种音视频语音处理与检索的系统和方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5204969A (en) * 1988-12-30 1993-04-20 Macromedia, Inc. Sound editing system using visually displayed control line for altering specified characteristic of adjacent segment of stored waveform
CN1348580A (zh) * 1999-01-04 2002-05-08 高通股份有限公司 分段和识别语音信号的系统和方法
CN1279462A (zh) * 1999-06-30 2001-01-10 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法和装置
CN1514997A (zh) * 2001-06-08 2004-07-21 �ʼҷ����ֵ������޹�˾ 音频信号的编辑
CN1567381A (zh) * 2003-06-20 2005-01-19 北京北佳信息系统有限公司 多媒体素材同步编辑装置
CN1664923A (zh) * 2005-03-28 2005-09-07 何宏山 互联网语音速记方法
CN1889173A (zh) * 2005-06-30 2007-01-03 凌阳科技股份有限公司 一种压缩音频数据的编辑装置及方法
CN1779777A (zh) * 2005-08-16 2006-05-31 深圳市彩秀科技有限公司 一种通过截取音频波形进行音频编辑和转化的方法
CN101165779A (zh) * 2006-10-20 2008-04-23 索尼株式会社 信息处理装置和方法、程序及记录介质
CN101527047A (zh) * 2008-03-05 2009-09-09 深圳迈瑞生物医疗电子股份有限公司 使用超声图像检测组织边界的方法与装置
CN101419796A (zh) * 2008-12-02 2009-04-29 无敌科技(西安)有限公司 自动分割单字语音信号的装置与方法
CN102576524A (zh) * 2009-06-01 2012-07-11 音乐策划公司 接收、分析并编辑音频来创建音乐作品的系统和方法
CN102655002A (zh) * 2011-03-01 2012-09-05 株式会社理光 音频处理方法和音频处理设备
CN102663143A (zh) * 2012-05-18 2012-09-12 徐信 一种音视频语音处理与检索的系统和方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791087A (zh) * 2016-02-27 2016-07-20 深圳市金立通信设备有限公司 一种媒体分割方法及终端
CN106653029A (zh) * 2016-12-02 2017-05-10 广东小天才科技有限公司 一种音频批量分割方法及装置
CN107068145A (zh) * 2016-12-30 2017-08-18 中南大学 语音评测方法及系统
CN107316639A (zh) * 2017-05-19 2017-11-03 北京新美互通科技有限公司 一种基于语音识别的信息输入方法及装置,电子设备
CN110390930A (zh) * 2018-04-15 2019-10-29 高翔 一种音频文字校对的方法和系统
CN112487238A (zh) * 2020-10-27 2021-03-12 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN112487238B (zh) * 2020-10-27 2024-05-17 百果园技术(新加坡)有限公司 一种音频处理方法、装置、终端及介质
CN113096643A (zh) * 2021-03-25 2021-07-09 北京百度网讯科技有限公司 视频的处理方法和装置
CN114464198A (zh) * 2021-11-30 2022-05-10 中国人民解放军战略支援部队信息工程大学 一种可视化人声分离系统、方法以及装置

Similar Documents

Publication Publication Date Title
CN105161094A (zh) 一种语音音频切分手动调整切分点的系统及方法
CN110740275B (zh) 一种非线性编辑系统
CN103366742A (zh) 语音输入方法及系统
CN101625622B (zh) 一种移动终端输入法切换方法及装置
CN105786295A (zh) 文字输入方法及装置
CN107517310B (zh) 语音交互引导系统及方法
CN103533448B (zh) 智能电视的光标控制方法和光标控制装置
CN103116461B (zh) 一种基于触摸屏的字符处理方法及终端
CN102937864A (zh) 一种用于在触摸终端上确定所选文本的方法与设备
CN105159685A (zh) 一种提取CAD图纸明细内容至Excel表格的方法
CN105373386A (zh) 命令行程序的处理方法和装置
CN102270197A (zh) 触控翻译系统及其方法
CN105117379A (zh) 自动转换程序文本的方法及装置
KR20140039517A (ko) 필기 기반으로 특정 기능을 실행하는 방법 및 그에 따른 디바이스
CN104602092A (zh) Android系统下智能机顶盒适配手机应用的方法
CN107015748A (zh) 一种自定义键盘的布局方法及装置
US20180275857A1 (en) Data editing method and apparatus
CN107395487A (zh) 消息更新方法和系统
CN104679737A (zh) 基于移动终端的文本信息的翻译处理方法和移动终端
CN104899187A (zh) 人机交互的分词与语义标示的方法与系统
CN109215661A (zh) 语音转文字方法、装置设备及存储介质
CN111881655A (zh) 一种语音输入标点符号快速切换方法
CN110035301A (zh) 一种基于语音控制的播放进度调节方法
CN107943477A (zh) 一种iOS上通过XML实现UI布局的方法
CN103778004A (zh) 形成文件夹的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216

RJ01 Rejection of invention patent application after publication