CN1770260A - 语音波形处理系统及方法 - Google Patents
语音波形处理系统及方法 Download PDFInfo
- Publication number
- CN1770260A CN1770260A CNA2004100871348A CN200410087134A CN1770260A CN 1770260 A CN1770260 A CN 1770260A CN A2004100871348 A CNA2004100871348 A CN A2004100871348A CN 200410087134 A CN200410087134 A CN 200410087134A CN 1770260 A CN1770260 A CN 1770260A
- Authority
- CN
- China
- Prior art keywords
- speech
- cutting
- speech waveform
- waveform
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种语音波形处理系统及方法,该系统至少包括:语音数据预处理模块、储存模块、切分处理模块、切分结果显示模块及波形显示模块;与常用的语音波形处理技术相比,本发明的语音波形处理系统及方法可根据预先定义的语音参数将连续语音波形切分为多个句段,并将切分处理后的句段建立索引机制,实现可快速跳转到连续语音的其中任一句段的目的,可将其它媒体信息通过索引机制与任何一个句段建立关联,借以改善上述现有技术的缺点,令语言处理技术具有更大的应用空间。
Description
技术领域
本发明是关于一种语音波形处理系统及方法,特别是一种可根据预先定义的语音参数对连续语音波形进行切分处理的语音波形处理系统及方法。
背景技术
现今社会随着计算机科技的飞速发展,计算机技术业已渗透至人们日常生活各个领域,应用计算机处理信息也已由单纯文本文件的处理发展至今日可处理音频及视频在内的所有形式的数据。
在各种信息处理形式中,音频信息处理技术的发展历来备受关注,如通过对语音声波处理并结合相应软件实现不同目的的应用技术。目前是使用一种可对语音波形进行切分处理的技术,可对音频数据执行切分处理,也就是将连续语音信号分割为若干段落。但是该项技术往往需借由统一标准执行,缺乏自主性及灵活性,因而其应用范围受到限制。
此外,常用的连续语音切分处理技术往往是单纯作为一项理论技术,缺乏实用性。
因此,如何提供一种自主灵活的语音切分处理系统及方法,如何拓展该项技术的应用领域,成为急待解决的重要问题。
发明内容
克服上述现有技术的缺点,本发明的主要目的在于提供一种语音波形处理系统及方法,可按预先定义的语音参数将连续语音波形切分为多个句段。
本发明的另一目的在于提供一种语音波形处理系统及方法,可对切分处理后的句段建立索引机制。
本发明的再一目的在于提供一种语音波形处理系统及方法,可快速跳转到连续语音当中的任何一个句段。
本发明的又一目的在于提供一种语音波形处理系统及方法,可将其它媒体信息通过索引机制与任何一个句段建立关联。
为达上述及其它目的,本发明即提供一种语音波形处理系统及方法。
本发明的语音波形处理系统至少包括:切分参数设定模块,用于设定处理语音波形的处理参数;语音数据预处理模块,用于读取连续语音信号,并对该语音信号进行预处理;储存模块,用于储存该切分参数设定模块预先设定处理的语音波形的处理参数及与语音信号相关的信息;切分处理模块,用于根据该切分参数设定模块预先设定处理的语音波形的处理参数及与输入语音信号相关的信息,对输入的连续语音信号进行切分处理;切分结果显示模块,用于将借由该切分处理模块进行切分处理后的切分索引提供给使用者;以及波形显示模块,用于显示连续语音信号波形及借由该切分处理模块进行切分处理后的语音信号波形。
本发明通过该语音波形处理系统执行的语音波形处理方法的步骤包括:1)令该语音波形处理系统预先设定处理语音波形处理的参数;2)令该语音波形处理系统读取输入的连续语音信号,并对该语音信号进行预处理,该连续语音信号波形将通过语音波形处理系统所设的波形显示模块提供给使用者浏览;3)令该语音波形处理系统预先设定处理语音波形的参数及与输入语音信号相关的信息;4)令该语音波形处理系统按照语音波形处理的参数及与输入的语音信号相关的信息,对输入的连续语音信号进行切分处理,并通过波形显示模块提供给使用者浏览该切分处理后的语音波形;以及5)令该语音波形处理系统将切分处理后的切分索引提供给使用者。
与常用的语音波形处理技术相比,本发明的语音波形处理系统及方法可根据预先定义的语音参数将连续语音波形切分为多个句段,并将切分处理后的句段建立索引机制,实现可快速跳转到连续语音的其中任一句段的目的,可将其它媒体信息通过索引机制与任何一个句段建立关联,借以改善上述现有技术的缺点,令语言处理技术具有更大的应用空间。
附图说明
图1是本发明的语音波形处理系统的基本结构方块图;
图2是本发明的语音波形处理方法的基本工作流程图;
图3是本发明的语音波形处理系统预先设定语音切分处理参数的计算机屏幕截留图;
图4是本发明的切分处理模块进行切分的基本工作流程图;
图5是令该切分处理模块通过弹出信息框形式提供连续语音切分结果列表的计算机屏幕截留图;
图6是在确定该语音切分处理系统所执行的切分结果后的计算机屏幕截留图;
图7是本发明的语音切分处理模块配合其它软件执行连续语音切分的计算机屏幕截留图;以及
图8是利用本发明的语音切分处理模块对连续语音切分后,选择并按照切分结果索引直接跳转到相应句段播放或者处理的计算机屏幕截留图。
具体实施方式
实施例
以下通过特定的具体实施例说明本发明的实施方式。
以下实施例是将本发明的语音波形处理系统结合在计算机设备中进行连续语音波形处理,此外,还可应用在具有音效识别功能的其他信息设备中。
图1为方块图,它是本发明的语音波形处理系统的基本结构示意情形图,该语音波形处理系统1至少包括:语音数据预处理模块10,储存模块11,切分处理模块12,切分结果显示模块13及波形显示模块14。在本实施例中,使用者可根据需要自定义处理语音波形的参数,这些处理语音波形参数至少包括静音幅阀值及静音间隔阀值,其中,当语音声波幅度小于预先设定的静音幅度阀值时,则判定为静音状态,当持续静音状态时间超过静音间隔阀值时,则判定为语音停顿状态,根据这些参数对连续语音进行切分处理。
语音数据预处理模块10用于读取输入的连续语音信号,以对该语音信号进行预处理,并对输入的语音波形进行分析,记录该段语音波形中的停顿位置。
储存模块11用于储存预先设定的处理语音波形的参数及与输入语音信号相关的信息。在本实施例中,该预先设定处理语音波形的参数至少包括如上所述的使用者自定义的静音幅阀值及静音间隔阀值,该输入的语音信号相关信息至少包括借由该语音数据预处理模块10判定该段语音信号中具有的停顿位置。
该切分处理模块12用于根据语音波形处理的参数及与输入语音信号相关的信息,对输入的连续语音信号进行切分处理。其中,该切分处理过程是按照切分算法进行的。
该切分结果显示模块13则用于将切分处理模块12处理后的切分索引提供给使用者。在本实施例中,该切分结果显示模块13是以弹出列表的形式出现,并提供输入语音经由切分处理后产生的句段编号、起始位置及统计信息等相关信息。
该波形显示模块14用于显示输入的连续语音信号波形及借由该切分处理模块12进行切分处理后的语音信号波形。在本实施例中,在该切分处理模块12对输入的连续语音进行切分处理前,该波形显示模块14将显示该段连续语音的原始波形,且在该语音波形切分模块1对输入的连续语音进行切分处理后,该波形显示模块14将显示该段连续语音经语音切分处理的波形,其中也包括语音切分线的切分波形。
图2是基本工作流程图,显示本发明的语音波形处理方法的基本步骤。
在步骤S1中,先行提供使用者处理语音波形的参数设置字段,令使用者可通过该参数设置字段进行语音处理参数的选择及设置,接着,执行步骤S2。
在步骤S2中,向该语音波形处理系统1输入一段连续语音信号,该连续语音信号即为待执行切分处理的对象,它可以是使用者直接输入的一段语音或由任何外部设备(例如磁带、光盘及硬盘等)转录的语音,接着,进行步骤S3。
在步骤S3中,令该语音数据预处理模块10读取输入的连续语音信号,并对该语音信号进行预处理,该连续语音信号波形则可通过波形显示模块14提供给使用者参考,接着,进行步骤S4。
在步骤S4中,令该语音波形处理系统1扫描输入的连续语音信号,并根据预先通过该参数设置字段设定的语音处理参数,判断该段连续语音信号中的停顿位置,接着,进行步骤S5。
在步骤S5中,令该储存模块11储存由该语音波形处理系统1经扫描判断出的停顿位置,接着,进行步骤S6。
在步骤S6中,令该切分处理模块12执行切分算法,并根据该储存模块11中储存的停顿位置切分连续语音,生成切分句段清单,最后,执行步骤S7。
在步骤S7中,令该切分结果显示模块13显示切分句段清单,并令该波形显示模块14显示该段连续语音经语音切分处理后的波形,也就是语音切分线的切分波形。
图3为计算机屏幕截留图,显示通过本发明的语音波形处理系统预先设定语音切分处理参数的操作画面。如图所示,该截留图画面3包括有:波形显示区域30、静音幅度阀值设定字段31、静音时间阀值设定字段32、执行切分按键33、处理进度条34及其它相关功能区域。该波形显示区域30是以二维坐标轴显示输入的原始语音波形,其中,横坐标代表时间,纵坐标则代表语音幅度。例如,使用者根据实际需要在该静音幅度阀值设定字段31调整语音切分处理的幅度阀值,也就是当语音幅度小于该设定值时,系统即判定为无语音信号,且在该静音时间阀值设定字段32调整语音切分处理的时间阀值,即当静音时间大于该设定值时,系统判定为停顿。完成上述设定后,使用者即可由鼠标点击执行切分按键33,令该切分处理模块12开始执行语音波形切分。此外,该截留图画面3另包括有处理进度条34,追踪并显示当前的处理进度。
图4为基本工作流程图,显示本发明的切分处理模块12进行切分程序的基本步骤。
在步骤S40中,令该切分处理模块12读取输入的连续语音,包括该连续语音的语音幅度及其它相关信息,接着,执行步骤S41。
在步骤S41中,令该切分处理模块12判断语音幅度是否小于预先设定的静音幅度阀值,若判断结果为是,则执行步骤S42;如否,则执行步骤S43。
在步骤S42中,令该切分处理模块12累计语音幅度小于预先设定的静音幅度阀值的时间,以持续读取连续语音资料,并反复执行步骤S40至步骤S42。
在步骤S43中,令该切分处理模块12判断累计持续静音时间是否大于预先设定的静音时间阀值,若是,则执行步骤S44;如否,则直接进至步骤S46。
在步骤S44中,令该切分处理模块12获取语音停顿位置的位置信息,其中,该位置信息可以是停顿终点时间、停顿起点及持续时间等,接着,进行步骤S45。
在步骤S45中,令该切分处理模块12为这些语音停顿位置依次建立编号,并列入句段索引表,该句段索引表中包括句段序号及停顿点位置等信息,接着,执行步骤S46。
在步骤S46中,令该切分处理模块12将静音累计时间归零,以进行累加下一静音时间,接着,执行步骤S47。
在步骤S47中,令该切分处理模块12判断输入的连续语音是否已处理完毕,若是,则执行步骤S48;如否,则循环执行步骤S40至步骤S47,直至输入的连续语音处理完毕为止。
在步骤S48中,令该切分处理模块12通过弹出信息框形式提供连续语音的完整切分结果列表,其中,显示内容包括整个连续语音分段数目、各个句段序号及断句时间等。
图5是计算机屏幕截留图,显示在上述步骤S48中,该切分处理模块12通过弹出信息框形式提供连续语音切分结果列表的示意情形。如图所示,该弹出信息框5即为该段连续语音切分结果列表,其中显示序号为1即为语音开始,根据预先设定语音切分参数判断序号为2的语音段时间为″00:02.967″,以下依次为各个语音段时间标志,在此不再赘述。该弹出信息框5包括显示连续语音切分结果总数的信息提示50,在本实施例中,该信息提示50中显示有将输入连续语音切分为36个片段的示意情形,因此,借由弹出信息框5即可清晰地了解语音切分结果(未完全示意),点击确定按钮51即确定该语音切分处理系统1所执行的切分结果,并产生图6所示的新的计算机屏幕截留图。
图6为计算机屏幕截留图,显示在图5点击确定按钮51即确定该语音切分处理系统1所执行的切分结果后的示意情形。其中在波形显示区域60中,相应的语音切分位置通过一系列切分线61表示。
图7为计算机屏幕截留图,显示本发明的语音切分处理模块12配合其它软件执行连续语音切分的示意情形。其中,该软件可以是任一款播放或编辑声音文件的应用软件。该应用画面图7上除了具备波形显示区域70外,还包括切分结果列表71、语音信息显示列表72及多个不同控制功能操作键等。
图8为计算机屏幕截留图,显示利用本发明的切分处理模块12对连续语音切分后选择并按照切分结果索引直接跳转至相应句段播放或者处理的示意情形。使用者可通过双击该波形显示区域70中的一段由切分线隔开的波形段80、该切分结果列表71中的任一序号段81或者该语音信息显示列表72中任一选项82跳转到相应位置。此外,使用者也可通过这些控制功能操作键对该选择段落执行删除或进一步操作处理。
因此,应用本发明的语音切分处理系统及方法可根据预先定义的语音参数将连续语音波形切分为多个句段,并为切分处理后的句段建立索引,实现快速跳转到连续语音中任一句段的目的,借以改善上述现有技术的缺点,令语言处理技术具有更大的应用性。
Claims (14)
1.一种语音波形处理系统,按定义的参数对连续语音波形进行处理,其特征在于,该系统至少包括:
切分参数设定模块,用于设定处理语音波形的处理参数;
语音数据预处理模块,用于读取连续语音信号,并对该语音信号进行预处理;
储存模块,用于储存该切分参数设定模块预先设定处理的语音波形的处理参数及与语音信号相关的信息;
切分处理模块,用于根据该切分参数设定模块预先设定处理的语音波形的处理参数及与输入语音信号相关的信息,对输入的连续语音信号进行切分处理;
切分结果显示模块,用于将借由该切分处理模块进行切分处理后的切分索引提供给使用者;以及
波形显示模块,用于显示连续语音信号波形及借由该切分处理模块进行切分处理后的语音信号波形。
2.如权利要求1所述的语音波形处理系统,其特征在于,该预先设定处理的语音波形处理的参数至少包括静音幅阀值及静音持续间隔时间中的一个。
3.如权利要求2所述的语音波形处理系统,其特征在于,当语音波形幅度小于预先设定的静音幅阀值时,则该语音波形处理系统判断为静音状态。
4.如权利要求2所述的语音波形处理系统,其特征在于,当持续静音状态时间超过静音持续间隔时间时,则该语音波形处理系统判断为语音停顿状态。
5.如权利要求1所述的语音波形处理系统,其特征在于,该语音数据预处理模块对输入的语音波形进行分析后,记录该段语音波形中的停顿区域。
6.如权利要求1所述的语音波形处理系统,其特征在于,该切分处理模块按照切分算法对连续语音信号进行切分处理。
7.如权利要求1所述的语音波形处理系统,其特征在于,该切分结果显示模块将在进行完切分处理后,显示带切分标记的语音波形以及索引清单。
8.一种语音波形处理方法,通过语音波形处理系统按定义的参数对连续语音波形进行处理,其特征在于,该方法包括下列步骤:
1)令该语音波形处理系统预先设定处理语音波形处理的参数;
2)令该语音波形处理系统读取输入的连续语音信号,并对该语音信号进行预处理,该连续语音信号波形将通过语音波形处理系统所设的波形显示模块提供给使用者浏览;
3)令该语音波形处理系统预先设定处理语音波形的参数及与输入语音信号相关的信息;
4)令该语音波形处理系统按照语音波形处理的参数及与输入的语音信号相关的信息,对输入的连续语音信号进行切分处理,并通过波形显示模块提供给使用者浏览该切分处理后的语音波形;以及
5)令该语音波形处理系统将切分处理后的切分索引提供给使用者。
9.如权利要求8所述的语音波形处理方法,其特征在于,该语音波形处理系统预先设定处理的语音波形处理的参数至少包括静音幅阀值及静音持续间隔时间。
10.如权利要求9所述的语音波形处理方法,其特征在于,当语音波形幅度小于预先设定的静音幅阀值时,则该语音波形处理系统判断为静音状态。
11.如权利要求9所述的语音波形处理方法,其特征在于,当持续静音状态时间超过静音持续间隔时间时,则该语音波形处理系统判断为语音停顿状态。
12.如权利要求8所述的语音波形处理方法,其特征在于,该语音波形处理系统对输入的语音波形进行分析后,记录该段语音波形中的停顿区域。
13.如权利要求8所述的语音波形处理方法,其特征在于,该语音波形处理系统按照切分算法对连续语音信号进行切分处理执行切分。
14.如权利要求8所述的语音波形处理方法,其特征在于,该语音波形处理系统将进行完切分处理后,显示带切分标记的语音波形以及索引清单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100871348A CN100452171C (zh) | 2004-11-01 | 2004-11-01 | 语音波形处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100871348A CN100452171C (zh) | 2004-11-01 | 2004-11-01 | 语音波形处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1770260A true CN1770260A (zh) | 2006-05-10 |
CN100452171C CN100452171C (zh) | 2009-01-14 |
Family
ID=36751505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100871348A Expired - Fee Related CN100452171C (zh) | 2004-11-01 | 2004-11-01 | 语音波形处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100452171C (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868400A (zh) * | 2016-04-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 录音信息处理方法及装置 |
CN106851422A (zh) * | 2017-03-29 | 2017-06-13 | 苏州百智通信息技术有限公司 | 一种视频播放自动暂停处理方法与系统 |
CN108364664A (zh) * | 2018-02-01 | 2018-08-03 | 北京云知声信息技术有限公司 | 自动数据采集及标注的方法 |
CN109754808A (zh) * | 2018-12-13 | 2019-05-14 | 平安科技(深圳)有限公司 | 语音转换文字的方法、装置、计算机设备及存储介质 |
CN113889144A (zh) * | 2021-09-08 | 2022-01-04 | 赛特威尔电子股份有限公司 | 声波识别方法、系统、机器人及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11305788A (ja) * | 1998-04-17 | 1999-11-05 | Matsushita Electric Ind Co Ltd | 有声音の定常区間判定方法とセグメンテーション装置 |
CN2533548Y (zh) * | 2002-04-03 | 2003-01-29 | 刘旭江 | 组合式智能语言复读机 |
-
2004
- 2004-11-01 CN CNB2004100871348A patent/CN100452171C/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868400A (zh) * | 2016-04-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 录音信息处理方法及装置 |
CN106851422A (zh) * | 2017-03-29 | 2017-06-13 | 苏州百智通信息技术有限公司 | 一种视频播放自动暂停处理方法与系统 |
CN108364664A (zh) * | 2018-02-01 | 2018-08-03 | 北京云知声信息技术有限公司 | 自动数据采集及标注的方法 |
CN108364664B (zh) * | 2018-02-01 | 2020-04-24 | 云知声智能科技股份有限公司 | 自动数据采集及标注的方法 |
CN109754808A (zh) * | 2018-12-13 | 2019-05-14 | 平安科技(深圳)有限公司 | 语音转换文字的方法、装置、计算机设备及存储介质 |
CN113889144A (zh) * | 2021-09-08 | 2022-01-04 | 赛特威尔电子股份有限公司 | 声波识别方法、系统、机器人及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100452171C (zh) | 2009-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7487346B2 (en) | Techniques and graphical user interfaces for categorical shuffle | |
EP2772903B1 (en) | Electroacoustic signal emitter device and electroacoustic signal emitter method | |
US8494860B2 (en) | Voice output device, information input device, file selection device, telephone set, and program and recording medium of the same | |
CN109862293B (zh) | 终端喇叭的控制方法、设备及计算机可读存储介质 | |
US9280255B2 (en) | Structured displaying of visual elements | |
CN1619585A (zh) | 使用便携终端中的触摸屏输入字符的装置和方法 | |
CN1975736A (zh) | 信息演示方法和信息演示装置 | |
CN104081784A (zh) | 信息处理装置、信息处理方法和程序 | |
KR20110138212A (ko) | 비디오 스트림에 있어서 물체 인식 및 트랙킹을 위한 시스템 및 방법 | |
DE112009002183T5 (de) | Audiobenutzerschnittstelle | |
CN1848059A (zh) | 信息处理方法及装置 | |
CN1776583A (zh) | 解释语音命令的集中式方法和系统 | |
CN101149812A (zh) | 基于纸面书写的互动信息服务方法、服务系统及互动读物 | |
CN1977237A (zh) | 用于用户接口转变的方法和设备 | |
CN1188775C (zh) | 便携式通信设备和方法 | |
CN1607539A (zh) | 检测墨水输入中列表的系统和方法 | |
CN111653265A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN103714104A (zh) | 使用环境上下文回答问题 | |
CN1959629A (zh) | 用于用声音控制计算机用户界面的方法和装置 | |
CN111653266A (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN114071184A (zh) | 一种字幕定位方法、电子设备及介质 | |
Müller et al. | SM Toolbox: MATLAB implementations for computing and enhancing similarity matrices | |
CN1770260A (zh) | 语音波形处理系统及方法 | |
CN109656704B (zh) | 一种信息处理方法及信息处理装置 | |
CN1358046A (zh) | 便携式移动单元 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090114 Termination date: 20101101 |