CN110246500A - 基于录音文件的语音识别方法及系统 - Google Patents
基于录音文件的语音识别方法及系统 Download PDFInfo
- Publication number
- CN110246500A CN110246500A CN201910630473.2A CN201910630473A CN110246500A CN 110246500 A CN110246500 A CN 110246500A CN 201910630473 A CN201910630473 A CN 201910630473A CN 110246500 A CN110246500 A CN 110246500A
- Authority
- CN
- China
- Prior art keywords
- recording file
- data
- cut
- beginning
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 238000007630 basic procedure Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
- G11B2020/10537—Audio or video recording
- G11B2020/10546—Audio or video recording specifically adapted for audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
本发明公开了一种基于录音文件的语音识别方法及系统,其中录音文件包括至少一静默段,静默段为录音文件中音频信号的强度低于预设阈值的数据,基于录音文件的语音识别方法包括:以静默段为切分点将录音文件切分成至少一语音切片数据;利用语音识别算法分别识别语音切片数据,并得到语音切片数据对应的识别结果;将识别结果进行拼接,得到录音文件的语音识别结果。本发明通过以静默段为切分点将录音文件切分成至少一语音切片数据;并利用语音识别算法分别识别语音切片数据,以得到语音切片数据对应的识别结果;将识别结果进行拼接,得到录音文件的语音识别结果,可使得语音识别不再受录音文件的时长限制,大大提高了识别的效率。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种基于录音文件的语音识别方法及系统。
背景技术
近年来,语音识别技术取得了显著进步,开始从实验室走向市场,而且在越来越多的领域得到广泛的应用。
语音识别的目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
但现在市面上的语音识别技术对识别的录音的时长都有限制,当录音的时长超过了识别的要求时,可能会识别失败甚至直接报错,给用户带来很不好的使用感受。
发明内容
本发明要解决的技术问题是为了克服现有技术中语音识别受限于录音时长的缺陷,提供一种基于录音文件的语音识别方法及系统。
本发明是通过下述技术方案来解决上述技术问题:
一种基于录音文件的语音识别方法,所述录音文件包括至少一静默段,所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据,所述基于录音文件的语音识别方法包括:
以所述静默段为切分点将所述录音文件切分成至少一语音切片数据;
利用语音识别算法分别识别所述语音切片数据,并得到所述语音切片数据对应的识别结果;
将所述识别结果进行拼接,得到所述录音文件的语音识别结果。
优选地,所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤之前还包括:
判断所述录音文件的总时长是否超过预设时长,若是,则执行所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤。
优选地,所述将所述识别结果进行拼接的步骤包括:
将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。
优选地,所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤包括:
依次获取所述录音文件中所述静默段的开始时间和结束时间;
根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
根据所述非静默段的开始时间和结束时间得到所述语音切片数据。
优选地,所述将所述录音文件进行切分的步骤包括:
利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间,所述多媒体视频处理工具为FFmpeg。
一种基于录音文件的语音识别系统,所述录音文件包括至少一静默段,所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据,所述基于录音文件的语音识别系统包括切分模块、识别模块和拼接模块;
所述切分模块用于以所述静默段为切分点将所述录音文件切分成至少一语音切片数据;
所述识别模块用于利用语音识别算法分别识别所述语音切片数据,并得到所述语音切片数据对应的识别结果;
所述拼接模块用于将所述识别结果进行拼接,得到所述录音文件的语音识别结果。
优选地,所述基于录音文件的语音识别系统还包括判断模块,所述判断模块用于判断所述录音文件的总时长是否超过预设时长,若是,则调用切分模块。
优选地,所述拼接模块还用于将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。
优选地,所述切分模块还用于依次获取所述录音文件中所述静默段的开始时间和结束时间;
所述切分模块还用于根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
所述切分模块还用于根据所述非静默段的开始时间和结束时间得到所述语音切片数据。
优选地,所述切分模块还用于利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间,所述多媒体视频处理工具为FFmpeg。
本发明的积极进步效果在于:
本发明通过以静默段为切分点将录音文件切分成至少一语音切片数据;并利用语音识别算法分别识别语音切片数据,以得到语音切片数据对应的识别结果;将识别结果进行拼接,得到录音文件的语音识别结果,可使得语音识别不再受录音文件的时长限制,大大提高了识别的效率。
附图说明
图1为本发明的实施例1的基于录音文件的语音识别方法的流程图。
图2为本发明的实施例1的基于录音文件的语音识别方法中步骤11的流程图。
图3为本发明的实施例1的基于录音文件的语音识别方法中语音切片数据的示意图。
图4为本发明的实施例2的基于录音文件的语音识别系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种基于录音文件的语音识别方法,录音文件包括至少一静默段,静默段为录音文件中音频信号的强度低于预设阈值的数据,如图1所示,基于录音文件的语音识别方法包括:
步骤10、判断录音文件的总时长是否超过预设时长,若是,则执行步骤11。
步骤11、以静默段为切分点将录音文件切分成至少一语音切片数据。
利用多媒体视频处理工具获取录音文件中静默段的静默音的开始时间和结束时间,多媒体视频处理工具为FFmpeg。
更具体地,如图2所示,步骤11包括:
步骤111、依次获取录音文件中静默段的开始时间和结束时间;
步骤112、根据静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
步骤113、根据非静默段的开始时间和结束时间得到语音切片数据。
具体地,以静默段为切分点将录音文件切分成至少一语音切片数据的基本流程,按照静默段的开始时间及结束时间来处理,从起始时间0到第一个静默段的开始时间作为第一片语音切片数据,从第一个静默段的结束时间开始到下一个静默段开始时间作为第二片语音切片数据,依次类推得到所有语音切片数据。
应用场景:
假设录音文件A,通过多媒体视频处理工具FFmpeg的静默音的检测后输出文件如下所示(数字部分为时间单位,单位为秒):
silence_start:22.70
silence_end:25.71|silence_duration:3.01313
silence_start:28.84
silence_end:36.88|silence_duration:8.03613
silence_start:45.47
silence_end:49.33|silence_duration:3.8545
time=00:00:56.80
如图3中椭圆部分为非静默段即有声音的语音切片数据。
其中,silence_start:22.70代表第一段静默音开始的时间点是22.70秒,silence_end:25.71代表第一段静默音结束的时间点是22.7045.47秒,silence_duration:3.01313代表第一段静默音持续的时长为3.01313秒。
具体分析流程如下:
(1)通过多媒体视频处理工具检测录音文件的静默音,并将检测结果以文件流的方式输出到控制台,以行读取的方式读取文件流得到每行文本并加以分析。
(2)设置语音切片数据的开始时间splitStartTime=0,结束时间splitEndTime=0,及包含“silence”关键字的文本outputData,设置默认值为空。
(3)检查文本中是否含有关键字“silence_start”,如果包含则得到静默音的开始时间并记作silenceStartTime,获取相应的文本内容并赋值给outputData。以splitStartTime为起始时间,持续silenceStartTime–splitStartTime时长,从而得到第一片语音切片数据,并将silenceStartTime赋给splitEndTime,记录入数据库。
(4)检查文本中是否含有关键字“silence_end”,如果包含,则得到静默结束时间并记作silenceEndTime,并将相应的文本内容赋值outputData。以silenceEndTime作为第二片语音切片数据的开始时间,即将silenceEndTime赋给splitStartTime。
(5)检查文本中是否含有录音总时长关键字“time=”,如果包含,则得到录音总时长,记作totalTime,此时判断outputData是否含有关键字“silence_end”,如果包含则认为这是最后一片语音切片数据,从起始时间splitStartTime开始直到录音结束,从而得到最后一片语音切片数据,并将totalTime赋值给splitEndTime,记录入数据库;
(6)循环第(3)-(5)步,直到读到文本末尾,得到所有的有声音的语音切片数据。
本实施例通过工具检测出录音文件中静默音的开始及结束时间,根据这两个时间反向推导出每片有声音的语音切片数据的活动(有声音)的开始时间和结束时间,再使用工具按照录语音切片数据的开始时间和结束时间切分,从而得到每一片有声音的语音切片数据。
步骤12、利用语音识别算法分别识别语音切片数据,并得到语音切片数据对应的识别结果。
步骤13、将识别结果进行拼接,得到录音文件的语音识别结果。
将识别结果按照语音切片数据在录音文件中的时间顺序进行拼接。
本实施例通过以静默段为切分点将录音文件切分成至少一语音切片数据;并利用语音识别算法分别识别语音切片数据,以得到语音切片数据对应的识别结果;将识别结果进行拼接,得到录音文件的语音识别结果,可使得语音识别不再受录音文件的时长限制,大大提高了识别的效率。
实施例2
本实施例提供一种基于录音文件的语音识别系统,录音文件包括至少一静默段,静默段为录音文件中音频信号的强度低于预设阈值的数据,如图3所示,基于录音文件的语音识别系统包括判断模块21、切分模块22、识别模块23和拼接模块24。
判断模块21用于判断录音文件的总时长是否超过预设时长,若是,则调用切分模块22。
切分模块22用于以静默段为切分点将录音文件切分成至少一语音切片数据。
切分模块22还用于利用多媒体视频处理工具获取录音文件中静默段的开始时间和结束时间,多媒体视频处理工具为FFmpeg。
更具体地,切分模块22还用于依次获取录音文件中静默段的开始时间和结束时间;
切分模块22还用于根据静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
切分模块22还用于根据非静默段的开始时间和结束时间得到语音切片数据。
具体地,以静默段为切分点将录音文件切分成至少一语音切片数据的基本流程,按照静默段的开始时间及结束时间来处理,从0到第一个静默段的开始时间作为第一片语音切片数据,从第一个静默段的结束时间开始到下一个静默段开始时间作为第二片语音切片数据,依次类推得到所有语音切片数据。
应用场景:
假设录音文件A,通过多媒体视频处理工具FFmpeg的静默音的检测后输出文件如下所示(数字部分为时间单位,单位为秒):
silence_start:22.70
silence_end:25.71|silence_duration:3.01313
silence_start:28.84
silence_end:36.88|silence_duration:8.03613
silence_start:45.47
silence_end:49.33|silence_duration:3.8545
time=00:00:56.80
如图3中椭圆部分为非静默段即有声音的语音切片数据。
其中,silence_start:22.70代表第一段静默音开始的时间点是22.70秒,silence_end:25.71代表第一段静默音结束的时间点是22.7045.47秒,silence_duration:3.01313代表第一段静默音持续的时长为3.01313秒。
具体分析流程如下:
(1)通过多媒体视频处理工具检测录音文件的静默音,并将检测结果以文件流的方式输出到控制台,以行读取的方式读取文件流得到每行文本并加以分析。
(2)设置语音切片数据的开始时间splitStartTime=0,结束时间splitEndTime=0,及包含“silence”关键字的文本outputData,设置默认值为空。
(3)检查文本中是否含有关键字“silence_start”,如果包含则得到静默音的开始时间并记作silenceStartTime,获取相应的文本内容并赋值给outputData。以splitStartTime为起始时间,持续silenceStartTime–splitStartTime时长,从而得到第一片语音切片数据,并将silenceStartTime赋给splitEndTime,记录入数据库。
(4)检查文本中是否含有关键字“silence_end”,如果包含,则得到静默结束时间并记作silenceEndTime,并将相应的文本内容赋值outputData。以silenceEndTime作为第二片语音切片数据的开始时间,即将silenceEndTime赋给splitStartTime。
(5)检查文本中是否含有录音总时长关键字“time=”,如果包含,则得到录音总时长,记作totalTime,此时判断outputData是否含有关键字“silence_end”,如果包含则认为这是最后一片语音切片数据,从起始时间splitStartTime开始直到录音结束,从而得到最后一片语音切片数据,并将totalTime赋值给splitEndTime,记录入数据库;
(6)循环第(3)-(5)步,直到读到文本末尾,得到所有的有声音的语音切片数据。
本实施例通过工具检测出录音文件中静默音的开始及结束时间,根据这两个时间反向推导出每片有声音的语音切片数据的活动(有声音)的开始时间和结束时间,再使用工具按照录语音切片数据的开始时间和结束时间切分,从而得到每一片有声音的语音切片数据。
识别模块23用于利用语音识别算法分别识别语音切片数据,并得到语音切片数据对应的识别结果;
拼接模块24用于将识别结果进行拼接,得到录音文件的语音识别结果。
更具体地,拼接模块24还用于将识别结果按照语音切片数据在录音文件中的时间顺序进行拼接。
本实施例通过以静默段为切分点将录音文件切分成至少一语音切片数据;并利用语音识别算法分别识别语音切片数据,以得到语音切片数据对应的识别结果;将识别结果进行拼接,得到录音文件的语音识别结果,可使得语音识别不再受录音文件的时长限制,大大提高了识别的效率。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种基于录音文件的语音识别方法,所述录音文件包括至少一静默段,所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据,其特征在于,所述基于录音文件的语音识别方法包括:
以所述静默段为切分点将所述录音文件切分成至少一语音切片数据;
利用语音识别算法分别识别所述语音切片数据,并得到所述语音切片数据对应的识别结果;
将所述识别结果进行拼接,得到所述录音文件的语音识别结果。
2.如权利要求1所述的基于录音文件的语音识别方法,其特征在于,所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤之前还包括:
判断所述录音文件的总时长是否超过预设时长,若是,则执行所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤。
3.如权利要求1所述的基于录音文件的语音识别方法,其特征在于,所述将所述识别结果进行拼接的步骤包括:
将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。
4.如权利要求1所述的基于录音文件的语音识别方法,其特征在于,所述以所述静默段为切分点将所述录音文件切分成至少一语音切片数据的步骤包括:
依次获取所述录音文件中所述静默段的开始时间和结束时间;
根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
根据所述非静默段的开始时间和结束时间得到所述语音切片数据。
5.如权利要求4所述的基于录音文件的语音识别方法,其特征在于,所述将所述录音文件进行切分的步骤包括:
利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间,所述多媒体视频处理工具为FFmpeg。
6.一种基于录音文件的语音识别系统,所述录音文件包括至少一静默段,所述静默段为所述录音文件中音频信号的强度低于预设阈值的数据,其特征在于,所述基于录音文件的语音识别系统包括切分模块、识别模块和拼接模块;
所述切分模块用于以所述静默段为切分点将所述录音文件切分成至少一语音切片数据;
所述识别模块用于利用语音识别算法分别识别所述语音切片数据,并得到所述语音切片数据对应的识别结果;
所述拼接模块用于将所述识别结果进行拼接,得到所述录音文件的语音识别结果。
7.如权利要求6所述的基于录音文件的语音识别系统,其特征在于,所述基于录音文件的语音识别系统还包括判断模块,所述判断模块用于判断所述录音文件的总时长是否超过预设时长,若是,则调用切分模块。
8.如权利要求6所述的基于录音文件的语音识别系统,其特征在于,所述拼接模块还用于将所述识别结果按照所述语音切片数据在所述录音文件中的时间顺序进行拼接。
9.如权利要求6所述的基于录音文件的语音识别系统,其特征在于,所述切分模块还用于依次获取所述录音文件中所述静默段的开始时间和结束时间;
所述切分模块还用于根据所述静默段的开始时间和结束时间得到非静默段的开始时间和结束时间;
所述切分模块还用于根据所述非静默段的开始时间和结束时间得到所述语音切片数据。
10.如权利要求9所述的基于录音文件的语音识别系统,其特征在于,所述切分模块还用于利用多媒体视频处理工具获取所述录音文件中所述静默段的开始时间和结束时间,所述多媒体视频处理工具为FFmpeg。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630473.2A CN110246500A (zh) | 2019-07-12 | 2019-07-12 | 基于录音文件的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630473.2A CN110246500A (zh) | 2019-07-12 | 2019-07-12 | 基于录音文件的语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110246500A true CN110246500A (zh) | 2019-09-17 |
Family
ID=67892025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910630473.2A Pending CN110246500A (zh) | 2019-07-12 | 2019-07-12 | 基于录音文件的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110246500A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111213205A (zh) * | 2019-12-30 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642408A1 (en) * | 2012-03-22 | 2013-09-25 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
CN104485105A (zh) * | 2014-12-31 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
CN105719642A (zh) * | 2016-02-29 | 2016-06-29 | 黄博 | 连续长语音识别方法及系统、硬件设备 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
-
2019
- 2019-07-12 CN CN201910630473.2A patent/CN110246500A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2642408A1 (en) * | 2012-03-22 | 2013-09-25 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
CN104485105A (zh) * | 2014-12-31 | 2015-04-01 | 中国科学院深圳先进技术研究院 | 一种电子病历生成方法和电子病历系统 |
CN105719642A (zh) * | 2016-02-29 | 2016-06-29 | 黄博 | 连续长语音识别方法及系统、硬件设备 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111213205A (zh) * | 2019-12-30 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN111213205B (zh) * | 2019-12-30 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN112530424A (zh) * | 2020-11-23 | 2021-03-19 | 北京小米移动软件有限公司 | 语音处理方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102971787B (zh) | 录音结束点检测方法及系统 | |
US8145486B2 (en) | Indexing apparatus, indexing method, and computer program product | |
CN111312219B (zh) | 电话录音标注方法、系统、存储介质和电子设备 | |
US8478585B2 (en) | Identifying features in a portion of a signal representing speech | |
US20050203750A1 (en) | Displaying text of speech in synchronization with the speech | |
JPH11191000A (ja) | テキストを音声信号と整列する方法 | |
CN110246500A (zh) | 基于录音文件的语音识别方法及系统 | |
CN109979440B (zh) | 关键词样本确定方法、语音识别方法、装置、设备和介质 | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
CN110853627B (zh) | 用于语音标注的方法及系统 | |
CN102456343A (zh) | 录音结束点检测方法及系统 | |
US7680657B2 (en) | Auto segmentation based partitioning and clustering approach to robust endpointing | |
CN108962228B (zh) | 模型训练方法和装置 | |
CN109559733B (zh) | 语音节奏处理方法和装置 | |
CN101419796A (zh) | 自动分割单字语音信号的装置与方法 | |
CN114758665B (zh) | 音频数据增强方法、装置、电子设备及存储介质 | |
JPS6123560B2 (zh) | ||
WO2009055701A1 (en) | Processing of a signal representing speech | |
CN114648984B (zh) | 音频断句方法、装置、计算机设备及存储介质 | |
CN108235137B (zh) | 一种通过声音波形判断切台动作的方法、装置及电视机 | |
CN115346519A (zh) | 静音检测模型的构建方法、电子设备、存储介质及程序产品 | |
CN118248133A (zh) | 二阶段语音识别方法、装置、计算机设备及可读存储介质 | |
JPS63281199A (ja) | 音声セグメンテ−ション装置 | |
CN117275457A (zh) | 一种语音转换方法、系统及存储介质 | |
JPH09198077A (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |
|
RJ01 | Rejection of invention patent application after publication |