CN111986654B - 降低语音识别系统延时的方法及系统 - Google Patents
降低语音识别系统延时的方法及系统 Download PDFInfo
- Publication number
- CN111986654B CN111986654B CN202010773420.9A CN202010773420A CN111986654B CN 111986654 B CN111986654 B CN 111986654B CN 202010773420 A CN202010773420 A CN 202010773420A CN 111986654 B CN111986654 B CN 111986654B
- Authority
- CN
- China
- Prior art keywords
- segment
- voice
- similarity
- silence
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000012634 fragment Substances 0.000 claims abstract description 63
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种降低语音识别系统延时的方法及系统,所述方法执行以下步骤:步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;步骤3:根据所述片段相似度结果,得到断句结果。根据本发明的方法,利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种降低语音识别系统延时的方法及系统。
背景技术
在实时交互中,语音识别系统的延时是影响交互体验的一个重要因素,更低的延时意味着更快的系统响应和更好的体验感受。目前市场上的语音识别系统,延时包括引擎固有延时和其他延时,其中引擎固有延时是指由于神经网络结构本身的特性,引擎的处理总会有一部分未处理的缓存数据所导致的延时;其他延时指除引擎固有延时之外的延时,包括分片延时和阈值延时等,分片延时是指引擎分片处理数据时,不可能刚好将分片切在语音开始和结束处,不同的分片大小可能会导致完全不同的断句效果,阈值延时是指用户需要拿到足够长的静音,才能做断句操作。
目前市面上语音识别系统的延时,大多是基于阈值在调整。阈值越大,延时越高;阈值越小,延时低,但是也容易断句在相邻的语音上,用户稍微喘口气停顿一下就断句了,影响用户体验。
发明内容
本发明提供一种降低语音识别系统延时的方法及系统,用以解决语音识别中的延时问题,在实时交互中及时断句。
本发明提供了一种降低语音识别系统延时的方法,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果。
进一步地,所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
进一步地,在所述步骤S23中,所述预设时长为断句阈值。
进一步地,所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段。
进一步地,所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段。
进一步地,所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语音识别数据进行解码处理,得到相应的解码语音数据。
本发明实施例提供的一种降低语音识别系统延时的方法,具有以下有益效果:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
本发明还提供一种降低语音识别系统延时的系统,包括:
语音解码模块,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块,用于根据所述片段相似度结果,得到断句结果。
进一步地,所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
进一步地,所述断句模块包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段。
进一步地,所述语音解码模块包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语音识别数据进行解码处理,得到相应的解码语音数据。
本发明实施例提供的一种降低语音识别系统延时的系统,具有以下有益效果:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种降低语音识别系统延时的方法的流程示意图;
图2为目前语音识别中系统延时的示意图;
图3为采用本发明语音识别方法中系统延时的示意图;
图4为本发明实施例中一种降低语音识别系统延时的系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种降低语音识别系统延时的方法,如图1所示,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果。
上述技术方案的工作原理为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,1.妥善处理缓存数据的固有延时,不用等待引擎解码出当前接收到的语音片段就能抢先计算该语音片段的特征,因此不用等待引擎充分解码出固有延时的静音再断句,只要通过片段相似度计算,即可确定该语音片段是否为静音片段,若为语音片段就可以抢先断句。
上述技术方案的有益效果为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
在一个实施例中,所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语音识别数据进行解码处理,得到相应的解码语音数据。
上述技术方案的工作原理为:接收到的语音信号例如可以是通过麦克风采集到的用户说话语音,并将采集到的模拟信号处理成数字信号得到语音识别数据;然后利用解码引擎进行解码处理,得到相应的解码语音数据。
上述技术方案的有益效果为:提供了对语音信号进行解码处理,得到解码语音数据的具体步骤。
在一个实施例中,所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
上述技术方案的工作原理为:在所述步骤S23中,所述预设时长为断句阈值,例如为450ms-550ms,优选地,在本发明中,断句阈值为500ms。
进一步地,所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段。
上述技术方案的有益效果为:提供了比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果的具体步骤。
在一个实施例中,所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段。
上述技术方案的工作原理为:图2示出了目前语音识别中系统延时的示意图,图3示出采用本发明语音识别方法中系统延时的示意图。
如图2所示,t0表示音频流式送入ASR(Automatic Speech Recognition,自动语音识别)音频,当前已经送到t0时刻;t1表示解码引擎目前已经处理音频到t1时刻;t2表示解码引擎判断句子在t2时刻结束,此时静音开始出现;t0–t1表示引擎固有延时,这部分数据缓存在引擎中,还没有开始处理,这部分延时是引擎结构产生的固有延时,不可避免,不同ASR引擎固有延时大小可能不同;t1–t2表示引擎解码当前得到的静音长度。
传统断句方案通过以下步骤计算系统延时:当t1–t2超过设定阈值时进行断句,假设断句阈值为500ms,引擎固有延时t0–t1=200ms,当t1–t2>=500ms时断句,此时延时为t0–t2=(t0–t1)+(t1–t2)=200ms+(t1–t2)>=700ms。另外,考虑到语音数据是分片送入引擎的,延时多少还会受到分片大小的影响,假设分片大小为M(ms),因此实际延时往往是介于700ms到(700+M)ms之间。
如图3所示,t0表示音频流式送入ASR(Automatic Speech Recognition,自动语音识别)引擎,当前已经送到t0时刻;t1表示解码引擎目前已经处理音频到t1时刻;t2表示解码引擎判断句子在t2时刻结束,此时静音开始出现;t3表示已经解码出的某个历史静音片段中的静音终止时间点;t4表示已经解码出的某个历史静音片段中的静音开始时间点;t3–t4表示已经解码出的某个静音片段;
本发明的技术构思是利用已经解码出的静音片段t3-t4,来检测当前引擎收到的最新数据中有多少静音。假设断句阈值为500ms,引擎固有延时t0–t1=200ms。
本发明语音识别方法中的断句方法为:首先计算[t4,t3]的音频特征,即将已经解码出的确定是静音音频的特征提取出并保存下来,作为参考信号;在得到[t4,t3]的特征以后,引擎每接收到一个时间片段的数据,就计算一下[t0–500ms,t0]这个区间的音频特征;如果[t4,t3]与[t0-500ms,t0]这两个音频片段的片段相似度很高(超过预设阈值),说明[t0–500ms,t0]为静音片段,可以进行断句;反之,如果[t4,t3]与[t0-500ms,t0]的相似度低于阈值,则不做断句。
上述技术方案的有益效果为:提供了根据片段相似度结果,得到断句结果的具体步骤。
如图2所示,本发明实施例提供了一种降低语音识别系统延时的系统,包括:
语音解码模块201,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块202,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块203,用于根据所述片段相似度结果,得到断句结果。
上述技术方案的工作原理为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,1.妥善处理缓存数据的固有延时,不用等待引擎解码出当前接收到的语音片段就能抢先计算该语音片段的特征,因此不用等待引擎充分解码出固有延时的静音再断句,只要通过片段相似度计算,即可确定该语音片段是否为静音片段,若为语音片段就可以抢先断句。
上述技术方案的有益效果为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
在一个实施例中,所述语音解码模块201包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语音识别数据进行解码处理,得到相应的解码语音数据。
上述技术方案的工作原理为:接收到的语音信号例如可以是通过麦克风采集到的用户说话语音,并将采集到的模拟信号处理成数字信号得到语音识别数据;然后利用解码引擎进行解码处理,得到相应的解码语音数据。
上述技术方案的有益效果为:借助于语音处理单元和语音解码单元,可以对接收到的语音信号进行解码处理,得到解码语音数据。
在一个实施例中,所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
上述技术方案的工作原理为:具体地,所述参考静音片段确定单元包括:
静音片段确定子单元,用于在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
参考静音片段确定子单元,用于在若干静音片段中随机选择一个,作为所述参考静音片段。
上述技术方案的有益效果为:借助于参考静音片段确定单元、第一音频特征提取单元和第二音频特征提取单元,可以比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果。
在一个实施例中,所述断句模块203包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段。静音段确定单元在片段相似度结果超过相似度阈值时,确定预设时长的语音片段为静音段,并在末尾断句;静音段确定单元在片段相似度结果小于预设的相似度阈值时,确定预设时长的语音片段为非静音段,此时不做断句处理。
上述技术方案的工作原理为:通过将片段相似度结果和相似度阈值进行比较可以确定某个语音片段是否为静音段。
上述技术方案的有益效果为:借助于静音段确定单元和非静音段确定单元,可以确定某个语音片段是否为静音段。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种降低语音识别系统延时的方法,其特征在于,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果;
所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果;
在所述步骤S23中,所述预设时长为断句阈值;
所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段;
所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段;
所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语音识别数据进行解码处理,得到相应的解码语音数据。
2.一种降低语音识别系统延时的系统,其特征在于,包括:
语音解码模块,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块,用于根据所述片段相似度结果,得到断句结果;
所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果;
在所述第二音频特征提取单元中,所述预设时长为断句阈值;
所述第一音频特征提取单元,包括:
静音片段确定子单元,用于在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
参考静音片段确定子单元,用于在若干静音片段中随机选择一个,作为所述参考静音片段;
所述断句模块包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段;
所述语音解码模块包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语音识别数据进行解码处理,得到相应的解码语音数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773420.9A CN111986654B (zh) | 2020-08-04 | 2020-08-04 | 降低语音识别系统延时的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773420.9A CN111986654B (zh) | 2020-08-04 | 2020-08-04 | 降低语音识别系统延时的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111986654A CN111986654A (zh) | 2020-11-24 |
CN111986654B true CN111986654B (zh) | 2024-01-19 |
Family
ID=73445012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010773420.9A Active CN111986654B (zh) | 2020-08-04 | 2020-08-04 | 降低语音识别系统延时的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111986654B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178790A (zh) * | 2006-11-10 | 2008-05-14 | 胡鹏 | 智能虚拟断句实现协同听打录入的方法 |
WO2017084360A1 (zh) * | 2015-11-17 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种用于语音识别方法及系统 |
CN107851435A (zh) * | 2015-05-26 | 2018-03-27 | 纽昂斯通讯公司 | 用于降低语音识别应用中的延时的方法和装置 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN109065031A (zh) * | 2018-08-02 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN109559733A (zh) * | 2018-11-29 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 语音节奏处理方法和装置 |
CN110310626A (zh) * | 2019-05-23 | 2019-10-08 | 平安科技(深圳)有限公司 | 语音训练数据生成方法、装置、设备及可读存储介质 |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
CN110675861A (zh) * | 2019-09-26 | 2020-01-10 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN110880317A (zh) * | 2019-10-30 | 2020-03-13 | 云知声智能科技股份有限公司 | 一种语音识别系统中的智能标点方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100466671C (zh) * | 2004-05-14 | 2009-03-04 | 华为技术有限公司 | 语音切换方法及其装置 |
CN104143331B (zh) * | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN109903751B (zh) * | 2017-12-08 | 2023-07-07 | 阿里巴巴集团控股有限公司 | 关键词确认方法和装置 |
-
2020
- 2020-08-04 CN CN202010773420.9A patent/CN111986654B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178790A (zh) * | 2006-11-10 | 2008-05-14 | 胡鹏 | 智能虚拟断句实现协同听打录入的方法 |
CN107851435A (zh) * | 2015-05-26 | 2018-03-27 | 纽昂斯通讯公司 | 用于降低语音识别应用中的延时的方法和装置 |
WO2017084360A1 (zh) * | 2015-11-17 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种用于语音识别方法及系统 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN109065031A (zh) * | 2018-08-02 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 语音标注方法、装置及设备 |
CN110364145A (zh) * | 2018-08-02 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别的方法、语音断句的方法及装置 |
CN109379641A (zh) * | 2018-11-14 | 2019-02-22 | 腾讯科技(深圳)有限公司 | 一种字幕生成方法和装置 |
CN109559733A (zh) * | 2018-11-29 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 语音节奏处理方法和装置 |
CN110310626A (zh) * | 2019-05-23 | 2019-10-08 | 平安科技(深圳)有限公司 | 语音训练数据生成方法、装置、设备及可读存储介质 |
CN110675861A (zh) * | 2019-09-26 | 2020-01-10 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN110880317A (zh) * | 2019-10-30 | 2020-03-13 | 云知声智能科技股份有限公司 | 一种语音识别系统中的智能标点方法及装置 |
Non-Patent Citations (2)
Title |
---|
语言断句及重读的软件控制方法与实现;唐慧丰, 曹智一;微计算机信息(第12期);全文 * |
语音自动断句及外语视听教学资源的同步整合;张增良;计算机时代(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111986654A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106531167B (zh) | 一种语音信息的处理方法及装置 | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
US7103157B2 (en) | Audio quality when streaming audio to non-streaming telephony devices | |
US20190385636A1 (en) | Voice activity detection method and apparatus | |
US11817094B2 (en) | Automatic speech recognition with filler model processing | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN110827795A (zh) | 语音输入结束判断方法、装置、设备、系统以及存储介质 | |
CN110264999B (zh) | 一种音频处理方法、设备及计算机可读介质 | |
CN109979474B (zh) | 语音设备及其用户语速修正方法、装置和存储介质 | |
CN108055417B (zh) | 一种基于语音检测回音抑制切换音频处理系统及方法 | |
CN115910043A (zh) | 语音识别方法、装置及车辆 | |
CN111986654B (zh) | 降低语音识别系统延时的方法及系统 | |
CN110942764B (zh) | 一种流式语音识别方法 | |
CN111583933B (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN113345473A (zh) | 语音端点检测方法、装置、电子设备和存储介质 | |
CN106303563B (zh) | 流媒体在线播放方法、装置、执行终端以及存储介质 | |
WO2007044816A1 (en) | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication | |
JP3926242B2 (ja) | 音声対話システム、音声対話のためのプログラムおよび音声対話方法 | |
CN114120961A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN113038178A (zh) | 一种视频帧的传输控制方法及装置 | |
CN115150660B (zh) | 一种基于字幕的视频编辑方法和相关设备 | |
CN113053363B (zh) | 语音识别方法、语音识别装置和计算机可读存储介质 | |
JPH0728486A (ja) | 音声圧縮装置 | |
CN114550708A (zh) | 基于深度学习的流式实时语音识别方法 | |
JP3219892B2 (ja) | リアルタイム話速変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |