CN111986654A - 降低语音识别系统延时的方法及系统 - Google Patents

降低语音识别系统延时的方法及系统 Download PDF

Info

Publication number
CN111986654A
CN111986654A CN202010773420.9A CN202010773420A CN111986654A CN 111986654 A CN111986654 A CN 111986654A CN 202010773420 A CN202010773420 A CN 202010773420A CN 111986654 A CN111986654 A CN 111986654A
Authority
CN
China
Prior art keywords
segment
voice
similarity
audio
silence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010773420.9A
Other languages
English (en)
Other versions
CN111986654B (zh
Inventor
范红亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010773420.9A priority Critical patent/CN111986654B/zh
Publication of CN111986654A publication Critical patent/CN111986654A/zh
Application granted granted Critical
Publication of CN111986654B publication Critical patent/CN111986654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

本发明提供了一种降低语音识别系统延时的方法及系统,所述方法执行以下步骤:步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;步骤3:根据所述片段相似度结果,得到断句结果。根据本发明的方法,利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。

Description

降低语音识别系统延时的方法及系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种降低语音识别系统延时的方法及系统。
背景技术
在实时交互中,语音识别系统的延时是影响交互体验的一个重要因素,更低的延时意味着更快的系统响应和更好的体验感受。目前市场上的语音识别系统,延时包括引擎固有延时和其他延时,其中引擎固有延时是指由于神经网络结构本身的特性,引擎的处理总会有一部分未处理的缓存数据所导致的延时;其他延时指除引擎固有延时之外的延时,包括分片延时和阈值延时等,分片延时是指引擎分片处理数据时,不可能刚好将分片切在语音开始和结束处,不同的分片大小可能会导致完全不同的断句效果,阈值延时是指用户需要拿到足够长的静音,才能做断句操作。
目前市面上语音识别系统的延时,大多是基于阈值在调整。阈值越大,延时越高;阈值越小,延时低,但是也容易断句在相邻的语音上,用户稍微喘口气停顿一下就断句了,影响用户体验。
发明内容
本发明提供一种降低语音识别系统延时的方法及系统,用以解决语音识别中的延时问题,在实时交互中及时断句。
本发明提供了一种降低语音识别系统延时的方法,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果。
进一步地,所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
进一步地,在所述步骤S23中,所述预设时长为断句阈值。
进一步地,所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段。
进一步地,所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段。
进一步地,所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语言识别数据进行解码处理,得到相应的解码语音数据。
本发明实施例提供的一种降低语音识别系统延时的方法,具有以下有益效果:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
本发明还提供一种降低语音识别系统延时的系统,包括:
语音解码模块,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块,用于根据所述片段相似度结果,得到断句结果。
进一步地,所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
进一步地,所述断句模块包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段。
进一步地,所述语音解码模块包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语言识别数据进行解码处理,得到相应的解码语音数据。
本发明实施例提供的一种降低语音识别系统延时的系统,具有以下有益效果:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种降低语音识别系统延时的方法的流程示意图;
图2为目前语音识别中系统延时的示意图;
图3为采用本发明语音识别方法中系统延时的示意图;
图4为本发明实施例中一种降低语音识别系统延时的系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种降低语音识别系统延时的方法,如图1所示,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果。
上述技术方案的工作原理为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,1.妥善处理缓存数据的固有延时,不用等待引擎解码出当前接收到的语音片段就能抢先计算该语音片段的特征,因此不用等待引擎充分解码出固有延时的静音再断句,只要通过片段相似度计算,即可确定该语音片段是否为静音片段,若为语音片段就可以抢先断句。
上述技术方案的有益效果为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
在一个实施例中,所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语言识别数据进行解码处理,得到相应的解码语音数据。
上述技术方案的工作原理为:接收到的语音信号例如可以是通过麦克风采集到的用户说话语音,并将采集到的模拟信号处理成数字信号得到语音识别数据;然后利用解码引擎进行解码处理,得到相应的解码语音数据。
上述技术方案的有益效果为:提供了对语音信号进行解码处理,得到解码语音数据的具体步骤。
在一个实施例中,所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
上述技术方案的工作原理为:在所述步骤S23中,所述预设时长为断句阈值,例如为450ms-550ms,优选地,在本发明中,断句阈值为500ms。
进一步地,所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段。
上述技术方案的有益效果为:提供了比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果的具体步骤。
在一个实施例中,所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段。
上述技术方案的工作原理为:图2示出了目前语音识别中系统延时的示意图,图3示出采用本发明语音识别方法中系统延时的示意图。
如图2所示,t0表示音频流式送入ASR(Automatic Speech Recognition,自动语音识别)音频,当前已经送到t0时刻;t1表示解码引擎目前已经处理音频到t1时刻;t2表示解码引擎判断句子在t2时刻结束,此时静音开始出现;t0–t1表示引擎固有延时,这部分数据缓存在引擎中,还没有开始处理,这部分延时是引擎结构产生的固有延时,不可避免,不同ASR引擎固有延时大小可能不同;t1–t2表示引擎解码当前得到的静音长度。
传统断句方案通过以下步骤计算系统延时:当t1–t2超过设定阈值时进行断句,假设断句阈值为500ms,引擎固有延时t0–t1=200ms,当t1–t2>=500ms时断句,此时延时为t0–t2=(t0–t1)+(t1–t2)=200ms+(t1–t2)>=700ms。另外,考虑到语音数据是分片送入引擎的,延时多少还会受到分片大小的影响,假设分片大小为M(ms),因此实际延时往往是介于700ms到(700+M)ms之间。
如图3所示,t0表示音频流式送入ASR(Automatic Speech Recognition,自动语音识别)引擎,当前已经送到t0时刻;t1表示解码引擎目前已经处理音频到t1时刻;t2表示解码引擎判断句子在t2时刻结束,此时静音开始出现;t3表示已经解码出的某个历史静音片段中的静音终止时间点;t4表示已经解码出的某个历史静音片段中的静音开始时间点;t3–t4表示已经解码出的某个静音片段;
本发明的技术构思是利用已经解码出的静音片段t3-t4,来检测当前引擎收到的最新数据中有多少静音。假设断句阈值为500ms,引擎固有延时t0–t1=200ms。
本发明语音识别方法中的断句方法为:首先计算[t4,t3]的音频特征,即将已经解码出的确定是静音音频的特征提取出并保存下来,作为参考信号;在得到[t4,t3]的特征以后,引擎每接收到一个时间片段的数据,就计算一下[t0–500ms,t0]这个区间的音频特征;如果[t4,t3]与[t0-500ms,t0]这两个音频片段的片段相似度很高(超过预设阈值),说明[t0–500ms,t0]为静音片段,可以进行断句;反之,如果[t4,t3]与[t0-500ms,t0]的相似度低于阈值,则不做断句。
上述技术方案的有益效果为:提供了根据片段相似度结果,得到断句结果的具体步骤。
如图2所示,本发明实施例提供了一种降低语音识别系统延时的系统,包括:
语音解码模块201,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块202,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块203,用于根据所述片段相似度结果,得到断句结果。
上述技术方案的工作原理为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,1.妥善处理缓存数据的固有延时,不用等待引擎解码出当前接收到的语音片段就能抢先计算该语音片段的特征,因此不用等待引擎充分解码出固有延时的静音再断句,只要通过片段相似度计算,即可确定该语音片段是否为静音片段,若为语音片段就可以抢先断句。
上述技术方案的有益效果为:利用引擎中已解码出的静音特征,根据某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到断句结果,可以实时监测引擎中最新的数据是否有足够长的静音片段,可以消除缓存数据和分片带来的延时影响,能在第一时间拿到断句信号,因此可以显著提升用户体验。
在一个实施例中,所述语音解码模块201包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语言识别数据进行解码处理,得到相应的解码语音数据。
上述技术方案的工作原理为:接收到的语音信号例如可以是通过麦克风采集到的用户说话语音,并将采集到的模拟信号处理成数字信号得到语音识别数据;然后利用解码引擎进行解码处理,得到相应的解码语音数据。
上述技术方案的有益效果为:借助于语音处理单元和语音解码单元,可以对接收到的语音信号进行解码处理,得到解码语音数据。
在一个实施例中,所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
上述技术方案的工作原理为:具体地,所述参考静音片段确定单元包括:
静音片段确定子单元,用于在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
参考静音片段确定子单元,用于在若干静音片段中随机选择一个,作为所述参考静音片段。
上述技术方案的有益效果为:借助于参考静音片段确定单元、第一音频特征提取单元和第二音频特征提取单元,可以比较解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果。
在一个实施例中,所述断句模块203包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段。静音段确定单元在片段相似度结果超过相似度阈值时,确定预设时长的语音片段为静音段,并在末尾断句;静音段确定单元在片段相似度结果小于预设的相似度阈值时,确定预设时长的语音片段为非静音段,此时不做断句处理。
上述技术方案的工作原理为:通过将片段相似度结果和相似度阈值进行比较可以确定某个语音片段是否为静音段,。
上述技术方案的有益效果为:借助于静音段确定单元和非静音段确定单元,可以确定某个语音片段是否为静音段。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种降低语音识别系统延时的方法,其特征在于,所述方法执行以下步骤:
步骤1:对接收到的语音信号进行解码处理,得到解码语音数据;
步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
步骤3:根据所述片段相似度结果,得到断句结果。
2.如权利要求1所述的方法,其特征在于,所述步骤2:比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果执行以下步骤:
步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段;
步骤S22:提取所述参考静音片段中的音频特征,得到第一音频特征;
步骤S23:对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
步骤S24:比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
3.如权利要求2所述的方法,其特征在于,在所述步骤S23中,所述预设时长为断句阈值。
4.如权利要求2所述的方法,其特征在于,所述步骤S21:在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤:
步骤S211:在所述解码语音数据中,根据静音开始时间点和静音终止时间点,确定若干静音片段;
步骤S212:在若干静音片段中随机选择一个,作为所述参考静音片段。
5.如权利要求1所述的方法,其特征在于,所述步骤3:根据所述片段相似度结果,得到断句结果执行以下步骤:
步骤S31:若所述片段相似度结果大于等于预设的相似度阈值,则确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
步骤S32:若所述片段相似度结果小于预设的相似度阈值,则确定所述预设时长的语音片段为非静音段。
6.如权利要求1所述的方法,其特征在于,所述步骤1:对接收到的语音信号进行解码处理,得到解码语音数据执行以下步骤:
步骤S11:对接收到的语音信号进行语音处理,得到语音识别数据;
步骤S12:对所述语言识别数据进行解码处理,得到相应的解码语音数据。
7.一种降低语音识别系统延时的系统,其特征在于,包括:
语音解码模块,用于对接收到的语音信号进行解码处理,得到解码语音数据;
片段相似度比较模块,用于比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度,得到片段相似度结果;
断句模块,用于根据所述片段相似度结果,得到断句结果。
8.如权利要求7所述的系统,其特征在于,所述片段相似度比较模块包括:
参考静音片段确定单元,用于在所述解码语音数据中确定一个静音片段作为参考静音片段;
第一音频特征提取单元,用于提取所述参考静音片段中的音频特征,得到第一音频特征;
第二音频特征提取单元,用于对于引擎接收到的每个时间片段,计算当前接收时间点之前的预设时长的语音片段的音频特征,得到第二音频特征;
片段相似度比较单元,用于比较所述第一音频特征和所述第二音频特征之间的音频片段相似度,得到片段相似度结果。
9.如权利要求7所述的系统,其特征在于,所述断句模块包括:
静音段确定单元,用于在所述片段相似度结果大于等于预设的相似度阈值时,确定所述预设时长的语音片段为静音段,并在所述预设时长的语音片段末尾断句;
非静音段确定单元,用于在所述片段相似度结果小于预设的相似度阈值时,确定所述预设时长的语音片段为非静音段。
10.如权利要求7所述的系统,其特征在于,所述语音解码模块包括:
语音处理单元,用于对接收到的语音信号进行语音处理,得到语音识别数据;
语音解码单元,用于对所述语言识别数据进行解码处理,得到相应的解码语音数据。
CN202010773420.9A 2020-08-04 2020-08-04 降低语音识别系统延时的方法及系统 Active CN111986654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010773420.9A CN111986654B (zh) 2020-08-04 2020-08-04 降低语音识别系统延时的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010773420.9A CN111986654B (zh) 2020-08-04 2020-08-04 降低语音识别系统延时的方法及系统

Publications (2)

Publication Number Publication Date
CN111986654A true CN111986654A (zh) 2020-11-24
CN111986654B CN111986654B (zh) 2024-01-19

Family

ID=73445012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010773420.9A Active CN111986654B (zh) 2020-08-04 2020-08-04 降低语音识别系统延时的方法及系统

Country Status (1)

Country Link
CN (1) CN111986654B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040117A1 (en) * 2004-05-14 2008-02-14 Shuian Yu Method And Apparatus Of Audio Switching
CN101178790A (zh) * 2006-11-10 2008-05-14 胡鹏 智能虚拟断句实现协同听打录入的方法
US20140350939A1 (en) * 2013-05-24 2014-11-27 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Adding Punctuations
WO2017084360A1 (zh) * 2015-11-17 2017-05-26 乐视控股(北京)有限公司 一种用于语音识别方法及系统
CN107851435A (zh) * 2015-05-26 2018-03-27 纽昂斯通讯公司 用于降低语音识别应用中的延时的方法和装置
CN107910021A (zh) * 2017-11-08 2018-04-13 天脉聚源(北京)传媒科技有限公司 一种符号插入方法及装置
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109065031A (zh) * 2018-08-02 2018-12-21 阿里巴巴集团控股有限公司 语音标注方法、装置及设备
CN109379641A (zh) * 2018-11-14 2019-02-22 腾讯科技(深圳)有限公司 一种字幕生成方法和装置
CN109559733A (zh) * 2018-11-29 2019-04-02 阿里巴巴集团控股有限公司 语音节奏处理方法和装置
US20190180734A1 (en) * 2017-12-08 2019-06-13 Alibaba Group Holding Limited Keyword confirmation method and apparatus
CN110310626A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 语音训练数据生成方法、装置、设备及可读存储介质
CN110364145A (zh) * 2018-08-02 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
CN110675861A (zh) * 2019-09-26 2020-01-10 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质
CN110880317A (zh) * 2019-10-30 2020-03-13 云知声智能科技股份有限公司 一种语音识别系统中的智能标点方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040117A1 (en) * 2004-05-14 2008-02-14 Shuian Yu Method And Apparatus Of Audio Switching
CN101178790A (zh) * 2006-11-10 2008-05-14 胡鹏 智能虚拟断句实现协同听打录入的方法
US20140350939A1 (en) * 2013-05-24 2014-11-27 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Adding Punctuations
CN107851435A (zh) * 2015-05-26 2018-03-27 纽昂斯通讯公司 用于降低语音识别应用中的延时的方法和装置
WO2017084360A1 (zh) * 2015-11-17 2017-05-26 乐视控股(北京)有限公司 一种用于语音识别方法及系统
CN107910021A (zh) * 2017-11-08 2018-04-13 天脉聚源(北京)传媒科技有限公司 一种符号插入方法及装置
US20190180734A1 (en) * 2017-12-08 2019-06-13 Alibaba Group Holding Limited Keyword confirmation method and apparatus
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109065031A (zh) * 2018-08-02 2018-12-21 阿里巴巴集团控股有限公司 语音标注方法、装置及设备
CN110364145A (zh) * 2018-08-02 2019-10-22 腾讯科技(深圳)有限公司 一种语音识别的方法、语音断句的方法及装置
CN109379641A (zh) * 2018-11-14 2019-02-22 腾讯科技(深圳)有限公司 一种字幕生成方法和装置
CN109559733A (zh) * 2018-11-29 2019-04-02 阿里巴巴集团控股有限公司 语音节奏处理方法和装置
CN110310626A (zh) * 2019-05-23 2019-10-08 平安科技(深圳)有限公司 语音训练数据生成方法、装置、设备及可读存储介质
CN110675861A (zh) * 2019-09-26 2020-01-10 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质
CN110880317A (zh) * 2019-10-30 2020-03-13 云知声智能科技股份有限公司 一种语音识别系统中的智能标点方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐慧丰, 曹智一: "语言断句及重读的软件控制方法与实现", 微计算机信息, no. 12 *
张增良: "语音自动断句及外语视听教学资源的同步整合", 计算机时代, no. 6 *

Also Published As

Publication number Publication date
CN111986654B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
US20190385636A1 (en) Voice activity detection method and apparatus
US11817094B2 (en) Automatic speech recognition with filler model processing
CN106531167B (zh) 一种语音信息的处理方法及装置
CN111797632B (zh) 信息处理方法、装置及电子设备
CN113327609B (zh) 用于语音识别的方法和装置
KR20160005050A (ko) 키워드 검출을 위한 적응적 오디오 프레임 프로세싱
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
WO2014182460A2 (en) Method and apparatus for detecting a target keyword
CN113841195A (zh) 联合端点确定和自动语音识别
US7072828B2 (en) Apparatus and method for improved voice activity detection
CN110264999B (zh) 一种音频处理方法、设备及计算机可读介质
CN110399315B (zh) 一种语音播报的处理方法、装置、终端设备及存储介质
CN110942764B (zh) 一种流式语音识别方法
CN111583933B (zh) 一种语音信息的处理方法、装置、设备及介质
CN111739506B (zh) 一种应答方法、终端及存储介质
CN116153294A (zh) 语音识别方法、装置、系统、设备及介质
CN111986654A (zh) 降低语音识别系统延时的方法及系统
CN112802498A (zh) 语音检测方法、装置、计算机设备和存储介质
CN113053363B (zh) 语音识别方法、语音识别装置和计算机可读存储介质
CN109510907B (zh) 铃音设置方法及装置
CN113409792B (zh) 一种语音识别方法及其相关设备
CN114420096A (zh) 语音交互方法及其装置、车辆和存储介质
CN112053686B (zh) 一种音频中断方法、装置以及计算机可读存储介质
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant