CN112908306A - 优化上屏效果的语音识别方法、设备、终端与存储介质 - Google Patents

优化上屏效果的语音识别方法、设备、终端与存储介质 Download PDF

Info

Publication number
CN112908306A
CN112908306A CN202110132062.8A CN202110132062A CN112908306A CN 112908306 A CN112908306 A CN 112908306A CN 202110132062 A CN202110132062 A CN 202110132062A CN 112908306 A CN112908306 A CN 112908306A
Authority
CN
China
Prior art keywords
engine
optimizing
dictionary
screen
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110132062.8A
Other languages
English (en)
Other versions
CN112908306B (zh
Inventor
范红亮
李轶杰
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110132062.8A priority Critical patent/CN112908306B/zh
Publication of CN112908306A publication Critical patent/CN112908306A/zh
Application granted granted Critical
Publication of CN112908306B publication Critical patent/CN112908306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及优化上屏效果的语音识别方法、设备、终端与存储介质,该方法包括:确定用于进行语音识别的引擎;对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;基于调整后的所述引擎进行语音识别。本发明实施例的方案,从语音识别引擎角度出发,从引擎参数、模型结构、词典颗粒度等角度,提出了优化方法,能够降低引擎延时,并且出词更加平滑流畅,特别在上屏应用场景中,能够极大改善用户体验。

Description

优化上屏效果的语音识别方法、设备、终端与存储介质
技术领域
本发明涉及上屏效果优化的技术领域,具体涉及优化上屏效果的语音识 别方法、设备、终端与存储介质。
背景技术
在语音识别相关的上屏应用场景(如语音输入法、带屏类实时语音转写 等)中,有很多因素会影响最终的上屏效果,如:识别引擎本身的准确率、 实时率、识别引擎延时和网络延时等。其中,除去网络延时等外部因素,涉 及到识别引擎本身的指标主要有:识别准确率、引擎延时和流畅度等,此外 延时指标也会直接影响上屏效果的流畅度。
具体的,识别引擎各项性能都会直接影响最终的上屏效果;除了识别准 确率直接影响用户体验之外,上屏的流畅度体验也是另一个非常重要的评价 指标。
在目前的语音识别上屏场景中,经常出现虽然最终识别结果正确,但是 主观感觉上屏显示效果不够流畅,会有“卡顿”(响应慢)、内容“跳变”(显 示过程不平滑)等问题,严重影响用户的主观体验。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供优化上屏效果的语音识别方法、设备、终端与存储介质,能 够解决现有技术中上屏显示效果不够流畅的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种优化上屏效果的语音识别方法,包括:
确定用于进行语音识别的引擎;
对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时 与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度, 以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;
基于调整后的所述引擎进行语音识别。
在一个具体的实施例中,优化所述引擎的结构延时,包括:
在满足预设的语音识别率时,将所述引擎的右拼帧参数降低到最小。
在一个具体的实施例中,所述右拼帧参数的范围为5-25。
在一个具体的实施例中,优化所述引擎的时间片,包括:
将所述引擎的时间片的大小设置为所述引擎的批处理大小。
在一个具体的实施例中,所述时间片的范围为20-60ms。
在一个具体的实施例中,减小所述引擎中词典的颗粒度,包括以下一个 或多个方式的任意组合:将多个有意义的短词组成的词条进行拆分、将整词 的前预设个字作为新词条加入所述引擎中词典。
在一个具体的实施例中,所述词典中的词条的长度不超过4个字。
本发明实施例还提出了一种优化上屏效果的语音识别设备,包括:
确定模块,用于确定用于进行语音识别的引擎;
调整模块,用于对所述引擎进行调整;其中,所述调整包括:优化所述 引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中 词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的 数据量;
识别模块,用于基于调整后的所述引擎进行语音识别。
本发明实施例还提出了一种终端,包括处理器与存储器,所述存储器中 存储有程序,所述处理器运行所述存储器中的程序时,执行上述的语音识别 方法。
本发明实施例还提出了一种存储介质,所述存储介质中存储有用于执行 上述的语音识别方法的应用程序。
本发明的有益效果是:
本发明实施例的方案,从语音识别引擎角度出发,从引擎参数、模型结 构、词典颗粒度等角度,提出了优化方法,能够降低引擎延时,并且出词更 加平滑流畅,特别在上屏应用场景中,能够极大改善用户体验。
附图说明
图1为本发明实施例提供的一种优化上屏效果的语音识别方法的流程示 意图;
图2为本发明实施例提供的一种优化上屏效果的语音识别设备的结构示 意图;
图3为本发明实施例提供的一种终端的结构示意图;
图4为本发明实施例提供的一种存储介质的框架结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。
实施例1
本发明实施例1提供的一种优化上屏效果的语音识别方法,如图1所示, 包括:
步骤101、确定用于进行语音识别的引擎;
具体的,进行语音识别的引擎,也即需要进行改善上屏流畅度的引擎。
步骤102、对所述引擎进行调整;其中,所述调整包括:优化所述引擎 的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典 的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据 量;
从引擎角度出发,分析影响语音识别上屏流畅度的主要因素,其中,因 素包括:响应时间与变化率;
其中,响应时间(ResponseTime)的定义是:响应时间指语音结束到引 擎解码完成并给出识别结果的时间。响应时间少,说明引擎计算快,人刚说 完话没多久识别结果就出了,上屏也就越流畅。
此外,变化率(ChangeRate)指上屏内容的变化频率。变化率高,指每 次上屏内容与上次相比变化大,说明结果稳定性差,流畅度就不好。最影响 主观体验的就是屏上内容的“突变”:突然增加多个字,或减少多个字。
由此,基于降低所述引擎的响应时间以及降低上屏内容的变化率,即可 改善上屏流畅度。
具体的,优化所述引擎的结构延时,包括:在满足预设的语音识别率时, 将所述引擎的右拼帧参数降低到最小。进一步的,所述右拼帧参数的范围为 5-25。优化所述引擎的结构延时,还包括将所述引擎的时间片的大小设置为 所述引擎的批处理大小。进一步的,所述时间片的范围为20-60ms。
1.响应时间,也叫引擎延时,与引擎的模型结构延时和送数据的时间片 大小有关。而模型结构延时是引擎模型本身固有结构导致的延时。主要影响 参数有:右拼帧参数(right_context)和批处理大小(bunch_size)。
1)Right_context:在深度神经网络结构的模型中,为了提升性能,采用 的技术中往往包含一种叫“拼帧”的技术,即表示当前帧(frame)的特征 时,不只提取当前帧的特征,而是提取前面一部分帧(left_context)和后面 一部分帧(right_context)的特征,一起作为当前帧的特征,通过包含一定 范围的上下文信息,来增强特征的表达能力。
2)Bunch_size:在解码深度神经网络结构的模型时,经常不是输入一帧 就输出一帧,而且积攒够一定数量的帧,一起处理(按bunch批处理),提 升处理速度。Bunch_size反映的在引擎更新结果的频率,即每bunch_size 帧引擎输出一次结果。
2.时间片大小指每次送多少数据给引擎处理,即送数据的频率。时间片 的选择对响应时间影响很大。一般时间片不能太大,否则很长时间才送一次 数据,获取一次结果,响应时间必然很高。但是也不建议太小,因为引擎内 部模型每bunch_size时间更新一次结果,送太频繁也获取不到更新的结果, 徒增对网络资源的占用。
综合上述参数分析,降低响应时间的方案如下:
1.Right_context在识别率满足要求的前提下尽可能小。Right_context 会同时对识别率和延时产生影响:值越大,识别率越高,延时越高;值越小, 识别率越低,延时越低。所以在满足识别率要求的前提下,应该尽可能选择 小的值,以此来降低引擎延时。一般选择5-25,表示从当前帧往后看5帧至 25帧,相应延时为50ms–250ms。
2.时间片大小等于bunch_size的大小,这样每次送数据的时候,引擎 也刚好有结果更新,可以及时获取到最新结果。上屏项目中,时间片大小一 般选择20-60ms。
基于上述调整,可以将响应时间(引擎延时)降低到最低。
上述是降低响应时间,此外关于优化所述引擎的时间片,包括:
在一个具体的实施例中,减小所述引擎中词典的颗粒度,包括以下一个 或多个方式的任意组合:将多个有意义的短词组成的词条进行拆分、将整词 的前预设个字作为新词条加入所述引擎中词典。在一个具体的实施例中,所 述词典中的词条的长度不超过4个字。
在变化率方面,可以通过减小词典的颗粒度来优化识别结果“突变”的 现象。例如“阿尔及利亚”、“乌鲁木齐”这类长词,在识别结果出现的过 程中,如果总是以一个整体出现,那么“突变”是难免的。
具体的,减小词典颗粒度,主要如下原则和做法:
1.直接拆分法:如“黄瓜火腿面”拆为“黄瓜”+“火腿”+“面”,“国 际贸易组织”拆为“国际”+“贸易”+“组织”,等。这类本身就是由多个 有意义的短词组成的长词,可以直接拆分,去掉长词本身(如果出现新的短 词条,新增进词典)。
2.加前缀法:如“阿尔及利亚”新增前缀词“阿尔”和“阿尔及”,“乌 鲁木齐”新增前缀词“乌鲁”,等。这类本身是一个整词,且不好拆分为多 个有意义的段词条的长词,可以将其前面两、三个字作为一个新词加进词典。
基于上述方式,生成有最终词典,保证其中绝大部分词条长度不超过4, 且长度3–4的词条,其前缀一般都在词典中。
4.因为增加前缀而产生的新词,不必是一个有完整语义的词条。如“乌 鲁木齐”的前缀词“乌鲁”,它是一个有统计意义的词,能在语音说到“乌 鲁木齐”前两个字时,出“乌鲁”而不是其他任何不相干的词条,或者不出 任何内容,等整个词解码完成(“卡顿”现象)。
步骤103、基于调整后的所述引擎进行语音识别。
能够将引擎延时降至最低,除了由于模型结构导致的延时无法避免,其 他延时都能尽量消除。在需要动态展示中间结果的上屏应用中,还能够优化 目前存在的“卡顿”和“跳变”等现象,改善用户主观体验。具体的,针对 语音识别上屏应用场景中存在的高延时、“卡顿”、“跳变”不流畅等现象, 本方案通过引擎模型结构和解码参数的调整,将引擎延时降至最低(除了模 型结构带来的不可避免的延时,其他环节的延时能够尽可能消除),主观体 验上屏更快;此外通过减小词典颗粒度,识别结果尽可能出短词,避免了长 词导致的“卡顿”和“跳变”现象,上屏效果更加流畅,改善了用户体验。
实施例2
本发明实施例2还公开了一种优化上屏效果的语音识别设备,如图2所 示,包括:
确定模块201,用于确定用于进行语音识别的引擎;
调整模块202,用于对所述引擎进行调整;其中,所述调整包括:优化 所述引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引 擎中词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引 擎的数据量;
识别模块203,用于基于调整后的所述引擎进行语音识别。
在一个具体的实施例中,调整模块202优化所述引擎的结构延时,包括:
在满足预设的语音识别率时,将所述引擎的右拼帧参数降低到最小。
在一个具体的实施例中,所述右拼帧参数的范围为5-25。
在一个具体的实施例中,调整模块202优化所述引擎的时间片,包括:
将所述引擎的时间片的大小设置为所述引擎的批处理大小。
在一个具体的实施例中,所述时间片的范围为20-60ms。
在一个具体的实施例中,调整模块202减小所述引擎中词典的颗粒度, 包括以下一个或多个方式的任意组合:将多个有意义的短词组成的词条进行 拆分、将整词的前预设个字作为新词条加入所述引擎中词典。
在一个具体的实施例中,所述词典中的词条的长度不超过4个字。
实施例3
本发明实施例3还公开了一种终端,如图3所示,包括处理器与存储器, 所述存储器中存储有程序,所述处理器运行所述存储器中的程序时,执行实 施例1中所述的语音识别方法。
实施例4
本发明实施例4还公开了一种存储介质,如图4所示,所述存储介质中 存储有用于执行实施例1中所述的语音识别方法的应用程序。
本发明实施例公开了优化上屏效果的语音识别方法、设备、终端与存储 介质,该方法包括:确定用于进行语音识别的引擎;对所述引擎进行调整; 其中,所述调整包括:优化所述引擎的结构延时与时间片,以降低所述引擎 的响应时间;和减小所述引擎中词典的颗粒度,以降低上屏内容的变化率; 所述时间片为每次给所述引擎的数据量;基于调整后的所述引擎进行语音识 别。本发明实施例的方案,从语音识别引擎角度出发,从引擎参数、模型结 构、词典颗粒度等角度,提出了优化方法,能够降低引擎延时,并且出词更 加平滑流畅,特别在上屏应用场景中,能够极大改善用户体验
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各 种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种优化上屏效果的语音识别方法,其特征在于,包括:
确定用于进行语音识别的引擎;
对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;
基于调整后的所述引擎进行语音识别。
2.根据权利要求1所述的方法,其特征在于,优化所述引擎的结构延时,包括:
在满足预设的语音识别率时,将所述引擎的右拼帧参数降低到最小。
3.根据权利要求2所述的方法,其特征在于,所述右拼帧参数的范围为5-25。
4.如权利要求1所述的方法,其特征在于,优化所述引擎的时间片,包括:
将所述引擎的时间片的大小设置为所述引擎的批处理大小。
5.如权利要求4所述的方法,其特征在于,所述时间片的范围为20-60ms。
6.如权利要求1所述的方法,其特征在于,减小所述引擎中词典的颗粒度,包括以下一个或多个方式的任意组合:将多个有意义的短词组成的词条进行拆分、将整词的前预设个字作为新词条加入所述引擎中词典。
7.如权利要求1所述的方法,其特征在于,所述词典中的词条的长度不超过4个字。
8.一种优化上屏效果的语音识别设备,其特征在于,包括:
确定模块,用于确定用于进行语音识别的引擎;
调整模块,用于对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;
识别模块,用于基于调整后的所述引擎进行语音识别。
9.一种终端,其特征在于,包括处理器与存储器,所述存储器中存储有程序,所述处理器运行所述存储器中的程序时,执行权利要求1-7中任意一项所述的语音识别方法。
10.一种存储介质,其特征在于,所述存储介质中存储有用于执行权利要求1-7中任意一项所述的语音识别方法的应用程序。
CN202110132062.8A 2021-01-30 2021-01-30 优化上屏效果的语音识别方法、设备、终端与存储介质 Active CN112908306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110132062.8A CN112908306B (zh) 2021-01-30 2021-01-30 优化上屏效果的语音识别方法、设备、终端与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110132062.8A CN112908306B (zh) 2021-01-30 2021-01-30 优化上屏效果的语音识别方法、设备、终端与存储介质

Publications (2)

Publication Number Publication Date
CN112908306A true CN112908306A (zh) 2021-06-04
CN112908306B CN112908306B (zh) 2023-03-21

Family

ID=76122131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110132062.8A Active CN112908306B (zh) 2021-01-30 2021-01-30 优化上屏效果的语音识别方法、设备、终端与存储介质

Country Status (1)

Country Link
CN (1) CN112908306B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862600A (zh) * 2023-01-10 2023-03-28 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195226A1 (en) * 2013-01-04 2014-07-10 Electronics And Telecommunications Research Institute Method and apparatus for correcting error in speech recognition system
CN109413479A (zh) * 2018-09-28 2019-03-01 四川长虹电器股份有限公司 智能电视语音交互界面文本内容完整显示的方法
US20190250803A1 (en) * 2018-02-09 2019-08-15 Nedelco, Inc. Caption rate control
CN110176235A (zh) * 2019-05-23 2019-08-27 腾讯科技(深圳)有限公司 语音识别文的展示方法、装置、存储介质和计算机设备
CN111292745A (zh) * 2020-01-23 2020-06-16 北京声智科技有限公司 一种语音识别结果的处理方法、装置及电子设备
CN111464876A (zh) * 2020-03-31 2020-07-28 安徽听见科技有限公司 翻译文本字幕流式展示方法、装置以及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140195226A1 (en) * 2013-01-04 2014-07-10 Electronics And Telecommunications Research Institute Method and apparatus for correcting error in speech recognition system
US20190250803A1 (en) * 2018-02-09 2019-08-15 Nedelco, Inc. Caption rate control
CN109413479A (zh) * 2018-09-28 2019-03-01 四川长虹电器股份有限公司 智能电视语音交互界面文本内容完整显示的方法
CN110176235A (zh) * 2019-05-23 2019-08-27 腾讯科技(深圳)有限公司 语音识别文的展示方法、装置、存储介质和计算机设备
CN111292745A (zh) * 2020-01-23 2020-06-16 北京声智科技有限公司 一种语音识别结果的处理方法、装置及电子设备
CN111464876A (zh) * 2020-03-31 2020-07-28 安徽听见科技有限公司 翻译文本字幕流式展示方法、装置以及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862600A (zh) * 2023-01-10 2023-03-28 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN115862600B (zh) * 2023-01-10 2023-09-12 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆

Also Published As

Publication number Publication date
CN112908306B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN109523991B (zh) 语音识别的方法及装置、设备
CN105869629B (zh) 语音识别方法及装置
KR101055045B1 (ko) 음성 합성 방법 및 시스템
US8438021B2 (en) Signal classifying method and apparatus
WO2020087655A1 (zh) 一种翻译方法、装置、设备及可读存储介质
US11304019B2 (en) Delay estimation method and apparatus
US20210193121A1 (en) Speech recognition method, apparatus, and device, and storage medium
CN112908306B (zh) 优化上屏效果的语音识别方法、设备、终端与存储介质
JP5947237B2 (ja) 感情推定装置、感情推定方法、および、プログラム
CN105989839B (zh) 语音识别方法和装置
US8892435B2 (en) Text data processing apparatus, text data processing method, and recording medium storing text data processing program
CN106294460B (zh) 一种基于字和词混合语言模型的汉语语音关键词检索方法
WO2022042159A1 (zh) 延迟控制方法和装置
CN110298463A (zh) 基于语音识别的会议室预定方法、装置、设备及存储介质
CN110705254A (zh) 文本断句方法、装置、电子设备和存储介质
CN111883100B (zh) 语音转换方法、装置及服务器
CN116153294B (zh) 语音识别方法、装置、系统、设备及介质
CN112201275B (zh) 声纹分割方法、装置、设备及可读存储介质
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN113838452B (zh) 语音合成方法、装置、设备和计算机存储介质
CA2612903A1 (en) Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
CN115346517A (zh) 一种流式语音识别方法、装置、设备及存储介质
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
CN116489449A (zh) 一种视频冗余片段检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant