CN106531151A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN106531151A
CN106531151A CN201611035276.9A CN201611035276A CN106531151A CN 106531151 A CN106531151 A CN 106531151A CN 201611035276 A CN201611035276 A CN 201611035276A CN 106531151 A CN106531151 A CN 106531151A
Authority
CN
China
Prior art keywords
recognition result
recognition
serial number
sequence number
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611035276.9A
Other languages
English (en)
Other versions
CN106531151B (zh
Inventor
袁莎莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201611035276.9A priority Critical patent/CN106531151B/zh
Publication of CN106531151A publication Critical patent/CN106531151A/zh
Application granted granted Critical
Publication of CN106531151B publication Critical patent/CN106531151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明是关于一种语音识别方法及装置,其中,方法包括:采集语音数据信息;分别发送语音数据信息至本地服务器和网络服务器进行识别;获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。通过该技术方案,不但可以保证获取速度更快,还能保证识别结果的准确性,提升用户的使用体验。

Description

语音识别方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法及装置。
背景技术
有时为了解决特定的问题,会将采集的语音信息同时送往在线和离线两个服务系统进行识别,这样对于同一份语音数据可以得到两个结果,这两个结果可能相同也可能不同,而对于输出来说只需要一份识别结果。因此,如何筛选出合适的识别结果成为目前亟待解决的技术问题。
发明内容
本发明实施例提供一种语音识别方法及装置,用以实现在同时通过本地服务器和网络服务器识别语音数据信息时,可以从得到的两个识别结果中挑选出语音数据信息对应的最佳的识别结果。
根据本发明实施例的第一方面,提供一种语音识别方法,包括:
采集语音数据信息;
分别发送语音数据信息至本地服务器和网络服务器进行识别;
获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;
确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
在该实施例中,将采集到的语音数据信息同时发送至本地服务器和网络服务器,并从得到的两个识别结果中选取出获取时刻在先,即先获取到的且识别结果可信度大于或者等于预设识别结果可信度的结果作为最终识别结果,这样,不但可以保证获取速度更快,还能保证识别结果的准确性,提升用户的使用体验。
在一个实施例中,所述确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果,包括:
在获取到所述第一识别结果时,为所述第一识别结果分配当前离线识别序列号,在获取到所述第二识别结果时,为所述第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
根据所述当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,所述离线识别最大丢弃序列号为当前离线识别序列号加1;
根据所述当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,所述在线识别最大丢弃序列号为当前在线识别序列号加1;
根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果。
在该实施例中,由于对识别结果进行了序列号标注,这样,可以生成持续连续的记录,直接生成日记文本,便于对照输入上网语音和两路输出结果进行参考对照,快速方便分析定位问题。
在一个实施例中,根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果,包括:
比较所述当前离线识别序列号的序列编号与所述在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较所述当前在线识别序列号的序列编号与所述离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
当所述当前离线识别序列号的序列编号大于等于所述在线识别最小丢弃序列号的序列编号,且小于所述在线识别最大丢弃序列号的序列编号时,丢弃所述第一识别结果,将所述第二识别结果确定为所述最终识别结果;
当所述当前在线识别序列号的序列编号大于等于所述离线识别最小丢弃序列号的序列编号,且小于所述离线识别最大丢弃序列号的序列编号时,丢弃所述第二识别结果,将所述第一识别结果确定为所述最终识别结果。
在一个实施例中,所述方法还包括:
当丢弃所述第一识别结果后,将所述离线识别最小丢弃序列号的序列编号置为所述当前在线识别序列号的序列编号加1;
当丢弃所述第二识别结果后,将所述在线识别最小丢弃序列号的序列编号置为所述当前离线识别序列号的序列编号加1。
在一个实施例中,所述方法还包括:
当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
在该实施例中,当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,则说明在一段时间内离线识别都没有结果输出,或者在线识别都没有结果输出,此时,证明本地服务器出现问题或者网络服务器出现网络堵塞等问题,这样,可以预警监测服务器出现的异常状况,并可通过重置筛选状态重新开始工作。
根据本发明实施例的第二方面,提供一种语音识别装置,包括:
采集模块,用于采集语音数据信息;
发送模块,用于分别发送语音数据信息至本地服务器和网络服务器进行识别;
获取模块,用于获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;
选取模块,用于确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
在一个实施例中,所述选取模块包括:
分配子模块,用于在获取到所述第一识别结果时,为所述第一识别结果分配当前离线识别序列号,在获取到所述第二识别结果时,为所述第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
第一确定子模块,用于根据所述当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,所述离线识别最大丢弃序列号为当前离线识别序列号加1;
第二确定子模块,用于根据所述当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,所述在线识别最大丢弃序列号为当前在线识别序列号加1;
第三确定子模块,用于根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果。
在一个实施例中,所述第三确定子模块用于:
比较所述当前离线识别序列号的序列编号与所述在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较所述当前在线识别序列号的序列编号与所述离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
当所述当前离线识别序列号的序列编号大于等于所述在线识别最小丢弃序列号的序列编号,且小于所述在线识别最大丢弃序列号的序列编号时,丢弃所述第一识别结果,将所述第二识别结果确定为所述最终识别结果;
当所述当前在线识别序列号的序列编号大于等于所述离线识别最小丢弃序列号的序列编号,且小于所述离线识别最大丢弃序列号的序列编号时,丢弃所述第二识别结果,将所述第一识别结果确定为所述最终识别结果。
在一个实施例中,所述装置还包括:
第一处理模块,用于当丢弃所述第一识别结果后,将所述离线识别最小丢弃序列号的序列编号置为所述当前在线识别序列号的序列编号加1;
第二处理模块,用于当丢弃所述第二识别结果后,将所述在线识别最小丢弃序列号的序列编号置为所述当前离线识别序列号的序列编号加1。
在一个实施例中,所述装置还包括:
重置模块,用于当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。
图2是根据一示例性实施例示出的一种语音识别方法中步骤S104的流程图。
图3是根据一示例性实施例示出的一种语音识别方法中步骤S204的流程图。
图4是根据一示例性实施例示出的另一种语音识别方法的流程图。
图5至图7是根据一示例性实施例示出的语音识别方法的示意图。
图8是根据一示例性实施例示出的又一种语音识别方法的流程图。
图9是根据一示例性实施例示出的语音识别方法的示意图。
图10是根据一示例性实施例示出的一种语音识别装置的框图。
图11是根据一示例性实施例示出的一种语音识别装置中选取模块的框图。
图12是根据一示例性实施例示出的另一种语音识别装置的框图。
图13是根据一示例性实施例示出的又一种语音识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。该语音识别方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音控制功能的设备。如图1所示,该方法包括步骤S101-S104:
在步骤S101中,采集语音数据信息;其中,可以通过录音线程采集语音数据信息。
在步骤S102中,分别发送语音数据信息至本地服务器和网络服务器进行识别;
在步骤S103中,获取本地服务器识别得到的第一识别结果和网络服务器识别得到的第二识别结果,其中,第一识别结果中包括第一识别结果可信度,第二识别结果中包括第二识别结果可信度;
在该实施例中,在识别结果中包含识别可信度,这样,在筛选识别结果的时候,可以筛选出识别可信度较高的识别结果,从而保证识别结果的准确性。
在步骤S104中,确定第一识别结果的第一获取时刻和第二识别结果的第二获取时刻,并从第一识别结果和第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
在该实施例中,将采集到的语音数据信息同时发送至本地服务器和网络服务器,并从得到的两个识别结果中选取出获取时刻在先,即先获取到的且识别结果可信度大于或者等于预设识别结果可信度的结果作为最终识别结果,这样,不但可以保证获取速度更快,还能保证识别结果的准确性,提升用户的使用体验。
图2是根据一示例性实施例示出的一种语音识别方法中步骤S104的流程图。
如图2所示,在一个实施例中,上述步骤S104包括步骤S201-S204:
在步骤S201中,在获取到第一识别结果时,为第一识别结果分配当前离线识别序列号,在获取到第二识别结果时,为第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
在步骤S202中,根据当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,离线识别最大丢弃序列号为当前离线识别序列号加1;
在步骤S203中,根据当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,在线识别最大丢弃序列号为当前在线识别序列号加1;
在步骤S204中,根据当前离线识别序列号、当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定第一识别结果和第二识别结果中需丢弃的识别结果,以得到最终识别结果。
在该实施例中,由于对识别结果进行了序列号标注,这样,可以生成持续连续的记录,直接生成日记文本,便于对照输入上网语音和两路输出结果进行参考对照,快速方便分析定位问题。
图3是根据一示例性实施例示出的一种语音识别方法中步骤S204的流程图。
如图3所示,在一个实施例中,上述步骤S204包括步骤S301-S303:
在步骤S301中,比较当前离线识别序列号的序列编号与在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较当前在线识别序列号的序列编号与离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
在步骤S302中,当当前离线识别序列号的序列编号大于等于在线识别最小丢弃序列号的序列编号,且小于在线识别最大丢弃序列号的序列编号时,丢弃第一识别结果,将第二识别结果确定为最终识别结果;
在步骤S303中,当当前在线识别序列号的序列编号大于等于离线识别最小丢弃序列号的序列编号,且小于离线识别最大丢弃序列号的序列编号时,丢弃第二识别结果,将第一识别结果确定为最终识别结果。
图4是根据一示例性实施例示出的另一种语音识别方法的流程图。
如图4所示,在一个实施例中,上述方法还包括步骤S401-S402:
在步骤S401中,当丢弃第一识别结果后,将离线识别最小丢弃序列号的序列编号置为当前在线识别序列号的序列编号加1;
在步骤S402中,当丢弃第二识别结果后,将在线识别最小丢弃序列号的序列编号置为当前离线识别序列号的序列编号加1。
下面以一个具体实施例详细说明上述技术方案。
在线识别asr和离线识别lsr分别将服务器对语音信息识别后得到的结果进行标注,其分别在获取结果后在数据前加序列编号asr_seq、lsr_seq,序列编号为unsignedchar(0-255)。
在在线识别和离线识别都保持了一个连续序号在线识别_序列编号asr_seq、离线识别_序列编号lsr_seq的增长,分别记录各自当前达到的序列号,其中,当前在线识别序列号表示为asr_cur,当前离线识别序列号表示为lsr_cur,和在线识别最小丢弃序列号asr_min、离线识别最小丢弃序列号lsr_min;在线识别最大丢弃序列号asr_max、离线识别最大丢弃序列号lsr_max,其中,最大丢弃序列号始终为当前序列号加一,即asr_cur+1和lsr_cur+1。位于最大丢弃序列号和最小丢弃序列号之间的序列号需要被丢弃,称为丢弃窗口。如图5所示,当前两个窗口都为0。理想的情况是两路识别结果是同步的,即一路离线识别结果,一路在线识别结果,两路丢弃窗口都被减小为0,意思是此时先到达的结果可以通过筛选结果。例如此时离线lsr识别结果先达到,查看在线asr的丢弃窗口为0,因此离线lsr的结果输出给用户,并将自己的丢弃窗口长度变为1,后到来的相同序列编号的在线asr识别结果落在这个窗口内从而被丢弃。
其中,丢弃规则为:
离线lsr查看在线asr的丢弃窗口:asr_min≤lsr_cur<asr_max
在线asr查看离线lsr的丢弃窗口:lsr_min≤asr_cur<asr_max。
即当当前离线识别序列号的序列编号大于等于在线识别最小丢弃序列号的序列编号,且小于在线识别最大丢弃序列号的序列编号时,丢弃第一识别结果,将第二识别结果确定为最终识别结果;
当当前在线识别序列号的序列编号大于等于离线识别最小丢弃序列号的序列编号,且小于离线识别最大丢弃序列号的序列编号时,丢弃第二识别结果,将第一识别结果确定为最终识别结果。
示例:
1、离线lsr识别结果到达,此时由于丢弃窗口长度为0,根据上述丢弃规则,识别结果有效被输出,同时:
lsr_cur=lsr_seq;
lsr_max=lsr_cur+1;
此时如图6所示。
2、与上述识别结果相同序列的在线识别结果(asr_seq)到达,
asr_cur=asr_seq;
asr_max=asr_cur+1;
根据丢弃规则,此asr_seq落在图6中的丢弃窗口,结果被丢弃。
同时会减小lsr的下拉窗口:lsr_min=asr_cur+1;
此时lsr的窗口大小为0,如图7所示。
图8是根据一示例性实施例示出的又一种语音识别方法的流程图。
如图8所示,在一个实施例中,上述方法还包括步骤S801:
在步骤S801中,当离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置当前离线识别序列号、当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
在该实施例中,当离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,则说明在一段时间内离线识别都没有结果输出,或者在线识别都没有结果输出,此时,证明本地服务器出现问题或者网络服务器出现网络堵塞等问题,这样,可以预警监测服务器出现的异常状况,并可通过重置筛选状态重新开始工作。
例如,如图9所示,连续一段时间在线识别asr没有数据返回,离线识别lsr的丢弃窗口越来越大,此时可能的情况是网络服务器或网络出问题了,导致一直没有结果返回。此时假设在线识别asr有新的识别结果先到达,那么根据丢弃规则,该结果将会被丢弃,为了防止这样的情况继续发生,可以通过限制丢弃窗口的大小来限制,例如窗口大小为4时,可以重置所有窗口数据和序列编号数据,保证重新开始。此种情况对于离线识别lsr长时间没有返回数据同样适用。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图10是根据一示例性实施例示出的一种语音识别装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图10所示,该语音识别装置包括:
采集模块1001,用于采集语音数据信息;
发送模块1002,用于分别发送语音数据信息至本地服务器和网络服务器进行识别;
获取模块1003,用于获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;
在该实施例中,在识别结果中包含识别可信度,这样,在筛选识别结果的时候,可以筛选出识别可信度较高的识别结果,从而保证识别结果的准确性。
选取模块1004,用于确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
在该实施例中,将采集到的语音数据信息同时发送至本地服务器和网络服务器,并从得到的两个识别结果中选取出获取时刻在先,即先获取到的且识别结果可信度大于或者等于预设识别结果可信度的结果作为最终识别结果,这样,不但可以保证获取速度更快,还能保证识别结果的准确性,提升用户的使用体验。
图11是根据一示例性实施例示出的一种语音识别装置中选取模块的框图。
如图11所示,在一个实施例中,所述选取模块1004包括:
分配子模块1101,用于在获取到所述第一识别结果时,为所述第一识别结果分配当前离线识别序列号,在获取到所述第二识别结果时,为所述第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
第一确定子模块1102,用于根据所述当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,所述离线识别最大丢弃序列号为当前离线识别序列号加1;
第二确定子模块1103,用于根据所述当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,所述在线识别最大丢弃序列号为当前在线识别序列号加1;
第三确定子模块1104,用于根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果。
在该实施例中,由于对识别结果进行了序列号标注,这样,可以生成持续连续的记录,直接生成日记文本,便于对照输入上网语音和两路输出结果进行参考对照,快速方便分析定位问题。
在一个实施例中,所述第三确定子模块1104用于:
比较所述当前离线识别序列号的序列编号与所述在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较所述当前在线识别序列号的序列编号与所述离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
当所述当前离线识别序列号的序列编号大于等于所述在线识别最小丢弃序列号的序列编号,且小于所述在线识别最大丢弃序列号的序列编号时,丢弃所述第一识别结果,将所述第二识别结果确定为所述最终识别结果;
当所述当前在线识别序列号的序列编号大于等于所述离线识别最小丢弃序列号的序列编号,且小于所述离线识别最大丢弃序列号的序列编号时,丢弃所述第二识别结果,将所述第一识别结果确定为所述最终识别结果。
图12是根据一示例性实施例示出的另一种语音识别装置的框图。
如图12所示,在一个实施例中,上述装置还包括:
第一处理模块1201,用于当丢弃所述第一识别结果后,将所述离线识别最小丢弃序列号的序列编号置为所述当前在线识别序列号的序列编号加1;
第二处理模块1202,用于当丢弃所述第二识别结果后,将所述在线识别最小丢弃序列号的序列编号置为所述当前离线识别序列号的序列编号加1。
下面以一个具体实施例详细说明上述技术方案。
在线识别asr和离线识别lsr分别将服务器对语音信息识别后得到的结果进行标注,其分别在获取结果后在数据前加序列编号asr_seq、lsr_seq,序列编号为unsignedchar(0-255)。
在在线识别和离线识别都保持了一个连续序号在线识别_序列编号asr_seq、离线识别_序列编号lsr_seq的增长,分别记录各自当前达到的序列号,其中,当前在线识别序列号表示为asr_cur,当前离线识别序列号表示为lsr_cur,和在线识别最小丢弃序列号asr_min、离线识别最小丢弃序列号lsr_min;在线识别最大丢弃序列号asr_max、离线识别最大丢弃序列号lsr_max,其中,最大丢弃序列号始终为当前序列号加一,即asr_cur+1和lsr_cur+1。位于最大丢弃序列号和最小丢弃序列号之间的序列号需要被丢弃,称为丢弃窗口。如图5所示,当前两个窗口都为0。理想的情况是两路识别结果是同步的,即一路离线识别结果,一路在线识别结果,两路丢弃窗口都被减小为0,意思是此时先到达的结果可以通过筛选结果。例如此时离线lsr识别结果先达到,查看在线asr的丢弃窗口为0,因此离线lsr的结果输出给用户,并将自己的丢弃窗口长度变为1,后到来的相同序列编号的在线asr识别结果落在这个窗口内从而被丢弃。
其中,丢弃规则为:
离线lsr查看在线asr的丢弃窗口:asr_min≤lsr_cur<asr_max
在线asr查看离线lsr的丢弃窗口:lsr_min≤asr_cur<asr_max。
即当当前离线识别序列号的序列编号大于等于在线识别最小丢弃序列号的序列编号,且小于在线识别最大丢弃序列号的序列编号时,丢弃第一识别结果,将第二识别结果确定为最终识别结果;
当当前在线识别序列号的序列编号大于等于离线识别最小丢弃序列号的序列编号,且小于离线识别最大丢弃序列号的序列编号时,丢弃第二识别结果,将第一识别结果确定为最终识别结果。
示例:
1、离线lsr识别结果到达,此时由于丢弃窗口长度为0,根据上述丢弃规则,识别结果有效被输出,同时:
lsr_cur=lsr_seq;
lsr_max=lsr_cur+1;
此时如图6所示。
2、与上述识别结果相同序列的在线识别结果(asr_seq)到达,
asr_cur=asr_seq;
asr_max=asr_cur+1;
根据丢弃规则,此asr_seq落在图6中的丢弃窗口,结果被丢弃。
同时会减小lsr的下拉窗口:lsr_min=asr_cur+1;
此时lsr的窗口大小为0,如图7所示。
图13是根据一示例性实施例示出的又一种语音识别装置的框图。
如图13所示,在一个实施例中,上述装置还包括:
重置模块1301,用于当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
在该实施例中,当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,则说明在一段时间内离线识别都没有结果输出,或者在线识别都没有结果输出,此时,证明本地服务器出现问题或者网络服务器出现网络堵塞等问题,这样,可以预警监测服务器出现的异常状况,并可通过重置筛选状态重新开始工作。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
采集语音数据信息;
分别发送语音数据信息至本地服务器和网络服务器进行识别;
获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;
确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果,包括:
在获取到所述第一识别结果时,为所述第一识别结果分配当前离线识别序列号,在获取到所述第二识别结果时,为所述第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
根据所述当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,所述离线识别最大丢弃序列号为当前离线识别序列号加1;
根据所述当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,所述在线识别最大丢弃序列号为当前在线识别序列号加1;
根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果。
3.根据权利要求2所述的方法,其特征在于,根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果,包括:
比较所述当前离线识别序列号的序列编号与所述在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较所述当前在线识别序列号的序列编号与所述离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
当所述当前离线识别序列号的序列编号大于等于所述在线识别最小丢弃序列号的序列编号,且小于所述在线识别最大丢弃序列号的序列编号时,丢弃所述第一识别结果,将所述第二识别结果确定为所述最终识别结果;
当所述当前在线识别序列号的序列编号大于等于所述离线识别最小丢弃序列号的序列编号,且小于所述离线识别最大丢弃序列号的序列编号时,丢弃所述第二识别结果,将所述第一识别结果确定为所述最终识别结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当丢弃所述第一识别结果后,将所述离线识别最小丢弃序列号的序列编号置为所述当前在线识别序列号的序列编号加1;
当丢弃所述第二识别结果后,将所述在线识别最小丢弃序列号的序列编号置为所述当前离线识别序列号的序列编号加1。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
6.一种语音识别装置,其特征在于,包括:
采集模块,用于采集语音数据信息;
发送模块,用于分别发送语音数据信息至本地服务器和网络服务器进行识别;
获取模块,用于获取所述本地服务器识别得到的第一识别结果和所述网络服务器识别得到的第二识别结果,其中,所述第一识别结果中包括第一识别结果可信度,所述第二识别结果中包括第二识别结果可信度;
选取模块,用于确定所述第一识别结果的第一获取时刻和所述第二识别结果的第二获取时刻,并从所述第一识别结果和所述第二识别结果中选取出获取时刻在前且识别结果可信度大于或者等于预设识别结果可信度的最终识别结果。
7.根据权利要求6所述的装置,其特征在于,所述选取模块包括:
分配子模块,用于在获取到所述第一识别结果时,为所述第一识别结果分配当前离线识别序列号,在获取到所述第二识别结果时,为所述第二识别结果分配当前在线识别序列号,其中,当前离线识别序列号和当前在线识别序列号包括识别类型和序列编号,对于根据同一语音数据信息得到的第一识别结果和第二识别结果,序列编号相同,每获取到一个第一识别结果,当前离线识别序列号对应的序列编号加1,每获取到一个第二识别结果,当前在线识别序列号对应的序列编号加1;
第一确定子模块,用于根据所述当前离线识别序列号确定离线识别最大丢弃序列号和离线识别最小丢弃序列号,其中,所述离线识别最大丢弃序列号为当前离线识别序列号加1;
第二确定子模块,用于根据所述当前在线识别序列号确定在线识别最大丢弃序列号和在线识别最小丢弃序列号,其中,所述在线识别最大丢弃序列号为当前在线识别序列号加1;
第三确定子模块,用于根据所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号、离线识别最小丢弃序列号、在线识别最大丢弃序列号、在线识别最小丢弃序列号的序列编号之间的大小关系确定所述第一识别结果和所述第二识别结果中需丢弃的识别结果,以得到所述最终识别结果。
8.根据权利要求7所述的装置,其特征在于,所述第三确定子模块用于:
比较所述当前离线识别序列号的序列编号与所述在线识别最大丢弃序列号的序列编号、在线识别最小丢弃序列号的序列编号之间的大小,以及比较所述当前在线识别序列号的序列编号与所述离线识别最大丢弃序列号的序列编号、离线识别最小丢弃序列号的序列编号之间的大小;
当所述当前离线识别序列号的序列编号大于等于所述在线识别最小丢弃序列号的序列编号,且小于所述在线识别最大丢弃序列号的序列编号时,丢弃所述第一识别结果,将所述第二识别结果确定为所述最终识别结果;
当所述当前在线识别序列号的序列编号大于等于所述离线识别最小丢弃序列号的序列编号,且小于所述离线识别最大丢弃序列号的序列编号时,丢弃所述第二识别结果,将所述第一识别结果确定为所述最终识别结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一处理模块,用于当丢弃所述第一识别结果后,将所述离线识别最小丢弃序列号的序列编号置为所述当前在线识别序列号的序列编号加1;
第二处理模块,用于当丢弃所述第二识别结果后,将所述在线识别最小丢弃序列号的序列编号置为所述当前离线识别序列号的序列编号加1。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
重置模块,用于当所述离线识别最大丢弃序列号和离线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,或者当所述在线识别最大丢弃序列号和在线识别最小丢弃序列号之间的序列编号差距大于等于预设差距时,重置所述当前离线识别序列号、所述当前在线识别序列号、离线识别最大丢弃序列号和离线识别最小丢弃序列号以及在线识别最大丢弃序列号和在线识别最小丢弃序列号。
CN201611035276.9A 2016-11-16 2016-11-16 语音识别方法及装置 Active CN106531151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611035276.9A CN106531151B (zh) 2016-11-16 2016-11-16 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611035276.9A CN106531151B (zh) 2016-11-16 2016-11-16 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN106531151A true CN106531151A (zh) 2017-03-22
CN106531151B CN106531151B (zh) 2019-10-11

Family

ID=58357772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611035276.9A Active CN106531151B (zh) 2016-11-16 2016-11-16 语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN106531151B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600041A (zh) * 2019-07-29 2019-12-20 华为技术有限公司 一种声纹识别的方法及设备
CN111261166A (zh) * 2020-01-15 2020-06-09 云知声智能科技股份有限公司 一种语音识别方法及装置
CN112382292A (zh) * 2020-12-11 2021-02-19 北京百度网讯科技有限公司 基于语音的控制方法和装置
CN114550719A (zh) * 2022-02-21 2022-05-27 青岛海尔科技有限公司 语音控制指令的识别方法和装置、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115245A (zh) * 2006-07-25 2008-01-30 陈修志 具有语音识别及翻译功能的移动终端
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN104536978A (zh) * 2014-12-05 2015-04-22 奇瑞汽车股份有限公司 识别语音数据的方法和装置
CN104575503A (zh) * 2015-01-16 2015-04-29 广东美的制冷设备有限公司 语音识别方法和装置
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101115245A (zh) * 2006-07-25 2008-01-30 陈修志 具有语音识别及翻译功能的移动终端
CN102194001A (zh) * 2011-05-17 2011-09-21 杭州电子科技大学 网络舆情危机预警方法
CN104536978A (zh) * 2014-12-05 2015-04-22 奇瑞汽车股份有限公司 识别语音数据的方法和装置
CN104575503A (zh) * 2015-01-16 2015-04-29 广东美的制冷设备有限公司 语音识别方法和装置
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600041A (zh) * 2019-07-29 2019-12-20 华为技术有限公司 一种声纹识别的方法及设备
CN110600041B (zh) * 2019-07-29 2022-04-29 华为技术有限公司 一种声纹识别的方法及设备
CN111261166A (zh) * 2020-01-15 2020-06-09 云知声智能科技股份有限公司 一种语音识别方法及装置
CN112382292A (zh) * 2020-12-11 2021-02-19 北京百度网讯科技有限公司 基于语音的控制方法和装置
CN114550719A (zh) * 2022-02-21 2022-05-27 青岛海尔科技有限公司 语音控制指令的识别方法和装置、存储介质

Also Published As

Publication number Publication date
CN106531151B (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
CN113038287B (zh) 多人视频直播业务实现方法、装置、计算机设备
CN106531151A (zh) 语音识别方法及装置
CN103718166B (zh) 信息处理设备、信息处理方法
CN103945240B (zh) 一种基于视频聚合的视频播放方法及装置
CN109873726B (zh) Sdn中基于深度学习的鲁棒服务质量预测与保障方法
US20190156434A1 (en) Identification of rule violations in a network community
CN106789581A (zh) 即时通讯方法、装置及系统
TW201540115A (zh) 通訊事件歷史
CN106604078B (zh) 一种网络视频推荐方法及装置
CN105872717A (zh) 视频处理方法及系统、视频播放器与云服务器
CN107333087A (zh) 一种基于视频会话的信息共享方法和装置
CN106558313A (zh) 语音识别方法及装置
CN107888579B (zh) 一种非干扰式的移动视频用户体验质量指标建模方法
WO2023045710A1 (zh) 多媒体显示及匹配方法、装置、设备及介质
CN108810657A (zh) 一种设置视频封面的方法和系统
CN110472558B (zh) 图像处理方法和装置
CN107623622A (zh) 一种发送语音动画的方法及电子设备
CN106558305A (zh) 语音数据处理方法及装置
CN108235149A (zh) 一种优化视频播放流畅度的方法及装置
CN109905775A (zh) 一种涂鸦弹幕生成及显示方法、装置、终端设备及存储介质
CN107623830A (zh) 一种视频通话方法及电子设备
CN106385562A (zh) 一种视频摘要生成方法、装置及视频监控系统
CN110415318B (zh) 图像处理方法和装置
CN107633844A (zh) 设备控制方法及装置
CN108307248A (zh) 视频播放方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, 5 floor, A503

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address