CN113314099A - 语音识别置信度的确定方法和确定装置 - Google Patents

语音识别置信度的确定方法和确定装置 Download PDF

Info

Publication number
CN113314099A
CN113314099A CN202110854954.9A CN202110854954A CN113314099A CN 113314099 A CN113314099 A CN 113314099A CN 202110854954 A CN202110854954 A CN 202110854954A CN 113314099 A CN113314099 A CN 113314099A
Authority
CN
China
Prior art keywords
information
voice
teaching classroom
speech recognition
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110854954.9A
Other languages
English (en)
Other versions
CN113314099B (zh
Inventor
李成飞
白锦峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110854954.9A priority Critical patent/CN113314099B/zh
Publication of CN113314099A publication Critical patent/CN113314099A/zh
Application granted granted Critical
Publication of CN113314099B publication Critical patent/CN113314099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开提出一种语音识别置信度的确定方法和确定装置,涉及语音识别技术领域。本公开根据每句监测语音的声学识别结果中的非掩码单元的比例信息、每句监测语音的语言识别结果与教学课堂的关键词信息之间的相关性信息、教学课堂的每句监测语音的信噪比信息、困惑度等多模态信息,在复杂授课环境下的教学课堂质量监测中,也能够准确评估监测语音的语音识别置信度,为后续的下游任务提供支撑,可以适用于复杂授课环境下的教学课堂质量监测。

Description

语音识别置信度的确定方法和确定装置
技术领域
本公开涉及语音识别技术领域,特别涉及一种语音识别置信度的确定方法和确定装置。
背景技术
一个老师对一个学生的教学方式是目前教育行业中一种个性化的教学辅导方式,其可以通过老师专门的辅导学生,让学生对知识点更加容易掌握。
线下一个老师对一个学生的教学方式相对于线上一个老师对一个学生的教学方式来说,教学课堂质量监测难度更大。这是因为,线下教学课堂的环境复杂,监测用的收音设备不仅能接收到本教室内部的学生、老师的对话内容,也能接收到隔壁教室或室外的声音,使得语音识别更加困难。
发明内容
本公开实施例根据每句监测语音的声学识别结果中的非掩码单元的比例信息、每句监测语音的语言识别结果与教学课堂的关键词信息之间的相关性信息、教学课堂的每句监测语音的信噪比信息、困惑度等多模态信息,在复杂授课环境下的教学课堂质量监测中,也能够准确评估监测语音的语音识别置信度,为后续的下游任务提供支撑,可以适用于复杂授课环境下的教学课堂质量监测。
本公开一些实施例提出一种语音识别置信度的确定方法,包括:根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息;获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息;根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
在一些实施例中,获取的所述教学课堂的关键词信息包括:所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。
在一些实施例中,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息包括:计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值,作为所述相关性信息。
在一些实施例中,确定每句监测语音的声学识别结果中的非掩码单元的比例信息包括:计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。
在一些实施例中,还包括:计算所述教学课堂的每句监测语音的信噪比信息;根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,确定所述教学课堂的每句监测语音的语音识别置信度。
在一些实施例中,还包括:根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
在一些实施例中,还包括:根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
在一些实施例中,确定所述教学课堂的每句监测语音的语音识别置信度包括:对语音识别置信度的多模态信息进行归一化处理;如果语音识别置信度的多模态信息包括困惑度,对困惑度进行正相关处理;对处理后的多模态信息进行加权求和运算,并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度;其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。
在一些实施例中,还包括:根据所述教学课堂的每句监测语音的语音识别置信度,决定是否输出所述教学课堂的每句监测语音的语音识别结果。
本公开一些实施例提出一种语音识别置信度的确定装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行语音识别置信度的确定方法。
本公开一些实施例提出一种语音识别置信度的确定装置,包括:声学识别评估模块,被配置为根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息;第一语言识别评估模块,被配置为获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息;置信度确定模块,被配置为根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
在一些实施例中,还包括:环境评估模块、第二语言识别评估模块中的一个或多个;
其中,所述环境评估模块,被配置为计算所述教学课堂的每句监测语音的信噪比信息;所述第二语言识别评估模块,被配置为根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;所述置信度确定模块,被配置为根据语音识别置信度的多模态信息,确定所述教学课堂的每句监测语音的语音识别置信度,其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。
本公开一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现语音识别置信度的确定方法的步骤。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开。
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开一些实施例的语音识别置信度的确定方法的流程示意图。
图2为本公开一些实施例的语音识别置信度的确定装置的结构示意图。
图3为本公开一些实施例的语音识别置信度的确定装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
除非特别说明,否则,本公开中的“第一”“第二”等描述用来区分不同的对象,并不用来表示大小或时序等含义。
语音识别过程主要包括:在通过收音设备监测到教学课堂的授课音频后,先对监测语音进行特征提取,然后,对提取到的音频特征进行编码,接着,对编码后的音频特征依次进行声学识别和语言识别,最后,对识别结果进行解码并输出。
在语音识别中,提取监测语音的例如Fbank特征,然后由音频编码器(Audio_encoder)对提取到的音频特征例如采用Multi-head Attention(多头注意力)进行编码,其编码网络结构由多个相同的layer(层)组成,每个Layer由两个sub-layer(子层)组成,分别是multi-head self-attention mechanism(多头自我注意机制)和fully connectedfeed-forward network(全连接前馈网络)。其中每个sub-layer都加了residualconnection(剩余连接)和normalization(归一化)。Multi-head Attention编码方法的一些细节内容可以参考相关技术,这里不再赘述。
在语音识别中,例如可以采用Mask CTC(Mask Connectionist TemporalClassification,基于掩码的连接时序分类)模型进行声学识别,该模型适合不确定输入与输出是否对齐的识别场景。
在语音识别中,例如可以采用BERT(Bidirectional Encoder Representationfrom Transformers,Transformers的双向编码器表示)模型或Ngram模型等模型进行语言识别。
基于上述的语音识别过程,下面描述用来评价该语音识别效果的语音识别置信度的确定方法。
图1示出本公开一些实施例的语音识别置信度的确定方法的流程示意图。
如图1所示,该实施例的语音识别置信度的确定方法包括如下的步骤110-160,其中,步骤130、140、160可以根据需要选择执行或不执行。
在步骤110,根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息。
也即,计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。其中,声学识别结果中声学识别失败的单元会被掩码,因此,掩码单元比例越高,说明声学识别结果越不好,相应的,非掩码单元比例越高,说明声学识别结果越好。
在步骤120,获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息。
教学课堂的关键词信息可以根据课程设计预先设置。教学课堂的关键词信息包括:所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。
计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值,作为所述相关性信息。其中,第一向量与第二向量越相似,第一向量与第二向量的余弦值越大,相应的,监测语音的语言识别结果与教学课堂的关键词信息的相关性度量值也越大。此外,为了便于计算,第一向量与第二向量可以是相同长度的向量。
例如,声学识别结果对应的拼音串是“zhierjiukeyiqiuyi”, 拼音串对应的文字序列可以是“之二就可以球衣”,也可以是“知二就可以求一”。根据教学课堂设置的例如“知道”“求解”等关键词,通过计算发现后者与关键词的相关性更大,从而认为在当前教学课堂中后者出现的概率更大。
在步骤130,根据每句监测语音的语言识别结果,计算困惑度。
根据每句监测语音的语言识别结果,先计算交叉熵,然后基于交叉熵计算困惑度。困惑度越大,语言识别结果越不好,反之,困惑度越小,语言识别结果越好。
假设某句监测语音的语言识别序列为S=W1,W2,…,WN,其中,Wi表示句子中的一个字或者单词,序列长度为N。交叉熵为H(S)=-1/N×logP(W1,W2,…,WN),其中,P(W1,W2,…,WN) 表示由W1,…,WN组成的序列S作为一个句子出现的概率。困惑度Perplexity(S)等于以e为底的H(S)次幂。
例如,声学识别结果对应的拼音串是“zhierjiukeyiqiuyi”, 拼音串对应的文字序列可以是“之二就可以球衣”,也可以是“知二就可以求一”。通过计算发现前者的困惑度更大,从而认为在当前教学课堂中后者出现的概率更大。
在步骤140,计算所述教学课堂的每句监测语音的信噪比信息。
音频信噪比是音频信号的平均功率和噪声的平均功率之比,记为S/N。如果用分贝(dB)作为信噪比度量单位,则信噪比等于 10×log10(S/N) (dB) 。一般来说,信噪比越大,原始音频质量越好,因此信噪比可以反应原始音频的质量,也能够一定程度上区分来自隔壁教室的音频和来自本教室的音频。
在步骤150,根据各项多模态信息,确定所述教学课堂的每句监测语音的语音识别置信度。
其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。
(1)如果步骤130、140未执行,根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
(2)如果步骤130未执行、步骤140执行,根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,确定所述教学课堂的每句监测语音的语音识别置信度。
(3)如果步骤130执行、步骤140未执行,根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
(4)如果步骤130、140均执行,根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
确定所述教学课堂的每句监测语音的语音识别置信度的方法例如包括:对语音识别置信度的多模态信息进行归一化处理,所谓归一化处理是指将数据按比例缩放,使之落入一个更小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;如果语音识别置信度的多模态信息包括困惑度,对困惑度进行正相关处理,所谓正相关处理是指对原数据取倒数或取负数;对处理后的多模态信息进行加权求和运算,并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。
根据多模态信息的不同,通过加权求和计算得到的语音识别置信度分别表示如下:
(1)Final_score=a×Score_topic + b×Score_nonmask;
(2)Final_score=a×Score_topic + b×Score_nonmask + c×Score_SNR;
(3)Final_score= a×Score_topic + b×Score_nonmask + d×Score_ ppl;
(4)Final_score= a×Score_topic + b×Score_nonmask + c×Score_SNR + d×Score_ ppl;
其中,Score_topic表示关键词相关性信息,Score_nonmask表示非掩码单元的比例信息,Score_SNR表示信噪比信息,Score_ppl表示正相关处理后的困惑度,a、b、c、d表示各个加权项的加权系数,可以预先设置。
在步骤160,根据所述教学课堂的每句监测语音的语音识别置信度,决定是否输出所述教学课堂的每句监测语音的语音识别结果。
监测语音的语音识别置信度越高,说明监测语音的语音识别结果越准确。因此,如果监测语音的语音识别置信度高于一定阈值,说明该句监测语音的语音识别结果比较准确,该句监测语音很可能是来自本教室的比较清楚的语音,可以输出该句监测语音的语音识别结果。反之,如果监测语音的语音识别置信度不高于一定阈值,说明该句监测语音的语音识别结果不那么准确,该句监测语音很可能是来自其他教室或室外的比较模糊的语音,可以不输出该句监测语音的语音识别结果。
上述实施例,根据每句监测语音的声学识别结果中的非掩码单元的比例信息、每句监测语音的语言识别结果与教学课堂的关键词信息之间的相关性信息、教学课堂的每句监测语音的信噪比信息、困惑度等多模态信息,在复杂授课环境下的教学课堂质量监测中,也能够准确评估监测语音的语音识别置信度,为后续的下游任务提供支撑,可以适用于复杂授课环境下的教学课堂质量监测。
图2为本公开一些实施例的语音识别置信度的确定装置的结构示意图。
如图2所示,该实施例的语音识别置信度的确定装置200包括模块210、220、250,根据需要还可以包括模块230、240、260中的一个或多个。
声学识别评估模块210,被配置为根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息。也即计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。
第一语言识别评估模块220,被配置为获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息。计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值,作为所述相关性信息。获取的所述教学课堂的关键词信息包括:所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。
第二语言识别评估模块230,被配置为根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度。
环境评估模块240,被配置为计算所述教学课堂的每句监测语音的信噪比信息。
置信度确定模块250,被配置为根据语音识别置信度的多模态信息,确定所述教学课堂的每句监测语音的语音识别置信度,其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。具体来说,对语音识别置信度的多模态信息进行归一化处理,所谓归一化处理是指将数据按比例缩放,使之落入一个更小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;如果语音识别置信度的多模态信息包括困惑度,对困惑度进行正相关处理,所谓正相关处理是指对原数据取倒数或取负数;对处理后的多模态信息进行加权求和运算,并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。
输出判决模块260,被配置为根据所述教学课堂的每句监测语音的语音识别置信度,决定是否输出所述教学课堂的每句监测语音的语音识别结果。
图3为本公开一些实施例的语音识别置信度的确定装置的结构示意图。
如图3所示,该实施例的语音识别置信度的确定装置300包括:存储器310以及耦接至该存储器310的处理器320,处理器320被配置为基于存储在存储器310中的指令,执行前述任意一些实施例中的语音识别置信度的确定方法。
例如,根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息;获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息;根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
又例如,计算所述教学课堂的每句监测语音的信噪比信息;根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,确定所述教学课堂的每句监测语音的语音识别置信度。
又例如,根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
又例如,根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
又例如,根据所述教学课堂的每句监测语音的语音识别置信度,决定是否输出所述教学课堂的每句监测语音的语音识别结果。
其中,根据语音识别置信度的上述各项多模态信息,确定所述教学课堂的每句监测语音的语音识别置信度,具体包括:对语音识别置信度的多模态信息进行归一化处理,所谓归一化处理是指将数据按比例缩放,使之落入一个更小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;如果语音识别置信度的多模态信息包括困惑度,对困惑度进行正相关处理,所谓正相关处理是指对原数据取倒数或取负数;对处理后的多模态信息进行加权求和运算,并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度。
其中,存储器310例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
装置300还可以包括输入输出接口330、网络接口340、存储接口350等。这些接口330,340,350以及存储器310和处理器320之间例如可以通过总线360连接。其中,输入输出接口330为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口340为各种联网设备提供连接接口。存储接口350为SD卡、U盘等外置存储设备提供连接接口。
本公开一些实施例提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现各实施例的语音识别置信度的确定方法的步骤。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (13)

1.一种语音识别置信度的确定方法,其特征在于,包括:
根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息;
获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息;
根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
2.根据权利要求1所述的方法,其特征在于,获取的所述教学课堂的关键词信息包括:所述教学课堂的科目信息、所述教学课堂的科目的专有名词中的一项或多项。
3.根据权利要求1所述的方法,其特征在于,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息包括:
计算每句监测语音的语言识别结果相应的第一向量与所述教学课堂的关键词信息相应的第二向量的余弦值,作为所述相关性信息。
4.根据权利要求1所述的方法,其特征在于,确定每句监测语音的声学识别结果中的非掩码单元的比例信息包括:
计算每句监测语音的声学识别结果中的非掩码单元的数量与该句监测语音的单元总数之间的比例信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
计算所述教学课堂的每句监测语音的信噪比信息;
根据所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,确定所述教学课堂的每句监测语音的语音识别置信度。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;
根据所述非掩码单元的比例信息、所述相关性信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
7.根据权利要求5所述的方法,其特征在于,还包括:
根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;
根据所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度,确定所述教学课堂的每句监测语音的语音识别置信度。
8.根据权利要求7所述的方法,其特征在于,确定所述教学课堂的每句监测语音的语音识别置信度包括:
对语音识别置信度的多模态信息进行归一化处理;
如果语音识别置信度的多模态信息包括困惑度,对困惑度进行正相关处理;
对处理后的多模态信息进行加权求和运算,并将加权求和结果作为所述教学课堂的每句监测语音的语音识别置信度;
其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。
9.根据权利要求1-7任一项所述的方法,其特征在于,还包括:
根据所述教学课堂的每句监测语音的语音识别置信度,决定是否输出所述教学课堂的每句监测语音的语音识别结果。
10.一种语音识别置信度的确定装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-9中任一项所述的语音识别置信度的确定方法。
11.一种语音识别置信度的确定装置,其特征在于,包括:
声学识别评估模块,被配置为根据教学课堂的每句监测语音的声学识别结果,确定每句监测语音的声学识别结果中的非掩码单元的比例信息;
第一语言识别评估模块,被配置为获取所述教学课堂的关键词信息,并获取所述教学课堂的每句监测语音的语言识别结果,确定每句监测语音的语言识别结果与所述教学课堂的关键词信息之间的相关性信息;
置信度确定模块,被配置为根据所述非掩码单元的比例信息和所述相关性信息,确定所述教学课堂的每句监测语音的语音识别置信度。
12.根据权利要求11所述的装置,其特征在于,还包括:环境评估模块、第二语言识别评估模块中的一个或多个;
其中,所述环境评估模块,被配置为计算所述教学课堂的每句监测语音的信噪比信息;
所述第二语言识别评估模块,被配置为根据所述教学课堂的每句监测语音的语言识别结果,计算困惑度;
所述置信度确定模块,被配置为根据语音识别置信度的多模态信息,确定所述教学课堂的每句监测语音的语音识别置信度,其中,语音识别置信度的多模态信息,包括所述非掩码单元的比例信息和所述相关性信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述信噪比信息,或者包括所述非掩码单元的比例信息、所述相关性信息和所述困惑度,或者包括所述非掩码单元的比例信息、所述相关性信息、所述信噪比信息和所述困惑度。
13.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述的语音识别置信度的确定方法的步骤。
CN202110854954.9A 2021-07-28 2021-07-28 语音识别置信度的确定方法和确定装置 Active CN113314099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854954.9A CN113314099B (zh) 2021-07-28 2021-07-28 语音识别置信度的确定方法和确定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854954.9A CN113314099B (zh) 2021-07-28 2021-07-28 语音识别置信度的确定方法和确定装置

Publications (2)

Publication Number Publication Date
CN113314099A true CN113314099A (zh) 2021-08-27
CN113314099B CN113314099B (zh) 2021-11-30

Family

ID=77381789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854954.9A Active CN113314099B (zh) 2021-07-28 2021-07-28 语音识别置信度的确定方法和确定装置

Country Status (1)

Country Link
CN (1) CN113314099B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132197A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224980A1 (en) * 2010-03-11 2011-09-15 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
CN103745731A (zh) * 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
CN105336342A (zh) * 2015-11-17 2016-02-17 科大讯飞股份有限公司 语音识别结果评价方法及系统
CN109147765A (zh) * 2018-11-16 2019-01-04 安徽听见科技有限公司 音频质量综合评测方法及系统
CN111613219A (zh) * 2020-05-15 2020-09-01 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110224980A1 (en) * 2010-03-11 2011-09-15 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
CN103745731A (zh) * 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
CN105336342A (zh) * 2015-11-17 2016-02-17 科大讯飞股份有限公司 语音识别结果评价方法及系统
CN109147765A (zh) * 2018-11-16 2019-01-04 安徽听见科技有限公司 音频质量综合评测方法及系统
CN111613219A (zh) * 2020-05-15 2020-09-01 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132197A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质
CN115132197B (zh) * 2022-05-27 2024-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质

Also Published As

Publication number Publication date
CN113314099B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN110197658B (zh) 语音处理方法、装置以及电子设备
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
US10147438B2 (en) Role modeling in call centers and work centers
US20190080687A1 (en) Learning-type interactive device
CN110852215B (zh) 一种多模态情感识别方法、系统及存储介质
CN112951240B (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN112669820B (zh) 基于语音识别的考试作弊识别方法、装置及计算机设备
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN114127849A (zh) 语音情感识别方法和装置
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN114627868A (zh) 意图识别方法、装置、模型及电子设备
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
CN114021582A (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN113314099B (zh) 语音识别置信度的确定方法和确定装置
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
Liu et al. Simple pooling front-ends for efficient audio classification
CN112750461A (zh) 语音通信优化方法、装置、电子设备及可读存储介质
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
CN110827799A (zh) 用于处理语音信号的方法、装置、设备和介质
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant