CN110827794B - 语音识别中间结果的质量评测方法和装置 - Google Patents

语音识别中间结果的质量评测方法和装置 Download PDF

Info

Publication number
CN110827794B
CN110827794B CN201911257199.5A CN201911257199A CN110827794B CN 110827794 B CN110827794 B CN 110827794B CN 201911257199 A CN201911257199 A CN 201911257199A CN 110827794 B CN110827794 B CN 110827794B
Authority
CN
China
Prior art keywords
intermediate result
result
adjacent
determining
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257199.5A
Other languages
English (en)
Other versions
CN110827794A (zh
Inventor
李如子
殷运鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911257199.5A priority Critical patent/CN110827794B/zh
Publication of CN110827794A publication Critical patent/CN110827794A/zh
Application granted granted Critical
Publication of CN110827794B publication Critical patent/CN110827794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种语音识别中间结果的质量评测方法和装置,其中方法包括:确定语音识别的每一中间结果;基于每一中间结果,确定质量评测参数;基于所述质量评测参数,确定质量评测结果。本发明实施例提供的方法和装置,基于每一中间结果,确定质量评测参数,能够从语音结果过程中输出的中间结果整体的角度进行分析,从而提高中间结果质量评测的全面性和准确性。

Description

语音识别中间结果的质量评测方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别中间结果的质量评测方法和装置。
背景技术
随着人工智能技术的不断突破,语音识别技术得到了迅速的发展。当前的语音识别技术,可以在实时解码过程中将中间结果抛出给用户,让用户感知会话过程中一直有字幕弹出,优化用户在语音识别的实时性方面的体验。
现有的针对语音识别中间结果的质量评测方法是将最后一次的中间结果直接与最终结果的标注内容进行对标,统计出字精确率作为中间结果的衡量指标。但是上述方法无法满足中间结果质量评测的全面性和准确性的需求。
发明内容
本发明实施例提供一种语音识别中间结果的质量评测方法和装置,用以解决现有的中间结果质量评测不够全面,且准确性低的问题。
第一方面,本发明实施例提供一种语音识别中间结果的质量评测方法,包括:
确定语音识别的每一中间结果;
基于每一中间结果,确定质量评测参数;
基于所述质量评测参数,确定质量评测结果。
优选地,所述基于每一中间结果,确定质量评测参数,具体包括:
基于每一中间结果确定相邻差异性评测参数;
和/或,基于每一中间结果,以及最终标注结果,确定整体准确性评测参数。
优选地,所述基于每一中间结果确定相邻差异性评测参数,具体包括:
基于每一中间结果确定整体顺滑度和/或相邻结果相似度;
其中,所述整体顺滑度用于表征相邻中间结果的字数差异;所述相邻结果相似度用于表征相邻中间结果的文本差异。
优选地,所述基于每一中间结果确定相邻结果相似度,具体包括:
基于任一中间结果与所述任一中间结果的相邻中间结果,确定所述任一中间结果的相邻标注内容;
基于所述任一中间结果以及所述相邻标注内容,确定所述任一中间结果对应的相邻对标结果;
基于每一所述中间结果对应的相邻对标结果,确定相邻结果相似度。
优选地,所述基于任一中间结果与所述任一中间结果的相邻中间结果,确定所述任一中间结果的相邻标注内容,具体包括:
计算任一中间结果与所述任一中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度;其中,所述中间拆分标注内容是基于预设中间步长对所述相邻中间结果进行逐次拆分得到的;
将最大的中间拆分相似度对应的中间拆分标注内容作为所述任一中间结果的相邻标注内容。
优选地,所述基于每一中间结果,以及最终标注结果,确定整体准确性评测参数,具体包括:
基于任一中间结果,以及所述最终标注结果,确定所述任一中间结果的个体准确性评测参数;
基于每一中间结果的个体准确性评测参数,确定所述整体准确性评测参数。
优选地,所述基于任一中间结果,以及所述最终标注结果,确定所述任一中间结果的个体准确性评测参数,具体包括:
计算任一中间结果与所述最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度;其中,所述最终拆分标注内容是基于预设最终步长对所述最终标注结果进行逐次拆分得到的;
基于最大的最终拆分相似度对应的最终拆分标注内容,以及所述任一中间结果,确定所述任一中间结果的个体准确性评测参数。
第二方面,本发明实施例提供一种语音识别中间结果的质量评测装置,包括:
中间结果确定单元,用于确定语音识别的每一中间结果;
参数确定单元,用于基于每一中间结果确定质量评测参数;
质量评测单元,用于基于所述质量评测参数,确定质量评测结果。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种语音识别中间结果的质量评测方法和装置,基于每一中间结果,确定质量评测参数,能够从语音结果过程中输出的中间结果整体的角度进行分析,从而提高中间结果质量评测的全面性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别中间结果的质量评测方法的流程示意图;
图2为本发明实施例提供的整体顺滑度的示意图;
图3为本发明实施例提供的相邻结果相似度的确定方法的流程示意图;
图4为本发明实施例提供的相邻标注内容的确定方法的流程示意图;
图5为本发明另一实施例提供的相邻结果相似度的确定方法的流程示意图;
图6为本发明实施例提供的整体准确性评测参数的确定方法的流程示意图;
图7为本发明实施例提供的个体准确性评测参数的确定方法的流程示意图;
图8为本发明另一实施例提供的整体准确性评测参数的确定方法的流程示意图;
图9为本发明实施例提供的语音识别中间结果的质量评测装置的结构示意图;
图10为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
语音识别的实时解码过程中,可以将中间结果抛出给用户,让用户感知会话过程中一直有字幕弹出。如何对用户获取的中间结果进行合理衡量是语音识别中间结果输出中的一个非常重要的环节。当前由于中间结果所对应的标注文本以及衡量指标的缺失,导致中间结果给用户的感受除了使用主观测试以及非常简单的客观测试外,一直无法依赖客观标准进行精准衡量。
为了实现语音识别中间结果的质量评测,发明人起初将最终结果的标注内容作为最后一次的中间结果的标注内容,直接与最终一次的中间结果进行对标,并将对标得到的字精确率作为语音识别中间结果的质量评测指标。但是上述方法实际上仅能够评测最后一次中间结果的质量,并不能体现其余每次中间结果的质量,由此进行中间结果评测过于片面。此外,由于随着中间结果输出次数的增加,中间结果的准确性会越来越高,仅用最后一次的中间结果进行质量评测,无法代表多次输出的中间结果整体,且会导致质量评测结果虚高。再者,仅应用单次的中间结果进行质量评测,也无法体现逐次输出的中间结果带给用户的实时性体验感受。
对此,本发明实施例提供一种语音识别中间结果的质量评测方法。图1为本发明实施例提供的语音识别中间结果的质量评测方法的流程示意图,如图1所示,该方法包括:
步骤110,确定语音识别的每一中间结果。
具体地,在语音识别的实时解码过程中,逐个输出中间结果,对应记录每一中间结果,以及中间结果的输出顺序。此处,中间结果为多个,且本发明实施例不对中间结果的具体数量作限定。
步骤120,基于每一中间结果确定质量评测参数。
具体地,质量评测参数用于表征每一中间结果的质量,质量测评参数具体可以体现为中间结果之间的顺滑度,例如相邻的中间结果之间的字数之差,或者相邻的中间结果之间的相似度,还可以体现为每一中间结果的准确性,例如每一中间及其分别对应的标注内容之间的相似度,还可以体现为中间结果之间的顺滑度以及每一中间结果的准确性两者的结合等,本发明实施例对此不作具体限定。
步骤130,基于质量评测参数,确定质量评测结果。
具体地,质量评测结果用于反映对语音识别中的中间结果进行质量评测得到的结果,质量评测结果可以是得分、等级等,本发明实施例对此不作具体限定。
本发明实施例提供的方法,基于每一中间结果,确定质量评测参数,能够从语音结果过程中输出的中间结果整体的角度进行分析,从而提高中间结果质量评测的全面性和准确性。
基于上述任一实施例,质量评测参数包括相邻差异性评测参数和/或整体准确性评测参数。对应地,步骤120具体包括步骤121和/或步骤122:
步骤121,基于每一中间结果确定相邻差异性评测参数。
具体地,相邻差异性评测参数用于表征相邻的中间结果之间的差异性,通过相邻的中间结果之间的差异性可以反映用户在会话过程中感知到的中间结果输出的顺滑程度,差异越小,则用户感知越顺滑。此处,相邻差异性评测参数可以包括相邻的中间结果的字数差异,或者相邻的中间结果分别对应于相同语音数据的部分的文本差异等,本发明实施例对此不作具体限定。
步骤122,基于每一中间结果,以及最终标注结果,确定整体准确性评测参数。
具体地,最终标注结果为语音识别输出的最终结果对应的标注内容。整体准确性评测参数用于表征每一中间结果的准确性。整体准确性评测参数可以包括每一中间结果的字正确率,或者每一中间结果中出现各种错误的概率等,本发明实施例对此不作具体限定。
最终标注结果对应于语音数据整体,每一中间结果均对应于语音数据中的一部分,由此可以建立起最终标注结果与每一中间结果之间的关联性,并将最终标注结果中对应于分布语音数据的部分标注结果用于评测对应的中间结果的准确性,进而得到整体准确性评测参数。
需要说明的是,步骤120中,可以执行步骤121不执行步骤122,或者执行步骤122不执行步骤121,再或者既执行步骤121又执行步骤122,本发明实施例对此不作具体限定。
对应地,步骤130具体包括:基于相邻差异性评测参数和/或整体准确性评测参数,确定质量评测结果。
具体地,在执行步骤121不执行步骤122的情况下,可以根据步骤121确定的相邻差异性评测参数,确定质量评测结果;在执行步骤122不执行步骤121的情况下,可以根据步骤122确定的整体准确性评测参数,确定质量评测结果;在既执行步骤121又执行步骤122的情况下,可以结合根据步骤121确定的相邻差异性评测参数,以及根据步骤122确定的整体准确性评测参数,确定质量评测结果。
本发明实施例提供的方法,基于相邻差异性评测参数进行质量评测,能够通过相邻差异性评测参数反映用户在会话过程中感知到的中间结果输出的顺滑程度,应用客观标准精准衡量用户感知;基于整体准确性评测参数进行质量评测,能够通过整体准确性评测参数反映每次输出的中间结果的准确性,从而提高中间结果质量评测的全面性和准确性。
基于上述实施例,该方法中,步骤121具体包括:基于每一中间结果确定整体顺滑度和/或相邻结果相似度;其中,整体顺滑度用于表征相邻中间结果的字数差异;相邻结果相似度用于表征相邻中间结果的文本差异。
具体地,相邻差异性评测参数包括整体顺滑度和/或相邻结果相似度,分别从中间结果的字数和文本两个方面表征相邻的中间结果之间的差异。
其中,整体顺滑度可以包括每一个中间结果及其相邻的前一中间结果的字数差,或者每一中间结果及其相邻的前一中间结果的字数差的均值等。相邻结果相似度可以包括每一中间结果及其相邻的后一中间结果中对应于相同语音数据的文本的差异,例如相同字占比,错误占比等。
基于上述任一实施例,图2为本发明实施例提供的整体顺滑度的示意图,如图2所示,该方法中,步骤121中,基于每一中间结果确定整体顺滑度,具体包括:基于每两个相邻的中间结果的字数差,以及中间结果的总数量,确定整体顺滑度。
例如,可以将每两个相邻的中间结果的字数差之和,除以中间结果的总数量,得到相邻的中间结果的字数差的均值,作为整体顺滑度。
图2中,n为中间结果的总数量,n为大于等于2的整数。Num(i)为第i次中间结果的字数,i为小于等于n的正整数。每一次中间结果旁标注的公式,例如第i次中间结果旁标注的Num(i)-Num(i-1),用于表示第i次中间结果及其前一次中间结果的字数差。
由此得到如下公式:
整体顺滑度
=[Num(1)+Num(2)-Num(1)+…+Num(n)-Num(n-1)]/n
=Num(n)/n
下表示出左右两组不同的中间结果,表中,左侧中间结果中,中间结果7的字数为7,整体顺滑度=Num(7)/7=7/7=1,右侧中间结果中,中间结果2的字数为6,整体顺滑度=Num(2)/2=6/2=3,显然左侧中间结果每次输出的字数比上次的字数差距小,用户感受顺滑,右侧中间结果每次输出的字数比上次的字数差距大,用户感受并不友善,左侧中间结果的整体顺滑度优于右侧中间结果,且整体顺滑度约接近于1,用户感受越佳。
中间结果1 “查” 中间结果1 “查”
中间结果2 “查找” 中间结果2 “查找文祠幼儿”
中间结果3 “查找文”
中间结果4 “查找文祠”
中间结果5 “查找文祠幼”
中间结果6 “查找文祠幼儿”
中间结果7 “查找文祠幼儿园”
基于上述任一实施例,图3为本发明实施例提供的相邻结果相似度的确定方法的流程示意图,如图3所示,步骤121中,所述基于每一中间结果确定相邻结果相似度,具体包括:
步骤1211,基于任一中间结果与该中间结果的相邻中间结果,确定该中间结果的相邻标注内容。
具体地,针对任一中间结果,该中间结果的相邻中间结果可以是该中间结果的前一中间结果或者后一中间结果。该中间结果的相邻标注内容是相邻中间结果中与该中间结果最相似的片段,即相邻中间结果中,对应于该中间结果所对应的语音数据部分的文本片段。两个相邻的中间结果中,对应于相同语音数据的部分可用于比较说明相邻中间结果的文本差异,进而体现用户在会话过程中感知到的中间结果输出的顺滑程度。
步骤1212,基于该中间结果以及相邻标注内容,确定该中间结果对应的相邻对标结果。
具体地,通过将中间结果以及中间结果的相邻标注内容继续对标,即可得到该中间结果的相邻对标结果。相邻对标结果可以是中间结果及其相邻标注内容的相同字数,或者不同类型的错误分别对应的字数等,本发明实施例对此不作具体限定。例如,相邻对标结果可以包括H、I、S、D和N,其中H表示中间结果相比相邻标注内容的正确字数,I、S和D表示中间结果相比相邻标注内容的插入错误字数、替换错误字数和删除错误字数,N为相邻标注内容的总字数。
步骤1213,基于每一中间结果对应的相邻对标结果,确定相邻结果相似度。
具体地,任一中间结果对应的相邻对标结果用于表征该中间结果及其相邻中间结果的文本差异,基于每一中间结果对应的相邻对标结果,即可分析每一中间结果之间的文本差异,得到相邻结果相似度。
例如,可以将基于下式计算得到的所有中间结果的字加权精确度作为相邻结果相似度:
ACC=(H1+H2+…+Hn-I1-I2-…-In)/(N1+N2+…+Nn)
式中,H1、I1和N1分别表示第1个中间结果相比相邻标注内容的正确字数、插入错误字数,以及相邻标注内容的总字数;n为中间结果的总数量。
本发明实施例提供的方法,通过分析每一中间结果对应的相邻对标结果,确定相邻结果相似度,从而从相邻中间结果的文本方面衡量了用户在会话过程中感知到的中间结果输出的顺滑程度。
基于上述任一实施例,图4为本发明实施例提供的相邻标注内容的确定方法的流程示意图,如图4所示,步骤1211具体包括:
步骤1211-1,计算任一中间结果与该中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度;其中,中间拆分标注内容是基于预设中间步长对相邻中间结果进行逐次拆分得到的。
具体地,预设中间步长是预先设定的对相邻中间结果进行拆分的步长,作为优选,预设中间步长可以是1个字。预设中间步长为1个字时,基于预设中间步长对相邻中间结果进行逐次拆分,使得相邻中间结果中的m个字最终会被拆分为m个中间拆分标注内容,分别为“w1”、“w1w2”、“w1w2w3”、…、“w1w2w3…wm”,其中w1表示相邻中间结果中的第1个字。
中间拆分相似度用于表征任一中间结果及其相邻中间结果所对应的任一中间拆分标注内容,两者之间的相似度。本发明实施例中,中间结果以及中间拆分标注内容之间的相似度,可以通过多种方式表示,例如Jaccard相关系数、余弦距离、欧几里得距离等,本发明实施例对此不作具体限定。
作为优选,可以应用中间结果以及中间拆分标注内容之间编辑距离表征中间拆分相似度。编辑距离(Edit Distance)是针对二个字符串的差异程度的量化量测。中间结果与该中间结果的相邻中间结果所对应的任一中间拆分标注内容之间的编辑距离,用于衡量中间结果与任一中间拆分标注内容两者字符串的差异程度,编辑距离越小则差异越小,对应的中间拆分相似度越大。
步骤1211-2,将最大的中间拆分相似度对应的中间拆分标注内容作为该中间结果的相邻标注内容。
基于上述任一实施例,图5为本发明另一实施例提供的相邻结果相似度的确定方法的流程示意图,如图5所示,相邻结果相似度的确定方法如下:
首先,按照预设中间步长对每一中间结果进行逐次拆分,得到每一中间结果所对应的每一中间拆分标注内容。此处,预设中间步长为1个字,由此得到的任一中间结果所对应的每一中间拆分标注内容在图5所示的方框中以“w1”、“w1w2”、“w1w2w3”、…、“w1w2w3…wm”的形式呈现。
需要说明的是,本发明实施例中将下一中间结果作为当前中间结果的相邻中间结果,将最终标注结果作为最后一个中间结果的相邻中间结果。
例如,每一中间结果所对应的中间拆分标注内容如下表所示:
Figure BDA0002310604640000101
Figure BDA0002310604640000111
其次,针对任一中间结果,计算该中间结果与其相邻中间结果所对应的每一中间拆分标注内容之间的编辑距离,从而得到该中间结果与每一中间拆分标注内容之间的中间拆分相似度。从中选取中间拆分相似度最大,即编辑距离最小的中间拆分标注内容作为该中间结果的相邻标注内容。在编辑距离计算的过程中,可能存在两个编辑距离最小值的情况,例如“查找文四”这一中间结果与中间拆分标注内容“查找文”和“查找文祠”这两部分编辑距离都为最小(距离为1),此时取字符串长度最短的为该中间结果的相邻标注内容。
针对每一个中间结果执行上述操作,即可得到每个中间结果与下一中间结果的相邻标注结果,具体可以表现为“中间结果n→相邻标注内容”的形式,对应于中间结果1为“查找→查找”,中间结果2为“查找文→查找文”,中间结果3为“查找文四→查找文”,中间结果4为“查找文泗幼儿园→查找文祠幼儿园”。
接着,针对任一中间内容及其相邻标注内容进行对标,得到该中间结果的相邻对标结果H、I、S、D、N。上述4个中间结果的H、I、S、D、N分别为:“查找→查找”(H=2,I=0,S=0,D=0,N=2),“查找文→查找文”(H=3,I=0,S=0,D=0,N=3),“查找文四→查找文”(H=3,I=1,S=0,D=0,N=3),“查找文泗幼儿园→查找文祠幼儿园”(H=6,I=0,S=1,D=0,N=7)。通过计算每一中间结果的相邻对标结果中的正确字数与插入错误字数之差,以及每一中间结果的相邻标注内容的总字数两者的比值,可以得到所有中间结果的字加权精确度作为相邻结果相似度。此处,相邻结果相似度ACC=(H1+H2+…Hn-I1-I2-…In)/(N1+N2+…Nn)=(14-1)/16=81.25%。
基于上述任一实施例,图6为本发明实施例提供的整体准确性评测参数的确定方法的流程示意图,如图6所示,步骤122具体包括:
步骤1221,基于任一中间结果,以及最终标注结果,确定该中间结果的个体准确性评测参数。
具体地,针对任一中间结果,最终标注结果中存在部分文本对应于该中间结果所对应的语音数据,可以选择最终标注结果中对应于该中间结果所对应的语音数据的部分文本,与该中间结果进行对标,以确定该中间结果的个体准确性评测参数。
此处,个体准确性评估参数是针对于单个中间结果而言的,用于衡量单个中间结果相对于最终标注结果的准确性。
步骤1222,基于每一中间结果的个体准确性评测参数,确定整体准确性评测参数。
具体地,在得到针对于每一个单个的中间结果的个体准确性评测参数后,即可得到针对于中间结果整体而言的整体准确性评测参数。
本发明实施例提供的方法,每一中间结果的个体准确性评测参数,确定整体准确性评测参数,充分考虑了每一中间结果的准确性,提高了质量评测的可靠性和准确性。
基于上述任一实施例,图7为本发明实施例提供的个体准确性评测参数的确定方法的流程示意图,如图7所示,步骤1221具体包括:
步骤1221-1,计算任一中间结果与最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度;其中,最终拆分标注内容是基于预设最终步长对最终标注结果进行逐次拆分得到的。
具体地,预设最终步长是预先设定的对最终标注结果进行拆分的步长,作为优选,预设最终步长可以是1个字。预设最终步长为1个字时,基于预设最终步长对最终标注结果进行逐次拆分,使得最终标注结果中的m个字最终会被拆分为m个最终拆分标注内容,分别为“w1”、“w1w2”、“w1w2w3”、…、“w1w2w3…wm”,其中w1表示最终标注结果中的第1个字。
最终拆分相似度用于表征任一中间结果以及最终标注结果所对应的任一最终拆分标注内容,两者之间的相似度。本发明实施例中,中间结果以及最终拆分标注内容之间的相似度,可以通过多种方式表示,例如Jaccard相关系数、余弦距离、欧几里得距离等,本发明实施例对此不作具体限定。
作为优选,可以应用中间结果以及最终拆分标注内容之间编辑距离表征最终拆分相似度。
任一中间结果与任一最终拆分标注内容之间的编辑距离,用于衡量该中间结果与该最终拆分标注内容两者字符串的差异程度,编辑距离越小则差异越小,最终拆分相似度越大。
步骤1221-2,基于最大的最终拆分相似度对应的最终拆分标注内容,以及该中间结果,确定该中间结果的个体准确性评测参数。
具体地,由于会话过程中,每一个中间结果是实时变化的,因此该过程中每一个中间结果的标注是无法标记的。而最大的最终拆分相似度对应的最终拆分标注内容,即最接近于中间结果的最终标注结果中的部分文本,可直接作为中间结果对应的标注内容。
将最大的最终拆分相似度对应的最终拆分标注内容与中间结果进行对标,即可确定该中间结果的个体准确性评测参数。类似于中间结果的相邻对标结果,中间结果的个体准确性评测参数也可以包括H、I、S、D和N,其中H、I、S和D表示中间结果相比最小的编辑距离对应的最终拆分标注内容的正确字数、插入错误字数、替换错误字数和删除错误字数,N为最小的编辑距离对应的最终拆分标注内容的总字数。
对应地,可以将基于下式计算得到的所有中间结果的字加权精确度作为整体准确性评测参数:
ACC=(H1+H2+…+Hn-I1-I2-…-In)/(N1+N2+…+Nn)
式中,H1、I1和N1分别表示第1个中间结果相比最小的编辑距离对应的最终拆分标注内容的正确字数、插入错误字数,以及最小的编辑距离对应的最终拆分标注内容的总字数;n为中间结果的总数量。
基于上述任一实施例,图8为本发明另一实施例提供的整体准确性评测参数的确定方法的流程示意图,如图8所示,整体准确性评测参数的确定方法如下:
首先,按照预设最终步长对最终标注结果进行逐次拆分,得到最终标注结果对应的每一最终拆分标注内容。
此处,预设最终步长为1个字。由此得到的最终标注结果所对应的每一最终拆分标注内容在图8所示的方框中以“w1”、“w1w2”、“w1w2w3”、…、“w1w2w3…wm”的形式呈现。假设最终标注结果为“查找文祠幼儿园”,下表所示为该最终标注结果所对应的多个最终拆分标注内容:
w1
w1w2
w1w2w3
……
……
w1w2w3…wm
其次,计算任一中间结果与最终标注结果对应的每一最终拆分标注内容之间的编辑距离,进而得到该中间结果与最终标注结果对应的每一最终拆分标注内容之间的最终拆分相似度。随即将最小编辑距离,即最大最终拆分相似度对应的最终拆分标注内容作为中间结果的最终拆分标注内容,具体可以表现为“中间结果n→对应标注”的形式。假设中间结果顺次为“查找”、“查找文”、“查找文四”、“查找文泗幼儿园”,每个中间结果的对应最终拆分标注内容分别为“查找→查找”,“查找文→查找文”,“查找文四→查找文祠”,“查找文泗幼儿园→查找文祠幼儿园”。在编辑距离计算的过程中,可能会存在两个编辑距离最小值,例如“查找文四”这一中间结果与最终拆分标注内容“查找文”和“查找文祠”的编辑距离都为最小(距离为1),此时取字符串长度最长的为最终拆分标注内容。
接着,针对任一中间内容及其最终拆分标注内容进行对标,得到该中间结果的个体准确性评测参数,包括H、I、S、D、N。由此得到每个中间结果的个体准确性评测参数分别为:“查找→查找”(H=2,I=0,S=0,D=0,N=2),“查找文→查找文”(H=3,I=0,S=0,D=0,N=3),“查找文四→查找文祠”(H=3,I=0,S=1,D=0,N=4),“查找文泗幼儿园→查找文祠幼儿园”(H=6,I=0,S=1,D=0,N=7)。通过计算每一中间结果的个体准确性评测参数中的正确字数与插入错误字数之差,以及每一中间结果的最终拆分标注内容的总字数两者的比值,可以得到所有中间结果的字加权精确度作为整体准确性评测参数。此处,整体准确性评测参数ACC=(H1+H2+…Hn-I1-I2-…In)/(N1+N2+…Nn)=(14-0)/16=87.5%。
基于上述任一实施例,图9为本发明实施例提供的语音识别中间结果的质量评测装置的结构示意图,如图9所示,该装置包括中间结果确定单元910、参数确定单元920以及质量评测单元930;
其中,中间结果确定单元910用于确定语音识别的每一中间结果;
参数确定单元920用于基于每一中间结果确定质量评测参数;
质量评测单元930用于基于所述质量评测参数,确定质量评测结果。
本发明实施例提供的装置,基于每一中间结果,确定质量评测参数,能够从语音结果过程中输出的中间结果整体的角度进行分析,从而提高中间结果质量评测的全面性和准确性。
基于上述任一实施例,该装置中,所述参数确定单元920包括:
相邻差异性评测单元,用于基于每一中间结果确定相邻差异性评测参数;
和/或,整体准确性评测单元,用于基于每一中间结果,以及最终标注结果,确定整体准确性评测参数。
基于上述任一实施例,该装置中,所述相邻差异性评测单元具体用于:
基于每一中间结果确定整体顺滑度和/或相邻结果相似度;
其中,所述整体顺滑度用于表征相邻中间结果的字数差异;所述相邻结果相似度用于表征相邻中间结果的文本差异。
基于上述任一实施例,该装置中,所述相邻差异性评测单元具体包括:
相邻标注确定子单元,用于基于任一中间结果与所述任一中间结果的相邻中间结果,确定所述任一中间结果的相邻标注内容;
相邻对标子单元,用于基于所述任一中间结果以及所述相邻标注内容,确定所述任一中间结果对应的相邻对标结果;
相邻结果确定子单元,用于基于每一所述中间结果对应的相邻对标结果,确定相邻结果相似度。
基于上述任一实施例,该装置中,所述相邻标注确定子单元具体用于:
计算任一中间结果与所述任一中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度;其中,所述中间拆分标注内容是基于预设中间步长对所述相邻中间结果进行逐次拆分得到的;
将最大的中间拆分相似度对应的中间拆分标注内容作为所述任一中间结果的相邻标注内容。
基于上述任一实施例,该装置中,整体准确性评测单元包括:
个体准确性子单元,用于基于任一中间结果,以及所述最终标注结果,确定所述任一中间结果的个体准确性评测参数;
整体准确性子单元,用于基于每一中间结果的个体准确性评测参数,确定所述整体准确性评测参数。
基于上述任一实施例,该装置中,个体准确性子单元具体用于:
计算任一中间结果与所述最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度;其中,所述最终拆分标注内容是基于预设最终步长对所述最终标注结果进行逐次拆分得到的;
基于最大的最终拆分相似度对应的最终拆分标注内容,以及所述任一中间结果,确定所述任一中间结果的个体准确性评测参数。
图10为本发明实施例提供的电子设备的结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行如下方法:确定语音识别的每一中间结果;基于每一中间结果,确定质量评测参数;基于所述质量评测参数,确定质量评测结果。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定语音识别的每一中间结果;基于每一中间结果,确定质量评测参数;基于所述质量评测参数,确定质量评测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种语音识别中间结果的质量评测方法,其特征在于,包括:
确定语音识别的每一中间结果;
基于每一中间结果,确定质量评测参数,所述质量评测参数包括相邻差异性评测参数,所述相邻差异性评测参数用于表征相邻的中间结果之间的差异性;
基于所述质量评测参数,确定质量评测结果;
所述确定语音识别的每一中间结果,包括:在语音识别的实时解码过程中,逐个输出中间结果,对应记录每一中间结果,以及中间结果的输出顺序。
2.根据权利要求1所述的语音识别中间结果的质量评测方法,其特征在于,所述基于每一中间结果,确定质量评测参数,具体包括:
基于每一中间结果确定相邻差异性评测参数;
或,基于每一中间结果确定相邻差异性评测参数,基于每一中间结果,以及最终标注结果,确定整体准确性评测参数;
所述基于每一中间结果确定相邻差异性评测参数,具体包括:
基于每一中间结果确定整体顺滑度和/或相邻结果相似度;
其中,所述整体顺滑度用于表征相邻中间结果的字数差异;所述相邻结果相似度用于表征相邻中间结果的文本差异;
所述基于每一中间结果,以及最终标注结果,确定整体准确性评测参数,具体包括:
基于任一中间结果,以及所述最终标注结果,确定所述任一中间结果的个体准确性评测参数;
基于每一中间结果的个体准确性评测参数,确定所述整体准确性评测参数;
所述基于任一中间结果,以及所述最终标注结果,确定所述任一中间结果的个体准确性评测参数,具体包括:
计算任一中间结果与所述最终标注结果所对应的每一最终拆分标注内容之间的最终拆分相似度;其中,所述最终拆分标注内容是基于预设最终步长对所述最终标注结果进行逐次拆分得到的;
基于最大的最终拆分相似度对应的最终拆分标注内容,以及所述任一中间结果,确定所述任一中间结果的个体准确性评测参数。
3.根据权利要求2所述的语音识别中间结果的质量评测方法,其特征在于,所述基于每一中间结果确定相邻结果相似度,具体包括:
基于任一中间结果与所述任一中间结果的相邻中间结果,确定所述任一中间结果的相邻标注内容;
基于所述任一中间结果以及所述相邻标注内容,确定所述任一中间结果对应的相邻对标结果;
基于每一所述中间结果对应的相邻对标结果,确定相邻结果相似度;
所述基于任一中间结果与所述任一中间结果的相邻中间结果,确定所述任一中间结果的相邻标注内容,具体包括:
计算任一中间结果与所述任一中间结果的相邻中间结果所对应的每一中间拆分标注内容之间的中间拆分相似度;其中,所述中间拆分标注内容是基于预设中间步长对所述相邻中间结果进行逐次拆分得到的;
将最大的中间拆分相似度对应的中间拆分标注内容作为所述任一中间结果的相邻标注内容。
4.一种语音识别中间结果的质量评测装置,其特征在于,包括:
中间结果确定单元,用于确定语音识别的每一中间结果;
参数确定单元,用于基于每一中间结果确定质量评测参数,所述质量评测参数包括相邻差异性评测参数,所述相邻差异性评测参数用于表征相邻的中间结果之间的差异性;
质量评测单元,用于基于所述质量评测参数,确定质量评测结果;
所述中间结果确定单元具体用于:在语音识别的实时解码过程中,逐个输出中间结果,对应记录每一中间结果,以及中间结果的输出顺序。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项所述的语音识别中间结果的质量评测方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3中任一项所述的语音识别中间结果的质量评测方法的步骤。
CN201911257199.5A 2019-12-06 2019-12-06 语音识别中间结果的质量评测方法和装置 Active CN110827794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257199.5A CN110827794B (zh) 2019-12-06 2019-12-06 语音识别中间结果的质量评测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257199.5A CN110827794B (zh) 2019-12-06 2019-12-06 语音识别中间结果的质量评测方法和装置

Publications (2)

Publication Number Publication Date
CN110827794A CN110827794A (zh) 2020-02-21
CN110827794B true CN110827794B (zh) 2022-06-07

Family

ID=69544364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257199.5A Active CN110827794B (zh) 2019-12-06 2019-12-06 语音识别中间结果的质量评测方法和装置

Country Status (1)

Country Link
CN (1) CN110827794B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017635A (zh) * 2020-08-27 2020-12-01 北京百度网讯科技有限公司 用于检测语音识别结果的方法、装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1445100A (en) * 1998-10-13 2000-05-01 Hadasit Medical Research Services & Development Company Ltd Method and system for determining a vector index to represent a plurality of speech parameters in signal processing for identifying an utterance
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
CN100426376C (zh) * 2005-01-28 2008-10-15 中国科学院计算技术研究所 一种电话连续语音识别系统性能的评测方法及其系统
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
JP5740368B2 (ja) * 2012-08-28 2015-06-24 日本電信電話株式会社 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
CN104517609A (zh) * 2013-09-27 2015-04-15 华为技术有限公司 一种语音识别方法及装置
CN104599680B (zh) * 2013-10-30 2019-11-26 语冠信息技术(上海)有限公司 移动设备上的实时口语评价系统及方法
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
US20180240466A1 (en) * 2017-02-17 2018-08-23 Intel Corporation Speech Decoder and Language Interpreter With Asynchronous Pre-Processing
CN110322895B (zh) * 2018-03-27 2021-07-09 亿度慧达教育科技(北京)有限公司 语音评测方法及计算机存储介质
CN109346063B (zh) * 2018-10-12 2022-10-14 电子科技大学 一种语音数据增强方法
CN109215630B (zh) * 2018-11-14 2021-01-26 北京羽扇智信息科技有限公司 实时语音识别方法、装置、设备及存储介质
CN109493852A (zh) * 2018-12-11 2019-03-19 北京搜狗科技发展有限公司 一种语音识别的评测方法及装置
CN110162775A (zh) * 2019-03-11 2019-08-23 腾讯科技(深圳)有限公司 确定意图识别准确度的方法、装置及计算机设备

Also Published As

Publication number Publication date
CN110827794A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN106919661B (zh) 一种情感类型识别方法及相关装置
JP5043892B2 (ja) エッセイ中の過度の反復語使用の自動評価
CN111666761B (zh) 细粒度情感分析模型训练方法及装置
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN109062902B (zh) 一种文本语义表达方法及装置
CN108804526A (zh) 兴趣确定系统、兴趣确定方法及存储介质
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN108345587A (zh) 一种评论的真实性检测方法与系统
CN108959474B (zh) 实体关系提取方法
CN111160041B (zh) 语义理解方法、装置、电子设备和存储介质
CN110287405B (zh) 情感分析的方法、装置和存储介质
CN111506709B (zh) 实体链接方法、装置、电子设备和存储介质
CN110175851A (zh) 一种作弊行为检测方法及装置
CN106919551A (zh) 一种情感词极性的分析方法、装置及设备
CN107918778A (zh) 一种信息匹配方法及相关装置
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN110827794B (zh) 语音识别中间结果的质量评测方法和装置
CN113836894B (zh) 多维度英语作文评分方法、装置及可读存储介质
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN115511672A (zh) 一种评述儿童口算能力的方法
CN114510617A (zh) 在线课程学习行为确定方法及装置
CN115048525B (zh) 基于多元组的文本分类、文本分类模型训练的方法及装置
CN111401060B (zh) 一种干扰词生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant