CN107086040B - 语音识别能力测试方法和装置 - Google Patents

语音识别能力测试方法和装置 Download PDF

Info

Publication number
CN107086040B
CN107086040B CN201710488838.3A CN201710488838A CN107086040B CN 107086040 B CN107086040 B CN 107086040B CN 201710488838 A CN201710488838 A CN 201710488838A CN 107086040 B CN107086040 B CN 107086040B
Authority
CN
China
Prior art keywords
test
word
audio
characters
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710488838.3A
Other languages
English (en)
Other versions
CN107086040A (zh
Inventor
柳燕飞
王秀芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Goertek Inc
Original Assignee
Goertek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goertek Inc filed Critical Goertek Inc
Priority to CN201710488838.3A priority Critical patent/CN107086040B/zh
Publication of CN107086040A publication Critical patent/CN107086040A/zh
Application granted granted Critical
Publication of CN107086040B publication Critical patent/CN107086040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供了一种语音识别能力测试方法和装置,包括:接收测试命令,所述测试命令中包括测试词语和测试模式;获取与所述测试词语和所述测试模式对应的测试音频文件;对所述测试音频文件进行语音识别;将所述识别结果与所述测试词语进行相似度比较,以输出测试结果。通过实施本方案对应的实施例,可以提高语音识别能力测试的测试结果的准确率。

Description

语音识别能力测试方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别能力测试方法和装置。
背景技术
语音识别技术使机器听懂人类说话,在机器智能化过程中起着重要作用。因此,需要对语音识别系统的语音识别能力进行测评,以保证机器准确识别语音命令。
现有语音识别能力测评方式为人工发音,具体为如下过程:测试人员人工说出语音命令,并由测试人员观察机器的识别结果,进而判断机器能否准确识别语音命令,此处的识别结果为:机器对语音进行分析后所输出的语音内容对应的文字。
人工发音虽然可以测评机器识别语音命令的能力,但是,人工发音的测试过程具有局限性。例如,人工发音的局限性可以表现为,发音人员通常清楚地按照语言的语法顺序发出测试语音,但使用过程中,用户未必按照发音人员在测试中朗读测试词语时遵循的语法形式发出命令。人工发音的局限性,导致测试语音与用户实际发音匹配度低,进而导致测试结果与现实中机器语音识别能力不符的问题,使得测试结果准确率低。
发明内容
有鉴于此,本发明实施例提一种语音识别能力测试方法和装置,用以提高语音识别能力测试结果的准确率。
本发明实施例提供的一种语音识别能力测试方法,包括:
接收测试命令,所述测试命令中包括测试词语和测试模式;
获取与所述测试词语和所述测试模式对应的测试音频文件;
对所述测试音频文件进行语音识别;
将所述识别结果与所述测试词语进行相似度比较,以输出测试结果。
本发明实施例提供的一种语音识别能力测试装置,包括:
接收模块,用于接收测试命令,所述测试命令中包括测试词语和测试模式;
获取模块,用于获取与所述测试词语和所述测试模式对应的测试音频文件;
识别模块,用于对所述测试音频文件进行语音识别;
比较模块,用于将所述识别结果与所述测试词语进行相似度比较,以输出测试结果。
本发明实施例提供的一种语音识别能力测试方法和装置,根据测试命令中的测试模式选择测试命令中测试词语对应的测试音频文件,以进行语音识别能力测试。其中的测试模式可以有多种选择,多种模式尽可能地模拟了使用过程中用户的实际发音,即不同用户的不同发音习惯,打破了现有人工发音进行测试的局限性,提高了测试音频与用户实际的发音匹配度,进而提高了语音识别能力测试的测试结果的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别能力测试方法的可选实施例的步骤流程图;
图2为本发明实施例提供的语音识别能力测试方法的另一可选实施例的步骤流程图;
图3为本发明实施例提供的语音识别能力测试装置的可选实施例的结构图;
图4为本发明实施例提供的语音识别能力测试装置的另一可选实施例的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
进一步值得说明的是,本发明各实施例中各步骤之间的顺序是可以调整的,不是必须按照以下举例的顺序执行。
首先介绍本发明实施例提供的语音识别能力测试方法,该方法应用于语音识别设备,具体的,语音识别设备可以为智能手机、智能机器人等。进一步地,上述方法还可以应用于语音识别能力测试装置,该装置具体可以为语音识别软件,还可以为语音识别功能插件,本发明实施例不做具体限定。
如图1所示,本发明实施提供的一种语音识别能力测试方法,包括如下步骤:
S101:接收测试命令,测试命令中包括测试词语和测试模式。
当需要对语音识别系统的语音识别能力进行测试时,测试人员通过交互设备输入测试命令。
测试命令具体可以包括测试词语和测试模式,以下分别对测试词语和测试模式做详细介绍。
测试词语可以为通过外设输入的文本。举例来说,测试词语可以为“打开视频播放器”,那么当接收到“打开视频播放器”时,则意味着需要播放“打开视频播放器”对应的音频,以对机器的语音识别能力进行测试。输入测试词语的外设可以为键盘、触摸屏等。
测试模式可以由用户通过外设输入,输入方式可以为通过鼠标点击、或者通过触摸屏点击。可选地,测试模式包括发音地域性测试和词语改变性测试等不同的测试模式。实际测试中,可以选择任意一种模式进行测试,也可以同时选中几种模式进行测试。
本发明实施例中,之所以对语音识别系统进行不同测试模式的测试,是为了测试语音识别系统的抗干扰能力。比如,发音地域性测试模式,用于测试语音识别系统对不同发音特征的识别能力;词语改变性测试模式,用于测试语音识别系统对不同表达习惯的识别能力。
S102:获取与测试词语和测试模式对应的测试音频文件。
可选的,可以先获取与测试词语对应的所有音频文件,再从获取的音频文件中选取与测试模式相对应的测试音频文件;当然,还可以先获取与测试模式对应的所有音频文件,再从获取的音频文件中选取与测试词语对应的测试音频文件。
所获取的测试音频文件可以从本地预设的音频数据库中获取。
其中,音频数据库是由多个地区具有不同口音的工作人员预先录制的,工作人员包括不同年龄、不同性别的发音人员。
需要说明的是,本实施例可能存在多个测试词语、且每一测试词语对应多个测试模式的情况,此时可以逐个获取各测试词语在每个测试模式下的音频,也可以针对每一测试词语随机选取部分测试模式进而获取所选取模式下的各测试词语的音频等,这都是合理的。
S103:对测试音频文件进行语音识别。
获取测试音频文件后,需要播放测试音频,以使得语音识别系统对测试音频进行识别。在播放音频时,可以以不同的速度进行播放,例如快速、中速、慢速。
对于每一个被播放的测试音频文件,可选地将其播放多次,假设播放次数为N。当语音识别设备对所播放的测试音频文件进行识别后,对于每一个所播放的测试音频文件,可以获得N个识别结果。
需要说明的是,识别结果体现为文字,具体体现为所播放音频内容所对应的文字。例如,当播放的音频为“开启闹钟”的音频时,在语音识别设备识别正确的情况下,识别结果为“开启闹钟”。
S104:将识别结果与测试词语进行相似度比较,以输出测试结果。
可选地,针对每一个所播放的测试音频文件,将其N个识别结果分别与测试音频文件所对应的测试词语进行对比,计算各识别结果与测试词语的相似度。相似度可以体现为百分数、分数、小数等,例如,相似度可以为60%、0.6、6/10、100%等。当相似度数值为1时,将识别结果标记为正确结果。计算正确结果n与播放次数之间N的比例,作为测试结果输出。
由此可见,本发明实施例提供的一种语音识别能力测试方法,打破了现有人工发音进行测试的局限性,从而在最大程度上模拟了使用过程中用户的实际发音,即不同用户的不同发音习惯,提高了测试音频与用户实际的发音匹配度,进而提高了语音识别能力测试的测试结果的准确率。
如图2所示,在一种可选实施例中,获得测试音频文件的方式可以包括如下步骤:
S201:将测试词语拆分为多个文字。
例如,当获取到的测试词语为“预报天气”时,将“预报天气”拆分为“预”“报”“天”“气”四个文字。
具体拆分方法,可以为现有技术,本实施例不做赘述。
S202:从音频数据库中获取多个文字在测试模式下分别对应的音频文件。
本实施例的音频数据库中,音频以测试语言的最小组成单元为单位进行存储。例如,当测试语言为汉语,则音频数据库中的音频以汉字为单位存储。
具体地,本实施例的音频数据库中各音频文件唯一对应一个录音标识,以便音频文件的获取。录音标识中可以包含音频文件的序列码、声母标识、音频录制过程中录音人员标识、口音方言标识等。当然,上述录音标识还可以包含音频录制时间、地点、录音设备、发音者距设备的距离等信息。
可选地,若测试模式为发音地域性测试,则根据发音地域性测试所指示的地域信息,从音频数据库中获取与多个文字分别对应的音频文件。假设当前测试模式的地域信息为北京,那么,分别获取“预”“报”“天”“气”四个文字对应的北京口音的音频文件。
进一步地,若测试模式为词语改变性测试,则根据词语改变性测试所指示的改变类型,对多个文字进行处理;并从音频数据库中获取与处理后的多个文字分别对应的音频文件。需要说明的是,本实施例的词语改变性测试中的改变类型可以包括测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试中的至少一种。
以下分别介绍词语改变性测试的改变类型。
测试词语换序测试中,将测试词语的顺序改变。可选的,通过以下步骤完成:将所述测试词语拆分为多个文字;对所述多个文字进行排列组合处理,以获得多组排列结果;获取与所述多组排列结果分别对应的测试音频文件。例如,测试词语为“开启地图应用”,在测试词语换序测试中,将“开启地图应用”中各文字进行排列组合,获得对应的多组排列结果。多组排列结果中的一组排列结果可以为“开启应用地图”,还可以为“应用地图开启”等。接着获取各组排列结果对应的测试音频文件。
在测试词语少词测试中,删除测试词语中一定数量的文字。可选的,通过以下步骤完成:将所述测试词语拆分为多个文字;删除所述多个文字中的至少一个文字;从音频数据库中获取与剩余文字分别对应的音频文件;将所述剩余文字分别对应的音频文件合成为所述测试音频文件。例如,删除测试词语“开启地图应用”中“应用”二字,将测试词语变为“开启地图”,接着获取“开启地图”中各文字对应的音频文件并合成。
测试词语多词测试中,将某文字插入到测试词语中任意两个文字之间。可选的,通过以下步骤完成:将所述测试词语拆分为多个文字;从音频数据库中选出至少一个文字增加到所述多个文字中;从音频数据库中获取与增加后的多个文字分别对应的音频文件;将所述增加后的多个文字分别对应的音频文件合成为所述测试音频文件。例如,将文字“那”加入到测试词语“开启地图应用”中,组成新的测试词语“开启那地图应用”,并获取相应音频文件进行合成。
测试词语错词测试中,以任一文字替换测试词语中的某一文字。可选的,通过以下步骤完成:将所述测试词语拆分为多个文字;从音频数据库中选出至少一个文字以替换所述多个文字中的至少一个文字;从音频数据库中获取与替换后的多个文字分别对应的音频文件;将所述替换后的多个文字分别对应的音频文件合成为所述测试音频文件。例如,将“开启地图应用”中的“启”替换为“始”,获得测试词语“开始地图应用”,并获取相应测试音频文件。
测试词语发音相似性测试中,选取与测试词语中某一个文字具有相似发音的文字替换测试词语中的该文字。可选地,将所述测试词语拆分为多个文字;对所述多个文字中的至少一个文字进行拼音替换;从音频数据库中获取与替换后的多个文字分别对应的音频文件;将所述替换后的多个文字分别对应的音频文件合成为所述测试音频文件。具体的,拼音替换的步骤可以包括:获取测试词语中各个文字的声母和韵母;以与测试词语中某文字的声母/韵母相异的文字替换测试词语中的该文字。例如,测试词语为“打电话给劳拉”,获取其中的“劳”字的声母为“l”,以声母“b”替换“l”,则选择发音为“bao”的文字替换“劳”。
S203:将多个文字在测试模式下分别对应的音频文件合成为测试音频文件。
将所获取的多个音频文件合成,获得测试音频文件。
本实施例中的方法,将测试词语拆分为多个文字,并从以单个文字为存储单位的音频数据库中选取相应音频文件合成测试音频文件。由于本实施例的选取单位为文字,因此本实施例的方法可以提高音频测试过程的灵活性。
如图3所示,相应于上述方法实施例,本发明实施例还提供了一种语音识别能力测试装置,包括:接收模块310、获取模块320、识别模块330、比较模块340。
接收模块310,用于接收测试命令,所述测试命令中包括测试词语和测试模式。
获取模块320,用于获取与所述测试词语和所述测试模式对应的测试音频文件。
识别模块330,用于对所述测试音频文件进行语音识别。
比较模块340,将所述识别结果与所述测试词语进行相似度比较,以输出测试结果。
由此可见,本发明实施例提供的一种语音识别能力测试装置,打破了现有人工发音进行测试的局限性,从而在最大程度上模拟了使用过程中用户的实际发音,提高了测试音频与用户实际发的音匹配度,进而提高了语音识别能力测试的测试结果的准确率。
在一中可选实施方式中,在图3的基础上,如图4所示,所述获取模块320,包括:拆分子模块321、第一获取子模块322、合成子模块323。
拆分子模块321,用于将所述测试词语拆分为多个文字。
第一获取子模块322,用于从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件。
合成子模块323,用于将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件。
在一中可选实施方式中,所述测试模式包括发音地域性测试,所述第一获取子模块322,具体用于:
根据所述发音地域性测试所指示的地域信息,从音频数据库中获取与所述多个文字分别对应的音频文件。
在一中可选实施方式中,所述测试模式包括词语改变性测试,所述第一获取子模块322,包括:处理子模块3221、第二获取子模块3222。
处理子模块3221,用于根据所述词语改变性测试所指示的改变类型,对所述多个文字进行处理。
第二获取子模块3222,用于从音频数据库中获取与处理后的多个文字分别对应的音频文件。
在一中可选实施方式中,所述词语改变性测试包括如下测试中的至少一种:
测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试。
需要说明的是,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得较为简单,相关之处参见方法实施例的部分说明即可。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种语音识别能力测试方法,其特征在于,包括:
接收测试命令,所述测试命令中包括测试词语和测试模式;
获取与所述测试词语和所述测试模式对应的测试音频文件;
对所述测试音频文件进行语音识别;
将所述识别结果与所述测试词语进行相似度比较,以输出测试结果,包括:
针对每一个所播放的测试音频文件,将其N个识别结果分别与测试音频文件所对应的测试词语进行对比,计算各识别结果与测试词语的相似度,当相似度数值为1时,将识别结果标记为正确结果n,计算正确结果n与播放次数之间N的比例,作为测试结果输出;
所述获取与所述测试词语和所述测试模式对应的测试音频文件,包括:
将所述测试词语拆分为多个文字;从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件;将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件;
其中,所述测试模式包括发音地域性测试、词语改变性测试;所述词语改变性测试包括测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试中的至少一种。
2.根据权利要求1所述的方法,其特征在于,所述测试模式包括发音地域性测试,所述从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件,包括:
根据所述发音地域性测试所指示的地域信息,从音频数据库中获取与所述多个文字分别对应的音频文件。
3.根据权利要求1所述的方法,其特征在于,所述测试模式包括词语改变性测试,所述从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件,包括:
根据所述词语改变性测试所指示的改变类型,对所述多个文字进行处理;
从音频数据库中获取与处理后的多个文字分别对应的音频文件。
4.一种语音识别能力测试装置,其特征在于,包括:
接收模块,用于接收测试命令,所述测试命令中包括测试词语和测试模式;
获取模块,用于获取与所述测试词语和所述测试模式对应的测试音频文件;
识别模块,用于对所述测试音频文件进行语音识别;
比较模块,用于将所述识别结果与所述测试词语进行相似度比较,以输出测试结果,针对每一个所播放的测试音频文件,将其N个识别结果分别与测试音频文件所对应的测试词语进行对比,计算各识别结果与测试词语的相似度,当相似度数值为1时,将识别结果标记为正确结果n,计算正确结果n与播放次数之间N的比例,作为测试结果输出;
所述获取模块,包括:拆分子模块、第一获取子模块及合成子模块,其中,所述拆分模块,用于将所述测试词语拆分为多个文字;所述第一获取子模块,用于从音频数据库中获取所述多个文字在所述测试模式下分别对应的音频文件;所述合成子模块,用于将所述多个文字在所述测试模式下分别对应的音频文件合成为所述测试音频文件;
其中,所述测试模式包括发音地域性测试、词语改变性测试;所述词语改变性测试包括测试词语换序测试、测试词语少词测试、测试词语多词测试、测试词语错词测试、测试词语发音相似性测试中的至少一种。
5.根据权利要求4所述的装置,其特征在于,所述测试模式包括发音地域性测试,所述第一获取子模块,具体用于:
根据所述发音地域性测试所指示的地域信息,从音频数据库中获取与所述多个文字分别对应的音频文件。
6.根据权利要求4所述的装置,其特征在于,所述测试模式包括词语改变性测试,所述第一获取子模块,包括:
处理子模块,用于根据所述词语改变性测试所指示的改变类型,对所述多个文字进行处理;
第二获取子模块,用于从音频数据库中获取与处理后的多个文字分别对应的音频文件。
CN201710488838.3A 2017-06-23 2017-06-23 语音识别能力测试方法和装置 Active CN107086040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710488838.3A CN107086040B (zh) 2017-06-23 2017-06-23 语音识别能力测试方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710488838.3A CN107086040B (zh) 2017-06-23 2017-06-23 语音识别能力测试方法和装置

Publications (2)

Publication Number Publication Date
CN107086040A CN107086040A (zh) 2017-08-22
CN107086040B true CN107086040B (zh) 2021-03-02

Family

ID=59607083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710488838.3A Active CN107086040B (zh) 2017-06-23 2017-06-23 语音识别能力测试方法和装置

Country Status (1)

Country Link
CN (1) CN107086040B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109633A (zh) * 2017-12-20 2018-06-01 北京声智科技有限公司 无人值守的云端语音库采集与智能产品测试的系统与方法
CN109979444A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 一种语音指令自动化测试方法、终端以及装置
CN108281140A (zh) * 2017-12-29 2018-07-13 潍坊歌尔电子有限公司 智能设备噪声消除性能的测试方法和系统
CN109192193B (zh) * 2018-08-14 2020-05-05 四川虹美智能科技有限公司 一种语音识别产品测试方法和测试装置
CN111145737B (zh) * 2018-11-06 2022-07-01 中移(杭州)信息技术有限公司 语音测试方法、装置和电子设备
CN111354335A (zh) * 2018-12-24 2020-06-30 深圳市优必选科技有限公司 一种语音识别测试方法、装置、存储介质及终端设备
CN111696523B (zh) * 2019-03-12 2024-03-01 大众问问(北京)信息科技有限公司 一种语音识别引擎的准确度测试方法、装置、电子设备
CN110164474B (zh) * 2019-05-08 2021-09-14 北京百度网讯科技有限公司 语音唤醒自动化测试方法及系统
CN110556098B (zh) * 2019-07-23 2023-04-18 平安科技(深圳)有限公司 语音识别结果测试方法、装置、计算机设备和介质
CN110782874B (zh) * 2019-11-05 2022-08-16 四川虹美智能科技有限公司 一种语音库管理方法、语音识别测试方法和装置
CN114846543A (zh) * 2020-01-10 2022-08-02 深圳市欢太科技有限公司 语音识别结果检测方法及装置、存储介质
CN111464701B (zh) * 2020-03-12 2021-05-07 云知声智能科技股份有限公司 一种对机器人外呼电话系统进行模拟多轮测试方法及装置
CN112017635A (zh) * 2020-08-27 2020-12-01 北京百度网讯科技有限公司 用于检测语音识别结果的方法、装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6725194B1 (en) * 1999-07-08 2004-04-20 Koninklijke Philips Electronics N.V. Speech recognition device with text comparing means
CN1760972A (zh) * 2004-10-15 2006-04-19 微软公司 使用合成输入测试和调整语音识别系统
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
US20090132249A1 (en) * 2007-11-21 2009-05-21 Industrial Technology Research Institute Modifying method for speech model and modifying module thereof
CN101452702A (zh) * 2007-12-05 2009-06-10 财团法人工业技术研究院 语音模型的调整方法及其调整模块
US20110029313A1 (en) * 2005-02-04 2011-02-03 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
JP2013171243A (ja) * 2012-02-22 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識精度推定装置、音声認識精度推定方法、プログラム
CN103745731A (zh) * 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
US8731921B2 (en) * 1999-12-10 2014-05-20 At&T Intellectual Property Ii, L.P. Frame erasure concealment technique for a bitstream-based feature extractor
CN104049871A (zh) * 2013-03-16 2014-09-17 上海能感物联网有限公司 汉语语音调用计算机程序运行的方法
CN104347081A (zh) * 2013-08-07 2015-02-11 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN104810017A (zh) * 2015-04-08 2015-07-29 广东外语外贸大学 基于语义分析的口语评测方法和系统
CN105068987A (zh) * 2010-01-05 2015-11-18 谷歌公司 语音输入的字词级纠正

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
GB2376554B (en) * 2001-06-12 2005-01-05 Hewlett Packard Co Artificial language generation and evaluation
CN102723080B (zh) * 2012-06-25 2014-06-11 惠州市德赛西威汽车电子有限公司 一种语音识别测试系统及方法
CN103578463B (zh) * 2012-07-27 2017-12-01 腾讯科技(深圳)有限公司 自动化测试方法及测试装置
CN104882139B (zh) * 2015-05-28 2017-03-15 百度在线网络技术(北京)有限公司 语音合成的方法和装置
CN105096932A (zh) * 2015-07-14 2015-11-25 百度在线网络技术(北京)有限公司 有声读物的语音合成方法和装置
CN105260160A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种用于输出语音信息的方法和装置
CN105336329B (zh) * 2015-09-25 2021-07-16 联想(北京)有限公司 一种语音处理方法及系统
CN106652996B (zh) * 2016-12-23 2020-02-07 北京安云世纪科技有限公司 一种提示音生成方法和装置、移动终端
CN106548772A (zh) * 2017-01-16 2017-03-29 上海智臻智能网络科技股份有限公司 语音识别测试系统及方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1261181A (zh) * 1999-01-19 2000-07-26 国际商业机器公司 自动进行音频内容分析的系统和方法
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6725194B1 (en) * 1999-07-08 2004-04-20 Koninklijke Philips Electronics N.V. Speech recognition device with text comparing means
US8731921B2 (en) * 1999-12-10 2014-05-20 At&T Intellectual Property Ii, L.P. Frame erasure concealment technique for a bitstream-based feature extractor
CN1760972A (zh) * 2004-10-15 2006-04-19 微软公司 使用合成输入测试和调整语音识别系统
US20110029313A1 (en) * 2005-02-04 2011-02-03 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
CN101231848A (zh) * 2007-11-06 2008-07-30 安徽科大讯飞信息科技股份有限公司 一种基于支持向量机进行发音错误检测的方法
US20090132249A1 (en) * 2007-11-21 2009-05-21 Industrial Technology Research Institute Modifying method for speech model and modifying module thereof
CN101452702A (zh) * 2007-12-05 2009-06-10 财团法人工业技术研究院 语音模型的调整方法及其调整模块
CN105068987A (zh) * 2010-01-05 2015-11-18 谷歌公司 语音输入的字词级纠正
JP2013171243A (ja) * 2012-02-22 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識精度推定装置、音声認識精度推定方法、プログラム
CN104049871A (zh) * 2013-03-16 2014-09-17 上海能感物联网有限公司 汉语语音调用计算机程序运行的方法
CN104347081A (zh) * 2013-08-07 2015-02-11 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN103745731A (zh) * 2013-12-31 2014-04-23 安徽科大讯飞信息科技股份有限公司 一种语音识别效果自动化测试系统及测试方法
CN104810017A (zh) * 2015-04-08 2015-07-29 广东外语外贸大学 基于语义分析的口语评测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Implementation of an extended recognition network for mispronunciation detection and diagnosis in computer-assisted pronunciation training;Harrison A M, Lo W K, Qian X, et al.;《International Workshop on Speech and Language Technology in Education》;20090905;全文 *
声音检测类语音识别系统的测试方案分析;柳燕飞,蒋庆磊,牛林林;《南方农机》;20191028;第50卷(第20期);全文 *
智能电视中文语音识别测试研究;董桂官,刘云,徐楠;《电声技术》;20141117;第38卷(第11期);全文 *

Also Published As

Publication number Publication date
CN107086040A (zh) 2017-08-22

Similar Documents

Publication Publication Date Title
CN107086040B (zh) 语音识别能力测试方法和装置
CN103714048B (zh) 用于校正文本的方法和系统
Barnard et al. The NCHLT speech corpus of the South African languages
CN106297800B (zh) 一种自适应的语音识别的方法和设备
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN109741734B (zh) 一种语音评测方法、装置和可读介质
CN109036471B (zh) 语音端点检测方法及设备
JP2011242775A (ja) 音声認識エラー予測値としての文法適合度評価のための方法およびシステム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Davel et al. Pronunciation dictionary development in resource-scarce environments
CN109243461A (zh) 语音识别方法、装置、设备及存储介质
US7406408B1 (en) Method of recognizing phones in speech of any language
CN112259083B (zh) 音频处理方法及装置
CN107112007B (zh) 语音识别装置及语音识别方法
CN112257407B (zh) 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN109166569B (zh) 音素误标注的检测方法和装置
JP2015087544A (ja) 音声認識装置及び音声認識プログラム
GB2546536B (en) Computer-implemented phoneme-grapheme matching
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
KR101681944B1 (ko) 임의의 입력 음성에 대한 한국어 발음 표시 장치 및 방법
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP2016045467A (ja) 発話評価装置、発話評価方法、及びプログラム
JP6009396B2 (ja) 発音付与方法とその装置とプログラム
CN113053415A (zh) 一种连读的检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant