CN111369976A - 测试语音识别设备的方法及测试装置 - Google Patents
测试语音识别设备的方法及测试装置 Download PDFInfo
- Publication number
- CN111369976A CN111369976A CN201811588923.8A CN201811588923A CN111369976A CN 111369976 A CN111369976 A CN 111369976A CN 201811588923 A CN201811588923 A CN 201811588923A CN 111369976 A CN111369976 A CN 111369976A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice recognition
- corpus
- original
- testing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 123
- 230000008569 process Effects 0.000 claims abstract description 73
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010998 test method Methods 0.000 claims description 4
- 238000011056 performance test Methods 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种测试语音识别设备的方法及测试装置,该方法中,在自由声场条件下录制原声语料,并标注相关的信息,再设置各种与实际场景相符的拾音场景,自动重放原声语料或导入过程语音文件,记录语音识别设备的识别结果,再对全部结果进行分析,以实现对语音识别设备的性能测试。同时,保存语音识别设备的过程语音文件,在需要时将过程语音文件导入语音识别设备,以实现对语音识别设备内部模块的性能测试。本申请实施例提供的测试方法能够评估各个语音识别相关模块对语音识别准确率的影响,并且能够最大程度地模拟真实的语音识别场景,引入了拾音环境的噪声和混响对语音识别准确率的影响,使得测试结果更贴近实际场景。
Description
技术领域
本申请涉及语音识别领域,特别涉及一种测试语音识别设备的方法及测试装置。
背景技术
随着人工智能的兴起,语音识别技术得到了不断发展,语音识别技术被广泛地用在各行各业的设备中,如家庭智能音箱、语音控制车载终端、个人语音助手以及智能语音客服等。
一般的语音识别设备中与语音识别相关的模块或组件包括设备拾音模块(如设备的内置麦克风)、音频处理模块(去混响、自动语音识别、回音消除、增益补偿或噪声抑制等)和语音识别模块。对语音识别设备而言,各种使用场景下,对自然语音的识别准确率是非常关键的指标,直接影响设备的有效性和用户的使用体验。因此,在语音识别设备的研发过程中,需要对影响语音识别的各个关键模块进行测试和调优,以此来最终验证和提升设备端到端的语音识别正确率。
当前,主要通过人工进行语音录入来测试语音识别设备的性能。但如果单纯依靠真人实际说话的方式来测试语音识别设备的性能,将耗费大量人力和时间,甚至无法实现大规模的语音识别性能测试。
发明内容
本申请实施例提供了一种测试语音识别设备的方法及测试装置,利用高保真的原声语料并设置各种与实际场景相符的拾音场景,准确测试语音识别设备的性能,使得测试结果更符合真实的应用场景。
第一方面,本申请实施例提供一种测试语音识别设备的方法,该方法中,指示待测试语音设备在测试时录制过程语音文件,在播放原声语料时待测试语音识别设备录制过程语音文件,并发送给测试装置,测试装置将过程语音文件保存,再将过程语音文件导入待测试语音设备,接收并分析待测试语音识别设备对过程语音文件的识别结果的正确率,得到待测试语音识别设备的测试报告。本申请实施例提供的方法通过录制语音识别设备的过程语音文件,再测试语音识别设备对过程语音文件的测试结果,仅需要测试语音识别设备部分模块的性能,能够更有针对性地测试语音识别设备不同版本或不同算法的性能。
可选的,在播放原声语料之前,还可以将文本库中的文本转换为语音文件,得到原声语料,或者采用录音系统录制得到原声语料。采用文字转换语音软件转换得到语音文件是一种比较方便的获取原声语料的方法,而采用录音系统录制得到的原声语料能够获得高保真的原声语料。
可选的,可以将识别结果与对应的原声语料的原始文本作对比,得到正确率。虽然语音识别设备识别的是导入的过程语音文件,但过程语音文件是通过原声语料得到的,因此,在统计识别结果的正确率时,需要将识别结果与原声语料的原始文本作对比,这样才能更准确地测试出语音识别设备的性能。
可选的,原声语料可以包括属性信息,如录制人性别、口音、语言等,相应地,测试报告中可以包括按照原声语料的属性信息分别统计的正确率。这样,可以得到语音识别设备对各种语音的识别正确率,能够更有针对性地对语音识别设备作优化。
第二方面,本申请实施例提供了一种测试装置,该装置具有实现上述第一方面所述的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,本申请实施例提供了一种测试装置,包括:处理器、存储器、总线和通信接口;该存储器用于存储计算机执行指令,该处理器与该存储器通过该总线连接,当该装置运行时,该处理器执行该存储器的该计算机执行指令,以使该装置执行如上述第一方面中任意所述的测试语音识别设备的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读介质中存储有指令,当其在计算机上运行时,使得计算机可以执行上述第一方面中任意一项的测试语音识别设备的方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机可以执行上述第一方面任意一项的测试语音识别设备的方法。
其中,第二方面至第五方面中任一种设计方式所带来的技术效果可参见第一方面中不同设计方式所带来的技术效果,此处不再赘述。
本申请实施例提供的测试语音识别设备的方法通过获取过程语音文件,并将过程语音文件导入语音识别设备中,能够实现准确测试语音识别设备的部分模块采用不同版本或不同算法时的性能,进而更有针对性地优化相应模块的算法。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
图1为本申请实施例提供的测试语音识别设备的系统示意图。
图2为本申请实施例提供的计算机设备的结构示意图。
图3为本申请实施例提供的测试语音识别方法的流程示意图。
图4为本申请实施例提供的用于录制原声语料的系统示意图。
图5为本申请实施例提供的测试语音识别设备的另一种流程示意图。
图6为本申请实施例提供的又一种测试语音识别方法的流程示意图。
图7为本申请实施例提供的又一种测试语音识别方法的另一种流程示意图。
图8为本申请实施例提供的测试装置的结构示意图。
具体实施方式
首先,对本申请中的部分用语进行解释说明,以便于本领域技术人员理解。
1、语音识别,是指将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。本申请实施例中的语音识别是指利用机器自动识别和理解人类说的语音信号,将语音信号转变为相应的文本或操作命令,以实现某种操作。
2、原声语料,是指在测试语音识别设备时用于播放的语音文件,可以通过多种方式获得原声语料,如利用录音设备录制得到用于播放的原声语料语音文件,或者利用文字转换语音软件将文字转换得到用于播放的原声语料等。
3、过程语音文件,是指在测试语音识别设备时,播放原声语料后,经过语音识别设备内部各模块处理后的中间语音文件,根据处理的进程不同可以得到不同的中间语音文件。通常,中间语音文件可以分为经过拾音模块得到的中间语音文件以及经过语音处理模块得到的中间语音文件,这些中间语音文件统称为过程语音文件。
4、多个,指两个或两个以上。
为使本申请的目的、技术方案和技术效果更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
如图1所示,为本申请实施例提供的测试语音识别设备的测试系统的架构示意图100。测试系统100中包括测试装置110,语音识别设备120,音箱130和交换机140。
其中,测试装置110保存有录制的原声语料,并作为控制平台控制整个测试过程。测试装置110可以逐句播放原声语料,并从语音识别设备120处获取语音识别结果,再对语音识别结果进行测试结果记录和识别正确率统计等操作,以测试语音识别设备120的性能。可选的,测试装置110还可以控制语音识别设备录制不同语音处理环节的过程语音,得到的过程语音文件即为过程语音文件。
音箱130与测试装置110连接,用于进行原声语料的播放,根据不同的测试场景,音箱130可以放置在需要的地方,与语音识别设备120保持不同的距离或方位,并可以调整播放音量的大小,以便全面模拟说话人在语音识别设备前面不同距离、角度以及不同音量下语音识别设备的识别结果。
语音识别设备120中内置有麦克风,能够采集语音信号。语音识别设备120用于自动识别和理解音箱播放的语音信号,并将语音信号转变为相应的文本或其他操作命令。可选的,可以用多种载体来表达语音识别设备的识别结果,例如文本、字符串或其他代码,本申请实施例并不限定语音识别设备的识别结果呈现形式。
通常,语音识别设备120中与语音识别相关的模块或组件包括:设备拾音模块,用于采集语音信号;音频处理模块,用于对采集的语音信号进行回声消除、增益补偿或噪声抑制等操作;语音识别模块,用于对识别语音信号。可选的,语音识别设备120可以分别记录经过各模块处理后的音频数据,将得到的过程语音文件作为过程语音文件供后续测试流程。
可选的,测试系统100中还可以包括交换机140,用于连接测试装置110和语音识别设备120,控制测试过程的信息交互以及传输语音识别设备记录的过程语音文件和语音识别结果。需要说明的是,测试系统100中也可以不包括交换机140,此时测试装置110可以与语音识别设备120直接连接。测试装置110与语音识别设备120可以通过有线或无线方式通信,包括但不限于以太网,无线局域网(wireless local area networks,WLAN)或蓝牙等通信方式。
可选的,根据应用场景的不同,语音识别设备可以表现为不同的产品形态,如语音识别设备可以为智能会议终端、开放式拾音设备、智能手机、家庭智能音箱以及语音控制车载终端等,图1中仅以手机为例。为方便描述,本申请中,上面提到的设备统称为语音识别设备。
可选的,图1中的音箱130和测试装置110可以由一个实体设备实现,即音箱130可以作为测试装置110的一部分,也可以由相互连接的两个独立设备实现,本申请实施例对此不作具体限定。
例如,如图2所示,图1中的测试装置110可以通过图2中的计算机设备来实现。
图2所示为本申请实施例提供的计算机设备200的结构示意图。计算机设备200包括至少一个处理器201,通信总线202,存储器203以及至少一个通信接口204。
处理器201可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。
通信接口204,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等,可以根据实际应用场景选定通信方式,本申请对此不作限定。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器203用于存储执行本申请方案的应用程序代码,并由处理器201来控制执行。处理器201用于执行存储器203中存储的应用程序代码,从而实现本申请下述实施例提供的测试语音识别设备的方法。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图2中的CPU0和CPU1。
在具体实现中,作为一种实施例,计算机设备200可以包括多个处理器,例如图2中的处理器201和处理器207。这些处理器中的每一个可以是一个单核(single-core)处理器,也可以是一个多核(multi-core)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,计算机设备200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接受用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。可选的,图1中的音箱可以作为计算机设备200的输出设备205。
上述的计算机设备200可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,计算机设备200可以是台式机、便携式电脑、网络服务器、无线终端设备、嵌入式设备或有图2中类似结构的设备等。本申请实施例不限定计算机设备200的类型。
以下将结合附图,对本申请实施例提供的测试语音识别设备的方法、测试装置和测试系统做进一步说明。
如图3所示,为本申请实施例提供的测试语音识别设备的方法,利用高保真的语音数据进行测试,并结合真实的外界环境和不同的原始话音播放条件,实现对语音识别设备真实使用场景的高度模拟,以更准确测试语音识别设备的性能。此外,本申请实施例提供的方法还可以保存语音识别设备各个模块得到的过程语音文件,并将这些过程语音文件分别用于测试后续的语音识别模块的不同版本或不同算法进行重复测试,实现更准确地评估各个语音识别相关模块的不同版本或不同算法对语音识别准确率的影响。本申请实施例提供的测试语音识别设备的方法可以应用于图1所示的系统,并由图2所示的计算机设备实现,下面结合图1和图2来阐述本申请实施例提供的方法的具体步骤。本申请实施例提供的测试语音识别设备的方法包括以下步骤:
步骤S310、录制原声语料。
本申请实施例中采用的是高保真的原声语料来测试语音识别设备120的性能,利用高质量的语音源可以更精确地控制环境的影响,进而测试出语音识别设备120真实的性能。
为了保证录制高保真的原声语料,可以选择在消声室中录制,这样可以减少混响、回声以及噪音等干扰,同时使用高质量的录音设备,如测量麦克风,以保证高保真地录制出原始的真人说话声音。
可选的,如图4所示,本申请实施例提供了一种录音系统400。图4所示的录音系统400包括计算机410、录音设备420和交换机430,其中,录音设备420还包括麦克风440。录音设备420用于采集语音信号,录音设备420将原始的语音文件发送给计算机410。需要说明的是,录音设备430可以通过有线或无线方式与计算机410连接,如利用交换机、无线局域网或蓝牙等方式连接,本申请实施例对此不作任何限制。
录制得到的原声语料,除了要标记语料的原始文本之外,还可以根据测试需要,标记原声语料的属性信息,如说话人、性别、年龄、语言或口音等,以便在评估语音识别设备120的识别正确率时,可以根据不同类别进行。如表1所示,为原声语料的一种可能的标记格式。
语音的原始文本 | 录制人 | 性别 | 年龄 | 语言 | 口音 | … |
请打开设备 | 张三 | 男 | 31 | 普通话 | 湖南 | … |
表1原声语料的一种可能的标记格式
步骤S320、准备测试环境,设置工作模式。
为了更为准确地测试语音识别设备120在各种环境下的性能,在测试语音识别设备120时可以尽量模拟设备实际的使用场景:可以根据语音识别设备适用的场景大小选择相应的测试房间;可以构建常见的真实使用场景下的背景噪声,如空调声、风扇声或其他人的声音等;可以根据真实使用的可能场景,确定音箱130的摆放具体位置;可以模拟说话人不同的音量大小,确定音箱130的播放音量。
本申请实施例提供的测试语音识别设备120的方法包括两种测试模式:语音播放的测试方式和导入语音文件的方式。除了根据实际应用场景搭建测试环境之外,还需要设置被测试语音识别设备120的测试模式,图3中的实施例中测试装置110将测试模式设置为语音播放的方式,并准备好用于测试的原声语料文件。
步骤S330、自动播放原声语料。
开始测试时,测试装置110控制自动依次播放原声语料,原声语料的原始文本可以为单个词语,也可以为短句,还可以为长句甚至段落。
作为另一种实现方式,测试装置110也可以选择不播放录制的原声语料,而利用可以将文本转换为语音的语音合成软件,将文本数据库中的各个文本数据转换成语音信号,在将转换得到的语音信号作为原声语料进行播放。
可选的,在语音播放的测试方式中,测试装置110可以控制语音识别设备120在不同的音频处理环节之后录制过程语音,得到设备测试的过程语音文件。语音识别设备120在获取了过程语音文件之后,可以将过程语音文件发送给测试装置110,测试装置110将收到的过程语音文件保存下来以供后续测试语音识别设备各个模块的性能。
如图5所示,通常,可以在语音识别设备120的拾音模块后录制过程语音。原声语料在不同距离、不同角度、不同音量以及不同的外界背景噪声等条件下传输到语音识别设备时,设备内置的麦克风将会采集形成不同的过程语音文件,以供后续的处理和识别。可选的,也可以在进行音频处理后录制过程语音,获得经过语音识别设备的去混响、回声消除、增益补偿或噪声抑制处理之后的过程语音文件,以供后续的语音识别。
步骤S340、获取语音识别结果。
待测试的语音识别设备120对经过拾音模块采集和音频处理模块处理的语音进行自动识别,获得语音识别结果,并将语音识别结果发送给测试装置110,以供测试装置110根据该语音识别结果评估语音识别设备120的性能。
步骤S350、分析语音识别结果,统计识别正确率。
测试装置110收到语音识别设备120发送的当前语音识别结果,并将该语音识别结果与播放的原声语料中的原始文本作对比,统计语音识别设备120识别的正确率。该语音识别结果是语音识别设备120返回的对待识别的原声语料的识别结果,根据该语音识别结果统计的正确率即反映了待测试的语音识别设备120的性能,实现了对语音识别设备120的测试。
需要说明的是,在采用将文本转换为语音播放的方式中,在分析语音识别结果时,将语音识别结果与原始的文本作对比,统计语音识别设备120识别的正确率。
按照上述步骤,测试装置110控制自动播放大量测试的原声语料后,并自动统计语音识别设备120识别原声语料的正确率,即实现了语音识别设备120的测试。需要说明的是,在测试装置110中存储有大量原声语料,根据实际需要,测试装置110可以选择播放的原声语料的数量,可以播放部分原声语料,也可以播放全部的原声语料。
进一步的,在统计了语音识别设备120对各原声语料的识别正确率之后,测试装置110根据统计的识别正确率,生成待测试的语音识别设备120的语音识别测试报告。测试报告中可以包括语音识别设备120对所有播放的原声语料的总的正确率,对单个原声语料的识别正确率,以及对某种语言或某种口音的识别正确率。测试报告能够从各个维度全方位地反映语音识别设备120的性能,能够方便研发人员根据测试报告对语音识别设备作对应优化。
图3示出的是工作在语音播放模式的方法实施例,该实施例中,语音识别设备识别的是由测试装置播放的原声语料,原声语料经过了语音识别设备120内部全模块处理,测试的是语音识别设备120的整体性能。本申请实施例提供的测试方法还包括导入语音文件的方式,该方式中,通过将过程语音文件导入语音识别设备供部分模块处理,能够测试语音识别设备的特定模块采用不同版本或算法时的性能。图6示出了导入语音文件模式的测试方法,包括:
S610、将测试模式设置为导入语音文件模式,并将过程语音文件导入语音识别设备120。
如前所述,本申请实施例提供的测试方法包括两种工作模式,在自动测试之前,需要将被测试语音识别设备120设置为导入语音文件模式。工作在导入语音文件模式时,测试装置110将从语音识别设备120获取的过程语音文件自动导入语音识别设备120。过程语音文件为语音识别设备120工作在语音播放的模式时,将经过不同的音频处理环节后得到的过程语音录制并保存下来的中间语音,在图3中已经示出过程语音文件的获取方法,此处不再赘述。
进一步地,根据导入的过程语音文件的不同,导入语音文件模式包括两种方式,即导入语音识别设备拾音模块拾音后的语音文件,以及导入进行了音频处理后的语音文件。
如图7所示,可选的,可以直接将过程语音文件导入到音频处理模块,过程语音文件经过去混响、降噪等处理,再传输给语音识别模块,此时,该过程语音文件需要经过音频处理以及语音识别,音频处理模块和语音识别模块的不同版本或算法都会对最终的语音识别结果造成影响。作为另一种实现方式,也可以将过程语音文件导入到语音识别模块直接进行语音识别,此时该过程语音文件仅需要经过语音识别,此种情况下评估的仅为语音识别模块的性能,语音识别模块采用不同的算法将会得到不同的语音识别结果。
S620、获取语音识别结果。
待测试的语音识别设备120对导入的语音文件进行进一步处理和自动识别,获得语音识别结果,并将语音识别结果发送给测试装置110,以供测试装置110根据该语音识别结果评估语音识别设备对应模块不同版本或算法的性能。
S630、分析语音识别结果,统计识别正确率。
测试装置110收到语音识别设备发送的当前语音识别结果,并将该语音识别结果与播放的过程语音文件中的原始文本作对比,统计出语音识别设备120识别的正确率。该语音识别结果是语音识别设备120根据导入的过程语音文件识别出的结果,根据该语音识别结果统计的正确率可以评估语音识别设备120各模块采用不同版本或算法的性能。
在导入语音文件模式下,测试装置110分析语音识别结果以及统计识别正确率的方法与工作在语音播放模式下类似,在此不再赘述。
本申请实施例提供的测试语音识别设备的方法,利用高质量的语音数据进行测试,并且在测试中引入实际应用场景可能出现的影响,能够更准确地测试出语音识别设备部署在实际场景时的性能。此外,本申请实施例提供的方法还利用语音识别设备保存的过程语音文件,对语音识别设备的各个模块的不同版本或算法进行重复测试,能够更为精确地评估语音识别设备各个模块的不同版本或算法的性能。
本申请实施例公开的方法实施例均可以以软件、硬件或者硬件和计算机软件的结合等方式实现。可以理解的是,为了实施上述方法,其包含了执行各个步骤相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的装置及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法实例对测试语音识别设备的测试装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
比如,在采用对应各个功能划分各个功能单元的情况下,图8示出了测试装置800的一种可能的结构示意图。如图8所示,该测试装置800包括控制单元810、播放单元820、接收单元830、测试分析单元840和发送单元850。其中,控制单元810用于指示待测试语音识别设备录制过程语音文件。播放单元820,用于播放测试用的原声语料,其中,原声语料包括属性信息,原声语料的属性信息可以包括录制人姓名、性别、年龄、口音或语言等信息。接收单元830,用于接收待测试语音识别设备录制的过程语音文件。发送单元850,用于将过程语音文件导入待测试语音识别设备。接收单元830,还用于接收待测试语音识别设备对过程语音文件的识别结果。测试分析单元840,用于分析语音识别结果的正确率,得到待测试语音识别设备的测试报告。
其中,测试装置800的控制单元810可以将工作模式设置为语音播放工作模式和语音文件导入工作模式。
可选的,在语音播放工作模式下,播放单元820也可以选择不播放录制的原声语料,而播放由文本转换得到的语音文件。播放单元830可以利用语音合成软件,将文本数据库中的各个文本数据转换成语音信号,再将转换得到的语音信号作为原声语料进行播放。
可选的,为了更为真实地测试语音识别设备在实际场景中的性能,播放单元还用于产生背景噪声,其中背景噪声可以包括背景语音、空调声或风扇声等可能影响语音识别设备识别正确率的声音。
进一步地,测试分析单元840在分析语音识别结果的正确率时,将语音识别结果与当前测试用的原声语料或过程语音文件的文本作对比,得到该语音识别结果的正确率。过程语音文件是由原声语料得到的,过程语音文件对应的文本即为该过程语音文件对应的原声语料的文本。
可选的,在完成对所有原声语料或过程语音文件的语音识别结果分析之后,测试分析单元840还用于生成语音识别设备的测试报告。该测试报告中可以包括语音识别设备对所有原声语料或过程语音文件的总的识别正确率,以及每条语音识别结果的正确率,还可以包括按照原声语料或过程语音文件的属性分别统计的正确率,以全方位反映语音识别设备对各种类型语音的识别正确率,进而方便开发者对语音识别设备作对应优化。
在本实施例中,该测试装置以对应各个功能单元的形式来呈现,或者,该装置以采用集成的方式划分各个功能单元的形式来呈现。这里的“单元”可以指ASIC电路,执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。在一个简单的实施例中,本领域的技术人员可以想到测试装置400可以采用图2所示的形式。比如,图8中的控制模块810、播放单元820、接收模块830、测试分析模块840和发送模块850可以由处理器201调用存储器203中存储的应用程序代码来执行,本申请实施例对此不作任何限制。
由于本申请实施例提供的测试装置800可用于执行上述测试语音识别设备的方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,用于存储为上述测试装置所用的计算机软件指令,其包含用于执行上述方法实施例所设计的程序代码。通过执行存储的程序代码,可以实现测试语音识别设备,实现方式简便,能够更有针对性测试语音识别装置各模块不同版本或算法的性能。
本申请实施例还提供了计算机程序产品。该计算机程序产品包括计算机软件指令,该计算机软件指令可通过处理器进行加载来实现上述方法实施例中的方法。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(系统)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式,这里将它们都统称为“模块”或“系统”。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本申请是参照本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种测试语音识别设备的方法,其特征在于,所述方法包括:
指示待测试语音识别设备录制过程语音文件;
播放原声语料;
接收所述待测试语音识别设备录制的过程语音文件;
将所述过程语音文件导入所述待测试语音识别设备;
接收所述待测试语音设备对所述过程语音文件的识别结果;
统计所述识别结果的正确率,得到所述待测试语音识别设备的测试报告。
2.如权利要求1所述的方法,其特征在于,在播放原声语料之前,所述方法还包括,将文本库中的文本转换为语音文件,得到所述原声语料;或者,
采用录音系统录制所述原声语料。
3.如权利要求1所述的方法,其特征在于,统计所述识别结果的正确率包括,将所述识别结果与对应的原声语料的原始文本作对比,得到所述正确率。
4.如权利要求1至3任一项所述的方法,其特征在于,所述原声语料包括属性信息,所述测试报告中包括按照所述原声语料的属性信息统计的正确率。
5.一种测试装置,其特征在于,所述装置用于测试语音识别设备,所述装置包括:
控制单元,用于指示待测试语音识别设备录制过程语音文件;
播放单元,用于播放原声语料;
接收单元,用于接收所述待测试语音识别设备录制的过程语音文件;
发送单元,用于将所述过程语音文件导入所述待测试语音识别设备;
所述接收单元,还用于接收所述待测试设备对所述过程语音文件的识别结果;
测试分析单元,用于统计所述识别结果的正确率,得到所述待测试语音识别设备的测试报告。
6.如权利要求5所述的装置,其特征在于,所述播放单元还用于,将文本库中的文本转换为语音文件,得到所述原声语料。
7.如权利要求5所述的装置,其特征在于,所述测试分析单元用于,将所述识别结果与对应的原声语料的原始文本作对比,得到所述正确率。
8.如权利要求5至7任一项所述的装置,其特征在于,所述原声语料包括属性信息,所述测试报告中包括按照所述原声语料的属性信息统计的正确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811588923.8A CN111369976A (zh) | 2018-12-25 | 2018-12-25 | 测试语音识别设备的方法及测试装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811588923.8A CN111369976A (zh) | 2018-12-25 | 2018-12-25 | 测试语音识别设备的方法及测试装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111369976A true CN111369976A (zh) | 2020-07-03 |
Family
ID=71209731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811588923.8A Pending CN111369976A (zh) | 2018-12-25 | 2018-12-25 | 测试语音识别设备的方法及测试装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369976A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933108A (zh) * | 2020-09-25 | 2020-11-13 | 蘑菇车联信息科技有限公司 | 一种智能网联终端智能语音交互系统自动化测试方法 |
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
CN113257247A (zh) * | 2021-06-16 | 2021-08-13 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113450767A (zh) * | 2021-06-24 | 2021-09-28 | 平安国际智慧城市科技股份有限公司 | 语音识别测试方法、装置、测试设备及存储介质 |
CN113470618A (zh) * | 2021-06-08 | 2021-10-01 | 阿波罗智联(北京)科技有限公司 | 唤醒测试的方法、装置、电子设备和可读存储介质 |
CN114023320A (zh) * | 2021-11-02 | 2022-02-08 | 四川虹美智能科技有限公司 | 自动无线语音测试方法、终端和系统 |
WO2022052945A1 (en) * | 2020-09-11 | 2022-03-17 | International Business Machines Corporation | Chaos testing for voice enabled devices |
CN115171657A (zh) * | 2022-05-26 | 2022-10-11 | 青岛海尔科技有限公司 | 语音设备的测试方法和装置、存储介质 |
EP4287178A1 (en) * | 2022-06-01 | 2023-12-06 | Vivoka | Improved performance evaluation of automatic speech recognition engines |
EP4290509A1 (en) * | 2022-06-07 | 2023-12-13 | Interprefy AG | Computer implemented method for evaluating one or more speech recognition systems |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试系统及方法 |
CN107403629A (zh) * | 2017-08-16 | 2017-11-28 | 歌尔股份有限公司 | 远场拾音性能评价方法和系统、电子设备 |
CN108538296A (zh) * | 2017-03-01 | 2018-09-14 | 广东神马搜索科技有限公司 | 语音识别测试方法及测试终端 |
CN108877770A (zh) * | 2018-05-31 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于测试智能语音设备的方法、装置和系统 |
-
2018
- 2018-12-25 CN CN201811588923.8A patent/CN111369976A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试系统及方法 |
CN108538296A (zh) * | 2017-03-01 | 2018-09-14 | 广东神马搜索科技有限公司 | 语音识别测试方法及测试终端 |
CN107403629A (zh) * | 2017-08-16 | 2017-11-28 | 歌尔股份有限公司 | 远场拾音性能评价方法和系统、电子设备 |
CN108877770A (zh) * | 2018-05-31 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于测试智能语音设备的方法、装置和系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951788A (zh) * | 2020-08-10 | 2020-11-17 | 百度在线网络技术(北京)有限公司 | 一种语言模型的优化方法、装置、电子设备及存储介质 |
WO2022052945A1 (en) * | 2020-09-11 | 2022-03-17 | International Business Machines Corporation | Chaos testing for voice enabled devices |
US11769484B2 (en) | 2020-09-11 | 2023-09-26 | International Business Machines Corporation | Chaos testing for voice enabled devices |
GB2614192A (en) * | 2020-09-11 | 2023-06-28 | Ibm | Chaos testing for voice enabled devices |
CN111933108B (zh) * | 2020-09-25 | 2021-01-12 | 蘑菇车联信息科技有限公司 | 一种智能网联终端智能语音交互系统自动化测试方法 |
CN111933108A (zh) * | 2020-09-25 | 2020-11-13 | 蘑菇车联信息科技有限公司 | 一种智能网联终端智能语音交互系统自动化测试方法 |
CN113470618A (zh) * | 2021-06-08 | 2021-10-01 | 阿波罗智联(北京)科技有限公司 | 唤醒测试的方法、装置、电子设备和可读存储介质 |
CN113257247A (zh) * | 2021-06-16 | 2021-08-13 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113257247B (zh) * | 2021-06-16 | 2023-08-29 | 科大讯飞(苏州)科技有限公司 | 一种测试方法及系统 |
CN113450767A (zh) * | 2021-06-24 | 2021-09-28 | 平安国际智慧城市科技股份有限公司 | 语音识别测试方法、装置、测试设备及存储介质 |
CN114023320A (zh) * | 2021-11-02 | 2022-02-08 | 四川虹美智能科技有限公司 | 自动无线语音测试方法、终端和系统 |
CN115171657A (zh) * | 2022-05-26 | 2022-10-11 | 青岛海尔科技有限公司 | 语音设备的测试方法和装置、存储介质 |
EP4287178A1 (en) * | 2022-06-01 | 2023-12-06 | Vivoka | Improved performance evaluation of automatic speech recognition engines |
EP4290509A1 (en) * | 2022-06-07 | 2023-12-13 | Interprefy AG | Computer implemented method for evaluating one or more speech recognition systems |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369976A (zh) | 测试语音识别设备的方法及测试装置 | |
US10861480B2 (en) | Method and device for generating far-field speech data, computer device and computer readable storage medium | |
CN108899037B (zh) | 动物声纹特征提取方法、装置及电子设备 | |
CN109767765A (zh) | 话术匹配方法及装置、存储介质、计算机设备 | |
CN110473525B (zh) | 获取语音训练样本的方法和装置 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
US8155959B2 (en) | Dialog system for human agent to correct abnormal output | |
US10997965B2 (en) | Automated voice processing testing system and method | |
CN110544469B (zh) | 语音识别模型的训练方法及装置、存储介质、电子装置 | |
CN109637525B (zh) | 用于生成车载声学模型的方法和装置 | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
US8447603B2 (en) | Rating speech naturalness of speech utterances based on a plurality of human testers | |
RU2720359C1 (ru) | Способ и оборудование распознавания эмоций в речи | |
KR102615154B1 (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
CN110289015B (zh) | 一种音频处理方法、装置、服务器、存储介质及系统 | |
KR20180012639A (ko) | 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법 | |
JP6244658B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
KR20240073984A (ko) | 관찰된 쿼리 패턴들에 기초하는 타겟 디바이스에 대한 증류 | |
CN107403629B (zh) | 远场拾音性能评价方法和系统、电子设备 | |
CN111199749A (zh) | 行为识别方法、装置,机器学习方法、装置以及记录介质 | |
CN117493830A (zh) | 训练数据质量的评估、评估模型的生成方法、装置及设备 | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
KR102583434B1 (ko) | 음성 상담의 품질 평가 방법 및 시스템 | |
CN114999457A (zh) | 语音系统的测试方法、装置、存储介质及电子设备 | |
CN111966803B (zh) | 对话模拟方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |