CN110728992B - 音频数据的处理方法、装置、服务器及存储介质 - Google Patents

音频数据的处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110728992B
CN110728992B CN201910865446.3A CN201910865446A CN110728992B CN 110728992 B CN110728992 B CN 110728992B CN 201910865446 A CN201910865446 A CN 201910865446A CN 110728992 B CN110728992 B CN 110728992B
Authority
CN
China
Prior art keywords
audio data
student
server
recognition results
teaching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910865446.3A
Other languages
English (en)
Other versions
CN110728992A (zh
Inventor
张岱
史彩庆
舒景辰
谭星
胡凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN201910865446.3A priority Critical patent/CN110728992B/zh
Publication of CN110728992A publication Critical patent/CN110728992A/zh
Application granted granted Critical
Publication of CN110728992B publication Critical patent/CN110728992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及计算机技术领域,具体涉及一种音频数据的处理方法、装置、服务器及存储介质。其中音频数据的处理方法,包括:获取学生的音频数据和学生所述学生的教学等级,对所述音频数据进行语音识别,获取得到所述音频数据的多个识别结果,检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据。本申请实施例的技术方案当检测音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,可以获取到与学生教学等级对应的优质音频数据,保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。

Description

音频数据的处理方法、装置、服务器及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种音频数据的处理方法、装置、服务器及存储介质。
背景技术
随着信息社会的不断发展,越来越多的人选择学习各种各样的知识来不断扩充自己。由于传统的学生与老师面对面授课均需要双方在路上耗费大量的时间及精力,很多学生的学习效果不佳。因此,随着通信时代的发展,网络在线教育已被广大的用户所接受。具体的,网络在线教育是老师所在老师端通过网络与学生所在的学生端进行通信,从而实现的老师与学生的远程授课。
本申请对于背景技术的描述属于与本申请相关的相关技术,仅仅是用于说明和便于理解本申请的内容,不应理解为申请人明确认为或推定申请人认为是本申请在首次提出申请的申请日的现有技术。
发明内容
本申请实施例提供一种音频数据的处理方法、装置、服务器及存储介质,能够节省服务器的存储空间。
第一方面,本申请实施例提供一种音频数据的处理方法,包括:
获取学生的音频数据和所述学生的教学等级;
对所述音频数据进行语音识别,得到所述音频数据的多个识别结果;
检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据。
根据一些实施例,所述检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据,包括:
计算所述多个识别结果的重合度,当所述重合度符合预设阈值,且所述学生的教学等级符合预设等级范围,确定所述音频数据为目标音频数据。
根据一些实施例,所述检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,获取所述目标音频数据,包括:
计算所述多个识别结果的重合度,基于所述学生的教学等级,根据重合度的权重评分模型,计算所述多个识别结果的多个评分;
基于所述多个评分,确定所述目标音频数据。
根据一些实施例,所述方法还包括:
基于评分结果,将所述目标音频数据标记为相应的等级。
根据一些实施例,所述对所述音频数据进行语音识别,得到所述音频数据的多个识别结果,包括:
发送所述音频数据至多个语音识别服务器;
接收所述多个语音识别服务器发送的所述多个识别结果。
根据一些实施例,所述多个识别结果为所述音频数据的中文识别结果。
根据一些实施例,所述获取音频数据和学生的教学等级,包括:
检测到所述音频数据的强度符合预设条件时,获取所述音频数据。
第二方面,本申请实施例提供一种音频数据的处理装置,包括:
数据获取单元,用于获取学生的音频数据和所述学生的教学等级;
语音识别单元,用于对所述音频数据进行语音识别,得到所述音频数据的多个识别结果;
数据确定单元,用于检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据。
第三方面,本申请实施例提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,其中,上述计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例提供一种音频数据的处理方法,通过获取学生的音频数据和学生的教学等级,对音频数据进行语音识别,得到音频数据的多个识别结果,检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。本申请实施例的技术方案当检测音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,可以获取到与学生教学等级对应的优质音频数据,保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出可以应用根据本申请实施例的音频数据的处理装置的示例性系统架构的示意图;
图2示出本申请实施例的音频数据的处理方法的流程示意图;
图3示出本申请另一实施例的音频数据的处理方法的流程示意图;
图4示出本申请实施例一种音频数据的控制装置;
图5示出本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
网络在线教育,顾名思义是以网络为介质的教学方式。通过网络,学生与老师即使相隔万里也可以开展教学活动。网络在线教育使课堂变成了老师与学生之间和学生与学生之间互动的场所,包括答疑解惑、知识的运用和团队合作等,从而可以达到更好的教育效果。此外,借助网络课件,学生还可以随时随地进行学习,真正打破了时间和空间的限制。对于工作繁忙,学习时间不固定的职场人而言,网络在线教育是最方便的学习方式。
易于理解的是,在网络在线教育中,学生与老师之间交流时会生成针对学生的海量的音频数据。海量的音频数据包括优质数据和驳杂数据。优质数据例如可以是学生发音清晰的音频数据,还可以是学生发音标准的音频数据。驳杂数据例如可以是学生发音不清晰的音频数据,例如还可以是学生发音不标准的音频数据。
根据一些实施例,生成针对学生的海量的音频数据会存储在服务器中。由于驳杂数据的存在,会占用服务器的存储空间。因此在大规模测评音频数据时,需要剔除驳杂数据。本申请实施例提供一种音频数据的处理方法,检测到音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,能够节省服务器的存储空间。
图1示出可以应用根据本申请实施例的音频数据的处理装置的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端101、102、103中的一种或多种,网络104和多个服务器105。网络104用以在终端101、102、103和服务器105之间提供通信链路。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端101、网络104和服务器105的数目仅仅是示意性的。根据现实需要,可以具有任意数目的终端101、网络104和服务器105。比如服务器105可以是多个服务器组成的服务器集群等。终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等。
本申请实施例所提供的音频数据的处理方法一般由服务器105执行,相应地,音频数据的处理装置一般设置于服务器105中,但本申请不限于此。
下面对结合本申请实施例对根据本申请构思的技术方案进行详细描述。
图2示出本申请实施例的音频数据的处理方法的流程示意图。
如图2所示,该音频数据的处理方法包括:
在S101,获取学生的音频数据和学生的教学等级。教学等级
根据一些实施例,英语是当今世界上主要的国际通用语言这一,也是世界上最广泛使用的语言。因此在网络在线教育中,英语教育占有越来越重要的地位。很多学生年级很小的时候就开始学习英语。在英语网络在线教育中,老师会根据课堂内容与学生互动,学生会通过音频表达自己的想法。因此英语网络在线教育中,会生成针对学生的海量的音频数据。该音频数据为针对学生生成的英文音频数据。这些音频数据会存储在服务器。该服务器可以是普通服务器,还可以是云端服务器。本申请实施例技术方案中的网络在线教育包括但不限于英语教育。本申请实施例的技术方案例如可以用于法语教育、韩语教育等。
可选的,由于学生接受英语教育的年限以及学生英语知识的储备不同。因此不同的学生对应不同的教学等级。学生的教学等级例如可以分为A等级、B等级、C等级和D等级四个等级。A等级的学生例如可以为接受英语教育的年限超过4年的学生。B等级的学生例如可以为接受英语教育的年限为3年至4年的学生。C等级的学生例如可以为接受英语教育的年限2年至3年的学生。D等级的学生例如可以为接受英语教育的年限不超过2年的学生。学生的教学等级可以预先存储在服务器中,也可以预先存储在云端服务器中。
易于理解的是,当服务器接收到音频数据的处理指令时,从服务器的存储器中读取音频数据和学生的教学等级。例如服务器获取到的可以是A等级的学生在动物英语在线教育中的音频数据。该音频数据例如可以是“My favorite animal is a monkey”。该音频数据例如还可以是“My dog's name is Doudou”。由于学生自身的情况以及成长环境的影响,该音频数据可以包括学生发音不标准的音频数据。
在S102,对音频数据进行语音识别,得到音频数据的多个识别结果。
根据一些实施例,由于本申请实施例中的音频数据为英文的音频数据,当服务器获取到该音频数据时,可以对该音频数据进行语音识别,得到该英文音频数据的中文识别结果。
易于理解的是,该中文识别结果为语音识别服务器对获取到的英文音频数据的识别结果。该语音识别服务器为多个语音识别服务器。多个语音识别服务器可以分别采用不同的识别方式。
可选的,由于学生自身的情况以及成长环境的影响,该音频数据可以包括不标准的音频数据。因此多个语音识别服务器的识别结果也为多个。该音频数据例如可以是“Myfavorite animal is a frog”。Q语音识别服务器的识别结果为“我最喜欢的动物是青蛙”。W语音识别服务器的识别结果为“青蛙是我最喜欢的动物”。E语音识别服务器的识别结果为“我最喜欢的动物是小狗”。R语音识别服务器的识别结果为“我最喜欢的动物是蛙”。
可选的,由于学生教学等级较低,该音频数据可以包括不清楚的音频数据。例如该音频数据可以是“I’m sorry”。由于语音识别服务器的识别方式不同,该音频数据的多个识别结果例如可以包括“我很抱歉”和“对不起”等。
在S103,检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。
根据一些实施例,目标音频数据为针对学生的优质音频数据。针对学生的音频数据例如可以包括同一英文语句的重复的多个音频数据。当服务器获取到多个音频数据中的第一个音频数据对应的多个识别结果和学生的教学等级均符合预设条件时,将第一个音频数据确定为目标音频数据。当服务器将第一个音频数据确定为目标音频数据后,剔除其余的多个音频数据。
易于理解的是,针对学生的音频数据例如可以包括同一英文语句的重复的多个音频数据。多个音频数据例如可以是学生发音清晰标准的音频数据、学生发音不标准的音频数据和学生发音不清楚的音频数据。当服务器检测到学生发音清晰标准的音频数据和学生的教学等级均符合预设条件时,确定学生发音清晰标准的音频数据为目标音频数据。服务器剔除学生发音不标准的音频数据和学生发音不清楚的音频数据。
可选的,预设条件可以是音频数据的多个识别结果的重合度符合预设条件,且学生的教学等级符合预设条件。服务器检测到音频数据的多个识别结果和学生的教学等级均符合预设条件时,将该音频数据确定为目标音频数据。该预设条件例如可以是音频数据的多个识别结果的重合度达到90%,且学生的教学等级是A等级。I学生的音频数据例如可以是“My favorite animal is a frog”。Q语音识别服务器的识别结果为“我最喜欢的动物是青蛙”。W语音识别服务器的识别结果为“青蛙是我最喜欢的动物”。E语音识别服务器的识别结果为“我最喜欢的动物是青蛙”。R语音识别服务器的识别结果为“我最喜欢的动物是蛙”。当服务器检测到该音频数据“My favorite animal is a frog”的多个识别结果的重合度为95%,且服务器检测到I学生的教学等级是A等级时,服务器将该音频数据“My favoriteanimal is a frog”确定为目标音频数据。服务器将该目标音频数据“My favorite animalis a frog”存储在服务器中。
易于理解的是,预设条件可以是音频数据的多个识别结果的重合度符合预设条件,且学生的教学等级符合预设条件。服务器检测到音频数据的多个识别结果和学生的教学等级中的其中一个不符合预设条件时,服务器不会将该音频数据确定为目标音频数据,该音频数据为驳杂数据。服务器会剔除该音频数据,即服务器不会将该音频数据存储在服务器中。
可选的,服务器设置的预设条件例如可以是音频数据的多个识别结果的重合度达到90%,且学生的教学等级是A等级。P学生的音频数据例如可以是“My favorite animalis a frog”。Q语音识别服务器的识别结果为“我最喜欢的动物是狗”。W语音识别服务器的识别结果为“我喜欢的植物是青蛙”。E语音识别服务器的识别结果为“我不喜欢青蛙”。R语音识别服务器的识别结果为“我最喜欢的动物是蛙”。当服务器检测到该P学生的教学等级是A等级,但是服务器检测到P学生音频数据的多个识别结果的重合度没有达到90%时,服务器不会将该音频数据确定“My favorite animal is a frog”为目标音频数据。该音频数据为驳杂数据。服务器剔除该音频数据“My favorite animal is a frog”,即服务器不会将该音频数据“My favorite animal is a frog”存储在服务器中。
根据一些实施例,K学生的音频数据例如可以是“My favorite animal is afrog”。Q语音识别服务器的识别结果为“我最喜欢的动物是青蛙”。W语音识别服务器的识别结果为“青蛙是我最喜欢的动物”。E语音识别服务器的识别结果为“我最喜欢的动物是青蛙”。R语音识别服务器的识别结果为“我最喜欢的动物是蛙”。当服务器检测到K学生的该音频数据“My favorite animal is a frog”的多个识别结果的重合度为95%,但服务器检测到K学生的教学等级是C等级时,服务器不会将该音频数据“My favorite animal is afrog”确定为目标音频数据,该音频数据为驳杂数据。服务器剔除该音频数据“My favoriteanimal is a frog”,即服务器不会将该音频数据“My favorite animal is a frog”存储在服务器中。
易于理解的是,服务器可以根据学生的教学等级设置不同的多个识别结果的重合度。例如服务器设置的预设条件可以是学生的教学等级是A等级时,音频数据的多个识别结果的重合度达到90%;学生的教学等级是B等级时,音频数据的多个识别结果的重合度达到80%;学生的教学等级是C等级时,音频数据的多个识别结果的重合度达到70%;学生的教学等级是D等级时,音频数据的多个识别结果的重合度达到60%。当服务器检测到H学生的音频数据的多个识别结果的重合度为75%时,服务器继续检测H学生的教学等级。若服务器检测到H学生的教学等级为D等级时,确定该音频数据为目标音频数据。若服务器检测到H学生的教学等级为B等级时,确定该音频数据为驳杂数据。服务器检测学生音频数据的多个识别结果的重合度和检测学生的教学等级的顺序可以互换。例如服务器检测到H学生的教学等级为B等级时,检测B学生音频数据的多个识别结果的重合度是否达到80%。当服务器检测到B学生音频数据的多个识别结果的重合度为85%时,确定B学生的该音频数据为目标音频数据。若当服务器检测到B学生音频数据的多个识别结果的重合度为75%时,确定B学生的该音频数据为驳杂数据。
本申请实施例提供一种音频数据的处理方法,通过获取音频数据和学生的教学等级;获取音频数据的多个识别结果;检测到多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据。本申请实施例的技术方案当检测音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,可以获取到与学生教学等级对应的优质音频数据,保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。
图3示出本申请另一实施例的音频数据的处理方法的流程示意图。
如图3所示,该音频数据的处理方法包括:
在S201,服务器检测到音频数据的强度符合预设条件时,获取音频数据。
根据一些实施例,音频数据的强度是指音频数据中学生发音的音量。服务器接收到检测指令时,检测服务器中的音频数据的强度是否符合预设条件。若服务器检测到该音频数据的强度符合预设条件时,获取该音频数据。若服务器检测到该音频数据不符合预设条件时,则剔除该音频数据,以节省服务器的存储空间。
可选的,该预设条件例如可以是音频数据的强度超过50分贝。当服务器接收到检测指令时,检测到服务器中的音频数据“My favorite animal is a frog”的强度为45分贝,则服务器剔除该音频数据“My favorite animal is a frog”,以节省服务器的存储空间。若服务器检测到音频数据“I’m sorry”的强度为60分贝时,获取该音频数据“I’msorry”。
在S202,服务器发送音频数据至多个语音识别服务器。
根据一些实施例,语音识别服务器上安装有语音识别模型,该语音识别模型用于将英文音频数据转换成中文识别结果。该语音识别模型例如可以是神经网络模型,该神经网络模型可以将英文音频数据转换成中文识别结果。语音识别模型一般分训练和解码两阶段。训练,即通过大量标注的英文音频数据训练语音识别模型。解码,即通过语音识别模型和语言模型将训练集外的英文音频数据识别成中文识别结果。训练的语音识别模型的好坏直接影响识别的精度。
易于理解的,当服务器获取到音频数据后,将音频数据发送至多个语音识别服务器。服务器获取到的音频数据例如可以是A等级的I学生的音频数据“My favorite animalis a frog”。服务器可以将该音频数据“My favorite animal is a frog”发送至Q语音识别服务器、W语音识别服务器、E语音识别服务器和R语音识别服务器。
在S203,多个语音识别服务器对接收到的音频数据进行识别,获取到多个识别结果。
根据一些实施例,多个语音识别服务器获取到服务器发送的音频数据后,基于语音识别模型,获取到多个语音识别结果。其中一个语音识别服务器获取到一个识别结果。多个语音识别服务器例如可以是Q语音识别服务器、W语音识别服务器、E语音识别服务器和R语音识别服务器。服务器发送的音频数据例如可以是A等级的I学生的音频数据“Myfavorite animal is a frog”。其中Q语音识别服务器的识别结果例如可以为“我最喜欢的动物是青蛙”。W语音识别服务器的识别结果例如可以为“青蛙是我最喜欢的动物”。E语音识别服务器的识别结果例如可以为“我最喜欢的动物是青蛙”。R语音识别服务器的识别结果例如可以为“我最喜欢的动物是蛙”。
在S204,多个语音识别服务器发送多个识别结果至服务器。
根据有一些实施例,当多个语音识别服务器获取到识别结果后,将识别结果发送至服务器。多个语音识别服务器例如可以是Q语音识别服务器、W语音识别服务器、E语音识别服务器和R语音识别服务器。服务器发送的音频数据例如可以是A等级的I学生的音频数据“My favorite animal is a frog”。其中Q语音识别服务器将识别结果“我最喜欢的动物是青蛙”发送至服务器。W语音识别服务器将识别结果“青蛙是我最喜欢的动物”发送至服务器。E语音识别服务器将识别结果“我最喜欢的动物是青蛙”发送至服务器。R语音识别服务器将识别结果“我最喜欢的动物是蛙”发送至服务器。
在S205,服务器接收多个语音识别服务器发送的多个识别结果。
根据一些实施例,当服务器检测到多个语音识别服务器发送多个识别结果时,服务器获取多个语音识别服务器的多个识别结果。当服务器发送的音频数据例如可以是A等级的I学生的音频数据“My favorite animal is a frog”时,服务器获取的多个识别结果例如可以是“我最喜欢的动物是青蛙”、“青蛙是我最喜欢的动物”、“我最喜欢的动物是青蛙”和“我最喜欢的动物是蛙”。
在S206,服务器计算多个识别结果的重合度,基于学生的教学等级,根据重合度的权重评分模型,计算多个识别结果的多个评分。
根据一些实施例,服务器可以预先训练重合度的权重评分模型。当获取到多个识别结果时,基于获取到的学生的教学等级,根据训练的重合度的权重评分模型,多个识别结果进行评分。例如服务器获取到的学生教学等级包括a学生的A教学等级、b学生的B教学等级、c学生的C教学等级和d学生的D教学等级。其中A等级的学生英语水平高于B等级的英语学生水平,B等级的英语学生水平高于C等级的英语学生水平,C等级的英语学生水平高于D等级的英语学生水平。当服务器获取到的音频数据为a学生、b学生、c学生和d学生的同一英文语句的四个不同的音频数据时,服务器会获取到不同学生音频数据的多个语音识别结果。
可选的,服务器建立的重合度的权重识别模型会根据学生的教学等级分配给重合度不同的权重。学生教学等级越高,重合度的权重比例越高。因此当服务器获取到不同学生音频数据的同一语音识别服务器的多个语音识别结果时,基于重合度的权重信息,对多个语音识别结果进行评分。例如A等级、B等级、C等级和D等级对应的重合度的权重比例分别为95%、90%、85%和80%。若服务器获取到a学生、b学生、c学生和d学生的Q语音识别服务器的多个识别结果的评分均为100分时,根据重合度的权重比例模型获取到的a学生、b学生、c学生和d学生的多个识别结果的评分分别为95分、90分、85分和80分。若服务器获取到a学生、b学生、c学生和d学生的W语音识别服务器的多个识别结果的评分分别为80分、85分、90分和100分时,根据重合度的权重比例模型获取到的a学生、b学生、c学生和d学生的多个识别结果的评分分别为76分、76.5分、76.5分和80分。
在S207,服务器基于多个评分,确定目标音频数据。
根据一些实施例,服务器获取到同一学生音频数据的多个评分时,将多个评分的均值进行排序,确定评分最高的音频数据为目标音频数据。例如服务器根据权重评分模型,获取到的Q语音识别服务器对a学生、b学生、c学生和d学生的音频数据的多个评分分别为:95分、90分、85分和80分;服务器获取到的Q语音识别服务器对a学生、b学生、c学生和d学生的音频数据的多个评分分别为:76分、76.5分、76.5分和80分。服务器根据同一学生音频数据的评分的均值排序,确定A等级a学生的音频数据为目标音频数据。
在S208,基于评分结果,将目标音频数据标记为相应的等级。
根据一些实施例,当服务器确定目标音频数据后,将目标音频数据标记为相应的等级。标记目标音频数据,用于区别于服务器中存储的其他音频数据。由于服务器中存储的音频数据包括:原始音频数据,目标音频数据和驳杂音频数据。服务器对目标音频数据的标记,可以使目标音频数据明显不同于其他音频数据。服务器对目标音频数据的标记还可以减小服务器剔除驳杂数据失误,防止服务器将目标音频数据误删。
易于理解的是,服务器将目标音频数据标记为相应的等级,可以提高用户获取不同等级音频数据的方便性。
本申请实施例提供一种音频数据的处理方法,通过接收多个语音识别服务器发送的多个识别结果,基于学生的教学等级,根据权重评分模型,获取多个识别结果的多个评分,基于多个评分,可以确定目标音频数据。本申请实施例的技术方案通过基于学生的教学等级,根据权重评分模型,获取多个识别结果的多个评分,可以确定目标音频数据,获取到与学生教学等级对应的优质音频数据,可以保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。
图4示出本申请实施例一种音频数据的控制装置。
如图4所示,一种音频数据的控制装置400包括:数据获取单元401、结果获取单元402和数据确定单元403,其中:
数据获取单元401,用于获取学生的音频数据和学生的教学等级;
语音识别单元402,用于对音频数据进行语音识别,得到音频数据的多个识别结果;
数据确定单元403,用于检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。
根据一个或者一些实施例数据确定单元403,还用于计算多个识别结果的重合度,当重合度符合预设阈值,且学生的教学等级符合预设等级范围,确定音频数据为目标音频数据。
根据一个或者一些实施例,教学等级数据确定单元403,还用于计算多个识别结果的重合度,基于学生的教学等级,根据重合度的权重评分模型,计算多个识别结果的多个评分;
基于多个评分,确定目标音频数据。
根据一个或者一些实施例,该音频数据的处理装置400还包括:数据标记单元,用于基于评分结果,将目标音频数据标记为相应的等级。
根据一个或者一些实施例,该音频数据的处理装置400还包括结果接收单元,用于发送音频数据至多个语音识别服务器;
接收多个语音识别服务器发送的多个识别结果。
根据一个或者一些实施例,语音识别单元402,还用于获取的音频数据的多个识别结果为该音频数据的中文识别结果。
根据一个或者一些实施例,数据获取单元401,还用于检测到音频数据的强度符合预设条件时,获取音频数据。
本申请实施例提供一种音频数据的处理装置,通过数据获取单元获取学生的音频数据和学生的教学等级,语音识别单元对音频数据进行语音识别,得到音频数据的多个识别结果,数据确定单元检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。本申请实施例的音频数据的处理装置当检测音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,可以获取到与学生教学等级对应的优质音频数据,保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。
请参见图5,为本申请实施例提供的一种服务器的结构示意图。
如图5所示,所述服务器500可以包括:至少一个处理器501,至少一个网络接口504,用户接口503,存储器505,至少一个通信总线502。
其中,通信总线502用于实现这些组件之间的连接通信。
其中,用户接口503可以包括显示屏(Display)和天线,可选用户接口503还可以包括标准的有线接口、无线接口。
其中,网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个服务器群500内的各个部分,通过运行或执行存储在存储器505内的指令、程序、代码集或指令集,以及调用存储在存储器505内的数据,执行服务器500的各种功能和处理数据。可选的,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器501中,单独通过一块芯片进行实现。
其中,存储器505可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示,作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及用于音频数据处理的应用程序。
在图5所示的服务器500中,处理器501可以用于调用存储器505中存储的应用程序,并具体执行以下操作:
获取学生的音频数据和学生的教学等级;
对音频数据进行语音识别,得到音频数据的多个识别结果;
检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。
在一个实施例中,所述处理器在执行检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据,具体执行以下步骤:
计算多个识别结果的重合度,当重合度符合预设阈值,且学生的教学等级符合预设等级范围,确定音频数据为目标音频数据。
在一个实施例中,所述处理器在执行检测到多个识别结果和学生的教学等级均符合预设条件时,获取目标音频数据,具体执行以下步骤:
计算多个识别结果的重合度,基于学生的教学等级,根据重合度的权重评分模型,计算多个识别结果的多个评分;
基于多个评分,确定目标音频数据。
在一个实施例中,所述处理器还用于执行以下步骤:
基于评分结果,将目标音频数据标记为相应的等级。
在一个实施例中,所述处理器在执行对音频数据进行语音识别,得到音频数据的多个识别结果,具体执行以下步骤:
发送音频数据至多个语音识别服务器;
接收多个语音识别服务器发送的多个识别结果。
在一个实施例中,所述存储器存储的多个识别结果为音频数据的中文识别结果。
在一个实施例中,所述处理器在执行获取音频数据和学生的教学等级,具体执行以下步骤:
检测到音频数据的强度符合预设条件时,获取音频数据。
本申请实施例提供一种服务器,通过获取学生的音频数据和学生的教学等级,对音频数据进行语音识别,得到音频数据的多个识别结果,检测到多个识别结果和学生的教学等级均符合预设条件时,确定音频数据为目标音频数据。本申请实施例的服务器当检测音频数据的多个识别结果和学生的教学等级均符合预设条件时,确定该音频数据为目标音频数据,可以获取到与学生教学等级对应的优质音频数据,保存优质音频数据,剔除大量的驳杂数据,进而可以节省服务器的存储空间。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种音频数据的处理方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field-ProgrammaBLE GateArray,FPGA)、集成电路(Integrated Circuit,IC)等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些微服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (9)

1.一种音频数据的处理方法,其特征在于,所述方法包括:
获取学生的音频数据和所述学生的教学等级;
对所述音频数据进行语音识别,得到所述音频数据的多个识别结果;
检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据;
其中,所述检测到所述多个识别结果和所述学生的等级信息均符合预设条件时,确定所述音频数据为获取所述目标音频数据,包括:计算所述多个识别结果的重合度,基于所述学生的教学等级,根据重合度的权重评分模型,计算所述多个识别结果的多个评分;基于所述多个评分,确定所述目标音频数据。
2.如权利要求1所述的方法,其特征在于,所述检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据,包括:
计算所述多个识别结果的重合度,当所述重合度符合预设阈值,且所述学生的教学等级符合预设等级范围,确定所述音频数据为目标音频数据。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于评分结果,将所述目标音频数据标记为相应的等级。
4.如权利要求1所述的方法,其特征在于,所述对所述音频数据进行语音识别,得到所述音频数据的多个识别结果,包括:
发送所述音频数据至多个语音识别服务器;
接收所述多个语音识别服务器发送的所述多个识别结果。
5.如权利要求4所述的方法,其特征在于,所述多个识别结果为所述音频数据的中文识别结果。
6.如权利要求1所述的方法,其特征在于,所述获取学生的音频数据和所述学生的教学等级,包括:
检测到所述音频数据的强度符合预设条件时,获取所述音频数据。
7.一种音频数据的处理装置,其特征在于,包括:
数据获取单元,用于教学等级获取学生的音频数据和所述学生的教学等级;
语音识别单元,用于对所述音频数据进行语音识别,得到所述音频数据的多个识别结果;
数据确定单元,用于教学等级检测到所述多个识别结果和所述学生的教学等级均符合预设条件时,确定所述音频数据为目标音频数据;
所述数据确定单元,还用于计算所述多个识别结果的重合度,基于所述学生的教学等级,根据重合度的权重评分模型,计算所述多个识别结果的多个评分;基于所述多个评分,确定所述目标音频数据。
8.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述权利要求1-6中任一项所述的方法。
CN201910865446.3A 2019-09-12 2019-09-12 音频数据的处理方法、装置、服务器及存储介质 Active CN110728992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910865446.3A CN110728992B (zh) 2019-09-12 2019-09-12 音频数据的处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865446.3A CN110728992B (zh) 2019-09-12 2019-09-12 音频数据的处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110728992A CN110728992A (zh) 2020-01-24
CN110728992B true CN110728992B (zh) 2022-07-19

Family

ID=69218994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865446.3A Active CN110728992B (zh) 2019-09-12 2019-09-12 音频数据的处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110728992B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489721B (zh) * 2020-03-23 2022-05-03 天津大学 一种信号帧矩阵化的音乐信息记录方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833877B (zh) * 2010-03-24 2013-06-05 杭州全动科技有限公司 一种学前儿童的启迪教育方法
CN107767713A (zh) * 2017-03-17 2018-03-06 青岛陶知电子科技有限公司 一种集成语音操作功能的智能教学系统
WO2019118147A1 (en) * 2017-12-11 2019-06-20 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
CN109243215B (zh) * 2018-08-31 2021-08-13 广东小天才科技有限公司 一种基于智能装置的交互方法、智能装置及系统

Also Published As

Publication number Publication date
CN110728992A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN109299458B (zh) 实体识别方法、装置、设备及存储介质
WO2021018232A1 (zh) 一种自适应测评方法、装置、存储介质及电子设备
JP6459080B2 (ja) 文字データの内容を文字データ送信者の音声で出力する方法
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
CN111107442B (zh) 音视频文件的获取方法、装置、服务器及存储介质
CN110569364A (zh) 在线教学方法、装置、服务器及存储介质
CN109801527B (zh) 用于输出信息的方法和装置
KR101778488B1 (ko) 온라인을 통한 영어 단어 학습 방법 및 시스템
CN112417158A (zh) 文本数据分类模型的训练方法、分类方法、装置和设备
CN110796338A (zh) 在线教学监控方法、装置、服务器及存储介质
CN110910694A (zh) 一种智能客服培训系统
CN104933121A (zh) 一种用于外语学习、语言能力测试的方法、装置和系统
CN110597958B (zh) 文本分类模型训练和使用方法及装置
CN112651211A (zh) 标签信息确定方法、装置、服务器及存储介质
CN113342948A (zh) 一种智能问答方法及装置
CN110728992B (zh) 音频数据的处理方法、装置、服务器及存储介质
CN104506898A (zh) 图像信息处理方法及系统
CN107767862A (zh) 语音数据处理方法、系统及存储介质
CN109299805B (zh) 一种基于人工智能的在线教育课程请求处理方法
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN112185186B (zh) 一种发音纠正方法、装置、电子设备及存储介质
CN111598746A (zh) 教学交互控制方法、装置、终端及存储介质
CN115206342A (zh) 一种数据处理方法、装置、计算机设备及可读存储介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant