CN113590871A - 一种音频分类方法、装置及计算机可读存储介质 - Google Patents
一种音频分类方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113590871A CN113590871A CN202110163903.1A CN202110163903A CN113590871A CN 113590871 A CN113590871 A CN 113590871A CN 202110163903 A CN202110163903 A CN 202110163903A CN 113590871 A CN113590871 A CN 113590871A
- Authority
- CN
- China
- Prior art keywords
- audio
- classification
- text
- target
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音频分类方法、装置及计算机可读存储介质;本申请实施例可以展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果,其中,待分类音频与音频文本之间的转换可以基于人工智能领域中的语音技术实现;响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。本方案可以提高音频分类的效率。
Description
技术领域
本申请涉及通信技术领域,具体涉及一种音频分类方法、装置及计算机可读存储介质。
背景技术
随着互联网用户的增加,中国互联网络信息中心(CNNIC)发布《第26次中国互联网络发展状况统计报告》(以下简称“报告”),报告显示,中国网民规模达到4.2亿,手机网民规模更达2.77亿,各互联网网站的信息量巨大。
在对相关技术的研究和实践过程中,本申请的发明人发现对于信息量较大的网站来说,网络信息形态包括图片、文字、音频等内容,相对来说,图片、文字类依靠肉眼可进行简单性的阅读,但音频类信息需要依靠“听”来完成,且很难做到像歌曲一样可以快进、快退等动作,需从头到尾的听完,在音频听取投入时间上有较大的损耗,无法在听取音频信息内容中,快速获取指定的内容,音频分类的效率较低。
发明内容
本申请实施例提供一种音频分类方法、装置及计算机可读存储介质,可以提高音频分类的效率。
本申请实施例提供了一种音频分类方法,包括:
展示音频分类页面,所述音频分类页面包括待分类音频转换后的音频文本、以及所述音频文本的分类控件,其中,所述音频文本包括突出显示的目标文本内容,所述目标文本内容为从所述音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;
响应于针对目标分类控件的分类操作,确定所述分类操作所操作的分类控件为目标分类控件,确定所述目标文本内容中所述目标分类控件对应的分类结果,基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果。
相应的,本申请实施例提供了一种音频分类装置,包括:
页面展示单元,用于展示音频分类页面,所述音频分类页面包括待分类音频转换后的音频文本、以及所述音频文本的分类控件,其中,所述音频文本包括突出显示的目标文本内容,所述目标文本内容为从所述音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;
结果确定单元,用于响应于针对分类控件的分类操作,确定所述分类操作所操作的分类控件为目标分类控件,确定所述目标文本内容中所述目标分类控件对应的分类结果,基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果。
在一实施例中,所述页面展示单元,包括:
接收子单元,用于接收待分类音频的音频分类请求,基于所述音频分类请求获取所述待分类音频;
第一识别子单元,用于对所述待分类音频进行内容识别,基于内容识别结果将所述待分类音频转换为音频文本;
第一页面展示子单元,用于基于所述音频文本,展示音频分类页面。
在一实施例中,所述页面展示单元,包括:
第二识别子单元,用于基于文本参考数据库,对待分类音频的待分类音频文本进行识别;
变更子单元,用于当识别到所述待分类音频文本中存在包含所述文本参考数据库中预设文本内容的目标文本内容时,将所述目标文本内容的展示形式变更为突出显示;
第二页面展示子单元,用于基于所述目标文本内容的突出显示结果,展示所述音频分类页面。
在一实施例中,所述音频分类装置,还包括:
第一播放单元,用于当所述待分类音频的分类结果为不通过时,响应于针对所述目标文本内容的触发操作,播放所述待分类音频中与目标文本内容对应的目标音频,以对所述待分类音频的分类结果进行验证。
在一实施例中,所述第一播放单元,包括:
信息确定子单元,用于当所述待分类音频的分类结果为不通过时,响应于针对所述目标文本内容的触发操作,确定所述目标文本内容对应的目标音频在所述待分类音频的时间信息;
播放子单元,用于响应于针对所述音频播放控件的触发操作,播放所述时间信息对应的所述目标音频,以对所述待分类音频的分类结果进行校验。
在一实施例中,所述音频分类装置,还包括:
变更单元,用于当所述目标音频的播放结果与所述目标文本内容不匹配时,响应于针对其他分类控件的切换操作,对所述待分类音频的分类结果进行变更,所述其他分类控件为所述分类控件中除所述目标分类控件之外的控件。
在一实施例中,所述音频分类装置,还包括:
获取单元,用于获取所述待分类音频的变更后分类结果对应的附加信息,所述附加信息包括所述变更后分类结果的描述信息;
发送单元,用于基于所述描述信息,向所述待分类音频的发起终端发送所述待分类音频的分类结果。
在一实施例中,所述音频分类装置,还包括:
第二播放单元,用于当所述待分类音频的分类结果为不通过时,响应于针对子文本内容的触发操作,确定所述触发操作所对应的子文本内容为目标子文本内容,播放所述待分类音频中与所述目标子文本内容对应的目标子音频;
第三播放单元,用于当所述目标子音频的播放结果与所述目标子文本内容不匹配时,响应于针对其他子文本内容的触发操作,播放所述待分类音频中与所述其他子文本内容对应的子音频,以对所述待分类音频的分类结果进行验证,所述其他子文本内容为所述多个子文本内容中除所述目标子文本内容之外的文本内容。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的音频分类方法中的步骤。
相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的音频分类方法中的步骤。
本申请实施例可以展示音频分类页面,所述音频分类页面包括待分类音频转换后的音频文本、以及所述音频文本的分类控件,其中,所述音频文本包括突出显示的目标文本内容,所述目标文本内容为从所述音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;响应于针对分类控件的分类操作,确定所述分类操作所操作的分类控件为目标分类控件,确定所述目标文本内容中所述目标分类控件对应的分类结果,基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果。本方案可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频分类方法的场景示意图;
图2a是本申请实施例提供的音频分类方法的流程图;
图2b是本申请实施例提供的音频分类方法的音频分类页面示意图;
图2c是本申请实施例提供的音频分类方法的另一音频分类页面示意图;
图2d是本申请实施例提供的音频分类方法的另一音频分类页面示意图;
图3a是本申请实施例提供的音频分类方法的另一流程图;
图3b是本申请实施例提供的音频分类方法的技术流程图;
图3c是本申请实施例提供的音频分类方法的另一音频分类页面示意图;
图4a是本申请实施例提供的音频分类方法的装置图;
图4b是本申请实施例提供的音频分类方法的另一装置图;
图4c是本申请实施例提供的音频分类方法的另一装置图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种音频分类方法、装置、计算机设备及计算机可读存储介质。具体地,本申请实施例提供适用于计算机设备的音频分类装置。其中,该计算机设备可以为终端或服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
参考图1,以计算机设备为终端为例,该终端可以展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
其中,将待分类音频转换为音频文本,可以基于人工智能领域中的语音技术实现,比如,可以通过语音技术识别待分类音频的音频内容,然后识别出来的音频内容转换为音频文本。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模型、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳效果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,集有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括自然语言处理、机器学习/深度学习等方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
由以上可知,本申请实施例可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种音频分类方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以音频分类方法由终端执行为例来进行说明,具体的,由集成在终端中的音频分类装置来执行。如图2a所示,该音频分类方法的具体流程可以如下:
201、展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果。
其中,音频分类页面用于展示待分类音频的音频文本、以及目标文本内容,以对待分类音频进行分类,音频分类页面中音频文本的分类控件用于确定音频文本的分类结果。
其中,文本参考数据库包括多个预设文本内容,其中,预设文本内容可以包括多个预设类型的文本内容,比如,包含敏感词的文本内容、包含喜悦词的文本内容,等等。
在一实施例中,为了提高待分类音频的分类效率,可以将待分类音频转换为音频文本,并在音频分类页面进行展示,步骤“展示音频分类页面”,可以包括:
接收待分类音频的音频分类请求,基于音频分类请求获取待分类音频;
对待分类音频进行内容识别,基于内容识别结果将待分类音频转换为音频文本;
基于音频文本,展示音频分类页面。
在一示例中,如图2b所示,在音频分类页面除了展示“儿子,隔离李姨给你介绍个姑娘,你这周末回来看一下是否合适啊!”的音频文本之外,还可以展示待分类音频的播放进度条,可以针对播放进度条中音频播放控件的触发操作,播放待分类音频。在该示例中,目标文本内容可以为“李姨”,可以如图2b所示进行突出显示,比如,高亮显示,还可以调节高亮显示的填充颜色,比如,可以填充黄色、红色、蓝色等颜色,以便与音频文本进行区分,一眼望去一目了然。
在一实施例中,为了进一步提高待分类音频的分类效率,可以从待分类音频的音频文本确定目标文本内容,然后将目标文本内容的展示形式变更为突出显示,最后在音频分类页面进行展示,步骤“展示音频分类页面”,可以包括:
基于文本参考数据库,对待分类音频的待分类音频文本进行识别;
当识别到待分类音频文本中存在包含文本参考数据库中预设文本内容的目标文本内容时,将目标文本内容的展示形式变更为突出显示;
基于目标文本内容的突出显示结果,展示音频分类页面。
在一示例中,文本参考数据库中包括多个预设文本内容,可以将音频文本中各文本内容与这些预设文本内容进行匹配,当音频文本中存在与预设文本内容匹配的文本内容时,在音频分类页面对匹配的文本内容进行突出显示,匹配的文本内容也即目标文本内容。
202、响应于针对目标分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
其中,目标分类控件指的是音频文本的多个分类控件中的一个分类控件,目标分类控件指示目标文本内容对应的一个分类结果。
其中,待分类音频的分类结果可以基于目标文本内容的分类结果去确定,比如,当目标文本内容的分类结果为分类不通过时,可以确定待分类音频的分类结果为分类不通过。
其中,响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
在一示例中,如图2b所示,可以响应于针对分类控件1的分类操作,确定目标文本内容的分类结果,也可以响应于针对分类控件2的分类操作,确定目标文本内容的分类结果,比如,当响应于针对分类控件1的分类操作时,可以确定目标文本内容的分类结果为分类不通过,当响应于针对分类控件2的分类操作是,可以确定目标文本内容的分类结果为分类通过。
在一实施例中,为了提高音频分类的准确性,在步骤“响应于针对目标分类控件的分类操作,确定目标文本内容的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果”之后,还可以对待分类音频的分类结果进行验证,步骤可以包括:
当待分类音频的分类结果为不通过时,响应于针对目标文本内容的触发操作,播放待分类音频中与目标文本内容对应的目标音频,以对待分类音频的分类结果进行验证。
在一示例中,为了提高音频分类的准确性,当待分类音频的分类结果为不通过时,可以通过点击目标文本,触发跳转播放待分类音频中与目标文本内容对应的目标音频,然后可以将目标音频的播放结果和目标文本内容进行匹配,基于匹配结果对待分类音频的分类结果进行验证,比如,若目标音频的播放结果和目标文本内容相匹配,则可以验证确定待分类音频的分类结果为分类不通过,若目标音频的播放结果和目标文本内容不匹配,则可以验证确定待分类音频的分类结果出错,可以对待分类音频的分类结果进行变更。
在一实施例中,分类页面还包括音频播放控件,为了提高音频分类的准确性,可以对基于目标文本内容的分类结果,确定的待分类音频的分类结果进行验证,步骤“当待分类音频的分类结果为不通过时,响应于针对目标文本内容的触发操作,播放待分类音频中与目标文本内容对应的目标音频,以对待分类音频的分类结果进行验证”的详细过程,可以包括:
当待分类音频的分类结果为不通过时,响应于针对目标文本内容的触发操作,确定目标文本内容对应的目标音频在待分类音频的时间信息;
响应于针对音频播放控件的触发操作,播放时间信息对应的目标音频,以对待分类音频的分类结果进行校验。
在一示例中,如图2c所示,为了提高音频分类的准确性,可以对待分类音频的分类结果进行验证,比如,可以通过针对音频文本中的目标文本的触发操作,即可以通过点击图2c所示的“李姨”,确定“李姨”这段文本内容对应的目标音频在待分类音频的时间信息,比如,目标音频在待分类音频的50秒处,则可以将待分类音频的播放进度跳转到播放进度条中50秒处,当检测到针对音频播放控件的触发操作时,播放该目标文本内容对应的目标音频,然后根据目标音频的播放结果和目标文本内容,对待分类音频的分类结果进行验证,通过播放目标文本对应的目标音频,然后根据播放结果来对待分类音频的分类结果进行验证的方法,可以提高音频分类的准确性。
其中,当检测到目标文本内容对应的目标音频播放结束时,确定针对目标音频的音频分类操作,得到的目标音频的分类结果,进而确定目标音频的分类类型,在根据目标音频的播放结果和目标文本内容,对待分类音频的分类结果进行验证时,可以基于目标音频确定的分类结果和目标文本内容的分类结果进行比较,通过比较两种分类结果是否相同,来对待分类音频的分类结果进行验证,比如,若确定目标音频的分类结果为类型A,目标文本内容的分类结果为类型A,则可以确定待分类音频的分类结果为正确的,并且分类结果也为类型A,完成对待分类音频的分类结果的验证。
在一实施例中,可以通过对目标文本内容对应音频的播放结果和目标文本内容进行匹配,来验证待分类音频的分类结果,以提高音频分类的准确性,具体地,音频分类方法还可以包括:
当目标音频的播放结果与目标文本内容不匹配时,响应于针对其他分类控件的切换操作,对待分类音频的分类结果进行变更,其他分类控件为分类控件中除目标分类控件之外的控件。
其中,若目标音频的播放结果和目标文本内容不匹配,则可能是待分类音频转换为音频文本时出现了异常等问题,导致转换不准确,影响了后边目标文本内容的分类结果,进而影响待分类音频的分类结果,所以可以响应于针对其他分类控件的切换操作,对待分类音频的分类结果进行变更,比如,如图2d所示,当目标音频的播放结果和目标文本内容不匹配时,响应于针对分类控件2的切换操作,对待分类音频的分类结果进行变更。
其中,若目标音频的播放结果和目标文本内容匹配,则可以不对待分类音频的分类结果进行变更。
在一实施例中,为了提高后续各待分类音频的质量,以进一步提高音频分类的效率,可以将待分类音频的分类结果对应的描述信息,发送到待分类音频的发起终端,具体地,音频分类方法还可以包括:
获取待分类音频的变更后分类结果对应的附加信息,附加信息包括变更后分类结果的描述信息;
基于描述信息,向待分类音频的发起终端发送待分类音频的分类结果。
其中,描述信息描述了得到待分类音频的分类结果的原因,比如,待分类音频中包含敏感信息的音频,待分类音频中包含不符合当代社会主义价值观的音频,等等。
在一实施例中,目标文本内容包括多个子文本内容,为了提高音频分类的准确性,可以分别播放多个子文本内容,以对待分类音频的分类结果进行验证,音频分类方法还可以包括:
当待分类音频的分类结果为不通过时,响应于针对子文本内容的触发操作,确定触发操作所对应的子文本内容为目标子文本内容,播放待分类音频中与目标子文本内容对应的目标子音频;
当目标子音频的播放结果与目标子文本内容不匹配时,响应于针对其他子文本内容的触发操作,播放待分类音频中与其他子文本内容对应的子音频,以对待分类音频的分类结果进行验证,其他子文本内容为多个子文本内容中除目标子文本内容之外的文本内容。
其中,目标文本内容可以由多个子文本内容组成,而目标子文本内容为多个子文本内容中的一个子文本内容,比如,音频文本中有多个突出显示的文本内容,这些突出显示的文本内容可以组成目标文本内容,而每个突出显示的文本内容就是上述说到的子文本内容,目标子文本内容则是多个突出显示的文本内容中的一个文本内容。
在一示例中,目标文本内容包括多个子文本内容,当待分类音频的分类结果为分类不通过时,可以逐一针对多个子文本内容进行触发操作,播放对应的音频,以对待分类音频的分类结果进行验证。
本申请实施例可以应用于音频信息分类,传统的音频分类方式通常是需要信息分类人员循环播放待分类音频,根据听到的音频内容对待分类音频文件进行归类,在判断音频信息是否违规,及其费时,音频分类的效率较低,本申请可以通过语音转写技术,将待分类音频转换为音频文本,再结合文本参考数据库,对音频文本中的目标文本内容进行分类,之后再基于目标文本内容的分类结果,确定待分类音频的分类结果,可以提高音频分类的效率。
对于信息量较大的网站来说,音频类信息需要依靠“听”来完成,通过本申请实施例可以在听取音频信息内容中,可以快速获取指定的目标内容,降低在音频听取投入时间上的损耗。
由以上可知,本申请实施例可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
根据上述介绍的内容,下面将举例来进一步说明本申请的音频分类方法。参考图3a,一种音频分类方法,具体流程可以如下:
301、终端接收待分类音频的音频分类请求,基于音频分类请求获取待分类音频。
其中,音频分类请求为待分类音频的发起终端发起的,音频分类请求可以用于发起对待分类音频的分类。
在一示例中,如图3b所示,终端接收待分类音频的音频分类请求之后,终端可以打开操作端获取待分类音频,然后将待分类音频加载至操作端,并展示音频内容,之后可以通过语音转写技术在后台将待分类音频转换为音频文本,结合文本参考数据库,对音频文本中与文本参考数据库中预设文本内容相匹配的目标文本内容进行突出显示,最后可以在音频分类页面展示待分类音频、转换后的音频文本、以及突出显示目标文本内容,等等。
302、终端对待分类音频进行内容识别,基于内容识别结果将待分类音频转换为音频文本。
其中,终端可以识别待分类音频的音频内容,然后将识别出的音频内容转换为文本,可以得到待分类音频的音频文本。
在一示例中,将待分类音频转换为文本可以通过如图3b所示的步骤二语音转写实现,即通过语音转写技术后台转换语音为文字,转写后将文字转入操作端,可以在音频分类页面展示转换后的音频文本。
303、终端确定音频文本中存在与文本参考数据库中预设文本内容匹配的目标文本内容,对目标文本内容进行突出显示。
其中,文本参考数据库中可以包括多个预设文本内容,可以将音频文本与文本参考数据库中的预设文本内容进行匹配,当音频文本中存在与预设文本内容相匹配的文本内容时,将该相匹配的文本内容作为目标文本内容,并对目标文本内容进行突出显示。
在一示例中,如图3b所示,在语义转写后,可以结合文本参考数据库,对与文本参考数据库中预设文本内容相匹配的目标文本内容进行高亮,比如,以音频文本内容为“儿子,隔离李姨给你介绍个姑娘,你这周末回来看一下是否合适啊”为例,若该音频文本的目标文本内容为“李姨”时,可以在音频分类页面高亮显示“李姨”,如可以颜色高亮标记。
304、终端基于音频文本与突出显示的目标文本内容,展示音频分类页面,音频分类页面包括音频文本的分类控件。
其中,音频文本的分类控件可以用于对音频文本的分类结果进行确认,音频文本的分类控件可以存在多个,比如,可以包括用于确认待分类音频分类通过的分类控件,还可以包括用于确认待分类音频分类不通过的分类控件,等等。
在一示例中,如图3c所示,在音频分类页面可以展示待分类音频的播放进度条和音频播放控件,该音频播放控件可以用于播放待分类音频,而播放进度条可以提示待分类音频的播放进度,可以针对播放进度条的拖动操作,确定待分类音频的播放位置,音频分类页面还可以包括待分类音频的音频文本,如图3c中的“儿子,隔离李姨给你介绍个姑娘,你这周末回来看一下是否合适啊”进行突出显示,音频分类页面还可以包括音频文本的分类控件,比如,如图3c所示的分类控件1和分类控件2,等等。
305、终端响应于针对目标分类控件的触发操作,确定目标文本内容的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
其中,待分类音频的分类结果是基于目标文本内容的分类结果得到的,比如,若目标文本内容的分类结果为分类不通过,则可以基于目标文本内容的分类不通过结果,确定待分类音频的分类结果为分类不通过,若目标文本内容的分类结果为分类通过,则可以基于目标文本内容的分类通过结果,确定待分类音频的分类结果为分类通过。
在一示例中,考虑音转文技术的成熟性,可能存在翻译转换错误的情况,可以获取目标文本内容在待分类音频中对应的目标音频,然后播放该目标音频,以便基于该目标音频的播放结果和目标文本内容,对待分类音频的分类结果进行验证,比如,后台可以记录目标文本内容出现的时间节点,然后单击目标文本内容即可跳转至待分类音频中出现该目标文本内容的时间点并播放,当目标音频的播放结果与目标文本内容相匹配时,可以确定待分类音频的分类结果是正确的,若目标音频的播放结果与目标文本内容不匹配,则可以确定待分类音频的分类结果是不正确的,可以对不正确的分类结果进行变更。
由以上可知,本申请实施例可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种音频分类装置,其中,该音频分类装置具体可以集成在服务器中,参考图4a,该音频分类装置可以包括页面展示单元401和结果确定单元402,如下:
(1)页面展示单元401;
页面展示单元401,用于展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果。
在一实施例中,如图4b所示,页面展示单元401,包括:
接收子单元4011,用于接收待分类音频的音频分类请求,基于音频分类请求获取待分类音频;
第一识别子单元4012,用于对待分类音频进行内容识别,基于内容识别结果将待分类音频转换为音频文本;
第一页面展示子单元4013,用于基于音频文本,展示音频分类页面。
在一实施例中,如图4b所示,页面展示单元401,包括:
第二识别子单元4014,用于基于文本参考数据库,对待分类音频的待分类音频文本进行识别;
变更子单元4015,用于当识别到待分类音频文本中存在包含文本参考数据库中预设文本内容的目标文本内容时,将目标文本内容的展示形式变更为突出显示;
第二页面展示子单元4016,用于基于目标文本内容的突出显示结果,展示音频分类页面。
(2)结果确定单元402;
结果确定单元402,用于响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
在一实施例中,音频分类装置,还包括:
第一播放单元403,用于当待分类音频的分类结果为不通过时,响应于针对目标文本内容的触发操作,播放待分类音频中与目标文本内容对应的目标音频,以对待分类音频的分类结果进行验证。
在一实施例中,如图4c所示,第一播放单元,包括:
信息确定子单元4031,用于当待分类音频的分类结果为不通过时,响应于针对目标文本内容的触发操作,确定目标文本内容对应的目标音频在待分类音频的时间信息;
播放子单元4032,用于响应于针对音频播放控件的触发操作,播放时间信息对应的目标音频,以对待分类音频的分类结果进行校验。
在一实施例中,音频分类装置,还包括:
变更单元404,用于当目标音频的播放结果与目标文本内容不匹配时,响应于针对其他分类控件的切换操作,对待分类音频的分类结果进行变更,其他分类控件为分类控件中除目标分类控件之外的控件。
在一实施例中,音频分类装置,还包括:
获取单元405,用于获取待分类音频的变更后分类结果对应的附加信息,附加信息包括变更后分类结果的描述信息;
发送单元406,用于基于描述信息,向待分类音频的发起终端发送待分类音频的分类结果。
在一实施例中,音频分类装置,还包括:
第二播放单元407,用于当待分类音频的分类结果为不通过时,响应于针对子文本内容的触发操作,确定触发操作所对应的子文本内容为目标子文本内容,播放待分类音频中与目标子文本内容对应的目标子音频;
第三播放单元408,用于当目标子音频的播放结果与目标子文本内容不匹配时,响应于针对其他子文本内容的触发操作,播放待分类音频中与其他子文本内容对应的子音频,以对待分类音频的分类结果进行验证,其他子文本内容为多个子文本内容中除目标子文本内容之外的文本内容。
由以上可知,本申请实施例的音频分类装置的页面展示单元401展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;然后,由结果确定单元402响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。该方案可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
由以上可知,本申请实施例可以将待分类音频转换为音频文本,通过将待分类音频转换为音频文本之后,在对音频文本进行分类以确定待分类音频的分类结果的方法,可以缓解分类人员循环播放待分类音频,判断音频内容的疲劳,可以提高音频分类的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种音频分类方法中的步骤。例如,该指令可以执行如下步骤:
展示音频分类页面,音频分类页面包括待分类音频转换后的音频文本、以及音频文本的分类控件,其中,音频文本包括突出显示的目标文本内容,目标文本内容为从音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;响应于针对分类控件的分类操作,确定分类操作所操作的分类控件为目标分类控件,确定目标文本内容中目标分类控件对应的分类结果,基于目标文本内容的分类结果,确定待分类音频的分类结果。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种音频分类方法中的步骤,因此,可以实现本申请实施例所提供的任一种音频分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述发明内容和实施例中提供的音频分类方法。
以上对本申请实施例所提供的一种音频分类方法、装置、计算机设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种音频分类方法,其特征在于,包括:
展示音频分类页面,所述音频分类页面包括待分类音频转换后的音频文本、以及所述音频文本的分类控件,其中,所述音频文本包括突出显示的目标文本内容,所述目标文本内容为从所述音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个所述分类控件对应于一种分类结果;
响应于针对分类控件的分类操作,确定所述分类操作所操作的分类控件为目标分类控件,确定所述目标文本内容中所述目标分类控件对应的分类结果,基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果之前所述方法还包括:
当所述待分类音频的分类结果为不通过时,响应于针对所述目标文本内容的触发操作,播放所述待分类音频中与目标文本内容对应的目标音频,以对所述待分类音频的分类结果进行验证。
3.根据权利要求2所述的方法,其特征在于,所述分类页面还包括音频播放控件;
所述当所述待分类音频的分类结果为不通过时,响应于针对所述目标文本内容的触发操作,播放所述待分类音频中与目标文本内容对应的目标音频,以对所述待分类音频的分类结果进行验证,包括:
当所述待分类音频的分类结果为不通过时,响应于针对所述目标文本内容的触发操作,确定所述目标文本内容对应的目标音频在所述待分类音频的时间信息;
响应于针对所述音频播放控件的触发操作,播放所述时间信息对应的所述目标音频,以对所述待分类音频的分类结果进行校验。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述目标音频的播放结果与所述目标文本内容不匹配时,响应于针对其他分类控件的切换操作,对所述待分类音频的分类结果进行变更,所述其他分类控件为所述分类控件中除所述目标分类控件之外的控件。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述待分类音频的变更后分类结果对应的附加信息,所述附加信息包括所述变更后分类结果的描述信息;
基于所述描述信息,向所述待分类音频的发起终端发送所述待分类音频的分类结果。
6.根据权利要求1所述的方法,其特征在于,所述展示音频分类页面,包括:
接收待分类音频的音频分类请求,基于所述音频分类请求获取所述待分类音频;
对所述待分类音频进行内容识别,基于内容识别结果将所述待分类音频转换为音频文本;
基于所述音频文本,展示音频分类页面。
7.根据权利要求1所述的方法,其特征在于,所述展示音频分类页面,包括:
基于文本参考数据库,对待分类音频的待分类音频文本进行识别;
当识别到所述待分类音频文本中存在包含所述文本参考数据库中预设文本内容的目标文本内容时,将所述目标文本内容的展示形式变更为突出显示;
基于所述目标文本内容的突出显示结果,展示所述音频分类页面。
8.根据权利要求1所述的方法,其特征在于,所述目标文本内容包括多个子文本内容,所述方法还包括:
当所述待分类音频的分类结果为不通过时,响应于针对子文本内容的触发操作,确定所述触发操作所对应的子文本内容为目标子文本内容,播放所述待分类音频中与所述目标子文本内容对应的目标子音频;
当所述目标子音频的播放结果与所述目标子文本内容不匹配时,响应于针对其他子文本内容的触发操作,播放所述待分类音频中与所述其他子文本内容对应的子音频,以对所述待分类音频的分类结果进行验证,所述其他子文本内容为所述多个子文本内容中除所述目标子文本内容之外的文本内容。
9.一种音频分类装置,其特征在于,包括:
页面展示单元,用于展示音频分类页面,所述音频分类页面包括待分类音频转换后的音频文本、以及所述音频文本的分类控件,其中,所述音频文本包括突出显示的目标文本内容,所述目标文本内容为从所述音频文本中识别出与文本参考数据库中预设文本内容匹配的文本内容,一个分类控件对应于一种分类结果;
结果确定单元,用于响应于针对分类控件的分类操作,确定所述分类操作所操作的分类控件为目标分类控件,确定所述目标文本内容中所述目标分类控件对应的分类结果,基于所述目标文本内容的分类结果,确定所述待分类音频的分类结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至8任一项所述的音频分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163903.1A CN113590871A (zh) | 2021-02-05 | 2021-02-05 | 一种音频分类方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163903.1A CN113590871A (zh) | 2021-02-05 | 2021-02-05 | 一种音频分类方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590871A true CN113590871A (zh) | 2021-11-02 |
Family
ID=78238060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163903.1A Pending CN113590871A (zh) | 2021-02-05 | 2021-02-05 | 一种音频分类方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590871A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023078093A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 一种音频播放方法及系统、电子设备 |
-
2021
- 2021-02-05 CN CN202110163903.1A patent/CN113590871A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023078093A1 (zh) * | 2021-11-03 | 2023-05-11 | 华为技术有限公司 | 一种音频播放方法及系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107909998B (zh) | 语音指令处理方法、装置、计算机设备和存储介质 | |
McCullough | Noninterference and the composability of security properties | |
EP3252769B1 (en) | Adding background sound to speech-containing audio data | |
US8983846B2 (en) | Information processing apparatus, information processing method, and program for providing feedback on a user request | |
US10504513B1 (en) | Natural language understanding with affiliated devices | |
US20170169822A1 (en) | Dialog text summarization device and method | |
KR20200007882A (ko) | 자동 비서를 위한 명령 번들 제안 제공 | |
US10803850B2 (en) | Voice generation with predetermined emotion type | |
CN110164435A (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
US11457061B2 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
US20200320975A1 (en) | Automated voice processing testing system and method | |
JP7132090B2 (ja) | 対話システム、対話装置、対話方法、及びプログラム | |
JP2018146715A (ja) | 音声対話装置、その処理方法及びプログラム | |
US11163812B2 (en) | Classification apparatus and classification method | |
CN111326154A (zh) | 语音交互的方法、装置、存储介质及电子设备 | |
US11790916B2 (en) | Speech-to-text system | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN115509485A (zh) | 一种业务表单的填写方法、装置、电子设备和存储介质 | |
CN109460548B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
CN113590871A (zh) | 一种音频分类方法、装置及计算机可读存储介质 | |
JP2011170622A (ja) | コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム | |
EP3951775A1 (en) | Method for generating speaker-marked text | |
JP6260138B2 (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
KR102673867B1 (ko) | 맞장구 대화 말뭉치 제공 장치 및 방법 | |
CN112397060B (zh) | 一种语音指令处理方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |