CN105740356A - 一种对目标音频进行标记的方法和装置 - Google Patents
一种对目标音频进行标记的方法和装置 Download PDFInfo
- Publication number
- CN105740356A CN105740356A CN201610051347.8A CN201610051347A CN105740356A CN 105740356 A CN105740356 A CN 105740356A CN 201610051347 A CN201610051347 A CN 201610051347A CN 105740356 A CN105740356 A CN 105740356A
- Authority
- CN
- China
- Prior art keywords
- classification
- target
- classification information
- target audio
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000002372 labelling Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种对目标音频进行标记的方法和装置,属于网络技术领域。所述方法包括:获取目标音频;对目标音频进行语音识别,获取第一文本信息;获取与第一文本信息对应的类别信息;根据类别信息对目标音频进行标记处理。采用本公开,可以提高查找音频的效率。
Description
技术领域
本公开是关于网络技术领域,尤其是关于一种对目标音频进行标记的方法和装置。
背景技术
随着网络技术以及无线通信技术的发展,用户可以通过终端收听音频节目,比如可以通过收音机收听电台节目,或者通过音频播放设备收听歌曲或故事类节目。
用户通过终端收听节目时,可以对自己喜欢的节目进行收藏,随着时间的推移,用户可能收藏的节目越来越多,当用户再次查看收藏的某节目时,节目的数量比较多,收藏时间比较长,可能记不清每个节目对应的内容,需要再次播放节目才能帮助用户回忆起节目的内容,逐一排查方可找到用户想要再次查看的节目,从而,导致查找的效率较低。
发明内容
为了克服相关技术中存在的问题,本公开提供了一种对目标音频进行标记的方法和装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种对目标音频进行标记的方法,所述方法包括:
获取目标音频;
对所述目标音频进行语音识别,获取第一文本信息;
获取与所述第一文本信息对应的类别信息;
根据所述类别信息对所述目标音频进行标记处理。
可选的,所述获取与所述第一文本信息对应的类别信息,包括:
对所述第一文本信息进行分词处理,获取所述第一文本信息的目标词语;
根据所述目标词语所属的类别,获取所述类别信息。
可选的,所述根据所述目标词语所属的类别,获取所述类别信息,包括:
获取各目标词语所属的类别;
根据第一类别获取所述类别信息,所述第一类别为所述所属的类别中包含的目标词语的数量大于预定数量的类别。
这样,可以更准确的确定出目标音频对应的类别。
可选的,所述根据所述目标词语所属的类别,获取所述类别信息,包括:
获取各目标词语所属的类别;
根据第二类别获取所述类别信息,所述第二类别为所述所属的类别中包含的目标词语的数量最大的类别。
这样,可以更准确的确定出目标音频对应的类别。
可选的,所述根据所述类别信息对所述目标音频进行标记处理,包括:
根据所述类别信息,显示所述目标音频对应的类别标记;或者,
根据所述类别信息,标记所述目标音频的类别。
可选的,所述目标音频为目标广播频道的音频。
根据本公开实施例的第二方面,提供一种对目标音频进行标记的装置,所述装置包括:
第一获取模块,用于获取目标音频;
第二获取模块,用于对所述第一获取模块获取的目标音频进行语音识别,获取第一文本信息;
第三获取模块,用于获取与所述第二获取模块获取的第一文本信息对应的类别信息;
标记模块,用于根据所述第三获取模块获取的类别信息对所述目标音频进行标记处理。
可选的,所述第三获取模块,包括:
分词子模块,用于对所述第一文本信息进行分词处理,获取所述第一文本信息的目标词语;
获取子模块,用于根据所述分词子模块获取的目标词语所属的类别,获取所述类别信息。
可选的,所述获取子模块,包括:
第一获取单元,用于获取各目标词语所属的类别;
第二获取单元,用于根据所述第一获取单元获取的第一类别获取所述类别信息,所述第一类别为所述所属的类别中包含的目标词语的数量大于预定数量的类别。
可选的,所述获取子模块,包括:
第三获取单元,用于获取各目标词语所属的类别;
第四获取单元,用于根据所述第三获取单元获取的第二类别获取所述类别信息,所述第二类别为所述所属的类别中包含的目标词语的数量最大的类别。
可选的,所述标记模块,用于:
根据所述类别信息,显示所述目标音频对应的类别标记;或者,
根据所述类别信息,标记所述目标音频的类别。
可选的,所述目标音频为目标广播频道的音频。
第三方面,提供了一种对目标音频进行标记的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标音频;
对所述目标音频进行语音识别,获取第一文本信息;
获取与所述第一文本信息对应的类别信息;
根据所述类别信息对所述目标音频进行标记处理。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,获取目标音频,对目标音频进行语音识别,获取第一文本信息,获取与第一文本信息对应的类别信息,根据类别信息对目标音频进行标记处理。这样,可以对收听过的音频进行分类,当用户想查找某一类音频时,可以快速找到想要查找的音频,从而,可以提高查找音频的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。在附图中:
图1是根据一示例性实施例示出的一种对目标音频进行标记的方法的流程图;
图2(a)是根据一示例性实施例示出的一种界面的示意图;
图2(b)是根据一示例性实施例示出的一种界面的示意图;
图3是根据一示例性实施例示出的一种系统的结构示意图;
图4是根据一示例性实施例示出的一种对目标音频进行标记的装置的结构示意图;
图5是根据一示例性实施例示出的一种对目标音频进行标记的装置的结构示意图;
图6是根据一示例性实施例示出的一种对目标音频进行标记的装置的结构示意图;
图7是根据一示例性实施例示出的一种对目标音频进行标记的装置的结构示意图;
图8是根据一示例性实施例示出的一种终端的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开一示例性实施例提供了一种对目标音频进行标记的方法,如图1所示,该方法可以用于终端中,其中,终端可以具有播放音频以及对音频进行标记类别的功能,比如可以是具有播放音频的手机、平板电脑等移动终端,可以是智能收音机。该终端中可以设置有处理器、存储器,处理器可以用于对目标音频进行标记的相关处理,存储器可以用于存储下述处理过程中需要和产生的数据。还可以设置有收发器,收发器可以用于接收和发送数据。
该方法的处理流程可以包括如下的步骤:
在步骤101中,获取目标音频。
在实施中,用户通过具有播放音频功能的终端收听音频节目时,比如收听广播电台或网络电台的音频节目或者通过终端的音频播放器收听歌曲时,可以对喜欢的节目进行收藏,相应的,终端可以存储有收藏列表,以便用户以后对收藏的节目进行查看。终端中可以设置有贴标签按键,用户可以在收藏终端当前播放的音频后,点击上述贴标签按键,将会触发终端接收贴标签指令,进而,终端可以获取当前播放的音频(可以称为目标音频)。
在步骤102中,对目标音频进行语音识别,获取第一文本信息。
在实施中,终端获取目标音频后,可以对获取的目标音频进行语音识别处理,得到其对应的文本信息(可以称为第一文本信息)。
在步骤103中,获取与第一文本信息对应的类别信息。
其中,类别信息可以是目标音频所属的类别的标识,可以是类别的名称,比如,类别信息可以是新闻、体育、音乐、故事等,也可以是上述类别中进一步细化的类型,比如,对于音乐类别信息还可以包括流金岁月、经典老歌、影视金曲等。
在实施中,获取第一文本信息后,进而,可以获取第一文本信息对应的类别信息。
在步骤104中,根据类别信息对目标音频进行标记处理。
在实施中,终端确定类别信息后,可以根据确定出的类别信息,对目标音频进行标记处理。
本公开实施例中,获取目标音频,对目标音频进行语音识别,获取第一文本信息,获取与第一文本信息对应的类别信息,根据类别信息对目标音频进行标记处理。这样,可以对收听过的音频进行分类,当用户想查找某一类音频时,可以快速找到想要查找的音频,从而,可以提高查找音频的效率。
本公开另一示例性实施例提供了一种对目标音频进行标记的方法,如图1所示,该方法可以用于终端中,其中,终端可以具有播放音频以及对音频进行标记类别的功能,比如可以是具有播放音频的手机、平板电脑等移动终端,可以是智能收音机。该终端中可以设置有处理器、存储器,处理器可以用于对目标音频进行标记的相关处理,存储器可以用于存储下述处理过程中需要和产生的数据。还可以设置有收发器,收发器可以用于接收和发送数据。
下面将结合实施方式,对图1所示的处理流程进行进一步地详细说明,内容可以如下:
在步骤101中,获取目标音频。
在实施中,用户通过具有播放音频功能的终端收听音频节目时,比如收听广播电台或网络电台的音频节目或者通过终端的音频播放器收听歌曲时,可以对喜欢的节目进行收藏,相应的,终端可以存储有收藏列表,以便用户以后对收藏的节目进行查看。终端中可以设置有贴标签按键,用户可以在收藏终端当前播放的音频后,点击上述贴标签按键,将会触发终端接收贴标签指令,进而,终端可以获取当前播放的音频(可以称为目标音频)。
另外,终端接收到贴标签指令时,也可以在当前播放的音频中获取预设时长的音频(此时,可以将获取的预设时长的音频称为目标音频),其中,终端可以在接收到贴标签指令的时刻起向前或向后获取预设时长的目标音频,也可以是当前播放的音频的起始时刻开始向后获取预设时长的目标音频,另外,终端也可以在接收到对目标音频的收藏指令时,在当前播放的音频中,获取预设时长的目标音频,也可以在接收到对当前播放的音频的播放指令时,在其中获取预设时长的目标音频。可选的,目标音频为目标广播频道的音频。
在步骤102中,对目标音频进行语音识别,获取第一文本信息。
在实施中,终端获取目标音频后,可以对获取的目标音频进行语音识别处理,得到其对应的文本信息(可以称为第一文本信息)。
在步骤103中,获取与第一文本信息对应的类别信息。
其中,类别信息可以是目标音频所属的类别的标识,可以是类别的名称,比如,类别信息可以是新闻、体育、音乐、故事等,也可以是上述类别中进一步细化的类型,比如,对于音乐类别信息还可以包括流金岁月、经典老歌、影视金曲等。
在实施中,获取第一文本信息后,进而,可以获取第一文本信息对应的类别信息。
可选的,还可以对第一文本信息进行分词处理,相应的,步骤103的处理过程可以如下:对第一文本信息进行分词处理,获取第一文本信息的目标词语;根据目标词语所属的类别,获取类别信息。
在实施中,获取第一文本信息后,可以对得到的第一文本信息进行分词处理,得到第一文本信息包含的各个词(可以称为目标词语),其中,第一文本信息包含的目标词语可以重复,例如,对第一文本信息进行分词处理,得到的目标词语可以是足球、篮球、运动、足球等。
可选的,获取目标词语后可以获取各目标词语所属的类别,相应的处理过程可以如下:获取各目标词语所属的类别。
在实施中,可以预先存储类别与关键词集合的对应关系,以及用于判断第一文本信息包含的各目标词语是否与预先存储的每个关键词集合匹配的条件(可以称为预设匹配条件)。终端得到各目标词语后,可以在预先存储的各关键词集合中,确定与第一文本信息包含的各目标词语满足预设匹配条件的关键词集合(可以称为第一关键词集合),进而,可以根据类别与关键词集合的对应关系,确定第一关键词集合对应的类别,即可以根据预先存储的类别与关键词集合的对应关系,获取与各目标词语满足预设匹配条件的关键词集合所对应的类别,得到各目标词语所属的类别,其中,预设匹配条件可以是类别对应的关键词集合包含各目标词语。另外,终端还可以将第一文本信息包含的各目标词语中的虚词删除,确定与第一文本信息包含的剩余的目标词语满足预设匹配条件的第一关键词集合,进而,获取第一关键词集合对应的类别。
可选的,终端可以根据各目标词语所属的类别分别包含各目标词语的数量,确定类别信息,基于预设匹配条件的不同,相应的处理方式可以多种多样,以下给出了几种可行的处理方式:
方式一,基于包含的各目标词语的数量达到预定数量,相应的,处理过程可以如下:根据第一类别获取类别信息,第一类别为所属的类别中包含的目标词语的数量大于预定数量的类别。
在实施中,获取到各目标词语所属的类别后,可以根据所属的类别中包含的目标词语的数量大于预定数量的类别(可以称为第一类别),获取对应的类别信息。具体的,获取到各目标词语所属的类别后,即确定预先存储的类别中包含各目标词语的类别后,可以统计得到类别中包含各目标词语的数量,根据数量大于预定数量的类别获取对应的类别信息,例如,各目标词语为足球、篮球、开始、排球,足球所属的类别为A,篮球所属的类别为A、B,开始所属的类别为B、C,排球所属的类别为A、B,可以分别统计:类别A包含的各目标词语的数量为3,类别B包含的各目标词语的数量为3,类别C包含的各目标词语的数量为1,若预设数量为2,则可以根据类别A、B获取对应的类别信息。
方式二,基于包含的各目标词语的数量最大,相应的,处理过程可以如下:根据第二类别获取类别信息,第二类别为所属的类别中包含的目标词语的数量最大的类别。
在实施中,获取到各目标词语所属的类别后,可以根据所属的类别中包含的目标词语的数量最大的类别(可以称为第二类别),获取对应的类别信息。具体的,获取到各目标词语所属的类别后,即确定预先存储的类别中包含各目标词语的类别后,可以统计得到类别中包含各目标词语的数量,根据数量最大的类别获取对应的类别信息,例如,各目标词语为足球、篮球、开始、排球,足球所属的类别为A,篮球所属的类别为A,开始所属的类别为B、C,排球所属的类别为A、B,可以分别统计:类别A包含的各目标词语的数量为3,类别B包含的各目标词语的数量为2,类别C包含的各目标词语的数量为1,则可以根据类别A获取对应的类别信息。此外,第二类别可以是多个,也可以是一个。
可选的,终端还可以更新本地预先存储的类别与关键词集合的对应关系,相应的,处理过程可以如下:接收对应关系设置请求,对应关系设置请求中携带有第三类别以及对应的第三关键词集合;基于第三类别以及对应的第三关键词集合,对类别与关键词集合的对应关系进行更新。
在实施中,终端可以对本地预先存储的类别与关键词集合的对应关系进行更新,其中,终端对对应关系进行更新可以由用户进行触发(可以称为情况一),也可以是预先设置更新周期,每到更新周期,终端可以自主进行触发(可以称为情况二)。具体的,终端中可以设置有用于对标记类别功能进行设置的设置按键,其中,用户可以通过该设置按键触发终端对本地预先存储的类别与关键词集合的对应关系进行更新,用户想对对应关系进行更新时,可以点击设置按键,此时,将会触发终端弹出设置窗口,如图2(a)所示,该设置窗口中可以显示有输入框,用户可以在输入框中输入欲增加的类别(即第三类别)对应的类别信息(可以称为第三类别信息)及其对应的关键词集合(可以称为第三关键词集合),此外,设置窗口中也可以是显示有列表选项标识,用户可以点击列表选项标识,终端将会获取终端中已经存储的对应关系中的类别对应的类别信息,用户可以从中选择某一种类别信息(可以称为第三类别信息),并在输入框中输入第三类别对应的关键词集合(可以称为第三关键词集合),设置窗口中还可以显示有确定按键,用户设置完成后,可以点击确定按键,此时,将会触发终端接收对应关系设置请求,其中,对应关系设置请求中可以携带有用户设置的第三类别信息以及对应的第三关键词集合,进而,终端可以对类别与关键词集合的对应关系进行更新,例如,终端中预先存储的对应关系中的类别信息有体育、音乐、笑话,用户想对音乐对应的关键词集合进行更新,如图2(b)所示,可以从列表中选择音乐项后,再在关键词集合对应的输入框中输入关键词,终端即会根据用户的设置对音乐对应的关键词集合进行更新。对于情况二,终端中可以预先设置更新周期,每到预设更新周期,终端可以显示更新提醒窗口,以此来提醒用户是否对终端中的对应关系进行更新,更新提醒窗口中可以显示有确定按键和取消按键,当用户想对对应关系进行更新时,可以点击确定按键,此时将会触发终端显示设置窗口,用户可以按照上述方式进行处理,相应的终端将会对类别与关键词集合的对应关系进行更新,当用户不想对对应关系进行更新时,可以点击取消按键,将会触发终端将更新提醒窗口进行关闭。
可选的,当终端中不存在与各目标词语满足预设匹配条件的关键词集合时,可以向服务器发送类别信息查询请求,相应的,处理过程可以如下:如果本地存储的类别与关键词集合的对应关系中不存在与各目标词语满足预设匹配条件的关键词集合,则向服务器发送携带有各目标词语的类别信息查询请求,以使服务器根据其存储的类别与关键词集合的对应关系,确定与各目标词语满足预设匹配条件的类别信息;接收服务器发送的类别信息。
在实施中,终端获取第一文本信息包含的各目标词语后,可以判断本地中预先存储的类别与关键词集合的对应关系中是否存在与各目标词语满足预设匹配条件的关键词集合,如果不存在,则终端可以向服务器发送类别信息查询请求,其中,类别信息查询请求中可以携带有第一文本信息包含的各目标词语,服务器可以是终端中具有标记类别功能的应用程序对应的后台服务器,如图3所示,服务器可以接收终端发送的类别信息查询请求,并对其进行解析,获取其中携带的第一文本信息包含的各目标词语,进而,服务器可以根据其存储的类别与关键词集合的对应关系,确定与获取的第一文本信息包含的各目标词语满足预设匹配条件的类别信息,其中,服务器中可以预先存储有与终端相同的匹配条件,服务器确定出类别信息后,可以将其发送给终端,终端可以接收服务器发送的类别信息。
可选的,针对目标音频为当前播放音频中的一部分的情况,当终端中不存在与各目标词语满足预设匹配条件的关键词集合时,可以再次获取音频,相应的,处理过程可以如下:如果在预先存储的类别与关键词集合的对应关系中不存在与各目标词语满足预设匹配条件的关键词集合,则在当前播放的音频中,重新获取目标音频,其中,重新获取的目标音频与初始获取的目标音频没有重叠。
在实施中,终端获取第一文本信息包含的各目标词语后,可以判断本地中预先存储的类别与关键词集合的对应关系中是否存在与各目标词语满足预设匹配条件的关键词集合,如果不存在,则终端可以在当前播放的音频中,再次获取目标音频,即重新获取目标音频,其中,重新获取的目标音频与初始获取的目标音频没有重叠,进而,终端可以按照上述步骤102-103的处理方式进行相应的处理。
在步骤104中,根据类别信息对目标音频进行标记处理。
在实施中,终端确定类别信息后,可以根据确定出的类别信息,对目标音频进行标记处理。
可选的,可以对目标音频进行显示,相应的,步骤104的处理过程可以如下:根据类别信息,显示目标音频对应的类别标记;或者,根据类别信息,标记目标音频的类别。
其中,类别标记可以是目标音频所属的类别的标记,可以是上述类别信息。
在实施中,确定类别信息后,可以根据类别信息,显示目标音频对应的类别标记,具体的,当用户想要查看目标音频的类别时,终端可以显示目标音频的类别。或者,终端根据确定出的类别信息,标记目标音频的类别。
本公开实施例中,获取目标音频,对目标音频进行语音识别,获取第一文本信息,获取与第一文本信息对应的类别信息,根据类别信息对目标音频进行标记处理。这样,可以对收听过的音频进行分类,当用户想查找某一类音频时,可以快速找到想要查找的音频,从而,可以提高查找音频的效率。
本公开又一示例性实施例提供了一种对目标音频进行标记的装置,如图4所示,对目标音频进行标记的装置包括:
第一获取模块410,用于获取目标音频;
第二获取模块420,用于对第一获取模块410获取的目标音频进行语音识别,获取第一文本信息;
第三获取模块430,用于获取与第二获取模块420获取的第一文本信息对应的类别信息;
标记模块440,用于根据第三获取模块430获取的类别信息对目标音频进行标记处理。
可选的,如图5所示,第三获取模块430,包括:
分词子模块4301,用于对第一文本信息进行分词处理,获取第一文本信息的目标词语;
获取子模块4302,用于根据分词子模块4301获取的目标词语所属的类别,获取类别信息。
可选的,如图6所示,获取子模块4302,包括:
第一获取单元43021,用于获取各目标词语所属的类别;
第二获取单元43022,用于根据第一获取单元43021获取的第一类别获取类别信息,第一类别为所属的类别中包含的目标词语的数量大于预定数量的类别。
可选的,如图7所示,获取子模块4302,包括:
第三获取单元43023,用于获取各目标词语所属的类别;
第四获取单元43024,用于根据第三获取单元43023获取的第二类别获取类别信息,第二类别为所属的类别中包含的目标词语的数量最大的类别。
可选的,标记模块440,用于:
根据类别信息,显示目标音频对应的类别标记;或者,
根据类别信息,标记目标音频的类别。
可选的,目标音频为目标广播频道的音频。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例中,获取目标音频,对目标音频进行语音识别,获取第一文本信息,获取与第一文本信息对应的类别信息,根据类别信息对目标音频进行标记处理。这样,可以对收听过的音频进行分类,当用户想查找某一类音频时,可以快速找到想要查找的音频,从而,可以提高查找音频的效率。
需要说明的是:上述实施例提供的对目标音频进行标记的装置在对目标音频进行标记时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的对目标音频进行标记的装置与对目标音频进行标记的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本公开再一示例性实施例示出了一种终端的结构示意图。该终端可以是手机等。
参照图8,终端800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制终端800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在终端800的操作。这些数据的示例包括用于在终端800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为终端800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为音频输出设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述终端800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当终端800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当音频输出设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为终端800提供各个方面的状态评估。例如,传感器组件814可以检测到终端800的打开/关闭状态,组件的相对定位,例如所述组件为终端800的显示器和小键盘,传感器组件814还可以检测终端800或终端800一个组件的位置改变,用户与终端800接触的存在或不存在,终端800方位或加速/减速和终端800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于终端800和其他设备之间有线或无线方式的通信。终端800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由终端800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种对目标音频进行标记的方法,该方法包括:
获取目标音频;
对目标音频进行语音识别,获取第一文本信息;
获取与第一文本信息对应的类别信息;
根据类别信息对目标音频进行标记处理。
可选的,获取与第一文本信息对应的类别信息,包括:
对第一文本信息进行分词处理,获取第一文本信息的目标词语;
根据目标词语所属的类别,获取类别信息。
可选的,根据目标词语所属的类别,获取类别信息,包括:
获取各目标词语所属的类别;
根据第一类别获取类别信息,第一类别为所属的类别中包含的目标词语的数量大于预定数量的类别。
可选的,根据目标词语所属的类别,获取类别信息,包括:
获取各目标词语所属的类别;
根据第二类别获取类别信息,第二类别为所属的类别中包含的目标词语的数量最大的类别。
可选的,根据类别信息对目标音频进行标记处理,包括:
根据类别信息,显示目标音频对应的类别标记;或者,
根据类别信息,标记目标音频的类别。
可选的,目标音频为目标广播频道的音频。
本公开实施例中,获取目标音频,对目标音频进行语音识别,获取第一文本信息,获取与第一文本信息对应的类别信息,根据类别信息对目标音频进行标记处理。这样,可以对收听过的音频进行分类,当用户想查找某一类音频时,可以快速找到想要查找的音频,从而,可以提高查找音频的效率。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (13)
1.一种对目标音频进行标记的方法,其特征在于,所述方法包括:
获取目标音频;
对所述目标音频进行语音识别,获取第一文本信息;
获取与所述第一文本信息对应的类别信息;
根据所述类别信息对所述目标音频进行标记处理。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述第一文本信息对应的类别信息,包括:
对所述第一文本信息进行分词处理,获取所述第一文本信息的目标词语;
根据所述目标词语所属的类别,获取所述类别信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标词语所属的类别,获取所述类别信息,包括:
获取各目标词语所属的类别;
根据第一类别获取所述类别信息,所述第一类别为所述所属的类别中包含的目标词语的数量大于预定数量的类别。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标词语所属的类别,获取所述类别信息,包括:
获取各目标词语所属的类别;
根据第二类别获取所述类别信息,所述第二类别为所述所属的类别中包含的目标词语的数量最大的类别。
5.根据权利要求1所述的方法,其特征在于,所述根据所述类别信息对所述目标音频进行标记处理,包括:
根据所述类别信息,显示所述目标音频对应的类别标记;或者,
根据所述类别信息,标记所述目标音频的类别。
6.根据权利要求1所述的方法,其特征在于,所述目标音频为目标广播频道的音频。
7.一种对目标音频进行标记的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标音频;
第二获取模块,用于对所述第一获取模块获取的目标音频进行语音识别,获取第一文本信息;
第三获取模块,用于获取与所述第二获取模块获取的第一文本信息对应的类别信息;
标记模块,用于根据所述第三获取模块获取的类别信息对所述目标音频进行标记处理。
8.根据权利要求7所述的装置,其特征在于,所述第三获取模块,包括:
分词子模块,用于对所述第一文本信息进行分词处理,获取所述第一文本信息的目标词语;
获取子模块,用于根据所述分词子模块获取的目标词语所属的类别,获取所述类别信息。
9.根据权利要求8所述的装置,其特征在于,所述获取子模块,包括:
第一获取单元,用于获取各目标词语所属的类别;
第二获取单元,用于根据所述第一获取单元获取的第一类别获取所述类别信息,所述第一类别为所述所属的类别中包含的目标词语的数量大于预定数量的类别。
10.根据权利要求8所述的装置,其特征在于,所述获取子模块,包括:
第三获取单元,用于获取各目标词语所属的类别;
第四获取单元,用于根据所述第三获取单元获取的第二类别获取所述类别信息,所述第二类别为所述所属的类别中包含的目标词语的数量最大的类别。
11.根据权利要求7所述的装置,其特征在于,所述标记模块,用于:
根据所述类别信息,显示所述目标音频对应的类别标记;或者,
根据所述类别信息,标记所述目标音频的类别。
12.根据权利要求7所述的装置,其特征在于,所述目标音频为目标广播频道的音频。
13.一种对目标音频进行标记的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标音频;
对所述目标音频进行语音识别,获取第一文本信息;
获取与所述第一文本信息对应的类别信息;
根据所述类别信息对所述目标音频进行标记处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051347.8A CN105740356B (zh) | 2016-01-26 | 2016-01-26 | 一种对目标音频进行标记的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051347.8A CN105740356B (zh) | 2016-01-26 | 2016-01-26 | 一种对目标音频进行标记的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105740356A true CN105740356A (zh) | 2016-07-06 |
CN105740356B CN105740356B (zh) | 2020-06-02 |
Family
ID=56246633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610051347.8A Active CN105740356B (zh) | 2016-01-26 | 2016-01-26 | 一种对目标音频进行标记的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105740356B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106254696A (zh) * | 2016-08-02 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 外呼结果确定方法、装置及系统 |
CN109862421A (zh) * | 2018-12-05 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种视频信息识别方法、装置、电子设备及存储介质 |
CN110475132A (zh) * | 2019-08-21 | 2019-11-19 | 广州虎牙科技有限公司 | 直播间类型识别方法、装置及数据处理设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080022844A1 (en) * | 2005-08-16 | 2008-01-31 | Poliner Graham E | Methods, systems, and media for music classification |
CN102624647A (zh) * | 2012-01-12 | 2012-08-01 | 百度在线网络技术(北京)有限公司 | 一种对移动终端的消息进行处理的方法及其装置 |
CN104090880A (zh) * | 2013-10-24 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 音频文件均衡器参数配置的方法和装置 |
CN104123316A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 资源收藏方法、装置和设备 |
CN104615770A (zh) * | 2015-02-13 | 2015-05-13 | 深圳市欧珀通信软件有限公司 | 一种移动终端收藏夹数据的推荐方法及装置 |
-
2016
- 2016-01-26 CN CN201610051347.8A patent/CN105740356B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080022844A1 (en) * | 2005-08-16 | 2008-01-31 | Poliner Graham E | Methods, systems, and media for music classification |
CN102624647A (zh) * | 2012-01-12 | 2012-08-01 | 百度在线网络技术(北京)有限公司 | 一种对移动终端的消息进行处理的方法及其装置 |
CN104123316A (zh) * | 2013-04-28 | 2014-10-29 | 腾讯科技(深圳)有限公司 | 资源收藏方法、装置和设备 |
CN104090880A (zh) * | 2013-10-24 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 音频文件均衡器参数配置的方法和装置 |
CN104615770A (zh) * | 2015-02-13 | 2015-05-13 | 深圳市欧珀通信软件有限公司 | 一种移动终端收藏夹数据的推荐方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106254696A (zh) * | 2016-08-02 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 外呼结果确定方法、装置及系统 |
CN109862421A (zh) * | 2018-12-05 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 一种视频信息识别方法、装置、电子设备及存储介质 |
CN110475132A (zh) * | 2019-08-21 | 2019-11-19 | 广州虎牙科技有限公司 | 直播间类型识别方法、装置及数据处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105740356B (zh) | 2020-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104159275B (zh) | 网络连接方法及装置 | |
CN104580637A (zh) | 电话号码标记方法、终端及云服务器 | |
CN105653276A (zh) | 用于语言设置的方法及装置 | |
CN105095427A (zh) | 搜索推荐方法和装置 | |
CN105407433A (zh) | 控制声音输出设备的方法及装置 | |
CN104216972A (zh) | 一种发送打车业务请求的方法和装置 | |
CN104268129A (zh) | 消息回复的方法及装置 | |
CN105677392A (zh) | 应用程序的推荐方法和装置 | |
CN105406882A (zh) | 终端设备控制方法及装置 | |
CN105447109A (zh) | 关键字词搜索方法及装置 | |
CN105704016A (zh) | 一种群消息屏蔽处理方法、装置及终端 | |
CN104111979A (zh) | 搜索推荐方法和装置 | |
CN104331503A (zh) | 信息推送的方法及装置 | |
CN105677338A (zh) | 应用程序显示方法及装置 | |
CN104539812A (zh) | 推荐信息获取方法、终端及服务器 | |
CN103944709A (zh) | 一种数据同步方法及装置 | |
CN105808647A (zh) | 消息编辑的处理方法和装置 | |
CN105160009A (zh) | 资源下载方法和装置 | |
CN104636476A (zh) | 推荐好友的方法及装置 | |
CN105740356A (zh) | 一种对目标音频进行标记的方法和装置 | |
CN104486295A (zh) | 音频播放方法和装置 | |
CN107402767A (zh) | 显示推送消息的方法和装置 | |
CN104702988A (zh) | 音视频播放方法和装置 | |
CN104182473A (zh) | 设置选项的显示方法及装置 | |
CN105912202A (zh) | 应用分享方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |