CN108174236A - 一种媒体文件处理方法、服务器及移动终端 - Google Patents
一种媒体文件处理方法、服务器及移动终端 Download PDFInfo
- Publication number
- CN108174236A CN108174236A CN201711405232.5A CN201711405232A CN108174236A CN 108174236 A CN108174236 A CN 108174236A CN 201711405232 A CN201711405232 A CN 201711405232A CN 108174236 A CN108174236 A CN 108174236A
- Authority
- CN
- China
- Prior art keywords
- media file
- audio track
- track files
- mobile terminal
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 230000001755 vocal effect Effects 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011946 reduction process Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010295 mobile communication Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000001491 myopia Diseases 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种媒体文件处理方法、服务器及移动终端,涉及移动通信技术领域,所述方法应用于服务器,所述方法包括:获取待处理的媒体文件;按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。本发明通过对媒体文件进行分轨,得到多个音轨文件,便于移动终端对音轨文件进行处理,从而满足用户在播放媒体文件时的个性化需求,且操作便捷,易于使用。
Description
技术领域
本发明实施例涉及移动通信技术领域,尤其涉及一种媒体文件处理方法、服务器及移动终端。
背景技术
随着移动通信技术的迅速发展,以智能手机为首的移动终端已成为人们生活中各方面不可或缺的工具,移动终端的各种的功能也逐渐完善,特别是拍摄功能。当前,利用手机拍摄成为不少用户的最佳选择,比如在参见会议过程中,不再需要用纸笔记录,可以用照片、录音等形式记录下会议内容,方便回看整理;或者出去游玩也可以用照片、视频记录下来,以供日后回忆。并且由于网络社交媒体的发达,进一步促进了用户的拍摄行为,分享、互相点赞使得照片、录音、短视频等媒体文件在互联网上广泛传播。
目前,利用移动终端拍摄媒体文件时,存在声音效果较差的问题。为了解决该问题,现有技术通过专用软件对视频的声音进行编辑,或者通过多麦收音等方式获得多音轨,专业性较强,操作较为复杂,且无法满足用户播放媒体文件时的个性化需求。
发明内容
本发明提供了一种媒体文件处理方法、服务器及移动终端,其目的是为了解决现有技术操作较为复杂,且无法满足用户播放媒体文件时的个性化需求的问题。
为了解决上述技术问题,本发明是这样实现的:一种媒体文件处理方法,所述方法应用于服务器,所述方法包括:
获取待处理的媒体文件;
按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
第一方面,本发明的实施例还提供了一种媒体文件处理方法,应用于移动终端,所述方法包括:
接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹;
对至少一个所述音轨文件进行处理。
第二方面,本发明的实施例还提供了一种服务器,所述服务器包括:
第一获取模块,用于获取待处理的媒体文件;
分轨模块,用于按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
第三方面,本发明的实施例还提供了一种移动终端,其特征在于,所述移动终端包括:
接收模块,用于接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹;
处理模块,用于对至少一个所述音轨文件进行处理。
第四方面,本发明的实施例还提供了一种移动终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述媒体文件处理方法中的步骤。
第五方面,本发明的实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述媒体文件处理方法中的步骤。
在本发明的实施例中,通过对媒体文件进行分轨,得到多个音轨文件,便于移动终端对音轨文件进行处理,从而满足用户在播放媒体文件时的个性化需求,且操作便捷,易于使用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1表示本发明实施例提供的媒体文件处理方法的流程图之一;
图2表示本发明实施例的具体示例的场景示意图;
图3表示本发明实施例提供的服务器的框图之一;
图4表示本发明实施例提供的服务器的框图之二;
图5表示本发明实施例提供的媒体文件处理方法的流程图之二;
图6表示本发明的实施例提供的移动终端的框图之一;
图7表示本发明的实施例提供的移动终端的框图之二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参见图1,本发明实施例提供了一种媒体文件处理方法,应用于服务器,所述方法包括:
步骤101,获取待处理的媒体文件。
其中,待处理的媒体文件可以是视频文件或音频文件,比如在视频文件中,移动终端可将视频文件上传至服务器,服务器从视频文件中提取出音频文件;
若媒体文件本身是音频文件,则直接获取该媒体文件即可。
步骤102,按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
其中,服务器接收到媒体文件之后,提取媒体文件中的声纹信息,进行声纹识别。具体地,声纹识别是一中提取声音特征和以及声音内容信息,自动核验说话人身份的技术。由于人的语音声学存在相对稳定性,通常可区别不同的人声,即使在嘈杂的环境中,也可较为精准的识别声纹。
服务器提取出媒体文件中的一种或多种声纹,依据不同声纹对媒体文件进行分轨处理,处理后的媒体文件中包括多个音轨文件,每个所述音轨文件仅包括一种声纹,这样就将媒体文件的音频部分分成了多个独立的音轨文件,将处理后的媒体文件发送至移动终端之后,移动终端可根据需要提取所需的声纹的音轨文件,比如在播放视频时,过滤环境的杂音,仅播放特定的人的声音。
在本发明的实施例中,通过对媒体文件进行分轨,得到多个音轨文件,便于移动终端对音轨文件进行处理,从而满足用户在播放媒体文件时的个性化需求,且操作便捷,易于使用。
优选地,本发明的一具体实施例中,步骤102包括:
步骤1021,提取所述媒体文件中的声纹数据;
步骤1022,将每个所述声纹数据的文件,从所述媒体文件中分离,得到多个音轨文件。
该实施例中,接收到媒体文件之后,通过声纹识别提取不同的声纹,并将不同声纹的数据从媒体文件中分离,得到每个声纹数据的音轨文件。
本发明的一具体实施例中,优选地,步骤1021之后,还包括:
步骤1023,为每个所述声纹数据添加标签。
该实施例中,在分离出音轨文件之后,为每个音轨文件添加标签,以在反馈至移动终端时,将标签反馈至移动终端,使得移动终端的用户获知不同的声纹。
本发明的一具体实施例中,优选地,步骤1023包括:
步骤10231,将每个所述声纹数据与预先存储的声纹样本进行匹配;
步骤10232,若匹配成功,为所述声纹数据添加与相匹配的声纹样本对应的标签;否则,为所述声纹数据添加表示匹配失败的预设标签。
该实施例中,服务器端设置有数据库,数据库中包括多种声纹样本,便于为各类声纹数据设置标签;具体地,数据中主要包括两种类型的声纹样本:通用型和定制型;通用型样本包含自然界和现实中已公开的音频,如各种乐器,动物,环境音等,无需再进行二级标签识别。定制型数据包含用户自行上传且已定义标签的音频,或根据通话、录音、视频等数据中提取手机联系人的声纹样本等。
服务器将每个所述声纹数据与预先存储的声纹样本进行匹配,并为匹配成功的音轨文件添加标签;对于无法匹配的声纹数据添加表示匹配失败的预设标签。
本发明实现方式简单,语音获取成本低,无需额外的录音设备或装置。
目前,通过互联网等资源,可以较容易获取大量的声纹样本,组建数据库,也可通过用户自行上传并定义的标签音频获取,同时通过大数据采集,可以不断增加用户的联系人的声纹样本。
本发明的一具体实施例中,优选地,所述得到多个音轨文件的步骤之后,还包括:
分别对所述音轨文件进行降噪处理和/或音量均衡处理。
该实施例中,服务器对每个音轨文件进行降噪处理和/或音量均衡处理,提升音轨文件质量;对于用户而言,不需要学习复杂的音频编辑过程,既可以简单的提取声音进行编辑,也可以实现降噪,提升用户体验。
本发明的一具体实施例中,优选地,所述方法还包括:
接收移动终端上传的包括未识别的声纹的文件,以及所述未识别的声纹的标签;
提取所述未识别的声纹,作为声纹样本;
将所述声纹样本与所上传的标签进行关联存储。
该实施例中,服务器可接收移动终端上传的包括所述服务器未识别的声纹的文件,以及标签,并提取声纹样本,将声纹样本与所上传的标签进行关联存储。
本发明的一具体实施例中,优选地,所述获取待处理的媒体文件的步骤包括:
获取移动终端上传的媒体文件。
该实施例中,服务器所获取的媒体文件可以是移动终端上传的,也可以是其他途径获得的。
进一步地,本发明的一具体实施例中,所述获取移动终端上传的媒体文件的步骤包括:
接收移动终端上传的视频文件,从所述视频文件中提取所述媒体文件。
该实施例中,移动终端可将视频文件上传至服务器,服务器从视频文件中提取出音频文件。
进一步地,本发明的一具体实施例中,步骤102之后,所述方法还包括:
将所述音轨文件发送给移动终端。
本步骤中,服务器将处理后的音轨文件发送至移动终端,移动终端可根据需要提取所需的声纹的音轨文件,比如在播放视频时,过滤环境的杂音,仅播放特定的人的声音。
作为具体示例,参见图2,图2所示的场景示意图中,移动终端与服务器分别进行如下交互过程:
移动终端侧:
1,拍摄或录制音视频。
移动终端拍摄或录制音频,并保存普通视频格式和音频格式。
2,提取音视频中的音轨文件。
此时的音轨文件为音视频文件的原音轨文件,
3,上传至服务器。
将提取的音轨文件通过互联网上传到服务器。
服务器侧:
4,分轨处理。
提取移动终端上传的原音轨文件中的声纹,依据不同的声纹对原音轨文件分轨处理,得到多个包括单个声纹的音轨文件。
5,声纹识别。
服务器将提取的音轨文件中的声纹与声纹样本进行匹配,为每个音轨文件分别添加标签。
其中,无法匹配的可标注未知1,未知2。
6,音频编辑。
对各音轨文件进行降噪处理,降噪范围依据各音轨的标签调整,如环境音则不做处理保留噪音,人声或动物声音则适当降噪去除杂音突出原声。
以及对各音轨进行音量均衡处理,处理原则为响度电平值接近但不超过峰值,避免音量太小或音量太大。
7,反馈至移动终端。
将处理后的音频或视频发送至移动终端。
移动终端侧:
8,选取音频。
用户在移动终端上可直观看到各个音轨的标签,并可依据标签选择自己想听的声音。
本发明的实施例中,通过对待处理的媒体文件进行分轨,依据不同的声纹信息,将所述媒体文件的音频部分分成了多个音轨文件,将处理后的媒体文件发送至移动终端之后,可通过移动终端实现单独播放媒体文件中特定的一个或多个声纹,过滤环境中的杂音;还可在播放时,单独调整特定声纹的音量,避免远距离录制的音频声音偏小;以及在音频转文本时,实现不同声纹的音频内容分别转换。本发明操作过程简单,提升了用户的使用体验,解决了拍摄音视频时声音效果较差,且用户难以进行声音控制处理的问题。
参见图3,本发明实施例还提供了一种服务器300,所述服务器300包括:
第一获取模块301,用于获取待处理的媒体文件。
其中,待处理的媒体文件可以是视频文件或音频文件,比如在视频文件中,移动终端可将视频文件上传至服务器,服务器从视频文件中提取出音频文件;
若媒体文件本身是音频文件,则直接获取该媒体文件即可。
分轨模块302,用于按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
其中,服务器300接收到媒体文件之后,提取媒体文件中的声纹信息,进行声纹识别。具体地,声纹识别是一中提取声音特征和以及声音内容信息,自动核验说话人身份的技术。由于人的语音声学存在相对稳定性,通常可区别不同的人声,即使在嘈杂的环境中,也可较为精准的识别声纹。
服务器300提取出媒体文件中的一种或多种声纹,依据不同声纹对媒体文件进行分轨处理,处理后的媒体文件中包括多个音轨文件,每个所述音轨文件仅包括一种声纹,这样就将媒体文件的音频部分分成了多个独立的音轨文件,将处理后的媒体文件发送至移动终端之后,移动终端可根据需要提取所需的声纹的音轨文件,比如在播放视频时,过滤环境的杂音,仅播放特定的人的声音。
可选地,参见图4,所述分轨模块302包括:
提取子模块3021,用于提取所述媒体文件中的声纹数据;
分离子模块3022,用于将每个所述声纹数据的文件,从所述媒体文件中分离,得到多个音轨文件。
可选地,参见图4,服务器300还包括:
标签模块303,用于在所述提取子模块提取所述媒体文件中的声纹数据之后,
为每个所述声纹数据添加标签。
可选地,所述标签模块303用于:
将每个所述声纹数据与预先存储的声纹样本进行匹配;
若匹配成功,为所述声纹数据添加与相匹配的声纹样本对应的标签;
否则,为所述声纹数据添加表示匹配失败的预设标签。
可选地,参见图4,服务器300还包括:
处理模块304,用于在所述分轨模块302得到多个音轨文件之后,
分别对所述音轨文件进行降噪处理和/或音量均衡处理。
可选地,参见图4,服务器300还包括:
样本处理模块305,用于接收移动终端上传的包括未识别的声纹的文件,以及所述未识别的声纹的标签;
提取所述未识别的声纹,作为声纹样本;
将所述声纹样本与所上传的标签进行关联存储。
可选地,所述第一获取模块301包括:
获取子模块3011,用于获取移动终端上传的媒体文件。
可选地,所述获取子模块3011用于:
接收移动终端上传的视频文件,从所述视频文件中提取音频文件。
可选地,参见图4,服务器300还包括:
第一发送模块306,用于将所述音轨文件发送给移动终端。
在本发明的实施例中,通过对待处理的媒体文件进行分轨,依据不同的声纹信息,将所述媒体文件的音频部分分成了多个音轨文件,将处理后的媒体文件发送至移动终端之后,可通过移动终端实现单独播放媒体文件中特定的一个或多个声纹,过滤环境中的杂音;还可在播放时,单独调整特定声纹的音量,避免远距离录制的音频声音偏小;以及在音频转文本时,实现不同声纹的音频内容分别转换。本发明通过对媒体文件进行分轨,得到多个音轨文件,便于移动终端对音轨文件进行处理,从而满足用户在播放媒体文件时的个性化需求,且操作便捷,易于使用,解决了声音效果较差,且用户难以进行声音控制处理的问题。
参见图5,本发明实施例提供了一种媒体文件处理方法,应用于移动终端,所述方法包括:
步骤501,接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹。
其中,每个所述音轨文件仅包括一种声纹,服务器在获取到媒体文件之后,提取出媒体文件中的一种或多种声纹,依据不同声纹对媒体文件进行分轨处理,处理后的媒体文件中包括多个音轨文件,每个所述音轨文件仅包括一种声纹,这样就将媒体文件的音频部分分成了多个独立的音轨文件,将处理后的媒体文件发送至移动终端。
步骤502,对至少一个所述音轨文件进行处理。
本步骤中,移动终端可根据需要提取所需的声纹的音轨文件,对至少一个所述音轨文件进行处理。比如在播放视频时,过滤环境的杂音,仅播放特定的人的声音,并对该音轨文件调节音量等。
可选地,所述处理后的媒体文件还包括每个所述音轨文件的标签;
所述对至少一个所述音轨文件进行处理的步骤,还包括:
在播放所述媒体文件时,根据用户所选中的标签,处理与所述标签对应的音轨文件。
其中,标签用于用户选择目标音轨文件。处理与所述标签对应的音轨文件包括播放与所述标签对应的音轨文件,或其他处理操作,需要说明的是,处理的过程中,仅对与所述标签对应的音轨文件进行处理。
移动终端在播放所述媒体文件时,根据用户所选中的标签,仅播放与所述标签对应的音轨文件,比如以下两个场景:
场景一:用户A参加一场会议,会议有领导B、同事C、同事D参与,会议过程中有多次讨论。A将会议过程录下来,后期回放时,想清晰的听B的全程发言,就可以通过声纹识别后的成果,将B的声音调大。
场景二:用户X参加带着宠物Y去公园玩耍,Y左奔右跑特别兴奋,也引起了路人的关注,来跟它一起玩。X把这一过程都录制下来,他想突出宠物Y的可爱,将宠物Y的声音调大,将路人说话的声音调小。
可选地,步骤501之前,所述方法还包括:
向所述服务器上传媒体文件。
其中,向所述服务器上传媒体文件,以使服务器对所述媒体文件进行分轨。
可选地,所述方法还包括:向所述服务器上传包括声纹样本的文件,以及所述声纹样本的标签。
其中,可由移动终端向服务器上传声纹样本以及标签,本发明实现方式简单,语音获取成本低,无需额外的录音设备或装置。
目前,通过互联网等资源,可以较容易获取大量的声纹样本,组建数据库,也可通过用户自行上传并定义的标签音频获取,同时通过大数据采集,可以不断增加用户的联系人的声纹样本。
本发明的上述实施例中,通过接收服务器发送的多个音轨文件,对至少一个所述音轨文件进行处理,移动终端可实现单独播放媒体文件中特定的一个或多个声纹,过滤环境中的杂音;还可在播放时,单独调整特定声纹的音量,避免远距离录制的音频声音偏小;以及在音频转文本时,实现不同声纹的音频内容分别转换。本发明操作过程简单,提升了用户的使用体验,解决了拍摄音视频时声音效果较差,且用户难以进行声音控制处理的问题。
参见图6,本发明实施例还提供了一种移动终端600,所述移动终端600包括:
接收模块601,用于接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹。
其中,每个所述音轨文件仅包括一种声纹,服务器在获取到媒体文件之后,提取出媒体文件中的一种或多种声纹,依据不同声纹对媒体文件进行分轨处理,处理后的媒体文件中包括多个音轨文件,每个所述音轨文件仅包括一种声纹,这样就将媒体文件的音频部分分成了多个独立的音轨文件,将处理后的媒体文件发送至移动终端600。
处理模块602,用于对至少一个所述音轨文件进行处理。
其中,移动终端600可根据需要提取所需的声纹的音轨文件,对至少一个所述音轨文件进行处理。比如在播放视频时,过滤环境的杂音,仅播放特定的人的声音,并对该音轨文件调节音量等。
可选地,所述处理后的媒体文件还包括每个所述音轨文件的标签;
所述处理模块602,用于在播放所述媒体文件时,根据用户所选中的标签,处理与所述标签对应的音轨文件。
可选地,移动终端600还包括:
上传模块,用于在所述接收模块601接收服务器发送的多个音轨文件之前,向所述服务器上传媒体文件。
本发明实施例提供的移动终端600能够实现图1至图5的方法实施例中移动终端600实现的各个过程,为避免重复,这里不再赘述。
本发明的实施例中,通过接收服务器发送的多个音轨文件,对至少一个所述音轨文件进行处理,移动终端600可实现单独播放媒体文件中特定的一个或多个声纹,过滤环境中的杂音;还可在播放时,单独调整特定声纹的音量,避免远距离录制的音频声音偏小;以及在音频转文本时,实现不同声纹的音频内容分别转换。本发明操作过程简单,提升了用户的使用体验,解决了在拍摄音视频时声音效果较差,且用户难以进行声音控制处理的问题。
图7为实现本发明各个实施例的一种移动终端的硬件结构示意图,
该移动终端700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。本领域技术人员可以理解,图7中示出的移动终端结构并不构成对移动终端的限定,移动终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,射频单元701,用于接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹;
处理器710,用于对至少一个所述音轨文件进行处理。
本发明的实施例中,通过接收服务器发送的多个音轨文件,对至少一个所述音轨文件进行处理,移动终端可实现单独播放媒体文件中特定的一个或多个声纹,过滤环境中的杂音;还可在播放时,单独调整特定声纹的音量,避免远距离录制的音频声音偏小;以及在音频转文本时,实现不同声纹的音频内容分别转换。本发明操作过程简单,提升了用户的使用体验,解决了拍摄音视频时声音效果较差,且用户难以进行声音控制处理的问题。
应理解的是,本发明实施例中,射频单元701可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器710处理;另外,将上行的数据发送给基站。通常,射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元701还可以通过无线通信系统与网络和其他设备通信。
移动终端通过网络模块702为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元703还可以提供与移动终端700执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。
输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克风7042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。
移动终端700还包括至少一种传感器705,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度,接近传感器可在移动终端700移动到耳边时,关闭显示面板7061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。
用户输入单元707可用于接收输入的数字或字符信息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器710,接收处理器710发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071,用户输入单元707还可以包括其他输入设备7072。具体地,其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板7071可覆盖在显示面板7061上,当触控面板7071检测到在其上或附近的触摸操作后,传送给处理器710以确定触摸事件的类型,随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中,触控面板7071与显示面板7061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板7071与显示面板7061集成而实现移动终端的输入和输出功能,具体此处不做限定。
接口单元708为外部装置与移动终端700连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端700内的一个或多个元件或者可以用于在移动终端700和外部装置之间传输数据。
存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器709可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器710是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器709内的软件程序和/或模块,以及调用存储在存储器709内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器710可包括一个或多个处理单元;优选的,处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
移动终端700还可以包括给各个部件供电的电源711(比如电池),优选的,电源711可以通过电源管理系统与处理器710逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,移动终端700包括一些未示出的功能模块,在此不再赘述。
优选的,本发明实施例还提供一种移动终端,包括处理器710,存储器709,存储在存储器709上并可在所述处理器710上运行的计算机程序,该计算机程序被处理器710执行时实现上述媒体文件处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述媒体文件处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (15)
1.一种媒体文件处理方法,应用于服务器,其特征在于,所述方法包括:
获取待处理的媒体文件;
按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
2.根据权利要求1所述的方法,其特征在于,所述按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件的步骤,包括:
提取所述媒体文件中的声纹数据;
将每个所述声纹数据的文件,从所述媒体文件中分离,得到多个音轨文件。
3.根据权利要求2所述的方法,其特征在于,所述提取所述媒体文件中的声纹数据的步骤之后,还包括:
为每个所述声纹数据添加标签;包括:
将每个所述声纹数据与预先存储的声纹样本进行匹配;
若匹配成功,为所述声纹数据添加与相匹配的声纹样本对应的标签;
否则,为所述声纹数据添加表示匹配失败的预设标签。
4.根据权利要求2所述的方法,其特征在于,所述得到多个音轨文件的步骤之后,还包括:
分别对所述音轨文件进行降噪处理和/或音量均衡处理。
5.根据权利要求1所述的方法,其特征在于,包括:
接收移动终端上传的包括未识别的声纹的文件,以及所述未识别的声纹的标签;
提取所述未识别的声纹,作为声纹样本;
将所述声纹样本与所上传的标签进行关联存储。
6.根据权利要求1所述的方法,其特征在于,所述得到多个音轨文件的步骤之后,还包括:
将所述音轨文件发送给移动终端。
7.一种媒体文件处理方法,应用于移动终端,其特征在于,所述方法包括:
接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹;
对至少一个所述音轨文件进行处理。
8.根据权利要求7所述的方法,其特征在于,所述媒体文件还包括每个所述音轨文件的标签;
所述对至少一个所述音轨文件进行处理的步骤,包括:
在播放所述媒体文件时,根据用户所选中的标签,处理与所述标签对应的音轨文件。
9.根据权利要求8所述的方法,其特征在于,所述接收服务器发送的多个音轨文件的步骤之前,还包括:
向所述服务器上传媒体文件。
10.一种服务器,其特征在于,所述服务器包括:
第一获取模块,用于获取待处理的媒体文件;
分轨模块,用于按照所述媒体文件的声纹信息,对所述媒体文件进行分轨,得到多个音轨文件,每个所述音轨文件对应至少一种声纹。
11.一种移动终端,其特征在于,所述移动终端包括:
接收模块,用于接收服务器发送的多个音轨文件,所述多个音轨文件是由同一个媒体文件分轨得到的,每个所述音轨文件对应至少一种声纹;
处理模块,用于对至少一个所述音轨文件进行处理。
12.根据权利要求11所述的移动终端,其特征在于,所述媒体文件还包括每个所述音轨文件的标签;
所述处理模块用于在播放所述媒体文件时,根据用户所选中的标签,处理与所述标签对应的音轨文件。
13.根据权利要求12所述的移动终端,其特征在于,还包括:
上传模块,用于在所述接收模块接收服务器发送的多个音轨文件之前,
向所述服务器上传媒体文件。
14.一种移动终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求7至9中任一项所述的媒体文件处理方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求7至9中任一项所述的媒体文件处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711405232.5A CN108174236A (zh) | 2017-12-22 | 2017-12-22 | 一种媒体文件处理方法、服务器及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711405232.5A CN108174236A (zh) | 2017-12-22 | 2017-12-22 | 一种媒体文件处理方法、服务器及移动终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108174236A true CN108174236A (zh) | 2018-06-15 |
Family
ID=62523383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711405232.5A Pending CN108174236A (zh) | 2017-12-22 | 2017-12-22 | 一种媒体文件处理方法、服务器及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108174236A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810575A (zh) * | 2017-05-04 | 2018-11-13 | 杭州海康威视数字技术股份有限公司 | 一种发送目标视频的方法和装置 |
CN110674351A (zh) * | 2019-10-09 | 2020-01-10 | 常州市小先信息技术有限公司 | 一种用于监控系统的音频数字标签检索系统及方法 |
CN110992984A (zh) * | 2019-12-02 | 2020-04-10 | 新华智云科技有限公司 | 音频处理方法及装置、存储介质 |
CN111526242A (zh) * | 2020-04-30 | 2020-08-11 | 维沃移动通信有限公司 | 音频处理方法、装置和电子设备 |
CN111540370A (zh) * | 2020-04-21 | 2020-08-14 | 闻泰通讯股份有限公司 | 音频处理方法、装置、计算机设备及计算机可读存储介质 |
CN112702510A (zh) * | 2020-12-17 | 2021-04-23 | 珠海格力电器股份有限公司 | 信息发布方法、控制装置及系统、存储介质 |
CN113014983A (zh) * | 2021-03-08 | 2021-06-22 | Oppo广东移动通信有限公司 | 视频播放方法、装置、存储介质及电子设备 |
CN113674724A (zh) * | 2021-08-18 | 2021-11-19 | 青岛海信移动通信技术股份有限公司 | 专辑文件的解析文件生成方法和终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
-
2017
- 2017-12-22 CN CN201711405232.5A patent/CN108174236A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN102760434A (zh) * | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
US20150112680A1 (en) * | 2012-07-09 | 2015-04-23 | Huawei Device Co., Ltd. | Method for Updating Voiceprint Feature Model and Terminal |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
CN105975569A (zh) * | 2016-05-03 | 2016-09-28 | 深圳市金立通信设备有限公司 | 一种语音处理的方法及终端 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108810575A (zh) * | 2017-05-04 | 2018-11-13 | 杭州海康威视数字技术股份有限公司 | 一种发送目标视频的方法和装置 |
CN110674351A (zh) * | 2019-10-09 | 2020-01-10 | 常州市小先信息技术有限公司 | 一种用于监控系统的音频数字标签检索系统及方法 |
CN110992984A (zh) * | 2019-12-02 | 2020-04-10 | 新华智云科技有限公司 | 音频处理方法及装置、存储介质 |
CN110992984B (zh) * | 2019-12-02 | 2022-12-06 | 新华智云科技有限公司 | 音频处理方法及装置、存储介质 |
CN111540370A (zh) * | 2020-04-21 | 2020-08-14 | 闻泰通讯股份有限公司 | 音频处理方法、装置、计算机设备及计算机可读存储介质 |
CN111526242A (zh) * | 2020-04-30 | 2020-08-11 | 维沃移动通信有限公司 | 音频处理方法、装置和电子设备 |
CN111526242B (zh) * | 2020-04-30 | 2021-09-07 | 维沃移动通信有限公司 | 音频处理方法、装置和电子设备 |
CN112702510A (zh) * | 2020-12-17 | 2021-04-23 | 珠海格力电器股份有限公司 | 信息发布方法、控制装置及系统、存储介质 |
CN113014983A (zh) * | 2021-03-08 | 2021-06-22 | Oppo广东移动通信有限公司 | 视频播放方法、装置、存储介质及电子设备 |
CN113674724A (zh) * | 2021-08-18 | 2021-11-19 | 青岛海信移动通信技术股份有限公司 | 专辑文件的解析文件生成方法和终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108174236A (zh) | 一种媒体文件处理方法、服务器及移动终端 | |
CN108337558A (zh) | 音视频剪辑方法及终端 | |
CN108108214A (zh) | 一种操作引导方法、装置及移动终端 | |
CN107784114A (zh) | 表情图像的推荐方法、装置、终端及存储介质 | |
CN107358227A (zh) | 一种标记识别方法、移动终端以及计算机可读存储介质 | |
CN107864353B (zh) | 一种视频录制方法及移动终端 | |
CN108062404A (zh) | 人脸图像的处理方法、装置、可读存储介质及终端 | |
CN109257498B (zh) | 一种声音处理方法及移动终端 | |
CN108616448A (zh) | 一种信息分享的路径推荐方法及移动终端 | |
CN107635110A (zh) | 一种视频截图方法及终端 | |
CN108920119A (zh) | 一种分享方法及移动终端 | |
CN109308178A (zh) | 一种语音画图方法及其终端设备 | |
CN110097872A (zh) | 一种音频处理方法及电子设备 | |
CN108763475B (zh) | 一种录制方法、录制装置及终端设备 | |
CN109993821A (zh) | 一种表情播放方法及移动终端 | |
CN108124061A (zh) | 音频数据的存储方法及装置 | |
CN108307043A (zh) | 语音消息转换方法、移动终端及计算机可读存储介质 | |
CN107862059A (zh) | 一种歌曲推荐方法及移动终端 | |
CN107623794A (zh) | 一种语音数据的处理方法、装置及移动终端 | |
CN109391842A (zh) | 一种配音方法、移动终端 | |
CN109495638A (zh) | 一种信息显示方法及终端 | |
CN109166164A (zh) | 一种表情图片的生成方法及终端 | |
CN108446339A (zh) | 一种应用图标的分类方法及移动终端 | |
CN111491058A (zh) | 工作模式的控制方法、电子设备和存储介质 | |
CN108009031A (zh) | 一种应用程序的控制方法及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180615 |