CN108419124B - 一种音频处理方法 - Google Patents

一种音频处理方法 Download PDF

Info

Publication number
CN108419124B
CN108419124B CN201810432441.7A CN201810432441A CN108419124B CN 108419124 B CN108419124 B CN 108419124B CN 201810432441 A CN201810432441 A CN 201810432441A CN 108419124 B CN108419124 B CN 108419124B
Authority
CN
China
Prior art keywords
sound
audio
preset
determining
time range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810432441.7A
Other languages
English (en)
Other versions
CN108419124A (zh
Inventor
易正宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuwo Technology Co Ltd
Original Assignee
Beijing Kuwo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuwo Technology Co Ltd filed Critical Beijing Kuwo Technology Co Ltd
Priority to CN201810432441.7A priority Critical patent/CN108419124B/zh
Publication of CN108419124A publication Critical patent/CN108419124A/zh
Application granted granted Critical
Publication of CN108419124B publication Critical patent/CN108419124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44227Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/4424Monitoring of the internal components or processes of the client device, e.g. CPU or memory load, processing speed, timer, counter or percentage of the hard disk space used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4431OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB characterized by the use of Application Program Interface [API] libraries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4782Web browsing, e.g. WebTV
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种音频处理方法,属于流媒体技术领域。该方法包括以下步骤:打开声音的音频文件,将时间粒度调节到预设时间范围;监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;根据声音平均分贝值确定声音能量的大小,当声音能量小于预设声音平均分贝阈值时,获得一个声音间隔;当一段时间内统计的声音间隔次数超过一定次数时,确定声音为说话模式;或当一段时间内统计的时间相邻一小段时间声音能量的比值超过一个阈值的次数时,确定声音为说话模式。在直播过程中,增加了对于音频处理的环节之后,系统会自动识别麦克风的音频采集内容,自动判断是说话还是唱歌,提高用户的使用感受。

Description

一种音频处理方法
技术领域
本发明涉及流媒体技术领域,尤其涉及一种音频处理方法。
背景技术
目前,网络直播是利用互联网及流媒体技术进行直播,主播用户客户端通过摄像头采集图像数据,麦克风采集音频数据,同步音频/视频之后进行推流,其他观众则会从CDN服务器拉取视频流进行观看。
在实际中,主播有可能会涉及谈话或者唱歌等表现形式,如果是唱歌形式,往往存在相应的伴奏等音频,但目前的直播工具往往不能辨别唱歌和谈话上的区别,造成在直播过程中,用户想进来听主播唱当前背景音乐时进来后可能发现主播正在那说话,并没有唱歌。
发明内容
本发明的目的,是解决主播过程中,根据音频流数据识别主播当前行为,技术方案如下:
打开声音的音频文件,将时间粒度调节到预设时间范围;
监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;
根据声音平均分贝值确定声音能量的大小,当声音能量小于预设声音平均分贝阈值时,获得一个声音间隔;
当一段时间内统计的声音间隔次数超过一定次数时,确定声音为说话模式;或
监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;
当一段时间内统计的时间相邻一小段时间声音能量的比值超过一个阈值的次数时,确定声音为说话模式。
优选地,说话模式的概率通过以下公式表示:P=W1P1+W2P2
其中,P为说话模式概率,P1为时间间隔次数影响的说话模式概率,W1为P1所占权重,P2为声音能量比值超过阈值次数影响的说话模式概率,W2为P2所占权重;预设P0为预设说话模式概率阈值,比较P与P0的关系,判断当前是说话模式,还是唱歌模式。
本发明的有益效果在于:区别于目前的直播系统,增加了对于音频处理的环节之后,在直播过程中,系统会自动识别麦克风的音频采集内容,自动判断是说话还是唱歌,提高用户的使用感受。
附图说明
图1为本发明实施例提供的一种基于浏览器的音频/视频直播方法流程示意图。
图2为本发明实施例提供的一种基于浏览器的音频/视频直播系统结构示意图。
图3为本发明实施例提供的一种音频处理方法的流程示意图。
具体实施方式
下面通过实施例,对本发明的技术方案做进一步的详细描述。
图1为基于浏览器的音频/视频直播方法流程图。如图1所示,该方法包括以下步骤:
步骤110,安装于用户设备上的软件,利用TCP方式建立与浏览器之间的本地socket通信;
步骤121,对用户设备所装载的实体摄像头和用户设备上所安装的虚拟摄像头按照浏览器传来的具体图像参数进行图像捕获,并将捕获到的图像根据图像帧加入到图像帧队列;图像帧加入图像帧队列过程中,使用CLSID_NullRenderer类型的图像渲染过滤器以避免用户设备内没有相应的转码过滤器而造成的连接捕获源过滤器和图像渲染过滤器时失败;利用DirectShow进行图像捕获时,ISamPleGrabber图像回调接口在调用SetMediaTyPe设置图像格式失败时,主动更换为其他图像格式;将捕捉到的图像统一转换成YUV420P格式;按照浏览器传来的图像编码参数对YUV420P格式图像进行h264编码;
图3为音频处理方法的流程图。如图3所示,该方法包括以下步骤:
步骤310,用Adobe Audition软件打开音频文件,将时间粒度调节到预设时间范围,如5ms左右。
步骤320,监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;
歌曲的音频文件波形是连续的,说话的音频文件波形是会出现波形隔断的,这意味着我们可以用20*log(ValOfInputAudioSample)计算一小段时间内(例如5ms)的声音平均分贝值去反映声音能量的大小,当声音能量小于预设声音平均分贝阈值(例如-50DB)时,获得一个声音间隔;
当一段时间(例如5s)内统计的声音间隔次数超过一定次数(例如150次)时,确定声音为说话模式;
或监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;
相邻时间段(例如5ms)唱歌时的声音波形是比较平滑的,在相邻时间段(例如5ms)说话时波形起伏是很大的,当一段时间(例如5s)内统计的时间相邻一小段时间声音能量的比值超过一个阈值(例如3)的次数(例如100)时,确定声音为说话模式。
步骤330,根据以上两点结合,说话模式的概率通过以下公式表示:P=W1P1+W2P2
其中,P为说话模式概率,P1为时间间隔次数影响的说话模式概率,W1为P1所占权重(例如0.5),P2为声音能量比值超过阈值次数影响的说话模式概率,W2为P2所占权重(例如0.5)。
步骤340,预设P0为预设说话模式概率阈值(例如0.5),比较P与P0的关系,判断当前是说话模式,还是唱歌模式。
步骤122,按照浏览器传来的音频捕获参数调用Windows Core API对用户设备所装载的麦克风设备进行音频采集,对采集到的音频样本按预设要求进行重采样并转换为指定的采样率和通道数,进而加入到音频帧队列;对音频帧队列中的音频帧里的音频数据进行声音特征分析;声音特征分析用以区分当前声音是说话模式还是唱歌模式;根据音频数据的波形与预设阈值的关系进行判断;按照浏览器传来的音频编码参数对音频进行aac编码或是mp3编码;
步骤121于步骤122同时进行;
步骤130,丢弃超时的音频帧,保证音频帧与图像帧同步;
步骤140,将同步后的音频帧与图像帧按RTMP协议进行打包和发送;
步骤150,打包和发送过程中,当网络发生丢包,根据预设阈值划分网络环境状态,重新设定h264参数以适配不同网络环境;
步骤160,实时检测音频/视频直播方法过程中是否被意外终止;如果是,将其自动启动,并且提示开机自动启动功能;
步骤210,并将同步的音频帧于图像帧按照标准mp4文件格式保存mp4文件至用户设备上。
本发明实施例采用了基于浏览器的插件策略。一键安装之后可以非常方便地在后台自启动并且会准备地相应来自浏览器的开始推流、停止推流、切换CDN、报告当前状态、断网重连指令,内部模块自动协同工作,真正做到一条命令实现直播的需要。
相应地,本发明实施例还提供了一种基于浏览器的音频/视频直播系统。图2为本发明实施例提供的一种基于浏览器的音频/视频直播系统结构示意图。如图2所示,该系统包括:
通讯模块10,利用TCP方式建立与用户设备上的浏览器之间的本地socket通信,接收浏览器开始推流、停止推流、切换CDN、报告当前状态、断网重连指令而启用相应功能模块;
图像采集模块21,利用DirectShow对用户设备所装载的实体摄像头和用户设备上所安装的虚拟摄像头按照浏览器传来的具体图像参数进行图像捕获,并将捕获到的图像根据图像帧加入到图像帧队列,其中在创建图表的过程中使用CLSID_NullRenderer类型的图像渲染过滤器以避免用户设备内没有相应的转码过滤器而造成的连接捕获源过滤器和图像渲染过滤器时失败,ISamPleGrabber图像回调接口在调用SetMediaTyPe设置图像格式失败时,主动更换为其他图像格式;
图像处理模块22,用于将图像采集模块20捕捉到的图像统一转换成YUV420P格式;
图像编码模块23,用于按照浏览器传来的图像编码参数对YUV420P格式图像进行h264编码;
音频采集模块31,用于按照浏览器传来的音频捕获参数调用Windows Core API对用户设备所装载的麦克风设备进行音频采集,对采集到的音频样本按预设要求进行重采样并转换为指定的采样率和通道数,进而加入到音频帧队列;
音频处理模块32,用于对音频帧队列中的音频帧里的音频数据进行声音特征分析,声音特征分析用以区分当前声音是说话模式还是唱歌模式;根据音频数据的波形与预设阈值的关系进行判断;
具体地,用Adobe Audition软件打开音频文件,将时间粒度调节到预设时间范围,如5ms左右。监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;歌曲的音频文件波形是连续的,说话的音频文件波形是会出现波形隔断的,这意味着我们可以用20*log(ValOfInputAudioSample)计算一小段时间内(例如5ms)的声音平均分贝值去反映声音能量的大小,当声音能量小于预设声音平均分贝阈值(例如-50DB)时,获得一个声音间隔;当一段时间(例如5s)内统计的声音间隔次数超过一定次数(例如150次)时,确定声音为说话模式;或监测声音的音频文件波形,计算预设时间范围内的声音平均分贝值;相邻时间段(例如5ms)唱歌时的声音波形是比较平滑的,在相邻时间段(例如5ms)说话时波形起伏是很大的,当一段时间(例如5s)内统计的时间相邻一小段时间声音能量的比值超过一个阈值(例如3)的次数(例如100)时,确定声音为说话模式。根据以上两点结合,说话模式的概率通过以下公式表示:P=W1P1+W2P2;其中,P为说话模式概率,P1为时间间隔次数影响的说话模式概率,W1为P1所占权重(例如0.5),P2为声音能量比值超过阈值次数影响的说话模式概率,W2为P2所占权重(例如0.5)。预设P0为预设说话模式概率阈值(例如0.5),比较P与P0的关系,判断当前是说话模式,还是唱歌模式。
音视编码模块33,用于按照浏览器传来的音频编码参数对音频进行aac编码或是mp3编码;
音频/视频同步模块40,用于丢弃超时的音频帧,保证音频帧与图像帧同步;
推流模块50,用于将同步后的音频/视频按RTMP协议进行打包和发送。
监控模块60,用于实时检测所述音频/视频直播系统工作过程中是否被意外终止;如果是,将其自动启动,并且提示开机自动启动功能。
网络监控模块70,打包和发送过程中,当网络发生丢包,根据预设阈值划分网络环境状态,重新设定h264参数以适配不同网络环境;
在RTMP发送数据包循环线程中从待发送的音视频数据队列中判断队列头与队列尾时间戳的差值,该值可反应待发送数据包的积压情况,当该值超过一个阈值(例如500ms)时可以从队列中丢弃与队列尾时间差超过该阈值的数据包,同时计下丢弃数据包的个数,当一段时间内(例如20s)丢包数≤n1时认为网络状况极好,当n1<丢包数≤n2时认为网络状况一般,当n2≤丢包数时认为网络状况很差,根据不同网络状况重新设置x264_param_t.rc.i_rc_method,当网络良好由好到差时可以分别设置为X264_RC_CQP、X264_RC_CRF、X264_RC_ABR;x264_param_t.rc.i_bitrate、x264_param_t.rc.i_vbv_max_bitrate、x264_param_t.rc.i_vbv_buffer_size也可依次降低;x264_param_t.rc.i_keyint_max可以依次增大。
视频保存模块80,并将同步的音频帧于图像帧按照标准mp4文件格式保存至用户设备上的mp4文件格式。
本发明实施例提供了一种可用于直播的音频处理方法。在直播过程中,增加了对于音频处理的环节之后,系统会自动识别麦克风的音频采集内容,自动判断是说话还是唱歌,提高用户的使用感受。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种音频处理方法,其特征在于,包括以下步骤:
打开声音的音频文件,将时间粒度调节到第一预设时间范围;
监测所述声音的音频文件波形,计算第一预设时间范围内的声音平均分贝值;
根据所述声音平均分贝值确定声音能量的大小,当所述声音能量小于预设声音平均分贝阈值时,获得一个声音间隔;
当第二预设时间范围内统计的声音间隔次数超过预定次数时,确定所述声音为说话模式;或
监测所述声音的音频文件波形,计算第一预设时间范围内的声音平均分贝值;
根据所述声音平均分贝值确定声音能量的大小;当第二预设时间范围内统计的,根据第一预设时间范围确定的相邻时间段的声音能量的比值超过预定阈值的次数,超过预定次数时,确定所述声音为说话模式。
CN201810432441.7A 2018-05-08 2018-05-08 一种音频处理方法 Active CN108419124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810432441.7A CN108419124B (zh) 2018-05-08 2018-05-08 一种音频处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810432441.7A CN108419124B (zh) 2018-05-08 2018-05-08 一种音频处理方法

Publications (2)

Publication Number Publication Date
CN108419124A CN108419124A (zh) 2018-08-17
CN108419124B true CN108419124B (zh) 2020-11-17

Family

ID=63138085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810432441.7A Active CN108419124B (zh) 2018-05-08 2018-05-08 一种音频处理方法

Country Status (1)

Country Link
CN (1) CN108419124B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263183A (zh) * 2020-02-26 2020-06-09 腾讯音乐娱乐科技(深圳)有限公司 唱歌状态识别方法及装置
CN114327018B (zh) * 2021-12-21 2024-01-19 厦门厦华科技有限公司 一种非智能芯片电子白板的人声节能方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655002A (zh) * 2011-03-01 2012-09-05 株式会社理光 音频处理方法和音频处理设备
CN102883121A (zh) * 2012-09-24 2013-01-16 北京多看科技有限公司 一种调节音量的方法、装置及数字终端
CN105280187A (zh) * 2015-11-13 2016-01-27 上海斐讯数据通信技术有限公司 一种家庭情绪管理的装置和方法
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN106128474A (zh) * 2016-07-04 2016-11-16 广东小天才科技有限公司 一种音频处理方法和装置
CN106157951A (zh) * 2016-08-31 2016-11-23 北京华科飞扬科技股份公司 进行音频断句的自动拆分方法及系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106601243A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种视频文件识别方法及装置
CN106887240A (zh) * 2015-12-15 2017-06-23 卓望数码技术(深圳)有限公司 一种基于iOS平台的音频处理方法、系统及iOS设备
CN106897379A (zh) * 2017-01-20 2017-06-27 广东小天才科技有限公司 语音文件的lrc时间轴文件自动生成方法及相关设备
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107297745A (zh) * 2017-06-28 2017-10-27 上海木爷机器人技术有限公司 语音交互方法、语音交互装置及机器人
CN107481743A (zh) * 2017-08-07 2017-12-15 捷开通讯(深圳)有限公司 移动终端、存储器及录音文件的编辑方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9986335B2 (en) * 2015-04-27 2018-05-29 Yi Sheng Co., Ltd. Sound-modulating device

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102655002A (zh) * 2011-03-01 2012-09-05 株式会社理光 音频处理方法和音频处理设备
CN102883121A (zh) * 2012-09-24 2013-01-16 北京多看科技有限公司 一种调节音量的方法、装置及数字终端
CN106601243A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种视频文件识别方法及装置
CN105280187A (zh) * 2015-11-13 2016-01-27 上海斐讯数据通信技术有限公司 一种家庭情绪管理的装置和方法
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN106887240A (zh) * 2015-12-15 2017-06-23 卓望数码技术(深圳)有限公司 一种基于iOS平台的音频处理方法、系统及iOS设备
CN106128474A (zh) * 2016-07-04 2016-11-16 广东小天才科技有限公司 一种音频处理方法和装置
CN106157951A (zh) * 2016-08-31 2016-11-23 北京华科飞扬科技股份公司 进行音频断句的自动拆分方法及系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106953887A (zh) * 2017-01-05 2017-07-14 北京中瑞鸿程科技开发有限公司 一种细粒度电台音频内容个性化组织推荐方法
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN106897379A (zh) * 2017-01-20 2017-06-27 广东小天才科技有限公司 语音文件的lrc时间轴文件自动生成方法及相关设备
CN107297745A (zh) * 2017-06-28 2017-10-27 上海木爷机器人技术有限公司 语音交互方法、语音交互装置及机器人
CN107481743A (zh) * 2017-08-07 2017-12-15 捷开通讯(深圳)有限公司 移动终端、存储器及录音文件的编辑方法

Also Published As

Publication number Publication date
CN108419124A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
US10930262B2 (en) Artificially generated speech for a communication session
CN108712407B (zh) 一种基于浏览器的音频/视频直播方法及其系统
JP6602842B2 (ja) ビデオ電話における受信機で駆動されるアップスイッチング
US9667801B2 (en) Codec selection based on offer
EP2466911B1 (en) Method and device for fast pushing unicast stream in fast channel change
CN106941629B (zh) 基于sip+rtp与rtmp协议互通的实时直播方法
CN113286184B (zh) 一种在不同设备上分别播放音频与视频的唇音同步方法
CN102547243B (zh) 基于3g网络的音视频远程监控方法及系统
KR101749006B1 (ko) 화상 전화에서의 비디오 정지 표시
KR20180031016A (ko) 전송기측 화상 전화 다운그레이드
EP1883244A3 (en) Apparatus and method for transmitting moving picture stream using bluetooth
US9729601B2 (en) Decoupled audio and video codecs
CN108419124B (zh) 一种音频处理方法
CN101057504A (zh) 在便携式多媒体设备中的音频视频数据处理
CN108259964B (zh) 一种视频播放速率调整方法及系统
US10469630B2 (en) Embedded RTCP packets
WO2018184277A1 (zh) 一种基于推流终端网络状况的优化方法和系统以及推流终端
US20160164651A1 (en) Codec with variable packet size
CN102348095A (zh) 一种用于移动设备视频通信中、保持图像稳定传输的方法
CN108476176A (zh) 在视频电话中的实时传输协议拥塞控制技术
EP2538632B1 (en) Method and receiver for reliable detection of the status of an RTP packet stream
CN113315991A (zh) 一种自动调整网络视频传输码率和清晰度的方法
CN109600341B (zh) 一种即时通信检测方法、设备和计算机存储介质
CN102970585A (zh) 一种流媒体快速频道切换的方法
EP2405649B1 (en) Method and terminal for synchronously recording sounds and images of opposite ends based on circuit domain video telephone

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant