CN109618223B - 一种声音替换方法 - Google Patents

一种声音替换方法 Download PDF

Info

Publication number
CN109618223B
CN109618223B CN201910082624.5A CN201910082624A CN109618223B CN 109618223 B CN109618223 B CN 109618223B CN 201910082624 A CN201910082624 A CN 201910082624A CN 109618223 B CN109618223 B CN 109618223B
Authority
CN
China
Prior art keywords
replaced
person
audio information
audio
information corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910082624.5A
Other languages
English (en)
Other versions
CN109618223A (zh
Inventor
许栋刚
邢丽
张延良
王伟
李林
王静
王娜
刘大鹏
张玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yijiesheng Technology Co ltd
Original Assignee
Beijing Yijiesheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yijiesheng Technology Co ltd filed Critical Beijing Yijiesheng Technology Co ltd
Priority to CN201910082624.5A priority Critical patent/CN109618223B/zh
Publication of CN109618223A publication Critical patent/CN109618223A/zh
Application granted granted Critical
Publication of CN109618223B publication Critical patent/CN109618223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种声音替换方法,该方法包括:确定音视频资源中的被替换人物,音视频资源为包含音频信息和影像信息的资源,或者,仅包含影像信息的资源,或者,仅包含音频信息的资源;确定指定人物;获取指定人物的音频信息;按顺序依次播放音视频资源的每一帧;对于任一帧,其播放方式为:若任一帧包含被替换人物对应的音频信息,则先被将替换人物对应的音频信息替换成指定人物的音频信息,再播放替换音频后的帧;若任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息;否则直接播放该帧,实现了音视频资源制作后的人物声音变化,提升了参与性和互动性。

Description

一种声音替换方法
技术领域
本发明涉及视频处理技术领域,尤其涉及一种声音替换方法。
背景技术
目前如电影、电视、动画、动漫、游戏等音视频资源中,人物形象是固定的,即音视频资源一经制作完成,人物声音只能为制作时的样子,不可改变。
人物形象不可改变的方式呈现人物声音,会降低音视频资源的趣味性,使得音视频资源与用户之间的参与性和互动性不足。
发明内容
(一)要解决的技术问题
为了提升音视频资源的互动性,本发明提供一种声音替换方法。
(二)技术方案
为了达到上述目的,本发明采用的主要技术方案包括:
一种声音替换方法包括:
S101,确定音视频资源,所述音视频资源为包含音频信息和影像信息的资源,或者,仅包含影像信息不包含音频信息的资源,或者,仅包含音频信息不包含影像信息的资源;
S102,确定所述音视频资源中的被替换人物;
S103,确定指定人物;
S104,获取所述指定人物的音频信息;
S105,按顺序依次播放音视频资源的每一帧;
对于任一帧,其播放方式为:
若所述任一帧包含被替换人物对应的音频信息,则先将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息,再播放替换音频后的帧;
若所述任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则将S104中获取的所述指定人物的音频信息与所述被替换人物对应的影像信息对应,播放所述任一帧中被替换人物对应的影像信息的同时播放S104中获取的所述指定人物的音频信息;
若所述任一帧不包含被替换人物对应的音频信息,也不包含被替换人物对应的影像信息,则直接播放该帧。
可选地,所述被替换人物为一个或多个;
所述被替换人物为多个时,所述指定人物也为多个;
所述被替换人物数量与指定人物数量相同,且所述被替换人物与指定人物一一对应。
可选地,所述S102包括:
若所述音视频资源中包含影像信息,则从影像信息中确定被替换人物对应的影像信息;
若所述音视频资源中仅包含音频信息,则从音频信息中确定被替换人物对应的音频信息。
可选地,所述S104包括:
从预先存储的音频文件中获取指定人物的音频信息;或者,
从上传的音频文件中获取指定人物的音频信息;或者,
从即时录制的音频文件中获取指定人物的音频信息;
所述音频文件为录音,或者,视频。
可选地,将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息包括:
根据所述指定人物的音频信息确定所述指定人物的发音特点;
根据所述指定人物的发音特点替换所述被替换人物对应的音频信息。
可选地,所述发音特点包括:音调、语速、音量。
可选地,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息包括:
根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调、语速、音量。
可选地,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调包括:
S801,根据所述被替换人物对应的音频信息确定第一音调;
S802,根据所述指定人物的发音特点确定第二音调;
S803,确定所述任一帧的背景音调;
S804,将所述被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调。
可选地,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的语速包括:
S901,根据所述被替换人物对应的音频信息确定第一语速和第一词间停顿平均时长;
S902,根据所述指定人物的发音特点确定第二语速和第二词间停顿平均时长;
S903,将所述被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)。
可选地,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音量包括:
S1001,根据所述被替换人物对应的音频信息确定第一音量;
S1002,根据所述指定人物的发音特点确定第二音量;
S1003,确定所述任一帧的背景音量以及已播放所有帧的平均音量;
S1004,将所述被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)。
(三)有益效果
本发明的有益效果是:确定音视频资源中被替换人物以及指定人物的音频信息之后,在播放每一帧时,若任一帧包含被替换人物对应的音频信息,则先被将替换人物对应的音频信息替换成指定人物的音频信息,再播放替换音频后的帧,若任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息,否则直接播放该帧,实现了音视频资源制作后的人物声音变化,提升了参与性和互动性。
附图说明
图1为本发明一个实施例提供的一种声音替换方法的流程示意图。
具体实施方式
为了提升音视频资源的互动性,本申请提供一种声音替换方法,确定音视频资源中被替换人物以及指定人物的音频信息之后,在播放每一帧时,若任一帧包含被替换人物对应的音频信息,则先被将替换人物对应的音频信息替换成指定人物的音频信息,再播放替换音频后的帧,若任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则播放任一帧中被替换人物对应的影像信息的同时播放指定人物的音频信息,否则直接播放该帧,实现了音视频资源制作后的人物声音变化,提升了参与性和互动性。
本申请文件中,“被替换人物”指音视频资源中原有的,预被替换声音/音频的人物。
参见图1,本实施例提供的声音替换方法实现流程,如下:
S101,确定音视频资源。
其中,音视频资源为包含音频信息和影像信息的资源,或者,仅包含影像信息不包含音频信息的资源,或者,仅包含音频信息不包含影像信息的资源。
例如,音视频资源为包含音频信息的动态影像资源。动态影像为电影,或者,电视,或者,动画,或者,游戏,或者,自拍视频,或者,广告视频,或者,小视频。即有声音的电影,或者,有声音的电视,或者,有声音的动画,或者,有声音的游戏,或者,有声音的自拍视频,或者,有声音的广告视频,或者,有声音的小视频。
再例如,音视频资源为无声电影等。
还例如,音视频资源为录音,广播等,只有声音没有影像。
S102,确定音视频资源中的被替换人物。
本步骤中的被替换人物可以为一个,也可以为多个。本实施例不对被替换人物的数量进行限定。
实际应用时,被替换人物为一个或多个人物的影像信息,或者,一个或多个人物的音频信息。
本步骤的实现方式可以为:
若所述音视频资源中包含影像信息,则从影像信息中确定被替换人物对应的影像信息。
例如,用户点击一个人物,则将影像信息中的点击的人物图像的相关影像信息确定为被替换人物对应的影像信息。
再例如,用户点击多个人物,则将影像信息中的点击的所有人物图像的相关影像信息均确定为被替换人物对应的影像信息。
若所述音视频资源中仅包含音频信息,则从音频信息中确定被替换人物对应的音频信息。
例如,用户截取一个人物的一段音频,则将音频信息中与用户截取的那段音频相关的音频信息确定被替换人物对应的音频信息。
再例如,用户截取包括多个人物的一段音频,则将音频信息中与用户截取的那段音频所有人物相关的音频信息均确定被替换人物对应的音频信息。
S103,确定指定人物。
其中,指定人物与被替换人物不同。
即,当被替换人物为1个时,指定人物为1个,且指定人物与被替换人物不同。当被替换人物为多个时,指定人物为多个,且指定人物的数量与被替换人物的数量相同,每个指定人物对应一个唯一的被替换人物,指定人物与其对应的被替换人物不同。
例如,当被替换人物为2个(如A和B)时,指定人物也为2个(如C和D),每个指定人物对应一个唯一的被替换人物(如C和A对应,D和B对应),指定人物与其对应的被替换人物不同(如C与A不同,D与B同)。本实施例仅限定C与A不同,D与B同,但C与B是否相同本实施例不做限定,A与D是否相同本实施例也不做限定。
S104,获取指定人物的音频信息。
本步骤的实现方式为:从预先存储的音频文件中获取指定人物的音频信息。或者,从上传的音频文件中获取指定人物的音频信息。或者,从即时录制的音频文件中获取指定人物的音频信息。
其中,音频文件为录音,或者,视频。
例如,从预先存储的录音,或者,视频中获取指定人物的音频信息。或者,从上传的录音,或者,视频中获取指定人物的音频信息。或者,从即时录制的录音,或者,视频中获取指定人物的音频信息。
S105,按顺序依次播放音视频资源的每一帧。
对于任一帧,其播放方式为:
若任一帧包含被替换人物对应的音频信息,则先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息,再播放替换音频后的帧。
若任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则将S104中获取的指定人物的音频信息与被替换人物对应的影像信息对应,播放任一帧中被替换人物对应的影像信息的同时播放S104中获取的指定人物的音频信息。
若任一帧不包含被替换人物对应的音频信息,也不包含被替换人物对应的影像信息,则直接播放该帧。
如对于任一帧(第k帧),若该帧中既不包含被替换人物对应的音频信息,也不包含被替换人物对应的影像信息,说明第k帧无需替换声音,因此直接播放第k帧。其播放方式与现有方式相同。
如对于任一帧(第j帧),若该帧中不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,说明第j帧只有被替换人物的图像,但没有相应的声音。此时,只需要将指定人物作为该图像的声音,在图像播放时同时播放即可。例如给电影配音的场景。因此,将S104中获取的指定人物的音频信息与被替换人物对应的影像信息对应,播放第j帧中被替换人物对应的影像信息的同时播放S104中获取的指定人物的音频信息。其播放方式与现有方式相同。
如对于任一帧(第i帧),若该帧包含被替换人物对应的音频信息,说明第i帧有被替换人物的声音,对于被替换人物的图像是否也存在,根据实际情况而定,可以存在(如有声电影),也可以不存在(如纯录音)。此时,需要先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息,再播放替换音频后的帧,进而实现声音的替换。
上述方法由于对每一帧先将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息,以及在只有被替换人物图像的帧中加入相应的指定人物的音频信息,然后播出,在按帧顺序将所有帧都播放后,可以将S101确定的音视频资源中的所有被替换人物的声音替换成S104中获取的指定人物的声音,以及为没有声音的图像配成后S104中获取的指定人物的声音再播放,实现了音视频资源制作后的人物声音的变化,提升了参与性和互动性。
具体的,将被替换人物对应的音频信息替换成S104中获取的指定人物的音频信息,包括但不限于:
1)根据指定人物的音频信息确定指定人物的发音特点。
其中,发音特点包括:音调、语速、音量。
音调可以用声波的频率表示,音量可以用声波的振幅表示。
2)根据指定人物的发音特点替换被替换人物对应的音频信息。
例如,根据指定人物的发音特点替换被替换人物对应的音频信息中的音调、语速、音量。
对于根据指定人物的发音特点替换被替换人物对应的音频信息中的音调、语速、音量的实现方案,本实施例提供一种可行方案。
1)根据指定人物的发音特点替换被替换人物对应的音频信息中的音调的实现方案
S801,根据被替换人物对应的音频信息确定第一音调。
S802,根据指定人物的发音特点确定第二音调。
S803,确定任一帧的背景音调。
S804,将被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调。
其中,第一音调为被替换人物的音调,第二音调为指定人物的音调。
如果直接将指定人物的音调调整为第二音调,则会出现指定人物的音调与背景不匹配,刺耳的情况,影响观看体验,因此,本提案将被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调,即保存了指定人物的音调特性,又提升了与背景的匹配程度,提升用户体验。
2)根据指定人物的发音特点替换被替换人物对应的音频信息中的语速的实现方案
S901,根据被替换人物对应的音频信息确定第一语速和第一词间停顿平均时长。
S902,根据指定人物的发音特点确定第二语速和第二词间停顿平均时长。
S903,将被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)。
其中,第一语速为被替换人物的语速,第一词间停顿平均时长为被替换人物的词间停顿平均时长,第二语速为指定人物的语速,第二词间停顿平均时长为指定人物的词间停顿平均时长。
如果直接将指定人物的语速调整为第二语速,则会出现指定人物的词间停顿习惯不搭的情况,如音视频资源为《疯狂动物城》,被替换人物为闪电,其语速非常的慢,若指定人物为说话语速偏快的用户,直接将闪电的慢语速变为用户的偏快语速,会破坏闪电形象的设计,也破坏整个音视频资源的亮点,影响观看体验,因此,本提案将被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长),即保存了指定人物的语速特性,又提升了与被替换人物的匹配程度,提升用户体验。
3)根据指定人物的发音特点替换被替换人物对应的音频信息中的音量的实现方案
S1001,根据被替换人物对应的音频信息确定第一音量。
S1002,根据指定人物的发音特点确定第二音量。
S1003,确定任一帧的背景音量以及已播放所有帧的平均音量。
S1004,将被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)。
其中,第一音量为被替换人物的音量,第二音量为指定人物的音量。
如果直接将指定人物的音量调整为第二语速,则会出现指定人物的音量与整个音视频资源不搭的情况,如音视频资源音量较小,而指定人物的音量较大,造成声音忽高忽低,影响观看体验,因此,本提案将被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量),即保存了指定人物的音量特性,又提升了与音视频资源整体音量的匹配程度,提升用户体验。
通过上述方法,可以不改变台词的情况下将每一帧中被替换人物的声音替换为指定人物的声音进行播放,即替换后的指定人物与被替换人物的台词相同,但音调、语速、音量发生变化,变为指定人物的音调、语速、音量,保证替换后的观看效果。
需要说明的是,本实施例中的“第一”、“第二”仅为序号,用于区分不同的音调、语速、音量、词间停顿平均时长等,无其他意义。
本发明提供的方法,确定音视频资源中被替换人物以及指定人物的音频信息之后,在播放每一帧时,若该帧不包被替换人物的图像,则直接播放该帧;若该帧包含被替换人物的图像,则先将被替换人物对应的音频信息替换成指定人物的音频信息,再播放替换音频后的帧,实现了音视频资源制作后的人物声音变化,提升了参与性和互动性。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤描述了本方法。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种声音替换方法,其特征在于,所述方法包括:
S101,确定音视频资源,所述音视频资源为包含音频信息和影像信息的资源,或者,仅包含影像信息不包含音频信息的资源,或者,仅包含音频信息不包含影像信息的资源;
S102,确定所述音视频资源中的被替换人物;
S103,确定指定人物;
S104,获取所述指定人物的音频信息;
S105,按顺序依次播放音视频资源的每一帧;
对于任一帧,其播放方式为:
若所述任一帧包含被替换人物对应的音频信息,则先将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息,再播放替换音频后的帧;
若所述任一帧不包含被替换人物对应的音频信息,但包含被替换人物对应的影像信息,则将S104中获取的所述指定人物的音频信息与所述被替换人物对应的影像信息对应,播放所述任一帧中被替换人物对应的影像信息的同时播放S104中获取的所述指定人物的音频信息;
若所述任一帧不包含被替换人物对应的音频信息,也不包含被替换人物对应的影像信息,则直接播放该帧;
其中,将被替换人物对应的音频信息替换成S104中获取的所述指定人物的音频信息包括:
根据所述指定人物的音频信息确定所述指定人物的发音特点;
根据所述指定人物的发音特点替换所述被替换人物对应的音频信息;
所述发音特点包括:音调、语速、音量;
其中,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息包括:
根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调、语速、音量;
其中,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音调包括:
S801,根据所述被替换人物对应的音频信息确定第一音调;
S802,根据所述指定人物的发音特点确定第二音调;
S803,确定所述任一帧的背景音调;
S804,将所述被替换人物对应的音频信息中的音调替换为第二音调*第一音调/背景音调。
2.根据权利要求1所述的方法,其特征在于,所述被替换人物为一个或多个;
所述被替换人物为多个时,所述指定人物也为多个;
所述被替换人物数量与指定人物数量相同,且所述被替换人物与指定人物一一对应。
3.根据权利要求1所述的方法,其特征在于,所述S102包括:
若所述音视频资源中包含影像信息,则从影像信息中确定被替换人物对应的影像信息;
若所述音视频资源中仅包含音频信息,则从音频信息中确定被替换人物对应的音频信息。
4.根据权利要求1所述的方法,其特征在于,所述S104包括:
从预先存储的音频文件中获取指定人物的音频信息;或者,
从上传的音频文件中获取指定人物的音频信息;或者,
从即时录制的音频文件中获取指定人物的音频信息;
所述音频文件为录音,或者,视频。
5.根据权利要求1所述的方法,其特征在于,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的语速包括:
S901,根据所述被替换人物对应的音频信息确定第一语速和第一词间停顿平均时长;
S902,根据所述指定人物的发音特点确定第二语速和第二词间停顿平均时长;
S903,将所述被替换人物对应的音频信息中的语速替换为(第二语速*第二词间停顿平均时长)/(第一语速*第一词间停顿平均时长)。
6.根据权利要求1所述的方法,其特征在于,根据所述指定人物的发音特点替换所述被替换人物对应的音频信息中的音量包括:
S1001,根据所述被替换人物对应的音频信息确定第一音量;
S1002,根据所述指定人物的发音特点确定第二音量;
S1003,确定所述任一帧的背景音量以及已播放所有帧的平均音量;
S1004,将所述被替换人物对应的音频信息中的音量替换为第二音量*(第一音量/背景音量)^(背景音量/平均音量)。
CN201910082624.5A 2019-01-28 2019-01-28 一种声音替换方法 Active CN109618223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910082624.5A CN109618223B (zh) 2019-01-28 2019-01-28 一种声音替换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910082624.5A CN109618223B (zh) 2019-01-28 2019-01-28 一种声音替换方法

Publications (2)

Publication Number Publication Date
CN109618223A CN109618223A (zh) 2019-04-12
CN109618223B true CN109618223B (zh) 2021-02-05

Family

ID=66020842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910082624.5A Active CN109618223B (zh) 2019-01-28 2019-01-28 一种声音替换方法

Country Status (1)

Country Link
CN (1) CN109618223B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246283B (zh) * 2020-01-17 2022-09-30 北京达佳互联信息技术有限公司 视频播放方法、装置、电子设备及存储介质
CN112261470A (zh) * 2020-10-21 2021-01-22 维沃移动通信有限公司 音频处理方法及装置
CN112423081B (zh) * 2020-11-09 2021-11-05 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及可读存储介质
CN113965802A (zh) * 2021-10-22 2022-01-21 深圳市兆驰股份有限公司 沉浸式视频交互方法、装置、设备和存储介质
CN115565518B (zh) * 2022-11-30 2023-03-24 深圳市人马互动科技有限公司 互动游戏中玩家配音的处理方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563698A (zh) * 2005-09-16 2009-10-21 富利克索尔股份有限公司 个性化视频
CN105959773A (zh) * 2016-04-29 2016-09-21 魔方天空科技(北京)有限公司 多媒体文件的处理方法和装置
CN106652996A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 一种提示音生成方法和装置、移动终端
CN107396177A (zh) * 2017-08-28 2017-11-24 北京小米移动软件有限公司 视频播放方法、装置及存储介质
CN108305636A (zh) * 2017-11-06 2018-07-20 腾讯科技(深圳)有限公司 一种音频文件处理方法及装置
WO2018174968A1 (en) * 2017-03-21 2018-09-27 Rovi Guides, Inc. Systems and methods for increasing language accessability of media content
CN109076250A (zh) * 2016-03-23 2018-12-21 Dts公司 交互式音频元数据处置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120249761A1 (en) * 2011-04-02 2012-10-04 Joonbum Byun Motion Picture Personalization by Face and Voice Image Replacement

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101563698A (zh) * 2005-09-16 2009-10-21 富利克索尔股份有限公司 个性化视频
CN109076250A (zh) * 2016-03-23 2018-12-21 Dts公司 交互式音频元数据处置
CN105959773A (zh) * 2016-04-29 2016-09-21 魔方天空科技(北京)有限公司 多媒体文件的处理方法和装置
CN106652996A (zh) * 2016-12-23 2017-05-10 北京奇虎科技有限公司 一种提示音生成方法和装置、移动终端
WO2018174968A1 (en) * 2017-03-21 2018-09-27 Rovi Guides, Inc. Systems and methods for increasing language accessability of media content
CN107396177A (zh) * 2017-08-28 2017-11-24 北京小米移动软件有限公司 视频播放方法、装置及存储介质
CN108305636A (zh) * 2017-11-06 2018-07-20 腾讯科技(深圳)有限公司 一种音频文件处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于个性声学特征的语音转换算法研究》;赵渊;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN109618223A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109618223B (zh) 一种声音替换方法
US11386932B2 (en) Audio modification for adjustable playback rate
CN108419141B (zh) 一种字幕位置调整的方法、装置、存储介质及电子设备
ES2719586T3 (es) Creación de puntos de referencia en un flujo multimedia con reconocimiento de contenido automatizado
US20100324894A1 (en) Voice to Text to Voice Processing
US11172266B2 (en) System to correct closed captioning display using context from audio/video
Waggoner Compression for great video and audio: master tips and common sense
CN106488311B (zh) 音效调整方法及用户终端
CN1183757C (zh) 将电视节目中所取名字改为观众要求的名字的系统和方法
CN109326154A (zh) 一种通过语音识别引擎进行人机互动教学的方法
CN110933485A (zh) 一种视频字幕生成方法、系统、装置和存储介质
TWM257575U (en) Encoder and decoder for audio and video information
CN110324702B (zh) 视频播放过程中的信息推送方法和装置
Jumisko-Pyykkö “I would like to see the subtitles and the face or at least hear the voice”: Effects of picture ratio and audio–video bitrate ratio on perception of quality in mobile television
CN114339443B (zh) 一种音视频倍速播放方法及装置
Sade et al. Enhancing audio description: a value added approach
Sileo Dubbing or Simil Sync? A Study on Reception in Italy
Shirley et al. Personalization of object-based audio for accessibility using narrative importance
CN109841225A (zh) 声音替换方法、电子设备和存储介质
JP7153143B2 (ja) 映像提供システムおよびプログラム
CN108495163B (zh) 视频弹幕朗读装置、系统、方法及计算机可读存储介质
JP2006186920A (ja) 情報再生装置および情報再生方法
CN103368960A (zh) 一种媒体信息推送方法及相关设备、系统
CN105307001A (zh) 在视频节目上实时显示发布信息的方法和装置
Kackman Television Before the Classic Network Era: 1930s–1950s

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant