CN114023301A - 音频编辑方法、电子设备及存储介质 - Google Patents
音频编辑方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114023301A CN114023301A CN202111424121.5A CN202111424121A CN114023301A CN 114023301 A CN114023301 A CN 114023301A CN 202111424121 A CN202111424121 A CN 202111424121A CN 114023301 A CN114023301 A CN 114023301A
- Authority
- CN
- China
- Prior art keywords
- target
- audio
- text
- editing
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000000694 effects Effects 0.000 claims abstract description 152
- 238000003780 insertion Methods 0.000 claims description 25
- 230000037431 insertion Effects 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 6
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 14
- 235000013601 eggs Nutrition 0.000 description 11
- 230000001815 facial effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 238000003672 processing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04847—Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0485—Scrolling or panning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及一种音频编辑方法、电子设备及存储介质。其中,音频编辑方法包括:显示目标操作界面,所述目标操作界面包括多个编辑控件,每个所述编辑控件对应一种标签;检测用户对所述多个编辑控件中的目标编辑控件的第一触发操作;响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签;向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。根据本公开实施例,能够提高音频编辑的灵活性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种音频编辑方法、电子设备及存储介质。
背景技术
随着电子阅读技术的发展,有声阅读技术因其便捷性和趣味性受到了众多用户的青睐。
为了提高用户的有声阅读体验,往往需要对音频进行编辑。然而,现阶段的音频编辑功能仅支持对目标音频进行合并、混音、剪辑等简单处理,音频编辑方式固化单一。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频编辑方法、电子设备及存储介质。
第一方面,本公开提供了一种音频编辑方法,包括:
显示目标操作界面,目标操作界面包括多个编辑控件,每个编辑控件对应一种标签,每个标签用于向基于目标文本生成的目标音频添加一种音效;
检测用户对多个编辑控件中的目标编辑控件的第一触发操作;
响应于第一触发操作,向目标文本添加目标编辑控件对应的目标标签;
向目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
第二方面,本公开提供了一种电子设备,包括处理器和存储器,存储器用于存储可执行指令,可执行指令使处理器执行以下操作:
显示目标操作界面,目标操作界面包括多个编辑控件,每个编辑控件对应一种标签,每个标签用于向基于目标文本生成的目标音频添加一种音效;
检测用户对多个编辑控件中的目标编辑控件的第一触发操作;
响应于第一触发操作,向目标文本添加目标编辑控件对应的目标标签;
向目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
第三方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的音频编辑方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的音频编辑方法、电子设备及存储介质,用户可以在提供多个编辑控件的目标操作页面自由选择目标编辑控件,并向目标文本添加目标编辑控件对应的目标标签,进而使得可以对目标音频添加目标标签对应的目标音效。由于用户通过在目标操作界面自由选择目标编辑控件,即可在文本添加目标编辑控件的标签的方式即可在目标音频中添加对应的音频音效,无需进行复杂的音频处理即可对目标音频进行调整,提高了音频编辑的灵活性。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1示出了本公开实施例提供的一种音频编辑方法的流程示意图;
图2示出了本公开实施例提供的一种示例性的目标操作界面的示意图;
图3示出了本公开实施例提供的另一种音频编辑方法的流程示意图;
图4示出了本公开实施例提供的另一种示例性的目标操作界面的示意图;
图5示出了本公开实施例提供的又一种示例性的目标操作界面的示意图;
图6示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开实施例提供了一种以在文本中添加标签的方式来对音频文件进行音效编辑的音频编辑方法、电子设备及存储介质。
下面首先结合图1-5对本公开实施例提供的音频编辑方法进行说明。
本公开实施例提供的音频编辑方法,可以由能够提供电子书阅读功能的电子设备。其中,该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端,以及诸如数字TV、台式计算机、智能家居设备等的固定终端。又或者还可以是诸如云端服务器、物理服务器、服务器集群等服务器,比如支持音频调整功能的电子阅读平台的服务端,对此不作限定。
图1示出了本公开实施例提供的一种音频编辑方法的流程示意图。
如图1所示,该音频编辑方法可以包括如下步骤。
步骤S110,显示目标操作界面。其中,目标操作界面包括多个编辑控件,每个编辑控件对应一种标签,每个标签用于向基于目标文本生成的目标音频添加一种音效。
在本公开实施例中,用户可以在想要进行音频编辑时,向电子设备请求打开目标操作界面。相应地,电子设备可以响应于电子设备的请求,在显示屏幕上显示目标操作界面。
首先,对于目标音频,其可以是用户想要进行音效编辑的音频。具体地,其可以是对目标文本进行文语(Text To Speech,TTS)转换后得到的音频文本。
其次,对于目标操作界面,其可以是用户可以进行音频编辑的界面。在一个示例中,图2示出了本公开实施例提供的一种示例性的目标操作界面的示意图。如图2所示,目标操作界面可以提供多个可供用户选择的编辑控件。
在一些实施例中,为了提高用户的编辑体验,目标操作界面还可以提供其他辅助用户音频编辑的控件,比如选择目标音频的相关控件、音频播放控件、目标文本的打开/导入控件、目标音频的下载/上传控件、目标文本的检查控件、针对目标文本的查找/替换/撤销等文本编辑控件、编辑效果对比控件等,对此不作具体限定。
再其次,对于编辑控件,其可以响应于用户的选择操作,在目标文本中添加标签。在一些实施例中,编辑控件可以是功能按钮、下拉菜单、弹窗菜单、滑动条等能够提供文本标签添加功能的控件,对此不作具体限定。
再其次,对于标签,其可以是能够被文语转换模块识别的、对应于特定音效的文本标签。具体的,标签可以是符合预设格式的文本标签,比如可以被文语转换模块识别的标记语言的标签,比如可以是本领域常用的标记语言,对此不作具体限定。
可选地,为了便于语音生成模块识别,标签可以包括音效标识符。或者,可以包括音效标识符和音效参数。
为了便于说明,接下来将结合音效对标签和编辑控件展开具体说明。
在一些实施例中,音效的类型包括以下类型1-类型3中的至少一种。
类型1,韵律类音效,即能够体现音频的语言韵律变化的音效。相应地,编辑控件可以包括韵律类编辑控件,标签可以为韵律调整标签。
示例性性,可以是下述韵律音效1-4中的至少一种。
韵律音效1,短语音效,即一种能够将目标词作为一个短语进行连读的音效。比如,如果在“小红红彤彤的脸蛋”中对“小红”添加了短语音效,则可以将“小红”连读成一个词。
相应地,短语音效对应的编辑控件可以是短语编辑控件,比如图2中的201。
短语音效对应的编辑标签可以是短语标签。示例性地,短语标签可以为第一子标签和第二子标签,其中,第一子标签可以添加在目标词的前端,第二子标签可以添加在目标词的后端。比如,短语标签可以为<w></w>。具体地,若需要将“小红红彤彤的脸蛋”中的“红彤彤的”编辑为一个短语,则编辑后的文本你可以为“小红<w>红彤彤的</w>脸蛋”。
韵律音效2,断句音效,即一种能够将目标词与相邻字词之间进行语音断句的音效。比如,如果在“小红红彤彤的脸蛋”中在“小红”“红彤彤”之间添加了断句音效,则该句的读音可以是“小红(停顿)红彤彤的脸蛋”。又比如,对“红彤彤的”添加了断句音效,则该句的读音可以是“小红(停顿)红彤彤的(停顿)脸蛋”。
相应地,断句音效对应的编辑控件可以是断句编辑控件。
断句音效对应的编辑标签可以是断句标签。示例性地,断句标签可以为第一子标签和第二子标签,其中,第一子标签可以添加在目标词的前端,第二子标签可以添加在目标词的后端。比如,断句标签可以为<s></s>。具体地,若需要将“小红红彤彤的脸蛋”中的“红彤彤的”与其他内容断开,则编辑后的文本你可以为“小红<s>红彤彤的</s>脸蛋”。
韵律音效3,语音停顿音效,即一种能够在目标位置处进行一定时长的语音停顿的音效。其中,停顿时长可以是默认值,或者是用户在目标操作界面上选择的时长值,对此不作限定。比如,如果在“小红红彤彤的脸蛋”中在“小红”后面添加了10s的停顿音效,则该句的读音可以是“小红(停顿10s)红彤彤的脸蛋”。
相应地,语音停顿音效对应的编辑控件可以是停顿编辑控件。比如图2中的下拉菜单202。示例性地,用户可以点击下拉菜单202的下拉键,然后从中选择对应的停顿时长。
语音停顿音效对应的编辑标签可以是语音停顿标签。示例性地,语音停顿标签可以为</speak>。
韵律音效4,读音调整音效,即一种能够将目标词的读音调整为目标读音的音效。
相应地,读音调整音效对应的编辑控件可以是读音编辑控件。比如可以是拼音标注控件、多音字标注控件等。
读音调整音效对应的编辑标签可以是读音标签。示例性地,读音标签可以是“<phoneme alphabet="py"ph="aaa">xx</phoneme>”。其中,xx为目标词,aaa为目标词的拼音。可选地,拼音可以包括音频音符和声调组成。
需要说明的是,还可以是其他韵律类音效,对此不作具体限定。
在介绍了韵律类音效之后,接下来,本公开实施例的下述内容对语音特征类音效展开具体说明。
类型2,语音特征类音效,即能够体现目标音频的语言特征变化的音效。相应地,编辑控件可以包括语音特征类编辑控件。标签可以为语言特征标签,其用于表征目标语言特征的目标调整量,以使编辑后的目标音频的目标语言特征达到该目标调整量。
示例性性,可以是下述语音特征音效1-4中的至少一种。
语音特征音效1,音量音效。相应地,编辑控件可以包括音量编辑控件。比如图2中的滑动条203。
相应地,标签可以是音量标签。比如<speak>“</speak><volume="80">大小姐</speak>?”,其中,大小姐为目标词,调整后的目标音频中大小姐三字的音量为80。
语音特征音效2,语调音效。相应地,编辑控件可以包括语调编辑控件。相应地,标签可以是语调标签。
需要说明的是,语调标签与音量标签的内容类似,在此不再赘述。
语音特征音效3,语速音效。相应地,编辑控件可以包括语速编辑控件。相应地,标签可以是语速标签。
需要说明的是,语速标签与音量标签的内容类似,在此不再赘述。
语音特征音效4,音色音效。相应地,编辑控件可以包括音色编辑控件。相应地,标签可以是音色标签。
可选地,音色音效可以是从多个预设的音色模板中选出。在一个示例中,如图2所示,音色编辑控件可以包括多个音色模板A-E的功能控件204。需要说明的是,音色编辑控件还可以是下拉菜单等形式,对此不作具体限定。又或者可以是用户通过调整音色参数自定义的,对此不作具体限定。
需要说明的是,还可以是其他语音特征类音效,对此不作具体限定。
在介绍了语音特征类音效之后,接下来,本公开实施例的下述内容对感知表示类音效展开具体说明。
类型3,感知表示类音效,即一种能够影响用户的听觉感知的音效。
示例性性,可以是下述感知表示音效1-感知表示音效3中的至少一种。
感知表示音效1,情感音效,即一种能够展示语音所表达情感的音频效果。示例性地,可以是开心、悲伤、害怕、愤怒等情感的音效。在一个示例中,可以通过改变音调、音量、语速、语调等改变语言特征的方式来改变目标语句所表达的情感。
相应地,编辑控件可以包括情感编辑控件。相应地,标签可以是情感标签。
可选地,情感音效可以是从多个预设的情感模板中选出,相应地,情感编辑控件可以是多个情感模块的功能控件,或者是下拉菜单,对此不作限定。又或者可以是用户自定义的,对此不作具体限定。
感知表示音效2,声像位置音效,即一种能够展示音频的虚拟声源位置的音频效果。
相应地,编辑控件可以包括声像位置编辑控件。编辑标签可以包括声像位置标签。
声像位置标签可以是能够表征音频声像位置特征的标签。在一个示例中,可以是标记说话角色的角色类型的标签。比如用于标记主要角色、次要角色、旁边角色等。在另一个示例中,标记具体的声像位置量的标签等。在又一个示例中,若是对话小说的音频编辑,则声像位置标签可以是标记对话角色的对话框在对话界面显示位置的标签。比如,标记显示于左侧、中间、右侧等。
感知表示音效3,配乐音效,即一种添加背景音乐的音效。可选地,配乐音效可以是从多个预设的音乐模板中选出,相应地,配乐编辑控件可以是多个配乐模块的功能控件,或者是下拉菜单,对此不作限定。又或者可以是用户自定义的,对此不作具体限定。
相应地,编辑控件可以包括背景音添加控件。编辑标签可以包括背景音标签。
需要说明的是,还可以是其他能够影响用户听觉感知效果的音效,对此不作具体限定。
步骤S120,检测用户对多个编辑控件中的目标编辑控件的第一触发操作。
可选地,第一触发操作可以包括对目标编辑控件的点击、双击、长按、滑动等手势控制操作、语音控制操作或者表情控制操作等,在此不作限制。
示例性地,继续以图2为例,若用户点击了控件201,则确定用户触发了短语编辑控件。
步骤S130,响应于第一触发操作,向目标文本添加目标编辑控件对应的目标标签。
在一些实施例中,可以在字符之间的空隙位置添加目标标签。比如,语音停顿标签、断句标签等。又或者,可以在待调整字词的文本内容的两端添加目标标签。比如、短语标签、音量标签等。需要说明的是,可以根据实际情况和具体需求在相应位置添加标签,对此不作具体限定。
在一个示例中,对于读音调整音效,S130可以具体包括:
步骤a1,响应于对目标编辑控件的第一触发操作,显示待调整词的拼音输入框。
可选地,待调整词为处于选中状态的字词、或者将光标插入位置之前的预设数量个字词,或者目标文本中的首个多音词。其中,预设数量可以根据实际情况和具体需求设置,对此不作具体限定。
步骤a2,监测用户在拼音输入框的输入操作。可选地,输入操作可以是用户通过输入设备输入的拼音内容。又或者,可以是用户在多个备选拼音中选择的目标拼音。对此不作限定。
步骤a3,在监测到输入操作的情况下,获取拼音输入框内的输入内容。
步骤a4,在待调整词的端部添加包含输入内容的编辑标签。其中,端部可以是前端和/或后端,对此不作具体限定。示例性地,编辑标签的内容可以参见本公开实施例上述部分对读音标签的具体说明内容,在此不再赘述。
在另一个示例中,步骤S130可以包括:在用户触发了目标编辑控件之后,可以直接响应触发操作,在目标文本的相应位置处添加标签。
需要说明的是,具体标签添加方式可以参见本公开实施例上述部分对标签的具体说明内容,在此不再赘述。
在一些实施例中,目标标签的添加位置可以是根据用户的位置选择操作确定的。又或者可以是默认添加位置,比如,若触发了语音停顿控件,则可以在每一段落的尾部默认添加语音停顿标签,对此不作具体限定。
步骤S140,向目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
首先,对于添加目标音效的具体方式。
在一些实施例中,若目标标签是针对目标词的标签,则可以对目标词对应的音频段添加目标音效。比如,如果标签的第一子标签和第二子标签分别设置在某句话的两端,则可以直接对该句话对应的音频段添加目标音效。又比如,如果某个标签设置在某句话的尾部或者某个段落、或者某个章节的尾部,则可以直接对相应句子、段落或者章节对应的音频段添加目标音效,对此不作具体限定。
在另一些实施例中,若目标标签是针对相邻字词间、相邻句子或者相邻段落间空隙位置的标签,则可以针对性地在邻字词间、相邻句子或者相邻段落的音频片段间添加目标音效。
其次,对于音效编辑方式,说明如下。
在一些实施例中,可以识别目标文本中的目标标签,以及确定目标标签对应的音频片段以及目标音效,然后为音频片段添加目标音效。
在一个示例中,对于声像位置音效,可以基于声像位置标签确定音频片段的目标声像位置,然后将该音频片段调整至目标声像位置。
其中,目标声像位置可以是对说话角色的角色类型、对话角色在对话界面中显示位置进行量化后确定的数据,或者可以是用户在目标操作界面直接设置的声像位置值,对此不作具体限定。
可选地,具体调整方式可以包括下述步骤b1和步骤b2。
步骤b1,根据得到目标声像位置,确定音频文件的音频调整量。
其中,音频调整量可以是能够使音频文件的声像位置发生偏移的音频参数。比如,音频调整量包括以下至少一种:音频文件对应的调整声级差、调整时间差以及音频文件所属声道。
其中,调整声级差可以是调整音频文件左、右声道音频的声级上的差值。
调整时间差可以是调整音频文件左、右声道音频的时间上的差值。
音频文件所属声道为可以完全属于左声道、右声道,或者偏左、偏右,位于中间。
步骤b2,根据音频调整量,对音频片段进行调整。
具体地,可以按照音频调整量对音频片段进行调整。
通过本公开实施例,可以通过音频调整量对音频文件进行精准调整,提高了调整精度。以及通过该调整方式可以使得调整后的多个音频文件呈现为立体声音效,通过立体声音效提高用户阅读的趣味性,进而提高用户阅读体验。
在另一个示例中,具体调整方式可以包括步骤b3。
步骤b3,利用头部相关脉冲响应(Head-Related Impulse Response,HRIR)算法,将音频文件的虚拟声源由初始声像位置调整至目标声像位置,得到调整后的音频文件。
在一个示例中,可以利用HRIR算法,确定与目标声像位置对应的HRIR参数,然后再利用HRIR参数对音频文件进行调整。
通过本公开实施例,可以通过HRIR算法对音频文件进行精准调整,提高了调整精度。以及通过HRIR算法,可以使得调整后的多个音频文件呈现为虚拟环绕声音效,通过虚拟环绕声音效能够进一步提高用户阅读的趣味性,从而进一步提高用户阅读体验。
再其次,对于S140的具体实施方式,说明如下。
在一些实施例中,电子设备可以直接在目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
具体地,电子设备可以对添加有目标标签的目标文本进行文语转换,得到编辑后的目标音频。
在另一些实施例中,电子设备可以通过外部服务器对音频进行编辑。
具体地,可以向目标服务器发送音频编辑请求,该音频编辑请求包括添加有目标标签的目标文本。目标服务器可以响应于音频编辑请求,对添加有目标标签的目标文本进行文语转换,得到编辑后的目标音频。然后将编辑后的目标音频返回电子设备。
可选地,外部服务器可以是支持文本与音频之间转换功能的服务器,比如电子阅读平台的服务端等,或者文本-音频转换平台的服务端等,对此不作具体限定。
在一些实施例中,为了提高编辑的灵活性,S140可以具体包括下述步骤b41和步骤b42。
步骤b41,检测本地是否支持目标音效的音效编辑功能。
步骤b42,在本地支持音效编辑功能的情况下,在本地为目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
通过本实施例,在本地可以及时对目标音频的编辑,提高了音频编辑的效率。
可选地,在步骤b41之后,步骤S140还可以包括下述步骤b43和步骤b44。
步骤b43,在本地不支持该音频编辑功能的情况下,向服务器发送音频编辑请求。音频编辑请求携带有添加有目标标签的目标文本,音频编辑请求用于使服务器为目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
可选地,可以向多个候选服务器轮询是否支持目标标签的音频编辑功能,从而提高音频编辑能力。
步骤b44,接收服务器反馈的编辑后的目标音频。
通过上述步骤b41-b44,可以根据本地的音频编辑能力选择目标音频的编辑方式,当本地具有目标标签的音频编辑功能的处理能力时,可以在本地进行及时音频编辑,当本地不具有目标标签的音频编辑功能时,可以用外部服务器进行编辑支持,从而兼顾音频编辑效率和音频编辑能力,提高了用户的音频编辑体验。
在本公开实施例中,用户可以在提供多个编辑控件的目标操作页面自由选择目标编辑控件,并向目标文本添加目标编辑控件对应的目标标签,进而使得可以对目标音频添加目标标签对应的目标音效。由于用户通过在目标操作界面自由选择目标编辑控件,即可在文本添加目标编辑控件的标签的方式即可在目标音频中添加对应的音频音效,无需进行复杂的音频处理即可对目标音频进行调整,提高了音频编辑的灵活性。
另外,用户无需编程或者在文本中编写相应地文本处理指令或者文本标签即可对音频进行编辑,简化了编辑流程,用户无需掌握相应知识即可利用目标操作界面进行音频编辑,提高了编辑便捷性和普适性。
在本公开的一些实施例中,在步骤S110之前,音频编辑方法还可以包括步骤c1至步骤c2。
步骤c1,接收目标文本。其中,目标文本可以是用户上传的、或者是从网络下载的或者是音频编辑工具的预设文本,对此不作限定。
可选地,目标文本可以是电子图书、电子新闻等,对此不作具体限定。示例性地,目标文本可以是对话小说,即一种需要以人物对话界面将对话角色的说话内容呈现出来的文本。
步骤c2,对目标文本进行文语转换,得到待调整的目标音频。
可选地,可以在本地进行文语转换,或者通过其他具有文本与音频之间转换功能的服务器,对此不作具体限定。
在本公开的一些实施例中,可以对电子书进行音频编辑。
相应地,在步骤S110之前,方法还包括步骤d1至步骤d6。
步骤d1,接收电子书文本。
其中,电子书文本是文本形式的电子书。
可选地,若电子书的文本格式不支持标签添加或者该文本添加的标签不能被文语转换模块识别,则可以将电子书转换为能够添加文本标签以及可以被文本转换识别的文本格式。
步骤d2,按照文本结构将电子书拆分为多个文本片段。
示例性地,可以按照电子书的章节、段落等将电子书拆成多个文本片段。对电子书的具体拆分粒度不作具体限定。
步骤d3,对多个文本片段进行文语转换,得到多个文本片段各自的第一音频片段。
可选地,可以在本地进行文语转换,或者通过其他具有文本与音频之间转换功能的服务器,对此不作具体限定。
步骤d4,显示多个第一音频片段对应的第一列表。
其中,第一列表内显示有属于该电子小说文本的多个第一音频片段。
示例性地,继续参见图2,可以在分集列表中展示多个第一音频片段。具体地,用户点击目标操作界面的分集标签206之后,则可以在列表显示区域208显示分集列表中的多个第一音频片段209。
步骤d5,检测用户对第一列表中的目标音频片段的第一选择操作。
可选地,第一选择操作可以包括针对目标音频片段的点击、双击、长按、滑动等手势控制操作、语音控制操作或者表情控制操作等,在此不作限制。
步骤d6,响应于选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
通过本实施例,可以将一个小说拆分成多个音频片段进行音频编辑,提高了用户音频编辑的便捷性。
在本公开的一些实施例中,可以对电子书进行音频编辑。相应地,在步骤S110之前,方法还包括步骤e1至步骤e6。
步骤e1,接收电子书文本。
其中,步骤e1和步骤d1类似,可参见步骤d1的相关描述,在此不再赘述。
步骤e2,对电子书文本进行文语转换,得到电子书音频。
可选地,可以在本地进行文语转换,或者通过其他具有文本与音频之间转换功能的服务器,对此不作具体限定。
步骤e3,将电子书音频拆分为多个第二音频片段。
可选地,可以按照音频时长等音频参数,将电子书音频拆分为多个第二音频片段。比如,可以将电子书音频拆分为多个预设时长或者相同时长的第二音频片段。
比如,可以拆成时长为20分钟(min)的第二音频片段。
步骤e4,显示包含多个第二音频片段的第二列表。
其中,第二列表内显示有属于该电子小说文本的多个第二音频片段。
示例性地,继续参见图2,可以在目录列表中展示多个第二音频片段。具体地,用户点击目标操作界面的目录标签205之后,则可以在列表显示区域208显示目录列表中的多个第二音频片段209。
步骤e5,检测用户对第二列表中的目标音频片段的第二选择操作。
其中,第二选择操作与上述第一选择操作类似,在此不再赘述。
步骤e6,响应于第二选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
其中,步骤e6和步骤d6类似,可参见步骤d6的相关描述,在此不再赘述。
通过本实施例,可以将一个小说拆分成多个音频片段进行音频编辑,提高了用户音频编辑的便捷性。
在本公开的一些实施例中,为了提高用户的音频编辑体验,在步骤S140之后,音频编辑方法还可以包括步骤a1和步骤a2。
步骤a1,检测用户对编辑后的目标音频的播放操作。
可选地,播放操作可以包括针对目标音频的播放控件的点击、双击、长按、滑动等手势控制操作、语音控制操作或者表情控制操作等,在此不作限制。
示例性地,播放控件可以是图2中的播放按钮210。
步骤a2,响应于播放操作,播放编辑后目标音频。
通过本实施例,用户可以试听目标音频编辑后的效果,提高了用户的音频编辑体验,以及编辑的灵活性。
可选地,为了保证用户能够对目标音频的编辑效果进行实时试听,可以在用户每添加M个标签或者编辑时长达到预设时长,即对添加有标签的文本进行一次文语转换,并在目标操作界面上显示转换而成的目标音频,以供用户选择试听。
其中,M为任意正整数,M和预设时长可以根据实际情况和具体需求设置,对此不作具体限定。
在本公开的一些实施例中,为了便于用户对已编辑音频进行审听,在步骤S140之后,音频编辑方法还可以包括步骤f1至步骤f3。
步骤f1,显示包含编辑后的目标音频的第三列表。
其中,第三列表内显示有多个编辑好的待审听音频。多个待审听音频可以属于同一电子书或者不同电子书,对此不作具体限定。
示例性地,继续参见图2,可以在审听列表中展示多个待审听音频。具体地,用户点击目标操作界面的审听标签207之后,则可以在列表显示区域208显示审听列表中的多个待审听音频209。
步骤f2,检测用户针对第三列表中待审听音频的第三选择操作。
可选地,第三选择操作可以包括针对待审听音频的点击、双击、长按、滑动等手势控制操作、语音控制操作或者表情控制操作等,在此不作限制。
步骤f3,响应于第三选择操作,播放待审听音频。
通过本实施例,用户可以通过目标操作界面对已经编辑好的音频片段进行审听,提高了用户的编辑体验。
图3示出了本公开实施例提供的另一种音频编辑方法的流程示意图。本发明实施例在上述实施例的基础上进行优化,本发明实施例可以与上述一个或者多个实施例中各个可选方案结合。
如图3所示,该音频编辑方法可以包括如下步骤。
步骤S310,显示目标操作界面。其中,目标操作界面包括多个编辑控件,每个编辑控件对应一种标签。
具体地,步骤S310与步骤S110类似,可参见本公开实施例上述部分对步骤S110的相关说明内容,对此不再赘述。
步骤S320,检测用户对目标文本的位置选择操作。
首先,对于位置选择操作。
位置选择操作为用于选择标签在目标文本中插入位置的相关操作。比如框选或者光标选择等。
在一个实施例中,位置选择操作可以是用户在目标操作界面上的目标文本内的选择操作。示例性地,图4示出了本公开实施例提供的另一种示例性的目标操作界面的示意图。如图4所示,位置选择操作可以是在目标文本401中的选择操作。
在另一个实施例中,位置选择操作可以是用户在目标操作界面上的目标音频的音轨中的选择操作。可选地,音轨可以是目标音频的可视化操作控件,比如,目标音频的波形图或者播放进度条等,对此不作具体限定。示例性地,图5示出了本公开实施例提供的又一种示例性的目标操作界面的示意图。如图5所示,位置选择操作可以是在音轨501中的选择操作。
在介绍了位置选择操作之后,接下来本公开实施例的下述部分将结合位置选择操作对S320的具体实施方式展开说明。
在一个示例中,位置选择操作包括对目标文本的词选择操作。比如,如图4所示,用户可以通过词选择操作,框选出目标词“小城姑娘”,其中,目标词的框选效果如图4中的402所示。
相应地,步骤S320可以包括:检测用户在目标文本的字词选择操作。具体地,可以对用户是否在目标文本中选中了1个或者多个字词进行检测。若选中了一个或者多个字词,则确认用户触发了字词选择操作。
在另一个示例中,位置选择操作包括对目标文本的光标插入操作。比如,如图4所示,用户在目标词“地红彤彤”中插入光标403。
相应地,步骤S320可以包括:检测用户对目标文本的光标插入操作。具体地,可以对用户是否在目标文本中的字词前后插入光标进行检测。若用户在文本中插入了光标,则确认用户触发了光标插入操作。
在一个示例中,位置选择操作可以是用户在目标操作界面上的目标音频的音轨内的选择操作。比如,如图5所示,用户用音轨选择框502在音轨501中选中音轨段。
相应地,步骤S320可以包括:检测用户针对轨道的轨道段选择操作。具体地,可以对用户是否在音轨中是否选择了一帧或者多帧音轨进行检测。如果用户选择了一帧或者多帧音轨,则确定用户触发了音轨段选择操作。
在另一个示例中,第二位置选择操作包括利用音轨定位条在音轨中的定位操作。比如,如图5所示,音轨定位条503可以在音轨501中进行定位。
相应地,步骤S320可以包括:检测用户利用音轨定位条在音轨中的定位操作。具体地,可以对用户是否在音轨中插入或者移动音轨定位条进行检测。如果检测到用户移动或者插入了音轨定位条,则确定用户触发了定位操作。
步骤S330,响应于位置选择操作,确定待添加标签的待添加位置。
为了便于理解,接下来将结合位置选择操作,对S330展开具体说明。
在一些实施例中,若位置选择操作为上述字词选择操作,则步骤S330可以具体包括下述步骤g1和步骤g2。
步骤g1,在检测到用户的字词选择操作的情况下,确定用户所选择的目标词。
具体地,可以将被选中的字词确定为目标词。比如,继续参见图4,“小城姑娘”四个字处于选中状态,则可以将“小城姑娘”确定为目标词。
步骤g2,将目标词的端部确定为待添加位置。
可选地,可以将目标词的前端和/或后端作为待添加位置。具体添加位置可以根据标签的具体要求和实际情况进行设置,对此不作限定。
在另一些实施例中,若位置选择操作为上述光标插入操作,则步骤S330可以具体包括下述步骤g3和步骤g4。
步骤g3,在监测到光标插入操作的情况下,确定光标的插入位置。
可选地,可以将光标在目标文本中的位置确定为光标的插入位置。比如,继续参见图4,光标的插入位置在“地”与“红彤彤”之间。
步骤g4,将插入位置确定为待添加位置。
示例性地,目标标签的待添加位置即为“地”与“红彤彤”之间。
在又一些实施例中,若位置选择操作为上述轨道段选择操作,则步骤S330可以具体包括下述步骤g5至步骤g7。
步骤g5,在检测到轨道段选择操作的情况下,确定用户所选择的目标轨道段。
示例性地,继续参见图5,目标轨道段为被音轨选择框502框选的音轨段。
步骤g6,在目标文本中,定位目标轨道段对应的目标词。
可选地,可以基于文本与音频的对应关系,确定目标轨道段对应的目标词。
步骤g7,将目标词的端部确定为待添加位置。
可选地,若目标音轨段对应的目标词为“小城姑娘”,则可以在目标文本中该处“小城姑娘”的前端和/或后端作为待添加位置。
在再一些实施例中,若位置选择操作为上述定位操作,则步骤S330可以具体包括下述步骤g8和步骤g10。
步骤g8,在检测到定位操作的情况下,确定音轨定位条的音频位置。
步骤g9,在目标文本中,定位音频位置所对应的文本位置。
可选地,可以基于文本与音频的对应关系,确定音频位置对应的文本位置。
步骤g10,将文本位置确定为待添加位置。
步骤S340,检测用户对多个编辑控件中的目标编辑控件的第一触发操作。
具体地,步骤S340与步骤S120类似,可参见本公开实施例上述部分对步骤S110的相关说明内容,对此不再赘述。
步骤S350,响应于第一触发操作,将目标标签添加至待添加位置。
需要说明的是,目标标签的具体添加方式可以参见本公开上述部分的相关描述,在此不再赘述。
步骤S360,向目标音频添加目标标签对应的目标音效,得到编辑后的目标音频。
具体地,步骤S360与步骤S140类似,可参见本公开实施例上述部分对步骤S110的相关说明内容,对此不再赘述。
可选地,步骤S360可以具体实现为:为待添加位置对应的音频片段添加目标音效。
在一个示例中,若待添加位置在某句话的两端,则可以直接对该句话对应的音频段添加目标音效。
在另一个示例中,如果待添加位置在某句话的尾部/前部、或者某个段落的尾部/前部、或者某个章节的尾部/前部,则可以直接对相应句子、段落或者章节对应的音频段添加目标音效,对此不作具体限定。
在本公开实施例中,用户可以在提供多个编辑控件的目标操作页面自由选择目标编辑控件,并向目标文本添加目标编辑控件对应的目标标签,进而使得可以对目标音频添加目标标签对应的目标音效。由于用户通过在目标操作界面自由选择目标编辑控件,即可在文本添加目标编辑控件的标签的方式即可在目标音频中添加对应的音频音效,无需进行复杂的音频处理即可对目标音频进行调整,提高了音频编辑的灵活性。
以及,在本公开实施例中,可以通过检测用户对目标文本的位置选择操作,进而确定目标标签的待添加位置的方式,可以对一段话、一句话、一个字词等进行准确的音频编辑,提高了音频编辑的精度。
图6示出了本公开实施例提供的一种电子设备的结构示意图。
本公开实施例提供的电子设备可以包括能够提供电子书阅读功能的电子设备。其中,该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端,以及诸如数字TV、台式计算机、智能家居设备等的固定终端。又或者还可以是诸如云端服务器、物理服务器、服务器集群等服务器,比如支持音频调整功能的电子阅读平台的服务端,对此不作限定。
需要说明的是,图6示出的电子设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
该电子设备600传统上包括处理器610和以存储器620形式的计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有用于执行上述笔记处理方法中的任何方法步骤的可执行指令(或程序代码)6211的存储空间621。例如,用于可执行指令的存储空间621可以包括分别用于实现上面的笔记处理方法中的各种步骤的各个可执行指令6211。这些可执行指令可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,光盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为便携式或者固定存储单元。该存储单元可以具有与图6的电子设备600中的存储器620类似布置的存储段或者存储空间等。可执行指令可以例如以适当形式进行压缩。通常,存储单元包括用于执行根据本公开的笔记处理方法步骤的可执行指令,即可以由例如诸如处理器610之类的处理器读取的代码,这些代码当由电子设备600运行时,导致该电子设备600执行上面所描述的笔记处理方法中的各个步骤。
当然,为了简化,图6中仅示出了该电子设备600中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口、输入装置和输出装置等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开各实施例所提供的笔记处理方法。
该计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
在本公开实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本申请公开了:
A1、一种音频编辑方法,包括:
显示目标操作界面,所述目标操作界面包括多个编辑控件,每个所述编辑控件对应一种标签,每个所述标签用于向基于所述目标文本生成的目标音频添加一种音效;
检测用户对所述多个编辑控件中的目标编辑控件的第一触发操作;
响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签;
向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
A2、根据A1所述的方法,其中,所述在检测所述用户对所述多个编辑控件中的目标编辑控件的第一触发操作之前,所述方法还包括:
检测所述用户对所述目标文本的位置选择操作;
响应于所述位置选择操作,确定待添加标签的待添加位置;
其中,所述向所述目标文本添加所述目标编辑控件对应的目标标签,包括:
将所述目标标签添加至所述待添加位置。
A3、根据A2所述的方法,其中,所述向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频,包括:
为所述待添加位置对应的音频片段添加所述目标音效。
A4、根据A2所述的方法,其中,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的词选择操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测用户在所述目标文本的字词选择操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到用户的字词选择操作的情况下,确定用户所选择的目标词;
将所述目标词的端部确定为所述待添加位置。
A5、根据A2所述的方法,其中,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的光标插入操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述用户在所述目标文本中的光标插入操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在监测到所述光标插入操作的情况下,确定所述光标的插入位置;
将所述插入位置确定为所述待添加位置。
A6、根据A2所述的方法,其中,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括对所述音轨的轨道段选择操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述轨道段选择操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到所述轨道段选择操作的情况下,确定用户所选择的目标轨道段;
在所述目标文本中,定位所述目标轨道段对应的目标词;
将所述目标词的端部确定为所述待添加位置。
A7、根据A2所述的方法,其中,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括利用音轨定位条在所述音轨中的定位操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述定位操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到所述定位操作的情况下,确定所述音轨定位条的音频位置;
在所述目标文本中,定位所述音频位置所对应的文本位置;
将所述文本位置确定为所述待添加位置。
A8、根据A1-A7任一项所述的方法,其中,在所述显示目标操作界面之前,所述方法还包括:
接收目标文本;
对目标文本进行文语转换,得到待调整的目标音频。
A9、根据A1-A8任一项所述的方法,其中,在为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频之后,所述方法还包括:
检测用户对所述编辑后的目标音频的播放操作;
响应于所述播放操作,播放所述编辑后目标音频。
A10、根据A1所述的方法,其中,所述为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频,包括:
检测本地是否支持所述目标音效的音效编辑功能;
在本地支持所述音效编辑功能的情况下,在本地为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
A11、根据A10所述的方法,其中,在所述检测本地是否支持所述目标音效的音效编辑功能之后,所述方法还包括:
在本地不支持所述音频编辑功能的情况下,向服务器发送音频编辑请求,所述音频编辑请求携带有添加有所述目标标签的目标文本,所述音频编辑请求用于使所述服务器为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频;
接收所述服务器反馈的所述编辑后的目标音频。
A12、根据A1-A11任一项所述的方法,其中,在所述显示目标操作界面之前,所述方法还包括:
接收电子书文本;
按照文本结构将所述电子书拆分为多个文本片段;
对多个文本片段进行文语转换,得到多个文本片段各自的第一音频片段;
显示多个所述第一音频片段对应的第一列表;
检测所述用户对所述第一列表中的目标音频片段的第一选择操作;
响应于所述选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
A13、所述根据A1-A12任一项所述的方法,其中,在所述得到编辑后的目标音频之后,所述方法还包括:
接收电子书文本;
对电子书文本进行文语转换,得到电子书音频;
将所述电子书音频拆分为多个第二音频片段;
显示包含多个所述第二音频片段的第二列表;
检测所述用户对所述第二列表中的目标音频片段的第二选择操作;
响应于所述第二选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
A14、所述根据A1-A13任一项所述的方法,其中,在所述得到编辑后的目标音频之后,所述方法还包括:
显示包含所述编辑后的目标音频的第三列表;
检测所述用户针对所述第三列表中待审听音频的第三选择操作;
响应于所述第三选择操作,播放所述待审听音频。
A15、所述根据A1-A14任一项所述的方法,其中,所述音效的类型包括以下至少一种:
韵律类音效、语音特征类音效、感知表示类音效。
A16、根据A1-A15任一项所述的方法,其中,所述目标音效为读音调整音效,
所述响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签,包括:
响应于对所述目标编辑控件的第一触发操作,显示待调整词的拼音输入框;
监测用户在所述拼音输入框的输入操作;
在监测到输入操作的情况下,获取所述拼音输入框内的输入内容;
在所述待调整词的端部添加包含所述输入内容的编辑标签。
A17、根据A16所述的方法,其中,所述待调整词为处于选中状态的字词确定为待调整词、或者将光标插入位置之前的预设数量个字词,或者所述目标文本中的首个多音词。
B18、一种电子设备,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
显示目标操作界面,所述目标操作界面包括多个编辑控件,每个所述编辑控件对应一种标签,每个所述标签用于向基于所述目标文本生成的目标音频添加一种音效;
检测用户对所述多个编辑控件中的目标编辑控件的第一触发操作;
响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签;
向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
B19、根据B18所述的电子设备,其中,在执行所述在检测所述用户对所述多个编辑控件中的目标编辑控件的第一触发操作之前,所述可执行指令还使所述处理器执行:
检测所述用户对所述目标文本的位置选择操作;
响应于所述位置选择操作,确定待添加标签的待添加位置;
其中,所述向所述目标文本添加所述目标编辑控件对应的目标标签,包括:
将所述目标标签添加至所述待添加位置。
B20、根据B19所述的电子设备,其中,在执行所述向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频时,所述可执行指令具体使所述处理器执行:
为所述待添加位置对应的音频片段添加所述目标音效。
B21、根据B19所述的电子设备,其中,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的词选择操作;
在执行所述检测所述用户对所述目标文本的位置选择操作时,所述可执行指令具体使所述处理器执行:
检测用户在所述目标文本的字词选择操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到用户的字词选择操作的情况下,确定用户所选择的目标词;
将所述目标词的端部确定为所述待添加位置。
B22、根据B19所述的电子设备,其中,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的光标插入操作;
在执行所述检测所述用户对所述目标文本的位置选择操作时,所述可执行指令具体使所述处理器执行:
检测所述用户在所述目标文本中的光标插入操作;
其中,在执行所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置时,所述可执行指令具体使所述处理器执行:
在监测到所述光标插入操作的情况下,确定所述光标的插入位置;
将所述插入位置确定为所述待添加位置。
B23、根据B19所述的电子设备,其中,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括对所述音轨的轨道段选择操作;
在执行所述检测所述用户对所述目标文本的位置选择操作时,所述可执行指令具体使所述处理器执行:
检测所述轨道段选择操作;
其中,在执行所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置时,所述可执行指令具体使所述处理器执行:
在检测到所述轨道段选择操作的情况下,确定用户所选择的目标轨道段;
在所述目标文本中,定位所述目标轨道段对应的目标词;
将所述目标词的端部确定为所述待添加位置。
B24、根据B19所述的电子设备,其中,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括利用音轨定位条在所述音轨中的定位操作;
在执行所述检测所述用户对所述目标文本的位置选择操作时,所述可执行指令具体使所述处理器执行:
检测所述定位操作;
其中,在执行所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置时,所述可执行指令具体使所述处理器执行:
在检测到所述定位操作的情况下,确定所述音轨定位条的音频位置;
在所述目标文本中,定位所述音频位置所对应的文本位置;
将所述文本位置确定为所述待添加位置。
B25、根据B18-B24任一项所述的电子设备,其中,在执行所述显示目标操作界面之前,所述可执行指令还使所述处理器执行:
接收目标文本;
对目标文本进行文语转换,得到待调整的目标音频。
B26、根据B18-B25任一项所述的电子设备,其中,在执行为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频之后,所述可执行指令还使所述处理器执行:
检测用户对所述编辑后的目标音频的播放操作;
响应于所述播放操作,播放所述编辑后目标音频。
B27、根据B18所述的电子设备,其中,在执行所述为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频时,所述可执行指令具体使所述处理器执行:
检测本地是否支持所述目标音效的音效编辑功能;
在本地支持所述音效编辑功能的情况下,在本地为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
B28、根据B27所述的电子设备,其中,在执行所述检测本地是否支持所述目标音效的音效编辑功能之后,所述可执行指令还使所述处理器执行:
在本地不支持所述音频编辑功能的情况下,向服务器发送音频编辑请求,所述音频编辑请求携带有添加有所述目标标签的目标文本,所述音频编辑请求用于使所述服务器为所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频;
接收所述服务器反馈的所述编辑后的目标音频。
B29、根据B18-B28任一项所述的电子设备,其中,在执行所述显示目标操作界面之前,所述可执行指令还使所述处理器执行:
接收电子书文本;
按照文本结构将所述电子书拆分为多个文本片段;
对多个文本片段进行文语转换,得到多个文本片段各自的第一音频片段;
显示多个所述第一音频片段对应的第一列表;
检测所述用户对所述第一列表中的目标音频片段的第一选择操作;
响应于所述选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
B30、所述根据B18-B29任一项所述的电子设备,其中,在执行所述得到编辑后的目标音频之后,所述可执行指令还使所述处理器执行:
接收电子书文本;
对电子书文本进行文语转换,得到电子书音频;
将所述电子书音频拆分为多个第二音频片段;
显示包含多个所述第二音频片段的第二列表;
检测所述用户对所述第二列表中的目标音频片段的第二选择操作;
响应于所述第二选择操作,将目标音频片段对应的文本片段作为目标文本以及将目标音频片段作为目标音频。
B31、所述根据B18-B30任一项所述的电子设备,其中,在执行所述得到编辑后的目标音频之后,所述可执行指令还使所述处理器执行:
显示包含所述编辑后的目标音频的第三列表;
检测所述用户针对所述第三列表中待审听音频的第三选择操作;
响应于所述第三选择操作,播放所述待审听音频。
B32、所述根据B18-B31任一项所述的电子设备,其中,所述音效的类型包括以下至少一种:
韵律类音效、语音特征类音效、感知表示类音效。
B33、根据B18-B32任一项所述的电子设备,其中,所述目标音效为读音调整音效,
在执行所述响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签时,所述可执行指令具体使所述处理器执行:
响应于对所述目标编辑控件的第一触发操作,显示待调整词的拼音输入框;
监测用户在所述拼音输入框的输入操作;
在监测到输入操作的情况下,获取所述拼音输入框内的输入内容;
在所述待调整词的端部添加包含所述输入内容的编辑标签。
B34、根据B33所述的电子设备,其中,所述待调整词为处于选中状态的字词确定为待调整词、或者将光标插入位置之前的预设数量个字词,或者所述目标文本中的首个多音词。
C35、一种计算机可读存储介质,其中,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述C1-C17中任一项所述的音频编辑方法。
本公开的各个部件实施例可以全部或部分步骤以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的电子设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (10)
1.一种音频编辑方法,其特征在于,包括:
显示目标操作界面,所述目标操作界面包括多个编辑控件,每个所述编辑控件对应一种标签,每个所述标签用于向基于所述目标文本生成的目标音频添加一种音效;
检测用户对所述多个编辑控件中的目标编辑控件的第一触发操作;
响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签;
向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述在检测所述用户对所述多个编辑控件中的目标编辑控件的第一触发操作之前,所述方法还包括:
检测所述用户对所述目标文本的位置选择操作;
响应于所述位置选择操作,确定待添加标签的待添加位置;
其中,所述向所述目标文本添加所述目标编辑控件对应的目标标签,包括:
将所述目标标签添加至所述待添加位置。
3.根据权利要求2所述的方法,其特征在于,所述向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频,包括:
为所述待添加位置对应的音频片段添加所述目标音效。
4.根据权利要求2所述的方法,其特征在于,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的词选择操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测用户在所述目标文本的字词选择操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到用户的字词选择操作的情况下,确定用户所选择的目标词;
将所述目标词的端部确定为所述待添加位置。
5.根据权利要求2所述的方法,其特征在于,所述目标操作界面显示有所述目标文本,所述位置选择操作包括对目标文本的光标插入操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述用户在所述目标文本中的光标插入操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在监测到所述光标插入操作的情况下,确定所述光标的插入位置;
将所述插入位置确定为所述待添加位置。
6.根据权利要求2所述的方法,其特征在于,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括对所述音轨的轨道段选择操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述轨道段选择操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到所述轨道段选择操作的情况下,确定用户所选择的目标轨道段;
在所述目标文本中,定位所述目标轨道段对应的目标词;
将所述目标词的端部确定为所述待添加位置。
7.根据权利要求2所述的方法,其特征在于,所述目标操作界面显示有所述目标音频的音轨,所述位置选择操作包括利用音轨定位条在所述音轨中的定位操作;
所述检测所述用户对所述目标文本的位置选择操作,包括:
检测所述定位操作;
其中,所述响应于所述位置选择操作,确定所述目标标签在所述目标文本中的待添加位置,包括:
在检测到所述定位操作的情况下,确定所述音轨定位条的音频位置;
在所述目标文本中,定位所述音频位置所对应的文本位置;
将所述文本位置确定为所述待添加位置。
8.所述根据权利要求1-7任一项所述的方法,其特征在于,所述音效的类型包括以下至少一种:
韵律类音效、语音特征类音效、感知表示类音效。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储可执行指令,所述可执行指令使所述处理器执行以下操作:
显示目标操作界面,所述目标操作界面包括多个编辑控件,每个所述编辑控件对应一种标签,每个所述标签用于向基于所述目标文本生成的目标音频添加一种音效;
检测用户对所述多个编辑控件中的目标编辑控件的第一触发操作;
响应于所述第一触发操作,向所述目标文本添加所述目标编辑控件对应的目标标签;
向所述目标音频添加所述目标标签对应的目标音效,得到编辑后的目标音频。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-8中任一项所述的音频编辑方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424121.5A CN114023301A (zh) | 2021-11-26 | 2021-11-26 | 音频编辑方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424121.5A CN114023301A (zh) | 2021-11-26 | 2021-11-26 | 音频编辑方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114023301A true CN114023301A (zh) | 2022-02-08 |
Family
ID=80066747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424121.5A Pending CN114023301A (zh) | 2021-11-26 | 2021-11-26 | 音频编辑方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023301A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115050349A (zh) * | 2022-06-14 | 2022-09-13 | 抖音视界(北京)有限公司 | 文本转换音频的方法、装置、设备和介质 |
WO2023213314A1 (zh) * | 2022-05-06 | 2023-11-09 | 北京字节跳动网络技术有限公司 | 用于编辑音频的方法、装置、设备和存储介质 |
WO2023217002A1 (zh) * | 2022-05-07 | 2023-11-16 | 北京字跳网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
WO2023236794A1 (zh) * | 2022-06-06 | 2023-12-14 | 华为技术有限公司 | 一种音轨标记方法及电子设备 |
CN115050349B (zh) * | 2022-06-14 | 2024-06-11 | 抖音视界有限公司 | 文本转换音频的方法、装置、设备和介质 |
-
2021
- 2021-11-26 CN CN202111424121.5A patent/CN114023301A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023213314A1 (zh) * | 2022-05-06 | 2023-11-09 | 北京字节跳动网络技术有限公司 | 用于编辑音频的方法、装置、设备和存储介质 |
WO2023217002A1 (zh) * | 2022-05-07 | 2023-11-16 | 北京字跳网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
WO2023236794A1 (zh) * | 2022-06-06 | 2023-12-14 | 华为技术有限公司 | 一种音轨标记方法及电子设备 |
CN115050349A (zh) * | 2022-06-14 | 2022-09-13 | 抖音视界(北京)有限公司 | 文本转换音频的方法、装置、设备和介质 |
CN115050349B (zh) * | 2022-06-14 | 2024-06-11 | 抖音视界有限公司 | 文本转换音频的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106652997B (zh) | 一种音频合成的方法及终端 | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
CN114023301A (zh) | 音频编辑方法、电子设备及存储介质 | |
CN110473525B (zh) | 获取语音训练样本的方法和装置 | |
US20100082328A1 (en) | Systems and methods for speech preprocessing in text to speech synthesis | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
JP2015517684A (ja) | コンテンツのカスタマイズ | |
US11295069B2 (en) | Speech to text enhanced media editing | |
CN111782576B (zh) | 背景音乐的生成方法、装置、可读介质、电子设备 | |
US20140258858A1 (en) | Content customization | |
EP3120343A1 (en) | Method of providing a user with feedback on performance of a karaoke song | |
US9075760B2 (en) | Narration settings distribution for content customization | |
CN111142667A (zh) | 一种基于文本标记生成语音的系统和方法 | |
US20230229382A1 (en) | Method and apparatus for synchronizing audio and text, readable medium, and electronic device | |
CN112995736A (zh) | 语音字幕合成方法、装置、计算机设备及存储介质 | |
CN113901186A (zh) | 电话录音标注方法、装置、设备及存储介质 | |
US20080243510A1 (en) | Overlapping screen reading of non-sequential text | |
CN115346503A (zh) | 歌曲创作方法、歌曲创作装置、存储介质及电子设备 | |
CN111259181B (zh) | 用于展示信息、提供信息的方法和设备 | |
US8990087B1 (en) | Providing text to speech from digital content on an electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |