CN111739536A - 一种音频处理的方法和装置 - Google Patents

一种音频处理的方法和装置 Download PDF

Info

Publication number
CN111739536A
CN111739536A CN202010388871.0A CN202010388871A CN111739536A CN 111739536 A CN111739536 A CN 111739536A CN 202010388871 A CN202010388871 A CN 202010388871A CN 111739536 A CN111739536 A CN 111739536A
Authority
CN
China
Prior art keywords
information
sub
text
audio
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010388871.0A
Other languages
English (en)
Inventor
刘光华
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010388871.0A priority Critical patent/CN111739536A/zh
Publication of CN111739536A publication Critical patent/CN111739536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种音频处理的方法,所述方法包括:获取第一音频信息,并生成第一音频信息对应的文本信息,从第一音频信息中,提取文本信息对应的声学特征信息,其中,文本信息包括多个子文本信息,根据声学特征信息,确定多个子文本信息对应的重要性分值,按照重要性分值,从多个子文本信息中确定目标子文本信息,采用目标子文本信息,生成针对第一音频信息的摘要信息,结合声学特征信息,生成摘要信息对应第二音频信息,以进行个性化播报。通过本申请实施例,实现了音频摘要的自动生成以及音频摘要的个性化播放,可以通过原始发音人的音色播放,并且提升了摘要生成的速度,无需人工校验编辑整理。

Description

一种音频处理的方法和装置
技术领域
本申请涉及电子技术领域,特别是涉及一种音频处理的方法和装置。
背景技术
在进行会议或者公开演讲的过程中,用户可能会通过录音的方式记录会议或者公开演讲的内容,在会议或者公开演讲结束后,用户可能需要整理该录音,并将录音的整理结果作为会议纪要发出。
在现有技术中,用户可能会通过语音转写服务将录音转写成文字,并对转写得到的文字进行整理,但是面对较长时间的录音,用户需要将转写得到的文字对照音频进行编辑以及矫正,需要花费大量的时间和精力。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种音频处理的方法和装置,包括:
一种音频处理的方法,所述方法包括:
获取第一音频信息,并生成所述第一音频信息对应的文本信息;
从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
可选地,所述根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值,包括:
采用所述声学特征信息,确定每个子文本信息对应的第一子分值;
确定每个子文本信息对应的第二子分值;
结合所述第一子分值和所述第二子分值,得到每个子文本信息对应的重要性分值。
可选地,所述确定每个子文本信息对应的第二子分值,包括:
针对每个子文本信息,得到一个或多个关键词;
在预置的统计信息中,确定所述一个或多个关键词对应的分值,得到每个子文本信息对应的第二子分值;其中,所述统计信息包括一个或多个关键词和分值的对应关系。
可选地,所述得到一个或多个关键词的步骤包括:
针对每个子文本信息,进行辅助词删除,得到一个或多个关键词。
可选地,所述采用所述声学特征信息,确定每个子文本信息对应的第一子分值,包括:
针对每个子文本信息,确定每个声学特征信息对应的声学特征类型,并确定所述声学特征类型对应的分值和权重值;
按照所述权重值,对所有的声学特征类型对应的分值进行加权求和,得到每个子文本信息对应的第一子分值。
可选地,所述声学特征信息还包括语调信息、语气信息、停顿信息、重音信息、升降调信息以及语速信息。
可选地,在所述采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息之后,包括:
响应针对所述摘要信息的修改请求,对所述摘要信息进行修改。
一种音频处理的装置,其特征在于,所述装置包括:
文本信息生成模块,用于获取第一音频信息,并生成所述第一音频信息对应的文本信息;
声学特征信息提取模块,用于从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
重要性分值确定模块,用于根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
目标子文本信息确定模块,用于按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
摘要信息生成模块,用于采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
个性化播报模块,用于结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上音频处理的方法的步骤。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上音频处理的方法的步骤。
本申请实施例具有以下优点:
在本申请实施例中,通过获取第一音频信息,并生成第一音频信息对应的文本信息,从第一音频信息中,提取文本信息对应的声学特征信息,其中,文本信息包括多个子文本信息,根据声学特征信息,确定多个子文本信息对应的重要性分值,按照重要性分值,从多个子文本信息中确定目标子文本信息,采用目标子文本信息,生成针对第一音频信息的摘要信息,结合声学特征信息,生成摘要信息对应第二音频信息,以进行个性化播报,实现了音频摘要的自动生成以及音频摘要的个性化播放,可以通过原始发音人的音色播放,并且提升了摘要生成的速度,无需人工校验编辑整理。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是一种会议录音的处理流程图;
图2是本申请一实施例提供的一种音频处理的方法的步骤流程图;
图3是本申请一实施例提供的一种音频处理的流程示意图;
图4是本申请一实施例提供的一种音频处理的数据流程示意图;
图5是本申请一实施例提供的另一种音频处理的方法的步骤流程图;
图6是本申请一实施例提供的一种音频处理的流程示意图;
图7是本申请一实施例提供的另一种音频处理的流程示意图;
图8是本申请一实施例提供的一种音频处理的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,在用户收到会议录音后,可以人工听取录音,并对该录音进行编辑整理,并生成与该录音对应的音频摘要,但面对长达几个小时的录音,将整篇转写结果都实时对照音频编辑矫正,则会花费大量时间和精力。
在本申请实施例中,可以通过语音识别技术,将音频转写成文本,并在此过程中提取出说话人的声学特征,如语速、语调、音调、重音等特征参数。将转写结果与声学特征参数送至ATS摘要功能模块,ATS通过分析统计文本中的内容重要性,并结合声学特征加权计算出各个句子的最终重要性,根据重要性将句子摘取出来作为摘要文本。
以下进行详细的说明:
参照图2,示出了本申请一实施例提供的一种音频处理的方法的步骤流程图,具体可以包括如下步骤:
步骤201,获取第一音频信息,并生成所述第一音频信息对应的文本信息;
其中,第一音频信息可以是预先存储的音频信息,也可以是实时录制的音频信息,该第一音频信息可以长达几个小时。
在摘要信息生成过程中,可以先获取待进行摘要信息处理的第一音频信息,并可以结合ASR(Automatic Speech Recognition,自动语音识别技术) 生成所述第一音频信息对应的文本信息。
其中,ASR(Automatic Speech Recognition,自动语音识别技术)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1、识别词汇表的大小和语音的复杂性; 2、语音信号的质量;3、单个说话人还是多说话人;4、硬件。
步骤202,从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
其中,子文本信息可以是文本信息中的句子,也可以是文本信息中的段落。
声学特征信息可以指说话人的语速、语气、语调、腔调、停顿、语音重音、升降调等声学特征参数。
在生成文本信息后,可以结合ATS技术提取文本信息对应的声学特征信息。具体的,可以从第一音频信息中,提取子文本信息内部或子文本信息之间语音上的间歇,作为该文本信息对应的停顿信息;可以提取语句重音、词重音,作为该文本信息对应的重音信息;可以提取声音的高低,作为该文本信息对应的升降调信息;可以提取语音中声音快慢,作为该文本信息对应的语速信息。
其中,ATS技术是文本摘要引擎技术,其主要功能用于一通通话内容或一篇文本提取其摘要句,一般为1-5句,返回文本的句数可进行调整,根据文本内容自动确定返回摘要句内容。该方法可用于迅速提取文本或语音的核心内容,方便用户快速了解通话主题或文本主题。
步骤203,根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
作为一示例,声学特征信息包括语调信息、语气信息、停顿信息、重音信息、升降调信息以及语速信息。
停顿信息,句子内部或句子之间语音上的间歇作为计算重要性的标准,如停顿越久越重要。
重音信息:分为语句重音、词重音两类,发音越重代表重要性越高。
升降调信息:全句的声音的高低是语调主干,最能表达说话人的态度和情感。如句尾升起的调子,一般用于意思还没有完全说完的句子,让听的人注意下面还有话说,可作为重要性较高的标志。
语速信息:说话声音快慢也可反映说话内容的重要性,一定阈值范围内,说话越慢代表说话内容越重要。
在提取声学特征信息后,可以确定声学特征信息对应的重要性分值,进而根据该声学特征信息的重要性分值计算多个子文本信息对应的重要性分值;
步骤204,按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
在确定重要性分值后,可以从确定文本信息中每个子文本信息对应的重要性分值,并根据重要性分值的大小程度从文本信息中,挑出多个子文本信息,最后根据该多个子文本信息生成目标子文本信息。
步骤205,采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息。
其中,摘要信息又称概要、内容提要,意思是摘录要点或摘录下来的要点。摘要是以提供文章内容梗概为目的,不加评论和补充解释,简明、确切的记述文章重要内容的短文,文本自动摘要功能主要用于对一篇文本提取其摘要句,返回的句数可进行调节设置,根据文本内容自动确定返回摘要句内容。该方法可用于迅速提取文本或语音的核心内容,方便用户快速了解文本主题。
步骤206,结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
在生成摘要信息后,可以结合声学特征信息,合成用户原始音色,生成用户的专属音库,并通过TTS技术结合该用户的专属音库将该摘要进行个性化播报。
其中,TTS(TextToSpeech,从文本到语音)技术是人机对话的一部分,让机器能够说话,它是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。有少部分MP3随身听具有了TTS功能。
为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。
如图3所示,本申请将ASR音频转写服务、ATS文本自动摘要服务、语音合成服务组合使用,通过ASR音频转写服务对音频进行分析,生成音频转写结果以及个性化声学特征(即提取所述文本信息对应的声学特征信息),ATS文本自动摘要服务根据音频转写结果以及个性化声学特征生成音频摘要(即采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息),语音合成服务根据音频摘要以及个性化声学特征合成原发声人音色并通过该原发声人音色播报音频摘要(即结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报)。
如图4所示,上述过程可以通过如下数据流转实现,具体流程为:1、用户将音频上传至语音识别模块,将上传的音频(即第一音频信息)转写成文本(即文本信息),同时语音识别模块会提取到说话人的个性化声学特征(即声学特征信息);2、ASR语音识别模块将转写结果以及提取到的个性化声学特征,上传至ATS自动摘要模块,处理文本生成摘要(即摘要信息);3、用户可对摘要结果进行编辑(即响应针对所述摘要信息的修改请求,对所述摘要信息进行修改);4、最终生成的摘要文本以及个性化声学特征发送至语音合成模块;5、语音合成模块用摘要文本,结合说话人的个性化声学特征合成音频播报出来(即结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报)。
在本申请实施例中,通过获取第一音频信息,并生成第一音频信息对应的文本信息,从第一音频信息中,提取文本信息对应的声学特征信息,其中,文本信息包括多个子文本信息,根据声学特征信息,确定多个子文本信息对应的重要性分值,按照重要性分值,从多个子文本信息中确定目标子文本信息,采用目标子文本信息,生成针对第一音频信息的摘要信息,结合声学特征信息,生成摘要信息对应第二音频信息,以进行个性化播报,实现了音频摘要的自动生成以及音频摘要的个性化播放,可以通过原始发音人的音色播放,并且提升了摘要生成的速度,无需人工校验编辑整理。
参照图5,示出了本申请一实施例提供的另一种音频处理的方法的步骤流程图,具体可以包括如下步骤:
步骤501,获取第一音频信息,并生成所述第一音频信息对应的文本信息;
步骤502,从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
步骤503,采用所述声学特征信息,确定每个子文本信息对应的第一子分值;
在本申请一实施例中,所述步骤503还包括如下子步骤:
子步骤11,针对每个子文本信息,确定每个声学特征信息对应的声学特征类型,并确定所述声学特征类型对应的分值和权重值;
作为一示例,声学特征信息包括语调信息、语气信息、停顿信息、重音信息、升降调信息以及语速信息。
在提取声学特征信息后,可以确定每个子文本信息中包含的每个声学特征信息对应的声学特征类型,基于声学特征类型获取对应的权重值,并基于具体的声学特征信息确定对应的分值,具体的,当声学特征信息为停顿信息时,可以确定具体的停顿时长,并获取该停顿时长对应的分值;当声学特征信息为重音信息时,可以确定具体的重音程度,并获取该重音程度对应的分值;当声学特征信息为升降调信息时,可以直接获取与升降调对应的分值;当声学特征信息为语速信息时,可以确定具体的语速,并获取该语速对应的分值。
子步骤12,按照所述权重值,对所有的声学特征类型对应的分值进行加权求和,得到每个子文本信息对应的第一子分值。
步骤504,确定每个子文本信息对应的第二子分值;
在本申请一实施例中,所述步骤204还包括如下子步骤:
子步骤21,针对每个子文本信息,得到一个或多个关键词;
在本申请一实施例中,所述得到一个或多个关键词的步骤包括:
针对每个子文本信息,进行辅助词删除,得到一个或多个关键词。
其中,辅助词可以包括停用词和弱词性词,停用词可以是指一些没有实际意义的语气词或口头语,如“啊”“这个”“那个”“然后”等;弱词性词是指像一些虚词,如助词、介词等,以及拟声词等。
子步骤22,在预置的统计信息中,确定所述一个或多个关键词对应的分值,得到每个子文本信息对应的第二子分值;其中,所述统计信息包括一个或多个关键词和分值的对应关系。
在得到一个或多个关键词后,可以在预知的统计信息中,确定所述一个或多个关键词对应的分值,并将该一个或多个关键词对应的分值进行求和运算,得到每个子文本信息对应的第二子分值。
步骤505,结合所述第一子分值和所述第二子分值,得到每个子文本信息对应的重要性分值;
在得到第一子分值和所述第二子分值后,可以根据预先设置的第一子分值和所述第二子分值的权重关系,得到每个子文本信息对应的重要性分值。
步骤506,按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
步骤507,采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
步骤508,响应针对所述摘要信息的修改请求,对所述摘要信息进行修改。
在生成摘要信息后,用户可以发送修改请求,可以响应该所述摘要信息的修改请求,对所述摘要信息进行修改。
为了使本领域技术人员能够更好地理解上述步骤,以下通过几个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。
如图6所示,在音频处理的中,可以基于语音信息生成待分析文本(即文本信息),可以将该待分析文本按照句子(即子文本信息)进行分词(即进行辅助词删除),并将分词后的句子进行重要性分析(即在预置的统计信息中,确定所述一个或多个关键词对应的分值,得到每个子文本信息对应的第二子分值),最后根据该重要性分析后的结果生成文本摘要(即摘要信息)。
如图7所示,上述过程可以通过如下步骤执行,首先运行ATS算法,基于语音信息生成待分析文本,然后可以根据待分析文本中句子词之间的词相似度建立矩阵,进而将待分析文本拆分成句子单词矩阵,并在矩阵上运行页面排名,最后得到重要性最高级别的句子。
在本申请实施例中,通过获取第一音频信息,并生成第一音频信息对应的文本信息,从第一音频信息中,提取文本信息对应的声学特征信息,其中,文本信息包括多个子文本信息,采用声学特征信息,确定每个子文本信息对应的第一子分值,确定每个子文本信息对应的第二子分值,结合所述第一子分值和所述第二子分值,得到每个子文本信息对应的重要性分值,按照重要性分值,从多个子文本信息中确定目标子文本信息,采用目标子文本信息,生成针对第一音频信息的摘要信息,响应针对所述摘要信息的修改请求,对所述摘要信息进行修改,实现了根据声学特征信息对音频中重点文本内容的获取,节省大量的时间,并可将摘要结果个性化播报,提升了用户体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图8,示出了本申请一实施例提供的一种音频处理的装置的结构示意图,具体可以包括如下模块:
文本信息生成模块801,用于获取第一音频信息,并生成所述第一音频信息对应的文本信息;
声学特征信息提取模块802,用于从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
重要性分值确定模块803,用于根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
目标子文本信息确定模块804,用于按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
摘要信息生成模块805,用于采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
个性化播报模块806,用于结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
在本申请一实施例中,该装置还包括:
结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
在本申请一实施例中,该重要性分值确定模块803,可以包括如下子模块:
第一子分值确定子模块,用于采用所述声学特征信息,确定每个子文本信息对应的第一子分值;
第二子分值确定子模块,用于确定每个子文本信息对应的第二子分值;
分值结合模块,用于结合所述第一子分值和所述第二子分值,得到每个子文本信息对应的重要性分值。
在本申请一实施例中,该第二子分值确定子模块,可以包括如下单元:
辅助词删除单元,用于针对每个子文本信息,进行辅助词删除,得到一个或多个关键词;
第二子分值确定单元,用于在预置的统计信息中,确定所述一个或多个关键词对应的分值,得到每个子文本信息对应的第二子分值;其中,所述统计信息包括一个或多个关键词和分值的对应关系。
在本申请一实施例中,所述第一子分值确定子模块,包括如下单元:
权重值确定单元,用于针对每个子文本信息,确定每个声学特征信息对应的声学特征类型,并确定所述声学特征类型对应的分值和权重值;
第一子分值确定单元,用于按照所述权重值,对所有的声学特征类型对应的分值进行加权求和,得到每个子文本信息对应的第一子分值。
在本申请一实施例中,所述声学特征信息还包括语调信息、语气信息、停顿信息、重音信息、升降调信息以及语速信息。
在本申请一实施例中,所述装置还包括:
摘要信息修改模块,用于响应针对所述摘要信息的修改请求,对所述摘要信息进行修改。
在本申请实施例中,通过获取第一音频信息,并生成第一音频信息对应的文本信息,从第一音频信息中,提取文本信息对应的声学特征信息,其中,文本信息包括多个子文本信息,根据声学特征信息,确定多个子文本信息对应的重要性分值,按照重要性分值,从多个子文本信息中确定目标子文本信息,采用目标子文本信息,生成针对第一音频信息的摘要信息,结合声学特征信息,生成摘要信息对应第二音频信息,以进行个性化播报,实现了音频摘要的自动生成以及音频摘要的个性化播放,可以通过原始发音人的音色播放,并且提升了摘要生成的速度,无需人工校验编辑整理。
一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上音频处理的方法的步骤。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上音频处理的方法的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种音频处理的方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种音频处理的方法,其特征在于,所述方法包括:
获取第一音频信息,并生成所述第一音频信息对应的文本信息;
从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
2.根据权利要求1所述的方法,其特征在于,所述根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值,包括:
采用所述声学特征信息,确定每个子文本信息对应的第一子分值;
确定每个子文本信息对应的第二子分值;
结合所述第一子分值和所述第二子分值,得到每个子文本信息对应的重要性分值。
3.根据权利要求2所述的方法,其特征在于,所述确定每个子文本信息对应的第二子分值,包括:
针对每个子文本信息,得到一个或多个关键词;
在预置的统计信息中,确定所述一个或多个关键词对应的分值,得到每个子文本信息对应的第二子分值;其中,所述统计信息包括一个或多个关键词和分值的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述得到一个或多个关键词的步骤包括:
针对每个子文本信息,进行辅助词删除,得到一个或多个关键词。
5.根据权利要求2所述的方法,其特征在于,所述采用所述声学特征信息,确定每个子文本信息对应的第一子分值,包括:
针对每个子文本信息,确定每个声学特征信息对应的声学特征类型,并确定所述声学特征类型对应的分值和权重值;
按照所述权重值,对所有的声学特征类型对应的分值进行加权求和,得到每个子文本信息对应的第一子分值。
6.根据权利要求1或2或3或4或5所述的方法,其特征在于,所述声学特征信息还包括语调信息、语气信息、停顿信息、重音信息、升降调信息以及语速信息。
7.根据权利要求1所述的方法,其特征在于,在所述采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息之后,包括:
响应针对所述摘要信息的修改请求,对所述摘要信息进行修改。
8.一种音频处理的装置,其特征在于,所述装置包括:
文本信息生成模块,用于获取第一音频信息,并生成所述第一音频信息对应的文本信息;
声学特征信息提取模块,用于从所述第一音频信息中,提取所述文本信息对应的声学特征信息;其中,所述文本信息包括多个子文本信息;
重要性分值确定模块,用于根据所述声学特征信息,确定所述多个子文本信息对应的重要性分值;
目标子文本信息确定模块,用于按照所述重要性分值,从所述多个子文本信息中确定目标子文本信息;
摘要信息生成模块,用于采用所述目标子文本信息,生成针对所述第一音频信息的摘要信息;
个性化播报模块,用于结合所述声学特征信息,生成所述摘要信息对应第二音频信息,以进行个性化播报。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频处理的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的音频处理的方法的步骤。
CN202010388871.0A 2020-05-09 2020-05-09 一种音频处理的方法和装置 Pending CN111739536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388871.0A CN111739536A (zh) 2020-05-09 2020-05-09 一种音频处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388871.0A CN111739536A (zh) 2020-05-09 2020-05-09 一种音频处理的方法和装置

Publications (1)

Publication Number Publication Date
CN111739536A true CN111739536A (zh) 2020-10-02

Family

ID=72646736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388871.0A Pending CN111739536A (zh) 2020-05-09 2020-05-09 一种音频处理的方法和装置

Country Status (1)

Country Link
CN (1) CN111739536A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417134A (zh) * 2020-10-30 2021-02-26 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
CN112562676A (zh) * 2020-11-13 2021-03-26 北京捷通华声科技股份有限公司 一种语音解码方法、装置、设备及存储介质
CN112669885A (zh) * 2020-12-31 2021-04-16 咪咕文化科技有限公司 一种音频剪辑方法、电子设备及存储介质
CN118675500A (zh) * 2024-08-21 2024-09-20 成都职业技术学院 一种应急语言自动生成方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JP2003281164A (ja) * 2002-03-20 2003-10-03 Fuji Xerox Co Ltd 文書要約装置、文書要約方法、及び文書要約プログラム
JP2008152605A (ja) * 2006-12-19 2008-07-03 Toyohashi Univ Of Technology プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2013120547A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
WO2015184196A2 (en) * 2014-05-28 2015-12-03 Aliphcom Speech summary and action item generation
CN108305632A (zh) * 2018-02-02 2018-07-20 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
US20180225271A1 (en) * 2017-02-06 2018-08-09 International Business Machines Corporation Automated summarization based on physiological data
WO2019144752A1 (en) * 2018-01-23 2019-08-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for editing a video
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110767210A (zh) * 2019-10-30 2020-02-07 四川长虹电器股份有限公司 一种生成个性化语音的方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
JP2003281164A (ja) * 2002-03-20 2003-10-03 Fuji Xerox Co Ltd 文書要約装置、文書要約方法、及び文書要約プログラム
JP2008152605A (ja) * 2006-12-19 2008-07-03 Toyohashi Univ Of Technology プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2013120547A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置
WO2015184196A2 (en) * 2014-05-28 2015-12-03 Aliphcom Speech summary and action item generation
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
US20180225271A1 (en) * 2017-02-06 2018-08-09 International Business Machines Corporation Automated summarization based on physiological data
WO2019144752A1 (en) * 2018-01-23 2019-08-01 Zhejiang Dahua Technology Co., Ltd. Systems and methods for editing a video
CN108305632A (zh) * 2018-02-02 2018-07-20 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110767210A (zh) * 2019-10-30 2020-02-07 四川长虹电器股份有限公司 一种生成个性化语音的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417134A (zh) * 2020-10-30 2021-02-26 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
CN112417134B (zh) * 2020-10-30 2022-05-13 同济大学 基于语音文本深度融合特征的摘要自动生成系统及方法
CN112562676A (zh) * 2020-11-13 2021-03-26 北京捷通华声科技股份有限公司 一种语音解码方法、装置、设备及存储介质
CN112562676B (zh) * 2020-11-13 2023-12-29 北京捷通华声科技股份有限公司 一种语音解码方法、装置、设备及存储介质
CN112669885A (zh) * 2020-12-31 2021-04-16 咪咕文化科技有限公司 一种音频剪辑方法、电子设备及存储介质
CN118675500A (zh) * 2024-08-21 2024-09-20 成都职业技术学院 一种应急语言自动生成方法

Similar Documents

Publication Publication Date Title
CN105788589B (zh) 一种音频数据的处理方法及装置
CN111739536A (zh) 一种音频处理的方法和装置
US6463412B1 (en) High performance voice transformation apparatus and method
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
CN116018638A (zh) 使用话音转换和语音识别模型的合成数据增强
WO2013000868A1 (en) Speech-to-text conversion
CN112581963B (zh) 一种语音意图识别方法及系统
CN109346057A (zh) 一种智能儿童玩具的语音处理系统
CN106653002A (zh) 一种文字直播方法及平台
Pleva et al. TUKE-BNews-SK: Slovak Broadcast News Corpus Construction and Evaluation.
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
Kato et al. Modeling of Rakugo speech and its limitations: Toward speech synthesis that entertains audiences
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
CN110767233A (zh) 一种语音转换系统及方法
Prahallad et al. Automatic building of synthetic voices from large multi-paragraph speech databases.
Kulkarni et al. Clartts: An open-source classical arabic text-to-speech corpus
CN110992984B (zh) 音频处理方法及装置、存储介质
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
CN114446304A (zh) 语音交互方法、数据处理方法、装置和电子设备
Darģis et al. Development and evaluation of speech synthesis corpora for Latvian

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201002

RJ01 Rejection of invention patent application after publication