CN108228658A - 一种自动生成配音文字的方法、装置以及电子设备 - Google Patents

一种自动生成配音文字的方法、装置以及电子设备 Download PDF

Info

Publication number
CN108228658A
CN108228658A CN201611196447.6A CN201611196447A CN108228658A CN 108228658 A CN108228658 A CN 108228658A CN 201611196447 A CN201611196447 A CN 201611196447A CN 108228658 A CN108228658 A CN 108228658A
Authority
CN
China
Prior art keywords
text
semantic unit
basic semantic
word
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611196447.6A
Other languages
English (en)
Other versions
CN108228658B (zh
Inventor
阳鹤翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201611196447.6A priority Critical patent/CN108228658B/zh
Priority to TW106126945A priority patent/TWI749045B/zh
Priority to PCT/CN2017/115194 priority patent/WO2018113535A1/zh
Publication of CN108228658A publication Critical patent/CN108228658A/zh
Application granted granted Critical
Publication of CN108228658B publication Critical patent/CN108228658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种自动生成配音文字的方法、装置以及电子设备。其中,所述生成配音文字的方法,包括:对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。采用上述方法,能够使动态歌词文件不再采用人工的方式进行制作,提高了制作的效率降低了制作成本,简化了制作的流程。

Description

一种自动生成配音文字的方法、装置以及电子设备
技术领域
本申请涉及计算机技术领域,具体涉及一种自动生成配音文字的方法;本申请同时涉及一种自动生成配音文字的装置以及一种电子设备。
背景技术
随着音频处理技术的发展,用户对试听体验有了更高的要求,不仅要求音频播放应用能够播放音频文件,还希望音频播放应用能够同步显示与音频文件相应的歌词文件。音频播放同步显示歌词功能使得人们在听到优美旋律的同时能够看到该音频文件的歌词,该功能已经成为了音频播放应用以及播放器的必备功能之一。
为了满足用户的需求,目前用于音频播放同步显示的歌词主要采用人工方式来进行的,人工边听音频边给歌词标注时间,为音频文件数据库中的每个音频文件生成相应的歌词文件,并将所生成的歌词文件导入到音频播放应用中,从而在播放音频文件时,同步显示相应地歌词文件。
由此可见,在现有的用于音频播放同步显示的歌词的制作方案下,采用人工方式生成歌词文件制作过程比较繁琐,不仅效率低且成本高。随着音频曲库规模的不断扩大,人工方式所存在的弊端显得日益严重。
发明内容
本申请提供一种自动生成配音文字的方法,以解决现有技术中的上述问题。本申请同时涉及一种自动生成配音文字的装置以及一种电子设备。
本申请实施例提供了一种自动生成配音文字的方法,所述自动生成配音文字的方法,包括:
对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;
获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;
将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;
对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
可选的,所述对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字,包括:
针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位;
根据已获取的所述文本基本语义单位中记录的起止时间信息,确定所述单句的起止时间信息;
将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
可选的,所述针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
可选的,在所述按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组的步骤之后,包括:
根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
可选的,所述预定的计算方法,包括:
计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
可选的,所述对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组,包括:
对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
可选的,在所述保留误差值低于预设的阈值的文本基本语义单位组的步骤之后,包括:
计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
可选的,所述识别所述文本信息获取文本基本语义单位,包括:
从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
可选的,在将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
可选的,在所述确定组成所述单句的文本基本语义单位组的步骤之后,包括:
按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息。
可选的,所述预定的推算方式,包括:
计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
将取值为空值的所述文本基本语义单位,上一个文本基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
相应的,本申请实施例还提供了一种自动生成配音文字的装置,所述自动生成配音文字的装置,包括:
音频识别单元,用于对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;
文本识别单元,用于获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;
时间写入单元,用于将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;
配音文字生成单元,用于对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
可选的,所述配音文字生成单元,包括:
文本语义获取子单元,用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位;
时间信息确定子单元,用于根据已获取的所述文本基本语义单位中记录的起止时间信息确定所述单句的起止时间信息;
配音文字生成子单元,用于将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
可选的,所述时文本语义获取子单元,具体用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
可选的,所述的自动生成配音文字的装置,还包括:
文本语义筛选子单元,用于在所述按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组之后,根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
可选的,所述文本语义筛选子单元,包括:
误差计算子单元,用于计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
可选的,所述文本语义筛选子单元,还包括:
过滤子单元,用于对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
可选的,所述文本语义筛选子单元,还包括:
时间次数计算子单元,用于在所述保留误差值低于预设的阈值的文本基本语义单位组的之后,计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
可选的,所述文本识别单元,具体用于从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
可选的,所述时间写入单元,具体用于在将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
可选的,所述的自动生成配音文字的装置,还包括:
时间推算单元,用于在所述确定组成所述单句的文本基本语义单位组之后,按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息。
可选的,所述时间推算单元,包括:
平均时间计算子单元,用于计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
起始时间写入子单元,用于将取值为空值的所述文本基本语义单位,上一个文本基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
终止时间写入子单元,用于将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
此外,本申请实施例还提供了一种电子设备,包括:
显示器;
处理器;
存储器,用于存储配音文字生成程序,所述程序在被所述处理器读取执行时,执行如下操作:对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
与现有技术相比,本申请具有以下优点:
本申请提供的一种自动生成配音文字的方法、装置以及电子设备,通过对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。所述技术方案通过对音频信息进行语音识别,获取音频信息中每个音频基本语义单位起止时间信息,通过识别所述音频信息对应的文本信息,确定文本信息内每个单句内文本基本语义单位的数量与字形,使所述音频信息中识别出的音频基本语义单位与所述文本信息中识别出的文本基本语义单位相对应,在确立对应关系后,根据所述音频信息中每个音频基本语义单位起止时间信息确定文本信息中对应单句的时间信息,使文本内的每条单句带有时间信息,使动态歌词文件不再采用人工的方式进行制作,提高了制作的效率降低了制作成本,简化了制作的流程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了根据本申请的实施例提供的自动生成配音文字的方法的流程图;
图2示出了根据本申请的实施例提供的对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字的流程图;
图3示出了根据本申请的实施例提供的自动生成配音文字的装置的示意图;
图4示出了根据本申请的实施例提供的电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
本申请的实施例提供了一种自动生成配音文字的方法,本申请的实施例同时提供了一种自动生成配音文字的装置以及一种电子设备。在下面的实施例中逐一进行详细说明。
目前用于音频播放同步显示的歌词主要采用人工方式来进行的,人工边听音频边给歌词标注时间,为音频文件数据库中的每个音频文件生成相应的歌词文件,并将所生成的歌词文件导入到音频播放应用中,从而在播放音频文件时,同步显示相应地歌词文件。由此可见,在现有的用于音频播放同步显示的歌词的制作方案下,采用人工方式生成歌词文件制作过程比较繁琐,不仅效率低且成本高。随着音频曲库规模的不断扩大,人工方式所存在的弊端显得日益严重。针对这一问题,本申请的技术方案通过对音频信息进行语音识别,获取音频信息中每个音频基本语义单位起止时间信息,通过识别所述音频信息对应的文本信息,确定文本信息内每个单句内文本基本语义单位的数量与字形,使所述音频信息中识别出的音频基本语义单位与所述文本信息中识别出的文本基本语义单位相对应,在确立对应关系后,根据所述音频信息中每个音频基本语义单位起止时间信息确定文本信息中对应单句的时间信息,使文本内的歌词带有时间信息,从而实现了自动制作动态歌词文件的功能。
在详细描述本实施例的具体步骤之前,先对本技术方案涉及的动态歌词作简要说明。
动态歌词是通过编辑器把歌词按歌曲歌词出现的时间编辑到一起,然后在播放歌曲时同步依次将歌词显示出来。常用的动态歌词文件包括:lrc、qrc等。
lrc是英文lyric(歌词)的缩写,被用做动态歌词文件的扩展名。以lrc为扩展名的歌词文件可以在各类数码播放器中同步显示。lrc歌词是一种包含着“*:*:*”(其中,“*”是指通配符,用来代替一个或多个真正的字符。在实际的歌词文件中“*”是指歌词的时间(即时间内容),例如:“01:01:00”是指1分1秒;“:”用来分割分、秒、毫秒的时间信息)形式的“标签(tag)”的、基于纯文本的歌词专用格式。这种歌词文件能以文字处理软件查看、编辑(用记事本按照上述格式写好后,将扩展名改为lrc即可做出“文件名.LRC”的歌词文件)。Lrc动态歌词文件的标准格式为[分钟:秒:毫秒]歌词。
lrc歌词文本中含有两类标签:
一是标识标签,其格式为“[标识名:值]”主要包含以下预定义的标签:
[ar:歌手名]、[ti:歌曲名]、[al:专辑名]、[by:编辑者(指lrc歌词的制作人)]。
二是时间标签,形式为“[mm:ss]”或“[mm:ss.ff]”,时间标签需位于某行歌词中的句首部分,一行歌词可以包含多个时间标签(比如歌词中的迭句部分)。当歌曲播放到达某一时间点时,就会寻找对应的时间标签并显示标签后面的歌词文本,这样就完成了“歌词同步”的功能。
lrc动态歌词文件在使用时要求歌曲和lrc动态歌词文件的文件名相同(即除了扩展名.mp3、.wma、.lrc等不同之外,点前面的文字、文字格式要一模一样)并且放在同一目录下(即同一文件夹中),用带显示歌词功能的播放器播放歌曲时歌词就可以同步显示。
本申请的实施例提供了一种生成配音文字的方法,所述生成配音文字的方法实施例如下:
请参考图1,其示出了根据本申请的实施例提供的自动生成配音文字的方法的流程图。
所述自动生成配音文字的方法包括:
步骤S101,对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息。
在本实施例中,所述对音频信息进行识别,主要是将所述音频信息的语音信号转换为可识别的文本信息,例如:以文本信息的形式获取将所述音频信息的语音信号转换为可以识别的音频基本语义单位。所述音频基本语义单位包括:中文文字、中文词语、拼音、数字、英文文字和/或英文词语等。具体的,语音识别过程可采用统计模式识别技术等语音识别方法。
在具体实施时,可以通过CMU-Sphinx语音识别系统对所述音频信息进行语音识别。CMU-Sphinx是大词汇量语音识别系统,采用连续隐含马尔可夫模型CHMM建模。支持多种模式操作,高精度模式扁平译码器以及快速搜索模式树译码器。
需要说明的是,所述文本信息中,包含从所述音频信息中识别出的音频基本语义单位以及所述音频基本语义单位在所述音频信息中起止时间信息。可以理解的,所述音频信息可以是mp3或其他音乐格式的歌曲文件,mp3文件是具有一定时长直接记录了真实声音的音频文件,所以在对mp3文件进行识别,将识别出的音频基本语义单位采用文本信息的形式进行输出时会记录识别出的该音频基本语义单位在所述音频信息中播放时起止时间信息。
在本实施例中,在对所述音频信息进行识别后输出的所述文本信息中采用如下格式记录识别出的音频基本语义单位以及所述音频基本语义单位的时间信息:<word,TIMECLASS>。其中,word是指识别出的音频基本语义单位,TIMECLASS是指时间标注,该时间标注采用起始时间以及终止时间{startTime,endTime}的形式记录该音频基本语义单位在在所述音频信息中播放时出现时的时间信息,即:是相对于所述音频信息在开始播放0时刻时的偏移量,单位为毫秒。
下面通过一个具体的例子说明所述生成配音文字的方法,例如:所述音频信息为mp3文件,该mp3文件在播放时的时常为10秒,在该mp3文件播放到1秒时出现歌词:“我想了又想”,则通过识别所述音频信息获取的文本信息中记录的识别出的音频基本语义单位以及所述音频基本语义单位的时间信息为:
<word:“我”,{startTime:1000,endTime:1100}>;
<word:“想”,{startTime:1200,endTime:1300}>;
<word:“了”,{startTime:1400,endTime:1500}>;
<word:“又”,{startTime:1600,endTime:1700}>;
<word:“想”,{startTime:1800,endTime:1900}>。
需要说明的是,若所述音频信息为中文的音频信息,则在对所述音频信息进行识别后输出的所述文本信息中记录的识别出的音频基本语义单位为单个中文汉字;同样的道理,若所述音频信息为英文的音频信息,则在对所述音频信息进行识别后输出的所述文本信息中记录的识别出的音频基本语义单位为单个英文单词。
可以理解的,所述音频基本语义单位的起止时间信息是以毫秒为单位进行记录的,而歌词:“我想了又想”是在该mp3文件播放到1秒时出现,则音频基本语义单位“我”在该mp3文件播放到1秒至1.1秒时出现,所以记录的音频基本语义单位“我”的时间信息为{startTime:1000,endTime:1100}。
步骤S103,获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位。
在本实施例中,所述获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位,可以采用如下方式实现:通过互联网搜索所述音频信息对应的文本信息,在获取所述文本信息后对所述文本信息中的每个基本语义单位进行识别,对识别出的每个基本语义单位形成时间信息为空值的文本基本语义单位,获取所述文本基本语义单位。
需要说明的是,所述基本语义单位是所述文本信息内的单字信息,包括:中文文字、中文词语、拼音、数字、英文文字和/或英文词语等。
沿用上述具体的例子进行说明:所述音频信息为mp3文件,通过互联网络搜索该mp3文件对应的歌词文本,所述歌词文本的具体内容为:“我想了又想”,在获取该mp3文件对应的歌词文本后,对所述文本信息中的每个基本语义单位进行识别,对识别出的每个基本语义单位形成时间信息为空值的文本基本语义单位:
<word:“我”,timeList{}>;
<word:“想”,timeList{}>;
<word:“了”,timeList{}>;
<word:“又”,timeList{}>;
<word:“想”,timeList{}>。
步骤S105,将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中。
在本实施例中,所述将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中,可以采用如下方式实现:将在对所述音频信息进行识别后识别出的各个所述音频基本语义单位与从所述音频信息对应的文本信息中对每个基本语义单位进行识别形成的文本基本语义单位进行匹配,将所述音频基本语义单位的起止时间信息放入到与该音频基本语义单位相应的文本基本语义单位内。
例如:通过识别所述音频信息获取的文本信息中记录的识别出的音频基本语义单位以及所述音频基本语义单位的时间信息为:
<word:“我”,{startTime:1000,endTime:1100}>;
<word:“想”,{startTime:1200,endTime:1300}>;
对所述文本信息中的每个基本语义单位进行识别,对识别出的每个基本语义单位形成时间信息为空值的文本基本语义单位为:
<word:“我”,timeList{}>;
<word:“想”,timeList{}>;
进行识别形成的文本基本语义单位进行匹配
由于所述音频信息进行识别后识别出的音频基本语义单位“我”和“想”与对所述歌词文本中歌词的文本基本语义单位进行识别后形成的文本基本语义单位“我”和“想”的字形相同,则将音频基本语义单位“我”和“想”的起止时间信息放入到文本基本语义单位“我”和“想”中:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>。
需要说明的是,由于音频信息中相同的音频基本语义单位出现的次数可能不唯一,例如:在一首歌曲中,某个相同的字可以多次出现,所以在执行步骤S105将各个所述音频基本语义单位的起止时间信息记录到相应的所述文本基本语义单位中时,当具有相同的音频基本语义单位时,可以采用如下方式实现:将从所述音频信息中获取的音频基本语义单位的起止时间信息放入每一个与所述音频基本语义单位相同的文本基本语义单位内。
沿用上述具体的例子进行说明:通过识别所述音频信息获取的文本信息中记录的识别出的音频基本语义单位以及所述音频基本语义单位的时间信息为:
<word:“我”,{startTime:1000,endTime:1100}>;
<word:“想”,{startTime:1200,endTime:1300}>;
<word:“了”,{startTime:1400,endTime:1500}>;
<word:“又”,{startTime:1600,endTime:1700}>;
<word:“想”,{startTime:1800,endTime:1900}>。
在获取所述文本信息后对所述文本信息中的每个基本语义单位进行识别,对识别出的每个基本语义单位形成时间信息为空值的文本基本语义单位为:
<word:“我”,timeList{}>;
<word:“想”,timeList{}>;
<word:“了”,timeList{}>;
<word:“又”,timeList{}>;
<word:“想”,timeList{}>。
由于所述音频信息进行识别后识别出的音频基本语义单位“我”、“想”、“了”、“又”和“想”与对所述歌词文本中歌词的文本基本语义单位进行提取后形成的文本基本语义单位“我”、“想”、“了”、“又”和“想”的时间集中字形相同,则将上述音频基本语义单位的起止时间信息放入到相应的文本基本语义单位中:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>。
可以理解的,在上述例子中,由于在所述音频信息以及所述文本中“想”字出现了两次,所以将从所述音频信息中获取的“想”的起止时间信息分别放入与“想”字对应的文本基本语义单位“想”中。
步骤S107,对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
在本实施例中,所述对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字,可以采用如下方式实现:根据所述文本信息中的具体单句确定组成该单句的文本基本语义单位,并根据组成该单句的所述文本基本语义单位中的起止时间信息确定该单句的起止时间信息,整理所有的单句的起止时间信息,生成对应所述音频信息并确定了所有单句的起止时间信息的配音文字。
需要说明的是,在所述文本信息中确定单句时,可以通过单句与单句之间的换行符区分所述文本中的每一单句。
所述对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字,具体包括步骤S107-1至S107-3,下面结合附图2作进一步说明。
请参考图2,其示出了根据本申请的实施例提供的对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字的流程图。
所述对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字,包括:
步骤S107-1,针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位。
在本实施例中,所述针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位,可以采用如下方式实现:根据换行符进行区分所述文本信息中的每一单句,并针对具体的某一单句获取组成所述单句的文本基本语义单位。
例如:所述文本信息中的具体单句为:“我想”和“你了”,则组成该单句的文本基本语义单位为“我”和“想”以及“你”和“了”,且文本基本语义单位“我”和“想”为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
文本基本语义单位“你”和“了”为:
<word:“你”,timeList{startTime:1400,endTime:1500}>;
<word:“了”,timeList{startTime:1600,endTime:1700}>;。
步骤S107-2,根据已获取的所述文本基本语义单位中记录的起止时间信息,确定所述单句的起止时间信息。
在本实施例中,所述根据已获取的所述文本基本语义单位中记录的起止时间信息,确定所述单句的起止时间信息,可以采用如下方式实现:以组成所述单句的文本基本语义单位中起始时间最早的时间信息作为所述单句的起始时间,以组成所述单句的文本基本语义单位的时间集中终止时间最晚的时间信息作为所述单句的终止时间,并将所述单句的起始时间以及终止时间作为所述单句的起止时间信息。
例如:根据上述两个文本基本语义单位的时间信息确定的单句“我想”的时间信息为:
timeList{startTime:1000,endTime:1300},
根据上述两个文本基本语义单位的时间信息确定的单句“你了”的时间信息为:
timeList{startTime:1400,endTime:1700}。
步骤S107-3,将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
例如:在确定所述文本中所有的单句“我想”和“你了”的时间信息之后,输出带有上述两句的时间信息的文本(即:动态歌词lrc):
[00:01:00]我想
[00:01:40]你了。
可以理解的,在播放所述音频信息时,在达到每一所述单句的显示时间时,显示配音文字中相应的单句。
在本实施例中,由于音频信息中相同的音频基本语义单位出现的次数可能不唯一,例如:在一首歌曲中,某个相同的字可以多次出现,所以在执行步骤S107-1针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,当具有相同的基本语义单位时,可以采用如下方式实现:若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
沿用上述具体的例子进行说明:所述文本中的具体单句为:“我想了又想”,则组成该单句的文本基本语义单位“我”、“想”、“了”、“又”和“想”为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1200,endTime:1300},{startTime:1800,endTime:1900}>;
由于组成单句“我想了又想”的两个文本基本语义单位“想”中各具有两组时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组包括如下四组:第一组为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
第二组为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1800,endTime:1900}>;
第三组为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1800,endTime:1900}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
第四组为:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1800,endTime:1900}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1800,endTime:1900}>。
由于真实的所述单句的文本基本语义单位中应该只具有一种时间信息,所以需要过滤掉时间信息不合理的文本基本语义单位组,所以在执行完按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组的步骤之后,还包括如下步骤:
根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
在本实施例中,所述预定的计算方法,采用如下方式进行计算:计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
需要说明的是,所述时间间距是指:每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间
距,由于在形成的组成所述单句的文本基本语义单位组时,所述文本基本语义单位的起始时间可能会小于上一个文本基本语义单位的终止时间,为了防止在计算误差值时出现的负数时间间距影响误差值的计算,需要获取所述时间间距的正值。
获取所述时间间距的正值的方法包括:取绝对值、取平方等,下面以采用取平方的方式获取所述时间间距的正值来进行说明。可以理解的,由于要获取每一文本基本语义单位中的起始时间与上一个文本基本语义单位的终止时间之间的时间间距,所以通过差平方的计算方式获取所述时间间距的正值。
具体的,所述预定的计算方法的数学算法为:
误差值=(startTime2-endTime1)2+(startTime3-endTime2)2...+(startTime n-endTime n-1)2
下面分别对上述4组时间集进行计算进行详细说明。(为了方便计算进行举例说明,在计算时以秒为单位进行计算)
第一组:(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.2-1.7)2=0.28
第二组:(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.8-1.7)2=0.04
第三组:(1.8-1.1)2+(1.4-1.9)2+(1.6-1.5)2+(1.2-1.7)2=1
第四组:(1.8-1.1)2+(1.4-1.9)2+(1.6-1.5)2+(1.8-1.7)2=0.76
在本实施例中,所述预设的阈值可以是通过本领域的技术人员根据经验进行配置的较为合理的数值,或者所述预设的阈值为数值最小的误差值,在计算完误差值之后,对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
当所述预设的阈值为数值最小的误差值时,所述对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组,可以采用如下方式实现:保留误差值最小的组成所述单句的文本基本语义单位组,将其他的组成所述单句的文本基本语义单位组过滤掉。
需要说明的是,在对组成所述单句的文本基本语义单位组进行过滤时,可能会出现具有相同误差值的组成所述单句的文本基本语义单位组,这时在根据误差值进行过滤后还是无法获取单一的只具有一种时间信息的文本基本语义单位组,为了解决上述问题,本申请的实施例提供了一种优选的实施方式,在优选方式下,在执行所述对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组的步骤之后,还需要计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
下面以一个具体的实例进行说明。
若组成组成所述单句的文本基本语义单位组还包括第五组:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
<word:“了”,timeList{startTime:1400,endTime:1500}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>;
<word:“想”,timeList{startTime:1600,endTime:1700}>;
则第五组的误差值为:
(1.2-1.1)2+(1.4-1.3)2+(1.6-1.5)2+(1.6-1.7)2=0.04
经过对误差值进行过滤后,保留误差值最小的组成所述单句的文本基本语义单位组为第二组以及第五组,则还需对第二组和第五组的按照单句中文本基本语义单位的时间顺序进行合理性判断,即:判断保留的组成所述单句的每一文本基本语义单位中的起始时间大于所述单句中的上一个文本基本语义单位的终止时间的次数。
例如:第二组“想”字的起始时间大于“想”字上一个文本基本语义单位“我”的终止时间;“了”字的起始时间大于“了”字上一个文本基本语义单位“想”的终止时间;“又”字的起始时间大于“又”字上一个文本基本语义单位“了”的终止时间;“想”字的起始时间大于“想”字上一个文本基本语义单位“又”的终止时间,则第二组的合理次数为4次;同样的道理,第五组的的合理次数为3次,则获取合理次数为4次的组成所述单句的文本基本语义单位的时间集组。
作为一个优选实施方式,本申请实施例提供的自动生成配音文字的方法中,在执行步骤S103获取与所述音频信息对应的文本信息,并识别所述文本信息获取文本基本语义单位时,是从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
作为一个优选实施方式,本申请实施例提供的自动生成配音文字的方法中,由于语音识别存在识别率,即:不一定能使所述音频信息精确无误的被识别出来,所以在步骤S101中对音频信息进行识别时,可能会有未被识别出的音频基本语义单位,而在执行步骤S103,获取与所述音频信息对应的文本信息,并识别所述文本信息获取文本基本语义单位时,由于文本信息内的信息是计算机可以识别的字符串,则能够将所述文本信息内的每个基本语义单位进行识别并形成文本基本语义单位,所以在执行步骤S105将各个所述音频基本语义单位的起止时间信息记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
可以理解的,若所述音频信息在识别过程中,具有未识别出的音频基本语义单位,即:所述音频基本语义单位为空,且该音频基本语义单位中的起止时间信息的取值也为空值,则在执行步骤S105将各个所述音频基本语义单位的起止时间信息记录到相应的所述文本基本语义单位中时,形成的文本基本语义单位的数目会大于语音识别出的音频基本语义单位的数目,则使未匹配上的所述文本基本语义单位中的起止时间信息的取值为空值。
例如:通过识别所述音频信息识别出的音频基本语义单位以及所述音频基本语义单位的时间信息为:
<word:“我”,{startTime:1000,endTime:1100}>;
<word:“想”,{startTime:1200,endTime:1300}>;
<word:“又”,{startTime:1600,endTime:1700}>;
对所述歌词文本中歌词的每个文本基本语义单位形成时间信息为空值的文本基本语义单位为:
<word:“我”,timeList{}>;
<word:“想”,timeList{}>;
<word:“了”,timeList{}>;
<word:“又”,timeList{}>;
由于所述音频信息进行识别后只识别出了“我”、“想”和“又”,而对所述歌词文本中歌词的文本基本语义单位进行识别后形成的文本基本语义单位为:“我”、“想”、“了”、“又”,则将上述音频基本语义单位的时间信息放入到相应的文本基本语义单位中:
<word:“我”,timeList{startTime:1000,endTime:1100}>;
<word:“想”,timeList{startTime:1200,endTime:1300}>;
<word:“了”,timeList{}>;
<word:“又”,timeList{startTime:1600,endTime:1700}>。
作为一个优选实施方式,本申请实施例提供的自动生成配音文字的方法中,在执行步骤S107-1针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若具有取值为空值的文本基本语义单位时,在所述确定组成所述单句的文本基本语义单位组的步骤之后,为了使每一文本基本语义单位都具有起止时间信息,按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息。
所述预定的推算方式,包括:
计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
将取值为空值的所述文本基本语义单位的上一个基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
在本实施例中,所述计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息,可以采用如下方式实现:将组成所述单句的每一文本基本语义单位中的终止时间减去起始时间,获得每一文本基本语义单位在音频信息中的播放时间,并根据该单句中文本基本语义单位的播放时间的和除以该单句中文本基本语义单位的数量计算组成所述单句的文本基本语义单位的平均时间信息。
可以理解的,由于所述文本基本语义单位是按照文本信息的单句中每个基本语义单位的顺序形成的,所以能通过取值为空值的文本基本语义单位的上一文本基本语义单位的时间信息中的终止时间进行时间估算,将取值为空值的文本基本语义单位的上一个文本基本语义单位中的终止时间,放入取值为空值的文本基本语义单位的起始时间中,即:将与取值为空值的文本基本语义临近的文本基本语义的终止时间作为取值为空值的文本基本语义的起始时间。
在确定取值为空值的文本基本语义的起始时间后,根据该单句中每个文本基本语义单位在音频信息中的平均播放时间确定取值为空值的文本基本语义单位的终止时间,即:将取值为空值的文本基本语义单位已确定的起始时间加上所述平均时间信息后,放入取值为空值的文本基本语义的终止时间中。
需要说明的是,由于执行步骤S103获取与所述音频信息对应的文本信息,并识别所述文本信息获取文本基本语义单位时,是从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位的,则对取值为空值的文本基本语义单位推算起止时间信息还可以采用另一种方式实现:直接以取值为空的文本基本语义单位的上一文本基本语义单位的时间信息中的终止时间以及以取值为空的文本基本语义单位的下一文本基本语义单位的时间信息中的开始时间,分别作为该取值为空的文本基本语义单位的时间信息中的开始时间以及终止时间。
可以理解的,由于所述文本基本语义单位是按照文本单句中每个文本基本语义单位的顺序形成的,所以取值为空值的文本基本语义单位的基本语义单位是出现在与其临近的前后文本基本语义单位之间的,所以能通过上一文本基本语义单位的时间信息中的结束时间以及下一文本基本语义单位的时间信息中的开始时间对取值为空值的文本基本语义单位进行时间估算。
在上述的实施例中,提供了一种自动生成配音文字的方法,与上述自动生成配音文字的方法相对应的,本申请还提供了一种自动生成配音文字的装置。由于装置的实施例基本相似于方法的实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。所述自动生成配音文字的装置实施例如下:
请参考图3,其示出了根据本申请的实施例提供的自动生成配音文字的装置的示意图。
所述自动生成配音文字的装置,包括:音频识别单元301、文本识别单元303、时间写入单元305以及配音文字生成单元307;
所述音频识别单元301,用于对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;
所述文本识别单元303,用于获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;
所述时间写入单元305,用于将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;
所述配音文字生成单元307,用于对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
可选的,所述时间记录单元,包括:文本语义获取子单元、时间信息确定子单元以及配音文字生成子单元;
所述文本语义获取子单元,用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位;
所述时间信息确定子单元,用于根据已获取的所述文本基本语义单位中记录的起止时间信息确定所述单句的起止时间信息;
所述配音文字生成子单元,用于将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
可选的,所述时文本语义获取子单元,具体用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
可选的,所述的自动生成配音文字的装置,还包括:文本语义筛选子单元;
所述文本语义筛选子单元,用于在所述按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组之后,根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
可选的,所述时间集组筛选子单元,包括:误差计算子单元;
所述误差计算子单元,用于计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
可选的,所述时间集组筛选子单元,还包括:过滤子单元;
所述过滤子单元,用于对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
可选的,所述时间集组筛选子单元,还包括:时间次数计算子单元;
所述时间次数计算子单元,用于在所述保留误差值低于预设的阈值的文本基本语义单位组的之后,计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
可选的,所述文本识别单元303,具体用于从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
可选的,所述时间写入单元305,具体用于在将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
可选的,所述的自动生成配音文字的装置,还包括:
时间推算单元,用于在所述确定组成所述单句的文本基本语义单位组之后,按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息
可选的,所述时间推算单元,包括:
平均时间计算子单元,用于计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
起始时间写入子单元,用于用于将取值为空值的所述文本基本语义单位,上一个文本基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
终止时间写入子单元,用于将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
在上述的实施例中,提供了一种自动生成配音文字的方法以及一种自动生成配音文字的装置,此外,本申请还提供了一种电子设备;所述电子设备实施例如下:
请参考图4,其示出了根据本申请的实施例提供的电子设备的示意图。
所述电子设备,包括:显示器401;处理器403;存储器405;
所述存储器405,用于存储配音文字生成程序,所述程序在被所述处理器读取执行时,执行如下操作:对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (23)

1.一种自动生成配音文字的方法,其特征在于,包括:
对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;
获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;
将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;
对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
2.根据权利要求1所述的自动生成配音文字的方法,其特征在于,所述对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字,包括:
针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位;
根据已获取的所述文本基本语义单位中记录的起止时间信息,确定所述单句的起止时间信息;
将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
3.根据权利要求2所述的自动生成配音文字的方法,其特征在于,所述针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
4.根据权利要求3所述的自动生成配音文字的方法,其特征在于,在所述按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组的步骤之后,包括:
根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
5.根据权利要求4所述的自动生成配音文字的方法,其特征在于,所述预定的计算方法,包括:
计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
6.根据权利要求5所述的自动生成配音文字的方法,其特征在于,所述对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组,包括:
对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
7.根据权利要求6所述的自动生成配音文字的方法,其特征在于,在所述保留误差值低于预设的阈值的文本基本语义单位组的步骤之后,包括:
计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
8.根据权利要求1-7任意一项所述的自动生成配音文字的方法,其特征在于,所述识别所述文本信息获取文本基本语义单位,包括:
从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
9.根据权利要求8所述的自动生成配音文字的方法,其特征在于,在将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
10.根据权利要求9所述的自动生成配音文字的方法,其特征在于,在所述确定组成所述单句的文本基本语义单位组的步骤之后,包括:
按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息。
11.根据权利要求10所述的自动生成配音文字的方法,其特征在于,所述预定的推算方式,包括:
计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
将取值为空值的所述文本基本语义单位,上一个文本基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
12.一种自动生成配音文字的装置,其特征在于,包括:
音频识别单元,用于对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;
文本识别单元,用于获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;
时间写入单元,用于将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;
配音文字生成单元,用于对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
13.根据权利要求12所述的自动生成配音文字的装置,其特征在于,所述配音文字生成单元,包括:
文本语义获取子单元,用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位;
时间信息确定子单元,用于根据已获取的所述文本基本语义单位中记录的起止时间信息确定所述单句的起止时间信息;
配音文字生成子单元,用于将确定了起止时间信息的所述单句进行整合,形成对应所述音频信息,且具有每一单句的起止时间信息的配音文字。
14.根据权利要求13所述的自动生成配音文字的装置,其特征在于,所述时文本语义获取子单元,具体用于针对所述文本信息中每一单句,获取组成所述单句的文本基本语义单位时,若所述文本基本语义单位中记录了至少两组起止时间信息,则按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组。
15.根据权利要求14所述的自动生成配音文字的装置,其特征在于,还包括:
文本语义筛选子单元,用于在所述按照起止时间信息的组数,分别形成组成所述单句的文本基本语义单位组之后,根据预定的计算方法,对每一所述文本基本语义单位组中,各个文本基本语义单位的所有起止时间信息进行筛选,确定组成所述单句的文本基本语义单位组。
16.根据权利要求15所述的自动生成配音文字的装置,其特征在于,所述文本语义筛选子单元,包括:
误差计算子单元,用于计算各个所述文本基本语义单位组内,每一文本基本语义单位中的起始时间与所述文本基本语义单位的上一个文本基本语义单位的终止时间之间的时间间距,获取各个所述文本基本语义单位组中所述起始时间与所述终止时间的时间间距的和,将所述时间间距的和作为所述文本基本语义单位组的误差值。
17.根据权利要求15所述的自动生成配音文字的装置,其特征在于,所述文本语义筛选子单元,还包括:
过滤子单元,用于对各个所述文本基本语义单位组进行过滤,保留误差值低于预设的阈值的文本基本语义单位组。
18.根据权利要求17所述的自动生成配音文字的装置,其特征在于,所述文本语义筛选子单元,还包括:
时间次数计算子单元,用于在所述保留误差值低于预设的阈值的文本基本语义单位组的之后,计算保留的所述文本基本语义单位组内,每一文本基本语义单位中的起始时间大于所述文本基本语义单位的上一个文本基本语义单位的终止时间的次数,获取该次数最大的文本基本语义单位组。
19.根据权利要求12-18任意一项所述的自动生成配音文字的装置,其特征在于,所述文本识别单元,具体用于从所述文本信息中,按照每句内的每个字的顺序进行识别获取所述文本信息中的文本基本语义单位。
20.根据权利要求19所述的自动生成配音文字的装置,其特征在于,所述时间写入单元,具体用于在将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中时,若所述音频基本语义单位的起止时间信息为空值,则使与所述音频基本语义单位相应的所述文本基本语义单位的取值为空值。
21.根据权利要求20所述的自动生成配音文字的装置,其特征在于,还包括:
时间推算单元,用于在所述确定组成所述单句的文本基本语义单位组之后,按照预定的推算方式,对取值为空值的所述文本基本语义单位推算起止时间信息。
22.根据权利要求21所述的自动生成配音文字的装置,其特征在于,所述时间推算单元,包括:
平均时间计算子单元,用于计算所述文本基本语义单位组中的文本基本语义单位的平均时间信息;
起始时间写入子单元,用于将取值为空值的所述文本基本语义单位,上一个文本基本语义单位中的终止时间,放入取值为空值的所述文本基本语义单位的起始时间中;
终止时间写入子单元,用于将所述终止时间加上所述平均时间信息后,放入取值为空值的所述文本基本语义单位的终止时间中。
23.一种电子设备,其特征在于,所述电子设备包括:
显示器;
处理器;
存储器,用于存储配音文字生成程序,所述程序在被所述处理器读取执行时,执行如下操作:对音频信息进行识别,获取识别出的各个音频基本语义单位的起止时间信息;获取与所述音频信息对应的文本信息,并识别所述文本信息,从而获取文本基本语义单位;将各个所述音频基本语义单位的起止时间信息,记录到相应的所述文本基本语义单位中;对记录了所述起止时间信息的所述文本基本语义单位进行处理,生成对应所述音频信息的配音文字。
CN201611196447.6A 2016-12-22 2016-12-22 一种自动生成配音文字的方法、装置以及电子设备 Active CN108228658B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201611196447.6A CN108228658B (zh) 2016-12-22 2016-12-22 一种自动生成配音文字的方法、装置以及电子设备
TW106126945A TWI749045B (zh) 2016-12-22 2017-08-09 自動生成配音文字的方法、裝置以及電子設備
PCT/CN2017/115194 WO2018113535A1 (zh) 2016-12-22 2017-12-08 一种自动生成配音文字的方法、装置以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611196447.6A CN108228658B (zh) 2016-12-22 2016-12-22 一种自动生成配音文字的方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN108228658A true CN108228658A (zh) 2018-06-29
CN108228658B CN108228658B (zh) 2022-06-03

Family

ID=62624697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611196447.6A Active CN108228658B (zh) 2016-12-22 2016-12-22 一种自动生成配音文字的方法、装置以及电子设备

Country Status (3)

Country Link
CN (1) CN108228658B (zh)
TW (1) TWI749045B (zh)
WO (1) WO2018113535A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728116A (zh) * 2019-10-23 2020-01-24 深圳点猫科技有限公司 一种视频文案配音稿的生成方法及装置
CN110858492A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 音频剪辑方法、装置、设备和系统及数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573730A (zh) * 2003-05-26 2005-02-02 日产自动车株式会社 车用信息提供方法和车用信息提供设备
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
CN104599693A (zh) * 2015-01-29 2015-05-06 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
CN100501738C (zh) * 2006-10-24 2009-06-17 北京搜狗科技发展有限公司 一种针对可播放媒体文件的搜索方法、系统及装置
CN101616264B (zh) * 2008-06-27 2011-03-30 中国科学院自动化研究所 新闻视频编目方法及系统
GB2502944A (en) * 2012-03-30 2013-12-18 Jpal Ltd Segmentation and transcription of speech
CN204559707U (zh) * 2015-04-23 2015-08-12 南京信息工程大学 具有语音识别功能的提词装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573730A (zh) * 2003-05-26 2005-02-02 日产自动车株式会社 车用信息提供方法和车用信息提供设备
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
CN104599693A (zh) * 2015-01-29 2015-05-06 语联网(武汉)信息技术有限公司 台词同步字幕的制作方法
CN105788589A (zh) * 2016-05-04 2016-07-20 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858492A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 音频剪辑方法、装置、设备和系统及数据处理方法
CN110728116A (zh) * 2019-10-23 2020-01-24 深圳点猫科技有限公司 一种视频文案配音稿的生成方法及装置
CN110728116B (zh) * 2019-10-23 2023-12-26 深圳点猫科技有限公司 一种视频文案配音稿的生成方法及装置

Also Published As

Publication number Publication date
CN108228658B (zh) 2022-06-03
TWI749045B (zh) 2021-12-11
WO2018113535A1 (zh) 2018-06-28
TW201832222A (zh) 2018-09-01

Similar Documents

Publication Publication Date Title
EP1693829B1 (en) Voice-controlled data system
US9396758B2 (en) Semi-automatic generation of multimedia content
US8666727B2 (en) Voice-controlled data system
KR101292698B1 (ko) 메타데이터 부여 방법 및 장치
US9659572B2 (en) Apparatus, process, and program for combining speech and audio data
CN107123415B (zh) 一种自动编曲方法及系统
CN101740025A (zh) 评估演唱者的嗓音性能的方法和使用该方法的设备
CN109213977A (zh) 庭审笔录的生成系统
CN103632662A (zh) 韵律编辑装置、方法及程序
CN109584859A (zh) 语音合成方法及装置
CN109300468A (zh) 一种语音标注方法及装置
Lee et al. Segmentation-Based Lyrics-Audio Alignment using Dynamic Programming.
CN109492126B (zh) 一种智能交互方法及装置
CN108228658A (zh) 一种自动生成配音文字的方法、装置以及电子设备
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
WO2003006936A1 (en) Method and apparatus for replaying midi with synchronization information
CN107403631A (zh) 一种教学用音频文件及其制作方法
US20060084047A1 (en) System and method of segmented language learning
Leman Musical audio-mining
EP1826686B1 (en) Voice-controlled multimedia retrieval system
JP5085577B2 (ja) プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム
EP3996085A1 (en) Relations between music items
CN114999464A (zh) 语音数据处理方法及装置
CN108182946A (zh) 一种基于声纹识别的声乐模式选择方法及装置
EP3996084B1 (en) Determining relations between music items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant