CN109213974A - 一种电子文档转换方法及装置 - Google Patents

一种电子文档转换方法及装置 Download PDF

Info

Publication number
CN109213974A
CN109213974A CN201810961753.7A CN201810961753A CN109213974A CN 109213974 A CN109213974 A CN 109213974A CN 201810961753 A CN201810961753 A CN 201810961753A CN 109213974 A CN109213974 A CN 109213974A
Authority
CN
China
Prior art keywords
subtitle file
sentence
video
processed
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810961753.7A
Other languages
English (en)
Other versions
CN109213974B (zh
Inventor
陈雯
朱海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Muhua Mdt Infotech Ltd
Original Assignee
Beijing Muhua Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Muhua Mdt Infotech Ltd filed Critical Beijing Muhua Mdt Infotech Ltd
Priority to CN201810961753.7A priority Critical patent/CN109213974B/zh
Publication of CN109213974A publication Critical patent/CN109213974A/zh
Application granted granted Critical
Publication of CN109213974B publication Critical patent/CN109213974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

本申请提供了一种电子文档转换方法及装置,其中,该方法包括:获取待处理视频的字幕文件,进而提取待处理视频的语速特征,然后根据语速特征,对字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号,进一步地,从分段处理后的每一段字幕文件对应的待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系,最后基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述待处理视频的电子文档。通过这种方式,可以将待处理的视频转换为有排版、有格式的文本,还能提取视频中的关键帧,结合上述文本构成电子文档,形象的表现出待处理视频的相关信息。

Description

一种电子文档转换方法及装置
技术领域
本申请涉及计算机技术领域,尤其是涉及一种电子文档转换方法及装置。
背景技术
随着计算机网络的发展,越来越多的信息以视频的形式呈现给大众。但是,网络视频的在线观看需要耗费大量的流量。例如一些在线教育视频,其针对的群体往往是学生,然而学生的大部分时间是处于没有无线网络的环境中,无法满足观看在线教育产品所需的网络条件,因此对于在线教育产品无法充分利用。
目前,为满足不同网络条件下用户的需求,可以将视频文件(如在线教育视频)转换成文本,然而将视频或音频转换为电子文本文档时,最大的问题是转换后的文本无格式无排版,段落不明,断句混乱,若需对文本进行调整只能后期依靠人工,过程繁琐且费时费力。
发明内容
有鉴于此,本申请的目的在于提供一种电子文档转换方法及装置,以简化视频或音频转换成文本后人工调整文本格式的步骤。
第一方面,本申请实施例提供了一种电子文档转换方法,该方法包括:
获取待处理视频的字幕文件;
提取所述待处理视频的语速特征;
根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
根据所述语速特征,对所述字幕文件进行分段处理,包括:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,在创建用于描述所述待处理视频的电子文档之后,还包括:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,提取所述字幕文件中的关键词,包括:
统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;
根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;
将计算的权重值高于第二预设阈值的词语确定为关键词。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述获取待处理视频的字幕文件,包括:
判断所述待处理视频是否含有字幕文件;
若判断结果为是,则提取所述待处理视频的字幕文件;
若判断结果为否,则提取所述待处理视频的音频文件,并通过语音识别将所述音频文件转换为所述字幕文件。
第二方面,本申请实施例还提供一种电子文档转换装置,包括:
获取模块,用于获取待处理视频的字幕文件;
提取模块,用于提取所述待处理视频的语速特征;
处理模块,用于根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
筛选模块,用于从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
创建模块,用于基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
所述处理模块,根据所述语速特征,在对所述字幕文件进行分段处理时,具体用于:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述筛选模块还用于:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述筛选模块,在提取所述字幕文件中的关键词时,具体用于:
统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;
根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;
将计算的权重值高于第二预设阈值的词语确定为关键词。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述获取模块,在获取所述待处理视频的字幕文件时,具体用于:
判断所述待处理视频是否含有字幕文件;
若判断结果为是,则提取所述待处理视频的字幕文件;
若判断结果为否,则提取所述待处理视频的音频文件,并通过语音识别将所述音频文件转换为所述字幕文件。
第三方面,本申请实施例还提供了一种电子设备,该设备包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线通信,机器可读指令被处理器执行时执行上述第一方面及第一方面任意可能的实施方式中所述的电子文档转换方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面以及第一方面任意可能的实施方式中所述的电子文档转换方法的步骤。
本申请实施例提供的电子文档转换方法及装置,通过获取待处理视频的字幕文件,进而提取待处理视频的语速特征,然后根据语速特征对字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号,进一步地,从分段处理后的每一段字幕文件对应的待处理视频的视频帧中选取关键帧并记录每一段字幕文件与选取的关键帧之间的对应关系,最后基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述待处理视频的电子文档。通过这种方式,可以将待处理的视频转换为有排版、有格式的文本,还能提取视频中的关键视频帧,结合上述文本构成电子文档,可以形象的表现出待处理视频的相关信息。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种电子文档转换方法的流程示意图;
图2示出了本申请实施例所提供的一种音频的波形变化示意图;
图3示出了本申请实施例所提供的一种电子文档转换装置300的架构示意图;
图4示出了本申请实施例所提供的一种电子设备400的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前视频或音频转换成文本后,转换后的文本无格式无排版,段落不明,断句混乱,若需对文本进行调整只能后期依靠人工,过程繁琐且费时费力。为解决上述问题,本申请实施例提供了一种电子文档转换方法及装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种电子文档转换方法进行详细介绍。
实施例一
参见图1所示,为本申请实施例提供的一种电子文档转换方法的流程示意图,包括以下步骤:
S101、获取待处理视频的字幕文件。
在本步骤中,在获取待处理视频的字幕文件时,可以首先判断上述待处理视频是否含有字幕文件。若判断结果为是,说明上述待处理视频含有字幕文件,则可直接提取上述待处理视频的字幕文件;若判断结果为否,说明上述待处理视频不含有字幕文件,则可提取上述待处理视频的音频文件,并通过语音识别将上述音频文件转换为字幕文件。其中,在通过语音识别将上述音频文件转换为字幕文件时,可以借助于第三方服务,识别音频文件,并将音频文件转换为字幕文件。
其中,通过语音识别将音频文件转换为字幕文件后,还可以对转换后的字幕文件进行自动修正,如对“额、嗯”等口头语的过滤等修正处理。
S102、提取待处理视频的语速特征。
在本步骤中,上述语速特征可以包括字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔。
具体实施中,在提取待处理视频的语速特征之前,可以首先将上述字幕文件进行分句处理。进行分句处理时,可以结合待处理视频的音频文件,通过识别音频文件的音频来划分句子。例如,参见图2所示的音频的波形变化示意图,可以设定频率阈值,将音频高于频率阈值的部分,确定为有语音输入的部分;将音频低于频率阈值的部分,确定为没有语音输入的部分。将没有语音输入的部分确定为停顿间隔,停顿间隔隔开的两段有语音输入的部分分别作为两个不同的句子,从而完成对上述字幕文件的分句处理。
在针对音频文件划分出句子之后,可以建立由时间区间和划分出的句子构成的语音背景模型,该语音背景模型记录了音频文件中每一段语音对应识别出来的句子,以及每一段语音在整段音频文件中出现时的时间区间,根据每一段语音对应识别出来的句子所包含的字数以及每一段语音在整段音频文件中所出现的时间区间,计算平均语速和停顿间隔。
下面对平均语速和停顿间隔的计算方式进行示例性说明。
(1)平均语速的计算公式为:
其中,m为第i段语音的平均语速,n为第i段语音对应识别出来的句子所包含的字数,t1为第i段语音在整个音频文件中出现的起始时间位置,t2为第i段语音在整个音频文件中出现的结束时间位置,平均语速的单位例如为字/分钟,i为任意正整数。
(2)停顿间隔的计算公式为:
T=a-b
其中,T为第j-1段语音与第j段语音之间的停顿间隔,a为第j段语音在整段音频文件中出现的起始时间位置,b为第j-1段语音在整段音频文件中出现的结束时间位置,其中,j为任意正整数。
例如一段音频文件的总时长为20秒,第一段语音起始时间为第0秒,结束时间为第3秒,第一段语音识别出来的字数为10个字,第二段语音的起始时间为第5秒,结束时间为第9秒,第二段语音识别出来的字数为15个字,则第一段语音的平均语速的计算方法为:
第二段语音的平均语速的计算方法为:
第一段语音与第二段语音之间的停顿间隔的计算方法为:5-3=2(秒)。
S103、根据语速特征,对字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号。
一种可能的实施方式中,分段处理的具体方法为:计算当前的句子相邻的前一个句子的平均语速与当前的句子的平均语速之前的第一比值;以及,计算当前的句子与前一个句子之间的停顿间隔和当前的句子与当前的句子相邻的后一个句子的停顿间隔之间的第二比值。其中,当前的句子即为分段处理时当前正在分析的句子。
上述第一比值代表相邻两个句子之间的平均语速相关性,第二比值代表相邻两个句子之间的停顿间隔相关性。
进一步地,可以基于第一比值和第二比值,计算相邻两个句子之间的相关性系数。具体的,可以分别赋予第一比值和第二比值不同的权重,计算出相邻两个句子之间的相关性系数。
一种可能的实施方式中,相关性系数的计算方法可以为:相关性系数=(第一比值*第一比值的权重)+(第二比值*第二比值的权重)。例如,若第一比值为5,第二比值为10,第一比值的权重为0.6,第二比值的权重为0.4,则相关性系数为7(5*0.6+10*0.4=7)。
当计算出的相关性系数小于第一预设阈值时,说明当前处理的相邻两个句子之间的相关性较小,可以将当前的句子相邻的前一个句子与当前的句子之间的位置作为分段的划分点,将前一个句子作为上一段字幕文件中的最后一个句子,将当前的句子作为当前段字幕文件中的第一个句子。
当计算出的相关性系数大于第一预设阈值时,说明当前处理的相邻两个句子之间的相关性较大,当前处理的相邻两个句子可作为同一段落的两个句子,无需在当前处理的相邻的两个句子之间进行分段。
本申请实施例中,在对上述字幕文件的每一个句子执行上述分段处理并得到分段处理后的字幕文件之后,可以进一步为分段处理后的字幕文件添加标点符号。
一种可能的实施方式中,添加标点符号的具体方法为:
计算相邻两个句子之间的相关性系数。其中,相关性系数的计算方式可以按照上述分段处理过程中的相关描述,这里不再赘述。
当计算出的相关性系数小于预设阈值A时,说明要在当前处理的相邻两个句子之间相关性很小,可视为不相关,因此,可以在当前处理的相邻两个句子之间添加句号,其中上述预设阈值A可与第一预设阈值相同,也可与第一预设阈值不同;
当计算出的相关性系数大于预设阈值A,且小于预设阈值B时,说明当前处理的相邻的两个句子之间相关,但相关性较小,可在当前处理的两个句子之间添加逗号,其中,预设阈值B与预设阈值A以及第一预设阈值均不相同;
当计算出的相关性系数大于预设阈值B时,说明当前处理的相邻的两个句子之间相关性较大,无需在当前处理的相邻的两个句子之间添加标点符号。
另外,具体实施中,也可以提前设定高频字,并对含有高频字的句子添加高频字所对应的标点符号。例如,设定高频字“为什么”所对应的标点符号为问号,则在添加标点符号的过程中,对于包含有“为什么”的句子,可以自动在句末添加问号,而无需进行相关性系数的计算。
S104、从分段处理后的每一段字幕文件对应的待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系。
在本步骤中,可以基于傅里叶能量序列来选取关键帧。具体的,针对每一段字幕文件对应的连续的视频帧,可以将该段字幕文件对应的连续的视频帧转换为傅里叶能量序列,其中傅里叶能量序列可以由频谱能量构成。由于连续的视频帧中出现文字的地方会产生频谱能量,通过对每一个视频帧的频谱能量的统计,构建波形图,横坐标为每一个视频帧所对应的时间,纵坐标为每一个视频帧所对应的频谱能量。
根据上述频谱能量波形图,选取频谱能量峰值所对应的时刻下的视频帧,以及与频谱能量峰值所对应的时刻下的视频帧相邻的视频帧,进一步地从上述这些视频帧中选取出符合要求的视频帧作为该段字幕文件的插图。
S105、基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述待处理视频的电子文档。
具体实施中,将上述字幕文件经过分段处理后,得到每一段字幕文件,然后对每一段字幕文件添加标点符号,最后插入关键帧作为每一段字幕文件的插图以后,即可完成待处理视频向电子文档的转化。
此外,本申请实施例中,还可提取上述字幕文件中的关键词,用于标识转换后的电子文档。
一示例中,可以按照以下步骤来提取上述字幕文件的关键字:
统计字幕文件中至少一个词语中每个词语在上述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;根据每个词语在上述字幕文件中的出现频率、以及在上述数据库中其他文档中的出现频率,计算每个词语在上述字幕文件中的权重值;将计算的权重值高于第二预设阈值的词语确定为关键词。
其中,权重值的计算方法例如为:
s=q*logp
其中,S表示第k个词语在上述字幕文件中的权重值,q表示第k个词语在上述字幕文件中的出现次数,p表示第k个词语在上述数据库中其他文档中的出现频率。
例如,一篇电子文档的总词语数是100个,词语“母牛”出现了3次,那么“母牛”一词在该电子文档中的出现频率为3/100=0.03,如果“母牛”一词在1000份电子文档中出现过,而电子文档总数是10000000份的话,其在其他文件中的出现频率为10000000/1000=10000,最后的权重值为0.03*log10000=0.12。
由此可以从字幕文件中提取出关键词,关键词可以用于标识由待处理视频转换后的电子文档。后续在从存储有多个电子文档的数据库中查找某一电子文档时,可以通过输入关键词来作为筛选条件,来查找对应的电子文档。
采用上述方式,通过获取待处理视频的字幕文件,进而提取待处理视频的语速特征,然后根据语速特征,对字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号,进一步地,再从分段处理后的每一段字幕文件对应的待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系,最后基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述待处理视频的电子文档。通过这种方式,可以将待处理的视频转换为有排版、有格式的文本,还能提取视频中的关键帧,结合上述文本构成电子文档,形象的表现出待处理视频的相关信息。
实施例二
本申请实施例提供了一种电子文档转换的装置,参照图3所示,为本申请实施例提供的电子文档转换装置300的架构示意图,该装置300包括获取模块301、提取模块302、处理模块303、筛选模块304以及创建模块305。
具体的,获取模块301,用于获取待处理视频的字幕文件;
提取模块302,用于提取所述待处理视频的语速特征;
处理模块303,用于根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
筛选模块304,用于从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
创建模块305,用于基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
在一种可能的实施方式中,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
处理模块303,根据所述语速特征,在对所述字幕文件进行分段处理时,具体用于:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
分别赋予所述平均语速相关系数和所述停顿间隔相关系数不同的权重;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
在一种可能的实施方式中,筛选模块304还用于:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
另外,在一种可能的实施方式中,筛选模块304,在提取所述字幕文件中的关键词时,具体用于:
统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;
根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;
将计算的权重值高于第二预设阈值的词语确定为关键词。
在另外的一种可能的实施方式中,获取模块301,在获取所述待处理视频的字幕文件时,具体用于:
判断所述待处理视频是否含有字幕文件;
若判断结果为是,则提取所述待处理视频的字幕文件;
若判断结果为否,则提取所述待处理视频的音频文件,并通过语音识别将所述音频文件转换为所述字幕文件。
实施例三
如图4所示,本申请实施例三所提供的一种电子设备400的结构示意图,包括:处理器401、存储器402和总线403;
上述存储器402存储有上述处理器401可执行的机器可读指令(比如,包括图3中的获取模块301、提取模块302、处理模块303、筛选模块304以及创建模块305对应的执行指令等),当电子设备400运行时,上述处理器401与上述存储器402之间通过总线403通信,上述机器可读指令被上述处理器401执行时执行如下处理:
获取待处理视频的字幕文件;
提取所述待处理视频的语速特征;
根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
其中,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
另外,上述处理器401在执行的处理中,所述根据所述语速特征,对所述字幕文件进行分段处理,包括:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
分别赋予所述平均语速相关系数和所述停顿间隔相关系数不同的权重;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
另外,上述处理器401执行的处理中,在创建用于描述所述待处理视频的电子文档之后,还包括:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
进一步地,上述处理器401执行的处理中,提取所述字幕文件中的关键词,具体包括:
统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;
根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;
将计算的权重值高于第二预设阈值的词语确定为关键词。
另外,上述处理器401执行的处理中,获取待处理视频的字幕文件,包括:
判断所述待处理视频是否含有字幕文件;
若判断结果为是,则提取所述待处理视频的字幕文件;
若判断结果为否,则提取所述待处理视频的音频文件,并通过语音识别将所述音频文件转换为所述字幕文件。
实施例四
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一实施例中所述的电子文档转换方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述电子文档转换方法的步骤,从而可以将待处理的视频转换为有排版、有格式的文本,还能提取视频中的关键帧,结合上述文本构成电子文档,形象的表现出待处理视频的相关信息。
本申请实施例所提供的进行电子文档转换方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种电子文档转换方法,其特征在于,包括:
获取待处理视频的字幕文件;
提取所述待处理视频的语速特征;
根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
2.根据权利要求1所述的方法,其特征在于,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
根据所述语速特征,对所述字幕文件进行分段处理,包括:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
3.根据权利要求1所述的方法,其特征在于,在创建用于描述所述待处理视频的电子文档之后,还包括:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
4.根据权利要求3所述的方法,其特征在于,提取所述字幕文件中的关键词,包括:
统计所述字幕文件中至少一个词语中每个词语在所述字幕文件中的出现频率、以及每个词语在数据库中其他文档中的出现频率;
根据每个词语在所述字幕文件中的出现频率、以及在所述数据库中其他文档中的出现频率,计算每个词语在所述字幕文件中的权重值;
将计算的权重值高于第二预设阈值的词语确定为关键词。
5.根据权利要求1所述的方法,其特征在于,所述获取待处理视频的字幕文件,包括:
判断所述待处理视频是否含有字幕文件;
若判断结果为是,则提取所述待处理视频的字幕文件;
若判断结果为否,则提取所述待处理视频的音频文件,并通过语音识别将所述音频文件转换为所述字幕文件。
6.一种电子文档转换装置,其特征在于,包括:
获取模块,用于获取待处理视频的字幕文件;
提取模块,用于提取所述待处理视频的语速特征;
处理模块,用于根据所述语速特征,对所述字幕文件进行分段处理,并为分段处理后的字幕文件添加标点符号;
筛选模块,用于从分段处理后的每一段字幕文件对应的所述待处理视频的视频帧中选取关键帧,并记录每一段字幕文件与选取的关键帧之间的对应关系;
创建模块,用于基于经分段处理并添加标点符号后的每一段字幕文件、以及每一段字幕文件与选取的关键帧之间的对应关系,创建用于描述所述待处理视频的电子文档。
7.根据权利要求6所述的装置,其特征在于,所述语速特征包括所述字幕文件中每个句子的平均语速、以及相邻句子之间的停顿间隔;
所述处理模块,根据所述语速特征,在对所述字幕文件进行分段处理时,具体用于:
计算当前的句子相邻的前一个句子的平均语速与所述当前的句子的平均语速之前的第一比值;以及,计算所述当前的句子与所述前一个句子之间的停顿间隔和所述当前的句子与所述当前的句子相邻的后一个句子的停顿间隔之间的第二比值;
基于计算的所述第一比值、以及所述第二比值,确定所述字幕文件中相邻句子之间的相关性系数值;
当计算出的相关性系数值小于第一预设阈值时,将所述当前的句子相邻的前一个句子与所述当前的句子之间的位置作为分段的划分点,将所述前一个句子作为上一段字幕文件中的最后一个句子,将所述当前的句子作为当前段字幕文件中的第一个句子。
8.根据权利要求6所述的装置,其特征在于,所述筛选模块还用于:
提取所述字幕文件中的关键词,其中所述关键词用于标识所述电子文档。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的电子文档转换方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的电子文档转换方法的步骤。
CN201810961753.7A 2018-08-22 2018-08-22 一种电子文档转换方法及装置 Active CN109213974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810961753.7A CN109213974B (zh) 2018-08-22 2018-08-22 一种电子文档转换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810961753.7A CN109213974B (zh) 2018-08-22 2018-08-22 一种电子文档转换方法及装置

Publications (2)

Publication Number Publication Date
CN109213974A true CN109213974A (zh) 2019-01-15
CN109213974B CN109213974B (zh) 2022-12-20

Family

ID=64989494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810961753.7A Active CN109213974B (zh) 2018-08-22 2018-08-22 一种电子文档转换方法及装置

Country Status (1)

Country Link
CN (1) CN109213974B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN111741359A (zh) * 2020-05-28 2020-10-02 杨伟 一种视频转pptx的方法及系统
CN117785801A (zh) * 2024-02-27 2024-03-29 北京点聚信息技术有限公司 一种基于数据分析的版式文件转换方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160064A (ja) * 1999-12-03 2001-06-12 Sony Corp 文書処理装置、文書処理方法、記録媒体
WO2013043984A1 (en) * 2011-09-23 2013-03-28 Documentation Services Group, Inc. Systems and methods for extracting and processing intelligent structured data from media files
WO2013123583A1 (en) * 2012-02-22 2013-08-29 Quillsoft Ltd. System and method for enhancing comprehension and readability of text
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法
US20180158469A1 (en) * 2015-05-25 2018-06-07 Guangzhou Kugou Computer Technology Co., Ltd. Audio processing method and apparatus, and terminal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160064A (ja) * 1999-12-03 2001-06-12 Sony Corp 文書処理装置、文書処理方法、記録媒体
WO2013043984A1 (en) * 2011-09-23 2013-03-28 Documentation Services Group, Inc. Systems and methods for extracting and processing intelligent structured data from media files
WO2013123583A1 (en) * 2012-02-22 2013-08-29 Quillsoft Ltd. System and method for enhancing comprehension and readability of text
US20180158469A1 (en) * 2015-05-25 2018-06-07 Guangzhou Kugou Computer Technology Co., Ltd. Audio processing method and apparatus, and terminal
CN105245917A (zh) * 2015-09-28 2016-01-13 徐信 一种多媒体语音字幕生成的系统和方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN111741359A (zh) * 2020-05-28 2020-10-02 杨伟 一种视频转pptx的方法及系统
CN117785801A (zh) * 2024-02-27 2024-03-29 北京点聚信息技术有限公司 一种基于数据分析的版式文件转换方法及系统
CN117785801B (zh) * 2024-02-27 2024-04-19 北京点聚信息技术有限公司 一种基于数据分析的版式文件转换方法及系统

Also Published As

Publication number Publication date
CN109213974B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
KR102204971B1 (ko) 검색어를 위한 오류 정정 방법 및 기기
CN105183720B (zh) 基于rnn模型的机器翻译方法和装置
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN105069143B (zh) 提取文档中关键词的方法及装置
CN109213974A (zh) 一种电子文档转换方法及装置
CN105979376A (zh) 一种推荐方法和装置
CN106503184B (zh) 确定目标文本所属业务类别的方法及装置
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN106445915B (zh) 一种新词发现方法及装置
CN105022754A (zh) 基于社交网络的对象分类方法及装置
KR101814005B1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
CN108509793A (zh) 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN103678336B (zh) 实体词识别方法及装置
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN107222787A (zh) 视频资源流行度预测方法
US8571255B2 (en) Scalable media fingerprint extraction
CN106021504A (zh) 字符串模糊匹配方法及装置
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN107977676A (zh) 文本相似度计算方法及装置
CN107885716B (zh) 文本识别方法及装置
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN116524906A (zh) 用于语音识别的训练数据生成方法、系统和电子设备
CN111104951A (zh) 一种主动学习方法、装置及终端设备
CN111090996B (zh) 一种分词的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant