CN111526382B

CN111526382B - 一种直播视频文本生成方法、装置、设备及存储介质

Info

Publication number: CN111526382B
Application number: CN202010313350.9A
Authority: CN
Inventors: 曾乙峰
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2022-04-29
Anticipated expiration: 2040-04-20
Also published as: CN111526382A

Abstract

本申请实施例公开了一种直播视频文本生成方法、装置、设备及存储介质。本申请实施例提供的技术方案通过对直播视频进行抽帧处理，并对抽帧得到的视频关键帧进行OCR识别，生成对应于视频关键帧中的文字内容的图片文字识别结果，并抽取直播视频的直播音频，对直播音频进行ASR识别，得到直播音频中语音文字对应的文字识别结果，最后基于图片文字识别结果和语音文字识别结果确定视频文本，并向视频文本呈现给用户，解决了用户在观看直播视频时无法及时记录文字内容的问题，提高用户的学习效率。

Description

一种直播视频文本生成方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种直播视频文本生成方法、装置、设备及存储介质。

背景技术

随着科学技术的发展，人们学习的方式也越来越多元化，除了可以通过教师现场教学的方式进行学习外，还可以通过观看直播视频的方式进行学习。直播视频学习摆脱了对教师、场地和时间上的依赖，极大地方便了学生的学习。

用户在观看直播视频时，一般是没有字幕的，用户一般通过听力识别视频中讲解的文字内容，用户在学习时没有多余的精力对视频相关的文字内容进行记录，导致用户的学习效率下降。

发明内容

本申请实施例提供一种直播视频文本生成方法、装置、设备及存储介质，对直播视频中的文字内容进行记录，提高用户学习效率。

在第一方面，本申请实施例提供了一种直播视频文本生成方法，包括：

对直播视频进行抽帧处理，得到视频关键帧；

对所述视频关键帧进行OCR识别，得到图片文字识别结果；

抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；

基于所述图片文字识别结果和所述语音文字识别结果确定视频文本。

进一步的，所述对直播视频进行抽帧处理，得到视频关键帧，包括：

对直播视频进行均匀抽帧处理，得到多个视频帧；

对所述视频帧进行相似度分析处理，得到所述视频帧之间的相似度；

基于所述相似度对相似的视频帧进行筛选，得到视频关键帧。

进一步的，所述基于所述相似度对相似的视频帧进行筛选，得到视频关键帧，包括：

基于相似度低于相似阈值的相邻视频帧，确定相似视频帧区间；

对相似视频帧区间内的视频帧进行筛选，得到每个相似视频帧区间的视频关键帧。

进一步的，所述对所述视频关键帧进行OCR识别，得到图片文字识别结果，包括：

对所述视频关键帧进行OCR识别，得到每一个视频关键帧对应的文字识别结果；

对相似视频关键帧的文字识别结果进行筛选，得到图片文字识别结果。

进一步的，所述抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果，包括：

对所述语音文字识别结果进行NLP处理，并基于NLP处理结果对所述语音文字识别结果进行校正。

进一步的，所述基于所述图片文字识别结果和所述语音文字识别结果确定视频文本，包括：

根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系；

基于所述对应关系对所述图片文字识别结果和所述语音文字识别结果进行汇总，得到视频文本。

进一步的，所述基于所述图片文字识别结果和所述语音文字识别结果确定视频文本之后，还包括：

对所述视频文本进行显示，并响应于文本更新操作对所述视频文本进行更新。

在第二方面，本申请实施例提供了一种直播视频文本生成装置，包括关键帧获取模块、OCR处理模块、ASR处理模块和文本汇总模块，其中：

关键帧获取模块，用于对直播视频进行抽帧处理，得到视频关键帧；

OCR处理模块，用于对所述视频关键帧进行OCR识别，得到图片文字识别结果；

ASR处理模块，用于抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；

文本汇总模块，用于基于所述图片文字识别结果和所述语音文字识别结果确定视频文本。

进一步的，所述关键帧获取模块具体用于对直播视频进行均匀抽帧处理，得到多个视频帧；对所述视频帧进行相似度分析处理，得到所述视频帧之间的相似度；基于所述相似度对相似的视频帧进行筛选，得到视频关键帧。

进一步的，所述关键帧获取模块在基于所述相似度对相似的视频帧进行筛选，得到视频关键帧时，具体包括：基于相似度低于相似阈值的相邻视频帧，确定相似视频帧区间；对相似视频帧区间内的视频帧进行筛选，得到每个相似视频帧区间的视频关键帧。

进一步的，所述OCR处理模块具体用于：对所述视频关键帧进行OCR识别，得到每一个视频关键帧对应的文字识别结果；对相似视频关键帧的文字识别结果进行筛选，得到图片文字识别结果。

进一步的，所述ASR处理模块具体用于：抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；对所述语音文字识别结果进行NLP处理，并基于NLP处理结果对所述语音文字识别结果进行校正。

进一步的，所述文本汇总模块具体用于：根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系；基于所述对应关系对所述图片文字识别结果和所述语音文字识别结果进行汇总，得到视频文本。

进一步的，所述装置还包括文本更新模块，用于在所述文本汇总模块基于所述图片文字识别结果和所述语音文字识别结果确定视频文本之后，对所述视频文本进行显示，并响应于文本更新操作对所述视频文本进行更新。

在第三方面，本申请实施例提供了一种计算机设备，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的直播视频文本生成方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的直播视频文本生成方法。

本申请实施例通过对直播视频进行抽帧处理，并对抽帧得到的视频关键帧进行OCR识别，生成对应于视频关键帧中的文字内容的图片文字识别结果，并抽取直播视频的直播音频，对直播音频进行ASR识别，得到直播音频中语音文字对应的文字识别结果，最后基于图片文字识别结果和语音文字识别结果确定视频文本，并向视频文本呈现给用户，解决了用户在观看直播视频时无法及时记录文字内容的问题，提高用户的学习效率。

附图说明

图1是本申请实施例提供的一种直播视频文本生成方法的流程图；

图2是本申请实施例提供的另一种直播视频文本生成方法的流程图；

图3是本申请实施例提供的一种直播视频文本生成装置的结构示意图；

图4是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1给出了本申请实施例提供的一种直播视频文本生成方法的流程图，本申请实施例提供的直播视频文本生成方法可以由直播视频文本生成装置来执行，该直播视频文本生成装置可以通过硬件和/或软件的方式实现，并集成在计算机设备中。

下述以直播视频文本生成装置执行直播视频文本生成方法为例进行描述。参考图1，该直播视频文本生成方法包括：

S101：对直播视频进行抽帧处理，得到视频关键帧。

其中，直播视频可以是正在进行直播的视频，也可以是在直播过程中录制的视频，或者是在视频源文件中截取的视频片段。一般的，直播视频的显示画面中一般显示教学讲义相关的内容，直播视频中播放的语音一般是讲师对教学内容的讲解。

示例性的，对需要进行视频文本生成的直播视频进行抽帧处理，得到多个视频关键帧。通过抽帧处理减少OCR识别对计算资源的占用，提高工作效率。其中，对直播视频的抽帧可以是间隔一定帧数进行抽帧或者是间隔一定时间进行抽帧。

S102：对所述视频关键帧进行OCR识别，得到图片文字识别结果。

其中，OCR(Optical Character Recognition，光学字符识别)用于通过字符识别方法将形状翻译成计算机文字，即对图片上的文字进行识别并生成对应的文字识别结果。

示例性的，在得到视频关键帧后，对每张视频关键帧进行OCR识别，得到反映视频关键帧中的图片文字信息的图片文字识别结果。假设在进行教学直播时，视频画面上显示的文字是“今天天气很好”，获取直播视频对应的视频流并进行抽帧，得到视频关键帧，对这些视频关键帧进行OCR识别后，得到文字内容为“今天天气很好”的图片文字识别结果。

S103：抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果。

其中，ASR(Automatic Speech Recognition，语音识别技术)用于将人类语音中的词汇内容转换为计算机可读的内容，即将音频数据转换为文本数据。

示例性的，抽取直播视频中的音频数据作为直播音频，并对该直播音频进行ASR识别，得到反应直播视频中的语音文字信息的语音文字识别结果。假设在进行教学直播时，教师在直播视频中讲话的内容是“明天天气很好”，则对抽取的直播音频进行ASR识别后，得到文字内容为“明天天气很好”的语音文字识别结果。

可以理解的是，对直播音频进行ASR识别可以在对视频关键帧进行OCR识别之前或之后，即步骤S103对于步骤S101和步骤S102的先后顺序不影响实施例的正常进行，本实施例以成功获取视频关键帧对应的图片文字识别结果后，再根据直播音频获取语音文字识别结果为例进行描述。

在一个实施例中，在获取图片文字识别结果后，由于在抽帧处理时得到多张视频关键帧，会得到多个内容一致的图片文字识别结果，可对重复的图片文字识别结果进行去重处理，保留其中一个重复的图片文字识别结果。或者将相似度达到相似阈值的视频关键字对应的图片文字识别结果进行对比，保留识别结果最全或者更符合自然语义(可通过NLP自然语义分析技术进行判断)的图片文字识别结果，作为直播视频在这些视频关键帧对应的时间段内对应的图片文字识别结果。

S104：基于所述图片文字识别结果和所述语音文字识别结果确定视频文本。

示例性的，在确定图片文字识别结果和语音文字识别结果后，将图片文字识别结果和语音文字识别结果进行汇总，将汇总后的结果作为视频文本。在生成视频文本后，可对视频文本进行展示，用户可对视频文本进行修改或确认操作。

可选的，可根据图片文字识别结果对应直播视频的时间段，确定其对应于语音文字识别结果的范围，并基于该对应范围建立图片文字识别结果和语音文字识别结果的对应关系。可根据该对应关系确定教师讲解的语音内容对应的是哪个图片内容，方便用户的理解，提高学习效率。

上述，通过对直播视频进行抽帧处理，并对抽帧得到的视频关键帧进行OCR识别，生成对应于视频关键帧中的文字内容的图片文字识别结果，并抽取直播视频的直播音频，对直播音频进行ASR识别，得到直播音频中语音文字对应的文字识别结果，最后基于图片文字识别结果和语音文字识别结果确定视频文本，并向视频文本呈现给用户，解决了用户在观看直播视频时无法及时记录文字内容的问题，提高用户的学习效率。

图2为本申请实施例提供的另一种直播视频文本生成方法的流程图，该直播视频文本生成方法是对上述直播视频文本生成方法的具体化。参考图2，该直播视频文本生成方法包括：

S201：对直播视频进行均匀抽帧处理，得到多个视频帧，并对所述视频帧进行相似度分析处理，得到所述视频帧之间的相似度。

具体的，在确定需要进行视频文本生成的直播视频后，对该直播视频进行抽帧处理，得到多个视频帧，并对相邻视频帧之间的相似度进行分析处理，得到相邻视频帧之间的相似度。

其中，对相邻视频帧之间相似度的计算可通过计算视频帧之间的余弦相似度或者是通过计算视频帧之间的距离(欧氏距离、汉明距离等)进行确定，可以理解的是，两个视频帧之间越相似，对应的相似度越高。

S202：基于所述相似度对相似的视频帧进行筛选，得到视频关键帧。

示例性的，在计算出相邻视频帧之间的相似度后，基于相似度对相似的视频帧进行筛选，以减少相似视频帧的数量，减少对相同内容的图片进行OCR识别的次数，减少对计算资源的占用，提高视频文本生成的效率。进一步的，将筛选后得到的视频帧定义为视频关键帧。

在一个实施例中，对相似视频帧的筛选具体包括步骤S2021-S2022：

S2021：基于相似度低于相似阈值的相邻视频帧，确定相似视频帧区间。

具体的，在计算出相邻视频帧之间的相似度后，将相似度与相似阈值进行比较，在相似度达到相似阈值时，认为这两张视频帧对应的图片文字内容为相同的内容，这两张视频帧为相似视频帧，而在相似度低于相似阈值时，认为这两张视频帧对应的图片文字内容为相同不同的内容，这两张视频帧为不相似视频帧。

进一步的，确定前后两个与相邻视频帧相似度低于相似阈值的视频帧，以这两个视频帧作为一个相似视频帧区间的两个端点，可以理解的是，这两个视频帧以及在这两个视频帧之间的视频帧均为相似视频帧。对于第一个相似视频帧区间，对应的两个端点是第一个视频帧以及第一个与相邻视频帧相似度低于相似阈值的视频帧。对于整个视频画面均为相同图片内容的直播视频，只存在一个相似视频帧区间，相邻视频帧之间的相似度均达到相似阈值。

S2022：对相似视频帧区间内的视频帧进行筛选，得到每个相似视频帧区间的视频关键帧。

具体的，在确定相似视频帧区间后，对相似视频帧区间内的视频帧进行筛选，减少相似视频帧的数量，并将每个相似视频帧区间内保留的视频帧确定为视频关键帧。可选的，对相似视频帧区间内视频帧的筛选可以是保留其中预设数量的视频帧。

S203：对所述视频关键帧进行OCR识别，得到每一个视频关键帧对应的文字识别结果。

S204：对相似视频关键帧的文字识别结果进行筛选，得到图片文字识别结果。

具体的，在得到视频关键帧后，对每张视频关键帧进行OCR识别，得到反映视频关键帧中的图片文字信息的文字识别结果。其中，文字识别结果包括文字信息和时间信息，时间信息可基于视频关键帧的时间戳或播放进度确定。

进一步的，针对每个相似视频帧区间，对相似视频关键帧的文字识别结果进行筛选，得到图片文字识别结果。其中，图片文字识别结果包括图片文字信息和图片时间信息，图片时间信息可基于对应相似视频帧区间两个端点的视频帧对应的时间戳或播放进度确定，或者根据视频关键帧的时间戳或播放进度确定。

例如，将相似视频关键帧的文字识别结果进行比较，如果文字识别结果均一致，则保留其中一个文字识别结果作为图片文字识别结果，若果文字识别结果存在区别，可保留重合度最高的文字识别结果作为图片文字识别结果。或者是将存在区别的部分替换成重合度最高的结果，并将替换后的文字识别结果作为图片文字识别结果。

例如，假设一个相似视频帧区间内存在3个视频关键帧，其中两个视频关键帧对应的文字识别结果对应的文字信息为“今天星期五”，另一个视频关键帧的文字识别结果的文字信息为“天天星期五”，则对该相似视频帧区间的文字识别结果进行筛选时，由于前两个文字识别结果的重合度较高，将“今天星期五”作为该相似视频帧区间的图片文字识别结果中的文字信息，或者将“天天”替换为“今天”，再将替换后的文字识别结果作为图片文字识别结果。

S205：抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果。

S206：对所述语音文字识别结果进行NLP处理，并基于NLP处理结果对所述语音文字识别结果进行校正。

其中，语音文字识别结果包括语音文字信息和语音时间信息，语音时间信息用于记录语音文字信息中的文字或词汇对应于直播音频的时间信息，可通过直播音频的时间戳或播放进度进行确定。

具体的，在得到语音文字识别结果后，对语音文字识别结果进行NLP(NaturalLanguage Processing，自然语言处理)处理，判断语音文字识别结果中的文字是否符合自然语义，并对不符合自然语义的部分进行确定。

进一步的，对于不符合自然语义的部分，可从语言数据库中获取符合自然语义的文字，并对语音文字识别结果对应的部分进行替换，完成对语音文字识别结果的校正。可选的，在对语音文字识别结果(视频文本)进行显示时，对确定的不符合自然语义的部分或者是替换后的部分进行提示，以供用户进行修改。

S207：根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系。

具体的，在确定图片文字识别结果和语音文字识别结果后，基于每个相似视频帧区间的图片时间信息反映的时间区间，确定对应图片文字识别结果对应的时间区间，将语音文字识别结果的语音时间信息与图片时间信息进行对应，并确定图片文字识别结果和语音文字识别结果的对应关系，从而确定教师在讲解教学内容时，直播视频画面中显示的图片内容。

S208：基于所述对应关系对所述图片文字识别结果和所述语音文字识别结果进行汇总，得到视频文本。

示例性的，在确定图片文字识别结果和语音文字识别结果的对应关系后，基于该对应关系将图片文字识别结果和语音文字识别结果进行汇总，得到视频文本。

具体的，根据图片文字识别结果和语音文字识别结果的对应关系，将同一时间显示和讲解的图片文字信息和语音文字信息进行对应(例如通过指针、表格进行对应)，以指示这些图片文字信息和语音文字信息是同一时间播放的。进一步的，完成所有图片文字信息和语音文字信息的对应后，将图片文字信息和语音文字信息汇总为视频文本。

在打开视频文本时，根据图片文字信息和语音文字信息的对应关系，同步显示对应的图片文字信息和语音文字信息。例如，在显示语音文字信息(语音文字识别结果)的同时，在语音文字信息附近(上方或下方)同步显示对应的图片文字信息(图片文字识别结果)。

S209：对所述视频文本进行显示，并响应于文本更新操作对所述视频文本进行更新。

具体的，在生成视频文本后，对视频文本进行显示，用户可在视频文本显示界面上对视频文本进行文本更新操作，并响应于文本更新操作对所述视频文本进行更新。可选的，可对确定的不符合自然语义的部分或者是替换后的部分进行提示(例如加粗、高亮显示)，用户可根据提示对视频文本进行文本更新操作。

示例性的，假设学生在进行直播视频学习或者是对录制后的直播视频进行学习时，直播视频上前后分别显示的图片文字内容分别为“今天天气真好”和“今天星期天”，并且教师分别针对这两个图片文字内容进行天气和日期的语音讲解。

在对直播视频抽取的视频帧进行筛选后，得到两个相似视频帧区间，对应的视频关键帧中的图片文字内容分别为“今天天气真好”和“今天星期天”，进行OCR识别后得到的图片文字识别结果中的图片文字信息分别为“今天天气真好”和“今天星期天”。

对直播视频抓取的直播音频进行ASR识别即NLP处理后，得到语音文字识别结果，在该语音文字识别的语音文字信息中，包括了对天气和日期的语音讲解对应的文字。

在得到图片文字识别结果和语音文字识别结果后，对图片文字识别结果和语音文字识别结果进行汇总得到视频文本，该视频文本包括语音文字信息和图片文字信息，并且语音文字信息中对天气和日期的语音讲解两部分的文字分别对应于“今天天气真好”和“今天星期天”对应的图片文字信息。同时对视频文本进行显示，可对视频文本进行修改，并在修改完成后进行确认操作，完成视频文本的生成。

在打开视频文本时，文本显示画面中根据不同相似视频帧区间的图片文字信息将语音文字信息进行拆分后进行分段显示，并在每一段语音文字信息的上方显示对应的图片文字信息。即在“今天天气真好”下方显示的是“今天天气……”的语音文字信息，在“今天星期天”的下方显示“这个日期是……”的语音文字信息。

上述，通过对直播视频进行抽帧处理，并对抽帧得到的视频关键帧进行OCR识别，生成对应于视频关键帧中的文字内容的图片文字识别结果，并抽取直播视频的直播音频，对直播音频进行ASR识别，得到直播音频中语音文字对应的文字识别结果，最后基于图片文字识别结果和语音文字识别结果确定视频文本，并向视频文本呈现给用户，解决了用户在观看直播视频时无法及时记录文字内容的问题，提高用户的学习效率。同时，根据直播视频中显示文字的不同进行相似视频帧的划分，从而将不同图片文字和讲解语音进行对应，方便用户快速找到文字和语音的对应关系。并对语音文字识别结果进行NLP处理，将不符合自然语义的部分进行更改，提高直播音频的识别效果。并可对视频文本进行修改，提高视频文本的质量，保证学生学习效果。

图3为本申请实施例提供的一种直播视频文本生成装置的结构示意图。参考图3，本实施例提供的直播视频文本生成装置包括关键帧获取模块31、OCR处理模块32、ASR处理模块33和文本汇总模块34。

其中，关键帧获取模块31，用于对直播视频进行抽帧处理，得到视频关键帧；OCR处理模块32，用于对所述视频关键帧进行OCR识别，得到图片文字识别结果；ASR处理模块33，用于抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；文本汇总模块34，用于基于所述图片文字识别结果和所述语音文字识别结果确定视频文本。

在一个可能的实施例中，所述关键帧获取模块31具体用于对直播视频进行均匀抽帧处理，得到多个视频帧；对所述视频帧进行相似度分析处理，得到所述视频帧之间的相似度；基于所述相似度对相似的视频帧进行筛选，得到视频关键帧。

在一个可能的实施例中，所述关键帧获取模块31在基于所述相似度对相似的视频帧进行筛选，得到视频关键帧时，具体包括：基于相似度低于相似阈值的相邻视频帧，确定相似视频帧区间；对相似视频帧区间内的视频帧进行筛选，得到每个相似视频帧区间的视频关键帧。

在一个可能的实施例中，所述OCR处理模块32具体用于：对所述视频关键帧进行OCR识别，得到每一个视频关键帧对应的文字识别结果；对相似视频关键帧的文字识别结果进行筛选，得到图片文字识别结果。

在一个可能的实施例中，所述ASR处理模块33具体用于：抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；对所述语音文字识别结果进行NLP处理，并基于NLP处理结果对所述语音文字识别结果进行校正。

在一个可能的实施例中，所述文本汇总模块34具体用于：根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系；基于所述对应关系对所述图片文字识别结果和所述语音文字识别结果进行汇总，得到视频文本。

在一个可能的实施例中，所述装置还包括文本更新模块，用于在所述文本汇总模块34基于所述图片文字识别结果和所述语音文字识别结果确定视频文本之后，对所述视频文本进行显示，并响应于文本更新操作对所述视频文本进行更新。

本申请实施例还提供了一种计算机设备，该计算机设备可集成本申请实施例提供的直播视频文本生成装置。图4是本申请实施例提供的一种计算机设备的结构示意图。参考图4，该计算机设备包括：输入装置43、输出装置44、存储器42以及一个或多个处理器41；所述存储器42，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如上述实施例提供的直播视频文本生成方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器42作为一种计算设备可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的直播视频文本生成方法对应的程序指令/模块(例如，直播视频文本生成装置中的关键帧获取模块31、OCR处理模块32、ASR处理模块33和文本汇总模块34)。存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的直播视频文本生成方法。

上述提供的直播视频文本生成装置和计算机可用于执行上述实施例提供的直播视频文本生成方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的直播视频文本生成方法，该直播视频文本生成方法包括：对直播视频进行抽帧处理，得到视频关键帧；对所述视频关键帧进行OCR识别，得到图片文字识别结果；抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果；基于所述图片文字识别结果和所述语音文字识别结果确定视频文本。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的直播视频文本生成方法，还可以执行本申请任意实施例所提供的直播视频文本生成方法中的相关操作。

上述实施例中提供的直播视频文本生成装置、设备及存储介质可执行本申请任意实施例所提供的直播视频文本生成方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的直播视频文本生成方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种直播视频文本生成方法，其特征在于，包括：

对直播视频进行抽帧处理，得到视频关键帧；

对所述视频关键帧进行OCR识别，得到图片文字识别结果，将相似度达到相似阈值的视频关键帧对应的图片文字识别结果进行对比，保留识别结果最全或者符合自然语义的图片文字识别结果；

基于保留的图片文字识别结果和所述语音文字识别结果确定视频文本，包括根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系，其中，所述文字识别结果包括文字信息和时间信息；

2.根据权利要求1所述的直播视频文本生成方法，其特征在于，所述对直播视频进行抽帧处理，得到视频关键帧，包括：

对直播视频进行均匀抽帧处理，得到多个视频帧；

3.根据权利要求2所述的直播视频文本生成方法，其特征在于，所述基于所述相似度对相似的视频帧进行筛选，得到视频关键帧，包括：

4.根据权利要求2所述的直播视频文本生成方法，其特征在于，所述对所述视频关键帧进行OCR识别，得到图片文字识别结果，包括：

5.根据权利要求1所述的直播视频文本生成方法，其特征在于，所述抽取所述直播视频的直播音频，对所述直播音频进行ASR识别，得到语音文字识别结果，包括：

6.根据权利要求1所述的直播视频文本生成方法，其特征在于，所述基于所述保留的图片文字识别结果和所述语音文字识别结果确定视频文本之后，还包括：

7.一种直播视频文本生成装置，其特征在于，包括关键帧获取模块、OCR处理模块、ASR处理模块和文本汇总模块，其中：

OCR处理模块，用于对所述视频关键帧进行OCR识别，得到图片文字识别结果，将相似度达到相似阈值的视频关键帧对应的图片文字识别结果进行对比，保留识别结果最全或者符合自然语义的图片文字识别结果；

文本汇总模块，用于基于保留的图片文字识别结果和所述语音文字识别结果确定视频文本，包括根据所述图片文字识别结果的图片时间信息和所述语音文字识别结果的语音时间信息，确定所述图片文字识别结果和所述语音文字识别结果的对应关系，其中，所述文字识别结果包括文字信息和时间信息；基于所述对应关系对所述图片文字识别结果和所述语音文字识别结果进行汇总，得到视频文本。

8.一种计算机设备，其特征在于，包括：存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一所述的直播视频文本生成方法。

9.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6任一所述的直播视频文本生成方法。