CN111968649A

CN111968649A - 一种字幕纠正方法、字幕显示方法、装置、设备及介质

Info

Publication number: CN111968649A
Application number: CN202010881048.3A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-20
Anticipated expiration: 2040-08-27
Also published as: CN111968649B

Abstract

本发明公开了一种字幕纠正方法、字幕显示方法、装置、设备及介质，字幕纠正方法包括：获取视频数据中的音频流数据和视频画面数据；对所述音频流数据进行语音识别，得到第一字幕信息；对所述视频画面数据进行文本识别；根据所述文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。字幕显示方法包括：获取视频数据以及第二字幕信息；在播放所述视频数据时，显示所述第二字幕信息。本发明基于对视频画面内容的文本识别来纠正语音识别到的字幕信息，能够将涉及视频画面内容的字幕信息进行纠正，提升语音识别到的字幕与视频内容之间的一致性，提高了字幕内容的准确性，有助于提高用户的观看体验，可广泛应用于互联网技术领域。

Description

一种字幕纠正方法、字幕显示方法、装置、设备及介质

技术领域

本发明涉及互联网技术领域，尤其是一种字幕纠正方法、字幕显示方法、装置、设备及介质。

背景技术

随着互联网技术的不断发展，视频直播的应用也越来越广泛，在直播视频中显示字幕已经成为提高用户观看体验的重要手段。

在视频直播中，一般是通过语音识别技术将视频中播放的音频内容进行文字转换，然后将转换得到的字幕内容展示在视频下方，方便用户观看视频。

但是，对于目前这种基于语音识别技术生成的字幕，字幕内容的准确性容易受到音频质量的影响，例如在播放人物对话视频时，由于视频中的人物发音不够准确，则会导致语音识别到的结果不准确。另外，字幕内容的准确性还受到同音字的影响，例如，当音频内容中出现专业词汇“池化处理”时，语音识别转换得到的字幕为“赤化处理”，影响用户的观看体验。

发明内容

有鉴于此，本发明实施例提供一种字幕纠正方法、字幕显示方法、装置、设备及介质，以提高字幕内容的准确性。

根据本发明的第一方面，提供了一种字幕纠正方法，包括：

获取视频数据中的音频流数据和视频画面数据；

对所述音频流数据进行语音识别，得到第一字幕信息；

对所述视频画面数据进行文本识别；

根据所述文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。

根据本发明的第二方面，提供了一种字幕显示方法，包括：

获取视频数据以及第二字幕信息；

在播放所述视频数据时，显示所述第二字幕信息；

其中，所述第二字幕信息根据本发明第一方面所述的字幕纠正方法获得。

根据本发明的第三方面，提供了一种字幕纠正装置，包括：

第一获取模块，用于获取视频数据中的音频流数据和视频画面数据；

语音识别模块，用于对所述音频流数据进行语音识别，得到第一字幕信息；

文本识别模块，用于对所述视频画面数据进行文本识别；

纠正模块，用于根据所述文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。

根据本发明的第四方面，提供了一种字幕显示装置，包括：

第二获取模块，用于获取视频数据以及第二字幕信息；

显示模块，用于在播放所述视频数据时，显示所述第二字幕信息；

其中，所述第二字幕信息根据本发明第三方面中所述的字幕纠正装置获得。

根据本发明的第五方面，提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如本发明第一方面或第二方面所述的方法。

根据本发明的第六方面，提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现本发明第一方面或第二方面所述的方法。

本发明在对视频数据中的音频流数据进行语音识别，得到第一字幕信息后；还对所述视频画面数据进行文本识别；并根据所述文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。本发明基于对视频画面内容的文本识别来纠正语音识别到的字幕信息，能够将涉及视频画面内容的字幕信息进行纠正，提升语音识别到的字幕与视频内容之间的一致性，提高了字幕内容的准确性，有助于提高用户的观看体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的实施环境示意图；

图2为本发明实施例提供的字幕纠正方法的流程图；

图3为本发明实施例提供的字幕播放界面示意图；

图4为本发明实施例提供的置信标记分类模型的训练过程示意图；

图5为本发明实施例提供的字幕显示方法的流程图；

图6为本发明实施例提供的字幕纠正装置的逻辑框图；

图7为本发明实施例提供的字幕显示装置的逻辑框图；

图8为本发明实施例提供的电子设备的结构示意图；

图9为本发明实施例提供的字幕纠正之前的显示界面；

图10为本发明实施例提供的字幕纠正之后的显示界面；

图11为本发明实施例提供的对视频画面数据进行文本识别的流程图；

图12为本发明实施例提供的根据视频内容词表构建视频内容词库的流程图；

图13(a)为本发明实施例提供的根据视频内容词库构建查询索引的第一流程图；

图13(b)为本发明实施例提供的根据视频内容词库构建查询索引的第二流程图；

图14为本发明实施例提供的根据文本识别的结果对第一字幕信息进行纠正的流程图；

图15为本发明实施例提供的根据初始纠正候选词的置信度确定目标纠正候选词的第一流程图；

图16为本发明实施例提供的根据初始纠正候选词的置信度确定目标纠正候选词的第二流程图；

图17为本发明实施例提供的根据置信标记的结果，确定初始纠正候选词的置信度，并确定目标纠正候选词的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)字幕

字幕是以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容，也泛指影视作品后期加工的文字。

2)语音识别技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容识别文本信息的技术，文本信息可以作为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术广泛应用于语音拨号、语音导航、智能家居控制、语音搜索、听写数据录入等场景。由于同一发音的语音信号可能对应多组不同字的组合，比如：“nihao”对应“你好”、“拟好”、“倪浩”这三种组合，因此，语音识别设备根据语音信号可能识别出多个候选识别结果。

3)光学字符识别

光学字符识别(Optical Character Recognition，OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

图1是本发明各个实施例所涉及的实施环境的示意图。如图1所示，该实施环境可以包括：服务器端101以及若干个用户终端102。其中，用户终端与服务器端通信连接，该通信连接可以是无线连接或有线连接，该无线连接可以包括但不限于无线保真(WirelessFidelity，WIFI)连接、数据连接、蓝牙连接或红外连接等，该有线连接可以包括但不限于通用串行总线(Universal Serial Bus，USB)连接。

可选的，上述的无线连接或有线连接使用标准通信技术和/或协议。上述无线连接或有线连接使用的网络通常为因特网、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线网络、无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(ExtensibleMarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(InternetProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在图1所示的实施环境示意图中，用户终端可以是任何一种可通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如个人计算机(Personal Computer，PC)、智能手机、个人数字助手(PersonalDigitalAssistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。图1以个人计算机1021和智能手机1022为例对用户终端102进行说明。服务器端101可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心，服务器端101可以为用户终端102提供视频播放服务。

其中，上述用户终端102可以安装有直播应用程序(Application，APP)的客户端，也可以安装有视频播放器客户端，上述服务器端101可以是上述客户端对应的直播服务器。

本领域的技术人员应能理解服务器端101和用户终端102仅为举例，其他现有的或今后可能出现的终端或服务器端如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。另外，本申请未对服务器端101和用户终端102的数量进行限制，本领域的技术人员可以理解，在不同应用场景中，可以对上述服务器端101和用户终端102的数量进行灵活选择，例如当数据处理量大、复杂度高时，可以使用多个服务器端101进行处理；当多个用户观看视频内容时，则本申请的方法可应用于多个用户终端102。

本发明的方法可以应用到视频直播的场景下，例如：在直播时，直播录制终端将录制的直播视频流上传至直播服务器，直播服务器接收该直播视频流，并为该直播视频流建立直播频道，用户终端对应的用户可以通过用户终端中安装的直播客户端或者浏览器客户端访问直播服务器，并在访问页面中选择该直播频道后，直播服务器将该直播视频流推送给用户终端，由用户终端在直播应用程序界面或者浏览器界面中播放该直播视频流。在播放过程中，用户终端的直播应用程序界面或者浏览器界面可以同步播放字幕，该视频字幕由本发明的字幕纠正方法确定得到。

具体地，用户可以通过用户终端的客户端观看直播视频，比如进入某个直播平台观看某个主播的直播，或者进入某个直播房间观看直播。在观看直播过程中，用户终端从服务器端获取视频数据中的音频流数据和视频画面数据准备进行播放；接着，对音频流数据进行语音识别，得到第一字幕信息；以及对视频画面数据进行文本识别，得到视频画面中的视频内容文本；最后根据文本信息对第一字幕信息进行纠正，得到第二字幕信息。此时，用户终端在播放直播视频的时候，能够观看视频中音频对应的第二字幕信息。

可以理解的是，一些实施例可以通过用户终端对音频流数据进行语音识别，得到第一字幕信息；以及对视频画面数据进行文本识别，得到视频画面中的视频内容文本；并根据文本信息对第一字幕信息进行纠正，得到第二字幕信息；最后通过用户终端播放带有准确字幕的直播视频。而在另一些实施例中，也可以通过服务器端对音频流数据进行语音识别，得到第一字幕信息；以及对视频画面数据进行文本识别，得到视频画面中的视频内容文本；最后根据文本信息对第一字幕信息进行纠正，得到第二字幕信息；然后由服务器端将第二字幕信息和视频数据一起发送至用户终端进行视频播放。以上通过用户终端或服务器端执行的处理过程均可适用于本申请，也应包含在本申请保护范围以内。

基于图1所示的实施环境，本发明实施例提出了一种字幕纠正方法，图2是本发明实施例的一种字幕纠正方法的流程图，该方法可以由图1所示实施环境中的服务器端101或用户终端102执行，也可以由服务器端101和用户终端102协同执行，该方法可以包括步骤S201-S204：

S201、获取视频数据中的音频流数据和视频画面数据；

具体地，音频流数据是视频流数据中的音频部分对应的数据。用户终端通过服务器端接收待播放的视频数据，视频数据可以由直播录制终端在直播现场采集得到，例如用户A(也可以称为主播)在直播应用程序界面中触发启动直播功能后，直播应用程序的客户端调用直播录制终端中的图像采集组件和音频采集组件来录制视频数据，并将录制的视频数据上传至直播服务器，直播服务器将该视频数据作为待播放的视频数据发送至用户终端。视频画面数据是视频数据中画面内容对应的数据，是视频中待播放的每一帧图像数据的集合。本发明实施例的视频画面数据可以包括视频中自带的字幕内容，例如，当视频数据是一部录制好的电影，此时，视频数据包括电影中的音频内容和画面内容，而画面内容本身已经附带有对应于音频内容的字幕信息，此时的字幕信息属于视频画面数据的内容。但是，对于直播场景下的视频数据，该视频数据中展示的画面内容是主播实时展示的内容(例如PPT展示页)，此时画面内容中没有字幕信息，因此需要通过相关技术对主播的音频进行语音识别，得到对应的字幕信息展示在画面内容中，便于用户观看。

另外，视频数据也可以是预存在服务器端的视频数据，该视频数据包括音频流数据和视频画面数据，用户终端可以直接获取服务器端上存储的视频数据作为待播放的视频数据。

S202、对音频流数据进行语音识别，得到第一字幕信息；

具体地，语音识别是指将音频流数据中的语音识别为对应语言类型的文本；第一字幕信息是指语音识别到的字幕文本。如图3所示，该实施例中，当直播内容为针对PPT文档的内容介绍时，PPT文档的标题内容301为“Layer0，Layer1：卷积和池化部分”，主播语音讲解的大部分内容是PPT文档上展示的正文内容302，例如，主播在介绍当前PPT文档时的一句语音内容为“其中，这个池化操作也是很有必要的”，这时，通过语音识别到的第一字幕信息303为“其中，这个赤化操作也是很有必要的”，显然，语音识别到的第一字幕信息出现了同音字的识别错误，将标题内容中的专业名词“池化”3011识别为错误的同音词“赤化”3031。本实施例通过对视频数据中的音频流数据进行语音识别，能够得到对应的第一字幕信息，虽然第一字幕信息能够一定程度地还原语音内容，但识别出的字幕内容的准确性需要由本发明的字幕纠正方法来提高。在一些实施例中，语音识别可以采用基于深度学习技术的语音识别系统(例如DeepSpeech)来实现。

本实施例以DeepSpeech为例，对通过语音识别得到第一字幕信息的过程进行描述：

DeepSpeech是处理音频到文本(speech-to-text)的基于深度学习框架的引擎，该引擎的模型结构为RNN layers+CTC loss，从而实现端到端的语音识别。

RNN(Recurrent neural Network，循环神经网络)：RNN是一种适用于处理序列数据的神经网络。因为RNN可以对前面的信息进行记忆并选择性地应用于当前输出的计算中，即隐藏层之间的节点不再是无连接的，而是存在连接关系，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。这样，由于序列数据的前后数据之间其实是有关联的，使用RNN可以考虑到序列数据中的数据之间的关联性，使得得到的序列数据更符合逻辑。理论上，RNN能够对任何长度的序列数据进行处理。例如，RNN在确定一个序列数据中某一位的输出时，可以基于之前的输出，也即是基于已有的序列数据，判断接下来可能出现的数据。

在一些实施例中，首先获取音频数据，其中，音频数据的格式可以是wav，采样频率可以是16k，时长是t-seconds，每一个读取的音频数据为t(sec)*16K的float类型的数组。接着，对输入的音频数据进行快速傅立叶变换(FFT)，生成一定维度的音频数组。然后对该音频数组执行时域和频域组成的二维空间上的卷积，并将卷积后的数据输入RNN层以及FC层进行处理。需要说明的是，本实施例通过CTC模型计算模型的损失函数，以及通过GRU进行RNN层和FC层的处理。最后，将训练得到的语音识别模型用于对音频流数据进行语音识别，得到第一字幕信息。

本领域的技术人员应能理解DeepSpeech仅为举例，其他现有的或今后可能出现的语音识别技术如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

S203、对视频画面数据进行文本识别；

具体地，本发明实施例可以通过图文光学字符识别技术(Optical CharacterRecognition，OCR)识别出视频画面中的文本，例如采用微信的OCR识别接口对视频画面数据进行文本识别。可以理解的是，本发明中，对视频画面识别到的文本可以包括任意一种计算机可读的字符，例如中文字符、英文字符以及其他语种字符，在此不作限定。

本领域的技术人员应能理解OCR识别接口仅为举例，其他现有的或今后可能出现的文本识别技术如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

S204、根据文本识别的结果对第一字幕信息进行纠正，得到第二字幕信息。

具体地，第二字幕信息是指采用本发明实施例的字幕纠正方法之后，纠正得到的正确字幕文本。由于语音识别到的字幕文本准确性较低，通过本发明的方法，依据视频画面中的文本识别结果，能够对语音识别到的第一字幕信息进行纠正，得到准确性较高的第二字幕信息。例如，在图3所示的字幕显示界面中，当语音识别到的第一字幕信息303因人物发音不准或同音字而出错(例如将语音中的“池化”3011识别成“赤化”3031)时，通过本发明的方法识别得到视频画面中PPT文档的文本信息，将PPT文档上的正确文本“池化”3011替换语音识别到的错误文本“赤化”3031，实现对语音识别结果的纠正，提高第二字幕信息的准确性。

图11是本发明实施例提供的对视频画面数据进行文本识别的流程图，具体地，步骤S203包括步骤S1101-S1104：

S1101、对视频画面数据中的画面内容进行文本识别，得到视频内容文本；

具体地，本发明实施例的视频内容文本包括视频画面中识别到的所有文本。如图3所示，当前视频画面正在播放PPT文档，而主播正在用语音讲解PPT文档的内容，此时，步骤S1101识别到的视频内容文本是指该PPT文档的所有文本，例如包括标题内容301和正文内容302中的文本。

S1102、对视频内容文本进行第一分词，并从第一分词的结果中确定视频内容词表；视频内容词表中任意词条的词频大于预设阈值；

本发明实施例对文本识别到的视频内容文本进行第一分词，得到视频画面中所有文本分词后的词条，并将出现频次大于预设阈值的词条集合作为视频内容词表。

其中，第一分词可以通过分词器来实现，分词器是将输入的一段文本或句子，分析成符合逻辑的分词序列的一种工具。可选的，分词器采用的分词方法包括但不限于：基于词典分词算法(字符串匹配分词算法)、基于理解的分词方法、基于统计的机器学习算法中的至少一种。本领域技术人员应当理解的是，下文中描述的第二分词和第三分词，均可采用上述分词器的分词方法来实现。

应当理解的是，本发明实施例中频次的预设阈值可根据应用需求动态调整，例如一个视频画面中识别得到的文本信息较多时，可将该预设阈值的数值调大，以减少视频内容词表中的词条数量。本发明不对频次的预设阈值进行限定，各种应用场景下预设阈值的具体数值均在本发明的保护范围内。

本发明实施例通过构建视频内容词表，能够从视频内容文本中筛选得到出现频次较高的词条，并将这些出现频次较高的词条作为可能用于纠正第一字幕信息的词条；而对于出现频次较低的词条，则代表该词条在当前视频画面中不是重要词条，因此无需加入视频内容词表，因此，本发明实施例的步骤S1102能够降低查询索引难度。

S1103、根据视频内容词表，构建视频内容词库；

具体地，由于通过OCR识别技术来识别的视频内容文本长度有限，因此本发明实施例通过视频内容词表构建语言模型频率，并采用统计语言模型的方式来构建视频内容词库，以解决识别文本长度受限的问题。

语言模型是一种用来描述自然语言内在规律的数学模型。例如对于语言序列[w₁,w₂,w₃,…,w_n]，其中，w_n代表该语言序列中的第n个词条，语言模型就是计算该序列的概率，即P(w₁,w₂,w₃,…,w_n)，通过语言模型，能够判断一句话的流畅程度。

本领域的技术人员应能理解采用统计语言模型的方式来构建视频内容词库仅为举例，其他现有的或今后可能出现的文本识别技术如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。例如，可以通过神经网络训练模型来训练语言模型，进而构建视频内容词库，神经网络训练模型可以是基于LSTM或BERT结构的训练模型。

S1104、根据视频内容词库，构建查询索引；

为了在纠错阶段为第一字幕信息中的错误部分构建纠正候选词，因此需要根据上述视频内容词库中的各个词条、以及各个词条的N元组合来构建查询索引，以便在视频内容词库中快速找到错误部分对应的纠正候选词。

在一些实施例中，查询索引可以包括拼音索引和笔画索引。其中，拼音索引的目的是通过拼音相似来查询纠正候选词，笔画索引的目的是通过字形相似来查询索引词。

本领域的技术人员应能理解拼音索引和笔画索引仅为举例，其他现有的或今后可能出现的查询索引技术如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

图12为本发明实施例提供的根据视频内容词表构建视频内容词库的流程图，具体地，步骤S1103包括步骤S1201-S1202：

S1201、确定视频内容词表中所有词条的语言模型概率；其中，语言模型概率包括视频内容词表中每个词条的一元概率和若干个词条之间的多元概率，若干个词条包括至少两个词条；

S1202、根据一元概率和多元概率，构建得到视频内容词库。

具体地，本发明实施例采用统计语言模型的方式来构建视频内容词库，在该视频内容词库中，存储了各个词条的出现概率，例如表1所示：

表1

上述各个词条的出现概率包括一元概率、二元概率以及N元概率。

其中，一元概率是指视频内容词库中任意单个词条在当前视频画面中单独出现的概率，一元概率的计算方式为：一元概率＝词条频次/识别内容所有词频次。

二元概率是指视频内容词库中任意两个词条在当前视频画面中搭配的概率，二元概率的计算方式为：二元概率＝两个词条的共现次数/识别内容中所有两词条的共现概率。

N元概率是指视频内容词库中任意N个词条在当前视频画面中搭配的概率，N元概率的计算公式为：N元概率＝N个词条的共现次数/识别内容中所有N个词条的共现概率。

应当理解的是，本发明实施例中的N的值可根据应用需求动态调整，例如，当视频内容词库中存储的词条数目较大时，则会导致表1中所示的一元概率和二元概率的计算量较大，此时，为了降低计算量，可以将N的值设定为三，也就是说，在该实施例中的语言模型只需统计视频内容词库中一元、二元和三元的概率，能够降低计算量。相对的，当视频内容词库中确定的词条数目较小时，则表1中所示的一元概率和二元概率的计算量较小，此时可以将N的值设定为大于三，以尽可能充分发挥相关运算设备的计算性能，使得视频内容词库中存储的数据更加精细。本发明不对N的具体值进行限定，各种应用场景下N的值均在本发明的保护范围内。

图13是本发明实施例提供的根据视频内容词库构建查询索引的流程图，其中，图13(a)所示的流程在于构建拼音索引，图13(b)所示的流程在于构建笔画索引，具体地，步骤S1104可以包括步骤S1301-S1303或者步骤S1304-S1305中至少一种：

S1301、对视频内容词库中词条进行拼音注音，得到词条的全拼信息和简拼信息；

具体地，为了构建词条的拼音索引，本发明实施例需要通过对视频内容词库中所有词条进行拼音注音，得到每个词条对应的全拼信息和简拼信息。例如，对于图3所示的PPT文档中的词条“池化”，则将该词条的全拼信息注音为“chi’hua”，并将该词条的简拼信息注音为“c’h”。同理，可以对视频内容词库中所有词条的全拼信息和简拼信息进行注音。

S1302、根据词条的全拼信息和该全拼信息对应的词条构建第一拼音索引；

在获取到步骤S1301中各个词条的全拼信息后，本发明实施例可以构建全拼信息对应的第一拼音索引。在一些实施例中，第一拼音索引可以采用键值对(key-value)的数据格式来构建。例如上述步骤S1301中的词条“池化”，采用本发明实施例的构建方法得到的第一拼音索引为“chi’hua-池化”，在本发明实施例的第一拼音索引中，将全拼信息作为键值对的key，将全拼信息对应的词条作为键值对的value。因此，通过本发明实施例的第一拼音索引，在获取到全拼信息的时候，可以直接在视频内容词库中匹配得到对应全拼信息的词条。

S1303、根据词条的简拼信息和该简拼信息对应的词条构建第二拼音索引。

在获取到步骤S1301中各个词条的简拼信息后，本发明实施例可以构建简拼信息对应的第二拼音索引。在一些实施例中，第二拼音索引可以采用键值对(key-value)的数据格式来构建。例如上述步骤S1301中的词条“池化”，采用本发明实施例的构建方法得到的第二拼音索引为“c’h-池化”，在本发明实施例的第二拼音索引中，将简拼信息作为键值对的key，将简拼信息对应的词条作为键值对的value。因此，通过本发明实施例的第二拼音索引，在获取到简拼信息的时候，可以直接在视频内容词库中匹配得到对应简拼信息的词条。

S1304、对视频内容词库中词条进行笔画拆解，得到词条的笔画信息；

具体地，由于上述步骤S1302-步骤S1303中构建得到的第一拼音索引和第二拼音索引在进行查询索引时，会因同音字之间的全拼信息和简拼信息相同，而导致查询索引的准确性较低。例如，当视频内容词库中同时存在第一拼音索引“chi’hua-痴话”和“chi’hua-池化”时，若要根据全拼信息“chi’hua”来查询视频内容词库中的“池化”，则查询结果会受到“痴话”的影响，无法准确查询到“池化”这个正确的词条。因此，在一些实施例中，可以通过构建笔画索引来辅助拼音索引，进而提高查询索引的准确性。

为了构建词条的笔画索引，本发明实施例需要通过对视频内容词库中所有词条进行笔画拆解，得到每个词条对应的笔画信息。例如，对于图3所示的PPT文档中的词条“池化”，则按照书写笔画顺序将该词条进行笔画拆解得到的笔画信息为“点、点、提、横折钩、竖、竖弯钩’撇、竖、撇、竖弯钩”，其中，“点、点、提、横折钩、竖、竖弯钩”是“池”的笔画信息，“撇、竖、撇、竖弯钩”是“化”的笔画信息。

S1305、根据词条的笔画信息和该笔画信息对应的词条构建笔画索引。

在获取到步骤S1304中各个词条的笔画信息后，本发明实施例可以构建笔画信息对应的笔画索引。在本发明实施例的笔画索引中，将笔画信息作为键值对的key，将笔画信息对应的词条作为键值对的value。通过本发明实施例的笔画索引，在获取到笔画信息的时候，可以直接在视频内容词库中匹配得到对应笔画信息的词条。

可以理解的是，本领域技术人员可以利用步骤S1303、S1304以及S1305中构建得到的第一拼音索引、第二拼音索引以及笔画索引中任一种来进行视频内容词库中的词条查询，也可以同时利用以上索引中至少两种索引来进行词条查询，以提高词条查询的准确性。

图14为本发明实施例提供的根据文本识别的结果对第一字幕信息进行纠正的流程图，具体地，步骤S204包括S1401-S1405：

S1401、对第一字幕信息进行第二分词；

本发明实施例对语音识别到的字幕文本进行第二分词，得到该字幕文本中所有词条。

S1402、根据第二分词的结果构建连续词片段；

其中，第二分词的结果是指步骤S1401中得到的字幕文本中所有词条；连续词片段是指上述所有词条中各个连续相邻词条的组合。

具体地，本发明实施例通过预设连续词片段的词条数，以从上述所有词条中确定连续词片段。例如，在一个实施例中，通过语音识别到的字幕文本为“ABCDEFGHIJ”，对该字幕文本进行第二分词后得到的分词结果为“AB/C/D/EFG/HI/J”，其中，“AB”、“C”、“D”、“EFG”、“HI”、“J”分别代表分词得到的各个词条。示例地，本实施例将连续词片段的词条数预设为3，此时，则对分词结果中的三个连续词片段、两个连续词片段以及一个连续词片段进行构建，其中，三个连续词片段包括“ABCD”、“CDEFG”、“DEFGHI”、“EFGHIJ”；两个连续词片段包括“ABC”、“CD”、“DEFG”、“EFGHI”、“HIJ”；一个连续词片段包括“AB”、“C”、“D”、“EFG”、“HI”、“J”。至此，本发明实施例将分词结果中任意连续三个词条、任意连续两个词条以及任意一个词条构建得到对应的连续词片段。

本发明实施例通过构建连续词片段，能够在视频内容词库中查询各个连续词片段对应的初始纠正候选词，相较于直接将分词结果中的每个独立词条取到视频内容词库中进行查询，本发明实施例通过构建连续词片段，能够避免因第二分词中分词结果不准确而影响到查询的准确度。例如，假设第一字幕信息中的字幕文本包括“水火不容”这个词条，在对第一字幕信息进行第二分词的时候，可能会将“水火不容”这个词条分解成“水”、“火”、“不容”这三个词条，此时，如果没有采用本发明实施例中连续词片段的构建方法，则直接将“水”、“火”、“不容”这三个词条分别取到视频内容词库中进行查询，这时，无论采用第一拼音索引、第二拼音索引还是笔画索引，都无法准确匹配到对应的正确词条“水火不容”。而通过本发明实施例的步骤S1402，构建连续三个词条的连续磁片段，即能够构建“水”、“火”、“不容”这三个词条的连续词片段“水火不容”，通过该连续词片段“水火不容”能够在视频内容词库中查询到正确词条，有助于提高查询的准确度。

应当理解的是，本发明实施例中连续词片段的词条数可根据应用需求动态调整，例如当第二分词得到的词条数较多时，可将该连续词片段的词条数调小，以减少视频内容词表中进行索引查询的连续词数量，提高查询速度。本发明不对连续词片段的词条数进行限定，各种应用场景下连续词片段的词条数的具体数值均在本发明的保护范围内。

S1403、根据查询索引，在视频内容词库中确定连续词片段对应的初始纠正候选词；

其中，初始纠正候选词是从视频内容词库中查询到的与连续词片段的拼音相同或者笔画相似的词条。

本实施例通过步骤S1402构建得到连续词片段后，能够确定各个连续词片段对应的全拼信息、简拼信息以及笔画信息，接着通过对应的全拼信息、简拼信息或者笔画信息中至少一种信息，从视频内容词库中查询匹配到相应的词条，这些查询匹配到的词条为初始纠正候选词。

具体地，在一些实施例中，通过连续词片段对应的全拼信息或简拼信息来从视频内容词库中查询匹配到相应的词条。例如，获取到连续词片段对应的全拼信息为“chi’hua”，则将该全拼信息作为索引对象置于视频内容词库中进行查询，匹配到对应的词条为“池化”、“痴话”、“吃花”，这些匹配到的词条存储在步骤S1103中构建的视频内容词库中；同理，例如获取到连续词片段对应的简拼信息为“c’h”，则将该简拼信息作为索引对象置于视频内容词库中进行查询，匹配到对应的词条为“池化”、“痴话”、“吃花”、“才华”、“出货”等，这些匹配到的词条存储在步骤S1103中构建的视频内容词库中。以上通过全拼信息或者简拼信息匹配到的词条作为本发明实施例中的初始纠正候选词。

在另一些实施例中，通过连续词片段对应的笔画信息来从视频内容词库中查询匹配到相应的词条。例如，获取到的连续词片段对应的笔画信息为“点、点、提、横折钩、竖、竖弯钩’撇、竖、撇、竖弯钩”，则将该笔画信息作为索引对象置于视频内容词库中进行查询，匹配到笔画相同的词条，例如“池化”等，并将匹配到的词条作为本发明实施例中的初始纠正候选词。

另外，在一些实施例中，可以计算连续词片段的笔画信息与视频内容词库中各个词条之间的笔画相似度，将笔画相似度小于相似度阈值的词条作为初始纠正候选词，通过计算笔画相似度来查询初始纠正候选词，能够查询到字形相似的词条，相较于只匹配笔画相同的词条，本发明实施例能够查询得到更多字形相似的词条作为初始纠正候选词。

可选地，对于计算笔画相似度，可以通过计算连续词片段和视频内容词库中词条之间的编辑距离或杰卡德系数来实现。

其中，编辑距离(Edit Distance)：也称为Levenshtein距离，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将替换、插入、删除、增加等。通常来说，编辑距离越小，两个字符串的相似度越大。

示例性地，"kitten"和"sitting"这两个单词，由"kitten"转换为"sitting"需要的最少单字符编辑操作有：

(1)kitten→sitten(将kitten中的"k"替换为"s")；

(2)sitten→sittin(将sitten中的"e"替换为"i")；

(3)sittin→sitting(在sittin的最后增加"g")；

也就是说，将“kitten”转换成“sitting”，最少需要3次编辑操作，因此，这两个单词之间的编辑距离为3。

杰卡德系数(Jaccard similaritycoefficient)：又称为Jaccard相似系数(Jaccard similarity coefficient)，用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。对于给定的两个集合A和B，Jaccard系数则定义为A与B交集的大小与A与B并集的大小的比值。

本领域的技术人员应能理解，通过计算编辑距离或者杰卡德系数的方式来确定连续词片段与视频内容词库中词条之间的笔画相似度仅为举例，其他现有的或今后可能出现的笔画相似度计算方法如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。例如，还可以通过TF-IDF或词向量方法计算连续词片段与视频内容词库中词条之间的笔画相似度。

S1404、根据初始纠正候选词的置信度，确定目标纠正候选词；

其中，目标纠正候选词是用于对第一字幕信息中的错误字幕文本进行纠正替换的词条。本发明实施例通过获取初始纠正候选词的置信度，将置信度大于设定置信度阈值的初始纠正候选词确定为目标纠正候选词。

S1405、通过目标纠正候选词对第一字幕信息进行纠正，得到第二字幕信息。

本发明实施例在获取到准确的目标纠正候选词后，对第一字幕信息中的错误字幕文本进行纠正替换，得到包含目标纠正候选词的第二字幕信息。

在一些实施例中，步骤S1404采用以下至少之一种方式来实现：

通过先验知识构建置信度判定规则，根据置信度判定规则确定初始纠正候选词的置信度，并确定目标纠正候选词；或，

构建置信标记分类模型，根据置信标记分类模型确定初始纠正候选词的置信度，并确定目标纠正候选词。

其中，先验知识可以从视频标题、视频简介、视频内容描述、视频评论等文本语料中获取得到。

本发明实施例基于先验知识来确定目标纠正候选词，在该方法中，首先需要获取文本语料，该文本语料中包含大量准确字幕的文本，准确字幕的文本是指词条准确且词条位置准确。例如，文本语料中的一句字幕文本“池化操作是很有必要的”，这句话属于准确字幕；而文本语料中的一句字幕文本“赤化操作是很有必要的”，这里面的“赤化”属于错误词条，因此这句字幕不属于准确字幕；又如，文本语料中的一句字幕文本“很有必要池化操作是的”，这里面的“很有必要”这个词条的位置错误，因此该句字幕也不属于准确字幕。

应当理解的是，本发明实施例可以单独上述两种方式中的任一种来确定目标纠正候选词，可选地，还可以采用将上述两种方式相结合的方法来综合确定目标纠正候选词。

图15为本发明实施例提供的根据初始纠正候选词的置信度确定目标纠正候选词的第一流程图，具体地，通过先验知识构建置信度判定规则，根据置信度判定规则确定初始纠正候选词的置信度，并确定目标纠正候选词包括S1501-S1505：

S1501、确定初始纠正候选词的候选相似度；

其中，候选相似度是指初始纠正候选词与第一字幕信息中错误词条之间的相似度。候选相似度可采用上述编辑距离或者杰卡德系数的计算方式来确定。

S1502、确定初始纠正候选词在视频内容词库中的语言模型概率；

其中，由于初始纠正候选词是根据上述连续词片段在视频内容词库中查询得到的，因此，本发明实施例可以根据如表1所示的，在视频内容词库中存储的各个词条的出现概率，来确定初始纠正候选词的语言模型概率。

S1503、确定初始纠正候选词的候选词片段个数减少量；

其中，候选词片段个数减少量是指错误字幕文本与正确词条之间的词片段减少数。例如，对于一个四字词“水火不容”，在分词过程中可能被分成“水”+“火”+“不容”这三个词，此时，对于一个正确的四字词与错误的三个词之间的词片段减少数为2，因此，对于“水火不容”这个初始纠正候选词，其候选词片段个数减少量为2。

S1504、根据候选相似度、初始纠正候选词在所述视频内容词库中的语言模型概率以及候选词片段个数减少量，确定初始纠正候选词的置信度；

具体地，在本发明实施例中，初始纠正候选词的置信度的计算公式为：置信度＝x1*候选相似度+x2*初始纠正候选词在视频内容词库中的语言模型概率+x3*候选词片段个数减少量。

其中，x1、x2、x3均为超参数。

S1505、根据初始纠正候选词的置信度，将初始纠正候选词中满足第一预设条件的初始纠正候选词确定为目标纠正候选词。

其中，第一预设条件是指该初始纠正候选词的置信度大于预设的置信度阈值，且该初始纠正候选词的置信度是多个初始纠正候选词的置信度中的最高值。

本发明实施例在计算得到初始纠正候选词的置信度后，选取置信度最高且大于预设的置信度阈值的作为目标纠正候选词。

应当理解的是，预设的置信度阈值可根据应用需求动态调整，本发明不对置信度阈值的具体值进行限定，各种应用场景下置信度阈值均在本发明的保护范围内。

图16为本发明实施例提供的根据初始纠正候选词的置信度确定目标纠正候选词的第二流程图；具体地，构建置信标记分类模型，根据置信标记分类模型确定初始纠正候选词的置信度，并确定目标纠正候选词包括S1601-S1604：

S1601、对先验视频字幕信息进行标注，并根据标注结果构建训练语料；其中，训练语料的内容包括先验视频的标识、每个先验视频对应的先验视频字幕以及每个先验视频字幕对应的准确字幕；

其中，先验视频的标识、先验视频字幕以及先验视频字幕对应的准确字幕如表2所示。

表2

先验视频的标识	先验视频字幕	先验视频字幕对应的准确字幕
			视频1	错误字幕11	准确字幕11
视频1	错误字幕12	准确字幕12
			视频2	错误字幕21	准确字幕21
视频3	错误字幕31	准确字幕31
			……
视频v	错误字幕v1	准确字幕v1

在表2中，获取的示例性先验视频包括视频1、视频2以及视频3，其中，视频1中存在错误字幕11和错误字幕12，对应于该错误字幕11的准确字幕为准确字幕11，对应于该错误字幕12的准确字幕为准确字幕12；同理，视频2中的先验视频字幕为错误字幕21，视频2中先验视频字幕对应的准确字幕为准确字幕21；视频3中的先验视频字幕为错误字幕31，视频3中先验视频字幕对应的准确字幕为准确字幕31；

例如，对于先验视频的标识为“视频1”的视频中，先验视频字幕中的错误字幕11为“赤化处理很有必要”，该先验视频字幕对应的准确字幕11为“池化处理很有必要”。

S1602、对先验视频字幕信息进行第三分词，并根据第三分词的结果构建每个先验视频的纠正候选词列表；

本发明实施例通过第三分词确定先验视频字幕信息中的各个词条，可选地，本发明实施例可以采用如步骤S1403的方法获取上述先验视频字幕信息中各个词条对应的纠正候选词列表，该纠正候选词列表包括先验视频中所有词条的对应的纠正候选词。

S1603、将纠正候选词列表中的每个纠正候选词与准确字幕进行比对，根据比对结果对纠正候选词进行置信标记；

由于纠正候选词列表中包含了一个错误词条对应的多个纠正候选词，而通过表2所示的准确字幕，能够从纠正候选词列表中筛选出对应的准确的纠正候选词，然后将准确的纠正候选词的置信标记为1，并将剩余的错误的纠正候选词的置信标记为0。

S1604、根据置信标记的结果，确定初始纠正候选词的置信度，并确定目标纠正候选词。

本发明实施例在完成对纠正候选词列表中所有纠正候选词的置信标记后，训练得到置信标记分类模型，然后将初始纠正候选词输入该置信标记分类模型中，得到初始纠正候选词对应的置信度，最后将满足要求的初始纠正候选词确定为目标纠正候选词。

图17为本发明实施例提供的根据置信标记的结果，确定初始纠正候选词的置信度，并确定目标纠正候选词的流程图，具体地，步骤S1604包括S1701-S1704：

S1701、获取置信标记分类模型的训练数据；其中，训练数据包括以下至少之一：第一概率差、第二概率差、纠正候选词与对应的准确字幕之间的拼音相似度、纠正候选词与对应的准确字幕之间的字形相似度、纠正候选词与对应的准确字幕之间的字数差，以及纠正候选词与对应的准确字幕之间的词片段数差值；

其中，通用语料语言模型是指预先在大量的视频标题、视频简介、视频描述以及视频评论等文本语料上训练得到的语言模型，正如步骤S1103中所描述的，语言模型能够判断一句话的流畅程度，该通用语料语言模型能够代表对应字幕文本的标准流畅度。

第一概率差是指纠正候选词处于第一字幕信息中时，所述第一字幕信息的语言模型与通用语料语言模型之间的概率差；第二概率差是指纠正候选词处于第一字幕信息中时，第一字幕信息的语言模型与视频内容词库对应的语言模型之间的概率差。

本发明实施例将纠正候选词代入第一字幕信息中错误字幕的位置，通过计算当前第一字幕信息的语言模型与通用语料语言模型之间的第一概率差，能够确定第一字幕信息相较于通用语料语言模型的流畅度，因此，将第一概率差作为其中一种训练数据，能够在训练置信标记分类模型的时候对字幕文本的流畅度进行考量。

具体地，本发明实施例在计算第一概率差时，首先确定通用语料语言模型的概率，例如，通用语料语言模型中的一句字幕文本为“进行池化处理是十分必要的”，应该理解的是，该句“进行池化处理是十分必要的”属于正确字幕文本；假设，本发明实施例通过语音识别得到的第一字幕信息为“进行赤化处理是十分必要的”，其中“赤化”属于错误文本。而通过本发明实施例步骤S1403得到的初始纠正候选词包括“痴话”、“池化”、“吃花”，将上述初始纠正候选词分别替换第一字幕信息中的“赤化”，然后分别得到“进行痴话处理是十分必要的”、“进行池化处理是十分必要的”以及“进行吃花处理是十分必要的”这三句第一字幕信息，于是，计算上述三句替换错误字幕后的第一字幕信息的语言模型与通用语料语言模型之间的概率差，即为本发明实施例的第一概率差。

第二概率差是指纠正候选词处于所述第一字幕信息中时，所述第一字幕信息的语言模型与所述视频内容词库对应的语言模型之间的概率差。

本发明实施例将纠正候选词代入第一字幕信息中错误字幕的位置，通过计算当前第一字幕信息的语言模型与视频内容词库对应的语言模型之间的概率差，能够确定第一字幕信息相较于视频内容词库对应的语言模型的流畅度，因此，将第二概率差作为其中一种训练数据，能够在训练置信标记分类模型的时候进一步对字幕文本的流畅度进行考量。

本发明实施例将通用语料语言模型替换为视频内容词库的语言模型后，则计算第二概率差的过程与上述第一概率差的计算过程相同，因此，第二概率差的具体计算过程可以参见上述第一概率差的计算过程。

对于纠正候选词与对应的准确字幕之间的拼音相似度，例如纠正候选词为“痴话”、“池化”、“吃货”，而准确字幕为“池化”，此时可以逐一确定各个纠正候选词与准确字幕之间的拼音相似度。可选的，本发明实施例的拼音相似度可以包括全拼拼音的相似度和简拼拼音的相似度。

对于纠正候选词与对应的准确字幕之间的字形相似度，可以采用步骤S1403中描述的笔画相似度的计算方法来确定字形相似度，例如通过计算编辑距离或者计算杰卡德系数来确定字形相似度。

对于纠正候选词与对应的准确字幕之间的字数差，则直接将纠正候选词的字数减去准确字幕的字数得到。

对于纠正候选词与对应的准确字幕之间的词片段数差值，参照步骤S1503的描述，例如，准确字幕为“水火不容”，而纠正候选词为“水”、“火”以及“不容”，因此可以分别计算得到三个纠正候选词与准确字幕之间的词片段数差值为2。

S1702、根据训练数据，通过随机森林分类器训练得到置信标记分类模型；

本发明实施例的置信标记分类模型的训练过程如图4所示，其中，随机森林(RF，Random Forest)是通过集成学习的思想将多棵决策树集成的一种算法。它的基本单元是分类树(决策树)，而它的本质属于机器学习的一大分支——集成学习(EnsembleLearning)方法。随机森林算法中包括有多个分类树，每个分类树都是一个分类器，对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。示例性的，随机森林算法还会输出该分类结果的概率，概率是N棵分类树赞成该分类结果的分类树占全部分类树的比例。

示例性的，随机森林算法会随机地从目标正样本和目标未知样本中有放回的随机抽取i个样本，然后用j个特征维度将这i个样本分类，得到一个分类树。计算分类树中每个分类结果里正样本所占的比例，当正样本所占的比例大于一定阈值时，确定该分类结果对应的识别结果是正样本。

本发明实施例通过输入上述训练数据，经过如图4所示的训练过程，得到置信标记分类模型，该置信标记分类模型能够确定纠正候选词的置信度。

S1703、根据置信标记分类模型确定初始纠正候选词的置信度；

S1704、根据初始纠正候选词的置信度，将初始纠正候选词中满足第二预设条件的初始纠正候选词确定为目标纠正候选词。

其中，第二预设条件是指该初始纠正候选词的置信度大于预设的置信度阈值，且该初始纠正候选词的置信度是多个初始纠正候选词的置信度中的最高值。

本发明实施例在通过置信标记分类模型确定初始纠正候选词的置信度后，选取置信度最高且大于预设的置信度阈值的作为目标纠正候选词。

综上所述，通过本发明实施例提供的字幕纠正方法，在对视频数据中的音频流数据进行语音识别，得到第一字幕信息后；还对所述视频画面数据进行文本识别；并根据文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。本发明实施例基于对视频画面内容的文本识别来纠正语音识别到的字幕信息，能够将涉及视频画面内容的字幕信息进行纠正，提升语音识别到的字幕与视频内容之间的一致性，提高了字幕内容的准确性，有助于提高用户的观看体验。

基于上述字幕纠正方法，本发明实施例还提供了一种字幕显示方法，图5是本发明实施例的字幕显示方法的流程图，该方法可以由图1所示实施环境中的用户终端102执行，能够在用户终端102播放视频时，显示纠正后的准确字幕，该方法可以包括步骤S501和S502：

S501、获取视频数据以及第二字幕信息；

S502、在播放所述视频数据时，显示所述第二字幕信息；

其中，所述第二字幕信息根据步骤S201-步骤S204所描述的字幕纠正方法确定。

通过本发明实施例提供的字幕显示方法，能够在播放视频的过程中，显示对应音频的准确字幕，有助于提高用户的观看体验。

下面以PPT文档讲解视频为例，结合图9和图10中所示的显示界面，本发明实施例的字幕显示方法包括以下步骤：

S901、获取视频数据以及第二字幕信息；

S902、在播放所述视频数据时，显示所述第二字幕信息。

如图9所示，在该视频播放过程中，获取的视频数据即为图9所示的PPT文档界面900以及主播的讲解音频，PPT文档界面900显示的内容包括标题内容901、正文内容902以及字幕内容903，假设，主播正在针对当前PPT文档进行内容讲解，当主播的语音内容为“需要注意商标的申请时机”时，基于语音识别到的第一字幕信息为“需要注意上表的申请时机”，显然，该第一字幕信息中出现了错误字幕“上表”9031。

如图10所示，基于本发明实施例提供的字幕纠正方法，对PPT文档的标题内容1001以及正文内容1002的文字识别，能够对图9中的字幕内容903进行纠正，得到图10中显示的字幕内容1003。如图10所示，本发明实施例将图9中的错误字幕“上表”9031替换成正确字幕“商标”10031。

应当理解的是，本发明实施例在用户终端展示的界面为图10所示的纠正字幕后的显示界面。图9作为图10的对比图在此进行说明，为了保证用户的观看体验，图9中带有错误字幕的显示界面并不一定要在用户终端的界面中直接显示。

图6是本发明实施例提供的一种字幕纠正装置的逻辑框图，能实现上述字幕纠正方法中的步骤。如图6所示，该字幕纠正装置601可以包括：

第一获取模块6011，用于获取视频数据中的音频流数据和视频画面数据；

语音识别模块6012，用于对音频流数据进行语音识别，得到第一字幕信息；

文本识别模块6013，用于对视频画面数据进行文本识别；

纠正模块6014，用于根据文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。

综上所述，通过本发明实施例提供的字幕纠正装置，在对视频数据中的音频流数据进行语音识别，得到第一字幕信息后；还对所述视频画面数据进行文本识别；并根据文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息。本发明实施例基于对视频画面内容的文本识别来纠正语音识别到的字幕信息，能够将涉及视频画面内容的字幕信息进行纠正，提升语音识别到的字幕与视频内容之间的一致性，提高了字幕内容的准确性，有助于提高用户的观看体验。

图7是本发明实施例提供的一种字幕显示装置的逻辑框图，能实现上述字幕显示方法中的步骤。如图7所示，该字幕显示装置701可以包括：

第二获取模块7011，用于获取视频数据以及第二字幕信息；

显示模块7012，用于在播放所述视频数据时，显示所述第二字幕信息；

其中，所述第二字幕信息可以根据图6所示的字幕纠正装置确定。

综上所述，通过本发明实施例提供的字幕显示装置，在获取到视频数据以及第二字幕信息后，可以在播放所述视频数据时，显示所述第二字幕信息，本发明实施例能够在播放视频的过程中，显示对应音频的准确字幕，有助于提高用户的观看体验。

本发明实施例还提供了一种电子设备，该设备包括处理器以及存储器；

存储器，用于存储程序；

处理器执行程序以实现字幕纠正方法或字幕显示方法。本发明实施例的电子设备可以实现用户终端的功能，也可以实现服务器端的功能。该电子设备可以是任何一种可通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如个人计算机(Personal Computer，PC)、智能手机、个人数字助手(PersonalDigital Assistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等任意终端设备，下面结合附图对该电子设备进行介绍，参见图8，本发明实施例以终端设备为手机为例：

图8示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图8，手机包括：射频(Radio Frequency，简称RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity，简称WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图8中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在本发明实施例中，该终端设备所包括的处理器880具有以下功能：

获取视频数据中的音频流数据和视频画面数据；

对音频流数据进行语音识别，得到第一字幕信息；

对视频画面数据进行文本识别；

根据文本识别的结果对第一字幕信息进行纠正，得到第二字幕信息。

该终端设备所包括的处理器880还可以具有以下功能：

获取视频数据以及第二字幕信息；

在播放所述视频数据时，显示第二字幕信息；

其中，所述第二字幕信息根据上述的字幕纠正方法确定。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序，该程序被处理器执行完成如前述各个实施例所述的字幕纠正方法或字幕显示方法。

本发明实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的字幕纠正方法或字幕显示方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种字幕纠正方法，其特征在于，包括：

获取视频数据中的音频流数据和视频画面数据；

对所述音频流数据进行语音识别，得到第一字幕信息；

对所述视频画面数据进行文本识别；

2.根据权利要求1所述的一种字幕纠正方法，其特征在于，所述对所述视频画面数据进行文本识别，包括：

对所述视频画面数据中的画面内容进行文本识别，得到视频内容文本；

对所述视频内容文本进行第一分词，并从所述第一分词的结果中确定视频内容词表，所述视频内容词表中任意词条的词频大于预设阈值；

根据所述视频内容词表，构建视频内容词库；

根据所述视频内容词库，构建查询索引。

3.根据权利要求2所述的一种字幕纠正方法，其特征在于，所述根据所述视频内容词表，构建视频内容词库，包括：

确定所述视频内容词表中所有词条的语言模型概率；其中，所述语言模型概率包括所述视频内容词表中每个词条的一元概率和若干个词条之间的多元概率，所述若干个词条包括至少两个词条；

根据所述一元概率和所述多元概率，构建得到视频内容词库。

4.根据权利要求2所述的一种字幕纠正方法，其特征在于，所述根据所述视频内容词库，构建查询索引，包括：

对所述视频内容词库中词条进行拼音注音，得到所述词条的全拼信息和简拼信息；

根据所述全拼信息和该全拼信息对应的词条构建第一拼音索引；

根据所述简拼信息和该简拼信息对应的词条构建第二拼音索引。

5.根据权利要求2所述的一种字幕纠正方法，其特征在于，所述根据所述视频内容词库，构建查询索引，还包括：

对所述视频内容词库中词条进行笔画拆解，得到所述词条的笔画信息；

根据所述词条的笔画信息和该笔画信息对应的词条构建笔画索引。

6.根据权利要求2所述的一种字幕纠正方法，其特征在于，所述根据所述文本识别的结果对所述第一字幕信息进行纠正，得到第二字幕信息，包括：

对所述第一字幕信息进行第二分词；

根据所述第二分词的结果构建连续词片段；

根据所述查询索引，在所述视频内容词库中确定所述连续词片段对应的初始纠正候选词；

根据所述初始纠正候选词的置信度，确定目标纠正候选词；

通过所述目标纠正候选词对所述第一字幕信息进行纠正，得到第二字幕信息。

7.根据权利要求6所述的一种字幕纠正方法，其特征在于，所述根据所述初始纠正候选词的置信度，确定目标纠正候选词，至少包括以下步骤之一：

通过先验知识构建置信度判定规则，根据所述置信度判定规则确定所述初始纠正候选词的置信度，并确定目标纠正候选词；

构建置信标记分类模型，根据所述置信标记分类模型确定所述初始纠正候选词的置信度，并确定目标纠正候选词。

8.根据权利要求7所述的一种字幕纠正方法，其特征在于，所述通过先验知识构建置信度判定规则，根据所述置信度判定规则确定所述初始纠正候选词的置信度，并确定目标纠正候选词，包括：

确定所述初始纠正候选词的候选相似度；

确定所述初始纠正候选词在所述视频内容词库中的语言模型概率；

确定所述初始纠正候选词的候选词片段个数减少量；

根据所述候选相似度、所述初始纠正候选词在所述视频内容词库中的语言模型概率以及所述候选词片段个数减少量，确定所述初始纠正候选词的置信度；

根据所述初始纠正候选词的置信度，将所述初始纠正候选词中满足第一预设条件的初始纠正候选词确定为目标纠正候选词。

9.根据权利要求7所述的一种字幕纠正方法，其特征在于，所述通过构建置信标记分类模型，根据所述置信标记分类模型确定所述初始纠正候选词的置信度，并确定目标纠正候选词，包括：

对先验视频字幕信息进行标注，并根据标注结果构建训练语料；其中，所述训练语料的内容包括先验视频的标识、每个先验视频对应的先验视频字幕以及每个先验视频字幕对应的准确字幕；

对所述先验视频字幕信息进行第三分词，并根据所述第三分词的结果构建每个先验视频的纠正候选词列表；

将所述纠正候选词列表中的每个纠正候选词与所述准确字幕进行比对，并根据比对结果对所述纠正候选词进行置信标记；

根据所述置信标记的结果，确定所述初始纠正候选词的置信度，并确定目标纠正候选词。

10.根据权利要求9所述的一种字幕纠正方法，其特征在于，所述根据所述置信标记的结果，确定所述初始纠正候选词的置信度，并确定目标纠正候选词，包括：

获取置信标记分类模型的训练数据；其中，所述训练数据包括以下至少之一：所述纠正候选词与对应的准确字幕之间的拼音相似度、所述纠正候选词与对应的准确字幕之间的字形相似度、所述纠正候选词与对应的准确字幕之间的字数差，以及所述纠正候选词与对应的准确字幕之间的词片段数差值、第一概率差以及第二概率差；

根据所述训练数据，通过随机森林分类器训练得到置信标记分类模型；

根据所述置信标记分类模型确定所述初始纠正候选词的置信度；

根据所述初始纠正候选词的置信度，将所述初始纠正候选词中满足第二预设条件的初始纠正候选词确定为目标纠正候选词；

其中，所述第一概率差为所述纠正候选词处于所述第一字幕信息中时，所述第一字幕信息的语言模型与通用语料语言模型之间的概率差；

所述第二概率差为所述纠正候选词处于所述第一字幕信息中时，所述第一字幕信息的语言模型与所述视频内容词库对应的语言模型之间的概率差。

11.一种字幕显示方法，其特征在于，包括：

获取视频数据以及第二字幕信息；

在播放所述视频数据时，显示所述第二字幕信息；

其中，所述第二字幕信息根据权利要求1-10中任一项所述的字幕纠正方法获得。

12.一种字幕纠正装置，其特征在于，包括：

文本识别模块，用于对所述视频画面数据进行文本识别；

13.一种字幕显示装置，其特征在于，包括：

第二获取模块，用于获取视频数据以及第二字幕信息；

其中，所述第二字幕信息根据权利要求12中所述的字幕纠正装置获得。

14.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-10或11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-10或11中任一项所述的方法。