CN115186655A

CN115186655A - 基于深度学习的文字语义识别方法、系统、介质及设备

Info

Publication number: CN115186655A
Application number: CN202210800582.6A
Authority: CN
Inventors: 陈强
Original assignee: Chongqing Ruanjiang Turing Artificial Intelligence Technology Co ltd
Current assignee: Chongqing Ruanjiang Turing Artificial Intelligence Technology Co ltd
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-14

Abstract

本发明涉及一种基于深度学习的文字语义识别方法、系统、介质及设备，通过对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像识别结果作为单词的识别结果。本发明满足对视频流中的单词进行语义识别，同时将视频流中的目标图像进行获取，将目标图像作为单词的识别结果，帮助使用者对单词进行识别。

Description

基于深度学习的文字语义识别方法、系统、介质及设备

技术领域

本发明涉及语义识别技术领域，具体是一种基于深度学习的文字语义识别方法、系统、介质及设备。

背景技术

观看外语电影是学习语言的一个重要途径，然而目前并没有便捷功能让视频充分发挥这个功能。在观看外语电影的过程中，经常会遇到一些不认识的单词，现有技术中，人们如果想要通过看视频学习外语，只能自己手动记录一些生词，或者通过另外查询词典等工具获取生词的语义并保存起来以备以后复习。不能有效利用视频既有声音又有画面的这一特性帮助用户记单词。用户手动记录单词，首先是很不方便，其次想要回顾时也只能对着枯燥的单词来复习，找不到单词所在的视频片段，使得单词的学习很枯燥。这就把单词和视频分隔开来，没有做到有效结合。

发明内容

有鉴于此，本发明的目的是提供一种基于深度学习的文字语义识别方法、系统、介质及设备，能够解决现有技术中无法通过视频、图像等信息对语义进行识别的技术问题。

为了实现上述目的，本发明采用了如下技术方案：

本发明的一种基于深度学习的文字语义识别方法，包括步骤：

获取视频流、视频流中的字幕信息；

对所述字幕信息进行分词处理，获得单词，并从所述视频流中提取与所述单词共同存在的目标图像队列，所述图像队列包括一帧或者多帧目标图像；

根据预先建立的图像识别模型对所述目标图像进行识别，获得图像识别结果；

将所述图像识别结果与所述单词进行匹配，并在所述图像识别结果与所述单词匹配的情况下，将所述图像识别结果作为所述单词的识别结果。

在本发明的一实施例中，获取视频流中的字幕信息，包括：

获取包括文字特征的训练数据集；

根据所述训练数据集对预先设置的人工神经网络进行训练，获得文字识别模型；

从所述视频流中获取图像，并对所述图像的目标区域进行截取，获得字幕图像；

将所述字幕图像输入至所述文字识别模型中，获得字幕信息。

在本发明的一实施例中，从所述视频流中提取与所述单词共同存在的目标图像队列，包括：

在时间轴上将所述视频流展开，获得图像队列；

将所述图像队列中的图像输入至所述文字识别模型中，获得包含所述单词的目标图像；

将所述目标图像进行聚类，获得所述目标图像队列。

在本发明的一实施例中，根据预先建立的图像识别模型对所述目标图像进行识别，获得图像识别结果：

提取所述目标图像的图像轮廓特征；

将所述图像轮廓特征输入至所述图像识别模型中，获得图像识别结果。

在本发明的一实施例中，提取所述目标图像的图像轮廓特征，包括：

获取所述目标图像的RGB通道信息，根据所述RGB通道信息将所述目标图像转换为灰度图像，转换公式如下：

GRAY(A_i)＝(R^2.2×0.2937+G^2.2×0.6274+B^2.2×0.0753)^1/2.2

其中，R为像素点A_i的红色值，G为像素点A_i的绿色值，B为像素点A_i的蓝色值；

计算任意两个相邻的像素点A_i和A_i-1之间的灰度差值GRAY(A_i)-GRAY(A_i-1)；

当灰度差值GRAY(A_i)-GRAY(A_i-1)>α时，将像素点A_i和A_i-1作为轮廓像素点；

将轮廓像素点合并，获得所述图像轮廓特征。

在本发明的一实施例中，所述图像识别模型的建立步骤包括：

获取包括图像轮廓特征的图像模板；

利用仿射矩阵对所述图像模板进行仿射变换，仿射变换的方式包括旋转、缩放、随机裁剪、平移运算；

以经过仿射变换后的图像模板建立训练数据集；

根据所述训练数据集对预设设置的人工神经网络进行训练，获得图像识别模型。

在本发明的一实施例中，将所述图像识别结果作为所述单词的识别结果之后，还包括：

将所述图像识别结果与所述单词进行关联，并生成包括所述图像识别结果与所述单词的映射数据表；

获取新的单词，将所述新的单词与所述映射数据表中的单词匹配时，将所述单词的图像识别结果输出，并作为所述新的单词的图像识别结果。

本发明还提供一种文字语义识别系统，包括：

采集模块，用于获取视频流、视频流中的字幕信息；

提取模块，用于对所述字幕信息进行分词处理，获得单词，并从所述视频流中提取与所述单词共同存在的目标图像队列，所述图像队列包括一帧或者多帧目标图像；

识别模块，用于根据预先建立的图像识别模型对所述目标图像进行识别，获得图像识别结果；

匹配模块，用于将所述图像识别结果与所述单词进行匹配，并在所述图像识别结果与所述单词匹配的情况下，将所述图像队列中的图像作为所述单词的识别结果。

本发明还提供一种存储介质，其中存储有计算机程序，所述计算机程序被处理器加载执行时，实现如上所述的一种基于深度学习的文字语义识别方法。

本发明还提供一种电子设备，包括：处理器及存储器；其中，所述存储器用于存储计算机程序；所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如上所述的一种基于深度学习的文字语义识别方法。

本发明的有益效果是：本发明的一种基于深度学习的文字语义识别方法、系统、介质及设备，通过对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像识别结果作为单词的识别结果。本发明满足对视频流中的单词进行语义识别，同时将视频流中的目标图像进行获取，将目标图像作为单词的识别结果，帮助使用者对单词进行识别。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的一实施例中的一种基于深度学习的文字语义识别方法的流程示意图；

图2为本发明的一实施例中的一种基于深度学习的文字语义识别系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图1所示：本实施例的一种基于深度学习的文字语义识别方法，包括步骤：

S110.获取视频流、视频流中的字幕信息；

视频流是指视频数据的传输，例如，它能够被作为一个稳定的和连续的流通过网络处理。因为流动，客户机浏览器或插件能够在整个文件被传输完成前显示多媒体数据。视频流技术基于2密钥技术，视频译码技术和可升级的视频分发技术发展。

一般来说，视频流中的字幕信息应该是与视频画面相互独立，通过时间轴的对应关系完成匹配，但是也有一些视频直接将字幕嵌入至图像中，成为图像中的一部分。针对这两种情况，如果是独立字幕，则直接提取字幕信息，并获取其中的文字；如果字幕是嵌入至图像中，则采用图像识别，获得字幕信息。

S120.对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；

在步骤S120中，通过现有的分词算法对字幕信息进行分词，从而将字符串分解为一个或者多个单词，常见的分词算法包括：基于词典进行greedy匹配(即贪心法)、基于语言模型的识别、基于统计机器学习等。

此外，本实施例中视频流中的目标图像与字幕的对应关系也包括两种情况，一是字幕信息与图像独立，因此可以直接将根据字幕信息与图像之间的对应关系，获取目标图像；但是如果字幕信息嵌入在图像之中，则需要通过文字识别，得到对应的目标单词与图像之间的对应关系。

S130.根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；

S140.将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像识别结果作为单词的识别结果。

在步骤S130和步骤S140中，图像识别结果由预设的锚框进行标注，与单词匹配的多帧图像中，均通过锚框进行标注，且一般为多帧连续的图像，可以进行保存然后进行回放。

在本发明的一实施例中，获取视频流中的字幕信息，包括步骤：

S210.获取包括文字特征的训练数据集；

S220.根据训练数据集对预先设置的人工神经网络进行训练，获得文字识别模型；

S230.从视频流中获取图像，并对图像的目标区域进行截取，获得字幕图像；

S240.将字幕图像输入至文字识别模型中，获得字幕信息。

本实施例中，主要针对字幕信息嵌入至图像中的情况，将字幕从图像信息转换为文字信息，然后进行保存。本实施例中用到的人工神经网络为yolov5网络，本实施例中，将yolov5网络中的neck网络的底层，增加一个反卷积层，从而更加有利于对文字的图像特征进行归类。

在本发明的一实施例中，从视频流中提取与单词共同存在的目标图像队列，包括：

S310.在时间轴上将视频流展开，获得图像队列；

本实施例中的时间轴为视频流进行播放时的时间轴，图像队列中包含视频流的每一帧图像，以30FPS的视频为例，每一秒的视频中包含30帧图像。

S320.将图像队列中的图像输入至文字识别模型中，获得包含单词的目标图像；

S330.将目标图像进行聚类，获得目标图像队列。

本实施例中，聚类便是指以中心时间点为基准，对目标图像进行聚类，中心时间点为所有目标图像的时间信息的平均值，当其中一帧目标图像的时间距离中心时间点太远时，一般认为这一帧图像不属于该目标图像队列。

在本发明的一实施例中，根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果：

S410.提取目标图像的图像轮廓特征；

S420.将图像轮廓特征输入至图像识别模型中，获得图像识别结果。

本实施例中同样地，基于yolov5网络训练图像识别模型，然后对目标图像进行预处理获得轮廓特征后，再对目标图像进行识别，识别结果由yolov5网络中自带的锚框进行标注。

在本发明的一实施例中，提取目标图像的图像轮廓特征，包括：

S510.获取目标图像的RGB通道信息，根据RGB通道信息将目标图像转换为灰度图像，转换公式如下：

GRAY(A_i)＝(R^2.2×0.2937+G^2.2×0.6274+B^2.2×0.0753)^1/2.2

S520.计算任意两个相邻的像素点A_i和A_i-1之间的灰度差值GRAY(A_i)-GRAY(A_i-1)；

S530.将轮廓像素点合并，获得图像轮廓特征。

本实施例中，采用求像素点的灰度梯度值的方式获取轮廓，一般认为轮廓像素点的灰度值与其他像素点的灰度值相差较大，因此采用减法表示相邻像素点的灰度值差距，如果差距较大，则将对应的像素点作为轮廓像素点。

在本发明的一实施例中，图像识别模型的建立步骤包括：

S610.获取包括图像轮廓特征的图像模板；

S620.利用仿射矩阵对图像模板进行仿射变换，仿射变换的方式包括旋转、缩放、随机裁剪、平移运算；

S630.以经过仿射变换后的图像模板建立训练数据集；

S640.根据训练数据集对预设设置的人工神经网络进行训练，获得图像识别模型。

在本发明的一实施例中，将图像识别结果作为单词的识别结果之后，还包括：

S710.将图像识别结果与单词进行关联，并生成包括图像识别结果与单词的映射数据表；

S720.获取新的单词，将新的单词与映射数据表中的单词匹配时，将单词的图像识别结果输出，并作为新的单词的图像识别结果。

本实施例中，由于视频播放速度较快，而用户在许需要学习对应单词时，一般难以等待较长时间，为了保持识别的速度，在图像识别模型达到一定精度后，便采用将图像识别结果与单词关联，建立映射表的方式，进行查表识别。

本实施例中的一种基于深度学习的文字语义识别方法，通过对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像识别结果作为单词的识别结果。本发明满足对视频流中的单词进行语义识别，同时将视频流中的目标图像进行获取，将目标图像作为单词的识别结果，帮助使用者对单词进行识别。

如图2所示，本发明还提供一种文字语义识别系统，包括：

采集模块，用于获取视频流、视频流中的字幕信息；

提取模块，用于对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；

识别模块，用于根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；

匹配模块，用于将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像队列中的图像作为单词的识别结果。

本实施例中的一种文字语义识别系统，通过对字幕信息进行分词处理，获得单词，并从视频流中提取与单词共同存在的目标图像队列，图像队列包括一帧或者多帧目标图像；根据预先建立的图像识别模型对目标图像进行识别，获得图像识别结果；将图像识别结果与单词进行匹配，并在图像识别结果与单词匹配的情况下，将图像识别结果作为单词的识别结果。本发明满足对视频流中的单词进行语义识别，同时将视频流中的目标图像进行获取，将目标图像作为单词的识别结果，帮助使用者对单词进行识别。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

本实施例还提供一种电子终端，包括：处理器及存储器；

存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以使终端执行本实施例中任一项方法。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的文字语义识别方法：包括步骤；

获取视频流和视频流中的字幕信息；

2.根据权利要求1所述的一种基于深度学习的文字语义识别方法，其特征在于：获取视频流中的字幕信息，包括：

获取包括文字特征的训练数据集；

3.根据权利要求2所述的一种基于深度学习的文字语义识别方法，其特征在于：从所述视频流中提取与所述单词共同存在的目标图像队列，包括：

在时间轴上将所述视频流展开，获得图像队列；

将所述目标图像进行聚类，获得所述目标图像队列。

4.根据权利要求1所述的一种基于深度学习的文字语义识别方法，其特征在于：根据预先建立的图像识别模型对所述目标图像进行识别，获得图像识别结果：

提取所述目标图像的图像轮廓特征；

5.根据权利要求4所述的一种基于深度学习的文字语义识别方法，其特征在于：提取所述目标图像的图像轮廓特征，包括：

GRAY(A_i)＝(R^2.2×0.2937+G^2.2×0.6274+B^2.2×0.0753)^1/2.2

将轮廓像素点合并，获得所述图像轮廓特征。

6.根据权利要求1所述的一种基于深度学习的文字语义识别方法，其特征在于：所述图像识别模型的建立步骤包括：

获取包括图像轮廓特征的图像模板；

以经过仿射变换后的图像模板建立训练数据集；

7.根据权利要求1所述的一种基于深度学习的文字语义识别方法，其特征在于：将所述图像识别结果作为所述单词的识别结果之后，还包括：

8.一种文字语义识别系统，其特征在于，包括：

采集模块，用于获取视频流、视频流中的字幕信息；

9.一种存储介质，其中存储有计算机程序，其特征在于，所述计算机程序被处理器加载执行时，实现如权利要求1至7中任一所述的一种基于深度学习的文字语义识别方法。

10.一种电子设备，其特征在于，包括：处理器及存储器；其中，所述存储器用于存储计算机程序；所述处理器用于加载执行所述计算机程序，以使所述电子设备执行如权利要求1至7中任一所述的一种基于深度学习的文字语义识别方法。