CN109299682A - 视频文字检测方法、装置和计算机可读存储介质 - Google Patents

视频文字检测方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109299682A
CN109299682A CN201811065276.2A CN201811065276A CN109299682A CN 109299682 A CN109299682 A CN 109299682A CN 201811065276 A CN201811065276 A CN 201811065276A CN 109299682 A CN109299682 A CN 109299682A
Authority
CN
China
Prior art keywords
image block
text
score value
described image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811065276.2A
Other languages
English (en)
Inventor
周多友
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811065276.2A priority Critical patent/CN109299682A/zh
Priority to PCT/CN2018/117715 priority patent/WO2020052085A1/zh
Publication of CN109299682A publication Critical patent/CN109299682A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开一种视频文字检测方法、视频文字检测装置、视频文字检测硬件装置和计算机可读存储介质。其中,该视频文字检测方法包括对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。本公开实施例首先对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,然后根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息,可以提高文字检测准确率。

Description

视频文字检测方法、装置和计算机可读存储介质
技术领域
本公开涉及一种信息处理技术领域,特别是涉及一种视频文字检测方法、装置和计算机可读存储介质。
背景技术
近年来,随着多媒体技术和计算机网络的飞速发展,数字视频的容量正以惊人的速度增长。这样,从数字视频中抓取到的图像中往往包含有重要的文字信息,这在基于文字内容的视频数据库检索中起到重要的作用。即在一定程度上便于视频主要内容进行简练描述和说明,或便于视频分类,或便于非法视频的鉴定等。
视频中经常包含有文字,比如广告、介绍,或者视频中出现的标识牌上文字等,在判断视频中是否有文字时,在现在技术中,常常是通过抽取视频中的每一帧进行光学字符识别(Optical Character Recognition,OCR)识别。但是,当图像中包含的文字较小的时候,OCR识别效果并不理想,准确率也不够高。
发明内容
本公开解决的技术问题是提供一种视频文字检测方法,以至少部分地解决OCR在识别较小文字的时识别效果不理想且识别准确率低的技术问题。此外,还提供一种视频文字检测装置、视频文字检测硬件装置、计算机可读存储介质和视频文字检测终端。
为了实现上述目的,根据本公开的一个方面,提供以下技术方案:
一种视频文字检测方法,包括:
对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;
根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。
进一步的,所述根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息的步骤,包括:
对各图像块进行文字检测;
若检测出任一图像块中包含文字信息,则确定所述待检测视频中包含文字信息。
进一步的,所述方法还包括:
对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本;
根据是否包含文字信息对所述训练样本进行标注;
采用深度学习分类算法对所述标注后的训练样本进行训练学习,得到图像分类器。
进一步的,所述对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块的步骤,包括:
将所述待检测图片输入所述图像分类器,通过所述图像分类器对所述待检测图片进行分块,得到至少一个图像块;
所述方法还包括:
通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果。
进一步的,所述通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果的步骤,包括:
通过所述图像分类器对各图像块进行打分,得到各图像块的分值;
根据所述分值确定所述图像块的文字检测结果。
进一步的,所述根据所述分值确定所述图像块的文字检测结果的步骤,包括:
若所述分值超过预设分值,则确定所述图像块中包含文字信息;或,从所述分值中选取最大分值,若所述最大分值超过预设分值,则确定所述图像块中包含文字信息;或,若所述分值小于预设分值,则确定所述图像块中包含文字信息;或,从所述分值中选取最小分值,若所述最小分值小于预设分值,则确定图像块中包含文字信息。
进一步的,所述通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果的步骤,包括:
通过所述图像分类器对各图像块进行文字检测,并通过所述图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息;
将输出结果作为所述图像块的文字检测结果。
为了实现上述目的,根据本公开的又一个方面,还提供以下技术方案:
一种视频文字检测装置,包括:
图片分块模块,用于对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;
文字确定模块,用于根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。
进一步的,所述文字确定模块具体用于:对各图像块进行文字检测;若检测出任一图像块中包含文字信息,则确定所述待检测视频中包含文字信息。
进一步的,所述装置还包括:
分类器训练模块,用于对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本;根据是否包含文字信息对所述训练样本进行标注;采用深度学习分类算法对所述标注后的训练样本进行训练学习,得到图像分类器。
进一步的,所述图片分块模块具体用于:将所述待检测图片输入所述图像分类器,通过所述图像分类器对所述待检测图片进行分块,得到至少一个图像块;
所述装置还包括:
文字检测模块,用于通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果。
进一步的,所述文字检测模块包括:
打分单元,用于通过所述图像分类器对各图像块进行打分,得到各图像块的分值;
文字检测单元,用于根据所述分值确定所述图像块的文字检测结果。
进一步的,所述文字检测单元具体用于:
若所述分值超过预设分值,则确定图像块中包含文字信息;或,从所述分值中选取最大分值,若所述最大分值超过预设分值,则确定图像块中包含文字信息;或,若所述分值小于预设分值,则确定图像块中包含文字信息;或,从所述分值中选取最小分值,若所述最小分值小于预设分值,则确定图像块中包含文字信息。
进一步的,所述文字检测模块具体用于:通过所述图像分类器对各图像块进行文字检测,并通过所述图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息;将输出结果作为所述图像块的文字检测结果。
为了实现上述目的,根据本公开的又一个方面,还提供以下技术方案:
一种视频文字检测硬件装置,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器执行时实现上述任一视频文字检测方法技术方案中所述的步骤。
为了实现上述目的,根据本公开的又一个方面,还提供以下技术方案:
一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行上述任一视频文字检测方法技术方案中所述的步骤。
为了实现上述目的,根据本公开的又一个方面,还提供以下技术方案:
一种视频文字检测终端,包括上述任一视频文字检测装置。
本公开实施例提供一种视频文字检测方法、视频文字检测装置、视频文字检测硬件装置、计算机可读存储介质和视频文字检测终端。其中,该视频文字检测方法包括对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。本公开实施例首先对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,然后根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息,可以提高文字检测准确率。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1a为根据本公开一个实施例的视频文字检测方法的流程示意图;
图1b为根据本公开另一个实施例的视频文字检测方法的流程示意图;
图1c为根据本公开另一个实施例的视频文字检测方法的流程示意图;
图2a为根据本公开一个实施例的视频文字检测的装置的结构示意图;
图2b为根据本公开另一个实施例的视频文字检测装置的结构示意图;
图3为根据本公开一个实施例的视频文字检测硬件装置的结构示意图;
图4为根据本公开一个实施例的计算机可读存储介质的结构示意图;
图5为根据本公开一个实施例的视频文字检测终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
为了解决OCR在识别较小文字的时识别效果不理想且识别准确率低的技术问题,本公开实施例提供一种视频文字检测方法。如图1a所示,该视频文字检测方法主要包括如下步骤S1至步骤S2。其中:
步骤S1:对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块。
其中,待检测图片可以为一帧或多帧,当待检测图片为多帧时,分别对待检测图片进行分块。
其中,图像块的个数或图像块的尺寸具体可根据待检测图片的尺寸确定。具体的,为了提高文字检测准确率,可预先对多种不同尺寸的图片进行分块,并进行文字检测,根据文字检测准确率确定最佳的分块个数或尺寸。
步骤S2:根据对图像块的文字检测结果确定待检测视频中是否包含文字信息。
其中,文字信息包含但不限于数字、汉字和外文中的任意一种或及其组合。
具体的,对于包含较小文字信息的待检测图片,通过分块可以放大这些文字信息,从而提高文字检测准确率。
本实施例通过对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,然后根据对图像块的文字检测结果确定待检测视频中是否包含文字信息,可以提高文字检测准确率。
在一个可选的实施例中,如图1b所示,步骤S2包括:
S21:对各图像块进行文字检测。
本步骤可采用现有技术中的文字检测方法对图像块进行文字检测,由于对待检测图片进行了分块,可能会导致图像块中包含的文字不太完整,例如,检测出的图像块中可能只包含一个文字的一部分或者一段文字的一部分,此时判定为该图像块包含文字信息。
S22:若检测出任一图像块中包含文字信息,则确定待检测视频中包含文字信息。
本实施例通过对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,并对各图像块进行文字检测,若检测出任一图像块中包含文字信息,则确定待检测视频中包含文字信息,由于分块可以放大待检测图片中包含的文字信息,从而提高文字检测准确率。
在一个可选的实施例中,如图1c所示,本实施例的方法还包括:
S3:对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本。
S4:根据是否包含文字信息对训练样本进行标注。
具体的,在训练之前,为区分不同的图像块即包含文字信息的图像块和未包含文字信息的图像块,需要对每个图像块进行标注。例如,将包含文字信息的图像块标注1,将未包含文字信息的图像块标注0。
S5:采用深度学习分类算法对标注后的训练样本进行训练学习,得到图像分类器。
其中,可采用的深度学习分类算法包括但不限于以下任意一种:朴素贝叶斯算法、人工神经网络算法、遗传算法、K最近邻(K-NearestNeighbor,KNN)分类算法、聚类算法等。
其中,通过该实施例得到图像分类器,不仅具有自动分块功能,而且可以直接判断出各图像块是否包含文字信息。
进一步的,基于图1c所示,步骤S1具体包括:
将待检测图片输入图像分类器,通过图像分类器对待检测图片进行分块,得到至少一个图像块。
本实施例的方法还包括:
s6:通过图像分类器对图像块进行文字检测,并根据图像分类器的分类结果确定图像块的文字检测结果。
进一步的,步骤S6具体包括:
S61:通过图像分类器对各图像块进行打分,得到各图像块的分值。
其中,分值可以为归一化后的分值,例如为0-100或0-1中的任意值。
S62:根据分值确定图像块的文字检测结果。
进一步的,步骤S62具体包括:
若分值超过预设分值,则确定图像块中包含文字信息;或,从分值中选取最大分值,若最大分值超过预设分值,则确定图像块中包含文字信息;或,若分值小于预设分值,则确定图像块中包含文字信息;或,从分值中选取最小分值,若最小分值小于预设分值,则确定图像块中包含文字信息。
关于本步骤,可预先设置打分规则,例如分值越大则表征包含文字信息的可能性就越高,或者分值越小则表征包含文字信息的可能性就越高。基于上述设定的打分规则,确定图像块中是否包含文字信息。
进一步的,步骤S6具体包括:
S63:通过图像分类器对各图像块进行文字检测,并通过图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息。
S64:将输出结果作为图像块的文字检测结果。
本领域技术人员应能理解,在上述各个实施例的基础上,还可以进行明显变型(例如,对所列举的模式进行组合)或等同替换。
在上文中,虽然按照上述的顺序描述了视频文字检测方法实施例中的各个步骤,本领域技术人员应清楚,本公开实施例中的步骤并不必然按照上述顺序执行,其也可以倒序、并行、交叉等其他顺序执行,而且,在上述步骤的基础上,本领域技术人员也可以再加入其他步骤,这些明显变型或等同替换的方式也应包含在本公开的保护范围之内,在此不再赘述。
下面为本公开装置实施例,本公开装置实施例可用于执行本公开方法实施例实现的步骤,为了便于说明,仅示出了与本公开实施例相关的部分,具体技术细节未揭示的,请参照本公开方法实施例。
为了解决如何提高用户体验效果的技术问题,本公开实施例提供一种视频文字检测装置。该装置可以执行上述视频文字检测方法实施例中的步骤。如图2a所示,该装置主要包括:图片分块模块21和文字确定模块22;其中,图片分块模块21用于对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;文字确定模块22用于根据对图像块的文字检测结果确定待检测视频中是否包含文字信息。
其中,待检测图片可以为一帧或多帧,当待检测图片为多帧时,分别对待检测图片进行分块。
其中,图像块的个数或图像块的尺寸具体可根据待检测图片的尺寸确定。具体的,为了提高文字检测准确率,可预先对多种不同尺寸的图片进行分块,并进行文字检测,根据文字检测准确率确定最佳的分块个数或尺寸。
其中,文字信息包含但不限于数字、汉字和外文中的任意一种或及其组合。
具体的,对于包含较小文字信息的待检测图片,通过分块可以放大这些文字信息,从而提高文字检测准确率。
本实施例通过图片分块模块21对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,然后通过文字确定模块22根据对图像块的文字检测结果确定待检测视频中是否包含文字信息,可以提高文字检测准确率。
在一个可选的实施例中,基于图2a,文字确定模块22具体用于:对各图像块进行文字检测;若检测出任一图像块中包含文字信息,则确定待检测视频中包含文字信息。
文字确定模块22可采用现有技术中的文字检测方法对图像块进行文字检测,由于对待检测图片进行了分块,可能会导致图像块中包含的文字不太完整,例如,检测出的图像块中可能只包含一个文字的一部分或者一段文字的一部分,此时判定为该图像块包含文字信息。
本实施例通过图片分块模块21对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块,并通过文字确定模块22对各图像块进行文字检测,若检测出任一图像块中包含文字信息,则确定待检测视频中包含文字信息,由于分块可以放大待检测图片中包含的文字信息,从而提高文字检测准确率。
在一个可选的实施例中,如图2b所示,本实施例的装置还包括:分类器训练模块23;其中,分类器训练模块23用于对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本;根据是否包含文字信息对训练样本进行标注;采用深度学习分类算法对标注后的训练样本进行训练学习,得到图像分类器。
具体的,分类器训练模块23在训练之前,为区分不同的图像块即包含文字信息的图像块和未包含文字信息的图像块,需要对每个图像块进行标注。例如,将包含文字信息的图像块标注1,将未包含文字信息的图像块标注0。
其中,可采用的深度学习分类算法包括但不限于以下任意一种:朴素贝叶斯算法、人工神经网络算法、遗传算法、K最近邻(K-NearestNeighbor,KNN)分类算法、聚类算法等。
其中,通过该实施例得到图像分类器,不仅具有自动分块功能,而且可以直接判断出各图像块是否包含文字信息。
进一步的,基于图2b所示,图片分块模块21具体用于:将待检测图片输入图像分类器,通过图像分类器对待检测图片进行分块,得到至少一个图像块;
本实施例的装置还包括:文字检测模块24;其中,文字检测模块24用于通过图像分类器对图像块进行文字检测,并根据图像分类器的分类结果确定图像块的文字检测结果。
进一步的,文字检测模块24包括:打分单元241和文字检测单元242;其中,打分单元241用于通过图像分类器对各图像块进行打分,得到各图像块的分值;文字检测单元242用于根据分值确定图像块的文字检测结果。
其中,分值可以为归一化后的分值,例如为0-100或0-1中的任意值。
进一步的,文字检测单元242具体用于:若分值超过预设分值,则确定图像块中包含文字信息;或,从分值中选取最大分值,若最大分值超过预设分值,则确定图像块中包含文字信息;或,若分值小于预设分值,则确定图像块中包含文字信息;或,从分值中选取最小分值,若最小分值小于预设分值,则确定图像块中包含文字信息。
关于文字检测单元242,可预先设置打分规则,例如分值越大则表征包含文字信息的可能性就越高,或者分值越小则表征包含文字信息的可能性就越高。基于上述设定的打分规则,确定图像块中是否包含文字信息。
进一步的,文字检测模块24具体用于:通过图像分类器对各图像块进行文字检测,并通过图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息;将输出结果作为图像块的文字检测结果。
有关视频文字检测装置实施例的工作原理、实现的技术效果等详细说明可以参考前述视频文字检测方法实施例中的相关说明,在此不再赘述。
图3是图示根据本公开的实施例的视频文字检测硬件装置的硬件框图。如图3所示,根据本公开实施例的视频文字检测硬件装置30包括存储器31和处理器32。
该存储器31用于存储非暂时性计算机可读指令。具体地,存储器31可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器32可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制视频文字检测硬件装置30中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器32用于运行该存储器31中存储的该计算机可读指令,使得该视频文字检测硬件装置30执行前述的本公开各实施例的视频文字检测方法的全部或部分步骤。
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
图4是图示根据本公开的实施例的计算机可读存储介质的示意图。如图4所示,根据本公开实施例的计算机可读存储介质40,其上存储有非暂时性计算机可读指令41。当该非暂时性计算机可读指令41由处理器运行时,执行前述的本公开各实施例的视频特征的比对方法的全部或部分步骤。
上述计算机可读存储介质40包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
图5是图示根据本公开实施例的终端的硬件结构示意图。如图5所示,该视频文字检测终端50包括上述视频文字检测装置实施例。
该终端可以以各种形式来实施,本公开中的终端可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端、车载显示终端、车载电子后视镜等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
作为等同替换的实施方式,该终端还可以包括其他组件。如图5所示,该视频文字检测终端50可以包括电源单元51、无线通信单元52、A/V(音频/视频)输入单元53、用户输入单元54、感测单元55、接口单元56、控制器57、输出单元58和存储器59等等。图5示出了具有各种组件的终端,但是应理解的是,并不要求实施所有示出的组件,也可以替代地实施更多或更少的组件。
其中,无线通信单元52允许终端50与无线通信系统或网络之间的无线电通信。A/V输入单元53用于接收音频或视频信号。用户输入单元54可以根据用户输入的命令生成键输入数据以控制终端的各种操作。感测单元55检测终端50的当前状态、终端50的位置、用户对于终端50的触摸输入的有无、终端50的取向、终端50的加速或减速移动和方向等等,并且生成用于控制终端50的操作的命令或信号。接口单元56用作至少一个外部装置与终端50连接可以通过的接口。输出单元58被构造为以视觉、音频和/或触觉方式提供输出信号。存储器59可以存储由控制器55执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据。存储器59可以包括至少一种类型的存储介质。而且,终端50可以与通过网络连接执行存储器59的存储功能的网络存储装置协作。控制器57通常控制终端的总体操作。另外,控制器57可以包括用于再现或回放多媒体数据的多媒体模块。控制器57可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元51在控制器57的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
本公开提出的视频特征的比对方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本公开提出的视频特征的比对方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本公开提出的视频特征的比对方法的各种实施方式可以在控制器57中实施。对于软件实施,本公开提出的视频特征的比对方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器59中并且由控制器57执行。
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种视频文字检测方法,其特征在于,包括:
对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;
根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。
2.根据权利要求1所述的方法,其特征在于,所述根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息的步骤,包括:
对各图像块进行文字检测;
若检测出任一图像块中包含文字信息,则确定所述待检测视频中包含文字信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本;
根据是否包含文字信息对所述训练样本进行标注;
采用深度学习分类算法对所述标注后的训练样本进行训练学习,得到图像分类器。
4.根据权利要求3所述的方法,其特征在于,所述对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块的步骤,包括:
将所述待检测图片输入所述图像分类器,通过所述图像分类器对所述待检测图片进行分块,得到至少一个图像块;
所述方法还包括:
通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果。
5.根据权利要求4所述的方法,其特征在于,所述通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果的步骤,包括:
通过所述图像分类器对各图像块进行打分,得到各图像块的分值;
根据所述分值确定所述图像块的文字检测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述分值确定所述图像块的文字检测结果的步骤,包括:
若所述分值超过预设分值,则确定所述图像块中包含文字信息;或,从所述分值中选取最大分值,若所述最大分值超过预设分值,则确定所述图像块中包含文字信息;或,若所述分值小于预设分值,则确定所述图像块中包含文字信息;或,从所述分值中选取最小分值,若所述最小分值小于预设分值,则确定图像块中包含文字信息。
7.根据权利要求4所述的方法,其特征在于,所述通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果的步骤,包括:
通过所述图像分类器对各图像块进行文字检测,并通过所述图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息;
将输出结果作为所述图像块的文字检测结果。
8.一种视频文字检测装置,其特征在于,包括:
图片分块模块,用于对从待检测视频中抽取的待检测图片进行分块,得到至少一个图像块;
文字确定模块,用于根据对所述图像块的文字检测结果确定所述待检测视频中是否包含文字信息。
9.根据权利要求8所述的装置,其特征在于,所述文字确定模块具体用于:对各图像块进行文字检测;若检测出任一图像块中包含文字信息,则确定所述待检测视频中包含文字信息。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
分类器训练模块,用于对已知包含文字信息的图片和/或已知未包含文字信息的图片进行分块,得到至少一个图像块作为训练样本;根据是否包含文字信息对所述训练样本进行标注;采用深度学习分类算法对所述标注后的训练样本进行训练学习,得到图像分类器。
11.根据权利要求10所述的装置,其特征在于,所述图片分块模块具体用于:将所述待检测图片输入所述图像分类器,通过所述图像分类器对所述待检测图片进行分块,得到至少一个图像块;
所述装置还包括:
文字检测模块,用于通过所述图像分类器对所述图像块进行文字检测,并根据所述图像分类器的分类结果确定所述图像块的文字检测结果。
12.根据权利要求11所述的装置,其特征在于,所述文字检测模块包括:
打分单元,用于通过所述图像分类器对各图像块进行打分,得到各图像块的分值;
文字检测单元,用于根据所述分值确定所述图像块的文字检测结果。
13.根据权利要求12所述的装置,其特征在于,所述文字检测单元具体用于:
若所述分值超过预设分值,则确定图像块中包含文字信息;或,从所述分值中选取最大分值,若所述最大分值超过预设分值,则确定图像块中包含文字信息;或,若所述分值小于预设分值,则确定图像块中包含文字信息;或,从所述分值中选取最小分值,若所述最小分值小于预设分值,则确定图像块中包含文字信息。
14.根据权利要求11所述的装置,其特征在于,所述文字检测模块具体用于:通过所述图像分类器对各图像块进行文字检测,并通过所述图像分类器直接输出以下任意一种结果:包含文字信息和不包含文字信息;将输出结果作为所述图像块的文字检测结果。
15.一种视频文字检测硬件装置,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述处理器执行时实现根据权利要求1-7中任意一项所述的视频文字检测方法。
16.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行权利要求1-7中任意一项所述的视频文字检测方法。
CN201811065276.2A 2018-09-13 2018-09-13 视频文字检测方法、装置和计算机可读存储介质 Pending CN109299682A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811065276.2A CN109299682A (zh) 2018-09-13 2018-09-13 视频文字检测方法、装置和计算机可读存储介质
PCT/CN2018/117715 WO2020052085A1 (zh) 2018-09-13 2018-11-27 视频文字检测方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811065276.2A CN109299682A (zh) 2018-09-13 2018-09-13 视频文字检测方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109299682A true CN109299682A (zh) 2019-02-01

Family

ID=65166772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811065276.2A Pending CN109299682A (zh) 2018-09-13 2018-09-13 视频文字检测方法、装置和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN109299682A (zh)
WO (1) WO2020052085A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753133A (zh) * 2020-06-11 2020-10-09 北京小米松果电子有限公司 视频分类方法、装置及存储介质
CN111832082B (zh) * 2020-08-20 2023-02-24 支付宝(杭州)信息技术有限公司 图文完整性检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7436994B2 (en) * 2004-06-17 2008-10-14 Destiny Technology Corporation System of using neural network to distinguish text and picture in images and method thereof
CN104281850B (zh) * 2013-07-09 2020-01-31 腾讯科技(深圳)有限公司 一种文字区域识别方法和装置
CN104463103B (zh) * 2014-11-10 2018-09-04 小米科技有限责任公司 图像处理方法及装置
CN104484867A (zh) * 2014-12-30 2015-04-01 小米科技有限责任公司 图片处理方法及装置
CN106156777B (zh) * 2015-04-23 2020-06-02 华中科技大学 文本图片检测方法及装置
CN106257496B (zh) * 2016-07-12 2019-06-07 华中科技大学 海量网络文本与非文本图像分类方法
CN106385592B (zh) * 2016-08-31 2019-06-28 西安万像电子科技有限公司 图像压缩方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN102915438A (zh) * 2012-08-21 2013-02-06 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法

Also Published As

Publication number Publication date
WO2020052085A1 (zh) 2020-03-19

Similar Documents

Publication Publication Date Title
CN109165301B (zh) 视频封面选择方法、装置和计算机可读存储介质
CN109299734A (zh) 侵权图片的识别方法、装置和计算机可读存储介质
CN111931592B (zh) 对象识别方法、装置及存储介质
CN113486253B (zh) 搜索结果展示方法、装置、设备和介质
CN107391545A (zh) 一种对用户进行分类的方法、输入方法及装置
US20160275355A1 (en) Video Classification Method and Apparatus
CN111598012B (zh) 一种图片聚类管理方法、系统、设备及介质
US20160062637A1 (en) Method, apparatus and non-transitory storage medium for processing punctuation mark
TW201546636A (zh) 註解顯示器輔助裝置及輔助方法
CN109299682A (zh) 视频文字检测方法、装置和计算机可读存储介质
CN108769803A (zh) 带边框视频的识别方法、裁剪方法、系统、设备及介质
CN104126188A (zh) 关键字检测装置、其控制方法及控制程序,以及显示设备
CN108920368A (zh) 数据测试的方法、装置及电子设备
CN111898550A (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN109376764A (zh) 基于聚类的数据收集方法、装置和计算机可读存储介质
US20130315483A1 (en) Handwritten document retrieval apparatus and method
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
Kalaivani et al. Predicting the price range of mobile phones using machine learning techniques
CN109064494A (zh) 视频漂浮纸片检测方法、装置和计算机可读存储介质
US10216988B2 (en) Information processing device, information processing method, and computer program product
CN112514410B (zh) 电子设备及其控制方法
JP7099521B2 (ja) 採点装置、採点方法、記録媒体
CN110909247A (zh) 文本信息的推送方法、电子设备及计算机存储介质
CN115700845A (zh) 人脸识别模型训练方法、人脸识别方法、装置及相关设备
JP6582464B2 (ja) 情報入力装置、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201