CN111107422B - 图像处理方法及装置、电子设备和计算机可读存储介质 - Google Patents

图像处理方法及装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111107422B
CN111107422B CN201911366370.6A CN201911366370A CN111107422B CN 111107422 B CN111107422 B CN 111107422B CN 201911366370 A CN201911366370 A CN 201911366370A CN 111107422 B CN111107422 B CN 111107422B
Authority
CN
China
Prior art keywords
word
subtitle
picture
target
text content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911366370.6A
Other languages
English (en)
Other versions
CN111107422A (zh
Inventor
罗雪
余自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911366370.6A priority Critical patent/CN111107422B/zh
Publication of CN111107422A publication Critical patent/CN111107422A/zh
Application granted granted Critical
Publication of CN111107422B publication Critical patent/CN111107422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开的实施例提供了一种图像处理方法及装置、电子设备和计算机可读存储介质,属于计算机技术领域。所述方法包括:播放目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语;显示所述目标词语的关联信息。通过本公开实施例提供的技术方案,可以实现用户观看视频时,能够对字幕进行操作以查看特定词语的相关信息,方便快捷地理解相关词语。

Description

图像处理方法及装置、电子设备和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种图像处理方法及装置、电子设备和计算机可读存储介质。
背景技术
当用户利用视频应用观看视频时,或多或少会遇到不理解的或十分感兴趣的词语。例如,用户在观看记录片时,里面存在大量专有名词,虽然各类文物和建筑雕塑很有意思,但是由于记录片给到的信息有限,无法满足用户想要继续了解这些专有名词的需求。又例如,小孩子在观看动画片时,偶尔出现不能理解的词汇,出于对知识的渴望,很想要了解那个词汇是什么意思,但剧情又正精彩不想离开去查询这个词汇的含义。
相关技术中,在类似上述的视频观看场景中,如果用户此时想要进一步了解所观看视频中某个特定词语的含义,就需要退出当前正在使用的视频应用,进入搜索引擎进行这个特定词语的释义的查询,然后再回到该视频应用,这样的方式查询效率低下、用户操作繁琐不便捷且会影响用户的视频观看体验,给用户带来的体验较差。
因此,需要一种新的图像处理方法及装置、电子设备和计算机可读存储介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种图像处理方法及装置、电子设备和计算机可读存储介质,可以实现用户观看视频时,能够对字幕进行操作以查看特定词语的关联信息,方便快捷地理解相关词语。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提供一种图像处理方法,所述方法包括:播放目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语;显示所述目标词语的关联信息。
本公开实施例提供一种图像处理装置,所述装置包括:图片显示单元,用于播放目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;词语确定单元,用于响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语;关联显示单元,用于显示所述目标词语的关联信息。
在本公开的一些示例性实施例中,词语确定单元包括:第一图片裁剪单元,用于从当前帧图片中裁剪包括字幕区域的第一字幕图片;触发点确定单元,用于响应于对字幕区域的触发操作,确定触发点;第二图片裁剪单元,用于根据触发点和第一字幕图片,从当前帧图片中裁剪第二字幕图片;图片文本识别单元,用于分别对第一字幕图片和第二字幕图片进行识别,获得第一字幕图片的第一字幕文本内容和第二字幕图片的第二字幕文本内容;位置确定单元,用于根据第一字幕文本内容及第二字幕文本内容确定触发点在第一字幕文本内容中的位置信息;文本分词单元,用于获取第一字幕文本内容的分词结果;目标词语确定单元,用于根据位置信息和分词结果,确定目标词语。
在本公开的一些示例性实施例中,第二图片裁剪单元包括:字体大小获取单元,用于获取字幕区域中的字体大小;半字宽度确定单元,用于根据字体大小确定半字宽度;图片宽度确定单元,用于根据触发点和半字宽度确定第二字幕图片的宽度;图片高度确定单元,用于根据第一字幕图片的目标角坐标和高度,确定第二字幕图片的目标角坐标和高度。
在本公开的一些示例性实施例中,位置确定单元包括:原始长度获取单元,用于获取第二字幕文本内容的原始长度;文本字符删除单元,用于若第二字幕文本内容不在第一字幕文本内容中整体存在,则删掉第二字幕文本内容的第一顶端字符,直至第二字幕文本内容在第一字幕文本内容中整体存在或者第二字幕文本内容的长度为零;触发点位置确定单元,用于根据整体存在于第一字幕文本内容的第二字幕文本内容的长度和原始长度,确定位置信息。
在本公开的一些示例性实施例中,目标词语确定单元包括:候选词获得单元,用于以位置信息为起始点,向第一字幕文本内容的左右两侧进行扩散,直至全部包括第一字幕文本内容,获得包括位置信息所在字的候选词;目标词语匹配单元,用于若候选词与分词结果匹配,则确定匹配的候选词为目标词语。
在本公开的一些示例性实施例中,目标词语包括第一词语和第二词语,第一词语的长度大于第二词语的长度,关联信息包括第一词语的第一部分关联信息和第二部分关联信息以及第二词语的第一部分关联信息和第二部分关联信息。其中,关联显示单元包括第一展开控件显示单元和第二展开控件显示单元,以及第一词语部分关联信息显示单元或第二词语部分关联信息显示单元。其中,第一展开控件显示单元用于显示第一词语的第一部分关联信息及其第一展开显示控件。第二展开控件显示单元用于显示第二词语的第一部分关联信息及其第二展开显示控件。第一词语部分关联信息显示单元用于响应于对第一展开显示控件的触发操作,显示第一词语的第二部分关联信息。第二词语部分关联信息显示单元用于响应于对第二展示显示控件的触发操作,显示第二词语的第二部分关联信息。
在本公开的一些示例性实施例中,关联显示单元包括:系统语言获取单元,用于获取系统语言;系统语言显示单元,用于以系统语言显示目标词语的关联信息。
在本公开的一些示例性实施例中,关联显示单元还包括:语言控件显示单元,用于显示语言选择控件,语言选择控件包括系统语言和第一语言;目标语言确定单元,用于响应于对语言选择控件的选择指令,从第一语言中确定目标语言;目标语言显示单元,用于切换至以目标语言显示目标词语的关联信息。
在本公开的一些示例性实施例中,关联显示单元包括:浮层显示单元,用于在当前帧图片上与目标词语相关的目标位置,以浮层形式显示关联信息。
在本公开的一些示例性实施例中,图像处理装置还包括:推广信息显示单元,用于显示与目标词语相关的推广信息;推广界面显示单元,用于若推广信息中包括推广链接,则响应于对推广链接的触发操作,显示与推广信息相应的推广界面。
在本公开的一些示例性实施例中,图像处理装置还包括:信息存储单元,用于将目标词语及其关联信息存储于区块链中。
本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的图像处理方法。
本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的图像处理方法。
在本公开的一些实施例所提供的技术方案中,在用户播放目标视频时,若用户觉得该目标视频的某一帧图片上显示的字幕包括其感兴趣、想要进一步了解其含义的词语时,用户可以对这一帧图片上的字幕区域进行触发操作,以从该帧图片上确定出用户想要进一步了解其含义的目标词语,从而可以自动地、及时地在屏幕上显示出该目标词语的关联信息,这样,一方面,系统能够根据用户的触发操作,自动确定目标词语并自动显示其关联信息,查询效率较高,不需要在两个或者多个应用(例如视频应用和搜索引擎应用)之间来回切换;另一方面,由于本公开实施例提供的方案无需借助字幕组件,所以其可以应用在各个视频系统中,而无需在每个视频系统中都开发一套相应的字幕组件,使用本公开实施例提供的方案,只需开发一套方案即可应用到每个视频系统,提高了开发效率,节省了开发资源,拓展了方案的应用场合和自适应性。此外,用户不需要进行退出视频应用、打开搜索引擎、在搜索引擎中输入待查询的目标词语、在搜索引擎返回的大量查询结果中选择一个合适的释义、打开该合适的释义的网页查看该目标词语的释义、再退出搜索引擎、重新进入视频应用继续观看视频等繁琐的操作步骤,在不打断用户的视频观看过程的同时,可以方便地加深用户对视频的理解,提高了用户体验,可以增强用户留在视频应用上的粘性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的图像处理方法或图像处理装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一实施例的图像处理方法的流程图;
图4示意性示出了根据本公开的一实施例的未对字幕区域进行触发操作前的用户界面示意图;
图5示意性示出了对图4的字幕区域进行触发操作后的用户界面示意图;
图6示出了图3中所示的步骤S320在一实施例中的处理过程示意图;
图7示出了图6中所示的步骤S323在一实施例中的处理过程示意图;
图8示出了图6中所示的步骤S325在一实施例中的处理过程示意图;
图9示出了图6中所示的步骤S327在一实施例中的处理过程示意图;
图10示意性示出了根据本公开的一实施例的图像处理方法的流程图;
图11示意性示出了根据本公开的一实施例的当前帧图片的用户界面示意图;
图12示意性示出了从图11中截取的第一字幕图片的示意图;
图13示意性示出了从图11中截取的初始的第二字幕图片的示意图;
图14示意性示出了从图11中截取的最终的第二字幕图片的示意图;
图15示意性示出了根据本公开的一实施例的文本检测的示意图;
图16示意性示出了根据本公开的一实施例的文本识别的示意图;
图17示意性示出了对图12的第一字幕图片进行识别获得的第一字幕文本内容的示意图;
图18示意性示出了对图14的第二字幕图片进行识别获得的第二字幕文本内容的示意图;
图19示意性示出了根据本公开的一实施例的对第二字幕图片进行识别获得的第二字幕文本内容的示意图;
图20示意性示出了对图17的第一字幕文本内容进行分词的示意图;
图21示出了图3中所示的步骤S330在一实施例中的处理过程示意图;
图22示意性示出了根据本公开的一实施例的对目标词语中的多个词语的关联信息进行显示的示意图;
图23示出了图3中所示的步骤S330在一实施例中的处理过程示意图;
图24示出了图3中所示的步骤S330在一实施例中的处理过程示意图;
图25示意性示出了根据本公开的一实施例的选择关联信息的显示语言的用户界面示意图;
图26示意性示出了根据本公开的一实施例的图像处理方法的流程图;
图27示意性示出了根据本公开的一实施例的显示推广信息的用户界面示意图;
图28示意性示出了根据本公开的一实施例的图像处理装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本公开实施例的图像处理方法或图像处理装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102通过网络103与服务器104交互,以接收或发送消息等。其中,终端设备101、102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。
服务器104可以是提供各种服务的服务器,例如对用户利用终端设备101、102所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
终端设备101、102可例如向服务器104请求目标视频或者播放其本地存储的目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;终端设备101、102可例如响应于对所述字幕区域的触发操作,终端设备101、102和/或服务器104可例如确定所述字幕区域中的目标词语,获取目标词语的关联信息;终端设备101、102可例如显示所述目标词语的关联信息。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器104可以是一个实体的服务器,还可以为多个服务器组成,根据实际需要,可以具有任意数目的终端设备、网络和服务器。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU,Central Processing Unit)201,其可以根据存储在只读存储器(ROM,Read-Only Memory)202中的程序或者从储存部分208加载到随机访问存储器(RAM,Random Access Memory)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(input/output,I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和/或装置中限定的各种功能。
需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF(RadioFrequency,射频)等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图6或图7或图8或图9或图10或图21或图23或图24或图26所示的各个步骤。
相关技术中,针对用户一边观看外文(例如英语)视频一边学习外文的需求,借助字幕组件识别用户点击的外文内容并给出相关释义,但目前大多数视频并没有字幕组件,只有最终渲染出来的一个个视频,也就是一帧帧图片,因此,基于字幕组件实现的点击字幕出现相关外文解释的方式,应用场景十分受限。同时,使用字幕组件的方式,需要针对每一个视频软件都开发一套各自的字幕组件,开发效率低下,开发成本较高。
图3示意性示出了根据本公开的一实施例的图像处理方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的终端设备101、102和/或服务器104。在下面的举例说明中,以终端设备101、102为执行主体进行示例说明。
如图3所示,本公开实施例提供的图像处理方法可以包括以下步骤。
在步骤S310中,播放目标视频,显示目标视频的当前帧图片,当前帧图片包括字幕区域。
本公开实施例中,用户可以在视频系统中选择某个视频作为目标视频,每个目标视频可以具有各自的唯一标识,并在该视频系统中打开目标视频。其中,视频系统例如可以是PC(Personal Computer,个人计算机)端的视频软件,或者移动端(例如手机、平板电脑等)的视频应用程序(Application,APP),也可以是电视上的视频播放软件,本公开对此不做限定,任意具有视频播放功能的系统,均可以作为这里的视频系统。
本公开实施例中,目标视频可以包括至少两帧图片,视频里的一帧一帧的图片称之为帧图片。在当前时刻正在播放的称之为当前帧图片。在当前帧图片上显示有字幕,字幕是指以文字形式显示电视、电影、舞台作品等中的对话等非影像内容,也泛指影视作品后期加工的文字。通常位于电影银幕、电视显示屏或者移动端的显示屏等的下方区域,可以包括视频的解说文字以及其他文字,如影片的片名、演职员表、唱词、对白、说明词以等。字幕区域是指在当前帧图片上且包括显示的字幕的区域。
例如,如图4所示,在视频播放窗口播放目标视频,当前正显示当前帧图片,这里假设当前帧图片下方指定大小的包括所显示的字幕“米开朗基罗最著名的雕像Appear tohave turned Michelangelo’s most famous sculpture”在内的区域为字幕区域。
可以理解的是,字幕区域所处位置、面积大小、形状等均可以根据实际需求进行设定,并不限于上述图4的举例说明。
在步骤S320中,响应于对字幕区域的触发操作,确定字幕区域中的目标词语。
本公开实施例中,触发操作可以是针对字幕区域的任意预先设定的操作。例如,以移动端的显示屏为触摸屏为例,则可以是用户手指或者电容笔等长按(按住时间超过预先设置的时长阈值,时长阈值可以根据具体情况设定)或者双击字幕区域的任意位置。再例如,以PC端的显示屏为例,则可以是利用鼠标或者触摸板等将光标停留在字幕区域的任意位置超过时长阈值,或者利用双击字幕区域的任意位置。再例如,以电视的显示屏为例,则可以是利用遥控器等发出的光点停留在字幕区域的任意位置超过时长阈值,本公开触发操作的具体形式不做限定。其中,将用户执行双击或者长按等触发操作所针对的目标视频的当前帧图片在字幕区域上的位置称之为触发点。
本公开实施例中,目标词语是指用户想要了解其进一步含义的任意词、字、句子等或者其任意组合,例如可以是名词,这里的“名词”不是语法上的名词,也可以是一些动词,在本公开中主要指词语。
本公开实施例中,当接收到用户针对字幕区域的触发操作时,可以暂停播放目标视频,并根据触发点确定用户当前想要了解其进一步含义的字幕区域中的目标词语。具体确定目标词语的方式可以参照下图6的实施例。
当确定了目标词语后,可以获取目标词语的关联信息。这里的关联信息可以是与目标词语相关的任何信息,例如可以是目标词语的背景知识、目标词语的外文翻译、目标词语的定义等中的任意一种或者多种,本公开对此不做限定。例如,可以调用语料库的接口来查询目标词语的关联信息。其中,语料库是存放任意语言例如中文等各类词汇的仓库,可以位于网络中。这里可以调用各个百科的语料库,用于获取目标词语的关联信息。再例如,还可以预先设置数据库,在数据库中以一一映射关系存储目标视频的字幕文字及其对应的关联信息,用该目标词语与数据库中存储的字幕文字进行匹配,提取出与该目标词语匹配的字幕文字的关联信息。
在步骤S330中,显示目标词语的关联信息。
在示例性实施例中,显示目标词语的关联信息,可以包括:在当前帧图片上与目标词语相关的目标位置,以浮层形式显示关联信息。
其中,这里的视频浮层可以是一个显示在当前帧图片上的弹出框。具体的,可以利用CSS(Cascading Style Sheets,层叠样式表)里的属性z-index,其表示每个元素之间的堆叠关系,其值越大,就越在顶层,而其值越小则越在底层。根据用户在字幕区域的触发点,可以确定目标词语,可以在目标词语的附近或者触发点的附近确定一个位置作为目标位置,例如触发点的上方出现弹出框,在弹出框内显示目标词语的关联信息。
以浮层形式显示目标词语的关联信息的好处是,用户仍然停留在目标视频的视频播放窗口,不用进行链接的跳转,节省了计算资源,也更方便用户结合关联信息和当前帧图片,加深对目标视频的理解。
如图5所示,这里假设当用户长按或双击目标视频的当前帧图片上的字幕中的专有名词“米开朗基罗”后,视频系统立即暂停正在播放的目标视频,对当前帧图片上的字幕进行解析,并在用户选择的专有名词“米开朗基罗”上方呈现如图5所示的专有名词解释浮层“米开朗基罗:米开朗基罗·博那罗蒂(Michelangelo Bluonarroti,1475年3月6日-1564年2月18日),又译为“米开朗琪罗”,意大利文艺复兴时期伟大的绘画家、雕塑家、建筑师和诗人,文艺复兴时期雕塑艺术最高峰的代表,与拉斐尔和达芬奇并称为文艺复兴后三杰。”
可以理解的是,本公开实施例中不限定用于显示目标词语的关联信息的浮层的目标位置、面积大小、形状等,以及浮层中的关联信息所采用的字体格式、字体大小等,字体大小可以根据浮层的面积大小、显示屏的分辨率、视频播放窗口的大小、当前帧图片的尺寸等因素综合来进行自适应性的设定或者调整。用户也可以拖动浮层,将其拖动到用户想要放置的位置。用户也可以对浮层的大小进行缩放。
但本公开并不限定使用浮层显示关联信息,再例如,也可以暂停目标视频,跳转到另外一个新的页面显示目标词语的关联信息,之后再重新跳回到目标视频的播放链接。
在示例性实施例中,当前帧图片还可以包括非字幕区域。非字幕区域可以是指当前帧图片上,除字幕区域以外的其他任意区域。其中,方法还可以包括:响应于对非字幕区域的触发操作,继续播放目标视频的下一帧图片。
例如,用户点击当前帧图片的非字幕区域的任意位置,都可以触发重新播放该目标视频。或者,可以预先设定一个定长阈值,当浮层显示时长到达该定长阈值且为接收到用户的其他进一步操作(例如用户拖动浮层、缩放浮层、点击查看有关广告、点击查看更多等)时,则自动开始重新播放该目标视频的下一帧图片。
本公开实施方式提供的图像处理方法,在用户播放目标视频时,若用户觉得该目标视频的某一帧图片上显示的字幕包括其感兴趣、想要进一步了解其含义的词语时,用户可以对这一帧图片上的字幕区域进行触发操作,以从该帧图片上确定出用户想要进一步了解其含义的目标词语,从而可以自动地、及时地在屏幕上显示出该目标词语的关联信息,这样,一方面,系统能够根据用户的触发操作,自动确定目标词语并自动显示其关联信息,查询效率较高,不需要在两个或者多个应用(例如视频应用和搜索引擎应用)之间来回切换;另一方面,由于本公开实施例提供的方案无需借助字幕组件,所以其可以应用在各个视频系统中,而无需在每个视频系统中都开发一套相应的字幕组件,使用本公开实施例提供的方案,只需开发一套方案即可应用到每个视频系统,提高了开发效率,节省了开发资源,拓展了方案的应用场合和自适应性。此外,用户不需要进行退出视频应用、打开搜索引擎、在搜索引擎中输入待查询的目标词语、在搜索引擎返回的大量查询结果中选择一个合适的释义、打开该合适的释义的网页查看该目标词语的释义、再退出搜索引擎、重新进入视频应用继续观看视频等繁琐的操作步骤,在不打断用户的视频观看过程的同时,可以方便地加深用户对视频的理解,提高了用户体验,可以增强用户留在视频应用上的粘性。
图6示出了图3中所示的步骤S320在一实施例中的处理过程示意图。如图6所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
在步骤S321中,从当前帧图片中裁剪包括字幕区域的第一字幕图片。
本公开实施例中,第一字幕图片的面积可以大于或等于字幕区域的面积,只要第一字幕图片中完整的包括字幕区域即可。
在步骤S322中,响应于对字幕区域的触发操作,确定触发点。
例如,用户双击或者长按字幕区域时,可以通过显示屏上的传感器检测出用户双击或者长按的触发点在显示屏上的位置坐标。
在步骤S323中,根据触发点和第一字幕图片,从当前帧图片中裁剪第二字幕图片。
例如,可以设定第二字幕图片的某个角(下面以左上角为例,但本公开并不限定于此)坐标和第一字幕图片的对应角坐标相同,第二字幕图片的高度与第一字幕图片的高度相同,根据触发点的位置坐标确定触发点距离视频播放窗口(在全屏播放时,视频播放窗口的大小等于显示屏的大小)的左侧边或者右侧边的距离,据此可以确定第二字幕图片的宽度,当获知了第二字幕图片的宽度、高度和左上角坐标后,就可以从当前帧图片中裁剪出第二字幕图片。
在步骤S324中,分别对第一字幕图片和第二字幕图片进行识别,获得第一字幕图片的第一字幕文本内容和第二字幕图片的第二字幕文本内容。
例如,可以对第一字幕图片和第二字幕图片分别进行OCR(Optical CharacterRecognition,光学字符识别)识别,获得第一字幕文本内容和第二字幕文本内容。
其中,OCR技术是从图像中检测并识别文字的一种方法。本公开实施例中可以采用任意一种OCR技术,对其不做限定。
在步骤S325中,根据所述第一字幕文本内容及第二字幕文本内容确定触发点在第一字幕文本内容中的位置信息。
具体如何确定触发点在第一字幕文本内容中的位置信息可以参照下图8的实施例。
在步骤S326中,获取第一字幕文本内容的分词结果。
例如,可以利用词法分析工具对第一字幕文本内容进行分词,获得分词结果。
其中,词法分析是基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素、消除歧义以及支撑自然语言的准确理解。这里可以利用任意的词法分析工具,向用户提供分词、词性标注、命名实体识别等功能,能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。
在步骤S327中,根据位置信息和分词结果,确定目标词语。
具体如何根据位置信息和分词结果确定目标词语可以参照下图9实施例。
图7示出了图6中所示的步骤S323在一实施例中的处理过程示意图。如图7所示,本公开实施例中,上述步骤S323可以进一步包括以下步骤。
在步骤S3231中,获取字幕区域中的字体大小。
在步骤S3232中,根据字体大小确定半字宽度。
本公开实施例中,半字宽度是指字幕区域中的字幕的半个字所占据的宽度,单位可以是像素。对于不同的目标视频以及视频播放窗口不同的分辨率,可以设置不同的半字宽度,具体的,可以从系统获取字幕的字体大小和视频播放窗口的分辨率,根据字体大小和视频播放窗口的分辨率计算出半字宽度。
在步骤S3233中,根据触发点和半字宽度确定第二字幕图片的宽度。
本公开实施例中,当用户双击或长按字幕区域时,可以以触发点为起始点,将触发点距离第一字幕图片左侧或右侧的长度作为第二字幕图片的宽度,若用户刚好点击或长按在字幕区域中的某一个字上时,则截取的第二字幕图片中可能存在一个不完全的字,此时,为了避免点击的文字不能被第二字幕图片完全截取到,若将起始点距离第一字幕图片左侧的长度作为第二字幕图片的宽度,则可以在触发点基础上加上半字宽度作为起始点;若将起始点距离第一字幕图片右侧的长度作为第二字幕图片的宽度,则可以在触发点基础上减去半字宽度作为起始点。在下面的举例说明中,均以触发点基础上加上半字宽度作为起始点,将起始点距离第一字幕图片左侧的长度作为第二字幕图片的宽度为例进行举例说明,但本公开并不限定于此。
在步骤S3234中,根据第一字幕图片的目标角坐标和高度,确定第二字幕图片的目标角坐标和高度。
例如,假设以视频播放窗口或者当前帧图片的左上角作为坐标原点,则可以将目标角坐标确定为左上角坐标,但本公开并不限定于此。下面的实施例中,均以第二字幕图片的左上角坐标与第一字幕图片的左上角坐标相同,第二字幕图片的高度与第一字幕图片的高度相同为例进行举例说明,但本公开并不限定于此,第二字幕图片的高度也可以小于第一字幕图片的高度。
在示例性实施例中,根据所述第一字幕文本内容及第二字幕文本内容确定触发点在第一字幕文本内容中的位置信息,可以包括:获取第二字幕文本内容的原始长度;若第二字幕文本内容不在第一字幕文本内容中整体存在,则删掉第二字幕文本内容的第一顶端字符,直至第二字幕文本内容在第一字幕文本内容中整体存在或者第二字幕文本内容的长度为零;根据整体存在于第一字幕文本内容的第二字幕文本内容的长度和原始长度,确定位置信息。
具体地,如图8所示,本公开实施例中,上述步骤S325可以进一步包括以下步骤。
在步骤S3251中,获取第二字幕文本内容的原始长度。
第二字幕文本内容的原始长度是指通过OCR技术识别后获得的最初的第二字幕文本内容中包括的文字个数,可以记为Length(origin)。
在步骤S3252中,判断第二字幕文本内容的长度是否为0;若为0,则跳转到步骤S3256结束本次操作;若不为0,则进入步骤S3253。
若用户长按或者双击在字幕区域的左侧空白区域(空白区域即字幕区域中不包括字幕的部分),则截取的第二字幕图片上可能没有文字,此时,OCR识别后的第二字幕文本内容为空,此时第二字幕文本内容的长度为0,则不需要进行后续操作,直接结束本次操作即可。若用户长按或者双击在字幕区域的非空白区域(即字幕区域中包括字幕的部分,包括某一个字上或者某两个字中间这两种情况),则Length(origin)不为0,此时可以继续进行下一步操作。
在步骤S3253中,继续判断第二字幕文本内容是否在第一字幕文本内容中整体存在;若整体存在,则跳转到步骤S3255;若不整体存在,则进入步骤S3254。
在步骤S3254中,删除第二字幕文本内容的第一顶端字符,再跳回到上述步骤S3252。
如前文提到的,为了能够避免不能完整截取到被点击或者长按的字,截取的第二字幕图片的宽度加上了半字宽度,但若用户长按或点击在字幕的两个字中间,则加了半字宽度后,第二字幕图片可能截取到被长按或点击的字的后面一个字的一部分,此时,OCR识别出的第二字幕文本内容可能不整体存在于第一字幕文本内容中,即第二字幕文本内容中至少存在一个字是在第一字幕文本内容中没有的。此时,若第二字幕图片截取的是当前帧图片上触发点加上半字宽度以左的部分,则第一顶端字符是第二字幕图片最左侧即最后面的一个字符。若第二字幕图片截取的是当前帧图片上触发点减去半字宽度以右的部分,则第二顶端字符是第二字幕图片最右侧即最前面的一个字符。将该第一顶端字符删除后,再继续判断删除第一顶端字符后的第二字幕文本内容的长度是否为0。
在步骤S3255中,根据整体存在于第一字幕文本内容的第二字幕文本内容的长度和原始长度,确定位置信息。
循环执行上述步骤S S3252-S3254,直至删除第一顶端字符后的第二字幕文本内容整体存在于第一字幕文本内容中,此时,可以根据整体存在于第一字幕文本内容的第二字幕文本内容的长度和原始长度,确定触发点在第一字幕文本内容中位于第几个字的位置信息。
在步骤S3256中,结束。
需要说明的是,确定触发点在第一字幕文本内容中的位置信息并不限于上述实施例中的方式,例如,也可以不截取第一字幕图片和第二字幕图片,直接对整帧当前帧图片进行OCR识别,定位字幕区域中每个字的位置,同时检测触发点在整帧当前帧图片上的位置,也可以获得触发点位于字幕区域的第几个字。
图9示出了图6中所示的步骤S327在一实施例中的处理过程示意图。如图9所示,本公开实施例中,上述步骤S327可以进一步包括以下步骤。
在步骤S3271中,以位置信息为起始点,向第一字幕文本内容的左右两侧进行扩散,直至全部包括第一字幕文本内容,获得包括位置信息所在字的候选词。
当触发点在字幕区域的第几个字的位置信息确定后,可以以该位置信息为起始点,分别向第一字幕文本内容的左右两侧进行扩散,例如,以获取两个字的候选词为例,则可以获取该位置信息所在字及其左边的一个字组成一个候选词,获取该位置信息所在字以及其右边的一个字组成另一个候选词,其他候选词以此类推,直到某个候选词中包括第一字幕文本内容中的全部字。
在步骤S3272中,若候选词与分词结果匹配,则确定匹配的候选词为目标词语。
将上述步骤获得的各个候选词分别与第一字幕文本内容的分词结果进行比较,将匹配的候选词存储下来作为目标词语。
本公开实施例提供的图像处理方法,用户只需双击或者长按字幕区域的任意位置,系统即可在当前帧图片上通过OCR技术自动确定出用户想要释义的目标词语,无需用户进行其他任何操作,用户操作简便快捷。
可以理解地是,确定目标词语的方式并不限于上述实施例,在其他实施例中,也可以让用户直接准确定位其想要释义的目标词语。例如,用户手指首先放到“毁”字的前面,长按一定时间后,屏幕上出现把“《难以置信的毁灭中的珍宝》”都选中的蒙层,用户拉动蒙层的两侧边可以准确选中其想要释义的词语,这样不需要系统来计算用户想要释义的目标词语是那个,确定的目标词语更加直接准确。
下面以具体的实例为例对上述实施例提供的方法进行举例说明。
如图10所示,本公开实施例提供的方法可以包括以下步骤。
在步骤S1010中,获取目标视频字幕区域图片信息。
如图11所示,假设当前帧图片的字幕区域为当前帧图片或者整个视频系统屏幕正下方的20%区域,这是考虑到大部分字幕位于屏幕正下方的20%处,但本公开并不限定于此,20%是一个经验数值,可以根据实际情况调整,对于有特殊字幕位置的视频系统,也可以调整字幕区域所处位置及其面积大小。
如果用户双击或长按的不是当前帧图片的字幕区域,则系统可以不进行任何同字幕相关的响应。当用户双击或长按目标视频的当前帧图片的字幕区域的任意位置时,视频系统立即暂停播放该目标视频,此时,可以获取到目标视频当前帧图片,为提高下一步OCR的识别效率,可以对当前帧图片进行裁剪,裁剪包括字幕区域中的字幕的部分作为第一字幕图片,如图12所示,这里假设截取的第一字幕图片就等于图11中的字幕区域,但本公开并不限定于此,只要第一字幕图片中完整的包括字幕区域的完整字幕即可。
具体的,可以以当前帧图片的宽度为宽度,以及当前帧图片的下方20%内容为高度,输出第一字幕图片。假设当前帧图片的宽度和高度分别为:W(frame)和H(frame),则第一字幕图片的宽度W(1)和高度H(1)可以分别为:
W(1)=W(frame)
H(1)=H(frame)*20%
以当前帧图片的左上角为坐标原点,那么,第一字幕图片的左上角的横坐标X(1)和纵坐标Y(1)可以分别为:
X(1)=0
Y(1)=H(frame)*80%
有了第一字幕图片的左上角坐标、宽度和高度,则可以在当前帧图片中裁剪出第一字幕图片。
用户双击或长按事件触发后,可以获取到触发点到视频播放窗口或者当前帧图片(全屏播放时,等于终端的显示屏)左侧的位置,设为X(click),则第二字幕图片的宽度W(2)和高度H(2)可以分别为:
W(2)=X(click)
H(2)=H(1)
第二字幕图片的左上角的横坐标X(2)和纵坐标Y(2)可以同第一字幕图片,分别为:
X(2)=X(1)
Y(2)=Y(1)
图13示意性示出了从图11中截取的初始的第二字幕图片的示意图。这里假设用户长按或者双击的触发点位于“毁”字上。
从图13可以看出,当触发点位于某个字上时,直接截取触发点以左的图片内容作为第二字幕图片,可能会导致点击的文字不能被完全截取到,例如图13中的“毁”字不完全,导致下一步OCR文字识别时会丢掉文字信息。此时,为了避免这种情况发生,可以以触发点基础上加上半字宽度以左的部分作为第二字幕图片,输出如图14所示的第二字幕图片,可以完全显示完整的“毁”字。
此时,输入为目标视频暂停时的当前帧图片和用户双击或长按的触发点的位置,输出为两张字幕图片:全字幕图(第一字幕图片),用户点击处即触发点左侧字幕图(第二字幕图片)。用户点击字幕区域的不同位置,会出现不同的第二字幕图片。即对于当前帧图片而言,第一字幕图片固定不变,第二字幕图片随触发点的位置不同而不同。
在步骤S1020中,使用OCR技术识别字幕文字信息。
本公开实施例中,使用OCR技术识别第一字幕图片和第二字幕图片中的文字信息,获得第一字幕文本内容和第二字幕文本内容,可以包括两个大的步骤:文本检测和文本识别。这里采用了深度学习模型来进行文字识别。深度学习模型包括文本检测网络和文本识别网络。下面以识别第一字幕图片中的中文文字为例进行举例说明,识别第一字幕图片中的英文和第二字幕图片的过程与此类此。
图15示意性示出了根据本公开的一实施例的文本检测的示意图。
如图15所示,将第一字幕图片输入至文本检测网络,文本检测网络包括依次连接的三个紧凑开端(Compact Inception)模块、RNN(Recurrent Neural Network,循环神经网络)、建议(Proposals)模块,Proposals模块输出分数(Scores)、边框(Boxes)和改进(Refinement),根据Scores、Boxes和Refinement输出文本检测结果,将第一字幕图片中的文字区域使用bounding box(边界框)定位出来,使用矩形框将文本内容框起来,更小粒度地确认文本内容的位置。
图16示意性示出了根据本公开的一实施例的文本识别的示意图。
如图16所示,将通过文本检测出来的一个个矩形框作为文本识别网络的输入,进行文本识别,输出文本识别结果。这里文本识别网络可以包括依次连接的四个卷积(Convolution)结构、RNN&注意力机制(Attention)模块和CTC(Connectionist TemporalClassification,连续时序分类)&后处理(Post Process)模块。四个卷积结构中包括不同数量和不同卷积核大小的多个卷积层。
图17示意性示出了对图12的第一字幕图片进行识别获得的第一字幕文本内容的示意图。
如图17所示,这里将第一字幕图片的第一字幕文本内容中的中文记为Chinese 1,英文记为English 1,则第一字幕图片的文字识别结果分别为:
Chinese 1:《难以置信的毁灭中的珍宝》
English 1:launched in Venice in April 2017
图18示意性示出了对图14的第二字幕图片进行识别获得的第二字幕文本内容的示意图。
如图18所示,这里将第二字幕图片的第二字幕文本内容中的中文记为Chinese 2,英文记为English 2,则第二字幕图片的文字识别结果分别为:
Chinese 2:《难以置信的毁
English 2:launched in Veni
在图18的实施例中,是假设用户长按或点击刚好在“毁”字上,用户还有可能点击在两个字(如“信的”)中间,此时由于截取第二字幕图片是加了半字宽度,第二字幕图片识别出来的第二字幕文本内容就会有多余的部分。进而,使用OCR技术识别出来的文本内容也会有误差。
如图19所示,截取“的”字的一半,此时,第二字幕文本内容为:
Chinese 2:难以置信白
English 2:launched in V
但这个误差可以通过下述步骤进行处理。
在示例性实施例中,在进行OCR识别之前,可以首先判断待识别的图片例如第一字幕图片或者第二字幕图片的大小,若图片过大,例如超出一个图片阈值(例如,1MB,可以视具体情况不同而做出相应调整),则可以先对图片进行压缩,再对压缩后的图片进行OCR识别,这样可以更小的体积获得更高的识别效率,压缩算法不做限定;若图片大小没有超过图片阈值,则可以不进行压缩,直接对原始的图片进行OCR识别,从而可以获得准确的识别结果。
这里输入的是上述截取的第一字幕图片和第二字幕图片,输出的是第一字幕图片的第一字幕文本内容和第二字幕图片的第二字幕文本内容。
在步骤S1030中,确认用户触发点在字幕中的位置。
该步骤确认用户触发点在第一字幕文本内容中的位置P(index),即用户双击或长按字幕区域的位置在第一字幕文本的第几个字位置。
例如,假设第一字幕文本内容中的Chinese 1的内容为“《难以置信的毁灭中的珍宝》”,如下表1所示对第一字幕文本内容中的文字进行位置编号。
表1.Chinese 1中的文字位置
位置编号 0 1 2 3 4 5 6 7 8 9 10 11 12
文本内容
表2.English 1中的文字位置
位置编号 0 1 2 3 4 5
文本内容 launched in Venice in April 2017
而用户在“毁灭”二字中间点击了,第二字幕文本内容中的Chinese 2的内容为:“《难以置信的毁”,那么,用户触发点在字幕中的位置P(index)=6。也可以描述为,第二字幕文本内容中的Chinese 2的最后一个字符在第一字幕文本内容的Chinese 1中的位置。
P(index)的具体计算方法如下所述,由于中文和外文例如英文的计算方法一样,此处以中文为基础进行说明。
Chinese 2作为一整个字符串,判断字符串Chinese 2是否在Chinese 1中整体存在,如果整体存在,P(index)则为字符串Chinese 2的长度减1,此处是因为位置编号是从0开始的,若位置编号从1开始就不用减去1了。Chinese 2的原始长度记为Length(origin)。
设计算出的字符串Chinese 2的长度为Length2,那么P(index)值为:
P(index)=Length2-1
这里,Length2与Length(origin)的区别是:若原始Chinese 2在Chinese 1中整体存在,则Length2=Length(origin);若原始Chinese 2不在Chinese 1中整体存在,则Length2=Length(origin)-x,其中x为大于或等于1的正整数,x等于Chinese 2中不存在于Chinese 1的字符的个数。当Chinese 2不整体存在于Chinese 1时,Length2的值在不断地变化,直到Chinese 2删掉末尾一个字符后,Chinese 2完整存在于Chinese 1中了,此时Chinese 2不再删除末尾字符,Length2也不再变化,Length2始终等于Chinese 2的长度,Chinese 2变化,Length2变化。而Length(origin)始终等于最初的没有删除任何一个字符前的Chinese 2的长度。
如果字符串Chinese 2不在Chinese 1中整体存在,那么删掉Chinese 2的最后一个字符,再判断Chinese 2是否在Chinese 1中整体存在,如果存在,则P(index)=Length2-1,如果还不存在,继续删除Chinese 2的最后一个字符…如此循环重复,直到Chinese 2字符串完整的存在于Chinese 1中或Chinese 2字符串删除到长度为0之后结束循环。
例如,如图18所示的第二字幕图片,文本识别结果Chinese 2为“《难以置信的毁”。计算得出P(index)=6,Chinese 2依旧为“《难以置信的毁”。
再例如,如图19所示的第二字幕图片,文本识别结果Chinese 2为“《难以置信白”。计算得出P(index)=4,Chinese 2依旧为“《难以置信”。
此处输入为两段文本内容:第一字幕图片的文本内容Chinese 1和第二字幕图片的文本内容Chinese 2。输出为:正确的第二字幕文本内容Chinese 2,以及第二字幕文本内容Chinese 2最后一个字符在第一字幕文本内容Chinese 1中的位置P(index)。
在步骤S1040中,使用分词技术对字幕文字信息进行分词。
使用词法分析工具对第一字幕文本内容中的Chinese 1进行名词提取,包含:普通词语和专有名词等,分词结果记为WORDS。如图20所示,“《难以置信的毁灭中的珍宝》”获取到的分词结果为“《,难以置信,的,毁灭,中,的,珍宝,》”
在示例性实施例中,如果字幕内容涉及到特别生僻的名词,还可以在词法分析工具中加入自定义规则,以便适应当前的目标视频的字幕内容的名词释义。例如,“城会玩”、“理都懂”这类网络词语,词汇分析工具不一定能够识别。
在步骤S1050中,确认用户触发点的相关词语作为目标词语。
该步骤中确认用户触发点的相关词语作为目标词语。在字符串Chinese 1中,以P(index)为起始点,向第一字幕文本内容的两边扩散,寻找包含P(index)那个字的词组,例如两个字、三个字、四个字,…,直到到达字符串Chinese 1的两边结束。期间,遇到一个文字组合在上述步骤中的分词结果WORDS中,则存下来,以作下一步输入使用,存储结果记为USER_WORDS。
例如,已知:Chinese 1为“《难以置信的毁灭中的珍宝》”,P(index)=6,通过上述步骤获得;Chinese 1的分词结果为“《,难以置信,的,毁灭,中,的,珍宝,》”,通过上述步骤获得。此时求用户触发点相关的名词或词语。其中,Chinese 1的P(6)个文字是“毁”,那便从这个字开始寻找(对照上述表1):
两个字的文本:“的”、“灭”
三个字的文本:“信的”、“的灭”、“灭中”
四个字的文本:“置信的”、“信的灭”、“的灭中”、“灭中的”
五个字的文本:……
N个字的文本:……
其中,N为大于或等于0的整数,N=Max(Chinese 1的长度),这样即使“《难以置信的毁灭中的珍宝》”整体是一个专有名词,也可以识别出来。最后输出在WORDS中的文本词组:USER_WORDS=[“毁灭”]。
在步骤S1060中,调用语料库查询目标词语的关联信息。
调用名词释义查询接口即语料库的接口获取关联信息,查询时可以设置为优先从长度较长的词组进行查询。其中,名词释义查询接口包含但不限于:XX百科等。如果是查询名词的外文翻译,调用相关的翻译接口进行查询即可。
本公开实施方式提供的图像处理方法,是一种基于OCR文字识别技术和词法分析技术实现的字幕词语解释方法。当用户双击或长按视频的字幕区域时,视频系统截取包括整个字幕区域的第一字幕图片和包括用户触发点左侧部分的第二字幕图片;然后使用OCR技术识别两张字幕图片的文本内容,即获得第一字幕文本内容和第二字幕文本内容,可以根据第一字幕文本内容和第二字幕文本内容以及第一字幕文本内容的分词结果,计算出用户点击的相关词语(可能存在多个)作为目标词语,最后调用名词释义查询接口返回相关内容即目标词语的关联信息,并呈现在视频浮层中。
图21示出了图3中所示的步骤S330在一实施例中的处理过程示意图。本公开实施例中,当目标词语中包括多个词语或词组时,可以先将步骤S1050输出的用户触发点相关的名词即目标词语USER_WORDS按照词组的长度进行排序,长的排在最前面,短的排在最后面。
如图21所示,本公开实施例中,上述步骤S330可以进一步包括以下步骤。
在步骤S331中,显示第一词语的第一部分关联信息及其第一展开显示控件。
以目标词语包括第一词语和第二词语为例,假设第一词语的长度大于第二词语的长度,当同时显示多个词语的关联信息时,为了浮层能够清晰的显示关联信息,且不占据整个视频播放窗口,此时目标词语的关联信息可以包括第一词语的第一部分关联信息和第二部分关联信息以及第二词语的第一部分关联信息和第二部分关联信息。
初始时,可以仅在浮层中显示第一词语的第一部分关联信息及其第一展开显示控件,该第一展开显示控件是用于在需要时进一步显示第一词语的第二部分关联信息的。
在步骤S332中,显示第二词语的第一部分关联信息及其第二展开显示控件。
类似的,刚开始时,可以仅在浮层中显示第二词语的第一部分关联信息及其第二展开显示控件,该第二展开显示控件是用于在需要时进一步显示第二词语的第二部分关联信息的。
在步骤S333中,响应于对第一展开显示控件的触发操作,显示第一词语的第二部分关联信息。
例如,若用户点击第一展开显示控件,则可以进一步显示第一词语的第二部分关联信息,以让用户了解该目标词语更多的详细信息。
在步骤S334中,响应于对第二展示显示控件的触发操作,显示第二词语的第二部分关联信息。
或者,当用户点击第二展开显示控件时,则可以进一步显示第二词语的第二部分关联信息。
对于一些目标词语由多个词语组成的情况,例如,如图22所示,自由女神像,可以有“自由”、“女神”和“自由女神像”几个词,此时,视频系统优先显示长词语“自由女神像”的部分释义内容即第一词语的第一部分关联信息,随后紧跟着短词语“自由”和“女神”的部分释义内容即第二词语的第一部分关联信息,用户点击哪个词语的展示显示控件,浮层再显示对应词语的更多内容。
可以理解的是,本公开并不限定上述举例说明,在其他实施例中,也可以设置为在浮层中优先显示目标词语中的短词语的部分释义内容。在一些实施例中,还可以将目标词语中的多个词语的全部关联信息均完整的显示出来。在一些实施例中,即使目标词语只包括一个词语,也可以开始仅显示该词语的部分关联信息及其展开显示控件,在用户点击展开显示控件时,再进一步显示该词语的更多关联信息。
图23示出了图3中所示的步骤S330在一实施例中的处理过程示意图。如图23所示,本公开实施例中,上述步骤S330可以进一步包括以下步骤。
在步骤S335中,获取系统语言。
这里的系统语言是指终端的操作系统设定的默认语言,例如默认是中文。
在步骤S336中,以系统语言显示目标词语的关联信息。
初始时,系统自动以系统语言显示目标词语的关联信息,可以不管此时用户长按或者双击的是字幕区域的何种语言,例如上述图11中,字幕区域同时包括中文和英文,若系统语言是英文,虽然用户点击的是中文“毁”,同样可以以英文显示关联信息。
在其他实施例中,可以同时以系统语言和另一种或者多种其他语言显示目标词语的关联信息,可以设置这些不同语言显示的优先级,例如可以设置优先以系统语言显示关联信息。
在一些实施例中,也可以根据触发点所在的语言类型来决定关联信息所采用的显示语言。还是以图11为例,若用户点击的是中文“毁”,则可以中文显示关联信息,若用户点击的是“in”,则以英文显示关联信息。
图24示出了图3中所示的步骤S330在一实施例中的处理过程示意图。如图24所示,本公开实施例中,上述步骤S330可以进一步包括以下步骤。
在步骤S337中,显示语言选择控件,语言选择控件包括系统语言和第一语言。
在以系统语言显示关联信息的同时,还可以在浮层中显示语言选择控件,语言选择控件中可以包括系统语言和第一语言,这里第一语言可以是指系统语言以外的其他任意一种或者多种语言。
在步骤S338中,响应于对语言选择控件的选择指令,从第一语言中确定目标语言。
用户可以在语言选择控件中进行选择,从第一语言中点击选中任意一种语言作为目标语言。
在步骤S339中,切换至以目标语言显示目标词语的关联信息。
此时,可以从系统语言切换至以目标语言来显示关联信息,用户也可以再点击语言选择控件中的系统语言,重新回到以系统语言显示关联信息。即虽然设置为浮层中的关联信息优先以系统语言显示,但用户可以在浮层的语言选择控件中重新选择释义语言(language)。
例如,如图25所示,假设系统语言为中文,则在浮层的释义正文描述区域用中文描述了目标词语“米开朗基罗”的关联信息,同时,浮层还包括语言选择控件,该语言选择控件中假设同时包括中文、英语、法语、日语等多种语言,用户可以从中选择任意一种语言来显示关联信息。选中的语言可以突出显示,例如:文字下方增加横线(图25中在中文下方加横线),和/或文字颜色高亮,和/或文字加粗等。
图26示意性示出了根据本公开的一实施例的图像处理方法的流程图。如图26所示,与上述实施例的不同之处在于,本公开实施例提供的方法可以进一步包括以下步骤。
在步骤S2610中,显示与目标词语相关的推广信息。
视频系统中可以提供广告投放业务,这里的推广信息可以包括但不限于:广告、通知、寻人启事、百科资料、网站链接等中的至少一种。这里以广告来举例说明。
在步骤S2620中,若推广信息中包括推广链接,则响应于对推广链接的触发操作,显示与推广信息相应的推广界面。
本公开实施例中,推广信息中可以包括推广链接,用户若对这个推广信息感兴趣,可以点击该推广链接,触发跳转到相应的推广界面,或者在视频播放窗口中以浮层形式显示该推广界面。
例如,如图27所示,可在特定场景插入与目标词语相关的广告,如目标词语“米开朗基罗”,可在浮层中显示米开朗基罗的作品所在地理位置“意大利佛罗伦萨美术学院”以及其故乡“托斯卡纳阿雷佐”的推广链接,并提供相关地点的旅游类产品,用户点击推广链接后即可立即预览相关旅游产品内容。
由于推广信息占据了浮层的一部分面积,此时可以仅显示目标词语的部分关联信息及其展开显示控件(如这里的“展开更多>>”),当用户点击[展开更多]再出现余下的释义内容。
在一些实施例中,推广信息中可以不包括推广链接,直接将推广信息中的文字、视频、图片、音频等信息展示给用户即可。
在一些实施例中,所述方法还可以包括:将目标词语及其关联信息存储于区块链(Blockchain)中。且不限于此,还可以上述实施例中的目标词语的推广信息、与推广信息相应的推广界面等任意的信息均存储于区块链中。本公开实施例提供的方法的执行主体可以作为区块链系统中的一个节点。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本公开实施方式提供的图像处理方法,一方面,可以在没有字幕组件的情况下,直接使用OCR技术对视频帧图片中的字幕进行文字识别,然后结合分词技术定位到用户点击或长按的词语,然后调用相应的接口返回该词语的关联信息,并呈现在视频显示屏中,解除了字幕组件的限制,可以适用于几乎所有视频系统,而无需在每个视频系统中都开发一套字幕组件。另一方面,用户观看晦涩难懂的视频时,能够实时点击字幕查看关联信息,更方便快速地理解相关词汇,加深对视频内容的理解。此外,在浮层中显示词语的关联信息的同时,还可以嵌入与该词语相关的广告,可以实现广告的精准投放。
图28示意性示出了根据本公开的一实施例的图像处理装置的框图。
如图28所示,本公开实施方式提供的图像处理装置2800可以包括:图片显示单元2810、词语确定单元2820以及关联显示单元2830。
其中,图片显示单元2810可以用于播放目标视频,显示目标视频的当前帧图片,当前帧图片包括字幕区域。词语确定单元2820可以用于响应于对字幕区域的触发操作,确定字幕区域中的目标词语。关联显示单元2830可以用于显示目标词语的关联信息。
在示例性实施例中,词语确定单元2820可以包括:第一图片裁剪单元,可以用于从当前帧图片中裁剪包括字幕区域的第一字幕图片;触发点确定单元,可以用于响应于对字幕区域的触发操作,确定触发点;第二图片裁剪单元,可以用于根据触发点和第一字幕图片,从当前帧图片中裁剪第二字幕图片;图片文本识别单元,可以用于分别对第一字幕图片和第二字幕图片进行识别,获得第一字幕图片的第一字幕文本内容和第二字幕图片的第二字幕文本内容;位置确定单元,可以用于根据第一字幕文本内容及第二字幕文本内容确定触发点在第一字幕文本内容中的位置信息;文本分词单元,可以用于获取第一字幕文本内容的分词结果;目标词语确定单元,可以用于根据位置信息和分词结果,确定目标词语。
在示例性实施例中,第二图片裁剪单元可以包括:字体大小获取单元,可以用于获取字幕区域中的字体大小;半字宽度确定单元,可以用于根据字体大小确定半字宽度;图片宽度确定单元,可以用于根据触发点和半字宽度确定第二字幕图片的宽度;图片高度确定单元,可以用于根据第一字幕图片的目标角坐标和高度,确定第二字幕图片的目标角坐标和高度。
在示例性实施例中,位置确定单元可以包括:原始长度获取单元,可以用于获取第二字幕文本内容的原始长度;文本字符删除单元,可以用于若第二字幕文本内容不在第一字幕文本内容中整体存在,则删掉第二字幕文本内容的第一顶端字符,直至第二字幕文本内容在第一字幕文本内容中整体存在或者第二字幕文本内容的长度为零;触发点位置确定单元,可以用于根据整体存在于第一字幕文本内容的第二字幕文本内容的长度和原始长度,确定位置信息。
在示例性实施例中,目标词语确定单元可以包括:候选词获得单元,可以用于以位置信息为起始点,向第一字幕文本内容的左右两侧进行扩散,直至全部包括第一字幕文本内容,获得包括位置信息所在字的候选词;目标词语匹配单元,可以用于若候选词与分词结果匹配,则确定匹配的候选词为目标词语。
在示例性实施例中,目标词语可以包括第一词语和第二词语,第一词语的长度可以大于第二词语的长度,关联信息可以包括第一词语的第一部分关联信息和第二部分关联信息以及第二词语的第一部分关联信息和第二部分关联信息。其中,关联显示单元2830可以包括第一展开控件显示单元和第二展开控件显示单元,以及第一词语部分关联信息显示单元或第二词语部分关联信息显示单元。其中,第一展开控件显示单元可以用于显示第一词语的第一部分关联信息及其第一展开显示控件。第二展开控件显示单元可以用于显示第二词语的第一部分关联信息及其第二展开显示控件。第一词语部分关联信息显示单元可以用于响应于对第一展开显示控件的触发操作,显示第一词语的第二部分关联信息。第二词语部分关联信息显示单元可以用于响应于对第二展示显示控件的触发操作,显示第二词语的第二部分关联信息。
在示例性实施例中,关联显示单元2830可以包括:系统语言获取单元,可以用于获取系统语言;系统语言显示单元,可以用于以系统语言显示目标词语的关联信息。
在示例性实施例中,关联显示单元2830还可以包括:语言控件显示单元,可以用于显示语言选择控件,语言选择控件包括系统语言和第一语言;目标语言确定单元,可以用于响应于对语言选择控件的选择指令,从第一语言中确定目标语言;目标语言显示单元,可以用于切换至以目标语言显示目标词语的关联信息。
在示例性实施例中,关联显示单元2830可以包括:浮层显示单元,可以用于在当前帧图片上与目标词语相关的目标位置,以浮层形式显示关联信息。
在示例性实施例中,图像处理装置2800还可以包括:推广信息显示单元,可以用于显示与目标词语相关的推广信息;推广界面显示单元,可以用于若推广信息中包括推广链接,则响应于对推广链接的触发操作,显示与推广信息相应的推广界面。
在示例性实施例中,图像处理装置2800还可以包括:信息存储单元,可以用于将目标词语及其关联信息存储于区块链中。
本公开实施例提供的图像处理装置中的各个单元的具体实现可以参照上述图像处理方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (22)

1.一种图像处理方法,其特征在于,包括:
播放目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;
响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语;
显示所述目标词语的关联信息;
其中,响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语,包括:
从所述当前帧图片中裁剪包括所述字幕区域的第一字幕图片;
响应于对所述字幕区域的触发操作,确定触发点;
根据所述触发点和所述第一字幕图片,从所述当前帧图片中裁剪第二字幕图片;
分别对所述第一字幕图片和所述第二字幕图片进行识别,获得所述第一字幕图片的第一字幕文本内容和所述第二字幕图片的第二字幕文本内容;
根据所述第一字幕文本内容及第二字幕文本内容确定所述触发点在所述第一字幕文本内容中的位置信息;
获取所述第一字幕文本内容的分词结果;
根据所述位置信息和所述分词结果,确定所述目标词语。
2.根据权利要求1所述的图像处理方法,其特征在于,根据所述触发点和所述第一字幕图片,从所述当前帧图片中裁剪第二字幕图片,包括:
获取所述字幕区域中的字体大小;
根据所述字体大小确定半字宽度;
根据所述触发点和所述半字宽度确定所述第二字幕图片的宽度;
根据所述第一字幕图片的目标角坐标和高度,确定所述第二字幕图片的目标角坐标和高度。
3.根据权利要求2所述的图像处理方法,其特征在于,根据所述第一字幕文本内容及第二字幕文本内容确定所述触发点在所述第一字幕文本内容中的位置信息,包括:
获取所述第二字幕文本内容的原始长度;
若所述第二字幕文本内容不在所述第一字幕文本内容中整体存在,则删掉所述第二字幕文本内容的第一顶端字符,直至所述第二字幕文本内容在所述第一字幕文本内容中整体存在或者所述第二字幕文本内容的长度为零;
根据整体存在于所述第一字幕文本内容的所述第二字幕文本内容的长度和所述原始长度,确定所述位置信息。
4.根据权利要求1至3任一项所述的图像处理方法,其特征在于,根据所述位置信息和所述分词结果,确定所述目标词语,包括:
以所述位置信息为起始点,向所述第一字幕文本内容的左右两侧进行扩散,直至全部包括所述第一字幕文本内容,获得包括所述位置信息所在字的候选词;
若所述候选词与所述分词结果匹配,则确定匹配的候选词为所述目标词语。
5.根据权利要求1所述的图像处理方法,其特征在于,所述目标词语包括第一词语和第二词语,所述第一词语的长度大于所述第二词语的长度,所述关联信息包括所述第一词语的第一部分关联信息和第二部分关联信息以及所述第二词语的第一部分关联信息和第二部分关联信息;其中,显示所述目标词语的关联信息,包括:
显示所述第一词语的第一部分关联信息及其第一展开显示控件;
显示所述第二词语的第一部分关联信息及其第二展开显示控件;
响应于对所述第一展开显示控件的触发操作,显示所述第一词语的第二部分关联信息;或者
响应于对所述第二展示显示控件的触发操作,显示所述第二词语的第二部分关联信息。
6.根据权利要求1所述的图像处理方法,其特征在于,显示所述目标词语的关联信息,包括:
获取系统语言;
以系统语言显示所述目标词语的关联信息。
7.根据权利要求6所述的图像处理方法,其特征在于,显示所述目标词语的关联信息,还包括:
显示语言选择控件,所述语言选择控件包括所述系统语言和第一语言;
响应于对所述语言选择控件的选择指令,从所述第一语言中确定目标语言;
切换至以所述目标语言显示所述目标词语的关联信息。
8.根据权利要求1所述的图像处理方法,其特征在于,显示所述目标词语的关联信息,包括:
在所述当前帧图片上与所述目标词语相关的目标位置,以浮层形式显示所述关联信息。
9.根据权利要求1所述的图像处理方法,其特征在于,还包括:
显示与所述目标词语相关的推广信息;
若所述推广信息中包括推广链接,则响应于对所述推广链接的触发操作,显示与所述推广信息相应的推广界面。
10.根据权利要求1所述的图像处理方法,其特征在于,还包括:
将所述目标词语及其关联信息存储于区块链中。
11.一种图像处理装置,其特征在于,包括:
图片显示单元,用于播放目标视频,显示所述目标视频的当前帧图片,所述当前帧图片包括字幕区域;
词语确定单元,用于响应于对所述字幕区域的触发操作,确定所述字幕区域中的目标词语;
关联显示单元,用于显示所述目标词语的关联信息;
其中,所述词语确定单元包括:
第一图片裁剪单元,用于从当前帧图片中裁剪包括字幕区域的第一字幕图片;
触发点确定单元,用于响应于对字幕区域的触发操作,确定触发点;
第二图片裁剪单元,用于根据触发点和第一字幕图片,从当前帧图片中裁剪第二字幕图片;
图片文本识别单元,用于分别对第一字幕图片和第二字幕图片进行识别,获得第一字幕图片的第一字幕文本内容和第二字幕图片的第二字幕文本内容;
位置确定单元,用于根据第一字幕文本内容及第二字幕文本内容确定触发点在第一字幕文本内容中的位置信息;
文本分词单元,用于获取第一字幕文本内容的分词结果;
目标词语确定单元,用于根据位置信息和分词结果,确定目标词语。
12.根据权利要求11所述的图像处理装置,其特征在于,所述第二图片裁剪单元包括:
字体大小获取单元,用于获取所述字幕区域中的字体大小;
半字宽度确定单元,用于根据所述字体大小确定半字宽度;
图片宽度确定单元,用于根据所述触发点和所述半字宽度确定所述第二字幕图片的宽度;
图片高度确定单元,用于根据所述第一字幕图片的目标角坐标和高度,确定所述第二字幕图片的目标角坐标和高度。
13.根据权利要求12所述的图像处理装置,其特征在于,所述位置确定单元包括:
原始长度获取单元,用于获取所述第二字幕文本内容的原始长度;
文本字符删除单元,用于若所述第二字幕文本内容不在所述第一字幕文本内容中整体存在,则删掉所述第二字幕文本内容的第一顶端字符,直至所述第二字幕文本内容在所述第一字幕文本内容中整体存在或者所述第二字幕文本内容的长度为零;
触发点位置确定单元,用于根据整体存在于所述第一字幕文本内容的所述第二字幕文本内容的长度和所述原始长度,确定所述位置信息。
14.根据权利要求11至13任一项所述的图像处理装置,其特征在于,所述目标词语确定单元包括:
候选词获得单元,用于以所述位置信息为起始点,向所述第一字幕文本内容的左右两侧进行扩散,直至全部包括所述第一字幕文本内容,获得包括所述位置信息所在字的候选词;
目标词语匹配单元,用于若所述候选词与所述分词结果匹配,则确定匹配的候选词为所述目标词语。
15.根据权利要求11所述的图像处理装置,其特征在于,所述目标词语包括第一词语和第二词语,所述第一词语的长度大于所述第二词语的长度,所述关联信息包括所述第一词语的第一部分关联信息和第二部分关联信息以及所述第二词语的第一部分关联信息和第二部分关联信息;
其中,所述关联显示单元包括第一展开控件显示单元和第二展开控件显示单元,以及第一词语部分关联信息显示单元或第二词语部分关联信息显示单元,其中,
所述第一展开控件显示单元用于显示所述第一词语的第一部分关联信息及其第一展开显示控件;
所述第二展开控件显示单元用于显示所述第二词语的第一部分关联信息及其第二展开显示控件;
所述第一词语部分关联信息显示单元用于响应于对所述第一展开显示控件的触发操作,显示所述第一词语的第二部分关联信息;
所述第二词语部分关联信息显示单元用于响应于对所述第二展示显示控件的触发操作,显示所述第二词语的第二部分关联信息。
16.根据权利要求11所述的图像处理装置,其特征在于,所述关联显示单元包括:
系统语言获取单元,用于获取系统语言;
系统语言显示单元,用于以系统语言显示所述目标词语的关联信息。
17.根据权利要求16所述的图像处理装置,其特征在于,所述关联显示单元还包括:
语言控件显示单元,用于显示语言选择控件,所述语言选择控件包括所述系统语言和第一语言;
目标语言确定单元,用于响应于对所述语言选择控件的选择指令,从所述第一语言中确定目标语言;
目标语言显示单元,用于切换至以所述目标语言显示所述目标词语的关联信息。
18.根据权利要求11所述的图像处理装置,其特征在于,所述关联显示单元包括:
浮层显示单元,用于在所述当前帧图片上与所述目标词语相关的目标位置,以浮层形式显示所述关联信息。
19.根据权利要求11所述的图像处理装置,其特征在于,还包括:
推广信息显示单元,用于显示与所述目标词语相关的推广信息;
推广界面显示单元,用于若所述推广信息中包括推广链接,则响应于对所述推广链接的触发操作,显示与所述推广信息相应的推广界面。
20.根据权利要求11所述的图像处理装置,其特征在于,还包括:
信息存储单元,用于将所述目标词语及其关联信息存储于区块链中。
21.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的图像处理方法。
22.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的图像处理方法。
CN201911366370.6A 2019-12-26 2019-12-26 图像处理方法及装置、电子设备和计算机可读存储介质 Active CN111107422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911366370.6A CN111107422B (zh) 2019-12-26 2019-12-26 图像处理方法及装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911366370.6A CN111107422B (zh) 2019-12-26 2019-12-26 图像处理方法及装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111107422A CN111107422A (zh) 2020-05-05
CN111107422B true CN111107422B (zh) 2021-08-24

Family

ID=70425441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911366370.6A Active CN111107422B (zh) 2019-12-26 2019-12-26 图像处理方法及装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111107422B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113068077B (zh) * 2020-01-02 2023-08-25 腾讯科技(深圳)有限公司 一种字幕文件处理方法及装置
CN111918000B (zh) * 2020-07-13 2023-08-15 咪咕视讯科技有限公司 一种描边方法、设备及可读存储介质
CN111970577B (zh) * 2020-08-25 2023-07-25 北京字节跳动网络技术有限公司 字幕编辑方法、装置和电子设备
CN112954455B (zh) * 2021-02-22 2023-01-20 北京奇艺世纪科技有限公司 一种字幕跟踪方法、装置及电子设备
CN115689860A (zh) * 2021-07-23 2023-02-03 北京字跳网络技术有限公司 视频蒙层显示方法、装置、设备及介质
CN113596562B (zh) * 2021-08-06 2023-03-28 北京字节跳动网络技术有限公司 视频处理方法、装置、设备和介质
CN114968463A (zh) * 2022-05-31 2022-08-30 北京字节跳动网络技术有限公司 实体展示方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465866B2 (en) * 2011-06-09 2016-10-11 International Business Machines Corporation Task context recovery
CN102789385B (zh) * 2012-08-15 2016-03-23 魔方天空科技(北京)有限公司 视频文件播放器和视频文件播放的处理方法
CN106060636A (zh) * 2016-06-29 2016-10-26 北京酷云互动科技有限公司 显示方法和显示系统
CN107862315B (zh) * 2017-11-02 2019-09-17 腾讯科技(深圳)有限公司 字幕提取方法、视频搜索方法、字幕分享方法及装置
CN110471599A (zh) * 2019-08-14 2019-11-19 广东小天才科技有限公司 屏幕取词搜索方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111107422A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111107422B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
US10380227B2 (en) Generating layout for content presentation structures
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
US20230393810A1 (en) Analyzing graphical user interfaces to facilitate automatic interaction
CN112689189B (zh) 一种视频展示、生成方法及装置
KR102117433B1 (ko) 인터액티브 비디오 생성
CN108182211B (zh) 视频舆情获取方法、装置、计算机设备及存储介质
CN112287914B (zh) Ppt视频段提取方法、装置、设备及介质
US8671389B1 (en) Web application resource manager on the web and localizable components
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
CN103984772A (zh) 文本检索字幕库生成方法和装置、视频检索方法和装置
WO2019020061A1 (zh) 视频台词处理方法、客户端、服务器及存储介质
CN113536172B (zh) 一种百科信息展示的方法、装置及计算机存储介质
CN109558513A (zh) 一种内容推荐方法、装置、终端及存储介质
CN111898388A (zh) 视频字幕翻译编辑方法、装置、电子设备及存储介质
CN112995749A (zh) 视频字幕的处理方法、装置、设备和存储介质
WO2023045635A1 (zh) 多媒体文件的字幕处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112230838A (zh) 一种文章处理方法、装置、设备及计算机可读存储介质
JP2023549903A (ja) マルチメディアのインタラクション方法、情報インタラクション方法、装置、機器及び媒体
CN111787409A (zh) 影视评论数据处理方法及装置
CN113886612A (zh) 一种多媒体浏览方法、装置、设备及介质
JP6506427B1 (ja) 情報処理装置、動画検索方法、生成方法及びプログラム
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN112711954A (zh) 翻译方法、装置、电子设备和存储介质
US8452814B1 (en) Gathering context in action to support in-context localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant