CN112926420B

CN112926420B - 一种显示设备和菜单文字识别方法

Info

Publication number: CN112926420B
Application number: CN202110177833.5A
Authority: CN
Inventors: 苗坤; 代伟; 孙凯
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-11-08
Anticipated expiration: 2041-02-09
Also published as: CN112926420A

Abstract

本申请提供了一种显示设备和菜单文字识别方法，显示设备包括：显示器、用户接口和控制器；显示器被配置为显示用户界面，所述用户界面包括菜单，所述菜单包括多个菜单设置项；控制器被配置为用以执行如下步骤：响应于用户输入的文字识别指令，在所述菜单对应的菜单图像中生成目标检测框，每个目标检测框中包含一个菜单设置项；对目标检测区域进行边缘检测，得到每个菜单设置项中的多个检测单元，所述目标检测区域为所述菜单图像中通过所述目标检测框选取的区域；对所述检测单元进行区域归类，得到文字区域；对所述文字区域进行文字识别处理。通过将图标和文字区分开，使得识别结果中不会出现乱码，可以准确识别电视菜单中的文字。

Description

一种显示设备和菜单文字识别方法

技术领域

本申请涉及显示设备技术领域，尤其涉及一种显示设备和菜单文字识别方法。

背景技术

在人们的日常生活和工作中，有时需要对一些图像中的文字进行识别提取，从而得到图像中的相关信息。现有的文字识别一般采用OCR识别技术提取图像中的文字，通过将图像置于识别区域中，并对识别区域中设置一些固定区域，进而对固定区域进行文字识别，以得到这些固定区域中的相关文字。

然而本申请的发明人发现，当利用现有技术对电视的菜单进行文字识别时，不能够准确识别出需要的文字内容。电视菜单中会同时包括文字以及文字对应的图标，而不同类型的电视菜单中，图标和文字的间距及位置关系都不一样。利用预先设置好的固定区域对不同类型的菜单进行识别时，无法保证固定区域中只包含文字部分。当固定区域中出现图标时，识别结果中会出现乱码，导致文字识别错误。因此现有技术在进行文字识别时的准确率较低。

发明内容

本发明提供了一种显示设备和菜单文字识别方法。以解决相关技术中，在对电视菜单进行文字识别时，识别结果中会出现乱码，导致文字识别错误的问题。

一方面，本申请提供一种显示设备，所述显示设备包括：显示器、用户接口和控制器；显示器被配置为显示用户界面，所述用户界面包括菜单，所述菜单包括多个菜单设置项；用户接口被配置为接收用户输入的指令；控制器被配置为用以执行如下步骤：响应于用户输入的文字识别指令，在所述菜单对应的菜单图像中生成目标检测框，每个目标检测框中包含一个菜单设置项；对目标检测区域进行边缘检测，得到每个菜单设置项中的多个检测单元，所述目标检测区域为所述菜单图像中通过所述目标检测框选取的区域；对所述检测单元进行区域归类，得到文字区域；对所述文字区域进行文字识别处理。

在一些实现方式中，所述控制器在执行所述在所述菜单界面对应的菜单图像中生成目标检测框的步骤之前，还被配置为：响应于用户输入的文字识别指令，对显示器中显示的用户界面进行截图处理，得到所述菜单对应的菜单图像。

在一些实现方式中，所述控制器在执行所述在所述菜单界面对应的菜单图像中生成目标检测框的步骤时，进一步被配置为：基于目标检测方法对所述菜单图像进行处理，得到目标检测框。

在一些实现方式中，所述目标检测方法包括yolo算法。

在一些实现方式中，所述控制器在执行基于开源目标检测方法对所述菜单图像进行处理，得到多个目标检测框的步骤时，进一步被配置为：将所述菜单图像输入到目标检测方法中，得到检测信息，所述检测信息包括每个菜单设置项对应的多个识别框的识别准确率和识别框坐标；所述识别框坐标包括识别框一侧的顶点坐标和另一侧的底点坐标；将识别准确率最大的识别框作为菜单设置项对应的目标检测框。

在一些实现方式中，所述控制器在执行对目标检测区域进行边缘检测，得到每个菜单设置项中的多个检测单元的步骤时，进一步被配置为：当所述目标检测框中包括文字和图标时，基于边缘检测方法对所述目标检测区域进行处理，得到边缘检测信息，所述边缘检测信息包括检测单元的中心点坐标以及检测单元中的每个像素点的坐标信息；所述检测单元包括文字检测单元和图标检测单元。

在一些实现方式中，所述边缘检测方法包括canny算法。

在一些实现方式中，所述控制器在执行对所述检测单元进行区域归类，得到文字区域的步骤时，进一步被配置为：对每个菜单设置项中的所有检测单元的中心点坐标进行递归运算，得到若干个中心点坐标间距差值；基于所述中心点坐标间距差值生成若干个边缘检测区域；对所述边缘检测区域进行区域合并处理，得到每个菜单设置项的图标区域和文字区域；所述图标区域为图标检测单元，所述文字区域由所有的文字检测单元构成。

在一些实现方式中，所述控制器在执行对所有检测单元的中心点坐标进行递归运算，得到若干个中心点坐标间距差值的步骤时，被进一步配置为：将所有的检测单元依次排列，并获取所有检测单元的中心点坐标的x坐标；对所有的x坐标进行递归减法计算，得到若干个中心点坐标间距差值。

在一些实现方式中，所述控制器在执行基于所述中心点坐标间距差值生成若干个边缘检测区域的步骤时，被进一步配置为：如果所述中心点坐标间距差值超过预设的间距阈值，则所述中心点坐标间距差值为一个区域分割点；基于所述区域分割点将所有的检测单元划分为若干个边缘检测区域。

在一些实现方式中，所述控制器在执行对所述边缘检测区域进行区域合并处理，得到图标区域和文字区域的步骤时，被进一步配置为：当所述边缘检测区域的数量大于1时，判断第一个边缘检测区域的宽度是否大于最后一个边缘检测区域的宽度；所述边缘检测区域的宽度为边缘检测区域中所有检测单元的所有像素点的所有x坐标中的最大值和最小值的差值；若是，则最后一个边缘检测区域为图标区域；若否，则第一个边缘检测区域为图标区域；将图标区域之外的所有边缘检测区域进行合并，得到每个菜单设置项的文字区域。

另一方面，本申请还提供一种菜单文字识别方法，该识别方法可以应用于显示设备，所述方法包括：

响应于用户输入的文字识别指令，在菜单对应的菜单图像中生成目标检测框，每个目标检测框中包含一个菜单设置项；

对目标检测区域进行边缘检测，得到每个菜单设置项中的多个检测单元，所述目标检测区域为所述菜单图像中通过所述目标检测框选取的区域；

对所述检测单元进行区域归类，得到文字区域；

对所述文字区域进行文字识别处理。

由以上技术方案可以看出，本申请提供了一种显示设备和菜单文字识别方法，可以对电视菜单进行文字识别，并将菜单中的文字和图标区分开，得到只包括文字的文字区域，使得识别结果中不会出现乱码，可以准确识别电视菜单中的文字。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的显示设备的使用场景；

图2示出了根据一些实施例的控制装置100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的显示设备200中软件配置图；

图5示例性示出了本申请中一种遥控器的示意图；

图6示例性示出了本申请一些实施例中的菜单图像的示意图；

图7a至图7c示例性示出了本申请一些实施例中的菜单设置项的示意图；

图8示例性示出了本申请一些实施例中的菜单设置项“Picture”对应的两个识别框的示意图；

图9为本申请提供的的菜单文字识别方法的一个实施例的流程示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

随着显示设备的发展，人们对显示设备功能的要求也越来越多。其中，对显示设备显示的画面进行文字识别也是人们的需求之一。例如，对显示设备的菜单界面进行文字识别，从而得到菜单界面中的所有菜单设置项。现有的文字识别一般采用OCR识别技术用以提取图像中的文字，例如，身份证识别，车票识别和发票识别等。然而，现有技术在进行文字识别时，是通过将图像置于识别区域中，并对识别区域中的固定区域进行文字识别，以得到这些固定区域中的相关文字，因此文字识别的排版样式较为固定。当对电视的菜单界面进行文字识别时，由于不同机型电视的菜单界面中，图标和文字的间距及位置关系都不一样，如果采用现有方法进行识别，会导致固定区域中出现图标，此时会对图标和文字同时进行识别，导致识别结果中出现图标识别的乱码，识别准确率较低，给用户的体验性较差。

为了解决上述技术问题，本申请实施例提供一种显示设备，包括：

显示器，被配置为显示用户界面，用户界面包括菜单，菜单包括多个菜单设置项；用户接口，被配置为接收用户输入的指令；控制器。

本申请示例性示出了一种显示设备，该显示设备能够接收用户发送的文字识别指令。文字识别指令可以由用户直接向显示设备发送，也可以由用户通过手机、遥控器等设备向显示设备发送。

在一些实施例中，用户可以通过操作遥控器的指定文字识别按键，向显示设备发送文字识别指令。在实际应用的过程中预先绑定文字识别指令与遥控器按键之间的对应关系。例如，在遥控器上设置一个文字识别按键，具体的，可以参阅图5，图5为根据一可行性实施例提供的遥控器的示意图，图5提供的遥控器中具有文字识别按键101，当用户触控该按键时，遥控器发送文字识别指令至控制器，此时控制器对当前的菜单界面进行文字识别。

在一些实施例中，也可以预先绑定文字识别指令与多个遥控器按键之间的对应关系，当用户触控与文字识别指令绑定的多个按键时，遥控器发出文字识别指令。在一可行性实施例中，文字识别指令绑定的按键为方向键(左、下、左、下)，只有用户在预设时间内连续触控按键(左、下、左、下)的情况下，遥控器才发送文字识别指令至控制器。采用上述绑定方法，可以避免文字识别指令由于用户的误操作而发出。本申请实施例仅是示例性的提供几种文字识别指令与按键之间的绑定关系，在实际应用的过程中可以根据用户的习惯设定文字识别指令与按键之间的绑定关系，在此不做过多的限定。

在一些实施例中，用户可以通过语音的方式向显示设备输出文字识别指令。例如，用户可以语音输出“文字识别”，此时显示设备会接收到文字识别指令。显示设备接收到文字识别指令之后会唤起文字识别功能。

在一些实施例中，显示设备可以具有截图功能。显示设备响应于接收到的文字识别指令，可以对当前显示设备中显示的用户界面等进行截图操作，获得截图图像。所述截图图像可以包含当前显示的用户界面中的全部内容，也可以仅包含当前显示的用户界面中的部分内容。具体可以仅包含当前用户界面中的部分界面元素或部分区域所显示的内容，例如用户界面中的各种菜单。所述截图图像可以是静态图片，也可以是动态图片或视频等。

在一些实施例中，可以设置为：显示设备响应于用户输入的文字识别指令，通过控制器对显示器当前显示的用户界面中的菜单进行截图处理，得到的截图图像即为菜单对应的菜单图像。如图6所示，为显示设备中的一种菜单图像的示意图。

在一些实施例中，显示设备的菜单中可以包括多个菜单设置项，每个菜单设置项可以为电视功能项、模式以及调节选项等。菜单设置项中可以包括文字以及文字对应的图标，图标可以为功能示例图标，也可以为调节状态图标。

在一些实施例中，菜单设置项可以分为多个等级。例如，设定一级菜单设置项为电视的功能项，例如：图片、声音、网络等功能项。如图6所示，共包括三个第一级菜单设置项：图像设置项、声音设置项和网络设置项。其中，图片设置项包括文字“Picture”以及左侧的图像图标，声音设置项包括文字“Sound”以及左侧的声音图标，网络设置项包括文字“Network”以及左侧的网络图标。

二级菜单设置项可以设定为一级菜单设置项的各个子功能项。如图6所示，选中的图像设置项中，共包括三个二级菜单设置项：图像模式、图像比例和智能情景。其中，图像模式包括文字“Picture Mode”以及右侧的箭头图标。图像比例包括文字“Aspect Ratio”以及右侧的箭头图标。智能情景包括文字“Smart Scene”以及右侧的指示图标。图像设置项对应的二级菜单设置项还可以包括图片分辨率等，本申请在此不做过多限定。

在一些实施例中，当生成菜单对应的菜单图像后，控制器可以在菜单图像中生成目标检测框。每个菜单图像中可以生成多个目标检测框，每个目标检测框中均包含一个菜单设置项。

在一些实施例中，可以控制每个目标检测框中包含其仅包含一个菜单设置项，同时每个菜单设置项分别在不同的目标检测框中。因此多个目标检测框能够将一个菜单图像中的不同菜单设置项区分开来，从而得到每个菜单设置项中的文字内容。防止在文字识别过程中多个菜单设置项中文字内容发生混淆。

在一些实施例中，在设定菜单设置项时，可以让每个菜单设置项全部同时包括文字和图标，因此每个目标检测框中也必定同时包括文字和图标。在菜单设置项中，文字和图标的间距及位置关系可以由用户自行设定。

图7a-7c示出了显示设备的几种菜单设置项。如图7a所示，为文字在左侧，图标在右侧设置的菜单设置项形式。图7b为文字在右侧，图标在左侧设置的菜单设置项形式。图7c为文字在左侧，图标在右侧，且图标和文字相距较近设置的菜单设置项形式。

在一些实施例中，可以采用目标检测方法对菜单图像进行处理，得到每个菜单图像的多个目标检测框。例如，采用yolo算法对菜单图像进行目标检测，还可以采用SSD算法。

在一些实施例中，将菜单图像输入到yolo算法中，可以得到菜单图像的检测信息。菜单图像的检测信息可以为每个菜单设置项对应的检测信息。检测信息可以包括每个菜单设置项对应的多个识别框的识别准确率和识别框坐标。其中，识别框坐标包括识别框一侧的顶点坐标和另一侧的底点坐标。

对于菜单设置项A来说，在利用yolo算法处理时，可能会多次生成识别框，从而得到菜单设置项A对应的多个识别框。如图8所示，为菜单设置项“Picture”对应的两个识别框的示意图。

这些识别框内的区域大致相同，均包含该菜单设置项A，但识别框整体的大小会有所差异，因此每个识别框的准确率也是不同的。

在一些实施例中，需要对同一个菜单设置项的多个识别框进行筛选，得到一个最终的目标检测框。具体可以将识别准确率最大的识别框作为菜单设置项对应的目标检测框，并根据目标检测框的识别框坐标得到目标检测框中的目标检测区域。具体的，目标检测区域为所述菜单图像中通过所述目标检测框选取的区域。

目标检测框中的区域即为菜单设置项A对应的目标检测区域，目标检测区域的坐标为(Xl，Yl)/(Xr，Yr)。其中，(Xl，Yl)表示目标检测框的左顶点坐标，(Xr，Yr)表示目标检测框的右底点坐标。也可采用目标检测框的右顶点坐标和左底点坐标来表示，本申请实施例不做限定。

通过目标检测区域的坐标即可得到每个菜单设置项的坐标。

在一些实施例中，通过对目标检测区域进行边缘检测，可以得到每个菜单设置项中的多个检测单元。其中，检测单元包括文字检测单元和图标检测单元。文字检测单元为菜单设置项中的文字，一个文字检测单元即为一个文字。图标检测单元为菜单设置项中的图标。每个菜单设置项中会同时包含若干个文字和一个图标，即每个菜单设置项中包含若干个个文字检测单元和一个图标检测单元。

例如，如图6中所示的菜单设置项“Picture”共包含8个检测对象，分别是图标和7个文字“P”、“i”、“c”、“t”、“u”、“r”、“e”。

菜单设置项“Picture Mode”共包含12个检测对象，分别是11个文字“P”、“i”、“c”、“t”、“u”、“r”、“e”；“M”、“o”、“d”、“e”和图标。

在一些实施例中，可以采用基于边缘检测方法对所述目标检测区域进行处理，得到边缘检测信息。例如，采用canny算法对目标检测区域进行处理。边缘检测信息可以包括检测单元的中心点坐标以及检测单元中的每个像素点的坐标信息。

在利用canny算法对目标检测区域进行边缘检测处理时，会识别出每个菜单设置项中的检测单元，以及每个检测单元中所有像素点的坐标信息和检测单元整体的中心点坐标Mi。Mi表示一个菜单设置项A中的第i个检测单元的中心点坐标。

在一些实施例中，识别出的所有检测单元是以菜单设置项中从左到右的顺序排列的，即对于菜单设置项“Picture”会依次得到图标、“P”、“i”、“c”、“t”、“u”、“r”、“e”8个检测单元以及相应的坐标信息。

通过边缘检测方法即可得到同一个菜单设置项中的所有的检测单元的坐标信息，从而将每个检测单元区分开来。

在一些实施例中，可以对检测单元进行区域归类处理，从而将多个检测单元中的文字检测单元和图标检测单元区分出来，得到仅仅包括文字检测单元且包括所有的文字检测单元的文字区域。具体的，每一个菜单设置项会对应一个文字区域。文字区域由菜单设置项中所有的文字检测单元组成，即由菜单设置项中所有的文字组成，因此实现了对菜单设置项中的文字和图标的分离。此时只需对文字区域进行简单的文字识别，即可得到每个菜单设置项中的所有文字内容，实现文字识别。

在一些实施例中，控制器对检测单元进行区域归类处理时，可以进一步被配置为：

将所有的检测单元依次排列，并获取所有检测单元的中心点坐标的x坐标。

需要说明的是，对所有的检测单元依次排列指的是按照菜单设置项中从左到右的顺序对每个检测单元进行排列，从而得到一序列按照顺序排列的检测单元，并获取这些检测单元的中心点x坐标，从而得到按照检测单元排列顺序的一系列中心点x坐标。

以菜单设置项“Picture”为例，排列后的检测单元依次为：图标、“P”、“i”、“c”、“t”、“u”、“r”、“e”。

以菜单设置项“Picture”为例，得到的所有的中心点x坐标为：图标“20”，七个文字的中心点x坐标依次为“63”、“71”、“78”、“85”、“91”、“99”、“106”。

以菜单设置项“Picture Mode”为例，得到的所有的中心点x坐标为：十一个文字的中心点x坐标依次为“10”、“18”、“25”、“32”、“38”、“46”、“53”、“68”、“75”、“81”、“88”，图标的中心点x坐标为“174”。

在一些实施例中，可以对每个菜单设置项的所有检测单元的中心点坐标进行递归运算，得到若干个中心点坐标间距差值。中心点坐标间距差值指的是相邻的两个检测单元的中心点坐标的x坐标的差值。

对于每个菜单设置项来说，其包含的图标和每个文字的坐标间距可能不同。中心点坐标间距差值可以体现出两个相邻的检测单元之间的间距情况，从一定程度上可以体现出两个检测单元是否可以构成一个单词。

以菜单设置项“Picture Mode”为例，“P”、“i”、“c”、“t”、“u”、“r”、“e”七个检测单元的中心点坐标间距差值相比于“e”和“M”的中心点坐标间距差值应该较小，因此可以判定“P”、“i”、“c”、“t”、“u”、“r”、“e”七个检测单元可以构成一个单词“Picture”。而“e”和“M”明显属于两个不同的单词。

在一些实施例中，可以对所有的x坐标进行递归减法计算，得到若干个中心点坐标间距差值。

通过对所有的x坐标进行递归减法计算，可以得到每两个相邻的检测单元的中心点坐标间距差值。如果菜单设置项中存在N个检测单元，则会得到N-1个中心点坐标间距差值。

以菜单设置项“Picture”为例，得到的所有的中心点坐标间距差值为：“43”、“8”“7”、“7”、“6”、“8”、“7”。

以菜单设置项“Picture Mode”为例，得到的所有的中心点坐标间距差值为“8”“7”、“7”、“6”、“8”、“7”、“15”、“7”、“6”、“7”、“86”。

在一些实施例中，可以根据中心点坐标间距差值生成若干个边缘检测区域。其中，边缘检测区域指的是：如果若干个检测对象的间距稳定，则这些检测对象共同形成一个边缘检测区域。

在一些实施例中，边缘检测区域可以为一个单词或图标。例如菜单设置项“Picture”包括两个边缘检测区域：图标和“Picture”。菜单设置项“Picture Mode”包括三个边缘检测区域：“Picture”、“Mode”和图标，其中，“Picture”、“Mode”虽然均为文字部分，但由于是两个单词，所以是两个不同的边缘检测区域。

在一些实施例中，当中心点坐标间距差值超过预设的间距阈值时，则可以设定该中心点坐标间距差值为一个区域分割点。

通过判断出一个菜单设置项中的所有区域分割点，可以将该菜单设置项中所有的检测单元划分为若干个边缘检测区域。从而得到菜单设置项中的所有单词和图标。

具体的，如果中心点坐标间距差值没有超过预设的间距阈值时，说明中心点坐标间距差值对应的两个检测对象的间距较小且检测对象跳动较为稳定，可以认定这两个检测对象是位于一个边缘检测区域，例如可以是一个单词。

如果中心点坐标间距差值超过预设的间距阈值时，说明中心点坐标间距差值对应的两个检测对象的间距较大且检测对象跳动不稳定，可以认定这两个检测对象是位于两个边缘检测区域，例如可以是两个单词。

对于超过预设的间距阈值的中心点坐标间距差值，可以设定其为一个区域分割点。对于一个菜单设置项，通过包含的m个区域分割点将所有的检测对象划分为m+1个边缘检测区域。

在一些实施例中，预设的间距阈值的设定规则如下：统计多个菜单界面中的多个菜单设置项，计算每个菜单设置项中所有检测对象的平均间距值，每个菜单设置项均具有一个平均间距值；对所有菜单设置项的平均间距值求取平均值，作为预设的间距阈值。例如可以设定阈值区间为6-10。

在一些实施例中，可以设定间距阈值为10。

以菜单设置项“Picture”为例，可以求得其具有一个区域分割点，即检测对象：图标和“P”之间的中心点坐标间距差值“43”。因此具有两个边缘检测区域：图标和“Picture”。

以菜单设置项“Picture Mode”为例，可以求得其具有两个区域分割点，即检测对象：“e”和“M”之间的中心点坐标间距差值“15”；以及“e”和图标之间的中心点坐标间距差值“86”。因此可以划分为三个边缘检测区域：“Picture”、“Mode”和图标。

在一些实施例中，对于一个菜单设置项来说，将其划分好的边缘检测区域进行区域合并处理，可以得到每个菜单设置项的图标区域和文字区域。

在一些实施例中，如果所述边缘检测区域的数量大于1，判断第一个边缘检测区域的宽度是否大于最后一个边缘检测区域的宽度。其中，边缘检测区域的宽度为边缘检测区域中所有检测单元的所有像素点的所有x坐标中的最大值和最小值的差值。

如果满足条件，则最后一个边缘检测区域为图标区域；如果不满足条件，则第一个边缘检测区域为图标区域。并将图标区域之外的所有边缘检测区域进行合并，得到每个菜单设置项的文字区域。

具体的，由于电视菜单界面的特性：文字部分的长度会大于图标长度，因此本申请实施例可以设定宽度最短的边缘检测区域为图标区域，其余的边缘检测区域为文字区域。

在一些实施例中，如果边缘检测区域的数量等于1，则不存在图标区域，所述边缘检测区域即为文字区域。

需要说明的是，如果一个菜单设置项中同时包含文字和图标时，应该会划分出至少两个边缘检测区域。但是在利用边缘检测方法，例如canny算法对目标检测区域进行边缘检测时，有可能因为算法程序错误问题导致无法识别图标。此时，有可能只识别出文字检测单元。当所有的文字检测单元组成一个单词时，并不会出现区域分割点，即只存在一个边缘检测区域。此时，该边缘检测区域即为文字区域。

在一些实施例中，当获取到包括菜单设置项中所有文字检测单元的文字区域后，可以对文字区域进行文字识别处理，例如，OCR识别。可以使用成熟的Google OCR引擎进行文字识别处理，得到每个菜单设置项中的所有文字内容，并查看OCR识别结果。

在一些实施例中，还可以包括：对识别结果进行检测。

如果OCR结果全部准确，则说明区域合并没有问题。如果OCR结果存在错误，则需要重新对菜单界面进行文字识别。

本申请实施例还提供一种菜单文字识别方法，应用于显示设备，如图9所示，所述方法包括：

步骤901、响应于用户输入的文字识别指令，在菜单对应的菜单图像中生成目标检测框，每个目标检测框中包含一个菜单设置项；

步骤902、对目标检测区域进行边缘检测，得到每个菜单设置项中的多个检测单元，所述目标检测区域为所述菜单图像中通过所述目标检测框选取的区域；

步骤903、对所述检测单元进行区域归类，得到文字区域；

步骤904、对所述文字区域进行文字识别处理。

本说明书中各个实施例之间相同相似的部分互相参照即可，在此不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器，被配置为显示用户界面，所述用户界面包括菜单，所述菜单包括多个菜单设置项；

用户接口，被配置为接收用户输入的指令；

控制器，被配置为：

响应于用户输入的文字识别指令，在所述菜单对应的菜单图像中生成目标检测框，每个目标检测框中包含一个菜单设置项；

当所述目标检测框中包括文字和图标时，基于边缘检测方法对目标检测区域进行处理，得到边缘检测信息；所述目标检测区域为所述菜单图像中通过所述目标检测框选取的区域，所述边缘检测信息包括检测单元的中心点坐标以及检测单元中的每个像素点的坐标信息，所述检测单元包括文字检测单元和图标检测单元；

对每个菜单设置项中的所有检测单元的中心点坐标进行递归运算，得到若干个中心点坐标间距差值；基于所述中心点坐标间距差值生成若干个边缘检测区域；对所述边缘检测区域进行区域合并处理，得到每个菜单设置项的图标区域和文字区域；所述图标区域为图标检测单元，所述文字区域由所有的文字检测单元构成；

对所述文字区域进行文字识别处理。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述在所述菜单界面对应的菜单图像中生成目标检测框的步骤之前，还被配置为：

响应于用户输入的文字识别指令，对显示器中显示的用户界面进行截图处理，得到所述菜单对应的菜单图像。

3.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行所述在所述菜单界面对应的菜单图像中生成目标检测框的步骤时，进一步被配置为：

基于目标检测方法对所述菜单图像进行处理，得到目标检测框；

所述目标检测方法包括yolo算法。

4.根据权利要求3所述的显示设备，其特征在于，所述控制器在执行基于开源目标检测方法对所述菜单图像进行处理，得到多个目标检测框的步骤时，进一步被配置为：

将所述菜单图像输入到目标检测方法中，得到检测信息，所述检测信息包括每个菜单设置项对应的多个识别框的识别准确率和识别框坐标；所述识别框坐标包括识别框一侧的顶点坐标和另一侧的底点坐标；

将识别准确率最大的识别框作为菜单设置项对应的目标检测框。

5.根据权利要求1所述的显示设备，其特征在于，所述边缘检测方法包括canny算法。

6.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行对所有检测单元的中心点坐标进行递归运算，得到若干个中心点坐标间距差值的步骤时，被进一步配置为：

将所有的检测单元依次排列，并获取所有检测单元的中心点坐标的x坐标；

对所有的x坐标进行递归减法计算，得到若干个中心点坐标间距差值。

7.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行基于所述中心点坐标间距差值生成若干个边缘检测区域的步骤时，被进一步配置为：

如果所述中心点坐标间距差值超过预设的间距阈值，则所述中心点坐标间距差值为一个区域分割点；

基于所述区域分割点将所有的检测单元划分为若干个边缘检测区域。

8.根据权利要求1所述的显示设备，其特征在于，所述控制器在执行对所述边缘检测区域进行区域合并处理，得到图标区域和文字区域的步骤时，被进一步配置为：

当所述边缘检测区域的数量大于1时，判断第一个边缘检测区域的宽度是否大于最后一个边缘检测区域的宽度；所述边缘检测区域的宽度为边缘检测区域中所有检测单元的所有像素点的所有x坐标中的最大值和最小值的差值；

若是，则最后一个边缘检测区域为图标区域；若否，则第一个边缘检测区域为图标区域；

将图标区域之外的所有边缘检测区域进行合并，得到每个菜单设置项的文字区域。

9.一种菜单文字识别方法，应用于显示设备，其特征在于，所述方法包括：

对所述文字区域进行文字识别处理。