CN111680686B - 招牌信息识别方法、装置、终端及存储介质 - Google Patents

招牌信息识别方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111680686B
CN111680686B CN202010515480.0A CN202010515480A CN111680686B CN 111680686 B CN111680686 B CN 111680686B CN 202010515480 A CN202010515480 A CN 202010515480A CN 111680686 B CN111680686 B CN 111680686B
Authority
CN
China
Prior art keywords
relation
text
characters
information
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010515480.0A
Other languages
English (en)
Other versions
CN111680686A (zh
Inventor
吴宇斌
郭烽
尹康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oppo Chongqing Intelligent Technology Co Ltd
Original Assignee
Oppo Chongqing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo Chongqing Intelligent Technology Co Ltd filed Critical Oppo Chongqing Intelligent Technology Co Ltd
Priority to CN202010515480.0A priority Critical patent/CN111680686B/zh
Publication of CN111680686A publication Critical patent/CN111680686A/zh
Application granted granted Critical
Publication of CN111680686B publication Critical patent/CN111680686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种招牌信息识别方法,该方法包括:获取待识别的图片;运用文本识别模型识别待识别的图片中的文字;确定识别的文字间的位置关系,以及文字的语义关系;根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。本申请可以对文字的顺序更加合理的组合后输出,得到更加准确的识别结果,提高了图片中文字识别的合理性,得到完整语义的识别结果。

Description

招牌信息识别方法、装置、终端及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种招牌信息识别方法、装置、终端及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。OCR技术的应用领域很广泛,它在很多场合可替代键盘完成高速的文字记录任务。而目前的OCR技术只能从图片中识别到文字,而仅仅识别文字,文字内容太单一不是完整的语义的识别导致识别的文字构不成完整的信息的识别,导致识别的准确度差。
发明内容
本申请实施例通过提供一种招牌信息识别方法、装置终端及存储介质,旨在解决现有的OCR技术识别仅仅识别文字,文字内容太单一不是完整的语义的识别导致识别的文字构不成完整的信息的识别,导致识别的准确度差技术问题。
为实现上述目的,本申请一方面提供了一种招牌信息识别方法,所述招牌信息识别方法包括:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
为实现上述目的,本申请另一方面还提出一种招牌信息识别装置,所述装置包括:获取模块、识别模块、确定模块和组合模块,
所述获取模块,用于获取待识别的图片;
所述识别模块,用于运用文本识别模型识别图片中的文字;
所述确定模块,用于确定识别的文字间的位置关系,以及文字的语义关系;
所述组合模块,用于根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
为实现上述目的,本申请另一方面还提出一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
为实现上述目的,本申请另一方面还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
本申请通过在识别图片中的文字时,还结合文字间的位置关系和语义,来对识别的文字重新组合,而不是按照识别的文字直接输出,可以对文字的顺序更加合理的组合后输出,得到更加准确的识别结果,提高了图片中文字识别的合理性,得到完整语义的识别结果。
附图说明
图1为实现本申请各个实施例的终端的硬件结构示意图;
图2为本申请招牌信息识别方法一实施例的操作流程示意图;
图3为本申请一实施例中确定识别的文字间的位置关系的流程示意图;
图4为本申请一实施例中根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本的操作流程示意图;
图5为本申请招牌信息识别方法又一实施例的操作流程示意图;
图6为本申请招牌信息识别方法又一实施例的操作流程示意图;
图7为本申请招牌信息识别方法又一实施例的操作流程示意图;
图8为本申请一实施例中招牌信息识别的操作流程示意图;
图9为本申请一实施例中招牌信息识别装置的架构示意图;
图10为本申请又一实施例中招牌信息识别装置的架构示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请的实施方案是:获取待识别的图片;运用文本识别模型识别图片中的文字;确定识别的文字间的位置关系,以及文字的语义关系;根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
本申请所述的终端可以各种形式来实施。例如,终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
后续描述中将以终端中的手机为例进行说明,本领域技术人员将理解的是,除了特别用于移动终端中的元件之外,根据本申请的实施方式的构造也能够应用于固定类型的终端,例如,台式机、电视或者一体机等。
参照图1,图1是本申请实施例方法涉及的硬件运行环境的设备结构示意图
如图1所示,该移动终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1004,用户输入单元1002,显示单元1005。其中,通信总线1004用于实现处理器1001和存储器1003之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
可选地,移动终端还包括至少一种传感器,比如光传感器、运动传感器以及其他传感器。加速计传感器作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
可选地,显示单元1005用于显示由用户输入的消息或提供给用户的消息。显示单元1005可包括显示面板,可以采用液晶显示器(Liquid Crystal Display,LCD、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。
可选地,用户输入单元1002可用于接收输入的数字或字符消息,以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元1002可包括触控面板以及其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。除了触控面板,用户输入单元1002还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。
可选地,处理器1001是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器1003内的软件程序和/或模块,以及调用存储在存储器1003内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。处理器1001可包括一个或多个处理单元;可选的,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。
可选地,存储器1003可用于存储软件程序以及各种数据。存储器1003可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1003可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域技术人员可以理解,图1中示出的移动终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在图1所示的移动终端中,处理器1001用于执行存储器1003中招牌信息识别应用程序,实现以下步骤:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
参考图2,图2为本申请招牌信息识别方法的操作流程示意图;所述招牌信息识别方法包括:
步骤S10,获取待识别的图片;
所述待识别的图片,从相册中选择的已经拍摄的图片,或者是直接现场拍摄的图片。应用场景可以是会议场景,待识别的图片包括:例如,针对会议记录拍摄的图片,或者视频会议中录制的字幕图片或者会议当中传送的图片等。所述应用场景还可以是商务谈判场景,待识别的图片包括:例如,谈判提供的谈判书拍摄的图片,或者谈判过程的文字记录拍摄的图片等。
在需要做图片识别时,获取应用场景下的待识别的图片,例如,获取会议记录的图片。
步骤S20,运用文本识别模型识别待识别的图片中的文字;
所述文本识别模型包括OCR(Optical Character Recognition,光学字符识别)文本识别模型CRNN(Convolutional Recurrent Neural Network,卷积递归神经网络),运用文本识别模型识别待识别的图片中的文字。在运用文本识别模型识别待识别的图片中的文字之前,对待识别的图片执行预处理操作,所述预处理操作包括对图像进行矫正、去噪、增强等。通过执行预处理操作,使得待识别的图片去处干扰,防止噪音污染,防止了识别操作的误操作和误识别,提高识别的准确性。
识别的文字为单独的一个个的文字,为待识别的图片,例如,会议记录的图片中记录的文字。
步骤S30,确定识别的文字间的位置关系,以及文字的语义关系;
在识别到待识别图片中的文字后,确定识别的文字件的位置关系,即,识别识别的不同文字在待识别图片中的位置关系,以及文字的语义关系,语义关系为文字的语义,例如,识别的文字为“招”,可能的语义是“招牌”,“招待”等语义,语义也可以是应用场景,例如,商品场景,“米”可能是“米线”,“大米”,如果是娱乐场景,“米”可能是“米老鼠”等。不同场景下的语义不同,因此,需要确定文字的语义,这样可以准确识别文字间的组合关系。
文字间的位置关系,可以是前后关系,或者间隔关系,例如,“阿里巴巴”中的“巴”处在“里”之后,“阿”处在“里”之前,“阿”与“巴”间隔,这些代表位置关系。
步骤S40,根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
在识别到文字,确定了文字间的位置关系和语义关系后,根据所述位置关系和语义关系重新组合识别的文字的顺序,得到识别文本。即,需要重新排列识别的各个文字的位置,根据位置关系和语义来重新组合,使得得到的识别结果更符合预期,使得识别文本更加准确。
本实施例通过在识别图片中的文字时,还结合文字间的位置关系和语义,来对识别的文字重新组合,而不是按照识别的文字直接输出,可以对文字的顺序更加合理的组合后输出,得到更加准确的识别结果,提高了图片中文字识别的合理性,得到完整语义的识别结果。
在本申请的一实施例中,参考图3,所述确定识别的文字间的位置关系的步骤包括:
步骤S21,运用文本识别模型确定识别的文字在文本识别模型建立的坐标系中的坐标信息;
步骤S22,根据所述坐标信息确定识别的文字间的位置关系。
提前构建一个坐标系,所述坐标系可以通过文本识别模型构建,在文本识别模型中构建一套坐标系,或者文本识别模型通过待识别的图片构建一套坐标系,运用文本识别模型确定识别的文字在文本识别模型建立的坐标系中的坐标信息,得到每个识别的文字的坐标信息,例如,得到在构建的坐标系中的横坐标和纵坐标,这样可以根据坐标信息得到每个文字的坐标以及与其他文字件的位置关系,是上一行还是下一行,还是间隔,例如,例如,纵坐标是上下关系,一个纵坐标是A,另外一个是A+1,横坐标之间的差值不是连续的,例如,一个横坐标是a,另外一个横坐标是a+5。
在同一个坐标系中,根据每个文字的坐标信息的不同,来确定文字间的位置关系。根据得到的位置关系,可以更好的识别输出识别结果,对识别结果做出调整位置,使得识别结果可以按照合理的位置输出。
本实施例通过识别文字间的位置关系,使得原本杂乱并且只能按照识别先后顺序得到识别结果的方式,可以调整为根据文字的位置关系作出识别,进而重新组合识别到的文字作为识别结果,使得识别结果更加合理,符合实际情况,提高准确度。
在本申请的一实施例中,参考图4,所述根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本的步骤包括:
步骤S31,根据预设的文字布局方式和所述位置关系,确定第一组合关系;
步骤S32,根据语义关系确定第二组合关系;
步骤S33,根据所述第一组合关系和第二组合关系得到识别文本。
识别的设备中或者设备安装的程序中提前存储常用的文字布局方式,例如,安装软件后,就会默认存储一些常用的文字布局方式,或者,用户根据需求下载了新的文字布局方式,例如,选择从服务器下载了原本未存储的文字布局方式,或者安装的应用软件识别用户最近浏览的招牌信息的记录,根据招牌信息的记录匹配需要下载的文字布局方式,不同的浏览的记录对应不同的文字布局方式,或者提取用户DIY的招牌信息,根据DIY的招牌信息的布局,来下载文字布局方式。
在确定了文字间的位置关系后,根据预设的文字布局方式和所述位置关系,确定第一组合关系,文字布局方式有位置关系,根据确定的位置关系,确定调整的位置关系,得到第一组合关系。
每个文字有不同的语音,但会存在不同的文字的语义是相关的,根据语义关系确定第二组合关系,即,相关的语义关系的词语,例如“招”和“牌”会存在相关的语义,可以是一种组合关系,根据语义得到第二组合关系;进而在得到第一和第二组合关系后,对识别的文字重新组合,得到识别文本,即需要根据位置关系和语音分别得到组合关系,重新组合识别的文字输出为识别文本。
在本实施例通过结合文字间的位置关系和语义关系得到组合关系,根据组合关系得到文字的布局方式输出识别结果。而不是按照识别的文字直接输出,输出了完整语义的识别文本,提高了识别文本的语义完整性,提高了识别的准确性。
在本申请的一实施例中,参考图5,所述根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本的步骤之后,还包括:
步骤S40,在招牌信息数据库中查询所述识别文本,确定存在的招牌信息;
步骤S50,输出所述招牌信息。
招牌信息数据库提前存储了招牌信息,所述招牌信息可以是以往的历史记录,或者合作伙伴或者企业的招牌信息,或者企业的商标信息汇总而成;在得到识别文本后,根据识别文本查询招牌信息数据中是否存在与识别文本匹配的招牌信息,确定存在的招牌信息。
在一实施例中,将所述输出的招牌信息作为检索词完成检索操作输出检索结果。在确定了招牌信息后,将招牌信息作为检索词,完成下一步动作,例如,搜索店铺的信息,商品信息,定位相同名字的店铺位置,看店铺的活动或者评价等。
本实施例通过运用识别文本匹配招牌信息,通过招牌信息做下一步动作,运用确定的招牌信息下一步的动作;因为,得到的招牌信息是完整语义的招牌信息,招牌信息识别更加准确,对于下一步动作的指引更加明确,可以得到准确的后续动作的参考,提高了识别的准确性,节省流程。
在本申请的一实施例中,参考图6,所述方法,还包括:
步骤S60,获取招牌信息的识别环境信息;
步骤S70,根据所述识别环境信息确定预设的文字布局方式。
所述识别环境信息,包括,例如,街景,或者是图片的背景画面等,根据识别环境信息确定预设的文字布局方式,不同的识别环境信息下有不同的文字布局方式,例如,识别环境信息1,对应的文字布局方式为1-1;识别环境信息2,对应的文字布局方式为2-1。识别环境信息为店铺,文字布局方式为横排;识别的环境信息为办事地点,文字布局方式为纵排。
本实施例通过获取招牌信息的识别环境信息,根据环境信息的不同确定不同的预设的文字布局方式,使得文字布局方式更加准确合理,通过合理的文字布局方式作出准确的识别文本,提高识别结果的准确性。
在本申请的一实施例中,参考图7,所述方法,还包括:
步骤S01,识别待识别的图片中的其他信息,所述其他信息为待识别图片中除文字信息之外的信息;
步骤S02,根据其他信息得到识别的辅助信息;
步骤S03,根据所述识别的辅助信息,确定文字布局方式。
所述待识别的图片中,除了文字,还存在其他信息,例如,图标,人物信息或者图表等,识别待识别的图片中的其他信息,通过其他信息得到一个文字布局方式确定的辅助信息,根据该辅助信息来完成文字布局方式的确定,其他信息也是作为待识别的图片中的一部分,对于文字识别有辅助作用,例如,图片中的内容包括“包子”的图片,招牌信息会有“包子”或者“食品”相关,
本实施例通过获取待识别的图片中的其他信息,作为辅助信息确定文字布局方式,使得文字布局的确定更加合理准确,提高了文字识别的准确度。
为了更好的描述本申请实施例的操作过程,参考图8,包括:
步骤S101,获取图片及预处理;
从相册中选择拍摄的会议记录图片或者直接在相机端对会议记录进行拍照;对图像进行矫正、去噪、增强等预处理;
步骤S102,识别图片中的文字内容和位置信息;
使用OCR文本识别模型CRNN识别出预处理后的图片中的文字及对应的坐标信息;
步骤S103,根据文字的坐标信息计算文字之间的位置关系;根据文字的坐标信息计算文字之间的位置关系;
步骤S104,对识别出来的文字进行语义检测;根据文字的坐标信息计算文字之间的位置关系;
步骤S103和步骤S104可以同时进行也可以错开前后执行,图中仅仅是示意关系,不代表先后顺序或者并列关系,只是其中一个示例说明。
步骤S105,结合常用的文字布局方式对文字重新整理合并;
根据目前常用的文字布局方式和对识别出来的文字进行的语义检测结果对文字重新整理合并;
步骤S106,根据合并结果找到识别结果中所有可能存在的招牌名字;找到识别结果中所有可能存在的招牌名字;
步骤S107,在制定好的招牌数据库中检索,输出存在的招牌名字
把S106中中识别出来的招牌名字,在已经制作好的包含所有能查询到的招牌名字的数据库进行检索,输出存在的招牌名字。
步骤S108,根据识别出来的招牌名字,进行下一步的任务;根据识别出来的招牌名字,进行下一步的任务,比如搜索、定位等。
本申请还提出一种招牌信息识别装置,参考图9,所述装置包括:获取模块10、识别模块20、确定模块30和组合模块40,
所述获取模块10,用于获取待识别的图片;
所述识别模块20,用于运用文本识别模型识别图片中的文字;
所述确定模块30,用于确定识别的文字间的位置关系,以及文字的语义关系;
所述组合模块40,用于根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
进一步地,所述确定模块30,还用于运用文本识别模型确定识别的文字在文本识别模型建立的坐标系中的坐标信息;
所述确定模块30,还用于根据所述坐标信息确定识别的文字间的位置关系。
进一步地,所述确定模块30,还用于根据预设的文字布局方式和所述位置关系,确定第一组合关系;根据语义关系确定第二组合关系;根据所述第一组合关系和第二组合关系得到识别文本。
进一步地,参考图10,所述装置还包括:输出模块50,
所述确定模块30,还用于在招牌信息数据库中查询所述识别文本,确定存在的招牌信息;
所述输出模块50,用于输出所述招牌信息。
进一步地,所述输出模块50,还用于将所述输出的招牌信息作为检索词完成检索操作输出检索结果。
进一步地,所述获取模块10,还用于获取招牌信息的识别环境信息;
所述确定模块30,还用于根据所述识别环境信息确定预设的文字布局方式。
进一步地,所述识别模20,还用于识别待识别的图片中的其他信息,所述其他信息为待识别图片中除文字信息之外的信息;
所述确定模块30,还用于根据其他信息确定识别的辅助信息;根据所述识别的辅助信息,确定文字布局方式。
本申请还提出一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别待识别的图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
所述终端可以是手机或者pad等,所述终端中设置有图片的文字识别模型,或者加载有文字识别模型的应用程序,通过该应用程序中加载的文字识别模型识别待识别的图片中的文字,确定文字间的位置关系,以及文字的语义关系;根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。本实施例的终端通过在识别图片中的文字时,还结合文字间的位置关系和语义,来对识别的文字重新组合,而不是按照识别的文字直接输出,可以对文字的顺序更加合理的组合后输出,得到更加准确的识别结果,提高了图片中文字识别的合理性,得到完整语义的识别结果。
本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别待识别的图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种招牌信息识别方法,其特征在于,所述招牌信息识别包括:
获取待识别的图片;
运用文本识别模型识别待识别的图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本;
其中,根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本的步骤包括:
根据预设的文字布局方式和所述位置关系,确定第一组合关系;
根据语义关系确定第二组合关系;
根据所述第一组合关系和第二组合关系得到识别文本。
2.根据权利要求1所述的招牌信息识别方法,其特征在于,所述确定识别的文字间的位置关系的步骤包括:
运用文本识别模型确定识别的文字在文本识别模型建立的坐标系中的坐标信息;
根据所述坐标信息确定识别的文字间的位置关系。
3.根据权利要求1或2所述的招牌信息识别方法,其特征在于,所述根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本的步骤之后,还包括:
在招牌信息数据库中查询所述识别文本,确定存在的招牌信息;
输出所述招牌信息。
4.根据权利要求3所述的招牌信息识别方法,其特征在于,所述输出所述招牌信息的步骤之后,还包括:
将所述输出的招牌信息作为检索词完成检索操作输出检索结果。
5.根据权利要求1或2所述的招牌信息识别方法,其特征在于,所述方法,还包括:
获取招牌信息的识别环境信息;
根据所述识别环境信息确定预设的文字布局方式。
6.根据权利要求1或2所述的招牌信息识别方法,其特征在于,所述方法,还包括:
识别待识别的图片中的其他信息,所述其他信息为待识别图片中除文字信息之外的信息;
根据其他信息确定识别的辅助信息;
根据所述识别的辅助信息,确定文字布局方式。
7.一种招牌信息识别装置,其特征在于,所述装置包括:获取模块、识别模块、确定模块和组合模块,
所述获取模块,用于获取待识别的图片;
所述识别模块,用于运用文本识别模型识别图片中的文字;
所述确定模块,用于确定识别的文字间的位置关系,以及文字的语义关系;
所述组合模块,用于根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本;
所述组合模块还用于,根据预设的文字布局方式和所述位置关系,确定第一组合关系;根据语义关系确定第二组合关系;根据所述第一组合关系和第二组合关系得到识别文本。
8.一种终端,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本;
所述处理器执行所述计算机程序时还实现以下步骤:
根据预设的文字布局方式和所述位置关系,确定第一组合关系;根据语义关系确定第二组合关系;根据所述第一组合关系和第二组合关系得到识别文本。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现以下步骤:
获取待识别的图片;
运用文本识别模型识别图片中的文字;
确定识别的文字间的位置关系,以及文字的语义关系;
根据所述位置关系和所述语义关系执行识别的文字的组合操作得到识别文本;
所述计算机程序被处理器执行时还实现以下步骤:
根据预设的文字布局方式和所述位置关系,确定第一组合关系;
根据语义关系确定第二组合关系;根据所述第一组合关系和第二组合关系得到识别文本。
CN202010515480.0A 2020-06-08 2020-06-08 招牌信息识别方法、装置、终端及存储介质 Active CN111680686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010515480.0A CN111680686B (zh) 2020-06-08 2020-06-08 招牌信息识别方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010515480.0A CN111680686B (zh) 2020-06-08 2020-06-08 招牌信息识别方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111680686A CN111680686A (zh) 2020-09-18
CN111680686B true CN111680686B (zh) 2023-05-12

Family

ID=72435579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010515480.0A Active CN111680686B (zh) 2020-06-08 2020-06-08 招牌信息识别方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111680686B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257426A (zh) * 2020-10-14 2021-01-22 北京一览群智数据科技有限责任公司 一种文字识别方法、系统、训练方法、存储介质及设备
CN112818971A (zh) * 2020-12-12 2021-05-18 广东电网有限责任公司 一种基于智能识别文件中图片内容的方法及装置
CN112733830A (zh) * 2020-12-31 2021-04-30 上海芯翌智能科技有限公司 店铺招牌识别方法及装置、存储介质和计算机设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231657A (ja) * 2009-03-27 2010-10-14 Fuji Xerox Co Ltd 情報照合支援システムおよびプログラム
CN106326454A (zh) * 2016-08-27 2017-01-11 知产在线(北京)科技有限公司 一种图像识别方法
CN106886774A (zh) * 2015-12-16 2017-06-23 腾讯科技(深圳)有限公司 识别身份证信息的方法和装置
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN109255300A (zh) * 2018-08-14 2019-01-22 中国平安财产保险股份有限公司 票据信息提取方法、装置、计算机设备及存储介质
CN109740597A (zh) * 2018-12-29 2019-05-10 口碑(上海)信息技术有限公司 菜单信息的识别方法及装置
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110569708A (zh) * 2019-06-28 2019-12-13 北京市商汤科技开发有限公司 文本检测方法及装置、电子设备和存储介质
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304835B (zh) * 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231657A (ja) * 2009-03-27 2010-10-14 Fuji Xerox Co Ltd 情報照合支援システムおよびプログラム
CN106886774A (zh) * 2015-12-16 2017-06-23 腾讯科技(深圳)有限公司 识别身份证信息的方法和装置
CN106326454A (zh) * 2016-08-27 2017-01-11 知产在线(北京)科技有限公司 一种图像识别方法
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN109255300A (zh) * 2018-08-14 2019-01-22 中国平安财产保险股份有限公司 票据信息提取方法、装置、计算机设备及存储介质
CN109740597A (zh) * 2018-12-29 2019-05-10 口碑(上海)信息技术有限公司 菜单信息的识别方法及装置
CN110399798A (zh) * 2019-06-25 2019-11-01 朱跃飞 一种基于深度学习的离散图片文件信息提取系统及方法
CN110569708A (zh) * 2019-06-28 2019-12-13 北京市商汤科技开发有限公司 文本检测方法及装置、电子设备和存储介质
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN111090990A (zh) * 2019-12-10 2020-05-01 中电健康云科技有限公司 一种医疗体检报告单文字识别及纠正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘晓佩.自然场景文本信息提取关键技术研究.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2015,全文. *

Also Published As

Publication number Publication date
CN111680686A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111680686B (zh) 招牌信息识别方法、装置、终端及存储介质
US10540378B1 (en) Visual search suggestions
US9841877B2 (en) Utilizing color descriptors to determine color content of images
US20170277948A1 (en) Visual search utilizing color descriptors
CN109189879B (zh) 电子书籍显示方法及装置
US9411839B2 (en) Index configuration for searchable data in network
CN103562911A (zh) 基于姿势的视觉搜索
CN107870999B (zh) 多媒体播放方法、装置、存储介质及电子设备
US20100142769A1 (en) Information processing apparatus and information processing method
CN107871000B (zh) 音频播放方法、装置、存储介质及电子设备
CN105607757A (zh) 一种输入方法和装置、一种用于输入的装置
CN113535055B (zh) 一种基于虚拟现实播放点读物的方法、设备及存储介质
CN112099704A (zh) 信息显示方法、装置、电子设备和可读存储介质
CN111177568A (zh) 基于多源数据的对象推送方法、电子装置及存储介质
KR20180121273A (ko) 객체에 대응하는 콘텐트를 출력하기 위한 방법 및 그 전자 장치
CN111399724B (zh) 系统设置项的显示方法、装置、终端及存储介质
CN111274476B (zh) 基于人脸识别的房源匹配方法、装置、设备和存储介质
CN110019863B (zh) 一种物体查找方法、装置、终端设备和存储介质
US12008221B2 (en) Method for providing tag, and electronic device for supporting same
CN114202799A (zh) 被控对象变化速度确定方法、装置、电子设备及存储介质
KR102178172B1 (ko) 단말, 서비스 제공 장치, 그 제어 방법, 컴퓨터 프로그램이 기록된 기록 매체 및 이미지 검색 시스템
CN108052525B (zh) 获取音频信息的方法、装置、存储介质及电子设备
KR20210106285A (ko) 인스턴트 메시징 애플리케이션을 통한 콘텐츠 평가 방법 및 시스템
CN105630333B (zh) 显示装置及显示方法
US9922052B1 (en) Custom image data store

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant