CN111597906B - 一种结合文字信息的快速绘本识别方法及系统 - Google Patents

一种结合文字信息的快速绘本识别方法及系统 Download PDF

Info

Publication number
CN111597906B
CN111597906B CN202010317628.XA CN202010317628A CN111597906B CN 111597906 B CN111597906 B CN 111597906B CN 202010317628 A CN202010317628 A CN 202010317628A CN 111597906 B CN111597906 B CN 111597906B
Authority
CN
China
Prior art keywords
picture
information
database
code
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010317628.XA
Other languages
English (en)
Other versions
CN111597906A (zh
Inventor
刘高成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010317628.XA priority Critical patent/CN111597906B/zh
Publication of CN111597906A publication Critical patent/CN111597906A/zh
Application granted granted Critical
Publication of CN111597906B publication Critical patent/CN111597906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种结合文字信息的快速绘本识别方法及系统,其中,方法包括:步骤S1:建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息;步骤S3:获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。本发明的结合文字信息的快速绘本识别方法的有益效果:一、图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率;二、利用聚类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。

Description

一种结合文字信息的快速绘本识别方法及系统
技术领域
本发明涉及绘本识别技术领域,特别涉及一种结合文字信息的快速绘本识别方法及系统。
背景技术
目前,绘本的识别都是在智能设备上通过摄像头获取待识别的绘本页,对绘本图片进行特征提取,并将其与库里的绘本图片的特征进行比对,最终得到识别结果。
存在问题:
一.仅仅利用图片本身的信息,在光照变化以及绘本图片相似等等场景下,容易出现识别错误
二.在特征比对的阶段,需要与库里所有图片进行比对,耗时太长,识别效率低下。
发明内容
本发明目的之一在于提供了一种结合文字信息的快速绘本识别方法,结合文字的语义信息能够提高绘本在复杂场景下的识别率;将数据库的图片划分若干类别,在绘本识别比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
本发明实施例提供的一种结合文字信息的快速绘本识别方法,包括:
步骤S1:建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息;
步骤S3:基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。
优选的,第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征。
优选的,对数据库中的第一绘本图片进行聚类。
优选的,步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息,具体包括:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;
提取第二绘本图片的图片特征。
优选的,步骤S3:基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户;具体包括:
在步骤S2的基础上,寻找第二绘本图片的第二编码信息的所属类别;
得到类别之后,与类别里的第一绘本图片进行比对,选取特征距离最小的第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
本发明还提供一种结合文字信息的快速绘本识别系统,包括:
数据库获取模块,用于建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
绘本图片解析模块,用于通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息;第一编码信息和第二编码信息包括:文字信息的语义特征;
识别模块,用于基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。
优选的,第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征。
优选的,对数据库中的第一绘本图片进行聚类。
优选的,绘本图片解析模块执行包括如下操作:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;
提取第二绘本图片的图片特征。
优选的,识别模块执行包括如下操作:
在绘本图片解析模块的输出结果上,寻找第二绘本图片的第二编码信息的所属类别;
得到类别之后,与类别里的第一绘本图片进行比对,选取特征距离最小的第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
本发明具有如下有益效果:
一、图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率
二、利用聚类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种结合文字信息的快速绘本识别方法的示意图;
图2为本发明实施例中一种绘本图片。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种结合文字信息的快速绘本识别方法,如图1所示,包括:
步骤S1:建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息;
步骤S3:基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。
上述技术方案的工作原理及有益效果为:
基于第一编码和第二编码,将待识别的第二绘本图片与数据库中的绘本内容进行对应,实现绘本的识别;图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,所以第一编码和第二编码包括:文字信息的语义特征,实现了结合文字的语义信息能够提高绘本在复杂场景下的识别率。
为了实现绘本的识别,在一个实施例中,第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征。同时,第二编码信息也包括基于文字信息的语义特征和基于图片内容的抽象特征。
在一个实施例中,对数据库中的第一绘本图片进行聚类。聚类的目的:将相似的图片划分在一起。
上述技术方案的工作原理及有益效果为:
例如:基于第一编码信息中的图像的抽象特征进行分类聚合,采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类,将数据库的图片划分若干类别,在绘本比对识别时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
为了获得第二编码信息,在一个实施例中,步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息,具体包括:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;此处获得第二编码信息中的基于文字信息的语义特征;
提取第二绘本图片的图片特征。此处获得第二编码信息中的基于图片内容的抽象特征。
在一个实施例中,步骤S3:基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户;具体包括:
在步骤S2的基础上,寻找第二绘本图片的第二编码信息的所属类别;
得到类别之后,与类别里的第一绘本图片进行比对,选取特征距离最小的第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
上述技术方案的工作原理及有益效果为:
图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
在一个实施例中,步骤S3:基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放,具体包括:
步骤S31:基于第二编码中的抽象特征,确定抽象特征在数据库内的分类,并获取数据库中对应的分类内所有的第一编码及第一编码对应的绘本内容;
步骤S32:基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选,获取至少一个第三编码及第三编码对应的绘本内容;
步骤S33:采用欧氏距离计算方法计算第二编码中的抽象特征与第三编码中的抽象特征的距离;
步骤S34:选取距离最小的第三编码对应的绘本内容并播放。
上述技术方案的工作原理及有益效果为:
首先确定待识别的第二绘本图片在数据库中的分类,然后采用语义特征对该分类中的绘本图片进行筛选,最后在通过图像的抽象特征精准比对到数据库中的绘本内容。图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。其中,步骤S33和步骤S34还可以实施为采用预先训练的深度学习模型计算第二编码中图像中的抽象特征与第三编码中的图像的抽象特征的相似度,取相似度最大的绘本内容播放;抽象特征包括:CNN特征。
在一个实施例中,步骤S32:基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选,获取至少一个第三编码及第三编码对应的绘本内容;具体包括:
计算第二编码中的语义特征与步骤S31中获取的第一编码中的语义特征的相似度,获取相似度大于预设值的第一编码及第一编码对应的绘本内容作为第三编码及第三编码对应的绘本内容。
上述技术方案的工作原理及有益效果为:
图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。计算语义特征的相似度的模型可以采用DSSM(Deep Structured Semantic Models)、CNN-DSSM(CLSM,convolutionallatent semantic model)、LSTM-DSSM等深度学习模型中的一种。
在一个实施例中,对于图2中的绘本的识别,本申请的结合文字信息的快速绘本识别方法包括如下步骤:
第1步:建立数据库,对已有的图片进行编码。编码主要包含两部分:
a.基于图片内容的抽象特征;
b.基于文字信息的语义特征;
对数据库中的样本进行聚类,聚类的目的:将相似的图片划分在一起;
第2步:用户将绘本放在设备镜头前面,启动设备,开始进行绘本阅读。
第3步:通过设备镜头获取当前的绘本图片,然后对绘本图片进行特征提取,包含两个步骤:
a.进行文字检测和文字识别得到绘本图片上的文字信息,对所提取的文字信息进行编码得到其文字信息。
b.提取绘本图片的图片特征;
第4步:在第3步的基础上,寻找该图片的特征编码所属类别。
第5步:得到类别之后,与类里的候选图片进行比对,选取特征距离最小的图片作为最终的识别结果。
第6步:得到识别结果,播放相应的绘本内容反馈给用户。
上述技术方案的工作原理及有益效果为:
一、图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率
二、利用聚类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
本发明还提供一种结合文字信息的快速绘本识别系统,包括:
数据库获取模块,用于建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
绘本图片解析模块,用于通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析第二绘本图片获取第二编码信息;第一编码信息和第二编码信息包括:文字信息的语义特征;
识别模块,用于基于第二编码与第一编码,获取与第二绘本图片对应的第一绘本图片的绘本内容并播放绘本内容反馈给用户。
上述技术方案的工作原理及有益效果为:
识别模块基于第一编码和第二编码,将待识别的第二绘本图片与数据库中的绘本内容进行对应,实现绘本的识别;图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,所以第一编码和第二编码包括:文字信息的语义特征,实现了结合文字的语义信息能够提高绘本在复杂场景下的识别率。
为了实现绘本的识别,在一个实施例中,第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征。
在一个实施例中,对数据库中的第一绘本图片进行聚类。聚类的目的:将相似的图片划分在一起。
上述技术方案的工作原理及有益效果为:
例如:基于第一编码信息中的图像的抽象特征进行分类聚合,采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类,将数据库的图片划分若干类别,在绘本比对识别时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
为了获得第二编码信息,在一个实施例中,绘本图片解析模块执行包括如下操作:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;此处获得第二编码信息中的基于文字信息的语义特征;
提取第二绘本图片的图片特征。此处获得第二编码信息中的基于图片内容的抽象特征。
在一个实施例中,识别模块执行包括如下操作:
在绘本图片解析模块的输出结果上,寻找第二绘本图片的第二编码信息的所属类别;
得到类别之后,与类别里的第一绘本图片进行比对,选取特征距离最小的第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
上述技术方案的工作原理及有益效果为:
图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。
在一个实施例中,识别模块执行包括如下操作:
步骤S31:基于第二编码中的抽象特征,确定抽象特征在数据库内的分类,并获取数据库中对应的分类内所有的第一编码及第一编码对应的绘本内容;
步骤S32:基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选,获取至少一个第三编码及第三编码对应的绘本内容;
步骤S33:采用欧氏距离计算方法计算第二编码中的抽象特征与第三编码中的抽象特征的距离;
步骤S34:选取距离最小的第三编码对应的绘本内容并播放。
上述技术方案的工作原理及有益效果为:
首先确定待识别的第二绘本图片在数据库中的分类,然后采用语义特征对该分类中的绘本图片进行筛选,最后在通过图像的抽象特征精准比对到数据库中的绘本内容。图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。利用分类,将数据库的图片划分若干类别,后续比对时只要匹配某一类别中的一小部分图片,从而提高绘本识别的速度。其中,步骤S33和步骤S34还可以实施为采用预先训练的深度学习模型计算第二编码中图像中的抽象特征与第三编码中的图像的抽象特征的相似度,取相似度最大的绘本内容播放;抽象特征包括:CNN特征。
在一个实施例中,步骤S32:基于第二编码中的语义特征对步骤S31中获取的第一编码进行筛选,获取至少一个第三编码及第三编码对应的绘本内容;具体包括:
计算第二编码中的语义特征与步骤S31中获取的第一编码中的语义特征的相似度,获取相似度大于预设值的第一编码及第一编码对应的绘本内容作为第三编码及第三编码对应的绘本内容。
上述技术方案的工作原理及有益效果为:
图片上的文字信息,其语义特征不会因为图片内容的像素值发生变化而改变,结合文字的语义信息能够提高绘本在复杂场景下的识别率。计算语义特征的相似度的模型可以采用DSSM(Deep Structured Semantic Models)、CNN-DSSM(CLSM,convolutionallatent semantic model)、LSTM-DSSM等深度学习模型中的一种。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种结合文字信息的快速绘本识别方法,其特征在于,包括:
步骤S1:建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析所述第二绘本图片获取第二编码信息;
步骤S3:基于所述第二编码与所述第一编码,获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户;
其中,所述第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征;
对所述数据库中的所述第一绘本图片进行聚类,具体为:基于第一编码信息中的图像的抽象特征进行分类聚合,采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类,将数据库的图片划分若干类别。
2.如权利要求1所述的结合文字信息的快速绘本识别方法,其特征在于,步骤S2:通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析所述第二绘本图片获取第二编码信息,具体包括:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;
提取所述第二绘本图片的图片特征。
3.如权利要求2所述的结合文字信息的快速绘本识别方法,其特征在于,所述步骤S3:基于所述第二编码与所述第一编码,获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户;具体包括:
在步骤S2的基础上,寻找所述第二绘本图片的所述第二编码信息的所属类别;
得到类别之后,与所述类别里的所述第一绘本图片进行比对,选取特征距离最小的所述第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
4.一种结合文字信息的快速绘本识别系统,其特征在于,包括:
数据库获取模块,用于建立数据库,对已有的第一绘本图片进行编码获得第一编码信息;
绘本图片解析模块,用于通过设备镜头拍摄绘本获取待识别的第二绘本图片,解析所述第二绘本图片获取第二编码信息;
识别模块,用于基于所述第二编码与所述第一编码,获取与所述第二绘本图片对应的所述第一绘本图片的所述绘本内容并播放所述绘本内容反馈给用户;
其中,所述第一编码信息包括:基于文字信息的语义特征和基于图片内容的抽象特征;
对所述数据库中的所述第一绘本图片进行聚类,具体为:基于第一编码信息中的图像的抽象特征进行分类聚合,采用第一编码信息中的图像的抽象特征对数据库中的绘本内容进行分类,将数据库的图片划分若干类别。
5.如权利要求4所述的结合文字信息的快速绘本识别系统,其特征在于,所述绘本图片解析模块执行包括如下操作:
进行文字检测和文字识别的文字信息,对所提取的文字信息进行编码得到其语义信息;
提取所述第二绘本图片的图片特征。
6.如权利要求5所述的结合文字信息的快速绘本识别系统,其特征在于,所述识别模块执行包括如下操作:
在绘本图片解析模块的输出结果上,寻找所述第二绘本图片的所述第二编码信息的所属类别;
得到类别之后,与所述类别里的所述第一绘本图片进行比对,选取特征距离最小的所述第一绘本图片作为最终的识别结果;
得到识别结果,播放相应的绘本内容反馈给用户。
CN202010317628.XA 2020-04-21 2020-04-21 一种结合文字信息的快速绘本识别方法及系统 Active CN111597906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317628.XA CN111597906B (zh) 2020-04-21 2020-04-21 一种结合文字信息的快速绘本识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317628.XA CN111597906B (zh) 2020-04-21 2020-04-21 一种结合文字信息的快速绘本识别方法及系统

Publications (2)

Publication Number Publication Date
CN111597906A CN111597906A (zh) 2020-08-28
CN111597906B true CN111597906B (zh) 2023-12-19

Family

ID=72183537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317628.XA Active CN111597906B (zh) 2020-04-21 2020-04-21 一种结合文字信息的快速绘本识别方法及系统

Country Status (1)

Country Link
CN (1) CN111597906B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294657A (zh) * 2016-08-04 2017-01-04 深圳市奇米教育科技有限公司 基于绘本页面的图书识别方法及装置
CN107784321A (zh) * 2017-09-28 2018-03-09 深圳市奇米教育科技有限公司 数字绘本快速识别方法、系统及计算机可读存储介质
CN108710653A (zh) * 2018-05-09 2018-10-26 北京智能管家科技有限公司 一种绘本朗读点播方法、装置及系统
CN110033023A (zh) * 2019-03-11 2019-07-19 北京光年无限科技有限公司 一种基于绘本识别的图像数据处理方法及系统
WO2020019220A1 (zh) * 2018-07-25 2020-01-30 华为技术有限公司 在预览界面中显示业务信息的方法及电子设备
CN110929143A (zh) * 2019-10-12 2020-03-27 安徽奇智科技有限公司 一种绘本识别方法、系统及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451389B2 (en) * 2000-06-06 2008-11-11 Microsoft Corporation Method and system for semantically labeling data and providing actions based on semantically labeled data
US11514244B2 (en) * 2015-11-11 2022-11-29 Adobe Inc. Structured knowledge modeling and extraction from images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294657A (zh) * 2016-08-04 2017-01-04 深圳市奇米教育科技有限公司 基于绘本页面的图书识别方法及装置
CN107784321A (zh) * 2017-09-28 2018-03-09 深圳市奇米教育科技有限公司 数字绘本快速识别方法、系统及计算机可读存储介质
CN108710653A (zh) * 2018-05-09 2018-10-26 北京智能管家科技有限公司 一种绘本朗读点播方法、装置及系统
WO2020019220A1 (zh) * 2018-07-25 2020-01-30 华为技术有限公司 在预览界面中显示业务信息的方法及电子设备
CN110033023A (zh) * 2019-03-11 2019-07-19 北京光年无限科技有限公司 一种基于绘本识别的图像数据处理方法及系统
CN110929143A (zh) * 2019-10-12 2020-03-27 安徽奇智科技有限公司 一种绘本识别方法、系统及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自然场景中特定文字图像优化识别研究与仿真;李月洁;;计算机仿真(11);全文 *

Also Published As

Publication number Publication date
CN111597906A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN110020437B (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN110245259B (zh) 基于知识图谱的视频打标签方法及装置、计算机可读介质
CN109325148A (zh) 生成信息的方法和装置
CN102549603B (zh) 基于相关性的图像选择
CN101281540B (zh) 用于处理信息的设备、方法和计算机程序
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN107292642B (zh) 一种基于图像的商品推荐方法及系统
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN111931775A (zh) 自动获取新闻标题方法、系统、计算机设备及存储介质
WO2022166706A1 (zh) 用于对象识别的方法、计算机系统及电子设备
CN106161873A (zh) 一种视频信息提取推送方法及系统
CN111581367A (zh) 一种题目录入的方法和系统
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN112084812B (zh) 图像处理方法、装置、计算机设备及存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
WO2022062027A1 (zh) 酒品定位方法、酒品信息管理方法、装置、设备及存储介质
CN111597906B (zh) 一种结合文字信息的快速绘本识别方法及系统
Vitadhani et al. Detection of clickbait thumbnails on YouTube using tesseract-OCR, face recognition, and text alteration
CN110381367B (zh) 一种视频处理方法、设备及计算机可读存储介质
CN115273100A (zh) 一种基于语义引导鉴别器的半监督汉字图像生成方法
CN113553947A (zh) 生成描述嵌入多模态行人重识别方法、装置及电子设备
CN108021918B (zh) 文字识别方法及装置
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及系统
CN117333800B (zh) 一种基于人工智能的跨平台内容运营优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant