CN104915664A - 联系对象标识获取方法和装置 - Google Patents
联系对象标识获取方法和装置 Download PDFInfo
- Publication number
- CN104915664A CN104915664A CN201510268164.7A CN201510268164A CN104915664A CN 104915664 A CN104915664 A CN 104915664A CN 201510268164 A CN201510268164 A CN 201510268164A CN 104915664 A CN104915664 A CN 104915664A
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- contact object
- sample
- object mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种联系对象标识获取方法和装置,所述方法包括:获取网页中的联系对象标识图片;从所述联系对象标识图片中分割出字符图片;提取分割出的字符图片的字符特征;根据预设样本字符特征库或者预设样本字符图片库,将所述字符特征识别为相应的字符;按照所述字符图片对应到所述联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。本发明提供的联系对象标识获取方法和装置,在通过网络爬虫爬取到联系对象标识图片后,可以采用模式识别的手段,从网页中提取出联系对象标识,为获取包括电话号码在内的联系对象标识提供了新的途径。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种联系对象标识获取方法和装置。
背景技术
目前,手机上可以运行通话应用,用户通过通话应用可以与其他用户进行通话,并生成通话记录。当手机接收到陌生电话号码来电,或者通话记录中存在陌生电话号码时,手机可以通过网络从电话号码库中获取该陌生电话号码的相关信息,从而将相关信息显示出来,以便用户可以识别出相应的联系对象。为了实现这一功能,需要建立尽量完备的电话号码库。
目前为了获取用于建立电话号码库的电话号码,可以通过人工录入的方式获取,但这种方式效率太低。目前效率较高的获取电话号码的方式是通过网络爬虫自动爬取网页中的电话号码,然而,这种方式仅能够从网页中获取到文本形式的号码,而事实上目前很多网页中的电话号码是图片形式的,通过网络爬虫是获取不到的。
发明内容
基于此,有必要针对目前通过网络爬虫无法获取到图片形式的电话号码的技术问题,提供一种联系对象标识获取方法和装置。
一种联系对象标识获取方法,所述方法包括:
获取网页中的联系对象标识图片;
从所述联系对象标识图片中分割出字符图片;
提取分割出的字符图片的字符特征;
根据预设样本字符特征库或者预设样本字符图片库,将所述字符特征识别为相应的字符;
按照所述字符图片对应到所述联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
一种联系对象标识获取装置,所述装置包括:
联系对象标识图片获取模块,用于获取网页中的联系对象标识图片;
联系对象标识图片分割模块,用于从所述联系对象标识图片中分割出字符图片;
特征提取模块,用于提取分割出的字符图片的字符特征;
识别模块,用于根据预设样本字符特征库或者预设样本字符图片库,将所述字符特征识别为相应的字符;
字符组合模块,用于按照所述字符图片对应到所述联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
上述联系对象标识获取方法和装置,从网页中获取联系对象标识图片后,分割成独立的字符图片,再从每个字符图片中提取出字符特征,根据该提取的字符特征进行识别,从而识别出相应的字符。然后按照分割出的字符图片对应到联系对象标识图片中的位置将识别出的字符进行组合,就可以得到完整的联系对象标识。这样在通过网络爬虫爬取到联系对象标识图片后,可以采用模式识别的手段,从网页中提取出联系对象标识,为获取包括电话号码在内的联系对象标识提供了新的途径。
附图说明
图1为一个实施例中电子设备的组成结构示意图;
图2为一个实施例中联系对象标识获取方法的流程示意图;
图3为一个实施例中联系对象标识图片的示意图;
图4为一个实施例中分割出的各个字符图片的示意图;
图5为一个实施例中根据预设样本字符特征库或者预设样本字符图片库,将字符特征识别为相应的字符的步骤的流程示意图;
图6为一个实施例中训练步骤的流程示意图;
图7为一个实施例中查询文本信息的步骤的流程示意图;
图8为一个实施例中联系对象标识获取装置的结构框图;
图9为另一个实施例中联系对象标识获取装置的结构框图;
图10为一个实施例中识别模块的结构框图;
图11为再一个实施例中联系对象标识获取装置的结构框图;
图12为一个实施例中联系对象标识获取装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种电子设备100,包括通过系统总线连接的处理器、内存储器、非易失性存储介质和网络接口。处理器具有计算功能和控制整个电子设备100工作的功能,该处理器被配置为执行一种联系对象标识获取方法。该非易失性存储介质存储有操作系统、数据库和一种联系对象标识获取装置,该联系对象标识获取装置用于实现一种联系对象标识获取方法。网络接口用于连接到网络并访问网页。电子设备100可以是单个物理服务器,也可以是多个物理服务器组成的服务器集群。
如图2所示,在一个实施例中,提供了一种联系对象标识获取方法,本实施例以该方法应用于上述图1中的电子设备100来举例说明。该方法具体包括如下步骤:
步骤202,获取网页中的联系对象标识图片。
这里的网页可以是不限制网页类型的随机网页,也可以是指定类型的网页,比如黄页网页、指定公司的官方网页、招聘网页等,其中黄页网页中包括大量有效的联系对象标识图片,能够在短时间内获取到大量联系对象标识。
联系对象标识是指能够唯一标识出一个通信对象的唯一标识,根据该联系对象标识可以与相应的联系对象联系。联系对象标识包括:电话号码、通信应用账号和邮箱地址等。通信应用账号包括:社交应用账号、游戏账号和即时通信应用账号等。联系对象标识图片是指包含联系对象标识的图像的图片。在一个实施例中,联系对象标识由从0到9的数字组成。在一个实施例中,联系对象标识由从0到9的数字和字母中的至少一种组成。
电子设备100可以通过网络爬虫爬取网页中的联系对象标识图片,具体可以分析网页的代码,找到网页中用于标记出联系对象标识图片的标签,从而获取该标签所对应的联系对象标识图片。其中网络爬虫又称为网页蜘蛛或者网络机器人,是按照预先设定的规则抓取网络信息的程序或者脚本。
步骤204,从联系对象标识图片中分割出字符图片。
具体地,联系对象标识图片包括字符图像和背景图像,字符图像和背景图像采用不同的颜色,而且字符图像之间也是通过背景图像隔开,这样就可以根据字符图像和背景图像的差异分割出矩形的字符图片。
在一个实施例中,步骤204包括:对联系对象标识图片进行纵向像素扫描,找到联系对象标识图片中各个字符图像的横向边界;再对联系对象标识图片中各个字符图像的横向边界限定的图像区域进行横向像素扫描,找到联系对象标识图片中各个字符图像的纵向边界;按照各个字符图像的横向和纵向边界进行分割,得到相应的字符图片。这里纵向像素扫描是指扫描每一列,横向像素扫描则是指扫描每一行。横向边界是指某一列像素,纵向边界是指某一行像素。
在一个实施例中,步骤204包括:对联系对象标识图片进行纵向像素扫描,找到仅包含背景颜色的第一类型的列和包含字符颜色的第二类型的列;将各个由连续的第二类型的列组成的第一子图像区域进行横向像素扫描,找到该第一子图像区域中仅包含背景颜色的第一类型的行和包含字符颜色的第二类型的行;将各个第一子图像区域中连续的第二类型的行组成第二子图像区域;将各个第二子图像区域从联系对象标识图片中分割出,获得相应的字符图片。
举例说明,联系对象标识图片如图3所示,字符颜色为白色,背景颜色为黑色,包含的联系对象标识为“593a”。先对该联系对象标识图片从左到右进行纵向像素扫描,将首次出现的含有白色的列作为第一个字符图像的左边界,继续扫描,将出现全黑的列作为第一个字符图像的右边界,并继续扫描,直至纵向像素扫描完毕。然后对各个左右边界之间的列组成的图像进行横向像素扫描,确定上边界和下边界,从而按照每个字符图像的上、下、左和右边界对联系对象标识图片进行分割,分割出各个字符图片。分割结果如图4所示。
在一个实施例中,步骤204之前,还包括:对联系对象标识图片进行归一化处理。图像归一化是指对图像进行了一系列标准的处理变换,使之变换为一固定标准形式的过程,该标准图像称作归一化图像。归一化处理包括二值化处理、去噪处理、图片缩放以及图片旋转等中的至少一种。
在一个实施例中,步骤204之前,还包括:对联系对象标识图片进行二值化处理。
二值化处理是指将图像转换成两种颜色进行表示的处理,一般二值化后的图像为黑白图像。具体地,电子设备100可以按照预先设定的二值化阈值,将联系对象标识图片中大于等于该二值化阈值的像素值置为第一值,而将联系对象标识图片中小于该二值化阈值的像素值置为第二值,从而实现对联系对象标识图片进行二值化处理。
在一个实施例中,电子设备100可以统计联系对象标识图片中各个像素值的数量,从而按照预设统计得到的字符颜色和背景图像的比例结合联系对象标识图片中各种像素值的数量来确定二值化阈值;进而将联系对象标识图片中大于等于该二值化阈值的像素值置为第一值,将联系对象标识图片中小于该二值化阈值的像素值置为第二值,从而实现对联系对象标识图片进行二值化处理。第一值和第二值可以分别在0和255两个值中选择,这样字符颜色和背景颜色更容易区分,便于识别。
步骤206,提取分割出的字符图片的字符特征。
具体地,字符特征可以采用矩特征,矩特征表征了图像区域的几何特征,又称为几何矩,由于矩特征具有旋转、平移、尺度等特性的不变特征,所以又称为不变矩。矩特征包括Hu矩特征、Zernike(泽尔尼克)矩特征。字符特征还可以采用像素分布特征,比如字符图片每行或每列字符颜色数量、字符图片每行或每列背景颜色数量以及字符图片每行或每列字符颜色数量占比等。
步骤208,根据预设样本字符特征库或者预设样本字符图片库,将字符特征识别为相应的字符。
具体地,预设样本字符图片库包括各种样本字符图片,该样本字符图片预先从网页中获取到的样本联系对象标识图片中分割出;预设样本字符特征库则包括从各种样本字符图片中提取出的样本字符特征。样本字符特征和字符特征采用相同的特征提取方式。从预设样本字符特征库中查找到与字符特征匹配的样本字符特征,从而将字符特征对应识别为匹配的样本字符特征所对应的预设识别字符。
在一个实施例中,预设样本字符特征库所包括的预设样本字符图片中的字符覆盖用于组成联系对象标识的字符的取值范围。比如若联系对象标识为电话号码,则预设样本字符特征库包括从0到9的样本字符特征。若联系对象标识由数字和字母构成,则预设样本字符特征库包括从0到9的数字、从a到z以及从A到Z的字母的样本字符特征。
步骤210,按照字符图片对应到联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
具体地,电子设备100可以在分割出字符图片时标记各个字符图片相对于联系对象标识图片的位置标记,从而将识别出的字符按照该位置标记进行排序后进行组合,得到联系对象标识。比如位置标记可以取相应的字符在联系对象标识图片中开始或者结束的列数,或者取字符中间点所在的列数。
在一个实施例中,电子设备100可以在按顺序分割出字符图片时按顺序标记分割出的各个字符图片,从而按照标记的顺序将识别出的字符进行组合,得到联系对象标识。
上述联系对象标识获取方法,从网页中获取联系对象标识图片后,分割成独立的字符图片,再从每个字符图片中提取出字符特征,根据该提取的字符特征进行识别,从而识别出相应的字符。然后按照分割出的字符图片对应到联系对象标识图片中的位置将识别出的字符进行组合,就可以得到完整的联系对象标识。这样在通过网络爬虫爬取到联系对象标识图片后,可以采用模式识别的手段,从网页中提取出联系对象标识,为获取包括电话号码在内的联系对象标识提供了新的途径。
如图5所示,在一个实施例中,步骤208具体包括以下步骤:
步骤502,获取预设样本字符特征库中的各个样本字符特征;或者,分别提取预设样本字符图片库中各个样本字符图片的样本字符特征。
具体地,电子设备100可以直接从预设样本字符特征库中获取各个样本字符特征,也可以从预设样本字符图片库中获取各个样本字符图片后,再提取每个样本字符图片的样本字符特征。
步骤504,计算各个样本字符特征与字符特征的相似度。
具体地,相似度表示的是样本字符特征与字符特征相似程度的数值,样本字符特征与字符特征差异越小,相似度越高。电子设备100可以计算各个样本字符特征与字符特征的欧氏距离,进而对欧氏距离进行负相关运算,得到相似度。这里对欧氏距离进行负相关运算,是指作为因变量的相似度随作为自变量的欧氏距离的增大而减小,因变量随自变量的减小而增大。对欧氏距离进行负相关运算,包括计算欧氏距离的倒数、对欧式距离取负或者对欧式距离取负后加上常数值。
步骤506,选取计算的相似度中的最大相似度所对应的样本字符特征。
具体地,电子设备100可遍历计算出的相似度,取其中的最大值作为最大相似度,从而获取该最大相似度所对应的样本字符特征。
步骤508,获取选取的样本字符特征所对应的预设识别字符作为识别出的字符。
具体地,每个样本字符特征对应一个预设识别字符,预设识别字符是指预先标记的该样本字符特征所实际表示的字符。比如从一个包括字符“0”的样本字符图片中提取出的样本字符特征,相应的预设识别字符为数字“0”。
对于预设样本字符特征库,电子设备100可以在预设样本字符特征库中存储每个样本字符特征与相应的预设识别字符的对应关系。对于预设样本字符图片库,电子设备100既可以在预设样本字符图片库中存储每个样本字符图片与相应的预设识别字符的对应关系,也可以直接根据相应的预设识别字符对每个样本字符图片进行命名,通过命名来表示每个样本字符图片与相应的预设识别字符的对应关系。比如一个包括字符“0”的样本字符图片,保存为“0.jpg”,一个包括字符“1”的样本字符图片,保存为“1.jpg”,以此类推。
本实施例中,通过在预设样本字符特征库中查找与字符特征最相似的样本字符特征,或者在预设样本字符图片库中查找具有与字符特征最相似的样本字符特征的样本字符图片,从而将相应的预设识别字符作为字符识别结果。这样可以保证识别的准确性。
在一个实施例中,样本字符特征包括相应的样本字符图片每行中字符颜色的像素数量;步骤206包括:统计分割出的字符图片中每行字符颜色的像素数量,将统计的像素数量构成相应的字符特征;且步骤504包括:比较样本字符特征与字符特征各自对应的每行字符颜色的像素数量是否一致,根据统计的比较结果为一致的次数计算相似度。
具体地,本实施例中,样本字符特征可以表示为矩阵。类似地,统计分割出的字符图片中每行字符颜色的像素数量,将统计的像素数量构成相应的矩阵形式的字符特征。
然后将样本字符特征与字符特征进行比较,找到两种矩阵重合的部分,也就是找到对应到相应行中字符颜色的像素数量一致的部分,并统计比较结果为一致的次数。
根据统计的比较结果为一致的次数计算相似度,具体可以直接将该次数作为相似度,也可以对该次数进行正相关运算而得到相似度。正相关是指因变量随着自变量的增大而增大,随着自变量的减小而减小的函数关系。这里对次数进行正相关运算,包括在次数基础上加上或减去常数值、乘以或除以正常数值以及对次数进行非线性递增运算等。
举例说明,若样本字符特征为[2,2,3,19,4,….,1],表示相应的样本字符图片中第一行有2个字符颜色的像素,第二行有2个字符颜色的像素,以此类推,最后一行有1个字符颜色的像素。若字符特征为[2,2,4,4,4,….,1],通过比较,若样本字符特征和字符特征各自的矩阵仅在第一、第二、第五以及最后一行是一致的,则可记相似度为4。
本实施例中,通过统计字符图片中每行字符颜色的像素数量以构成字符特征,从而用于识别字符,计算量小,识别率高,在对海量联系对象标识图片进行处理时,具有明显的效率和成本优势。
在一个实施例中,样本字符特征包括相应的样本字符图片每列中字符颜色的像素数量;步骤206包括:统计分割出的字符图片中每列字符颜色的像素数量,将统计的像素数量构成相应的字符特征;且步骤504包括:比较样本字符特征与字符特征各自对应的每列字符颜色的像素数量是否一致,根据统计的比较结果为一致的次数计算相似度。
如图6所示,在一个实施例中,该联系对象标识获取方法还包括训练步骤,具体包括如下步骤:
步骤602,获取网页中的样本联系对象标识图片。
具体地,电子设备100可以通过网络爬虫爬取网页中的样本联系对象标识图片,具体可以分析网页的代码,找到网页中用于标记出联系对象标识图片的标签,从而获取该标签所对应的联系对象标识图片作为样本联系对象标识图片。
步骤604,从样本联系对象标识图片中分割出样本字符图片。
具体地,样本联系对象标识图片包括字符图像和背景图像,字符图像和背景图像采用不同的颜色,而且字符图像之间也是通过背景图像隔开,这样就可以根据字符图像和背景图像的差异分割出矩形的样本字符图片。
在一个实施例中,步骤604包括:对样本联系对象标识图片进行纵向像素扫描,找到样本联系对象标识图片中各个字符图像的横向边界;再对样本联系对象标识图片中各个字符图像的横向边界限定的图像区域进行横向像素扫描,找到样本联系对象标识图片中各个字符图像的纵向边界;按照各个字符图像的横向和纵向边界进行分割,得到相应的样本字符图片。
在一个实施例中,步骤604包括:对样本联系对象标识图片进行纵向像素扫描,找到仅包含背景颜色的第一类型的列和包含字符颜色的第二类型的列;将各个由连续的第二类型的列组成的第一子图像区域进行横向像素扫描,找到该第一子图像区域中仅包含背景颜色的第一类型的行和包含字符颜色的第二类型的行;将各个第一子图像区域中连续的第二类型的行组成第二子图像区域;将各个第二子图像区域从样本联系对象标识图片中分割出,获得相应的样本字符图片。
在一个实施例中,步骤604之前,还包括:对样本联系对象标识图片进行归一化处理。图像归一化是指对图像进行了一系列标准的处理变换,使之变换为一固定标准形式的过程,该标准图像称作归一化图像。归一化处理包括二值化处理、去噪处理、图片缩放以及图片旋转等中的至少一种。在一个实施例中,步骤604之前,还包括:对样本联系对象标识图片进行二值化处理。
步骤606,标记分割出的每个样本字符图片所对应的预设识别字符;预设识别字符覆盖用于组成联系对象标识的字符的取值范围。
具体地,电子设备100可获取用户对应于分割出的各个样本字符图片所输入的预设识别字符,根据该预设识别字符对相应的样本字符图片进行命名,或者存储该预设识别字符与相应的样本字符图片的对应关系。
步骤608,建立包括经过标记的样本字符图片的预设样本字符图片库。
本实施例中,通过建立预设样本字符图片库,为后续识别字符提供条件。
在一个实施例中,该联系对象标识获取方法还包括:获取网页中的样本联系对象标识图片;从样本联系对象标识图片中分割出样本字符图片;从样本字符图片中提取出样本字符特征;标记提取出的每个样本字符特征所对应的预设识别字符;预设识别字符覆盖用于组成联系对象标识的字符的取值范围;建立包括经过标记的样本字符特征的预设样本字符特征库。
在一个实施例中,该联系对象标识获取方法还包括:获取网页中与联系对象标识图片相关的文本信息,建立联系对象标识和文本信息的关联。
具体地,与联系对象标识图片相关的文本信息可以包括联系对象身份信息、文本信息来源以及文本信息种类。其中联系对象身份信息包括联系对象名称、联系对象通信地址以及联系对象注册地。文本信息来源可以是网页地址或者网页名称。电子设备100建立联系对象标识和文本信息的关联,这样就可以在已知联系对象标识时获取到相关联的文本信息。
如图7所示,在一个实施例中,该联系对象标识获取方法还包括查询文本信息的步骤,具体包括如下步骤:
步骤702,接收携带有联系对象标识的文本信息查询请求。
在一个实施例中,用户终端可在接收到对应于联系对象标识的通信请求后,自动向电子设备100发起携带有联系对象标识的文本信息查询请求。比如用户终端接收到某电话号码的来电,则可自动发起携带有该电话号码的文本信息查询请求。
在一个实施例中,用户终端还可以在接收到对应于联系对象标识的通信请求后,查询该联系对象标识是否存在于本地的联系对象标识列表中,若不存在则自动向电子设备100发起携带有联系对象标识的文本信息查询请求。
步骤704,根据文本信息查询请求查询联系对象标识所关联的文本信息。
具体地,电子设备100在接收到文本信息查询请求后,响应于该文本信息查询请求,查询该文本信息查询请求所携带的联系对象标识所关联的文本信息。
步骤706,反馈查询到的文本信息。
具体地,电子设备100向发起文本信息查询请求的用户终端反馈查询到的文本信息。用户终端可以对应于联系对象标识显示反馈的文本信息。
本实施例中,基于自动从网页中获取到的联系对象标识并建立与相应的文本信息的关联,可尽可能覆盖各网页中出现的联系对象标识,以尽可能全面地为广大用户提供与联系对象标识相关的文本信息的查询服务。
如图8所示,在一个实施例中,提供了一种联系对象标识获取装置800,具有实现上述各个实施例的联系对象标识获取方法的功能。该联系对象标识获取装置800包括:联系对象标识图片获取模块801、联系对象标识图片分割模块802、特征提取模块803、识别模块804和字符组合模块805。
联系对象标识图片获取模块801,用于获取网页中的联系对象标识图片。
这里的网页可以是不限制网页类型的随机网页,也可以是指定类型的网页,比如黄页网页、指定公司的官方网页、招聘网页等,其中黄页网页中包括大量有效的联系对象标识图片,能够在短时间内获取到大量联系对象标识。
联系对象标识是指能够唯一标识出一个通信对象的唯一标识,根据该联系对象标识可以与相应的联系对象联系。联系对象标识包括:电话号码、通信应用账号和邮箱地址等。通信应用账号包括:社交应用账号、游戏账号和即时通信应用账号等。联系对象标识图片是指包含联系对象标识的图像的图片。在一个实施例中,联系对象标识由从0到9的数字组成。在一个实施例中,联系对象标识由从0到9的数字和字母中的至少一种组成。
联系对象标识图片获取模块801可用于通过网络爬虫爬取网页中的联系对象标识图片,具体可以分析网页的代码,找到网页中用于标记出联系对象标识图片的标签,从而获取该标签所对应的联系对象标识图片。其中网络爬虫又称为网页蜘蛛或者网络机器人,是按照预先设定的规则抓取网络信息的程序或者脚本。
联系对象标识图片分割模块802,用于从联系对象标识图片中分割出字符图片。
具体地,联系对象标识图片包括字符图像和背景图像,字符图像和背景图像采用不同的颜色,而且字符图像之间也是通过背景图像隔开,这样就可以根据字符图像和背景图像的差异分割出矩形的字符图片。
在一个实施例中,联系对象标识图片分割模块802还用于对联系对象标识图片进行纵向像素扫描,找到联系对象标识图片中各个字符图像的横向边界;再对联系对象标识图片中各个字符图像的横向边界限定的图像区域进行横向像素扫描,找到联系对象标识图片中各个字符图像的纵向边界;按照各个字符图像的横向和纵向边界进行分割,得到相应的字符图片。这里纵向像素扫描是指扫描每一列,横向像素扫描则是指扫描每一行。横向边界是指某一列像素,纵向边界是指某一行像素。
在一个实施例中,联系对象标识图片分割模块802还用于对联系对象标识图片进行纵向像素扫描,找到仅包含背景颜色的第一类型的列和包含字符颜色的第二类型的列;将各个由连续的第二类型的列组成的第一子图像区域进行横向像素扫描,找到该第一子图像区域中仅包含背景颜色的第一类型的行和包含字符颜色的第二类型的行;将各个第一子图像区域中连续的第二类型的行组成第二子图像区域;将各个第二子图像区域从联系对象标识图片中分割出,获得相应的字符图片。
举例说明,联系对象标识图片如图3所示,字符颜色为白色,背景颜色为黑色,包含的联系对象标识为“593a”。先对该联系对象标识图片从左到右进行纵向像素扫描,将首次出现的含有白色的列作为第一个字符图像的左边界,继续扫描,将出现全黑的列作为第一个字符图像的右边界,并继续扫描,直至纵向像素扫描完毕。然后对各个左右边界之间的列组成的图像进行横向像素扫描,确定上边界和下边界,从而按照每个字符图像的上、下、左和右边界对联系对象标识图片进行分割,分割出各个字符图片。分割结果如图4所示。
特征提取模块803,用于提取分割出的字符图片的字符特征。
具体地,字符特征可以采用矩特征,矩特征表征了图像区域的几何特征,又称为几何矩,由于矩特征具有旋转、平移、尺度等特性的不变特征,所以又称为不变矩。矩特征包括Hu矩特征、Zernike(泽尔尼克)矩特征。字符特征还可以采用像素分布特征,比如字符图片每行或每列字符颜色数量、字符图片每行或每列背景颜色数量以及字符图片每行或每列字符颜色数量占比等。
识别模块804,用于根据预设样本字符特征库或者预设样本字符图片库,将字符特征识别为相应的字符。
具体地,预设样本字符图片库包括各种样本字符图片,该样本字符图片预先从网页中获取到的样本联系对象标识图片中分割出;预设样本字符特征库则包括从各种样本字符图片中提取出的样本字符特征。样本字符特征和字符特征采用相同的特征提取方式。从预设样本字符特征库中查找到与字符特征匹配的样本字符特征,从而将字符特征对应识别为匹配的样本字符特征所对应的预设识别字符。
在一个实施例中,预设样本字符特征库所包括的预设样本字符图片中的字符覆盖用于组成联系对象标识的字符的取值范围。比如若联系对象标识为电话号码,则预设样本字符特征库包括从0到9的样本字符特征。若联系对象标识由数字和字母构成,则预设样本字符特征库包括从0到9的数字、从a到z以及从A到Z的字母的样本字符特征。
字符组合模块805,用于按照字符图片对应到联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
具体地,字符组合模块805可用于在分割出字符图片时标记各个字符图片相对于联系对象标识图片的位置标记,从而将识别出的字符按照该位置标记进行排序后进行组合,得到联系对象标识。比如位置标记可以取相应的字符在联系对象标识图片中开始或者结束的列数,或者取字符中间点所在的列数。
在一个实施例中,联系对象标识图片分割模块802可用于在按顺序分割出字符图片时按顺序标记分割出的各个字符图片,从而字符组合模块805用于按照标记的顺序将识别出的字符进行组合,得到联系对象标识。
上述联系对象标识获取装置800,从网页中获取联系对象标识图片后,分割成独立的字符图片,再从每个字符图片中提取出字符特征,根据该提取的字符特征进行识别,从而识别出相应的字符。然后按照分割出的字符图片对应到联系对象标识图片中的位置将识别出的字符进行组合,就可以得到完整的联系对象标识。这样在通过网络爬虫爬取到联系对象标识图片后,可以采用模式识别的手段,从网页中提取出联系对象标识,为获取包括电话号码在内的联系对象标识提供了新的途径。
如图9所示,在一个实施例中,联系对象标识获取装置800还包括:归一化处理模块806,用于对联系对象标识图片进行归一化处理。图像归一化是指对图像进行了一系列标准的处理变换,使之变换为一固定标准形式的过程,该标准图像称作归一化图像。归一化处理包括二值化处理、去噪处理、图片缩放以及图片旋转等中的至少一种。
在一个实施例中,归一化处理模块806用于对联系对象标识图片进行二值化处理。
二值化处理是指将图像转换成两种颜色进行表示的处理,一般二值化后的图像为黑白图像。具体地,归一化处理模块806可用于按照预先设定的二值化阈值,将联系对象标识图片中大于等于该二值化阈值的像素值置为第一值,而将联系对象标识图片中小于该二值化阈值的像素值置为第二值,从而实现对联系对象标识图片进行二值化处理。
在一个实施例中,归一化处理模块806可用于统计联系对象标识图片中各个像素值的数量,从而按照预设统计得到的字符颜色和背景图像的比例结合联系对象标识图片中各种像素值的数量来确定二值化阈值;进而将联系对象标识图片中大于等于该二值化阈值的像素值置为第一值,将联系对象标识图片中小于该二值化阈值的像素值置为第二值,从而实现对联系对象标识图片进行二值化处理。第一值和第二值可以分别在0和255两个值中选择,这样字符颜色和背景颜色更容易区分,便于识别。
如图10所示,在一个实施例中,识别模块804包括:样本字符特征获取模块804a、相似度计算模块804b、样本字符特征选取模块804c和识别执行模块804d。
样本字符特征获取模块804a,用于获取预设样本字符特征库中的各个样本字符特征;或者,分别提取预设样本字符图片库中各个样本字符图片的样本字符特征。具体地,样本字符特征获取模块804a可用于直接从预设样本字符特征库中获取各个样本字符特征,也可以用于从预设样本字符图片库中获取各个样本字符图片后,再提取每个样本字符图片的样本字符特征。
相似度计算模块804b,用于计算各个样本字符特征与字符特征的相似度。
具体地,相似度表示的是样本字符特征与字符特征相似程度的数值,样本字符特征与字符特征差异越小,相似度越高。相似度计算模块804b可用于计算各个样本字符特征与字符特征的欧氏距离,进而对欧氏距离进行负相关运算,得到相似度。这里对欧氏距离进行负相关运算,是指作为因变量的相似度随作为自变量的欧氏距离的增大而减小,因变量随自变量的减小而增大。对欧氏距离进行负相关运算,包括计算欧氏距离的倒数、对欧式距离取负或者对欧式距离取负后加上常数值。
样本字符特征选取模块804c,用于选取计算的相似度中的最大相似度所对应的样本字符特征。
具体地,样本字符特征选取模块804c可用于遍历计算出的相似度,取其中的最大值作为最大相似度,从而获取该最大相似度所对应的样本字符特征。
识别执行模块804d,用于获取选取的样本字符特征所对应的预设识别字符作为识别出的字符。
具体地,每个样本字符特征对应一个预设识别字符,预设识别字符是指预先标记的该样本字符特征所实际表示的字符。比如从一个包括字符“0”的样本字符图片中提取出的样本字符特征,相应的预设识别字符为数字“0”。
对于预设样本字符特征库,识别执行模块804d可用于在预设样本字符特征库中存储每个样本字符特征与相应的预设识别字符的对应关系。对于预设样本字符图片库,既可以在预设样本字符图片库中存储每个样本字符图片与相应的预设识别字符的对应关系,也可以直接根据相应的预设识别字符对每个样本字符图片进行命名,通过命名来表示每个样本字符图片与相应的预设识别字符的对应关系。比如一个包括字符“0”的样本字符图片,保存为“0.jpg”,一个包括字符“1”的样本字符图片,保存为“1.jpg”,以此类推。
本实施例中,通过在预设样本字符特征库中查找与字符特征最相似的样本字符特征,或者在预设样本字符图片库中查找具有与字符特征最相似的样本字符特征的样本字符图片,从而将相应的预设识别字符作为字符识别结果。这样可以保证识别的准确性。
在一个实施例中,样本字符特征包括相应的样本字符图片每行或每列中字符颜色的像素数量;特征提取模块803还用于统计分割出的字符图片中每行或每列字符颜色的像素数量,将统计的像素数量构成相应的字符特征;相似度计算模块804b还用于比较样本字符特征与字符特征各自对应的每行或每列字符颜色的像素数量是否一致,根据统计的比较结果为一致的次数计算相似度。
具体地,本实施例中,样本字符特征可以表示为矩阵。特征提取模块803可用于统计分割出的字符图片中每行字符颜色的像素数量,将统计的像素数量构成相应的矩阵形式的字符特征。
然后相似度计算模块804b可用于将样本字符特征与字符特征进行比较,找到两种矩阵重合的部分,也就是找到对应到相应行中字符颜色的像素数量一致的部分,并统计比较结果为一致的次数。相似度计算模块804b还可用于根据统计的比较结果为一致的次数计算相似度,具体可以直接将该次数作为相似度,也可以对该次数进行正相关运算而得到相似度。这里对次数进行正相关运算,包括在次数基础上加上或减去常数值、乘以或除以正常数值以及对次数进行非线性递增运算等。
举例说明,若样本字符特征为[2,2,3,19,4,….,1],表示相应的样本字符图片中第一行有2个字符颜色的像素,第二行有2个字符颜色的像素,以此类推,最后一行有1个字符颜色的像素。若字符特征为[2,2,4,4,4,….,1],通过比较,若样本字符特征和字符特征各自的矩阵仅在第一、第二、第五以及最后一行是一致的,则可记相似度为4。
本实施例中,通过统计字符图片中每行字符颜色的像素数量以构成字符特征,从而用于识别字符,计算量小,识别率高,在对海量联系对象标识图片进行处理时,具有明显的效率和成本优势。
如图11所示,在一个实施例中,联系对象标识获取装置800还包括样本联系对象标识图片获取模块807、样本联系对象标识图片分割模块808、预设识别字符标记模块809和预设样本字符图片库建立模块810。
样本联系对象标识图片获取模块807,用于获取网页中的样本联系对象标识图片。
具体地,样本联系对象标识图片获取模块807可用于通过网络爬虫爬取网页中的样本联系对象标识图片,具体可以分析网页的代码,找到网页中用于标记出联系对象标识图片的标签,从而获取该标签所对应的联系对象标识图片作为样本联系对象标识图片。
样本联系对象标识图片分割模块808,用于从样本联系对象标识图片中分割出样本字符图片。
具体地,样本联系对象标识图片包括字符图像和背景图像,字符图像和背景图像采用不同的颜色,而且字符图像之间也是通过背景图像隔开,这样就可以根据字符图像和背景图像的差异分割出矩形的样本字符图片。
在一个实施例中,样本联系对象标识图片分割模块808可用于对样本联系对象标识图片进行纵向像素扫描,找到样本联系对象标识图片中各个字符图像的横向边界;再对样本联系对象标识图片中各个字符图像的横向边界限定的图像区域进行横向像素扫描,找到样本联系对象标识图片中各个字符图像的纵向边界;按照各个字符图像的横向和纵向边界进行分割,得到相应的样本字符图片。
在一个实施例中,样本联系对象标识图片分割模块808可用于对样本联系对象标识图片进行纵向像素扫描,找到仅包含背景颜色的第一类型的列和包含字符颜色的第二类型的列;将各个由连续的第二类型的列组成的第一子图像区域进行横向像素扫描,找到该第一子图像区域中仅包含背景颜色的第一类型的行和包含字符颜色的第二类型的行;将各个第一子图像区域中连续的第二类型的行组成第二子图像区域;将各个第二子图像区域从样本联系对象标识图片中分割出,获得相应的样本字符图片。
在一个实施例中,归一化处理模块还可以用于对样本联系对象标识图片进行归一化处理。图像归一化是指对图像进行了一系列标准的处理变换,使之变换为一固定标准形式的过程,该标准图像称作归一化图像。归一化处理包括二值化处理、去噪处理、图片缩放以及图片旋转等中的至少一种。在一个实施例中,归一化处理模块还可以用于对样本联系对象标识图片进行二值化处理。
预设识别字符标记模块809,用于标记分割出的每个样本字符图片所对应的预设识别字符;预设识别字符覆盖用于组成联系对象标识的字符的取值范围。
具体地,预设识别字符标记模块809可用于获取用户对应于分割出的各个样本字符图片所输入的预设识别字符,根据该预设识别字符对相应的样本字符图片进行命名,或者存储该预设识别字符与相应的样本字符图片的对应关系。
预设样本字符图片库建立模块810,用于建立包括经过标记的样本字符图片的预设样本字符图片库。
本实施例中,通过建立预设样本字符图片库,为后续识别字符提供条件。
如图12所示,在一个实施例中,联系对象标识获取装置800还包括文本信息关联模块811,用于获取网页中与联系对象标识图片相关的文本信息,建立联系对象标识和文本信息的关联。
具体地,与联系对象标识图片相关的文本信息可以包括联系对象身份信息、文本信息来源以及文本信息种类。其中联系对象身份信息包括联系对象名称、联系对象通信地址以及联系对象注册地。文本信息来源可以是网页地址或者网页名称。电子设备100建立联系对象标识和文本信息的关联,这样就可以在已知联系对象标识时获取到相关联的文本信息。
在一个实施例中,联系对象标识获取装置800还包括:文本信息查询请求接收模块812、文本信息查询模块813和文本信息反馈模块814。
文本信息查询请求接收模块812,用于接收携带有联系对象标识的文本信息查询请求。
在一个实施例中,文本信息查询请求接收模块812所接收的文本信息查询请求,是用户终端在接收到对应于联系对象标识的通信请求后自动发起的。比如用户终端接收到某电话号码的来电,则可自动发起携带有该电话号码的文本信息查询请求。
在一个实施例中,文本信息查询请求接收模块812所接收的文本信息查询请求,是用户终端在接收到对应于联系对象标识的通信请求后查询到该联系对象标识不存在于本地的联系对象标识列表中时发起的。
文本信息查询模块813,用于根据文本信息查询请求查询联系对象标识所关联的文本信息。文本信息查询模块813用于在接收到文本信息查询请求后,响应于该文本信息查询请求,查询该文本信息查询请求所携带的联系对象标识所关联的文本信息。
文本信息反馈模块814,用于反馈查询到的文本信息。具体地,文本信息反馈模块814用于向发起文本信息查询请求的用户终端反馈查询到的文本信息。用户终端可以对应于联系对象标识显示反馈的文本信息。
本实施例中,基于自动从网页中获取到的联系对象标识并建立与相应的文本信息的关联,可尽可能覆盖各网页中出现的联系对象标识,以尽可能全面地为广大用户提供与联系对象标识相关的文本信息的查询服务。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种联系对象标识获取方法,所述方法包括:
获取网页中的联系对象标识图片;
从所述联系对象标识图片中分割出字符图片;
提取分割出的字符图片的字符特征;
根据预设样本字符特征库或者预设样本字符图片库,将所述字符特征识别为相应的字符;
按照所述字符图片对应到所述联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取网页中的样本联系对象标识图片;
从所述样本联系对象标识图片中分割出样本字符图片;
标记分割出的每个样本字符图片所对应的预设识别字符;所述预设识别字符覆盖用于组成联系对象标识的字符的取值范围;
建立包括经过标记的样本字符图片的预设样本字符图片库。
3.根据权利要求1所述的方法,其特征在于,所述预设样本字符特征库中的样本字符特征包括相应的样本字符图片每行或每列中字符颜色的像素数量;所述提取分割出的字符图片的字符特征,包括:
统计分割出的字符图片中每行或每列字符颜色的像素数量,将统计的像素数量构成相应的字符特征。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述网页中与所述联系对象标识图片相关的文本信息,建立所述联系对象标识和所述文本信息的关联。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
接收携带有联系对象标识的文本信息查询请求;
根据所述文本信息查询请求查询所述联系对象标识所关联的文本信息;
反馈查询到的文本信息。
6.一种联系对象标识获取装置,其特征在于,所述装置包括:
联系对象标识图片获取模块,用于获取网页中的联系对象标识图片;
联系对象标识图片分割模块,用于从所述联系对象标识图片中分割出字符图片;
特征提取模块,用于提取分割出的字符图片的字符特征;
识别模块,用于根据预设样本字符特征库或者预设样本字符图片库,将所述字符特征识别为相应的字符;
字符组合模块,用于按照所述字符图片对应到所述联系对象标识图片中的位置,将相应的识别出的字符进行组合,获得联系对象标识。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
样本联系对象标识图片获取模块,用于获取网页中的样本联系对象标识图片;
样本联系对象标识图片分割模块,用于从所述样本联系对象标识图片中分割出样本字符图片;
预设识别字符标记模块,用于标记分割出的每个样本字符图片所对应的预设识别字符;所述预设识别字符覆盖用于组成联系对象标识的字符的取值范围;
预设样本字符图片库建立模块,用于建立包括经过标记的样本字符图片的预设样本字符图片库。
8.根据权利要求6所述的装置,其特征在于,所述预设样本字符特征库中的样本字符特征包括相应的样本字符图片每行或每列中字符颜色的像素数量;所述特征提取模块还用于统计分割出的字符图片中每行或每列字符颜色的像素数量,将统计的像素数量构成相应的字符特征。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
文本信息关联模块,用于获取所述网页中与所述联系对象标识图片相关的文本信息,建立所述联系对象标识和所述文本信息的关联。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
文本信息查询请求接收模块,用于接收携带有联系对象标识的文本信息查询请求;
文本信息查询模块,用于根据所述文本信息查询请求查询所述联系对象标识所关联的文本信息;
文本信息反馈模块,用于反馈查询到的文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510268164.7A CN104915664B (zh) | 2015-05-22 | 2015-05-22 | 联系对象标识获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510268164.7A CN104915664B (zh) | 2015-05-22 | 2015-05-22 | 联系对象标识获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915664A true CN104915664A (zh) | 2015-09-16 |
CN104915664B CN104915664B (zh) | 2021-02-09 |
Family
ID=54084714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510268164.7A Active CN104915664B (zh) | 2015-05-22 | 2015-05-22 | 联系对象标识获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915664B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110351094A (zh) * | 2019-07-03 | 2019-10-18 | 平安科技(深圳)有限公司 | 字符验证方法、装置、计算机设备及存储介质 |
CN110598684A (zh) * | 2019-07-19 | 2019-12-20 | 珠海格力电器股份有限公司 | 识别图片中电话号码的方法、系统、终端设备及存储介质 |
CN111079735A (zh) * | 2018-10-22 | 2020-04-28 | 莱芜钢铁集团电子有限公司 | 一种铸坯端面字符识别方法及装置 |
CN112019925A (zh) * | 2020-10-29 | 2020-12-01 | 蘑菇车联信息科技有限公司 | 视频水印识别处理方法及装置 |
CN113420734A (zh) * | 2021-08-23 | 2021-09-21 | 东华理工大学南昌校区 | 一种英文字符的录入方法和录入系统 |
CN113835582A (zh) * | 2021-09-27 | 2021-12-24 | 青岛海信移动通信技术股份有限公司 | 一种终端设备、信息显示方法和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1796019A1 (en) * | 2005-12-12 | 2007-06-13 | Xerox Corporation | Personal information retrieval using knowledge bases for optical character recognition correction |
CN101567042A (zh) * | 2009-05-25 | 2009-10-28 | 公安部交通管理科学研究所 | 武警汽车号牌图像的字符识别方法 |
CN102385707A (zh) * | 2010-08-30 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 一种数字图像识别的方法、装置及爬虫服务器 |
CN102663380A (zh) * | 2012-03-30 | 2012-09-12 | 中南大学 | 一种钢铁板坯编码图像中的字符识别方法 |
CN103412877A (zh) * | 2013-07-15 | 2013-11-27 | 珠海市魅族科技有限公司 | 图片传递方法及装置 |
CN104036272A (zh) * | 2014-06-24 | 2014-09-10 | 联想(北京)有限公司 | 一种文本检测方法及电子设备 |
-
2015
- 2015-05-22 CN CN201510268164.7A patent/CN104915664B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1796019A1 (en) * | 2005-12-12 | 2007-06-13 | Xerox Corporation | Personal information retrieval using knowledge bases for optical character recognition correction |
CN101567042A (zh) * | 2009-05-25 | 2009-10-28 | 公安部交通管理科学研究所 | 武警汽车号牌图像的字符识别方法 |
CN102385707A (zh) * | 2010-08-30 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 一种数字图像识别的方法、装置及爬虫服务器 |
CN102663380A (zh) * | 2012-03-30 | 2012-09-12 | 中南大学 | 一种钢铁板坯编码图像中的字符识别方法 |
CN103412877A (zh) * | 2013-07-15 | 2013-11-27 | 珠海市魅族科技有限公司 | 图片传递方法及装置 |
CN104036272A (zh) * | 2014-06-24 | 2014-09-10 | 联想(北京)有限公司 | 一种文本检测方法及电子设备 |
Non-Patent Citations (1)
Title |
---|
程习武: "基于像素匹配的Android 平台身份证号码实时识别", 《现代计算机(专业版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079735A (zh) * | 2018-10-22 | 2020-04-28 | 莱芜钢铁集团电子有限公司 | 一种铸坯端面字符识别方法及装置 |
CN111079735B (zh) * | 2018-10-22 | 2023-12-22 | 莱芜钢铁集团电子有限公司 | 一种铸坯端面字符识别方法及装置 |
CN110351094A (zh) * | 2019-07-03 | 2019-10-18 | 平安科技(深圳)有限公司 | 字符验证方法、装置、计算机设备及存储介质 |
CN110351094B (zh) * | 2019-07-03 | 2024-03-15 | 平安科技(深圳)有限公司 | 字符验证方法、装置、计算机设备及存储介质 |
CN110598684A (zh) * | 2019-07-19 | 2019-12-20 | 珠海格力电器股份有限公司 | 识别图片中电话号码的方法、系统、终端设备及存储介质 |
CN112019925A (zh) * | 2020-10-29 | 2020-12-01 | 蘑菇车联信息科技有限公司 | 视频水印识别处理方法及装置 |
CN112019925B (zh) * | 2020-10-29 | 2021-01-22 | 蘑菇车联信息科技有限公司 | 视频水印识别处理方法及装置 |
CN113420734A (zh) * | 2021-08-23 | 2021-09-21 | 东华理工大学南昌校区 | 一种英文字符的录入方法和录入系统 |
CN113835582A (zh) * | 2021-09-27 | 2021-12-24 | 青岛海信移动通信技术股份有限公司 | 一种终端设备、信息显示方法和存储介质 |
CN113835582B (zh) * | 2021-09-27 | 2024-03-15 | 青岛海信移动通信技术有限公司 | 一种终端设备、信息显示方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104915664B (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104915664A (zh) | 联系对象标识获取方法和装置 | |
CN109657738B (zh) | 字符识别方法、装置、设备及存储介质 | |
CN104298982A (zh) | 一种文字识别方法及装置 | |
US20190188528A1 (en) | Text detection method and apparatus, and storage medium | |
CN107093172B (zh) | 文字检测方法及系统 | |
US8988543B2 (en) | Camera based method for text input and keyword detection | |
CN106056114A (zh) | 名片内容识别方法和装置 | |
CN105528606A (zh) | 区域识别方法及装置 | |
CN110728687B (zh) | 文件图像分割方法、装置、计算机设备和存储介质 | |
CN108875744B (zh) | 基于矩形框坐标变换的多方向文本行检测方法 | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
CN104778470A (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN109284613B (zh) | 标识检测及仿冒站点检测方法、装置、设备及存储介质 | |
CN102855298A (zh) | 图像检索方法及系统 | |
CN104750791A (zh) | 一种图像检索方法及装置 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN111222585A (zh) | 数据处理方法、装置、设备及介质 | |
JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
CN114241501B (zh) | 影像文档处理方法、装置及电子设备 | |
CN110210467B (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
CN105183950A (zh) | 一种基于移动终端查阅工程图纸的方法及系统 | |
CN104598289B (zh) | 一种识别方法及一种电子设备 | |
CN111652219B (zh) | 一种图文标识检测识别方法、装置、服务器及存储介质 | |
CN111783786A (zh) | 图片的识别方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |