CN108171231A

CN108171231A - 一种基于图像识别的通信方法和装置

Info

Publication number: CN108171231A
Application number: CN201611116384.9A
Authority: CN
Inventors: 谢东
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2018-06-15
Also published as: EP3553702A4; EP3553702A1; WO2018103450A1

Abstract

本发明实施例提供一种基于图像识别的通信方法和装置，根据确定的对焦区域对待采集的图片进行对焦，将对焦区域内的图片信息处理成对应的文字信息。即可以方便的实现图像识别，提高了图像识别的效率，提高了RCS客户端之间的沟通效率，同时提高了用户的体验。

Description

一种基于图像识别的通信方法和装置

技术领域

本发明涉及通信领域，尤其涉及一种基于图像识别的通信方法和装置。

背景技术

在日常生活中，用户通常需要通过终端上的应用将所见的内容传递给他人，其中对于融合通信(Rich Communication Suite，RCS)功能的使用频率较高，具备RCS功能的RCS客户端系统可以把终端中原有的“通话”、“消息”、“联系人”等入口，从运营商的层面直接与终端整合，变为新通话、新消息、新联系人。在现有的技术条件下，微信、QQ等客户端程序进行图像信息的传递的常用的方式是，客户端程序打开摄像头对场景拍照获得图片，然后将图片形式的信息发送给消息接收者；或者是通过启动第三方程序处理图片，采用图像识别的方法获得文字内容，然后编辑文字内容，保留与需要表达信息相关的部分，删除其余部分，并添加适当的描述，然后将文字消息发送给消息接收者。然而现有对图片中识别文字的方案中，受制于图片的清晰度、图片中文字内容的多寡，对具体文字信息的识别准确率低，用户体验不佳。

发明内容

本发明实施例提供的基于图像识别的通信方法和装置，主要解决的技术问题是当前客户端之间进行信息传递时图像信息识别准确性差，且识别效率低的问题。

为解决上述技术问题，本发明实施例提供一种基于图像识别的通信方法，包括：

根据确定的对焦区域对待采集的图片进行对焦；

将所述对焦区域内的图片信息处理成对应的文字信息。

本发明实施例还提供一种基于图像识别的通信装置，包括：

图像采集模块，用于根据确定的对焦区域对待采集的图片进行对焦；

内容处理模块，用于将所述对焦区域内的图片信息处理成对应的文字信息。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述的任一项的基于图像识别的通信方法。

本发明的有益效果是：

根据本发明实施例提供的基于图像识别的通信方法、装置以及计算机存储介质，根据确定的对焦区域对待采集的图片进行对焦，将对焦区域内的图片信息处理成对应的文字信息。即可以方便的实现图像识别，提高了图像识别的效率，提高了RCS客户端之间的沟通效率，同时提高了用户的体验。

附图说明

图1为本发明实施例一的基于图像识别的通信方法流程图；

图2为本发明实施例二的基于图像识别的通信装置示意图；

图3为本发明实施例三的基于图像识别的通信装置示意图；

图4为本发明实施例三的基于图像识别的通信方法流程图；

图5为本发明实施例三的另一基于图像识别的通信方法流程图。

具体实施方式

下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。

实施例一：

本发明实施例提供一种基于图像识别的通信方法，请参见图1，具体包括：

步骤S101，根据确定的对焦区域对扫描的图片进行对焦；

步骤S102，将对焦区域的图片信息处理成对应的文字信息；

在本实施例中，扫描的图片，可以包括：对实际景物的扫描，可称之为拍摄，即启动终端上的摄像头模组采集图像，这一过程在本发明各实施例中可称之为扫描。在扫描(拍摄)的过程中，对焦区域是最为清晰的部分，一般是用户拍摄的重点所在。对焦区域是对焦点一定范围内的区域，对焦点是一个点，在该点采集的图像最为清晰，在该点一定范围内的区域的图像清晰度也较高，这一区域则被称为对焦区域。

具体的，对于步骤S101，采集图像可以是在RCS客户端间进行信息的传递时，在接收到图像采集指令时，启动摄像头，通过该摄像头采集图像。在摄像头采集图像时，包括接收在采集的图像上选定的对焦点的位置信息，然后根据该位置信息调整焦距，和根据对焦点区域的图片字体大小对应的缩放系数调整图片的放大倍数，然后根据调整后的采集参数采集图像。该对焦点可以是用户选择的图像中的某个点，也可以是根据需要预先设置的对焦点。通过图像采集得到图片后，识别出该图片上对焦区域的文字内容；然后，对识别出的文字内容进行优化处理得到待发送文字内容，并发送给目标RCS客户端。

进一步的，本实施例中，在步骤S102之前，还可以包括：根据预设的缩放规则，对图像进行缩放。而根据预设的缩放规则，对图像进行缩放包括：根据图片的字体大小确定图片对应的缩放系数，根据缩放系数对图像进行缩放。具体的，本实施例中，将适合观察者阅读的字体大小确定为标准字体大小。缩放系数的计算公式可以为：缩放系数k＝图片字体大小/标准字体大小。该标准字体大小为预先设定的适合观察阅读的字体大小，单位为“磅”，英文“point”，简写为“p”。字体大小是指字在屏幕或者印刷介质上表现出来的大小，将每个字按方块处理，测量方块的对角线长度计算大小，换算成单位“磅”。图片字体大小为文字识别后，根据文字内容找到原图片对应文字区域，测量其中文字大小，换算成单位“磅”。则缩放系数k为图片字体大小除以标准字体大小，为无量纲。图像采集时，根据该参数控制图片放大倍数，使其达到预设状态。其中，若系数k等于1，则图像适合阅读和识别，不需要调整；若系数k大于1，则图像显示过大，需要降低图片放大倍数；系数k小于1，则图像显示过小，需要提高图片放大倍数。

在将对焦区域的图片信息处理成对应的文字信息之前，还可以包括：对对焦区域的图片进行分割、倾斜校正，获得主内容区域，并对主内容区域进行以下至少一种的算法处理：去噪、增强、平滑和锐化。具体的，对对焦点所在的区域进行识别，获得文字内容，包括在得到图片后，对图片进行预处理，该预处理包括对图片进行分割、倾斜校正等处理，以获取主区域内容。该主内容区域内容包括对焦区域中存在文字内容的区域。然后，对该主内容区域进行去噪、增强、平滑和锐化等处理，通过特征提取和降维等方法获取该主内容区域的文字内容，并将获取到的文字内容按照一定的格式保存下来，如可以预先设置文字内容的字体、颜色、形式等保存格式，然后按照该保存格式将文字内容保存下来。

将对焦区域的图片信息处理成对应的文字信息，包括：对识别的文字内容进行检查，更正错误的文字，获得相对更准确的文字信息；将更正后的文件信息进行规范化处理。具体的，在得到文字内容后，对得到的文字内容进行检查，检查其中是否存在错误的文字，若存在错误的文字，则可以调用网络词库或本地词库，对错误的词进行修改，以得到相对更准确的文字信息。然后，将更正后的文字内容，进行规范化处理，判断其规范化结果的准确性。进一步的，对更正后的文字内容进行规范化处理包括对文字内容的字体、字数等信息进行规范化处理。即得到文字内容后，可以通过词法分析、语法分析和语义分析等处理方式，对该文字内容进行修正和优化，获得更加准确的文字信息。通过上述对文字内容的更正处理和规范化处理，可以提高文字内容的准确性，从而可以提高信息交互的准确性，提高用户的体验。在得到优化后的待发送文字内容后，将该待发送文字内容发送给目标信息接收者。

进一步的，本实施例中，在调整焦距时，也可以根据之前对文字内容进行识别的识别结果设置图片的放大倍数，如可以根据前一次识别出的文字字体大小调节图像放大倍数，以使图片放大效果更佳。

进一步的，本实施例提供的基于图像识别的通信方法，在步骤S102之后，还可以包括：对待发送文字内容进行兴趣点匹配，并对匹配的结果进行准确性判断，将通过准确性判断的待发送文字内容发送出去。具体的，通过本实施例提供的基于图像识别的通信方法，可以实现兴趣点捕捉，帮助用户快速识别感兴趣的内容，以提高沟通效率。如可以预先设置兴趣点，并预先对兴趣点中的关键字创建索引，索引的方法可以是B树索引，在得到文字内容后，将该文字内容进行兴趣点匹配，然后对匹配的结果进行准确性判断，将通过准确性判断的待发送文字内容发送出去。如该兴趣点为“餐厅”，则可以从文字内容中筛选出包含“餐厅”信息的文字内容，然后，判断该包含“餐厅”信息的文字内容是否准确，将准确的该文字内容发给信息接收者。判断文字内容是否准确可以是判断该文字内容是否与设置的兴趣点真正匹配，在确认其匹配的准确性后，将其发送给信息接收者。另外，为了提高存储效率，可以对兴趣点压缩后存储，压缩算法可以是zip算法。

本实施例提供的基于图像识别的通信方法，根据确定的对焦区域对扫描的图片进行对焦，将对焦区域的图片信息处理成对应的文字信息。即可以方便的实现图像识别，提高了图像识别的效率，提高了RCS客户端之间的沟通效率，同时提高了用户的体验。

实施例二：

本实施例提供一种基于图像识别的通信装置，请参见图2，具体包括：图像采集模块21和内容处理模块23，其中，图像采集模块21用于根据确定的对焦区域对待采集的图片进行对焦；内容处理模块23用于将对焦区域内的图片信息处理成对应的文字信息。

具体的，在RCS客户端间进行信息的传递时，图像采集模块21在接收到图像采集指令时，启动摄像头采集图像；并接收在采集的图像上选定的对焦点的位置信息，然后根据该位置信息调整焦距，和根据焦点区域的图片字体大小对应的缩放系数调整图片的放大倍数，然后根据调整后的采集参数采集图像。该对焦点可以是用户选择的图像中的某个点，也可以是根据需要预先设置的焦点。图像采集模块21通过图像采集得到图片后，内容处理模块23将图片信息处理成对应的文字信息。

进一步的，本实施例中的图像采集模块21还可以用于：根据图片字体大小确定图片对应的缩放系数，并根据缩放系数对图像进行缩放。即可以根据预设的标准字体大小与图片字体大小的比值设置图片的缩放倍数。

本实施例还可以包括文字识别模块22，用于：对对焦区域的图片进行分割、倾斜校正，获得主内容区域，并对主内容区域进行以下至少一种的算法处理：去噪、增强、平滑和锐化。具体的，在图像采集模块21得到图片后，由文字识别模块22对图片进行预处理，该预处理包括对图片进行分割、倾斜校正等处理，以获取主区域内容。该主内容区域内容包括对焦区域中存在文字内容的区域。然后，文字识别模块22对该主内容区域进行去噪、增强、平滑和锐化等处理，以获取该主内容区域的文字内容，可以通过特征提取、降维等方式获取该主内容区域的文字内容，并将获取到的文字内容按照一定的格式保存下来，如可以预先设置文字内容的字体、颜色、形式等保存格式，然后按照该保存格式将文字内容保存下来。

本实施例提供的内容处理模块23还用于：对识别的文字内容进行检查，更正错误的文字，获得相对更准确的文字信息；将更正后的文件信息进行规范化处理。具体的，在文字识别模块22得到文字内容后，由内容处理模块23对得到的文字内容进行检查，检查其中是否存在错误的文字，若存在错误的文字，则可以调用网络词库或本地词库，对错误的词进行修改，以得到相对更准确的文字信息。然后，将更正后的文字内容，进行规范化处理，判断其规范化结果的准确性。进一步的，对更正后的文字内容进行规范化处理包括对文字内容的字体、字数等信息进行规范化处理。即得到文字内容后，可以通过词法分析、语法分析和语义分析等处理方式，对该文字内容进行修正和优化，获得更加准确的文字信息。通过上述对文字内容的更正处理和规范化处理，可以提高文字内容的准确性，从而可以提高信息交互的准确性，提高用户的体验。在得到优化后的待发送文字内容后，将该待发送文字内容发送给目标信息接收者。

进一步的，本实施例中的内容处理模块23还用于对待发送文字内容进行兴趣点匹配，并对匹配的结果进行准确性判断，将通过准确性判断的待发送文字内容发送出去。具体的，可以预先设置兴趣点，在得到文字内容后，将该文字内容进行兴趣点匹配，然后对匹配的结果进行准确性判断，将通过准确性判断的待发送文字内容发送出去。即通过本实施例提供的基于图像识别的通信装置，可以实现兴趣点捕捉，帮助用户快速识别感兴趣的内容，进一步的，设置兴趣点，将文字内容与兴趣点进行匹配的过程具体可以是预先对兴趣点中的关键字创建索引，索引的方法可以是B树索引，然后根据该索引树进行兴趣点匹配。另外，为了提高存储效率，可以对兴趣点压缩后存储，压缩算法可以是zip算法。

本实施例提供的基于图像识别的通信装置，根据确定的对焦区域对扫描的图片进行对焦，将对焦区域的图片信息处理成对应的文字信息。即可以方便的实现图像识别，提高了图像识别的效率，提高了RCS客户端之间的沟通效率，同时提高了用户的体验。

实施例三：

本实施例提供一种基于图像识别的通信装置，请参见图3，具体包括图像采集模块，文字识别模块和内容处理模块。其中，图像采集模块包括命令处理单元，控制单元和数据处理单元；该命令处理单元负责摄像头命令管理，例如启动摄像头，控制焦距等；控制单元负责在图像采集过程中的一些关键控制算法；例如进行根据用户选择图像中的某个点区域，控制摄像头焦距调整，或根据之前文字内容识别的初步识别结果，计算缩放系数，设定图像放大目标，控制图片显示范围等处理；数据处理单元负责处理摄像头拍摄的图像，并按照一定格式将图片保存下来。文字识别模块与图像处理模块和内容处理模块相连，其主要包括图片处理单元、文字识别单元和文字处理单元；其中，图片处理单元负责对图片进行预处理，该预处理包括对图片进行分割校正，获得主要区域部分，集主内容区域，然后使用去噪、增强、平滑、锐化等算法对主区域部分进行处理；文字识别单元主要功能是对主区域图像进行识别，获得文字内容；文字处理单元主要功能是处理识别出的文字，按照一定格式将该文字内容保存下来。另外，内容处理模块与图像采集模块和文字识别模块相连，其主要包括内容更正单元，规范化处理单元和结果处理单元；其中，内容更正单元主要负责检查和更正错误的文字，例如通过词法分析、语法分析和语义分析进行修正和优化，获得更加准确的文字信息；规范化处理单元主要负责对内容文字进行规范化处理，例如根据图像实际情况对应方式排版处理，对字体和字数进行规范化处理，使结果更加好用；结果处理单元主要负责判断结果准确性是否达到要求，如果未达到要求，则重新采集图像进行识别，直到获得满意效果，然后通过RCS客户端程序将文字内容发送给信息接收者。进一步的，本实施中的内容处理模块还可以包括兴趣点存储模块，即可以将兴趣点存储在该兴趣点存储模块中，当得到文字内容后，可将文字内容与该兴趣点存储模块中的兴趣点进行匹配，将匹配的兴趣点发送给相应的信息接收者。

基于上述基于图像识别的通信装置，本实施例提供一种基于图像识别的通信方法，可以使用户之间将所见内容快速传递给对方，且该发送的内容经过发送者观察、理解后，具有准确的含义和目的。如图4所示。方法包括：

步骤S412，启动摄像头；

具体的，图像采集模块命令处理单元启动摄像头，进行必要的初始化操作，准备拍摄。

步骤S414，调整摄像头焦距；

具体的，图像采集模块控制单元根据用户选择图像中的某个点区域，计算摄像头焦距大小，然后将计算结果发给图像采集模块命令处理单元，调整控制摄像头焦距。

步骤S416，调整图像放大倍数；

具体的，图像采集模块控制单元根据之前初步识别结果，按照字体偏差系数计算公式，计算字体偏差系数，该字体偏差系数的计算方式与缩放系数的计算方式相同；然后图像采集模块命令处理单元设定图像放大目标，控制图片显示范围。

步骤S418，保存图片；

具体的，图像采集模块数据处理单元将摄像头图片按照指定格式保存下来。

步骤S422，预处理图片；

具体的，文字识别模块图片处理单元首先对图片进行分割，倾斜校正，获得主要区域部分；然后使用去噪、增强、平滑、锐化等算法进行处理。

步骤S424，图片识别；

具体的，文字识别模块的文字识别单元对区域图片进行识别，获得文字内容，其具体可以是通过特征提取和降维方法获取文字内容。

步骤S426，保存文字内容；

具体的，文字识别模块的文字处理单元将识别出的文字，按照一定格式保存下来。

步骤S432，更正文字内容；

具体的，内容处理模块内容更正单元检查和更正错误的文字，例如通过词法分析、语法分析和语义分析进行修正和优化，避免低级错误，获得更加准确的文字信息。

步骤S434，规范化处理文字；

具体的，内容处理模块规范化处理单元将结果内容文字进行规范化处理，例如根据图像实际情况对应方式排版处理，对字体进行优化调整，对字数进行裁剪，使得到的文字内容更加规范。

步骤S436，检验文字内容是否达到要求；

具体的，内容处理模块结果处理单元判断文字规范化处理的结果准确性是否达到要求。如果否，则进行步骤S412，重新采集图像进行识别，直到获得满意效果；如果是，则进行步骤S438，将结果发给消息接收者。

步骤S438，发送文字内容。

具体的，内容处理模块结果处理单元将结果发给消息接收者，实现信息的人传递。

进一步的，本实施例还提供一种可以用于兴趣点捕捉，帮助用户快速识别感兴趣的内容，提高沟通效率的方法。具体的，请参见图5，包括：

步骤S512，启动摄像头。

步骤S514，调整摄像头焦距。

步骤S516，调整图像放大倍数。

步骤S518，保存图片。

步骤S522，预处理图片。

步骤S524，图片识别。

步骤S526，保存文字内容。

步骤S532，更正文字内容。

步骤S534，规范化处理文字。

上述步骤S512至步骤S534与前述的步骤S412至步骤S434的处理流程相同。在此基础上，还包括步骤S535，进行兴趣点匹配。

步骤S535，兴趣点匹配；

具体的，兴趣点存储单元主要负责对用户兴趣点管理。用户应当提前编辑兴趣点，按照列表形式保存。为了提高检索效率，可以预先对关键字创建索引，索引的方法可以是B树索引。为了提高存储效率，可以对兴趣点压缩后存储，压缩算法可以是zip算法。然后在而得到文字内容后，将文字内容与兴趣点进行匹配，筛选出与兴趣点匹配的内容；筛选出与兴趣点匹配的内容具体为根据兴趣点进行关键字匹配，将匹配到的内容文字保存下来；该匹配是一个全文检索的过程，可以采用排序算法将兴趣点排序。

步骤S536，检验文字内容是否达到要求；

具体的，内容处理模块结果处理单元判断文字规范化处理的结果准确性是否达到要求。如果否，则进行步骤S512，重新采集图像进行识别，直到获得满意效果；如果是，则进行步骤S538，将结果发给消息接收者。另外，还包括判断兴趣点匹配结果的准确性是否通过，若文字规范化处理的结果准确性达到要求，而兴趣点匹配结果的准确性未通过，则可以重新进行兴趣点匹配，或行步骤S512，重新采集图像进行识别，直到获得满意效果。

步骤S538，发送文字内容。

具体的，内容处理模块结果处理单元将结果发给消息接收者，实现终端间信息的传递。

本实施例提供的基于图像识别的通信装置和方法，相对于只发送图片的方式，可以使表达信息更加清晰准确；相对于传统调用第三方图像识别工具的方式，其进行图像采集及文字识别处理的操作更加连贯统一，使用户感觉更加简便；且由于RCS客户端程序通过图像自动识别文字信息，只需要简单的选择、确认操作就能够获取重点信息，提高了RCS客户端之间沟通效率。另外，在采集图像时，对于用户选择的图像中的某个点，摄像头可以根据此点调整焦距，RCS客户端程序对该点临近区域图像进行识别，获得文字内容，然后优化调整摄像头图像的放大倍数，就可以使图像字体大小达到最适合阅读状态，使得用户的使用效果更好。此外，基于本发明提供的基于图像识别的通信方法和装置，进行兴趣点捕捉，可以帮助用户快速获取感兴趣的内容；在某些信息量很大的场景中，例如闹市、游行等场所中可能有各种标牌，整张报纸书刊照片有大量的文字信息，这种情况下可以通过本实施例提供的基于图像识别的通信方法和装置提取出兴趣点对应的文字内容，可以获取到更加准确的信息，同时可以使用户的体验更好。

进一步的，本实施例提供的基于图像识别的通信装置具体可以设置在手机、PC(personal computer，个人计算机)、pad平板等终端设备上，使用户可以通过上述终端设备与其他用户终端进行信息的传递。

显然，本领域的技术人员应该明白，上述本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于图像识别的通信方法，包括：

根据确定的对焦区域对待采集的图片进行对焦；

将所述对焦区域内的图片信息处理成对应的文字信息。

2.根据权利要求1所述的基于图像识别的通信方法，其特征在于，在将所述对焦区域内的图片信息处理成对应的文字信息之前，还包括：根据预设的缩放规则，对所述图片进行缩放。

3.根据权利要求2所述的基于图像识别的通信方法，其特征在于，所述根据预设的缩放规则，对所述图片进行缩放包括：

根据所述图片中的字体大小确定所述图片对应的缩放系数，并根据所述缩放系数对所述图片进行缩放。

4.根据权利要求1-3任一项所述的基于图像识别的通信方法，其特征在于，在将所述对焦区域内的图片信息处理成对应的文字信息之前，还包括：

对所述对焦区域内的图片进行分割、倾斜校正，获得主内容区域，并对所述主内容区域进行以下至少一种的算法处理：去噪、增强、平滑和锐化。

5.根据权利要求4所述的基于图像识别的通信方法，其特征在于，所述将对焦区域的图片信息处理成对应的文字信息包括：

通过特征提取和/或降维获取所述主内容区域的文字信息。

6.根据权利要求1-3任一项所述的基于图像识别的通信方法，其特征在于，在所述将对焦区域的图片信息处理成对应的文字信息之后，还包括：对所述文字信息进行兴趣点匹配，并对匹配的结果进行准确性判断，将通过准确性判断的所述文字信息发送出去。

7.一种基于图像识别的通信装置，包括：

8.根据权利要求7所述的基于图像识别的通信装置，其特征在于，所述图像采集模块还用于：在将所述对焦区域内的图片信息处理成对应的文字信息之前，根据预设的缩放规则，对所述图片进行缩放。

9.根据权利要求8所述的基于图像识别的通信装置，其特征在于，所述图像采集模块还用于：

10.根据权利要求7-9任一项所述的基于图像识别的通信装置，其特征在于，还包括文字识别模块，用于：

11.根据权利要求10所述的基于图像识别的通信装置，其特征在于，所述文字识别模块还用于：

通过特征提取和/或降维获取所述主内容区域的所述文字信息。

12.根据权利要求7-9任一项所述的基于图像识别的通信装置，其特征在于，所述内容处理模块还用于对所述文字信息进行兴趣点匹配，并对匹配的结果进行准确性判断，将通过准确性判断的所述文字信息发送出去。