CN103093217A

CN103093217A - 一种交互式的图像文字识别方法及装置

Info

Publication number: CN103093217A
Application number: CN201310003574XA
Authority: CN
Inventors: 丁二锐; 韩钧宇; 吴中勤
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-01-06
Filing date: 2013-01-06
Publication date: 2013-05-08

Abstract

本发明提供了一种交互式的图像文字识别方法及装置，其中，方法包括：S1、在目标图像上确定与用户选定的识别区域相适应的粗检测区域；S2、识别所述粗检测区域中的文字信息，并分析识别得到的文字信息中的语义单元；S3、从分析得到的语义单元中确定与所述用户选定的识别区域相适应的语义单元返回给所述用户。本发明无需用户精确选定文字区域，且能够智能地向用户返回满足用户需求的、且具有完整语义的识别结果，无需用户进一步进行调整或编辑，减小了识别图像中的文字时用户的交互负担。

Description

一种交互式的图像文字识别方法及装置

【技术领域】

本发明涉及图像文字识别技术，尤其涉及一种交互式的图像文字识别方法及装置。

【背景技术】

如今，针对各类移动终端的文字识别软件已成为当前移动互联网的热门应用，这类应用软件的基本功能即是识别图像中的文字信息。然而，用户通过移动终端拍摄或者捕捉的图像中往往还包含有冗余的文字信息，如何在识别之后至提取出用户真正需要的文字信息，成为当下文字识别软件亟待解决的问题。

目前，一些现有技术能够在文字识别过程中提供与用户交互的方式，通常是由用户选定一个识别区域，之后对该区域中的文字进行识别并返回给用户，例如，可以通过点击、画下划线、框选等方式来由用户确定需要识别的区域。然而，这样的方法需要依赖用户对其所需识别区域的精确选择，给用户造成了较大的交互负担，尤其是在文字版面较为复杂的图像中，用户很难精确选取需要识别的区域，此外，这样的方法无法保证所识别的结果具有完整的语义，即用户所选择区域中的文字不具有完整语义，特别是当语义连续的文字出现换行而用户又难以完整选取该部分文字时。如上所述的原因会导致最终的识别结果与用户实际需求存在差异，用户还需对其进一步编辑后才能用于后续操作，如搜索相关信息等。

【发明内容】

本发明提供了一种交互式的图像文字识别方法及装置，以便于降低用户的交互负担。

具体技术方案如下：

一种交互式的图像文字识别方法，该方法包括：

S1、在目标图像上确定与用户选定的识别区域相适应的粗检测区域；

S2、识别所述粗检测区域中的文字信息，并分析识别得到的文字信息中的语义单元；

S3、从分析得到的语义单元中确定与所述用户选定的识别区域相适应的语义单元返回给所述用户。

根据本发明一优选实施例，所述粗检测区域采用下述方法确定：

以整个目标图像作为粗检测区域；或者，

以所述用户选定的识别区域的中心位置作为中心的预定大小的区域作为粗检测区域；或者，

将覆盖所述用户选定的识别区域的文字区域作为粗检测区域；或者，

将覆盖所述用户选定的识别区域的连续的文字行组成的区域作为粗检测区域。

根据本发明一优选实施例，分析所识别的文字信息中的语义单元，具体包括：

利用版面结构分析方法，分析识别得到的文字信息的段落结构，并将各个段落分别作为一个语义单元；

利用语义分析方法，分析识别得到的文字信息中的词组、短语或语句，并将各个词组、短语或语句分别作为一个语义单元。

根据本发明一优选实施例，在利用版面结构分析方法进行分析时，还包括：进一步结合所述粗检测区域中的文字坐标、文字语义以及文字颜色中的至少一种分析识别得到的文字信息的语句结构，并将得到的各个语句分别作为一个语义单元。

根据本发明一优选实施例，在利用语义分析方法进行分析时，还包括：结合预先获取的关键词数据库来分析识别得到的文字信息中的关键词，并将各个关键词分别作为一个语义单元。

根据本发明一优选实施例，所述步骤S3具体包括：

依据用户选定识别区域的类型确定返回给用户的语义单元的粒度，依据确定的粒度向用户返回用户选定的识别区域在所述分析得到的语义单元中对应的语义单元。

根据本发明一优选实施例，所述用户选定的识别区域在所述分析得到的语义单元中对应的语义单元为：

在所述分析得到的语义单元中，覆盖用户选定的识别区域的语义单元，或者与用户选定的识别区域存在交叠的语义单元，或者与用户选定的识别区域临近的语义单元。

一种交互式的图像文字识别装置，该装置包括：

预处理单元，用于在目标图像上确定与用户选定的识别区域相适应的粗检测区域；

识别单元，用于识别所述粗检测区域中的文字信息，并分析识别得到的文字信息中的语义单元；

匹配单元，用于从分析得到的语义单元中确定与所述用户选定的识别区域相适应的语义单元返回给所述用户。

根据本发明一优选实施例，所述预处理单元执行下述操作确定所述粗检测区域：

以整个目标图像作为粗检测区域；或者，

根据本发明一优选实施例，所述识别单元分析所识别的文字信息中的语义单元时，具体执行：

根据本发明一优选实施例，所述识别单元在利用版面结构分析方法进行分析时，还执行：进一步结合所述粗检测区域中的文字坐标、文字语义以及文字颜色中的至少一种分析识别得到的文字信息的语句结构，并将得到的各个语句分别作为一个语义单元。

根据本发明一优选实施例，所述识别单元在利用语义分析方法进行分析时，还执行：结合预先获取的关键词数据库来分析识别得到的文字信息中的关键词，并将各个关键词分别作为一个语义单元。

根据本发明一优选实施例，所述匹配单元具体执行：

由以上技术方案可以看出，本发明通过依据用户选定的区域来确定粗检测区域，识别粗检测区域中的文字信息以及语义单元，能够精确地向用户返回与其所选识别区域匹配的语义单元。本发明无需用户精确选定文字区域，且能够智能地向用户返回满足用户需求的、且具有完整语义的识别结果，无需用户进一步进行调整或编辑，减小了识别图像中的文字时用户的交互负担。

【附图说明】

图1为本发明实施例一所提供的交互式的图像文字识别方法流程图；

图2为本发明实施例一所提供的识别用户所选区域文字的示例图；

图3为本发明实施例二所提供的交互式的图像文字识别装置示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一

图1为本发明实施例一所提供的交互式的图像文字识别方法流程图，如图1所示，该方法包括：

S101、在目标图像上确定与用户选定的识别区域相适应的粗检测区域。

在获得目标图像后，先由用户大概选定一个需要识别的区域，之后再根据用户的所选的识别区域确定一个粗检测区域。粗检测区域的确定可以通过下述几种方法来实现：

1、直接以整个目标图像作为粗检测区域。

2、以用户所选识别区域的中心位置作为中心的预定大小的区域作为粗检测区域。例如，用户在目标图像上点击了一个点作为识别区域，则将以这个点为中心的预定大小的区域作为粗检测区域。

3、通过文字区域定位算法，定位目标图像中含有文字的区域，并将其中覆盖用户所选识别区域的文字区域作为粗检测区域。

4、通过文字行识别算法，识别目标图像中连续的文字行，并将其中覆盖用户所选识别区域的连续的文字行组成的区域作为粗检测区域。

其中，文字区域定位算法和文字行识别算法为现有技术，在此不过多赘述。

用户可以通过多种方法来大概选定其需要识别的区域，包括但不限于使用下述方法：通过点击确定一个点作为识别区域；通过画下划线选定识别区域；框选或者圈选来选定识别区域；操作带有指向性的图标确定识别区域，例如操作屏幕中的箭头或者水滴等图标来确定识别区域。

更进一步地，可以在用户大概选定其需要识别的区域后，检测识别区域内以及识别区域周边的预设阈值范围中的区域内是否存在文字信息，若不存在，则忽略本次用户所选定的识别区域，提示用户重新选定其需要识别的区域。

S102、识别粗检测区域中的文字信息，并分析其中的语义单元。

识别粗检测区域的图像中具有的文字信息，同时确定每个文字在图像中的位置。图像中的文字识别可以利用文字识别引擎通过OCR（OpticalCharacter Recognition，光学字符识别）技术来实现，这部分为现有技术，在此不过多赘述。在识别文字的同时，可以确定文字在图像中所处的位置坐标。

为了能够向用户返回具有完整语义且与用户需求最为匹配的文字信息，需要先识别粗检测区域的文字信息中所具有的语义单元，语义单元可以是词组、短语、语句和段落等。识别粗检测区域的文字信息中所含有的语义单元，

需要对所识别出的粗检测区域中的文字信息进行分析，该分析过程可以包括版面结构分析和语义分析。

版面结构分析即是分析所识别出的粗检测区域中的文字信息的段落结构，并将粗检测区域的文字信息中的各个段落分别作为一个语义单元，该过程具体可以通过文字连通域的识别算法并结合先验知识来获取，该部分为现有技术，在此不过多赘述。

更进一步地，版面结构分析还可以结合粗检测区域中的文字的位置坐标、文字的语义以及文字的颜色来进行分析，分析所识别出的粗检测区域中的文字信息的语句结构，并将粗检测区域的文字信息中的各个语句分别作为一个语义单元。结合文字的位置坐标，文字语义以及文字的颜色能够更进一步地分析粗检测区域中的文字信息的语句结构，通常，图像中的同一语句中的文字通常都位于相邻的位置，并且具有相同的颜色，通过对文字坐标以及文字颜色的分析，并结合相邻文字的语义，可以分析出所识别出的粗检测区域中的文字中的语句，对于带有标点符号的文字信息，还可以再结合标点符号来进行判断。

语义分析即是分析所识别出的粗检测区域的文字信息中的词组、短语或者语句，并将粗检测区域的文字信息中的各个词组、短语或语句分别作为一个语义单元。可以利用分词技术对所识别出的粗检测区域中的中文文字作分词处理，提取出其中的词组，对于粗检测区域文字信息中的英文信息，则可以通过英文单词左右的空格来对单词进行提取。对于所提取出的词组或单词，可以分析其词义以及左右相邻词的词义来形成固定短语，还可以进一步地根据相邻的词组或单词或短语的语义来对粗检测区域文字信息中的语句进行划分。

更进一步地，语义分析还可以结合预先获取的关键词数据库来完成，并将粗检测区域的文字信息中的各个关键词分别作为一个语义单元。关键词数据库中可以但不限于包括预先收集的网络热词、命名实体、常用词语等，可以将从所识别出的粗检测区域的文字信息中提取出的词组和短语等与关键词数据库中的关键词进行匹配，或者，直接将所识别出的粗检测区域的文字信息与关键词数据库中的关键词进行匹配，得到粗检测区域的文字信息中含有的关键词。由于关键词数据库中包括了预先收集的网络热词、命名实体、常用词语等，其中所保存的关键词的语义相较于从粗检测区域的文字信息中提取的词组或短语的语义往往更为准确，因此，可以将与关键词数据库匹配后得到的关键词作为优选的语义单元，例如，所识别粗检测区域的文字信息为“少年派的奇幻漂流”，语义分析提取其中的词组后可将其划分为“少年”“派”“的”“奇幻”“漂流”5个词组，每个词组都是一个语义单元，而“少年派的奇幻漂流”是一部电影名称，属于网络热词且被预先保存在关键词数据库中，与关键词数据库进行匹配后，可以得到“少年派的奇幻漂流”为关键词，将其作为一个优选的语义单元。

S103、从分析得到的语义单元中确定与用户选定的识别区域相适应的语义单元返回给用户。

在得到粗检测区域的文字信息中所具有的语义单元后，可以根据先前用户所大概选定的识别区域来确定一个或多个与识别区域匹配的语义单元以返回给用户。

对于用户采用不同交互方式所确定的识别区域，可以采用不同的策略向用户返回语义单元。首先可以依据用户确定识别区域所采用的交互方式来确定返回给用户的语义单元的粒度，并依据所确定的粒度向用户返回与其所确定的识别区域对应的语义单元。更进一步地，返回与用户所确定的识别区域对应的语义单元可以为：覆盖用户选定的识别区域的语义单元，或者与用户选定的识别区域存在交叠的语义单元，或者与用户选定的识别区域临近的语义单元。下面结合具体的交互方式示例来对这一过程进行说明。

若用户是通过点击或者操作带有指向性的图标确定的识别区域，则识别区域通常是一个点，此时，认为用户的识别需求为词组（或短语或关键词），确定向用户返回的语义单元的粒度为词组（或短语或关键词），并向用户返回识别区域对应的词组（或短语或关键词）。更进一步地，可以向用户返回一个或多个与用户所确定的识别区域在位置上重叠或者邻近的词组（或短语或关键词）。

若用户是通过下划线确定的识别区域，则可以认为用户的识别需求为词组（或短语或关键词）或语句，确定向用户返回的语义单元的粒度为词组（或短语或关键词）或语句，并向用户返回识别区域对应的词组（或短语或关键词）或语句。更进一步地，若某一词组（或短语或关键词）可以覆盖用户所画下划线经过的区域，则可以向用户返回该词组（或短语或关键词），若用户所画下划线经过了多个词组（或短语或关键词），则可以向用户返回该多个词组（或短语或关键词），或者，向用户返回包含该多个词组（或短语或关键词）的语句。

若用户是通过框选（或圈选）确定的识别区域，则可以认为用户的识别需求为词组（或短语或关键词）或语句或段落，确定向用户返回的语义单元的粒度为词组（或短语或关键词）或语句或段落，并向用户返回识别区域对应的词组（或短语或关键词）或语句或段落。更进一步地，若某一词组（或短语或关键词）可以覆盖用户所框选（或圈选）的区域，则可以向用户返回该词组（或短语或关键词），若用户所框选（或圈选）的区域包含了多个词组（或短语或关键词），则可以向用户返回该多个词组（或短语或关键词），或者，向用户返回包含该多个词组（或短语或关键词）的语句，或者，向用户返回包含该多个词组（或短语或关键词）的段落，若用户所框选（或圈选）的区域包含了多个语句，则可以向用户返回该多个语句，或者，返回包含该多个语句的段落。

由于预先获取的关键词往往具有更为准确的语义，因此，若用户的识别需求为词组或短语，且向用户返回的语义单元中存在关键词，则可以优先向用户返回该关键词。

如图2所示示例，用户通过点击的方式确定了一个点作为识别区域（图2中所示黑点），根据该识别区域确定粗检测区域（图2中所示虚线部分），识别粗检测区域中的文字信息以及所包含的语义单元，并向用户返回与识别区域匹配的词组（或短语或关键词），图2所示示例中，用户点击的点位于词组“奇幻”处，而“少年派的奇幻漂流”属于关键词，同样覆盖了用户确定的识别区域，因此向用户返回的两个语义单元依次为“少年派的奇幻漂流”和“奇幻”。可以理解的是，上述举例仅出于示例的目的，本发明的实施例不限于此。

上述为对本发明实施例一所提供的交互式的图像文字识别方法进行的描述，可以看出，本发明通过依据用户选定的区域来确定粗检测区域，识别粗检测区域中的文字信息以及语义单元，能够精确地向用户返回与其所选识别区域匹配的语义单元。与现有技术相比，本发明使得用户只需大概选定识别区域即可，减小了用户的交互负担，同时，本发明能够保证返回的文字识别结果均具有完整的语义，便于用户使用所返回的文字执行相关的后续操作（如搜索，翻译等）。

实施例二

图3为本发明实施例二所提供的交互式的图像文字识别装置示意图，如图3所示，该装置包括：预处理单元10、识别单元20、匹配单元30

预处理单元10，用于在目标图像上确定与用户选定的识别区域相适应的粗检测区域。

预处理单元10可以根据用户大概选定的需要识别的区域确定一个粗检测区域。预处理单元10可以执行下述几种操作来确定粗检测区域：

1、直接以整个目标图像作为粗检测区域。

识别单元20，用于识别所述粗检测区域中的文字信息，并分析识别得到的文字信息中的语义单元。

识别粗检测区域的图像中具有的文字信息，同时确定每个文字的在图像中的位置。图像中的文字识别可以利用文字识别引擎通过OCR（OpticalCharacter Recognition，光学字符识别）技术来实现，这部分为现有技术，在此不过多赘述。在识别文字的同时，可以确定文字在图像中所处的位置坐标。

为了能够向用户返回具有完整语义且与用户需求最为匹配的文字信息，需要先通过识别单元20识别粗检测区域的文字信息中所具有的语义单元，语义单元可以是词组、短语、语句和段落等。识别粗检测区域的文字信息中所含有的语义单元，需要对所识别出的粗检测区域中的文字信息进行分析，该分析过程可以包括版面结构分析和语义分析。

更进一步地，版面结构分析可以结合粗检测区域中的文字的位置坐标、文字的语义以及文字的颜色来进行分析，分析所识别出的粗检测区域中的文字信息的语句结构，并将粗检测区域的文字信息中的各个语句分别作为一个语义单元。结合文字的位置坐标，文字语义以及文字的颜色能够更进一步地分析粗检测区域中的文字信息的语句结构，通常，图像中的同一语句中的文字通常都位于相邻的位置，并且具有相同的颜色，通过对文字坐标以及文字颜色的分析，并结合相邻文字的语义，可以分析出所识别出的粗检测区域中的文字中的语句，对于带有标点符号的文字信息，还可以再结合标点符号来进行判断。

更进一步地，语义分析还可以结合预先获取的关键词数据库来完成，并将粗检测区域的文字信息中的各个关键词分别作为一个语义单元。关键词数据库中可以但不限于包括预先收集的网络热词、命名实体、常用词语等，可以将从所识别出的粗检测区域的文字信息中提取出的词组和短语等与关键词数据库中的关键词进行匹配，或者，直接将所识别出的粗检测区域的文字信息与关键词数据库中的关键词进行匹配，得到粗检测区域的文字信息中含有的关键词。由于关键词数据库中包括了预先收集的网络热词、命名实体、常用词语等，其中所保存的关键词的语义相较于从粗检测区域的文字信息中提取的词组或短语的语义往往更为准确，因此，可以将词组或短语与关键词数据库匹配后得到的关键词作为优选的语义单元，例如，所识别粗检测区域的文字信息为“少年派的奇幻漂流”，语义分析提取其中的词组后可将其划分为“少年”“派”“的”“奇幻”“漂流”5个词组，每个词组都是一个语义单元，而“少年派的奇幻漂流”是一部电影名称，属于网络热词且被预先保存在关键词数据库中，与关键词数据库进行匹配后，可以得到“少年派的奇幻漂流”为关键词，将其作为一个优选的语义单元。

匹配单元30，用于从分析得到的语义单元中确定与用户选定的识别区域相适应的语义单元返回给用户。

在得到粗检测区域的文字信息中所具有的语义单元后，匹配单元30可以根据先前用户所大概选定的识别区域来确定一个或多个与识别区域匹配的语义单元以返回给用户。

对于用户采用不同交互方式所确定的识别区域，匹配单元30可以采用不同的策略向用户返回语义单元。首先可以依据用户确定识别区域所采用的交互方式来确定返回给用户的语义单元的粒度，并依据所确定的粒度向用户返回与其所确定的识别区域对应的语义单元。更进一步地，返回与用户所确定的识别区域对应的语义单元可以为：覆盖用户选定的识别区域的语义单元，或者与用户选定的识别区域存在交叠的语义单元，或者与用户选定的识别区域临近的语义单元。下面结合具体的交互方式示例来对这一过程进行说明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种交互式的图像文字识别方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述粗检测区域采用下述方法确定：

以整个目标图像作为粗检测区域；或者，

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中，分析所识别的文字信息中的语义单元，具体包括：

4.根据权利要求3所述的方法，其特征在于，在利用版面结构分析方法进行分析时，还包括：进一步结合所述粗检测区域中的文字坐标、文字语义以及文字颜色中的至少一种分析识别得到的文字信息的语句结构，并将得到的各个语句分别作为一个语义单元。

5.根据权利要求3所述的方法，其特征在于，在利用语义分析方法进行分析时，还包括：结合预先获取的关键词数据库来分析识别得到的文字信息中的关键词，并将各个关键词分别作为一个语义单元。

6.根据权利要求1至5任一权项所述的方法，其特征在于，所述步骤S3具体包括：

7.根据权利要求6所述的方法，其特征在于，所述用户选定的识别区域在所述分析得到的语义单元中对应的语义单元为：

8.一种交互式的图像文字识别装置，其特征在于，该装置包括：

9.根据权利要求8所述的装置，其特征在于，所述预处理单元执行下述操作确定所述粗检测区域：

以整个目标图像作为粗检测区域；或者，

10.根据权利要求8所述的装置，其特征在于，所述识别单元分析所识别的文字信息中的语义单元时，具体执行：

11.根据权利要求10所述的装置，其特征在于，所述识别单元在利用版面结构分析方法进行分析时，还执行：进一步结合所述粗检测区域中的文字坐标、文字语义以及文字颜色中的至少一种分析识别得到的文字信息的语句结构，并将得到的各个语句分别作为一个语义单元。

12.根据权利要求10所述的装置，其特征在于，所述识别单元在利用语义分析方法进行分析时，还执行：结合预先获取的关键词数据库来分析识别得到的文字信息中的关键词，并将各个关键词分别作为一个语义单元。

13.根据权利要求8至12任一权项所述的装置，其特征在于，所述匹配单元具体执行：

14.根据权利要求13所述的装置，其特征在于，所述用户选定的识别区域在所述分析得到的语义单元中对应的语义单元为：