CN110210470B

CN110210470B - 商品信息图像识别系统

Info

Publication number: CN110210470B
Application number: CN201910486364.8A
Authority: CN
Inventors: 陈敦胜; 李银胜
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2023-06-23
Anticipated expiration: 2039-06-05
Also published as: CN110210470A

Abstract

本发明提供一种商品信息图像识别系统，用于对多类型的商品标签图像进行识别，并根据识别出的标签信息进行自动化的信息填写从而显示给用户查看，其特征在于，包括：商品模板存储部、标签图像获取部、图像预处理部、标签文本识别部、文本行修复处理部、模板检索判定部、识别控制部、关键字检索记录部、文本分类部、文本坐标获取部、数据信息匹配部、表格生成填写部、画面存储部以及输入显示部。

Description

商品信息图像识别系统

技术领域

本发明属于文本处理技术领域，具体涉及一种商品信息图像识别系统。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，文字处理软件进一步编辑加工的技术。OCR技术能够让机器看图识字，可以实现高效的信息录入、存储和检索。

OCR的应用场景，除了一些纯电子化的应用场景以外，大部分应用场景不仅要完成字符的正确识别，还需要将待识别证件中的文本内容以条目分类的方式展示给用户。因为识别结果仅仅是一长篇的文字，对用户来说没有意义，而是要将用户关心的内容进行提取，分门别类地呈现出来，从而便于用户校对。

目前，OCR所针对的版式都是比较固定的证件对象，例如身份证、行驶证、驾驶证等证件，只要识别出个别关键内容就能根据先验知识，对所有识别结果进行分类并对识别结果的合理性进行判定和修正，快速完成识别结果的结构化组织。

但是对非固定化的图像数据，例如口岸的商品标签，由于各个厂家的标签的格式、内容等信息千差万别，使得从标签中提取结构化的数据信息变得十分困难，流程复杂且错误率高。

发明内容

为解决上述问题，提供一种能够提取多类型的商品标签的数据信息、并且能够进行自动化填写的商品信息图像识别系统，本发明采用了如下技术方案：

本发明提供了一种商品信息图像识别系统，用于对多类型的商品标签图像进行识别并根据识别出的标签信息进行自动化的信息填写，其特征在于，包括：商品模板存储部、标签图像获取部、图像预处理部、标签文本识别部、文本行修复处理部、模板检索判定部、识别控制部、关键字检索记录部、文本分类部、文本坐标获取部、数据信息匹配部、表格生成填写部、画面存储部以及输入显示部，其中，商品模板存储部存储有多种商品识别信息以及与该商品识别信息相对应的关键字模板，该关键字模板包含名称关键字以及与名称关键字对应的单位信息，标签图像获取部获取商品标签图像以及相应的商品识别信息，图像预处理部对商品标签图像进行图像预处理从而得到预处理标签图像，标签文本识别部通过OCR技术对预处理标签图像进行字符识别从而得到多个包含标签信息的文本行以及相应的位置信息，文本行修复处理部根据位置信息将多个文本行中实际属于同一行的多行标签信息修复为同一行从而得到修复文本行，模板检索判定部根据商品识别信息对商品模板存储部进行检索从而判定商品标签图像是否具有相应的关键字模板，若模板检索判定部判定具有关键字模板，识别控制部就控制关键字检索记录部根据关键字模板依次对各行修复文本行中存在的名称关键字以及单位信息检索并记录检索到的名称关键字以及单位信息，控制文本分类部根据检索到的名称关键字以及单位信息将标签信息分类为相应的关键字文本、单位文本以及与单位信息对应的数据文本，控制文本坐标获取部获取与关键字文本、单位文本以及数据文本分别对应的位置信息作为文本坐标，并控制数据信息匹配部通过预设的数据匹配方法将修复文本行中的关键字文本、单位文本以及数据文本根据文本坐标进行对应匹配从而得到多个与名称关键字对应的数据结果信息，进一步控制表格生成填写部根据关键字模板生成相应的模板表格并将数据结果信息根据名称关键字填入模板表格从而得到标签信息表格，画面存储部存储有标签信息表格显示画面，输入显示部显示标签信息表格显示画面并在该画面中显示标签信息表格让用户确认。

本发明提供的商品信息图像识别系统，还可以具有这样的技术特征，还包括：提示文本提取部，其中，若模板检索判定部判定不具有关键字模板，识别控制部就控制提示文本提取部依据空格、换行、分词等分割规则提取修复文本行中的文本词以及数据文本作为提示文本，并控制表格生成填写部生成一个空白表格，画面存储部还存储有标签信息表格填写画面，输入显示部显示标签信息表格填写画面并在该画面中显示空白表格让用户填写标签信息，并在用户输入文本时显示相应的提示文本从而对用户进行智能提示。

本发明提供的商品信息图像识别系统，还可以具有这样的技术特征，其中，图像预处理包括图像纠正、分段灰度变换、按像素比例放缩以及像素滤波。

本发明提供的商品信息图像识别系统，还可以具有这样的技术特征，还包括：间距信息计算部，用于根据位置信息计算出修复文本行各行之间的间距信息，其中，数据匹配方法为：依次选择每一行的修复文本行作为当前文本行，若当前文本行中同时含有名称关键字以及对应的单位信息，则取出本行中对应的关键字文本，并将剩下的数据文本以及单位文本与该名称关键字进行匹配；若当前文本行只含有名称关键字，则对该当前文本行不作处理；若当前文本行只含有单位信息，则计算出上一行中关键字文本与当前文本行中单位文本的间距的欧式几何距离，若欧式几何距离低于间距信息，则将该行数据文本以及单位文本与上一行的名称关键字进行匹配。

发明作用与效果

根据本发明的商品信息图像识别系统，由于图像预处理部商品标签图像进行图像预处理，并通过标签文本识别部通过OCR技术对商品标签图像进行文字识别得到文本行，以及通过文本行修复处理部对文本行中错误的排列进行修复得到修复文本行，因此初步地提高了OCR识别精度；进一步通过模板检索判定部根据商品识别信息判定相应的关键字模板，并由识别控制部相应部件根据关键字模板对修复文本行进行关键字检索、文本分类、文本坐标获取等操作，再控制数据信息匹配部将修复文本行中的文本信息与关键字模板中的名称关键字进行匹配对应得到数据结果信息，因此使得表格生成填写部能够根据该数据结果信息以及关键字模板自动生成并填写标签信息表格，实现了标签信息的精确读取以及自动化的填写，提高了口岸工作人员的工作效率。本发明由于通过商品模板存储部存储多种关键字模板，因此即使不同类别的进口商品所需要识别的关键信息千差万别，商品信息图像识别系统也可以对不同类别的商品进行针对性地识别，从而提高OCR的识别进度。

附图说明

图1是本发明实施例中商品信息图像识别系统的结构框图；

图2是本发明实施例中关键字模板格式的示意图；

图3是本发明实施例中一种豆类进口商品标签的示例图；

图4是本发明实施例中标签信息表格的示意图；以及

图5是本发明实施例中标签识别过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的商品信息图像识别系统作具体阐述。

<实施例>

图1是本发明实施例中商品信息图像识别系统的结构框图。

如图1所示，商品信息图像识别系统100包括商品模板存储部11、标签图像获取部12、图像预处理部13、标签文本识别部14、文本行修复处理部15、间距信息计算部16、模板检索判定部17、识别控制部18、关键字检索记录部19、文本分类部20、文本坐标获取部21、数据信息匹配部22、表格生成填写部23、提示文本提取部24、画面存储部25、输入显示部26、识别侧通信部27以及识别侧控制部28。

其中，识别侧通信部27用于进行商品信息图像识别系统100的各个构成部件之间以及商品信息图像识别系统100与其他系统之间的数据交换。识别侧控制部28包含有用于对商品信息图像识别系统100的各个构成部件工作进行控制的计算机程序。

商品模板存储部11用于存储多种商品识别信息以及与该商品识别信息相对应的关键字模板。该关键字模板包含名称关键字以及与名称关键字对应的单位信息。

本实施例中，商品识别信息为商品的分类信息(即口岸进口商品的不同类别)，关键字模板为用户事先根据商品的分配信息输入存储。商品模板存储部11中存储的关键字模板形式如图2所示，名称关键字(即图中关键信息)对应商品的标签信息中的各项指标，单位信息(即图中可能单位)为该各项指标对应的单位。

标签图像获取部12用于获取商品标签图像以及相应的商品识别信息。

本实施例中，商品标签图像以及相应的商品识别信息为用户通过输入显示部输入并由标签图像获取部12获取。在其他实施例中，商品信息图像识别系统100还能够与其他商品信息获取系统(例如能够进行物流管理的物流信息系统)相通信连接，该商品信息获取系统能够自动对商品进行拍摄从而得到商品标签图像，此时，标签图像获取部12能够通过识别侧通信部27从商品信息获取系统中获取商品标签图像以及商品识别信息。

图像预处理部13用于对商品标签图像进行图像预处理从而得到预处理标签图像。

本实施例中，图像预处理包括图像纠正、分段灰度变换、按像素比例放缩以及像素滤波中的全部或部分操作，用户可以依照商品标签图像的质量情况事件选择图像预处理部13需要执行的预处理操作。

标签文本识别部14用于通过OCR技术对预处理标签图像进行字符识别从而得到多个包含标签信息的文本行以及相应的位置信息。

本实施例以图3中，对口岸一种豆类的标签进行文本识别为例(以下简称上例)。标签文本识别部14利用OCR(光学字符识别)技术对该标签进行字符识别，从而得到识别出的含位置信息的多行文本(以下文本中，每一对引号表示一行文本)：

“Ripple Pod”、“Coffee Extract Decoration”、“Not for sale.Property ofSteam CC Ltd.”、“Ingredients:water(66.5％),coffee bean extract”、“(25％)”,“glycerin(E422)(8％)”，“lemon juice”、“concentrate(0.5％).”、“Net Content:1.35floZ(40ml)”、“Processed in a facility that uses hazelnuts,”、“peanuts,andsoybeans.”、“Per 100ml、Per 0.03ml Serving Size”、“Energy”、“373kJ/100ml.01kJ”、“Protein”、“5.1g/100ml”、“0g”、“Fat”、“0.6g/100ml 0g”、“Carbohydrate”、“g/100ml”、“0.01g”、“Na(Sodium)46mg/100ml 0.01mg”、“Manufactured for Steam CC Ltd.”、“14Hamefalsim Street”,“Petach Tikva,49514,Israel.”、“+1-866-477-0775support@steamcc.com”、“Product of lsrael.”、“Best Before:”、“06 2018、S/N:”、“3-021117-1083”。

OCR引擎输出的文本数据类型为标准的自定义json类型，包含识别的文本字段信息(DetectedText)、文本位置信息(Polygon)、文本语言信息(Language)、段落信息(AdvancedInfo)，置信度信息(Confidence)、此次访问的编号信息(RequestId)。其支持的语种范围为：简体中文、繁体中文、英文、日文、韩文。返回结果含义为：zh-中英混合，jap-日文，kor-韩文。

其中，文本位置信息(Polygon)显示的是检测到的文本信息四个角在图像中的位置信息，顺序依次为左上、右上、右下、左下。具体示例如下：其中每行文本都含有如下的精确位置信息，这里以“Ripple Pod”示例具体的高精度位置信息：

这里的位置信息是以图片的左上角为坐标原点建立笛卡尔坐标系，含有四个点的坐标，分别为识别出的单行文本信息的左上、右上、左下、右下四个点的x、y的坐标信息。

文本行修复处理部15用于根据位置信息将多个文本行中实际属于同一行的多行标签信息修复为同一行从而得到修复文本行。

本实施例中，文本行修复处理部15将实际属于同一行的文本恢复到同一行中，如在上例中，标签文本识别部14所采用的OCR引擎将“Energy”：”373kj/100ml.01kj”识别成“Energy”与”373kj/100ml.01kj”两行文本信息，此处理可将其恢复到同一行中。

间距信息计算部16用于根据位置信息计算出修复文本行各行之间的间距信息。

模板检索判定部17用于根据商品识别信息对商品模板存储部11进行检索从而判定商品标签图像是否具有相应的关键字模板。

识别控制部18用于对商品信息图像识别系统100中涉及文本识别过程的部件工作进行控制，含有对关键字检索记录部19、文本分类部20、文本坐标获取部21、数据信息匹配部22、表格生成填写部23以及提示文本提取部24的部件工作进行控制的计算机程序。

具体地，当模板检索判定部17判定商品标签图像具有相应的关键字模板时，识别控制部18就控制关键字检索记录部19根据关键字模板依次对各行修复文本行中存在的名称关键字以及单位信息检索并记录检索到的名称关键字以及单位信息。

当关键字检索记录部19完成名称关键字以及单位信息的检索时，识别控制部18就控制文本分类部20根据检索到的名称关键字以及单位信息将标签信息分类为相应的关键字文本、相应的单位文本以及与单位信息对应的数据文本。

本实施例中，关键字文本为与名称关键字相同的文本信息、单位文本为与单位信息相同的文本信息，数据文本为在单位信息前的数字文本信息。

当文本分类部20完成标签信息的分类时，识别控制部18就控制文本坐标获取部21获取与关键字文本、单位文本以及数据文本分别对应的位置信息作为文本坐标。

当文本坐标获取部21获取文本坐标后，识别控制部18就控制数据信息匹配部22通过预设的数据匹配方法将修复文本行中的关键字文本、单位文本以及数据文本根据文本坐标进行对应匹配从而得到多个与名称关键字对应的数据结果信息。

本实施例中，数据信息匹配部22采用的数据匹配方法为依次选择每一行的修复文本行作为当前文本行，并根据如下条件进行相应处理：

(1)若当前文本行中同时含有名称关键字以及对应的单位信息，则取出本行中对应的关键字文本，并将剩下的数据文本以及单位文本与该名称关键字进行匹配；

(2)若当前文本行只含有名称关键字，则对该当前文本行不作处理；

(3)若当前文本行只含有单位信息，则计算出上一行中关键字文本与当前文本行中单位文本的间距的欧式几何距离，若欧式几何距离低于间距信息，则将该行数据文本以及单位文本与上一行的名称关键字进行匹配。

上例中，文本分类部20提取出的多行文本(即关键字文本、单位文本以及数据文本，图中通过“””表示)以及文本坐标获取部21获取的文本坐标(图中通过“[,]”表示)为：

{'Ingredients:water(66.5％),coffee bean extract':[54,205],'(25％),glycerin(E422)(8％),lemon juice':[56,226],'concentrate(0.5％).':[55,251],'Per0.03mI Serving Size':[280,367],'373kJ/100ml.01kJ':[171,398],'5.1g/100ml 0g':[172,420],'0g':[280,419],'0.6g/100mI__0g':[173,443],'Carbohydrate 18g/100ml0.01g':[73,464,],'0.01g':[286,464],'Na(Sodium)46mg/100mI_0.01mg':[71,484]}

其中，文本分类部20分类提取出的对应名称关键字的关键字文本信息为(“[,]”为相应的文本坐标)：

{'Energy':[71,403],'Protein':[71,425],'Fat':[73,445],'Carbohydrate':[73,464],'Sodium':[71,484]}

数据信息匹配部22最终通过匹配到的与名称关键字对应的数据信息为：

{

"Ingredients":":water(66.5％),coffee bean extract(25％),

glycerin(E422)(8％),lemon juice concentrate(0.5％)."

"Content":"1.35fl oz(40mI)"

“Energy”：”373kj/100ml.01kj”,

“Protein”:“5.1g/100ml 0g”,

“Fat”:“0.6g/100ml 0g”,

“Carbohydrate”：”18g/100ml 0.01g”,

“Na(Sodium)”：“46mg/100ml 0.01mg”

}

当模板检索判定部17判定商品标签图像不具有相应的关键字模板时，识别控制部18就控制提示文本提取部23依据空格、换行、分词等分割规则提取修复文本行中的文本词以及数据文本作为提示文本。

本实施例中，提示文本提取部23将修复文本行按照空格、换行、标点等标志切分为单词序列(即文本词)，同时将修复文本行中包含的数字信息提取出来作为数据序列(即数据文本)，上例中通过提示文本提取部23提取的单词序列为：

"key":["Ripple","Pod","Coffee","Extract","Decoration","Nat","for","sale.","Property","of","Steam","cc","Ltd.","Ingredients:","water","(66.5％),","coffee","bean","extract","(25％)",",","glycerin","(E422)(8％),","lemon","juice","concentrate","(0.5％).","Net","Content:","1.35","fl","oz","(40","mI)","Processed","in","a","facility","that","uses","hazelnuts,","peanuts,","and","soybeans.","Per","100mI","Per","0.03mI","Serving","Size","Energy","373kJ/100ml",".01kJ","Protein","5.1g/100ml","0g","Fat","0.6g/100mI__","0g","Carbohydrate","18g/100ml","0.01g","Na","(Sodium)","46mg/100mI_","0.01mg","Manufactured","for","Steam","cc","Ltd.","14","Hamefalsim","Street,","Petach","Tikva,","49514,","Israel.","+1-866-477-0775","support@steamcc.com","Product","of","Israel.","Best","Before:","06-","2018","S/N:","3-021117","1083"]

提取的数据序列为：

"num":["66.5","25","422","8","0.5","1.35","40","100","0.03","373","100","01","5.1","100","0","0.6","100","0","18","100","0.01","46","100","0.01","14","49514","1-","866-","477-","0775","06-","2018","3-","021117","1083"]

本实施例中，识别控制部18对表格生成填写部24的控制主要为：当数据信息匹配部22匹配得到数据结果信息后，控制表格生成填写部24根据关键字模板生成相应的模板表格，并将数据结果信息根据名称关键字填入模板表格从而得到标签信息表格；当提示文本提取部23得到提示文本后，控制表格生成填写部24直接生成一个空白表格。

本实施例中，表格生成填写部24生成并填写完成的标签信息表格如图4所示，第一列为表格生成填写部24根据关键字模板中被关键字检索记录部19检索到的名称关键字生成，第二列为表格生成填写部24根据与名称关键字对应的数据信息相应地填写得到。本实施例中，表格生成填写部24生成的模板表格为图4的标签信息表格在没有填写第二列时的表格。

画面存储部25用于存储标签图像输入画面、标签信息表格显示画面以及标签信息表格填写画面。

标签图像输入画面用于在用户进入系统时显示并让用户输入商品标签图像以及相应的商品识别信息。

标签信息表格显示画面用于在表格生成填写部24生成标签信息表格后显示并在该画面中显示标签信息表格让用户确认。

本实施例中，标签信息表格显示画面显示的标签信息表格还可以让用户对表格内容进行修改。

标签信息表格填写画面用于在表格生成填写部24生成空白表格后显示并在该画面中显示空白表格让用户填写。

本实施例中，在用户填写空白表格时，输入显示部26会根据用户输入的文字显示可能的提示文本，从而提示并帮助用户更快地进行表格内容的填写。

输入显示部26用于显示上述画面，从而让用户能够通过这些画面进行相应的人机交互。

图5是本发明实施例中标签识别过程的流程图。

如图5所示，本发明商品信息图像识别系统100的标签识别过程包括如下步骤：

步骤S1，标签图像获取部12获取商品标签图像以及相应的商品识别信息，然后进入步骤S2；

步骤S2，图像预处理部13对步骤S1中获取的商品标签图像进行图像预处理从而得到预处理标签图像，然后进入步骤S3；

步骤S3，标签文本识别部14通过OCR技术对步骤S2得到的预处理标签图像进行字符识别从而得到多个包含标签信息的文本行以及相应的位置信息，然后进入步骤S4；

步骤S4，文本行修复处理部15根据步骤S3得到的位置信息将多个文本行中实际属于同一行的多行标签信息修复为同一行从而得到修复文本行，然后进入步骤S5；

步骤S5，间距信息计算部16根据步骤S3得到的位置信息计算出修复文本行各行之间的间距信息，然后进入步骤S6；

步骤S6，模板检索判定部17根据商品识别信息对商品模板存储部进行检索从而判定商品标签图像是否具有相应的关键字模板，若判定具有则进入步骤S7，若判定不具有则进入步骤S13；

步骤S7，识别控制部18控制关键字检索记录部19根据步骤S6判定得到的关键字模板依次对各行修复文本行中存在的名称关键字以及单位信息进行检索，并记录检索到的名称关键字以及单位信息，然后进入步骤S8；

步骤S8，识别控制部18控制文本分类部20根据步骤S7中检索到的名称关键字以及单位信息，将修复文本行中的标签信息分类为相应的关键字文本、单位文本以及与单位信息对应的数据文本，然后进入步骤S9；

步骤S9，识别控制部18控制文本坐标获取部21依次获取分别与步骤S8中分类的关键字文本、单位文本以及数据文本相对应的位置信息作为文本坐标，然后进入步骤S10；

步骤S10，识别控制部18控制数据信息匹配部22通过数据匹配方法，将步骤S8中分类的关键字文本、单位文本以及数据文本根据文本坐标以及步骤S5中计算的间距信息进行对应匹配，从而得到多个与名称关键字对应的数据结果信息，然后进入步骤S11；

步骤S11，识别控制部18控制表格生成填写部23根据步骤S6判定得到的关键字模板生成相应的模板表格并将步骤S10中得到的数据结果信息依据相应的名称关键字填入模板表格从而得到标签信息表格，然后进入步骤S12

步骤S12，输入显示部26显示标签信息表格显示画面并在该画面中显示标签信息表格让用户确认，然后在用户确认表格完成后进入结束状态；

步骤S13，识别控制部18控制提示文本提取部24依据空格、换行、分词等分割规则提取修复文本行中的文本词以及数据文本作为提示文本，然后进入步骤S14；

步骤S14，识别控制部18表格生成填写部23生成一个空白表格，然后进入步骤S15；

步骤S15，输入显示部26显示标签信息表格填写画面并在该画面中显示空白表格让用户填写标签信息，并在用户输入文本时显示相应的提示文本从而对用户进行智能提示，然后在用户确认表格完成后进入结束状态。

实施例作用与效果

根据本实施例提供的商品信息图像识别系统，由于图像预处理部商品标签图像进行图像预处理，并通过标签文本识别部通过OCR技术对商品标签图像进行文字识别得到文本行，以及通过文本行修复处理部对文本行中错误的排列进行修复得到修复文本行，因此初步地提高了OCR识别精度；进一步通过模板检索判定部根据商品识别信息判定相应的关键字模板，并由识别控制部相应部件根据关键字模板对修复文本行进行关键字检索、文本分类、文本坐标获取等操作，再控制数据信息匹配部将修复文本行中的文本信息与关键字模板中的名称关键字进行匹配对应得到数据结果信息，因此使得表格生成填写部能够根据该数据结果信息以及关键字模板自动生成并填写标签信息表格，实现了标签信息的精确读取以及自动化的填写，提高了口岸工作人员的工作效率。本发明由于通过商品模板存储部存储多种关键字模板，因此即使不同类别的进口商品所需要识别的关键信息千差万别，商品信息图像识别系统也可以对不同类别的商品进行针对性地识别，从而提高OCR的识别进度。

实施例中，对于不具有关键字模板的商品标签，还能够通过提示文本提取部对修复文本行中的文本词以及数据文本进行提取并作为提示文本，因此在用户需要在空白表格中输入商品标签的相关信息时，输入显示部可以根据提示文本产生相应提示帮助用户进行输入，从而在没有关键字模板而无法精确识别时，也能够提高用户的工作效率。

实施例中，由于通过对商品标签图像进行预处理，执行图像纠正、分段灰度变换、按像素比例放缩以及像素滤波等操作，因此能够优化商品标签图像中的文字信息，从而更好地提高OCR引擎识别的准确率。

实施例中，由于通过数据匹配方法对修复文本行的每一行进行处理，从而使得关键字文本、单位文本以及数据文本能够更好地被匹配为一对，从而提高关键字信息的识别率。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种商品信息图像识别系统，用于对多类型的商品标签图像进行识别并根据识别出的标签信息进行自动化的信息填写，其特征在于，包括：

商品模板存储部、标签图像获取部、图像预处理部、标签文本识别部、文本行修复处理部、模板检索判定部、识别控制部、关键字检索记录部、文本分类部、文本坐标获取部、数据信息匹配部、表格生成填写部、画面存储部以及输入显示部，

其中，所述商品模板存储部存储有多种商品识别信息以及与该商品识别信息相对应的关键字模板，该关键字模板包含名称关键字以及与所述名称关键字对应的单位信息，

所述标签图像获取部获取所述商品标签图像以及相应的商品识别信息，

所述图像预处理部对所述商品标签图像进行图像预处理从而得到预处理标签图像，

所述标签文本识别部通过OCR技术对所述预处理标签图像进行字符识别从而得到多个包含标签信息的文本行以及相应的位置信息，所述位置信息表示为在所述预处理标签图像上建立笛卡尔坐标系后，所述文本行的信息的左上、右上、左下、右下四个点在所述预处理标签图像上的x、y的坐标信息，

所述文本行修复处理部根据所述位置信息将多个所述文本行中实际属于同一行的多行标签信息修复为同一行从而得到修复文本行，

所述模板检索判定部根据所述商品识别信息对所述商品模板存储部进行检索从而判定所述商品标签图像是否具有相应的关键字模板，

若所述模板检索判定部判定具有所述关键字模板，所述识别控制部就控制所述关键字检索记录部根据所述关键字模板依次对各行所述修复文本行中存在的所述名称关键字以及所述单位信息进行检索并记录检索到的所述名称关键字以及所述单位信息，控制所述文本分类部根据检索到的所述名称关键字以及所述单位信息将所述标签信息分类为相应的关键字文本、单位文本以及与所述单位信息对应的数据文本，控制所述文本坐标获取部依次获取分别与所述关键字文本、所述单位文本以及所述数据文本相对应的所述位置信息作为文本坐标，并控制所述数据信息匹配部通过预设的数据匹配方法将所述修复文本行中的所述关键字文本、所述单位文本以及所述数据文本根据所述文本坐标进行对应匹配从而得到多个与所述名称关键字对应的数据结果信息，进一步控制所述表格生成填写部根据所述关键字模板生成相应的模板表格并将所述数据结果信息依据相应的所述名称关键字填入所述模板表格从而得到标签信息表格，

所述画面存储部存储有标签信息表格显示画面，

所述输入显示部显示所述标签信息表格显示画面并在该画面中显示所述标签信息表格让用户确认，

间距信息计算部，用于根据所述位置信息计算出所述修复文本行各行之间的间距信息，

其中，所述数据匹配方法为：

依次选择每一行的所述修复文本行作为当前文本行，

若所述当前文本行中同时含有所述名称关键字以及对应的所述单位信息，则取出本行中对应的所述关键字文本，并将剩下的所述数据文本以及所述单位文本与该名称关键字进行匹配；

若所述当前文本行只含有所述名称关键字，则对该当前文本行不作处理；

若所述当前文本行只含有单位信息，则计算出上一行中所述关键字文本与所述当前文本行中所述单位文本的间距的欧式几何距离，若所述欧式几何距离低于所述间距信息，则将该行数据文本以及所述单位文本与所述上一行的所述名称关键字进行匹配。

2.根据权利要求1所述的商品信息图像识别系统，其特征在于，还包括：

提示文本提取部，

其中，若所述模板检索判定部判定不具有所述关键字模板，所述识别控制部就控制所述提示文本提取部依据空格、换行、分词的分割规则提取所述修复文本行中的文本词以及所述数据文本作为提示文本，并控制所述表格生成填写部生成一个空白表格，

所述画面存储部还存储有标签信息表格填写画面，

所述输入显示部显示所述标签信息表格填写画面并在该画面中显示所述空白表格让所述用户填写所述标签信息，并在用户输入文本时显示相应的所述提示文本从而对所述用户进行智能提示。

3.根据权利要求1所述的商品信息图像识别系统，其特征在于：

其中，所述图像预处理部包括图像纠正、分段灰度变换、按像素比例放缩以及像素滤波中的全部或是部分操作。