CN112084979A - 食品成分识别方法、装置、设备及存储介质 - Google Patents

食品成分识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112084979A
CN112084979A CN202010964401.4A CN202010964401A CN112084979A CN 112084979 A CN112084979 A CN 112084979A CN 202010964401 A CN202010964401 A CN 202010964401A CN 112084979 A CN112084979 A CN 112084979A
Authority
CN
China
Prior art keywords
food
image
matching
preset
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010964401.4A
Other languages
English (en)
Other versions
CN112084979B (zh
Inventor
李雅琴
王欣
张栩滔
朱远韧
李卓航
汪洋鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Polytechnic University
Original Assignee
Wuhan Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Polytechnic University filed Critical Wuhan Polytechnic University
Priority to CN202010964401.4A priority Critical patent/CN112084979B/zh
Publication of CN112084979A publication Critical patent/CN112084979A/zh
Application granted granted Critical
Publication of CN112084979B publication Critical patent/CN112084979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种食品成分识别方法、装置、设备及存储介质。该方法包括:获取待检测食品的包装标识图像;对所述包装标识图像进行分割,得到目标文字图块;根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;根据所述分词结果对所述待检测食品进行食品成分识别。通过上述方式,对待检测食品包装标识图像上的食品成分信息进行提取,对提取到的文字信息进行匹配分词和识别,实现了对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。

Description

食品成分识别方法、装置、设备及存储介质
技术领域
本发明涉及食品安全技术领域,尤其涉及一种食品成分识别方法、装置、设备及存储介质。
背景技术
在日常生活中,尽管在食品的包装上有食品相关的详细信息,但是大部分人并不会对包装上的文字进行认真的阅读,故而也不会对食品添加信息进行获取,并且非专业人士也无法读懂食品成分信息,无法判断食品中是否含有添加剂或有害成分。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种离合器单体耐久测试方法、装置、设备及存储介质,旨在解决如何识别食品中是否含有添加剂或有害成分的技术问题。
为实现上述目的,本发明提供了一种食品成分识别方法,所述方法包括以下步骤:
获取待检测食品的包装标识图像;
对所述包装标识图像进行分割,得到目标文字图块;
根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;
将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;
根据所述分词结果对所述待检测食品进行食品成分识别。
优选地,所述对所述包装标识图像进行分割,得到目标文字图块,包括:
根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块;
对所述文字图块进行二值化处理,得到目标文字图块。
优选地,所述将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果,包括:
通过正向最大匹配算法将所述文本信息与预设食品专业词典进行匹配,得到目标文本匹配结果;
根据所述目标文本匹配结果得到分词结果。
优选地,所述通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,得到目标文本匹配结果,包括:
通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,在所述文本信息对应的词语与所述预设食品专业词典成功匹配时,得到对应的第一文本匹配信息;
在所述文本信息对应的词语与所述预设食品专业词典未成功匹配时,获取所述文本信息对应的词语与所述预设食品专业词典的相似度;
在所述相似度大于或者等于预设阈值相似度时,得到对应的第二文本匹配信息;
根据所述第一文本匹配信息和所述第二文本匹配信息得到目标文本匹配结果。
优选地,所述将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果,包括:
根据所述预设食品专业词典构建预设概率语言模型;
对所述文本信息进行去标点符号的预处理,得到目标文本信息;
将所述目标文本信息通过所述预设概率语言模型进行分词,得到所述目标文本信息对应的分词结果。
优选地,所述获取待检测食品的包装标识图像,包括:
获取待检测食品的原始包装标识图像;
对所述原始包装标识图像的文字方向和图像尺寸进行识别;
在所述文字方向不为正向时,调整所述原始包装标识图像的方向,得到调整后的文字方向;
在所述图像尺寸不满足预设要求时,对所述原始包装标识图像进行尺寸调整,得到调整后的图像尺寸;
根据调整后的文字方向以及调整后的图像尺寸得到所述原始包装标识图像对应的包装标识图像。
优选地,所述根据所述分词结果对所述待检测食品进行食品成分识别之后,所述方法还包括:
获取所述待检测食品对应的成分信息;
在所述成分信息中含有非安全成分时,进行蜂鸣警报。
此外,为实现上述目的,本发明还提出一种食品成分识别装置,所述食品成分识别装置包括:
获取模块,用于获取待检测食品的包装标识图像;
分割模块,用于对所述包装标识图像进行分割,得到目标文字图块;
提取模块,用于根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;
分词模块,用于将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;
识别模块,用于根据所述分词结果对所述待检测食品进行食品成分识别。
此外,为实现上述目的,本发明还提出一种食品成分识别设备,所述食品成分识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的食品成分识别程序,所述食品成分识别程序配置为实现如上文所述的食品成分识别方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有食品成分识别程序,所述食品成分识别程序被处理器执行时实现如上文所述的食品成分识别方法的步骤。
本发明通过获取待检测食品的包装标识图像;对所述包装标识图像进行分割,得到目标文字图块;根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;根据所述分词结果对所述待检测食品进行食品成分识别。通过上述方式,对待检测食品包装标识图像上的食品成分信息进行提取,对提取到的文字信息进行匹配分词和识别,实现了对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的食品成分识别设备的结构示意图;
图2为本发明食品成分识别方法第一实施例的流程示意图;
图3为本发明食品成分识别方法第二实施例的流程示意图;
图4为本发明食品成分识别方法第三实施例的流程示意图;
图5为本发明食品成分识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的食品成分识别设备结构示意图。
如图1所示,该食品成分识别设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对食品成分识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及食品成分识别程序。
在图1所示的食品成分识别设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明食品成分识别设备中的处理器1001、存储器1005可以设置在食品成分识别设备中,所述食品成分识别设备通过处理器1001调用存储器1005中存储的食品成分识别程序,并执行本发明实施例提供的食品成分识别方法。
本发明实施例提供了一种食品成分识别方法,参照图2,图2为本发明一种食品成分识别方法第一实施例的流程示意图。
本实施例中,所述食品成分识别方法包括以下步骤:
步骤S10:获取待检测食品的包装标识图像。
需要说明的是,本实施例的执行主体是食品成分识别设备,所述食品成分识别设备可以是手机、个人计算机或服务器等电子设备,本实施例对此不加以限制。在具体实现中,可以通过摄像头获取待检测食品的原始包装标识图像,通过网络或者连接线接口等传输到食品成分识别设备,也可以通过食品成分识别设备内置的图像获取装置获取原始包装标识图像,本实施例对此不加以限制。
为使图片更具有识别性,可以对获取到的原始包装标识图像进行预处理,具体地,步骤S10可以包括:获取待检测食品的原始包装标识图像;对所述原始包装标识图像的文字方向和图像尺寸进行识别;在所述文字方向不为正向时,调整所述原始包装标识图像的方向,得到调整后的文字方向;在所述图像尺寸不满足预设要求时,对所述原始包装标识图像进行尺寸调整,得到调整后的图像尺寸;根据调整后的文字方向以及调整后的图像尺寸得到所述原始包装标识图像对应的包装标识图像。
可以理解的是,原始包装标识图像可以是食品外包装或产品说明书,包含根据不同产品分别按照规定标出:品名、产地、厂名、厂址,联系方式,生产日期,批号或者代号、规格或重量等、配方或者主要成分、保质期限、食用或者使用方法等信息。
需要说明的是,预设要求是指提前设置的适合识别处理的尺寸规格,由于拍摄方式以及拍摄环境的影响易导致图片歪斜或清晰度不够,图片的方向歪斜将会导致后续文字识别的严重误差,需要对原始包装标识图像的文字方向识别,对图片进行旋转找到正确的方向,其次还需要将图片规格裁剪为适合处理的规格,对于调整后仍不满足预设要求的图像,发出图像不符的提醒,以提醒用户重新输入可识别的图像。
步骤S20:对所述包装标识图像进行分割,得到目标文字图块。
进一步地,步骤S20包括:根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块;对所述文字图块进行二值化处理,得到目标文字图块。
需要说明的是,通过对所述包装标识图像进行分割,使图像中的文字部分与背景部分进行分割,文字更突出,更具有识别性。根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块的步骤,可以为:
(1)获取设定的参数T0,针对全局阈值选择初始估计值T1
(2)根据阈值T1分割图像。将图像分成两部分:G1和G2。G1是由灰度值大于T1的像素组成,G2是由灰度值小于或等于T1的像素组成;
(3)计算G1和G2中所有像素的平均灰度值μ1和μ2,以及新的阈值T2=(μ12)/2;
(4)如果|T1-T2|<T0,则得到T2即为最优阈值;否则,将T2赋值给T1,并重复步骤(2)~(4),直到获取最优阈值;
(5)使用函数im2bw分割图像:g=im2bw(f,T/den)。
可以理解的是,使用阈值(threshold)变换法把灰度图像(grayscale image)转换成二值图像,其中,den是整数(例如一幅8比特图像的255),是T/den比率为1的数值范围内的最大值。
需要说明的是,二值化处理是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。对所述文字图块进行二值化处理,得到目标文字图块的步骤,可以包括:
取0与255的中数为阈值,即取127为阈值,设置灰度值小于或者等于127的像素点的灰度值变为0(黑色),设置灰度值大于127的像素点的灰度值变为255(白色)。
对所述文字图块进行二值化处理,得到目标文字图块的步骤,可以包括:
计算像素点矩阵中的所有像素点的灰度值的平均值avg;获取每一个像素点的灰度值,与avg一一比较,在像素点的灰度值小于或者等于avg时,设置该像素点的灰度值为0(黑色),在像素点的灰度值大于avg时,设置该像素点的灰度值为255(白色)。
对所述文字图块进行二值化处理,得到目标文字图块的步骤,还可以包括:
使用直方图方法(双峰法)寻找二值化阀值,直方图是图像的重要特质。直方图方法认为图像由前景和背景组成,在灰度直方图上,前景和背景都形成高峰,在双峰之间的最低谷处就是阀值所在。取到阀值之后,将像素点的灰度值与阀值一一比较,在像素点的灰度值小于或者等于阈值时,设置该像素点的灰度值为0(黑色),在像素点的灰度值大于阈值时,设置该像素点的灰度值为255(白色)。
步骤S30:根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息。
可以理解的是,文本提取过程可以采用现在成熟的OCR/ICR等识别方法来实现,通过集成现有的识别技术,如FineReader或Mobile OCR等开发工具包,可以实现快速的文本信息提取。
步骤S40:将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果。
可以理解的是,由于普通词典词汇量非常大,与食品相关的词语有限,为更快地匹配到分词的结果,加大识别的正确率,设计预设食品专业词典。预设食品专业词典可以为根据全部食品成分设计的词典,也可以为根据添加剂设计的词典,也可以为有害成分词典,本实施例对此不加以限制。
需要说明的是,分词过程可以为正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、最少切分分词算法、互信息原理、N元统计模型等方法中的一种。
步骤S50:根据所述分词结果对所述待检测食品进行食品成分识别。
具体地,步骤S50之后,所述方法还包括:获取所述待检测食品对应的成分信息;在所述成分信息中含有非安全成分时,进行蜂鸣警报。
可以理解的是,在预设食品专业词典为根据全部食品成分设计的词典时,得到的分词结果中包含普通食品成分、添加剂和有害食品成分。非安全成分包括添加剂和有害食品成分,在成分信息中包括添加剂和有害食品成分时,发出蜂鸣警报。
在预设食品专业词典为根据添加剂设计的词典时,得到的分词结果中含有普通添加剂以及有害添加剂。非安全成分包括有害添加剂,在成分信息中包括有害添加剂时,发出蜂鸣警报。
在预设食品专业词典为有害成分词典时,得到的分词结果为有害成分。在成分信息中包括有害成分时,发出蜂鸣警报。
本实施例通过获取待检测食品的包装标识图像;对所述包装标识图像进行分割,得到目标文字图块;根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;根据所述分词结果对所述待检测食品进行食品成分识别。通过上述方式,对待检测食品包装标识图像上的食品成分信息进行提取,对提取到的文字信息进行匹配分词和识别,实现了对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。
参考图3,图3为本发明一种食品成分识别方法第二实施例的流程示意图。
基于上述第一实施例,本实施例食品成分识别方法在所述步骤S40,包括:
步骤S401:通过正向最大匹配算法将所述文本信息与预设食品专业词典进行匹配,得到目标文本匹配结果。
可以理解的是,通过正向最大匹配法采用减字匹配法进行匹配分词,假设己知预设食品专业词典中最长词条的长度为N,则以N作为减字开始的长度标准,首先将文本信息S从左向右截取长度为N的字符串W1,然后在词典中查找是否存在该字符串W1的词条。如果匹配成功,则W1标记为切分出的词,再从待扫描文本串的N+1位置开始扫描;如果匹配失败,将截取长度减1后,再从S中截取此长度的字符串W1',重复上述匹配过程,直至截取长度为1为止。以扫描完句子作为整个匹配过程结束。经过处理后,原本的文本信息S将被切分成W1,W2……Wn的词序列,每一个Wi均为词典中的词条或者是原句子。
由于从图片转换成文字过程中,容易出现文字识别成字体相似的文字的状况,为避免文字提取错误导致识别准确率下降,具体地,步骤S401可以包括:通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,在所述文本信息对应的词语与所述预设食品专业词典成功匹配时,得到对应的第一文本匹配信息;在所述文本信息对应的词语与所述预设食品专业词典未成功匹配时,获取所述文本信息对应的词语与所述预设食品专业词典的相似度;在所述相似度大于或者等于预设阈值相似度时,得到对应的第二文本匹配信息;根据所述第一文本匹配信息和所述第二文本匹配信息得到目标文本匹配结果。
可以理解的是,为了提高分词的准确度,在所述文本信息对应的词语与所述预设食品专业词典未成功匹配时,获取所述文本信息对应的词语与所述预设食品专业词典的相似度,具体方式可以为基于N-gram模型通过文本信息对应的词语与预设食品专业词典中词语间的“差异”来衡量相似度。可以从共有子串的数量上去定义两个句子的相似度。可以根据预设食品专业词典中的词语增加N-gram模型中的权重,降低非预设食品专业词典中的词语中的权重,以得到对应的相似度。也可以为通过Jaccard相似度计算方法计算文本信息对应的词语与预设食品专业词典中词语之间词集合的交集和并集的比值。也可以通过预设深度学习网络进行计算获取,本实施例对此不加以限制。
步骤S402:根据所述目标文本匹配结果得到分词结果。
可以理解的是,在相似度小于预设阈值相似度时,可以将对应的分词词语部分认定为无用信息,进行清理,这样处理得到的分词结果更简洁。
本实施例通过正向最大匹配算法对文本信息进行分词,通过获取分词后的词语的相似度对分词结果进行整理,得到更具准确性的分词结果,根据准确的分词结果实现对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。
参考图4,图4为本发明一种食品成分识别方法第二实施例的流程示意图。
基于上述第一实施例,本实施例食品成分识别方法在所述步骤S40,包括:
步骤S403:根据所述预设食品专业词典构建预设概率语言模型。
可以理解的是,遍历预设食品专业词典,增加遍历到的词语对应的概率语言模型权重。概率语言模型可以为N-gram语言模型,也可以为神经概率语言模型(NPLM),本实施例以N-gram语言模型为例进行说明。
步骤S404:对所述文本信息进行去标点符号的预处理,得到目标文本信息。
可以理解的是,由于成分信息中间有逗号或者顿号,可以根据此标点符号对文本信息进行分词处理。
步骤S405:将所述目标文本信息通过所述预设概率语言模型进行分词,得到所述目标文本信息对应的分词结果。
可以理解的是,把扫描的文字分为若干个部分(小词组),将若干个部分的小词组在字典中进行匹配,假如小词组在字典中,那么可以提高其权值,然后根据N元模型概率的链规则算出其若干部分组成后的P(S),具体计算方式参见公式(1),若P(S)大于或者等于预设概率值,则证明与预设食品专业词典匹配成功,可以将结果返回,得到对应的分词结果。如果P(S)小于预设概率值,则证明该词组与预设食品专业词典匹配失败,可以将此词组数据清理。
基于马尔可夫(Markov)假设——未来的事件,只取决于有限的历史,在N-gram语言模型中,一个词出现的概率只与它前面的n-1个词相关,用公式表达为:
Figure BDA0002680415740000101
通过上述公式可以得到P(w2,w1)=P(w1)P(w2|w1);
同理P(w1,w2,w3)=P(w1,w2)P(w3|w1,w2);
可以得到P(w1,w2,w3)=P(w1)P(w2|w1)P(w3|w1,w2);
同理可得:
P(S)=P(w1,w2,…,wn)=P(w1)P(w2|w1)P(w3|w1,w2)…P(wn|w1,w2…wn-1) 公式(1)
本实施例通过预设概率语言模型计算文本信息与预设食品专业词典之间的相似概率进行分词,得到更具准确性的分词结果,根据准确的分词结果实现对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有食品成分识别程序,所述食品成分识别程序被处理器执行时实现如上文所述的食品成分识别方法的步骤。
参照图5,图5为本发明食品成分识别装置第一实施例的结构框图。
如图5所示,本发明实施例提出的食品成分识别装置包括:
获取模块10,用于获取待检测食品的包装标识图像。
需要说明的是,在具体实现中,可以通过摄像头获取待检测食品的原始包装标识图像,通过网络或者连接线接口等传输到获取模块,也可以通过获取模块内置的图像获取装置获取原始包装标识图像,本实施例对此不加以限制。
为使图片更具有识别性,可以对获取到的原始包装标识图像进行预处理,具体地,所述获取模块10,还用于:获取待检测食品的原始包装标识图像;对所述原始包装标识图像的文字方向和图像尺寸进行识别;在所述文字方向不为正向时,调整所述原始包装标识图像的方向,得到调整后的文字方向;在所述图像尺寸不满足预设要求时,对所述原始包装标识图像进行尺寸调整,得到调整后的图像尺寸;根据调整后的文字方向以及调整后的图像尺寸得到所述原始包装标识图像对应的包装标识图像。
可以理解的是,原始包装标识图像可以是食品外包装或产品说明书,包含根据不同产品分别按照规定标出:品名、产地、厂名、厂址,联系方式,生产日期,批号或者代号、规格或重量等、配方或者主要成分、保质期限、食用或者使用方法等信息。
需要说明的是,预设要求是指提前设置的适合识别处理的尺寸规格,由于拍摄方式以及拍摄环境的影响易导致图片歪斜或清晰度不够,图片的方向歪斜将会导致后续文字识别的严重误差,需要对原始包装标识图像的文字方向识别,对图片进行旋转找到正确的方向,其次还需要将图片规格裁剪为适合处理的规格,对于调整后仍不满足预设要求的图像,发出图像不符的提醒,以提醒用户重新输入可识别的图像。
分割模块20,用于对所述包装标识图像进行分割,得到目标文字图块。
进一步地,所述分割模块20,还用于:根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块;对所述文字图块进行二值化处理,得到目标文字图块。
需要说明的是,通过对所述包装标识图像进行分割,使图像中的文字部分与背景部分进行分割,文字更突出,更具有识别性。根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块的步骤,可以为:
(1)获取设定的参数T0,针对全局阈值选择初始估计值T1
(2)根据阈值T1分割图像。将图像分成两部分:G1和G2。G1是由灰度值大于T1的像素组成,G2是由灰度值小于或等于T1的像素组成;
(3)计算G1和G2中所有像素的平均灰度值μ1和μ2,以及新的阈值T2=(μ12)/2;
(4)如果|T1-T2|<T0,则得到T2即为最优阈值;否则,将T2赋值给T1,并重复步骤(2)~(4),直到获取最优阈值。
(5)使用函数im2bw分割图像:g=im2bw(f,T/den)
可以理解的是,使用阈值(threshold)变换法把灰度图像(grayscale image)转换成二值图像,其中,den是整数(例如一幅8比特图像的255),是T/den比率为1的数值范围内的最大值。
需要说明的是,二值化处理是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。对所述文字图块进行二值化处理,得到目标文字图块的步骤,可以包括:
取0与255的中数为阈值,即取127为阈值,设置灰度值小于或者等于127的像素点的灰度值变为0(黑色),设置灰度值大于127的像素点的灰度值变为255(白色)。
对所述文字图块进行二值化处理,得到目标文字图块的步骤,可以包括:
计算像素点矩阵中的所有像素点的灰度值的平均值avg;获取每一个像素点的灰度值,与avg一一比较,在像素点的灰度值小于或者等于avg时,设置该像素点的灰度值为0(黑色),在像素点的灰度值大于avg时,设置该像素点的灰度值为255(白色)。
对所述文字图块进行二值化处理,得到目标文字图块的步骤,还可以包括:
使用直方图方法(双峰法)寻找二值化阀值,直方图是图像的重要特质。直方图方法认为图像由前景和背景组成,在灰度直方图上,前景和背景都形成高峰,在双峰之间的最低谷处就是阀值所在。取到阀值之后,将像素点的灰度值与阀值一一比较,在像素点的灰度值小于或者等于阈值时,设置该像素点的灰度值为0(黑色),在像素点的灰度值大于阈值时,设置该像素点的灰度值为255(白色)。
提取模块30,用于根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息。
可以理解的是,文本提取过程可以采用现在成熟的OCR/ICR等识别方法来实现,通过集成现有的识别技术,如FineReader或Mobile OCR等开发工具包,可以实现快速的文本信息提取。
分词模块40,用于将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果。
可以理解的是,由于普通词典词汇量非常大,与食品相关的词语有限,为更快地匹配到分词的结果,加大识别的正确率,设计预设食品专业词典。预设食品专业词典可以为根据全部食品成分设计的词典,也可以为根据添加剂设计的词典,也可以为有害成分词典,本实施例对此不加以限制。
需要说明的是,分词过程可以为正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法、最少切分分词算法、互信息原理、N元统计模型等方法中的一种。
识别模块50,用于根据所述分词结果对所述待检测食品进行食品成分识别。
具体地,所述识别模块50,还用于:获取所述待检测食品对应的成分信息;在所述成分信息中含有非安全成分时,进行蜂鸣警报。
可以理解的是,在预设食品专业词典为根据全部食品成分设计的词典时,得到的分词结果中包含普通食品成分、添加剂和有害食品成分。非安全成分包括添加剂和有害食品成分,在成分信息中包括添加剂和有害食品成分时,发出蜂鸣警报。
在预设食品专业词典为根据添加剂设计的词典时,得到的分词结果中含有普通添加剂以及有害添加剂。非安全成分包括有害添加剂,在成分信息中包括有害添加剂时,发出蜂鸣警报。
在预设食品专业词典为有害成分词典时,得到的分词结果为有害成分。在成分信息中包括有害成分时,发出蜂鸣警报。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过获取待检测食品的包装标识图像;对所述包装标识图像进行分割,得到目标文字图块;根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;根据所述分词结果对所述待检测食品进行食品成分识别。通过上述方式,对待检测食品包装标识图像上的食品成分信息进行提取,对提取到的文字信息进行匹配分词和识别,实现了对食品中的成分信息进行识别,解决了如何识别食品中是否含有添加剂或有害成分的技术问题。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的食品成分识别方法,此处不再赘述。
在一实施例中,所述分词模块40,还用于通过正向最大匹配算法将所述文本信息与预设食品专业词典进行匹配,得到目标文本匹配结果;
根据所述目标文本匹配结果得到分词结果。
在一实施例中,所述分词模块40,还用于通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,在所述文本信息对应的词语与所述预设食品专业词典成功匹配时,得到对应的第一文本匹配信息;
在所述文本信息对应的词语与所述预设食品专业词典未成功匹配时,获取所述文本信息对应的词语与所述预设食品专业词典的相似度;
在所述相似度大于或者等于预设阈值相似度时,得到对应的第二文本匹配信息;
根据所述第一文本匹配信息和所述第二文本匹配信息得到目标文本匹配结果。
在一实施例中,所述分词模块40,还用于根据所述预设食品专业词典构建预设概率语言模型;
对所述文本信息进行去标点符号的预处理,得到目标文本信息;
将所述目标文本信息通过所述预设概率语言模型进行分词,得到所述目标文本信息对应的分词结果。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种食品成分识别方法,其特征在于,所述食品成分识别方法包括:
获取待检测食品的包装标识图像;
对所述包装标识图像进行分割,得到目标文字图块;
根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;
将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;
根据所述分词结果对所述待检测食品进行食品成分识别。
2.如权利要求1所述的食品成分识别方法,其特征在于,所述对所述包装标识图像进行分割,得到目标文字图块,包括:
根据基本全局阈值法对所述包装标识图像进行处理,以使所述包装标识图像中的文字图块与背景图像分割,得到文字图块;
对所述文字图块进行二值化处理,得到目标文字图块。
3.如权利要求1所述的食品成分识别方法,其特征在于,所述将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果,包括:
通过正向最大匹配算法将所述文本信息与预设食品专业词典进行匹配,得到目标文本匹配结果;
根据所述目标文本匹配结果得到分词结果。
4.如权利要求3所述的食品成分识别方法,其特征在于,所述通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,得到目标文本匹配结果,包括:
通过正向最大匹配算法将所述文本信息与所述预设食品专业词典进行匹配,在所述文本信息对应的词语与所述预设食品专业词典成功匹配时,得到对应的第一文本匹配信息;
在所述文本信息对应的词语与所述预设食品专业词典未成功匹配时,获取所述文本信息对应的词语与所述预设食品专业词典的相似度;
在所述相似度大于或者等于预设阈值相似度时,得到对应的第二文本匹配信息;
根据所述第一文本匹配信息和所述第二文本匹配信息得到目标文本匹配结果。
5.如权利要求1所述的食品成分识别方法,其特征在于,所述将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果,包括:
根据所述预设食品专业词典构建预设概率语言模型;
对所述文本信息进行去标点符号的预处理,得到目标文本信息;
将所述目标文本信息通过所述预设概率语言模型进行分词,得到所述目标文本信息对应的分词结果。
6.如权利要求1-5中任一项所述的食品成分识别方法,其特征在于,所述获取待检测食品的包装标识图像,包括:
获取待检测食品的原始包装标识图像;
对所述原始包装标识图像的文字方向和图像尺寸进行识别;
在所述文字方向不为正向时,调整所述原始包装标识图像的方向,得到调整后的文字方向;
在所述图像尺寸不满足预设要求时,对所述原始包装标识图像进行尺寸调整,得到调整后的图像尺寸;
根据调整后的文字方向以及调整后的图像尺寸得到所述原始包装标识图像对应的包装标识图像。
7.如权利要求1-5中任一项所述的食品成分识别方法,其特征在于,所述根据所述分词结果对所述待检测食品进行食品成分识别之后,所述方法还包括:
获取所述待检测食品对应的成分信息;
在所述成分信息中含有非安全成分时,进行蜂鸣警报。
8.一种食品成分识别装置,其特征在于,所述食品成分识别装置包括:
获取模块,用于获取待检测食品的包装标识图像;
分割模块,用于对所述包装标识图像进行分割,得到目标文字图块;
提取模块,用于根据所述目标文字图块进行文本提取,得到所述目标文字图块对应的文本信息;
分词模块,用于将所述文本信息与预设食品专业词典进行匹配分词,得到分词结果;
识别模块,用于根据所述分词结果对所述待检测食品进行食品成分识别。
9.一种食品成分识别设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的食品成分识别程序,所述食品成分识别程序配置为实现如权利要求1至7中任一项所述的食品成分识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有食品成分识别程序,所述食品成分识别程序被处理器执行时实现如权利要求1至7任一项所述的食品成分识别方法的步骤。
CN202010964401.4A 2020-09-14 2020-09-14 食品成分识别方法、装置、设备及存储介质 Active CN112084979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964401.4A CN112084979B (zh) 2020-09-14 2020-09-14 食品成分识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964401.4A CN112084979B (zh) 2020-09-14 2020-09-14 食品成分识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112084979A true CN112084979A (zh) 2020-12-15
CN112084979B CN112084979B (zh) 2023-07-11

Family

ID=73737821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964401.4A Active CN112084979B (zh) 2020-09-14 2020-09-14 食品成分识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112084979B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435823A (zh) * 2021-08-26 2021-09-24 中核凯利(深圳)餐饮管理有限公司 一种数字化餐饮采购安全性校验方法、装置、系统及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008044380A1 (fr) * 2006-10-11 2008-04-17 Sharp Kabushiki Kaisha Dispositif de reconnaissance de motif pour reconnaître un motif de saisie à l'aide d'un motif de dictionnaire
US20080199080A1 (en) * 2007-02-21 2008-08-21 Board Of Regents Of University Of Nebraska System and method for analyzing material properties using hyperspectral imaging
US8639036B1 (en) * 2012-07-02 2014-01-28 Amazon Technologies, Inc. Product image information extraction
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN110110577A (zh) * 2019-01-22 2019-08-09 口碑(上海)信息技术有限公司 识别菜名的方法及装置、存储介质、电子装置
US20190311210A1 (en) * 2018-04-05 2019-10-10 Walmart Apollo, Llc Automated extraction of product attributes from images
CN111782772A (zh) * 2020-07-24 2020-10-16 平安银行股份有限公司 基于ocr技术的文本自动生成方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008044380A1 (fr) * 2006-10-11 2008-04-17 Sharp Kabushiki Kaisha Dispositif de reconnaissance de motif pour reconnaître un motif de saisie à l'aide d'un motif de dictionnaire
US20080199080A1 (en) * 2007-02-21 2008-08-21 Board Of Regents Of University Of Nebraska System and method for analyzing material properties using hyperspectral imaging
US8639036B1 (en) * 2012-07-02 2014-01-28 Amazon Technologies, Inc. Product image information extraction
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN105068994A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种药品信息的自然语言处理方法及系统
CN106815187A (zh) * 2015-11-27 2017-06-09 镇江诺尼基智能技术有限公司 一种高效的新术语识别系统和方法
US20190311210A1 (en) * 2018-04-05 2019-10-10 Walmart Apollo, Llc Automated extraction of product attributes from images
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN110110577A (zh) * 2019-01-22 2019-08-09 口碑(上海)信息技术有限公司 识别菜名的方法及装置、存储介质、电子装置
CN111782772A (zh) * 2020-07-24 2020-10-16 平安银行股份有限公司 基于ocr技术的文本自动生成方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李越: "个性化健康饮食推荐服务研究", 中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑, pages 33 - 34 *
胡盼盼: "《自然语言处理从入门到实战》", 30 April 2020, 中国铁道出版社, pages: 69 - 70 *
龚静: "《中文文本聚类研究》", 中国传媒大学出版社 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435823A (zh) * 2021-08-26 2021-09-24 中核凯利(深圳)餐饮管理有限公司 一种数字化餐饮采购安全性校验方法、装置、系统及介质

Also Published As

Publication number Publication date
CN112084979B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN110569830B (zh) 多语言文本识别方法、装置、计算机设备及存储介质
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN106951832B (zh) 一种基于手写字符识别的验证方法及装置
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN109472207B (zh) 情绪识别方法、装置、设备及存储介质
CN110781460A (zh) 版权认证方法、装置、设备、系统及计算机可读存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN108763380B (zh) 商标识别检索方法、装置、计算机设备和存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN113536771B (zh) 基于文本识别的要素信息提取方法、装置、设备及介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN111630521A (zh) 图像处理方法和图像处理系统
CN110956038A (zh) 图文内容重复判断方法及装置
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN112084979B (zh) 食品成分识别方法、装置、设备及存储介质
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
CN110765245B (zh) 基于大数据的情感正负判断方法、装置、设备及存储介质
CN108021918B (zh) 文字识别方法及装置
CN109101973B (zh) 文字识别方法、电子设备、存储介质
CN113837129B (zh) 手写签名错别字识别方法、装置、设备及存储介质
CN115909381A (zh) 一种文本图像识别方法、系统及相关装置
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant