CN114580429A - 一种基于人工智能的语言和图像理解集成服务系统 - Google Patents
一种基于人工智能的语言和图像理解集成服务系统 Download PDFInfo
- Publication number
- CN114580429A CN114580429A CN202210092447.0A CN202210092447A CN114580429A CN 114580429 A CN114580429 A CN 114580429A CN 202210092447 A CN202210092447 A CN 202210092447A CN 114580429 A CN114580429 A CN 114580429A
- Authority
- CN
- China
- Prior art keywords
- character
- module
- distance
- calculation
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 96
- 238000004458 analytical method Methods 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000007781 pre-processing Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000010354 integration Effects 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于人工智能的语言和图像理解集成服务系统,包括预处理模块、计算解析模块和判断显示模块,所述预处理模块用于对扫描录入的字符内容进行解析预处理,所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离,所述判断显示模块用于判断确认字符综合计算的结果并显示,所述预处理模块与计算解析模块电连接,所述计算解析模块与判断显示模块电连接,首先将用户识别的字符文本进行预处理工作,同步建立相似的字符模板库,再通过预处理中得到的字符特征向量计算其特征向量距离,最后根据特征向量距离和与词频相关的字符通顺值综合计算字符语义值,本发明,具有识别精准和实用性强的特点。
Description
技术领域
本发明涉及文字图像识别技术领域,具体为一种基于人工智能的语言和图像理解集成服务系统。
背景技术
随着电子化办公的普及,图片文字识别软件的运用也得到了推广,很多的单位和个人都将其当作必备的软件,其可以快速的将大量的图片文字识别成可编辑的文本文字,方便文字的处理。
图片文字识别过程中识别的准确度一直是人们关心的重点,而目前文字识别技术在一些应用场景的识别准确性相对较低,主要体现在单位有一定规范图例的多文本和长文本的识别应用上,在识别时往往会会出现一些较小的但处理起来较麻烦的差错,例如原本应识别得到的一段文字被识别为两段甚至多段拆分开来的文字,或将其中的方框图例识别为形似字,把汉字“一”识别成一个横杠或者反过来识别,再者把连写的数字13识别为大写英文字母“B”等,这些问题的出现就使得识别出来后的文本仍需花费大量时间和精力去核对修改,甚至在一些场景下识别出来后会直接打印使用,而其中的错误信息就会导致后期使用的过程出现差错和误解,因此,设计实用性强和准确性高的一种基于人工智能的语言和图像理解集成服务系统是很有必要的。
发明内容
本发明的目的在于提供一种基于人工智能的语言和图像理解集成服务系统,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的语言和图像理解集成服务系统,包括预处理模块、计算解析模块和判断显示模块,其特征在于:所述预处理模块用于对扫描录入的字符内容进行解析预处理,所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离,所述判断显示模块用于判断确认字符综合计算的结果并显示,所述预处理模块与计算解析模块电连接,所述计算解析模块与判断显示模块电连接。
根据上述技术方案,所述预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块,所述扫描录入模块用于对待识别图片和文件上的字符进行扫描提取,所述字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作,所述建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板。
根据上述技术方案,所述计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块,所述特征向量距离模块用于计算划分出的单个字符的特征向量距离,所述分析判断模块用于判断字符是否属于需加入语义理解进行综合计算,所述语义解析模块用于结合前后字符的意思解析该字符的意思,所述字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符,所述特征向量距离模块与分析判断模块电连接,所述分析判断模块与字符综合计算模块电连接。
根据上述技术方案,所述特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块,所述实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值,所述相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算,所述语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块,所述单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思,所述前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。
根据上述技术方案,所述判断显示模块包括判断确认模块和字符呈现模块,所述判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符,所述字符呈现模块用于将正确的字符进行呈现显示。
根据上述技术方案,所述语言和图像理解集成服务系统的运行方法主要包括以下步骤:
步骤S1:用户将待识别图片或文件放入识别位置点击识别功能,预处理模块对字符文字扫描录入进行行解析,图像区域划分和提取特征向量等预处理步骤;
步骤S2:同步建立相似字符模板模块在已有的基准字符模板中,根据预处理后字符的字形相似度调整字符模板中的字符位置,相似度较大的字符处于临近位置,建立字符形态特征多模板库;
步骤S3:将预处理后的字符进行特征向量距离计算,根据计算出的距离与字符形态特征模板库中进行对比判断,判断字符准确性与模糊性;
步骤S4:语义解析模块对存在模糊性的字符进行单字符语义解析和前后字符语义解析,字符综合计算模块根据相似度值和语义解析值对存在模糊性的字符进行综合计算;
步骤S5:判断综合计算结果对应的最终字符,并进行呈现显示。
根据上述技术方案,所述步骤S2进一步包括以下步骤:
步骤S21:字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量,得到待识别字符的四维特征向量X=(x1,x2,x3,x4)T;
步骤S22:根据设定已有的基准字符m类模板模式W1,W2,W3,Wm,建立以四维特征向量Yi=(yi1,yi2,yi3,yi4)表示的第i类模式Wi的基准模板。
根据上述技术方案,所述步骤S3进一步包括以下步骤:
步骤S31:字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X=(x1,x2,x3,x4)T样本,利用聚类算法自动识别匹配到基准模板中的类模板Wi,所述聚类算法为根据识别到的同一类别的字符特征向量与模板库中的该类字符模板作对比分析;
步骤S32:当聚类算法自动识别出现不止一类可匹配的基准模板时,即除了最符合的第一类模板Wi,还有相似度较高的其它类模板Wm;
步骤S33:相似字符距离计算子模块利用四维特征向量计算公式,分别计算其与Wi类基准模板间的距离d(X,Yi)和相似度,和其它类模板Wm间的距离d(X,Ym)和相似度;
步骤S34:实际字符距离计算子模块根据四维特征向量计算公式,计算其与Wi类基准模板间的距离d(X,Yi),:
式中,x1,x2,x3,x4表示实际测量的字符的横、竖、撇、捺四个方向的特征向量,y1,y2,y3,y4表示Wi类基准模板中字符的标准横、竖、撇、捺四个方向的特征向量,两个特征向量的维度值相差越大,则距离也越大;
根据上述技术方案,所述步骤S4进一步包括以下步骤:
步骤S41:聚类算法自动识别匹配到唯一一类基准模板时,分析判断模块判断该次识别为精准识别,不进行语义解析直接进行呈现显示;
步骤S42:聚类算法自动识别匹配到多类基准模板时,对计算出的相似度大小进行分析判断,当相似度相差较大时以相似度大的一类模板为精准识别不进行语义解析,当计算出的相似度大小相差较小时,判断此字符识别为模糊识别;
步骤S43:语义解析模块对判断出的模糊识别的字符进行语义解析,将多类模板中的匹配字符分别进入标准字符语义数据库进行单字符语义解析;
步骤S44:将解析出的单字符与前后字符组合形成词频,利用词频数据库对该词频使用频率进行解析判断,词频使用频率越高,在句式中的语句通顺值也越大,因此将该词频放完整句式中解析出该句式的语句通顺值K,语句通顺值K的范围为[0,1];
步骤S45:字符综合计算模块根据计算出的字符相似度和语句通顺值进行字符语义综合度计算,计算公式为:
式中,Q为字符的语义综合度,S为字符的相似度,K为字符放入前后字符形成的完整句式中的语句通顺值,即当字符的相似度S临近或不变,语句通顺值K越大时,语义综合度Q也越大。
根据上述技术方案,所述步骤S5进一步包括以下步骤:
步骤S51:判断确认模块根据字符综合计算模块计算出的综合度,判断确认字符对应的基准模块中的标准字符。
与现有技术相比,本发明所达到的有益效果是:本发明,通过设置有预处理模块、计算解析模块和判断显示模块,可以在对用户识别的字符文本进行基础的预处理工作外,还同步建立相似的字符模板库,将预处理中得到的字符特征向量进行特征向量距离的计算判断,判断该字符在字符模板库中是属于精准识别还是模糊识别,将模糊识别的字符进行词频语义值计算,最后根据特征向量距离和与词频相关的字符通顺值综合计算字符的准确语义值,在原有字符识别的基础上,加入了模糊字符组合成词频,通过词频在词频数据库中的使用频率并带入前后字符组合成的完整句式得到其语句的通顺值,最后根据特征向量距离和语句通顺值进行综合的计算判断。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的系统模块组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于人工智能的语言和图像理解集成服务系统,包括预处理模块、计算解析模块和判断显示模块,预处理模块用于对扫描录入的字符内容进行解析预处理,计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离,判断显示模块用于判断确认字符综合计算的结果并显示,预处理模块与计算解析模块电连接,计算解析模块与判断显示模块电连接,将用户识别的字符文本进行预处理工作,且同步建立相似的字符模板库,再通过预处理中得到的字符特征向量计算其特征向量距离,最后根据特征向量距离和与词频相关的字符通顺值综合计算字符语义值。
预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块,扫描录入模块用于对待识别图片和文件上的字符进行扫描提取,字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作,建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板,其预处理工作为后续计算特征向量距离做准备,是一切计算识别的基础,建立模板库是通过将相似类的字符维度划分为一类模板并相邻建立,后期识别出模糊字符时根据特征向量和词频可以对相似的字符进行精确计算和判断。
计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块,特征向量距离模块用于计算划分出的单个字符的特征向量距离,分析判断模块用于判断字符是否属于需加入语义理解进行综合计算,语义解析模块用于结合前后字符的意思解析该字符的意思,字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符,特征向量距离模块与分析判断模块电连接,分析判断模块与字符综合计算模块电连接,将通过字符的特征向量距离能精确识别的字符直接输出,而存在模糊性的字符加入语义理解进行综合计算,其语义理解是将单字符与前后字符组合成词频,通过词频数据库分析其使用频率进而带入完整句式得到语句的通顺值,使用频率越高通顺值越大。
特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块,实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值,相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算,语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块,单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思,前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。
判断显示模块包括判断确认模块和字符呈现模块,判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符,字符呈现模块用于将正确的字符进行呈现显示,最后将通过特征向量距离精确识别的字符,模糊字符利用语义解析最后也精确识别出的字符进行呈现和显示。
语言和图像理解集成服务系统的运行方法主要包括以下步骤:
步骤S1:用户将待识别图片或文件放入识别位置点击识别功能,预处理模块对字符文字扫描录入进行行解析,图像区域划分和提取特征向量等预处理步骤,预处理步骤进一步包括有切分、二值化、平滑去噪、细化和归一化等,图像区域划分主要为后续提取字符的特征向量,并根据字符的特征向量计算与模板库中的字符特征向量间的距离;
步骤S2:同步建立相似字符模板模块在已有的基准字符模板中,根据预处理后字符的字形相似度调整字符模板中的字符位置,相似度较大的字符处于临近位置,建立字符形态特征多模板库,识别系统中已有大量的字符模板库,后续通过无监督学习将识别过程中识别到的相似字符进行位置的调整和划分,并以此建立相似的字符模板;
步骤S3:将预处理后的字符进行特征向量距离计算,根据计算出的距离与字符形态特征模板库中进行对比判断,判断字符准确性与模糊性,将计算出的距离进行对比判断,大部分字符都能精准识别匹配,但针对部分极度相似的字符会存在不确定性,即此时识别的字符具有一定的模糊性;
步骤S4:语义解析模块对存在模糊性的字符进行单字符语义解析和前后字符语义解析,字符综合计算模块根据相似度值和语义解析值对存在模糊性的字符进行综合计算;
步骤S5:判断综合计算结果对应的最终字符,并进行呈现显示。
步骤S2进一步包括以下步骤:
步骤S21:字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量,得到待识别字符的四维特征向量X=(x1,x2,x3,x4)T,字符的特征向量可以有多个维度可选,此选择了最基本的字符的横、竖、撇、捺四个方向的特征向量进行后续的向量距离计算;
步骤S22:根据设定已有的基准字符m类模板模式W1,W2,W3,Wm,建立以四维特征向量Yi=(yi1,yi2,yi3,yi4)表示的第i类模式Wi的基准模板。
步骤S3进一步包括以下步骤:
步骤S31:字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X=(x1,x2,x3,x4)T样本,利用聚类算法自动识别匹配到基准模板中的类模板Wi,其聚类算法自动将识别出字符文本进行划分,具体归属于文字类、数字类还是字母类等,并找到数据库中不同基类对应的字符模板;
步骤S32:当聚类算法自动识别出现不止一类可匹配的基准模板时,即除了最符合的第一类模板Wi,还有相似度较高的其它类模板Wm,其存在模糊性的字符大部分是相似基类的不确定性,另一部分则会出现跨基类的模糊性;
步骤S33:相似字符距离计算子模块利用四维特征向量计算公式,分别计算其与Wi类基准模板间的距离d(X,Yi)和相似度,和其它类模板Wm间的距离d(X,Ym)和相似度;
步骤S34:实际字符距离计算子模块根据四维特征向量计算公式,计算其与Wi类基准模板间的距离d(X,Yi),:
式中,x1,x2,x3,x4表示实际测量的字符的横、竖、撇、捺四个方向的特征向量,y1,y2,y3,y4表示Wi类基准模板中字符的标准横、竖、撇、捺四个方向的特征向量,两个特征向量的维度值相差越大,则距离也越大;
步骤S4进一步包括以下步骤:
步骤S41:聚类算法自动识别匹配到唯一一类基准模板时,分析判断模块判断该次识别为精准识别,不进行语义解析直接进行呈现显示;
步骤S42:聚类算法自动识别匹配到多类基准模板时,对计算出的相似度大小进行分析判断,当相似度相差较大时以相似度大的一类模板为精准识别不进行语义解析,当计算出的相似度大小相差较小时,判断此字符识别为模糊识别,在得到特征向量的距离后,根据距离匹配得到多类基准模板,为了进一步筛选计算其字符与模板中匹配的字符出相似度,多类模板中相似度均不同,则在已计算的特征向量距离上选择相似度高的一类,而相似度相近的进行进一步的字符计算;
步骤S43:语义解析模块对判断出的模糊识别的字符进行语义解析,将多类模板中的匹配字符分别进入标准字符语义数据库进行单字符语义解析;
步骤S44:将解析出的单字符与前后字符组合形成词频,利用词频数据库对该词频使用频率进行解析判断,词频使用频率越高,在句式中的语句通顺值也越大,因此将该词频放完整句式中解析出该句式的语句通顺值K,语句通顺值K的范围为[0,1],字符与字符组合成词频,数据库中存储有人们经常使用的正确词频,因此根据词频的使用率放入句子得到句子的通顺值,词频使用率越高的,通顺值也会越大;
步骤S45:字符综合计算模块根据计算出的字符相似度和语句通顺值进行字符语义综合度计算,计算公式为:
式中,Q为字符的语义综合度,S为字符的相似度,K为字符放入前后字符形成的完整句式中的语句通顺值,即当字符的相似度S临近或不变,语句通顺值K越大时,语义综合度Q也越大。
步骤S5进一步包括以下步骤:
步骤S51:判断确认模块根据字符综合计算模块计算出的综合度,判断确认字符对应的基准模块中的标准字符。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于人工智能的语言和图像理解集成服务系统,包括预处理模块、计算解析模块和判断显示模块,其特征在于:所述预处理模块用于对扫描录入的字符内容进行解析预处理,所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离,所述判断显示模块用于判断确认字符综合计算的结果并显示,所述预处理模块与计算解析模块电连接,所述计算解析模块与判断显示模块电连接。
2.根据权利要求1所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块,所述扫描录入模块用于对待识别图片和文件上的字符进行扫描提取,所述字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作,所述建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板。
3.根据权利要求1所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块,所述特征向量距离模块用于计算划分出的单个字符的特征向量距离,所述分析判断模块用于判断字符是否属于需加入语义理解进行综合计算,所述语义解析模块用于结合前后字符的意思解析该字符的意思,所述字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符,所述特征向量距离模块与分析判断模块电连接,所述分析判断模块与字符综合计算模块电连接。
4.根据权利要求3所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块,所述实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值,所述相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算,所述语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块,所述单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思,所述前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。
5.根据权利要求4所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述判断显示模块包括判断确认模块和字符呈现模块,所述判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符,所述字符呈现模块用于将正确的字符进行呈现显示。
6.根据权利要求5所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述语言和图像理解集成服务系统的运行方法主要包括以下步骤:
步骤S1:用户将待识别图片或文件放入识别位置点击识别功能,预处理模块对字符文字扫描录入进行行解析,图像区域划分和提取特征向量等预处理步骤;
步骤S2:同步建立相似字符模板模块在已有的基准字符模板中,根据预处理后字符的字形相似度调整字符模板中的字符位置,相似度较大的字符处于临近位置,建立字符形态特征多模板库;
步骤S3:将预处理后的字符进行特征向量距离计算,根据计算出的距离与字符形态特征模板库中进行对比判断,判断字符准确性与模糊性;
步骤S4:语义解析模块对存在模糊性的字符进行单字符语义解析和前后字符语义解析,字符综合计算模块根据相似度值和语义解析值对存在模糊性的字符进行综合计算;
步骤S5:判断综合计算结果对应的最终字符,并进行呈现显示。
7.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述步骤S2进一步包括以下步骤:
步骤S21:字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量,得到待识别字符的四维特征向量X=(x1,x2,x3,x4)T;
步骤S22:根据设定已有的基准字符m类模板模式W1,W2,W3,Wm,建立以四维特征向量Yi=(yi1,yi2,yi3,yi4)表示的第i类模式Wi的基准模板。
8.根据权利要求7所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述步骤S3进一步包括以下步骤:
步骤S31:字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X=(x1,x2,x3,x4)T样本,利用聚类算法自动识别匹配到基准模板中的类模板Wi,所述聚类算法为根据识别到的同一类别的字符特征向量与模板库中的该类字符模板作对比分析;
步骤S32:当聚类算法自动识别出现不止一类可匹配的基准模板时,即除了最符合的第一类模板Wi,还有相似度较高的其它类模板Wm;
步骤S33:相似字符距离计算子模块利用四维特征向量计算公式,分别计算其与Wi类基准模板间的距离d(X,Yi)和相似度,和其它类模板Wm间的距离d(X,Ym)和相似度;
步骤S34:实际字符距离计算子模块根据四维特征向量计算公式,计算其与Wi类基准模板间的距离d(X,Yi),:
式中,x1,x2,x3,x4表示实际测量的字符的横、竖、撇、捺四个方向的特征向量,y1,y2,y3,y4表示Wi类基准模板中字符的标准横、竖、撇、捺四个方向的特征向量,两个特征向量的维度值相差越大,则距离也越大;
9.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述步骤S4进一步包括以下步骤:
步骤S41:聚类算法自动识别匹配到唯一一类基准模板时,分析判断模块判断该次识别为精准识别,不进行语义解析直接进行呈现显示;
步骤S42:聚类算法自动识别匹配到多类基准模板时,对计算出的相似度大小进行分析判断,当相似度相差较大时以相似度大的一类模板为精准识别不进行语义解析,当计算出的相似度大小相差较小时,判断此字符识别为模糊识别;
步骤S43:语义解析模块对判断出的模糊识别的字符进行语义解析,将多类模板中的匹配字符分别进入标准字符语义数据库进行单字符语义解析;
步骤S44:将解析出的单字符与前后字符组合形成词频,利用词频数据库对该词频使用频率进行解析判断,词频使用频率越高,在句式中的语句通顺值也越大,因此将该词频放完整句式中解析出该句式的语句通顺值K,语句通顺值K的范围为[0,1];
步骤S45:字符综合计算模块根据计算出的字符相似度和语句通顺值进行字符语义综合度计算,计算公式为:
式中,Q为字符的语义综合度,S为字符的相似度,K为字符放入前后字符形成的完整句式中的语句通顺值,即当字符的相似度S临近或不变,语句通顺值K越大时,语义综合度Q也越大。
10.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统,其特征在于:所述步骤S5进一步包括以下步骤:
步骤S51:判断确认模块根据字符综合计算模块计算出的综合度,判断确认字符对应的基准模块中的标准字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210092447.0A CN114580429A (zh) | 2022-01-26 | 2022-01-26 | 一种基于人工智能的语言和图像理解集成服务系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210092447.0A CN114580429A (zh) | 2022-01-26 | 2022-01-26 | 一种基于人工智能的语言和图像理解集成服务系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114580429A true CN114580429A (zh) | 2022-06-03 |
Family
ID=81771989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210092447.0A Pending CN114580429A (zh) | 2022-01-26 | 2022-01-26 | 一种基于人工智能的语言和图像理解集成服务系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580429A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037184A (zh) * | 2023-10-10 | 2023-11-10 | 深圳牛图科技有限公司 | 一种基于云匹配的ocr模糊识别系统及方法 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697201A (zh) * | 2009-09-25 | 2010-04-21 | 华南理工大学 | 一种旋转方向无关的手写汉字识别方法 |
CN104809451A (zh) * | 2015-05-15 | 2015-07-29 | 河海大学常州校区 | 一种基于笔画曲率检测的笔迹鉴伪系统 |
CN107545391A (zh) * | 2017-09-07 | 2018-01-05 | 安徽共生物流科技有限公司 | 一种基于图像识别的物流单据智能分析与自动存储方法 |
CN108564064A (zh) * | 2018-04-28 | 2018-09-21 | 北京宙心科技有限公司 | 一种基于视觉高效ocr识别算法 |
CN108615058A (zh) * | 2018-05-10 | 2018-10-02 | 苏州大学 | 一种字符识别的方法、装置、设备及可读存储介质 |
CN109508712A (zh) * | 2018-11-14 | 2019-03-22 | 衡阳师范学院 | 一种基于图像的汉语文字识别方法 |
CN109800762A (zh) * | 2019-01-28 | 2019-05-24 | 安阳工学院 | 一种基于动态匹配因子的模糊车牌识别算法 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN110533020A (zh) * | 2018-05-25 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种文字信息的识别方法、装置及存储介质 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN111523532A (zh) * | 2020-04-14 | 2020-08-11 | 广东小天才科技有限公司 | 一种矫正ocr文字识别错误的方法及终端设备 |
CN111539414A (zh) * | 2020-04-26 | 2020-08-14 | 梁华智能科技(上海)有限公司 | 一种ocr图像字符识别和字符校正的方法及系统 |
CN111814485A (zh) * | 2020-07-09 | 2020-10-23 | 倪亚晖 | 一种基于海量标准文献数据的语义解析方法及装置 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 |
CN112487774A (zh) * | 2020-11-20 | 2021-03-12 | 深圳市鹰硕教育服务有限公司 | 书写表单电子化方法、装置及电子设备 |
CN112507806A (zh) * | 2020-11-19 | 2021-03-16 | 深圳市鹰硕教育服务有限公司 | 智慧课堂信息交互方法、装置及电子设备 |
CN112562669A (zh) * | 2020-12-01 | 2021-03-26 | 浙江方正印务有限公司 | 一种智能数字报自动摘要与语音交互聊新闻方法及系统 |
CN112613500A (zh) * | 2020-12-21 | 2021-04-06 | 安徽科迅教育装备集团有限公司 | 一种基于深度学习的校园动态阅卷系统 |
CN112836650A (zh) * | 2021-02-05 | 2021-05-25 | 广东电网有限责任公司广州供电局 | 一种质量检验报告扫描图像表格语义解析方法与系统 |
-
2022
- 2022-01-26 CN CN202210092447.0A patent/CN114580429A/zh active Pending
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697201A (zh) * | 2009-09-25 | 2010-04-21 | 华南理工大学 | 一种旋转方向无关的手写汉字识别方法 |
CN104809451A (zh) * | 2015-05-15 | 2015-07-29 | 河海大学常州校区 | 一种基于笔画曲率检测的笔迹鉴伪系统 |
CN107545391A (zh) * | 2017-09-07 | 2018-01-05 | 安徽共生物流科技有限公司 | 一种基于图像识别的物流单据智能分析与自动存储方法 |
CN108564064A (zh) * | 2018-04-28 | 2018-09-21 | 北京宙心科技有限公司 | 一种基于视觉高效ocr识别算法 |
CN108615058A (zh) * | 2018-05-10 | 2018-10-02 | 苏州大学 | 一种字符识别的方法、装置、设备及可读存储介质 |
CN110533020A (zh) * | 2018-05-25 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 一种文字信息的识别方法、装置及存储介质 |
CN109508712A (zh) * | 2018-11-14 | 2019-03-22 | 衡阳师范学院 | 一种基于图像的汉语文字识别方法 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN109840519A (zh) * | 2019-01-25 | 2019-06-04 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
CN109800762A (zh) * | 2019-01-28 | 2019-05-24 | 安阳工学院 | 一种基于动态匹配因子的模糊车牌识别算法 |
CN111523532A (zh) * | 2020-04-14 | 2020-08-11 | 广东小天才科技有限公司 | 一种矫正ocr文字识别错误的方法及终端设备 |
CN111539414A (zh) * | 2020-04-26 | 2020-08-14 | 梁华智能科技(上海)有限公司 | 一种ocr图像字符识别和字符校正的方法及系统 |
CN111814485A (zh) * | 2020-07-09 | 2020-10-23 | 倪亚晖 | 一种基于海量标准文献数据的语义解析方法及装置 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112507806A (zh) * | 2020-11-19 | 2021-03-16 | 深圳市鹰硕教育服务有限公司 | 智慧课堂信息交互方法、装置及电子设备 |
CN112487774A (zh) * | 2020-11-20 | 2021-03-12 | 深圳市鹰硕教育服务有限公司 | 书写表单电子化方法、装置及电子设备 |
CN112562669A (zh) * | 2020-12-01 | 2021-03-26 | 浙江方正印务有限公司 | 一种智能数字报自动摘要与语音交互聊新闻方法及系统 |
CN112434691A (zh) * | 2020-12-02 | 2021-03-02 | 上海三稻智能科技有限公司 | 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质 |
CN112613500A (zh) * | 2020-12-21 | 2021-04-06 | 安徽科迅教育装备集团有限公司 | 一种基于深度学习的校园动态阅卷系统 |
CN112836650A (zh) * | 2021-02-05 | 2021-05-25 | 广东电网有限责任公司广州供电局 | 一种质量检验报告扫描图像表格语义解析方法与系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037184A (zh) * | 2023-10-10 | 2023-11-10 | 深圳牛图科技有限公司 | 一种基于云匹配的ocr模糊识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2166488B1 (en) | Handwritten word spotter using synthesized typed queries | |
JP3292388B2 (ja) | 文書画像の復号なしに文書を要約するための方法と装置 | |
US9152883B2 (en) | System and method for increasing the accuracy of optical character recognition (OCR) | |
Zagoris et al. | A document image retrieval system | |
Park et al. | Automatic detection and recognition of Korean text in outdoor signboard images | |
US20080222095A1 (en) | Document management system | |
JPH08305803A (ja) | 文字テンプレートセット学習マシン動作方法 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
CN114937278A (zh) | 基于行文本框分词算法的文本内容提取识别方法 | |
CN109635808A (zh) | 一种在自然场景图像中对中文关键词及上下文的提取方法 | |
CN112560849A (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN111626292A (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN113989822B (zh) | 基于计算机视觉和自然语言处理的图片表格内容提取方法 | |
CN114580429A (zh) | 一种基于人工智能的语言和图像理解集成服务系统 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
Rahiman et al. | An efficient character recognition system for handwritten Malayalam characters based on intensity variations | |
Liang et al. | An optimization methodology for document structure extraction on latin character documents | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Behera et al. | Visual signature based identification of low-resolution document images | |
Li | An implementation of ocr system based on skeleton matching | |
Kumar et al. | A comparative Analysis of Feature Extraction Algorithms and Deep Learning Techniques for Detection from Natural Images | |
JPH08287188A (ja) | 文字列認識装置 | |
Kawtrakul et al. | Multifeature extraction for printed thai character recognition | |
Hewavitharana et al. | A statistical approach to sinhala handwriting recognition | |
Worch et al. | Glyph spotting for mediaeval handwritings by template matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220603 |