CN114580429A

CN114580429A - 一种基于人工智能的语言和图像理解集成服务系统

Info

Publication number: CN114580429A
Application number: CN202210092447.0A
Authority: CN
Inventors: 陈慧
Original assignee: Yunjie Computer Software Jiangsu Co ltd
Current assignee: Yunjie Computer Software Jiangsu Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-06-03

Abstract

本发明公开了一种基于人工智能的语言和图像理解集成服务系统，包括预处理模块、计算解析模块和判断显示模块，所述预处理模块用于对扫描录入的字符内容进行解析预处理，所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离，所述判断显示模块用于判断确认字符综合计算的结果并显示，所述预处理模块与计算解析模块电连接，所述计算解析模块与判断显示模块电连接，首先将用户识别的字符文本进行预处理工作，同步建立相似的字符模板库，再通过预处理中得到的字符特征向量计算其特征向量距离，最后根据特征向量距离和与词频相关的字符通顺值综合计算字符语义值，本发明，具有识别精准和实用性强的特点。

Description

一种基于人工智能的语言和图像理解集成服务系统

技术领域

本发明涉及文字图像识别技术领域，具体为一种基于人工智能的语言和图像理解集成服务系统。

背景技术

随着电子化办公的普及，图片文字识别软件的运用也得到了推广，很多的单位和个人都将其当作必备的软件，其可以快速的将大量的图片文字识别成可编辑的文本文字，方便文字的处理。

图片文字识别过程中识别的准确度一直是人们关心的重点，而目前文字识别技术在一些应用场景的识别准确性相对较低，主要体现在单位有一定规范图例的多文本和长文本的识别应用上，在识别时往往会会出现一些较小的但处理起来较麻烦的差错，例如原本应识别得到的一段文字被识别为两段甚至多段拆分开来的文字，或将其中的方框图例识别为形似字，把汉字“一”识别成一个横杠或者反过来识别，再者把连写的数字13识别为大写英文字母“B”等，这些问题的出现就使得识别出来后的文本仍需花费大量时间和精力去核对修改，甚至在一些场景下识别出来后会直接打印使用，而其中的错误信息就会导致后期使用的过程出现差错和误解，因此，设计实用性强和准确性高的一种基于人工智能的语言和图像理解集成服务系统是很有必要的。

发明内容

本发明的目的在于提供一种基于人工智能的语言和图像理解集成服务系统，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于人工智能的语言和图像理解集成服务系统，包括预处理模块、计算解析模块和判断显示模块，其特征在于：所述预处理模块用于对扫描录入的字符内容进行解析预处理，所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离，所述判断显示模块用于判断确认字符综合计算的结果并显示，所述预处理模块与计算解析模块电连接，所述计算解析模块与判断显示模块电连接。

根据上述技术方案，所述预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块，所述扫描录入模块用于对待识别图片和文件上的字符进行扫描提取，所述字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作，所述建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板。

根据上述技术方案，所述计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块，所述特征向量距离模块用于计算划分出的单个字符的特征向量距离，所述分析判断模块用于判断字符是否属于需加入语义理解进行综合计算，所述语义解析模块用于结合前后字符的意思解析该字符的意思，所述字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符，所述特征向量距离模块与分析判断模块电连接，所述分析判断模块与字符综合计算模块电连接。

根据上述技术方案，所述特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块，所述实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值，所述相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算，所述语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块，所述单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思，所述前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。

根据上述技术方案，所述判断显示模块包括判断确认模块和字符呈现模块，所述判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符，所述字符呈现模块用于将正确的字符进行呈现显示。

根据上述技术方案，所述语言和图像理解集成服务系统的运行方法主要包括以下步骤：

步骤S1：用户将待识别图片或文件放入识别位置点击识别功能，预处理模块对字符文字扫描录入进行行解析，图像区域划分和提取特征向量等预处理步骤；

步骤S2：同步建立相似字符模板模块在已有的基准字符模板中，根据预处理后字符的字形相似度调整字符模板中的字符位置，相似度较大的字符处于临近位置，建立字符形态特征多模板库；

步骤S3：将预处理后的字符进行特征向量距离计算，根据计算出的距离与字符形态特征模板库中进行对比判断，判断字符准确性与模糊性；

步骤S4：语义解析模块对存在模糊性的字符进行单字符语义解析和前后字符语义解析，字符综合计算模块根据相似度值和语义解析值对存在模糊性的字符进行综合计算；

步骤S5：判断综合计算结果对应的最终字符，并进行呈现显示。

根据上述技术方案，所述步骤S2进一步包括以下步骤：

步骤S21：字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量，得到待识别字符的四维特征向量X＝(x₁,x₂,x₃,x₄)^T；

步骤S22：根据设定已有的基准字符m类模板模式W₁，W₂，W₃，W_m，建立以四维特征向量Y_i＝(y_i1,y_i2,y_i3,y_i4)表示的第i类模式W_i的基准模板。

根据上述技术方案，所述步骤S3进一步包括以下步骤：

步骤S31：字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X＝(x₁,x₂,x₃,x₄)^T样本，利用聚类算法自动识别匹配到基准模板中的类模板W_i，所述聚类算法为根据识别到的同一类别的字符特征向量与模板库中的该类字符模板作对比分析；

步骤S32：当聚类算法自动识别出现不止一类可匹配的基准模板时，即除了最符合的第一类模板W_i，还有相似度较高的其它类模板W_m；

步骤S33：相似字符距离计算子模块利用四维特征向量计算公式，分别计算其与W_i类基准模板间的距离d(X,Y_i)和相似度，和其它类模板W_m间的距离d(X,Y_m)和相似度；

步骤S34：实际字符距离计算子模块根据四维特征向量计算公式，计算其与W_i类基准模板间的距离d(X,Y_i)，：

式中，x₁,x₂,x₃,x₄表示实际测量的字符的横、竖、撇、捺四个方向的特征向量，y₁,y₂,y₃,y₄表示W_i类基准模板中字符的标准横、竖、撇、捺四个方向的特征向量，两个特征向量的维度值相差越大，则距离也越大；

步骤S35：通过计算出的特征向量的距离转换，计算该字符与标准字符的相似度

相似度S(X,Y_i)的范围为[0,1]，当距离越近时相似度就越大。

根据上述技术方案，所述步骤S4进一步包括以下步骤：

步骤S41：聚类算法自动识别匹配到唯一一类基准模板时，分析判断模块判断该次识别为精准识别，不进行语义解析直接进行呈现显示；

步骤S42：聚类算法自动识别匹配到多类基准模板时，对计算出的相似度大小进行分析判断，当相似度相差较大时以相似度大的一类模板为精准识别不进行语义解析，当计算出的相似度大小相差较小时，判断此字符识别为模糊识别；

步骤S43：语义解析模块对判断出的模糊识别的字符进行语义解析，将多类模板中的匹配字符分别进入标准字符语义数据库进行单字符语义解析；

步骤S44：将解析出的单字符与前后字符组合形成词频，利用词频数据库对该词频使用频率进行解析判断，词频使用频率越高，在句式中的语句通顺值也越大，因此将该词频放完整句式中解析出该句式的语句通顺值K，语句通顺值K的范围为[0,1]；

步骤S45：字符综合计算模块根据计算出的字符相似度和语句通顺值进行字符语义综合度计算，计算公式为：

式中，Q为字符的语义综合度，S为字符的相似度，K为字符放入前后字符形成的完整句式中的语句通顺值，即当字符的相似度S临近或不变，语句通顺值K越大时，语义综合度Q也越大。

根据上述技术方案，所述步骤S5进一步包括以下步骤：

步骤S51：判断确认模块根据字符综合计算模块计算出的综合度，判断确认字符对应的基准模块中的标准字符。

与现有技术相比，本发明所达到的有益效果是：本发明，通过设置有预处理模块、计算解析模块和判断显示模块，可以在对用户识别的字符文本进行基础的预处理工作外，还同步建立相似的字符模板库，将预处理中得到的字符特征向量进行特征向量距离的计算判断，判断该字符在字符模板库中是属于精准识别还是模糊识别，将模糊识别的字符进行词频语义值计算，最后根据特征向量距离和与词频相关的字符通顺值综合计算字符的准确语义值，在原有字符识别的基础上，加入了模糊字符组合成词频，通过词频在词频数据库中的使用频率并带入前后字符组合成的完整句式得到其语句的通顺值，最后根据特征向量距离和语句通顺值进行综合的计算判断。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的系统模块组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：一种基于人工智能的语言和图像理解集成服务系统，包括预处理模块、计算解析模块和判断显示模块，预处理模块用于对扫描录入的字符内容进行解析预处理，计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离，判断显示模块用于判断确认字符综合计算的结果并显示，预处理模块与计算解析模块电连接，计算解析模块与判断显示模块电连接，将用户识别的字符文本进行预处理工作，且同步建立相似的字符模板库，再通过预处理中得到的字符特征向量计算其特征向量距离，最后根据特征向量距离和与词频相关的字符通顺值综合计算字符语义值。

预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块，扫描录入模块用于对待识别图片和文件上的字符进行扫描提取，字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作，建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板，其预处理工作为后续计算特征向量距离做准备，是一切计算识别的基础，建立模板库是通过将相似类的字符维度划分为一类模板并相邻建立，后期识别出模糊字符时根据特征向量和词频可以对相似的字符进行精确计算和判断。

计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块，特征向量距离模块用于计算划分出的单个字符的特征向量距离，分析判断模块用于判断字符是否属于需加入语义理解进行综合计算，语义解析模块用于结合前后字符的意思解析该字符的意思，字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符，特征向量距离模块与分析判断模块电连接，分析判断模块与字符综合计算模块电连接，将通过字符的特征向量距离能精确识别的字符直接输出，而存在模糊性的字符加入语义理解进行综合计算，其语义理解是将单字符与前后字符组合成词频，通过词频数据库分析其使用频率进而带入完整句式得到语句的通顺值，使用频率越高通顺值越大。

特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块，实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值，相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算，语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块，单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思，前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。

判断显示模块包括判断确认模块和字符呈现模块，判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符，字符呈现模块用于将正确的字符进行呈现显示，最后将通过特征向量距离精确识别的字符，模糊字符利用语义解析最后也精确识别出的字符进行呈现和显示。

语言和图像理解集成服务系统的运行方法主要包括以下步骤：

步骤S1：用户将待识别图片或文件放入识别位置点击识别功能，预处理模块对字符文字扫描录入进行行解析，图像区域划分和提取特征向量等预处理步骤，预处理步骤进一步包括有切分、二值化、平滑去噪、细化和归一化等，图像区域划分主要为后续提取字符的特征向量，并根据字符的特征向量计算与模板库中的字符特征向量间的距离；

步骤S2：同步建立相似字符模板模块在已有的基准字符模板中，根据预处理后字符的字形相似度调整字符模板中的字符位置，相似度较大的字符处于临近位置，建立字符形态特征多模板库，识别系统中已有大量的字符模板库，后续通过无监督学习将识别过程中识别到的相似字符进行位置的调整和划分，并以此建立相似的字符模板；

步骤S3：将预处理后的字符进行特征向量距离计算，根据计算出的距离与字符形态特征模板库中进行对比判断，判断字符准确性与模糊性，将计算出的距离进行对比判断，大部分字符都能精准识别匹配，但针对部分极度相似的字符会存在不确定性，即此时识别的字符具有一定的模糊性；

步骤S2进一步包括以下步骤：

步骤S21：字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量，得到待识别字符的四维特征向量X＝(x₁,x₂,x₃,x₄)^T，字符的特征向量可以有多个维度可选，此选择了最基本的字符的横、竖、撇、捺四个方向的特征向量进行后续的向量距离计算；

步骤S3进一步包括以下步骤：

步骤S31：字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X＝(x₁,x₂,x₃,x₄)^T样本，利用聚类算法自动识别匹配到基准模板中的类模板W_i，其聚类算法自动将识别出字符文本进行划分，具体归属于文字类、数字类还是字母类等，并找到数据库中不同基类对应的字符模板；

步骤S32：当聚类算法自动识别出现不止一类可匹配的基准模板时，即除了最符合的第一类模板W_i，还有相似度较高的其它类模板W_m，其存在模糊性的字符大部分是相似基类的不确定性，另一部分则会出现跨基类的模糊性；

相似度S(X,Y_i)的范围为[0,1]，当距离越近时相似度就越大。

步骤S4进一步包括以下步骤：

步骤S42：聚类算法自动识别匹配到多类基准模板时，对计算出的相似度大小进行分析判断，当相似度相差较大时以相似度大的一类模板为精准识别不进行语义解析，当计算出的相似度大小相差较小时，判断此字符识别为模糊识别，在得到特征向量的距离后，根据距离匹配得到多类基准模板，为了进一步筛选计算其字符与模板中匹配的字符出相似度，多类模板中相似度均不同，则在已计算的特征向量距离上选择相似度高的一类，而相似度相近的进行进一步的字符计算；

步骤S44：将解析出的单字符与前后字符组合形成词频，利用词频数据库对该词频使用频率进行解析判断，词频使用频率越高，在句式中的语句通顺值也越大，因此将该词频放完整句式中解析出该句式的语句通顺值K，语句通顺值K的范围为[0,1]，字符与字符组合成词频，数据库中存储有人们经常使用的正确词频，因此根据词频的使用率放入句子得到句子的通顺值，词频使用率越高的，通顺值也会越大；

步骤S5进一步包括以下步骤：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的语言和图像理解集成服务系统，包括预处理模块、计算解析模块和判断显示模块，其特征在于：所述预处理模块用于对扫描录入的字符内容进行解析预处理，所述计算解析模块用于识别扫描字符的语义信息和计算其特征向量的实际距离，所述判断显示模块用于判断确认字符综合计算的结果并显示，所述预处理模块与计算解析模块电连接，所述计算解析模块与判断显示模块电连接。

2.根据权利要求1所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述预处理模块包括扫描录入模块、字符图像预处理模块和建立相似字符模板模块，所述扫描录入模块用于对待识别图片和文件上的字符进行扫描提取，所述字符图像预处理模块用于对扫描记录的字符文本图像进行切分、二值化、平滑去噪、细化和归一化等预处理工作，所述建立相似字符模板模块用于建立相似文字、符号、数字和字母等多文本维度的样例模板。

3.根据权利要求1所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述计算解析模块包括特征向量距离模块、语义解析模块和字符综合计算模块，所述特征向量距离模块用于计算划分出的单个字符的特征向量距离，所述分析判断模块用于判断字符是否属于需加入语义理解进行综合计算，所述语义解析模块用于结合前后字符的意思解析该字符的意思，所述字符综合计算模块用于根据语义和向量距离进行综合计算确认该字符，所述特征向量距离模块与分析判断模块电连接，所述分析判断模块与字符综合计算模块电连接。

4.根据权利要求3所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述特征向量距离模块包括实际字符距离计算子模块和相似字符距离计算子模块，所述实际字符距离计算子模块用于计算当前字符的特征向量与模板数据库中该字符的标准距离值，所述相似字符距离计算子模块用于计算该字符与模板数据库中的相似字符进行距离匹配计算，所述语义解析模块包括单字符语义解析子模块和前后字符语义解析子模块，所述单字符语义解析子模块用于解析当前识别字符对应数据库模板中该字符的解析意思，所述前后字符语义解析子模块用于解析当前字符前后相邻字符在数据库中的语义信息。

5.根据权利要求4所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述判断显示模块包括判断确认模块和字符呈现模块，所述判断确认模块用于根据计算的综合字符信息确认当前字符对应数据库中的准确字符，所述字符呈现模块用于将正确的字符进行呈现显示。

6.根据权利要求5所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述语言和图像理解集成服务系统的运行方法主要包括以下步骤：

7.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述步骤S2进一步包括以下步骤：

步骤S21：字符图像预处理模块应用骨架提取技术提取每个待识别字符横、竖、撇、捺四个方向的特征向量，得到待识别字符的四维特征向量X＝(x₁，x₂，x₃，x₄)^T；

步骤S22：根据设定已有的基准字符m类模板模式W₁，W₂，W₃，W_m，建立以四维特征向量Y_i＝(y_i1，y_i2，y_i3，y_i4)表示的第i类模式W_i的基准模板。

8.根据权利要求7所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述步骤S3进一步包括以下步骤：

步骤S31：字符图像预处理模块中提取得出的N个待识别字符的四维特征向量X＝(x₁，x₂，x₃，x₄)^T样本，利用聚类算法自动识别匹配到基准模板中的类模板W_i，所述聚类算法为根据识别到的同一类别的字符特征向量与模板库中的该类字符模板作对比分析；

步骤S33：相似字符距离计算子模块利用四维特征向量计算公式，分别计算其与W_i类基准模板间的距离d(X，Y_i)和相似度，和其它类模板W_m间的距离d(X，Y_m)和相似度；

步骤S34：实际字符距离计算子模块根据四维特征向量计算公式，计算其与W_i类基准模板间的距离d(X，Y_i)，：

式中，x₁，x₂，x₃，x₄表示实际测量的字符的横、竖、撇、捺四个方向的特征向量，y₁，y₂，y₃，y₄表示W_i类基准模板中字符的标准横、竖、撇、捺四个方向的特征向量，两个特征向量的维度值相差越大，则距离也越大；

相似度S(X，Y_i)的范围为[0，1]，当距离越近时相似度就越大。

9.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述步骤S4进一步包括以下步骤：

步骤S44：将解析出的单字符与前后字符组合形成词频，利用词频数据库对该词频使用频率进行解析判断，词频使用频率越高，在句式中的语句通顺值也越大，因此将该词频放完整句式中解析出该句式的语句通顺值K，语句通顺值K的范围为[0，1]；

10.根据权利要求6所述的一种基于人工智能的语言和图像理解集成服务系统，其特征在于：所述步骤S5进一步包括以下步骤：