CN112001380B

CN112001380B - 基于人工智能现实场景下的中文意义词组的识别方法和系统

Info

Publication number: CN112001380B
Application number: CN202010668276.2A
Authority: CN
Inventors: 高旻昱; 迟崇明; 李润发
Original assignee: Shanghai Lingteng Intelligent Technology Co ltd
Current assignee: Shanghai Lingteng Intelligent Technology Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2024-03-26
Anticipated expiration: 2040-07-13
Also published as: CN112001380A

Abstract

本发明提供了一种基于人工智能现实场景下的中文意义词组的识别方法和系统，识别方法包括：S1：获取采集的真实场景下的实时交互图像；S2：将实时交互图像与预先设定的信息载体和交互载体进行匹配，输出信息载体和交互载体；S3：根据信息载体和交互载体，识别交互载体在信息载体中的位置信息和触发动作信息，后识别交互载体进行触发动作的所在信息载体上的中心焦点及其两边的中文文字信息；S4：根据中文文字信息，利用字典对中文文字信息组成的中文文字序列进行检索，获取文字组合；后利用词典对文字组合进行检索，获取文字组合的中文意义后输出。本发明提高了文字识别以及中文意义词组识别的速度，且实现自动识别中文意义词组的功能。

Description

基于人工智能现实场景下的中文意义词组的识别方法和系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能现实场景下的中文意义词组的识别方法和系统。

背景技术

人工智能(Artificial Intelligence，简称AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

中文词组学习是中文学习中的重要环节，现有的工具(包括纸质字典、电子辞典、手机查词app)都需要人为手动输入汉字进行词组学习，效率较低。

深度学习和大数据的发展大大提升了人工智能方法在图像识别、手势识别和文字识别的性能。通过人工智能的方法将手势识别和文字识别等技术应用到文本识别和中文语言学习，能够很大程度提高人们的学习和阅读效率。

现有技术中实现手指触发动作文字识别是通过采集装置获得图像，再对图像进行分割获得特征点再做比对，整个识别的效率非常低，费时长。

发明内容

本申请提供一种本发明的目的在于提供一种基于人工智能现实场景下的中文意义词组的识别方法和系统，以解决现有技术中手指交互文字识别速度慢、无法达到自动识别中文意义词组的技术问题。

根据第一方面，一种实施例中提供一种基于人工智能现实场景下的中文意义词组的识别方法，所述识别方法包括：

S1：获取采集的真实场景下包括信息载体和交互载体在内的实时交互图像；

S2：将所述实时交互图像与预先设定的信息载体和交互载体，通过以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型进行匹配识别，输出所述信息载体和所述交互载体；

S3：根据所述信息载体和所述交互载体，利用手指定位人工智能算法，识别出所述交互载体在所述信息载体中的位置信息和触发动作信息，后通过数学逻辑综合各部分信息计算识别出所述交互载体进行触发动作的所在所述信息载体上的中心焦点，以及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文图像信息，并使用深度学习文本识别OCR技术获取中文文字信息；

S4：根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行匹配检索，获取文字组合；后利用词典对文字组合进行匹配检索，获取文字组合的中文意义后输出。

在一种实施例中，所述步骤S3进一步包括：

S31：接收所述实时交互图像中的所述信息载体和所述交互载体，通过使用以Densenet结构网络的卷积神经网络为核心的图像深度学习AI模型，或者使用基于Resnet或vgg或darknet结构的图像识别主干网络，以基于高斯分布密度衰减函数的位置信息损失函数为迭代指标，识别所述交互载体在所述信息载体中的的位置信息和触发动作信息；

S32：对所述交互载体的触发动作区域进行图像切割，获取以所述触发动作区域为中心焦点区域的单一干净文字图像；

其中，所述单一干净文字图像为所述交互图像中仅包含中文文字本身以及其所必要覆盖的背景区域，不包括任何远离中文文字的背景或其他图像信息；

S33：对所述单一干净文字图像的中心焦点区域进行标记处理分析，得出中心焦点文字在水平方向的角度信息，并根据角度信息对所述单一干净文字图像进行旋转调整，以获取水平的所述单一干净文字图像；

S34：在经过对所述单一干净文字图像的中心焦点区域标记处理及旋转后，同时向所述中心焦点区域的左边和右边获取一组潜在文字区域图像；

S35：对所述潜在文字区域图像进行区域切割分析，获得普通焦点区域的新单一干净文字图像；

S36：对新单一干净文字图像信息进行判别分析，判断出所述新单一干净文字图像包含有中文图像信息或者非中文图像信息，若包含中文图像信息则识别该中文图像信息，并进入步骤S37，否则对非中文图像信息进行标记；

S37：对包含有中文文字信息的普通焦点区域，在其远离中心焦点区域的方向，向左或向右获取一组新的潜在文字区域图像，并重复S35-S36步骤，直到某一步的普通焦点区域没有中文文字信息或者达到最大迭代步数后停止，返回识别出文字信息。

在一种实施例中，重复S34-S37步骤，获取中心焦点区域左右两边多个文字信息，其中，文字数量取决于左右两边最大迭代次数。

在一种实施例中，所述步骤S32中：利用中文文字切割人工智能算法，获取所述交互载体所指向的中文图像信息，得到所述交互载体的触发动作区域的中心焦点区域的单一干净文字图像。

在一种实施例中，所述步骤S36中：对包含有中文图像信息的普通焦点区域的单一干净文字图像，利用文字图像识别人工智能算法，获得单一干净文字图像中的中文图像信息。

在一种实施例中，所述步骤S1之前还包括：采集并预存真实场景下的信息载体，以便进行匹配。

在一种实施例中，所述步骤S1之前还包括：采集并预存真实场景下的交互载体，以便进行匹配。

根据第二方面，一种实施例中提供一种基于人工智能现实场景下的中文意义词组的识别系统，采用上述实施例所述的基于人工智能现实场景下的中文意义词组的识别方法，其包括：获取模块、匹配模块、识别模块以及检索模块；

所述获取模块用于获取采集的真实场景下包括信息载体和交互载体的实时交互图像；

所述匹配模块用于将所述实时交互图像与预先设定的信息载体和交互载体，通过以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型进行匹配识别，输出所述信息载体和所述交互载体；

所述识别模块用于根据所述实时交互图像中的所述信息载体和所述交互载体，利用手指定位人工智能算法，识别出所述交互载体在所述信息载体中的位置信息和触发动作信息，后通过数学逻辑综合信息计算识别出所述交互载体进行触发动作的所在所述信息载体上的中心焦点，以及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文图像信息，并使用深度学习文本识别OCR技术获取中文文字信息；

所述检索模块用于根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行匹配检索，获取文字组合；后利用词典对文字组合进行匹配检索，获取文字组合的中文意义后输出。

根据第三方面，一种实施例中提供一种终端设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述实施例所述的基于人工智能现实场景下的中文意义词组的识别方法。

根据第四方面，一种实施例中提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述实施例所述的基于人工智能现实场景下的中文意义词组的识别方法

依据上述实施例的一种基于人工智能现实场景下的中文意义词组的识别方法和系统，本发明至少包括以下一种有益效果：

（1）由于采集到的是真实场景下包括信息载体和交互载体在内的实时交互图像，本实施例利用手指定位人工智能算法，识别出位置信息以及触发动作信息，即为获得手指位置分布信息。

（2）整个识别过程中，输入高清晰图像(比如4000*3000像素的分辨率的图像)，申请人在速度与分辨率之间设置其平衡的寻找手指的预设低像素分辨率值(比如160*160)的图像，这种处理可以快速地找到手指对应的图像，确认手指的位置信息。连续帧的手指对应的位置信息，即可以判定手指是否是处于点击状态。也就是本过程中确定预设低像素分辨率值的寻找手指的图像，通过手指定位神经网络的计算，快速输出点击状态的手指的位置信息。另外，先快速找到点击状态下手指位置信息，再对该手指位置截取预设的图像区域，然后输出旋转角度得到旋转后的图像，随后根据旋转后的图像得到手指指向文本框，最后截取文本框进行识别出文本。本申请中图像处理的数量最小且最有效，大大提升了整个识别的速度。即，从高清晰度的图像中以相对较优的低分辨率快速找到手指所在位置，再对高清晰度的图像中该手指所在位置的进行高分辨率的图像区域截出，截出的图像进行文本框检测，检测后进行文本识别，识别的效率非常高。

（3）由于将所述实时交互图像与预先设定的信息载体和交互载体进行匹配，输出所述信息载体和所述交互载体，本实施例中根据预设定信息载体、交互载体，输出实时交互图像中的信息载体以及交互载体，提高了识别信息载体以及交互载体的速度。

（4）由于根据所述实时交互图像中的所述信息载体和所述交互载体，利用手指定位人工智能算法，识别出所述交互载体在所述信息载体中的位置信息和触发动作信息，提高了识别速度以及精度；根据识别出的所述交互载体在所述信息载体中的位置信息和触发动作信息，识别出所述交互载体进行触发动作的所在所述信息载体上的中心焦点及其两边的中文文字信息，以便于获取中文文字组合，从而提高识别速率。

（5）由于接收识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行检索，获取文字组合；后利用词典对文字组合进行检索，获取文字组合的中文意义后输出。本实施例利用字典对中文文字序列进行检索，获取文字组合，并根据文字组合，后通过词典检索文字组合，获取中文意义，使得加快了点读文字识别的速度，并且可以自动识别出中文词组的意义。

附图说明

图1为本实施例一种基于人工智能现实场景下的中文意义词组的识别方法流程图；

图2为本实施例的一种词组识别方法流程图；

图3为本实施例一种基于人工智能现实场景下的中文意义词组的识别系统的结构框图；

图4为本实施例一种基于人工智能现实场景下的中文意义词组的识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明实施例中，提供了一种基于人工智能现实场景下的中文意义词组的识别方法，包括识别出交互载体在信息载体中的位置信息和触发动作信息，后识别出交互载体进行点按的所在信息载体上的中心焦点及其两边的中文文字信息；通过在字典中对中文文字序列进行检索，获取文字组合；后通过在词典中对文字组合进行检索，获取文字组合的中文意义。

实施例

参考附图1，本实施例提供了一种基于人工智能现实场景下的中文意义词组的识别方法，该识别方法包括以下步骤。

步骤S1：获取采集的真实场景下包括信息载体和交互载体在内的实时交互图像。

步骤S1之前还包括：采集并预存真实场景下的信息载体，以便进行匹配。以及在步骤S1之前还包括：采集并预存真实场景下的交互载体，以便进行匹配。

进一步地，通常使用摄像元件获取真实场景下的信息载体，信息载体可以为书本或者纸张等等的文字介质。通常使用摄像元件获取真实场景下的交互载体，可以为手指或者笔等功能交互载体。当然，摄像元件可以为摄像头电子元件，用以采集交互图像或视频。进一步地，利用摄像元件(比如摄像设备)采集高清晰图像，将所述图像连续输入预先训练的手指定位神经网络，输出获得手指位置分布信息。

步骤S2：将实时交互图像与预先设定的信息载体和交互载体，通过以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型进行匹配识别，输出信息载体和交互载体。

本步骤S2中的以卷积神经网络为核心的图像深度学习AI模型采用FPN结构网络。FPN结构网络结构较为简单，可直接描述为：特征提取，上采样，特征融合，多尺度特征输出。当然不局限于FPN结构网络。

进一步地，本步骤S2可以理解为，根据预先设定的各种信息载体和交互载体，利用以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型与实时交互图像中的信息载体和交互载体进行比较分析，当匹配为预先设定的信息载体时，输出实时交互图像中的信息载体；当匹配为预先设定的交互载体时，输出实时交互图像中的交互载体。同时进行信息载体和交互载体匹配时，可以同步进行。

步骤S3：根据信息载体和交互载体，利用手指定位人工智能算法，识别出交互载体在信息载体中的位置信息和触发动作信息，后通过数学逻辑综合信息计算出识别出交互载体进行触发动作的所在信息载体上的中心焦点，及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文文字信息，并利用深度学习文本识别OCR技术获取中文文字信息。其中，触发动作信息可以为手指点按动作，当人还可以为笔或其他工具点按。

本步骤S2中，手指定位人工智能算法包括：以卷积神经网络为核心的图像深度学习AI模型，或者基于常规图像识别主干网络，结合基于高斯分布密度衰减函数的位置信息损失函数为迭代指标，识别交互载体在信息载体中的信息位置和触发动作信息。

本实施例中的以卷积神经网络为核心的图像深度学习AI模型可以采用基于Densenet的简单深度神经网络模型；基于Densenet的简单深度神经网络模型中Densenet算法与ResNet算法一致，建立前面所有层与后面层的密集连接（dense connection），但是，DenseNet算法是通过特征在channel上的连接来实现特征重用（feature reuse），并且DenseNet在参数和计算成本更少的情形下实现比ResNet更优的性能。

基于Resnet或vgg或darknet结构的图像识别主干网络中，进一步包括，Resnet网络可以极快的加速神经网络的训练，并提升模型的准确率。同时ResNet的推广性非常好，甚至可以直接用到InceptionNet网络中。ResNet在网络中增加了直连通道，即HighwayNetwork的思想。ResNet在一定程度上解决传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，还解决了梯度消失或者梯度爆炸，由于很深的网络无法训练的问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。vgg网络,VGGNet全部使用3*3的卷积核和2*2的池化核，通过不断加深网络结构来提升性能。网络层数的增长并不会带来参数量上的爆炸，因为参数量主要集中在最后三个全连接层中。同时，两个3*3卷积层的串联相当于1个5*5的卷积层，3个3*3的卷积层串联相当于1个7*7的卷积层，即3个3*3卷积层的感受野大小相当于1个7*7的卷积层。但是3个3*3的卷积层参数量只有7*7的一半左右，同时前者可以有3个非线性操作，而后者只有1个非线性操作，这样使得前者对于特征的学习能力更强。使用1*1的卷积层来增加线性变换，输出的通道数量上并没有发生改变。这里提一下1*1卷积层的其他用法，1*1的卷积层常被用来提炼特征，即多通道的特征组合在一起，凝练成较大通道或者较小通道的输出，而每张图片的大小不变。有时1*1的卷积神经网络还可以用来替代全连接层。VGGNet在训练的时候先训级别A的简单网络，再复用A网络的权重来初始化后面的几个复杂模型，这样收敛速度更快。VGGNet作者总结出LRN层作用不大，越深的网络效果越好，1*1的卷积也是很有效的，但是没有3*3的卷积效果好，因为3*3的网络可以学习到更大的空间特征。Darknet网络易于安装：在makefile里面选择自己需要的附加项（cuda，cudnn，opencv等）直接make即可，几分钟完成安装；没有任何依赖项：整个框架都用C语言进行编写，可以不依赖任何库，连opencv作者都编写了可以对其进行替代的函数；结构明晰，源代码查看、修改方便：其框架的基础文件都在src文件夹，而定义的一些检测、分类函数则在example文件夹，可根据需要直接对源代码进行查看和修改；友好python接口：虽然darknet使用c语言进行编写，但是也提供了python的接口，通过python函数，能够使用python直接对训练好的.weight格式的模型进行调用；易于移植：该框架部署到机器本地十分简单，且可以根据机器情况，使用cpu和gpu，特别是检测识别任务的本地端部署，darknet会显得异常方便。

识别中心焦点两边的中文图像信息，采用以卷积神经网络为核心的图像目标识别深度学习AI模型，例如ssd，centernet等目标识别专用模型；深度学习文本识别OCR技术可以采用的CRNN，CNN+Transformer技术。

在一种实施例中，交互载体为手指，触发动作信息为手指点按动作。进一步地，

步骤S4：根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行匹配检索，获取文字组合；后利用词典对文字组合进行匹配检索，获取文字组合的中文意义后输出。

此外还可以有步骤S5，显示实时交互图像中识别出的文字组合及其中文意义词组。当然，可以采用显示屏之类的显示设备进行显示。

本实施例中实现了基于人工智能技术，通过摄像电子元件，在现实场景下实现利用包括手指在内的触发动作交互方式而完成系统化、全自动的中文识别，以及交互相关区域的中文意义词组的完整的识别方法。

实施例

参考附图1-2，本实施例提供了一种基于人工智能现实场景下的中文意义词组的识别方法，该方法可以包括以下步骤。

步骤S2：将实时交互图像与预先设定的信息载体和交互载体，通过以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型进行匹配识别，输出信息载体和交互载体。例如，信息载体为纸张，交互载体为手指。

步骤S3：根据信息载体和交互载体，利用手指定位人工智能算法，识别出交互载体在信息载体中的位置信息和触发动作信息，后通过数学逻辑综合各部分信息计算识别出交互载体进行触发动作的所在信息载体上的中心焦点，以及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文文字信息，并使用深度学习文本识别OCR技术获取中文文字信息。

其中，步骤S3进一步可以包括以下步骤。

步骤S31：接收实时交互图像中的信息载体和交互载体，通过使用以Densenet结构网络的卷积神经网络为核心的图像深度学习AI模型，或者使用基于Resnet或vgg或darknet结构的图像识别主干网络，以基于高斯分布密度衰减函数的位置信息损失函数为迭代指标，识别交互载体在信息载体中的的位置信息和触发动作信息。进一步地，可以为通过手指定位人工智能算法获得手指的位置信息以及手指的触发动作信息。

步骤S32：对交互载体的触发动作区域进行图像切割，获取以触发动作区域为中心焦点区域的单一干净文字图像。

其中，单一干净文字图像为交互图像中仅包含中文文字本身以及其所必要覆盖的背景区域，不包括任何远离中文文字的背景或其他图像信息；

步骤S32中，利用中文文字切割人工智能算法，获取交互载体所指向的中文文字信息，得到交互载体的触发动作区域的中心焦点区域的单一干净文字图像。

进一步地，对手指触发动作区域附近进行图像切割。通过中文文字切割人工智能算法获取手指所指的文字信息，得到中心焦点区域的单一干净文字图像。在一种实施例中的干净定义为图片中仅含有中文文字本身和其所必要覆盖的矩形背景区域，而不包括任何远离文字的背景或者其他图像信息。

步骤S33：对单一干净文字图像的中心焦点区域进行标记处理分析，得出中心焦点文字在水平方向的角度信息，并根据角度信息对单一干净文字图像进行旋转调整，以获取水平的单一干净文字图像。进一步地，通过对中心焦点区域的分析，获得焦点文字的行方向信息，比如水平方向所在角度信息，根据该角度对图像进行旋转调整以获得水平图像。

步骤S34：在经过对单一干净文字图像的中心焦点区域标记处理及旋转后，同时向中心焦点区域的左边和右边获取一组潜在文字区域图像。进一步地，在经过旋转和中心焦点区域标记的处理后的图像上，同时向左和向右获取一组潜在文字区域图像。

步骤S35：对潜在文字区域图像进行区域切割分析，获得普通焦点区域的新单一干净文字图像。

步骤S36：对新单一干净文字图像信息进行判别分析，判断出新单一干净文字图像包含有中文图像信息或者非中文图像信息，若包含中文图像信息则识别该中文图像信息，并进入步骤S37，否则对非中文图像信息进行标记，以便用于后续分析。

步骤S36中，对包含有中文图像信息的普通焦点区域的单一干净文字图像，利用文字图像识别人工智能算法，获得单一干净文字图像中的文字信息。进一步地，识别出普通焦点区域中可能的中文文字或者非中文文字。当为中文图像信息时，则继续后续步骤，当为非中文图像信息时，将返回非中文图像信息标记，以便用于后续分析。

手指定位人工智能算法可以为：预先训练好的手指特征识别神经网络，在实时交互图像中对手指特征区域进行定位出手指的初步指尖点，再以初步手指指尖点坐标为中心截取一部分区域重新输入手指特征识别神经网络，输出得到更为精准的手指指尖坐标；最后截取精准的手指指尖点坐标前方的矩形区域输入到ORC识别神经网络中。

文字图像识别人工智能算法可以为：预先训练好ORC识别神经网络，通过ORC识别神经网络识别中文文字识别。本例中可以采用谷歌开源的OCR图文识别库tesseract-ocr来进行文字识别，为保证识别率，已经预先训练好了大量文字素材来进行人工修正，以提高文字识别率；OCR文字识别库对矩形区域中的文字进行识别，并且得到文字中心坐标点；对文字中心坐标点和指尖点坐标的距离进行比较，计算得出距离指尖最近的文字，输出中文文字信息。

在一种实施例中，OCR识别神经网络有3层卷积网络和3层双向lstm网络组成，网络输出50位长度的字符和相应的置信度，神经网络损失函数采用的是softmax，优化算法采用的AdamSGD，迭代200万次收敛网络输出结果通过ctc算法优化得到识别的字符串。该网络输入图像大小为300x300x3，该网络参数参考了官方文献。

步骤S37：对包含有中文文字信息的普通焦点区域，在其远离中心焦点区域的方向，向左或向右获取一组新的潜在文字区域图像，并重复S35-S36步骤，直到某一步的普通焦点区域没有中文文字信息或者达到最大迭代步数后停止，返回识别出文字信息。

其中，重复S34-S37步骤，获取中心焦点区域左右两边多个中文文字信息，其中，中文文字数量取决于左右两边最大迭代次数。迭代次数可以去3-5次，对应获得文字数量可以为7~11，本实施例中获取的中文词组基本涵盖中文日常使用中的全部词语。

本步骤中，根据实时交互图像中的信息载体和交互载体，利用手指定位人工智能算法，识别出交互载体在信息载体中的位置信息和触发动作信息，提高了识别速度以及精度；根据识别出的交互载体在信息载体中的位置信息和触发动作信息，识别出交互载体进行触发动作的所在信息载体上的中心焦点及其两边的中文文字信息，以便于获取中文文字组合，从而提高识别速率。

实施例

参考附图3，本实施例提供了一种基于人工智能现实场景下的中文意义词组的识别系统，采用实施例一的识别方法，其包括：获取模块100、匹配模块200、识别模块300以及检索模块400。其中，识别模块200分别于匹配模块200、检索模块连接，匹配模块200与获取模块100连接。

获取模块100用于获取采集的真实场景下包括信息载体和交互载体的实时交互图像，后传输给匹配模块200。

匹配模块200用于将实时交互图像与预先设定的信息载体和交互载体，通过以FPN结构网络的卷积神经网络为核心的图像深度学习AI模型进行匹配识别，输出信息载体和交互载体，传输给识别模块300。

识别模块300用于根据实时交互图像中的信息载体和交互载体，利用手指定位人工智能算法，识别出交互载体在信息载体中的位置信息和触发动作信息，后通过数学逻辑综合信息计算识别出交互载体进行触发动作的所在信息载体上的中心焦点，以及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文图像信息，并使用深度学习文本识别OCR技术获取中文文字信息。

检索模块400用于根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行匹配检索，获取文字组合；后利用词典对文字组合进行匹配检索，获取文字组合的中文意义后输出。

参考图4所示，基于人工智能现实场景下的中文意义词组的识别系统，本实施例还提供了一种基于人工智能现实场景下的中文意义词组的识别装置，该装置包括：摄像设备11、AI智能设备10、显示设备12，其中，摄像设备11以及显示设备12与AI智能设备10一体式设计。

摄像设备11用于采集真实场景下包括信息载体和交互载体在内的实时交互图像。

AI智能设备10，嵌入基于人工智能现实场景下的中文意义词组的识别系统，用于获取采集的真实场景下包括信息载体和交互载体在内的实时交互图像；将实时交互图像与预先设定的信息载体和交互载体进行匹配，输出所述信息载体和所述交互载体；根据所述信息载体和所述交互载体，识别出所述交互载体在所述信息载体中的位置信息和触发动作信息，后识别出所述交互载体进行触发动作的所在所述信息载体上的中心焦点及其两边的中文文字信息；根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行检索，获取文字组合；后利用词典对文字组合进行检索，获取文字组合的中文意义后输出。

显示设备12，用于接收并显示AI智能设备识别出的中文文字信息和检索出的文字组合以及文字组合的中文意义。

实施例

本发明实施例提出了一种终端设备，包括：包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如前述实施例中的基于人工智能现实场景下的中文意义词组的识别方法。

本发明实施例提出了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时实现如前述实施例中的基于人工智能现实场景下的中文意义词组的识别方法。

此外本发明实施例还提供了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行如前述实施例中的基于人工智能的书写行为的识别方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，所述识别方法包括：

S3：根据所述信息载体和所述交互载体，利用手指定位人工智能算法，识别出所述交互载体在所述信息载体中的位置信息和触发动作信息，后通过数学逻辑综合信息计算识别出所述交互载体进行触发动作的所在所述信息载体上的中心焦点，以及利用以卷积神经网络为核心的图像目标识别深度学习AI模型识别获取中心焦点两边的中文图像信息，并使用深度学习文本识别OCR技术获取中文文字信息；

S4：根据识别出的中心焦点及其两边的中文文字信息，利用字典对中文文字信息组成的中文文字序列进行匹配检索，获取文字组合；后利用词典对文字组合进行匹配检索，获取文字组合的中文意义后输出;

所述步骤S3进一步包括：

S31：接收所述实时交互图像中的所述信息载体和所述交互载体，通过使用以Densenet结构网络的卷积神经网络为核心的图像深度学习AI模型，或者使用基于Resnet或vgg或darknet结构的图像识别主干网络，以基于高斯分布密度衰减函数的位置信息损失函数为迭代指标，识别所述交互载体在所述信息载体中的位置信息和触发动作信息；

2.如权利要求1所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，重复S34-S37步骤，获取中心焦点区域左右两边多个中文文字信息，其中，中文文字数量取决于左右两边最大迭代次数。

3.如权利要求1所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，所述步骤S32中：利用中文文字切割人工智能算法，获取所述交互载体所指向的中文图像信息，得到所述交互载体的触发动作区域的中心焦点区域的单一干净文字图像。

4.如权利要求1所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，所述步骤S36中：对包含有中文图像信息的普通焦点区域的单一干净文字图像，利用文字图像识别人工智能算法，获得单一干净文字图像中的中文图像信息。

5.如权利要求1所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，所述步骤S1之前还包括：采集并预存真实场景下的信息载体，以便进行匹配。

6.如权利要求1所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，所述步骤S1之前还包括：采集并预存真实场景下的交互载体，以便进行匹配。

7.一种基于人工智能现实场景下的中文意义词组的识别系统，采用如权利要求1-6任意一项所述的基于人工智能现实场景下的中文意义词组的识别方法，其特征在于，其包括：获取模块、匹配模块、识别模块以及检索模块；

8.一种终端设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任意一项所述的基于人工智能现实场景下的中文意义词组的识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任意一项所述的基于人工智能现实场景下的中文意义词组的识别方法。