CN114972925A - 一种语音和图像识别芯片及其识别算法 - Google Patents

一种语音和图像识别芯片及其识别算法 Download PDF

Info

Publication number
CN114972925A
CN114972925A CN202210663519.2A CN202210663519A CN114972925A CN 114972925 A CN114972925 A CN 114972925A CN 202210663519 A CN202210663519 A CN 202210663519A CN 114972925 A CN114972925 A CN 114972925A
Authority
CN
China
Prior art keywords
information
identification
voice
recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210663519.2A
Other languages
English (en)
Inventor
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210663519.2A priority Critical patent/CN114972925A/zh
Publication of CN114972925A publication Critical patent/CN114972925A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语音和图像识别芯片及其识别算法,用于语音和图像的识别监测,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题,包括:信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;识别寄存器,提取识别结果,反馈识别结果;本发明实施例设置了信息识别模块和信息采集模块,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度。

Description

一种语音和图像识别芯片及其识别算法
技术领域
本发明具体涉及一种语音和图像识别芯片及其识别算法。
背景技术
联网监控主要是为了保护人们财产和生命的安全,根据实际的监控需要,一般联网监控都会在建筑周边、大门、办公楼、室内等重点部位安装用于安全监控的设备,为了集中管控上述安全监测设备的监测情况,一般会集中上述设备的数据上传至云端,而芯片是监控设备的核心组件,决定了监控设备数据交互的及时性和稳定性。
中国专利CN213844757U公开了一种智能语音、图像识别交互装置,包括外壳、设置在外壳内部的主控电路板、输入组件、电源模块和输出组件。本发明的智能语音、图像识别交互装置的输入组件不仅设有麦克风,能够通过语音与用户进行交互,还设有摄像头,使得高集成芯片能够通过摄像头手机用户的图像信息,识别用户提供的图像甚至手势,上传到云端服务器并获得相应的反馈,然后根据反馈输相应的信息,实现与用户通过语音和图像识别进行交互,能够获取用户无法通过语音提供的信息;但是现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差,基于此,我们提出一种语音和图像识别芯片及其识别算法。
发明内容
本发明的目的在于针对现有技术的不足之处,提供一种语音和图像识别芯片及其识别算法,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
本发明是这样实现的,一种语音和图像识别芯片,用于语音和图像的识别监测,所述语音和图像识别芯片包括:
信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;
识别寄存器,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果;
在芯片架构设计中设置识别寄存器、CPU服务器,其中,识别寄存器用于存储反向识别数据,识别寄存器与CPU服务器通信连接。
优选地,所述信息采集模块包括:
采集响应单元,用于响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元,以实现信息的传递和交互;
信息预处理单元,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;
预识别信息提取单元,用于获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。
优选地,所述基于随机森林模型,训练随机森林分类器,构建分类树的方法,具体包括:
获取语音信息和图像信息,抽取语音信息和图像信息作为原始信息训练集;
基于基尼指数作为构建准则构建多组分类树,提取原始信息训练集,通过基尼指数最小特征对多组分类树进行分裂,以获取分裂后的若干分类树,构成随机森林模型;
以语音信息和图像信息为输入,执行随机森林模型,根据随机森林模型的产生一个信息分类结果,实现对语音信息和图像信息的分类筛选,获取可识别的语音信息和图像信息。
优选地,所述预识别信息提取单元包括:
可识别结果获取模块,用于获取语音信息和图像信息的预识别结果;
可识别结果降噪模块,提取语音信息和图像信息的预识别结果,分别对语音信息和图像信息进行降噪处理,其中,降噪处理基于芯片加密降噪规则进行,以获取降噪后的可识别结果;
特征点提取单元,基于降噪后的可识别结果,提取可识别结果的特征点,形成特征点数据集,对特征点数据集进行加密赋码处理,以实现快速通信交互。
优选地,所述芯片加密降噪规则的算法,具体包括:
提取语音信息和图像信息的预识别结果,基于已知方差的高斯分布中采样得到噪声属性,以噪声属性为输入,构造降噪训练集以及验证数据集;
基于卷积神经网络作为Boosting单元,基于SOS算法搭建噪声去除模型,得到降噪的预识别结果。
优选地,基于SOS算法搭建噪声去除模型过程中,去除了显示的减法约束,且通过迭代算法展开成一次级联数量为m的后向传播算法,以有噪声的预识别结果p为输入,得到降噪的预识别结果fm,其中计算降噪的预识别结果fm的公式表示为:
Figure BDA0003692104530000041
其中,
Figure BDA0003692104530000042
表示膨胀稠密混合卷积神经网络的累加值,下标1、2...m-1、m表示卷积神经网络中后向传播过程中单组级联单元对应的唯一序号,i表示预识别结果的序号,α表示所有可训练的噪声去除模型参数。
优选地,所述信息识别模块包括:
赋码提取单元,提取缓存赋码的特征点数据集,根据芯片加密规则对赋码的特征点数据集进行转码;
特征点同步单元,获取转码后的特征点数据集,搜索特征点数据集对应的特征点密码书,基于密码书的内容和地址变换,得到量化的合成特征点数据集合;
识别格式转换单元,用于提取量化的合成特征点数据集合,对量化的合成特征点数据集合进行滤波处理,实现二次降噪,并将滤波后的合成特征点数据集合进行格式转换,转换为可识别的数据集合模式。
优选地,所述信息识别模块还包括:
识别数据库建立单元,获取识别样本信息,基于识别样本信息建立并训练数据库;
识别计算单元,基于识别数据库以及获取的特征点数据集合,对特征点数据集合进行识别判断,获取识别结果。
优选地,所述识别计算单元包括:
识别点获取模块,用于获取特征点数据,确定特征点数据的类型,其中,特征点数据的类型包括语音识别以及图像识别;
特征点匹配模块,提取识别数据库中标准识别点,遍历特征点数据,匹配待识别的特征点数据,获取匹配结果;
关联概率计算模块,获取匹配的特征点数据,筛除已匹配的特征点数据,得到关联特征点,基于高斯概率分布函数计算关联特征点与识别数据库中标准识别点的匹配概率,判断关联特征点与识别数据库中标准识别点的匹配概率是否大于预设阈值,若大于预设阈值,则匹配关联特征点;
匹配结果整合模块,整合关联特征点以及已匹配的特征点数据,获取识别结果。
一种基于所述语音和图像识别芯片的语音和图像识别算法,其特征在于:所述语音和图像识别算法包括:
采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
获取待识别的信息,识别判断采集到的信息,获取识别结果;
提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明实施例设置了信息识别模块和信息采集模块,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
附图说明
图1是本发明提供的一种语音和图像识别芯片的结构示意图。
图2是本发明提供的信息采集模块的结构示意图。
图3是本发明提供的基于随机森林模型,训练随机森林分类器,构建分类树的实现流程示意图。
图4是本发明提供的预识别信息提取单元的结构示意图。
图5是本发明提供的芯片加密降噪规则的工作流程示意图。
图6是本发明提供的信息识别模块的结构示意图。
图7是本发明提供的识别计算单元的结构示意图。
图8是本发明提供的一种语音和图像识别算法的实现流程示意图。
图9是本发明提供的采集待识别的信息方法的实现流程示意图。
图中:100-信息采集模块、110-采集响应单元、120-信息预处理单元、130-预识别信息提取单元、131-可识别结果获取模块、132-可识别结果降噪模块、133-特征点提取单元、200-信息识别模块、210-赋码提取单元、220-特征点同步单元、230-识别格式转换单元、240-识别数据库建立单元、250-识别计算单元、251-识别点获取模块、252-特征点匹配模块、253-关联概率计算模块、254-匹配结果整合模块、300-识别寄存器。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差,基于此,我们提出一种语音和图像识别芯片,在芯片架构设计中设置识别寄存器300、CPU服务器,其中,识别寄存器300用于存储反向识别数据,识别寄存器300与CPU服务器通信连接,同时所述语音和图像识别芯片包括用于采集待识别的信息的信息采集模块100,用于获取待识别的信息,识别判断采集到的信息,获取识别结果的信息识别模块200以及用于提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果的识别寄存器300;本发明实施例设置了信息识别模块200和信息采集模块100,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块200能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
本发明实施例提供了一种语音和图像识别芯片,如图1所示,所述一种语音和图像识别芯片包括:
信息采集模块100,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
信息识别模块200,获取待识别的信息,识别判断采集到的信息,获取识别结果;
识别寄存器300,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果;
在芯片架构设计中设置识别寄存器300、CPU服务器,其中,识别寄存器300用于存储反向识别数据,识别寄存器300与CPU服务器通信连接。
在本实施例中,CPU服务器搭载在所述语音和图像识别芯片上,且语音和图像识别芯片设计中,设置了用于寄存识别结果的识别寄存器300,且识别寄存器300通过CPU服务器控制,通过配置此识别寄存器300可查看图像以及语音信号在芯片内的识别记录,且通过上述CPU服务器和识别寄存器300的组合,来实现对芯片识别记录的读取和识别性能的测试,而语音和图像识别芯片可以安装在识别终端内,识别终端包括但不限于笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)、手机、联网监控设备等可以进行通信的设备。
在本实施例中,识别寄存器300包括多个、尤其两个寄存模块(即Jtag2AHB模块和i2c2AHB模块)、SOC总线、片上RAM 0、片上RAM 1、模块0、模块1、模块2等,此类寄存模块通过在芯片内部设计协议转换电路,把对片上资源的操作,通过jtag或者i2c协议打包,通过jtag或者i2c接口发送到芯片内部的协议转换模块。
在本实施例中,本发明实施例设置了信息识别模块200和信息采集模块100,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块200能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
本发明实施例提供了信息采集模块100,如图2所示,所述信息采集模块100包括:
采集响应单元110,用于响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元120,以实现信息的传递和交互;
信息预处理单元120,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;
预识别信息提取单元130,用于获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。
在本实施例中,采集响应单元110分别通过5G通信或数据通信连接。
在本实施例中,具体地,采集响应单元110分别通信连接有采集终端,采集终端为集语音和图像识别一体的自助终端,其携带有图像识别模块和语音识别模块,图像识别模块为摄像头、录像机,语音识别模块具体为录音机或麦克风。
在本实施例中,图像识别模块的工作步骤为:
通过摄像头、录像机拍摄图片,然后将原图打包发送至采集响应单元110,且为了提高识别效率,降低识别难度,摄像头、录像机拍摄图片单次至少三组,从而方便对特征点的提取。
语音识别模块的工作步骤为:
通过录音机或麦克风采集用户录入的语音信息或语音指令,然后将语音信息或语音指令打包发送至采集响应单元110。
本发明实施例提供了基于随机森林模型,训练随机森林分类器,构建分类树的方法,如图3所示,所述基于随机森林模型,训练随机森林分类器,构建分类树的方法,具体包括:
步骤S101,获取语音信息和图像信息,抽取语音信息和图像信息作为原始信息训练集。
步骤S102,基于基尼指数作为构建准则构建多组分类树,提取原始信息训练集,通过基尼指数最小特征对多组分类树进行分裂,以获取分裂后的若干分类树,构成随机森林模型。
步骤S103,以语音信息和图像信息为输入,执行随机森林模型,根据随机森林模型的产生一个信息分类结果,实现对语音信息和图像信息的分类筛选,获取可识别的语音信息和图像信息。
在本实施例中,构建多组分类树的目的是对图像或语音信息进行筛选,从而对信息进行预处理,其分类依据是基于图像模糊度以及语音长度来分类的,设定标准高清图像值为1,模糊度的尺度依次为0.9、0.8-0.1,标准语音长度为30s,语音模糊度的尺度依次为0.5s、1s、2s-30s,基于基尼指数作为构建准则构建多组分类树时,将样本属于第n类的概率设定为ln,则样本的概率分布基尼指数计算公式为:
Figure BDA0003692104530000111
本发明实施例提供了预识别信息提取单元130,如图4所示,所述预识别信息提取单元130包括:
可识别结果获取模块131,用于获取语音信息和图像信息的预识别结果;
可识别结果降噪模块132,提取语音信息和图像信息的预识别结果,分别对语音信息和图像信息进行降噪处理,其中,降噪处理基于芯片加密降噪规则进行,以获取降噪后的可识别结果;
特征点提取单元133,基于降噪后的可识别结果,提取可识别结果的特征点,形成特征点数据集,对特征点数据集进行加密赋码处理,以实现快速通信交互。
在本实施例中,如图5所示,所述芯片加密降噪规则的算法,具体包括:
步骤S201,提取语音信息和图像信息的预识别结果,基于已知方差的高斯分布中采样得到噪声属性,以噪声属性为输入,构造降噪训练集以及验证数据集。
步骤S202,基于卷积神经网络作为Boosting单元,基于SOS算法搭建噪声去除模型,得到降噪的预识别结果。
在本实施例中,基于SOS算法搭建噪声去除模型过程中,去除了显示的减法约束,且通过迭代算法展开成一次级联数量为m的后向传播算法,以有噪声的预识别结果p为输入,得到降噪的预识别结果fm,其中计算降噪的预识别结果fm的公式表示为:
Figure BDA0003692104530000121
其中,
Figure BDA0003692104530000122
表示膨胀稠密混合卷积神经网络的累加值,下标1、2...m-1、m表示卷积神经网络中后向传播过程中单组级联单元对应的唯一序号,i表示预识别结果的序号,α表示所有可训练的噪声去除模型参数。
本发明实施例提供了信息识别模块200,如图6所示,所述信息识别模块200包括:
赋码提取单元210,提取缓存赋码的特征点数据集,根据芯片加密规则对赋码的特征点数据集进行转码;
特征点同步单元220,获取转码后的特征点数据集,搜索特征点数据集对应的特征点密码书,基于密码书的内容和地址变换,得到量化的合成特征点数据集合;
识别格式转换单元230,用于提取量化的合成特征点数据集合,对量化的合成特征点数据集合进行滤波处理,实现二次降噪,并将滤波后的合成特征点数据集合进行格式转换,转换为可识别的数据集合模式;
识别数据库建立单元240,获取识别样本信息,基于识别样本信息建立并训练数据库;
识别计算单元250,基于识别数据库以及获取的特征点数据集合,对特征点数据集合进行识别判断,获取识别结果。
在本实施例中,芯片加密规则的加密方法为,确定芯片的身份信息以及芯片内各个模块的分布信息,基于芯片的身份信息以及芯片内各个模块的分布信息生成每个组芯片对应的密码书,通过预设的加密规则对密码书进行隐藏,获得双层加密后信息。
本发明实施例提供了识别计算单元250,如图7所示,所述识别计算单元250包括:
识别点获取模块251,用于获取特征点数据,确定特征点数据的类型,其中,特征点数据的类型包括语音识别以及图像识别;
特征点匹配模块252,提取识别数据库中标准识别点,遍历特征点数据,匹配待识别的特征点数据,获取匹配结果;
关联概率计算模块253,获取匹配的特征点数据,筛除已匹配的特征点数据,得到关联特征点,基于高斯概率分布函数计算关联特征点与识别数据库中标准识别点的匹配概率,判断关联特征点与识别数据库中标准识别点的匹配概率是否大于预设阈值,若大于预设阈值,则匹配关联特征点;
匹配结果整合模块254,整合关联特征点以及已匹配的特征点数据,获取识别结果。
在本实施例中,关联概率计算模块253在获取匹配的特征点数据,筛除已匹配的特征点数据,得到关联特征点时,是基于高斯概率分布函数计算关联特征点与识别数据库中标准识别点的匹配概率,高斯概率分布函数计算公式为:
Figure BDA0003692104530000131
其中,Ta为第a个关联特征点的概率变量,x为积分变量,sab代表第a个关联特征点的第b次匹配概率。
同时,在本实施例中,判断关联特征点与识别数据库中标准识别点的匹配概率是否大于预设阈值,若大于预设阈值,则匹配关联特征点,预设阈值为匹配概率大于80%,若大于80%,就可以执行关联概率计算模块253操作,从而实现对图像以及语音信息的精准识别。
本发明实施例提供了一种语音和图像识别算法,如图8所示,所述一种语音和图像识别算法包括:
步骤S10,采集待识别的信息,其中,待识别的信息包括语音信息和图像信息。
步骤S20,获取待识别的信息,识别判断采集到的信息,获取识别结果。
步骤S30,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果。
本发明实施例提供了采集待识别的信息的方法,如图9所示,所述采集待识别的信息的方法,具体包括:
步骤S301,响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元120,以实现信息的传递和交互;
步骤S302,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;
步骤S303,获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。
本发明实施还提供了一种可读存储介质的示意图,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述语音和图像识别芯片识别方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。例如,上述计算机程序可以被分割成上述各个系统实施例提供的语音和图像识别芯片的单元或模块。
本领域技术人员可以理解,上述终端设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储数据区可存储根据语音和图像识别芯片的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
综上所述,本发明提供了一种语音和图像识别芯片,本发明实施例设置了信息识别模块和信息采集模块,能够对采集到的图像和语音信息进行预处理,从而降低了芯片的负载,提高芯片运行效率,同时信息识别模块能够对特征不明显的语音或图像信息进行评估,从而提高了芯片的识别精准度,解决了现有智能语音、图像识别交互装置不能对识别后的语音和图像进行评估识别验证,使得识别效果差的问题。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口,装置或单元之间的间接耦合或通信连接,可以是电信或者其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。

Claims (10)

1.一种语音和图像识别芯片,用于语音和图像的识别监测,其特征在于,所述语音和图像识别芯片包括:
信息采集模块,用于采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
信息识别模块,获取待识别的信息,识别判断采集到的信息,获取识别结果;
识别寄存器,提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果;
在芯片架构设计中设置识别寄存器、CPU服务器,其中,识别寄存器用于存储反向识别数据,识别寄存器与CPU服务器通信连接。
2.如权利要求1所述的语音和图像识别芯片,其特征在于:所述信息采集模块包括:
采集响应单元,用于响应识别指令,基于响应识别指令控制信息采集装置对语音信息和图像信息进行采集,并将语音信息和图像信息通过多种数据通道传送至信息预处理单元,以实现信息的传递和交互;
信息预处理单元,获取语音信息和图像信息,基于随机森林模型,训练随机森林分类器,构建分类树,实现对语音信息和图像信息的预识别;
预识别信息提取单元,用于获取语音信息和图像信息的预识别结果,对语音信息和图像信息的预识别结果进行赋码。
3.如权利要求2所述的语音和图像识别芯片,其特征在于:所述基于随机森林模型,训练随机森林分类器,构建分类树的方法,具体包括:
获取语音信息和图像信息,抽取语音信息和图像信息作为原始信息训练集;
基于基尼指数作为构建准则构建多组分类树,提取原始信息训练集,通过基尼指数最小特征对多组分类树进行分裂,以获取分裂后的若干分类树,构成随机森林模型;
以语音信息和图像信息为输入,执行随机森林模型,根据随机森林模型的产生一个信息分类结果,实现对语音信息和图像信息的分类筛选,获取可识别的语音信息和图像信息。
4.如权利要求3所述的语音和图像识别芯片,其特征在于:所述预识别信息提取单元包括:
可识别结果获取模块,用于获取语音信息和图像信息的预识别结果;
可识别结果降噪模块,提取语音信息和图像信息的预识别结果,分别对语音信息和图像信息进行降噪处理,其中,降噪处理基于芯片加密降噪规则进行,以获取降噪后的可识别结果;
特征点提取单元,基于降噪后的可识别结果,提取可识别结果的特征点,形成特征点数据集,对特征点数据集进行加密赋码处理,以实现快速通信交互。
5.如权利要求4所述的语音和图像识别芯片,其特征在于:所述芯片加密降噪规则的算法,具体包括:
提取语音信息和图像信息的预识别结果,基于已知方差的高斯分布中采样得到噪声属性,以噪声属性为输入,构造降噪训练集以及验证数据集;
基于卷积神经网络作为Boosting单元,基于SOS算法搭建噪声去除模型,得到降噪的预识别结果。
6.如权利要求5所述的语音和图像识别芯片,其特征在于:基于SOS算法搭建噪声去除模型过程中,去除了显示的减法约束,且通过迭代算法展开成一次级联数量为m的后向传播算法,以有噪声的预识别结果p为输入,得到降噪的预识别结果fm,其中计算降噪的预识别结果fm的公式表示为:
Figure FDA0003692104520000031
其中,
Figure FDA0003692104520000032
表示膨胀稠密混合卷积神经网络的累加值,下标1、2...m-1、m表示卷积神经网络中后向传播过程中单组级联单元对应的唯一序号,i表示预识别结果的序号,α表示所有可训练的噪声去除模型参数。
7.如权利要求1所述的语音和图像识别芯片,其特征在于:所述信息识别模块包括:
赋码提取单元,提取缓存赋码的特征点数据集,根据芯片加密规则对赋码的特征点数据集进行转码;
特征点同步单元,获取转码后的特征点数据集,搜索特征点数据集对应的特征点密码书,基于密码书的内容和地址变换,得到量化的合成特征点数据集合;
识别格式转换单元,用于提取量化的合成特征点数据集合,对量化的合成特征点数据集合进行滤波处理,实现二次降噪,并将滤波后的合成特征点数据集合进行格式转换,转换为可识别的数据集合模式。
8.如权利要求7所述的语音和图像识别芯片,其特征在于:所述信息识别模块还包括:
识别数据库建立单元,获取识别样本信息,基于识别样本信息建立并训练数据库;
识别计算单元,基于识别数据库以及获取的特征点数据集合,对特征点数据集合进行识别判断,获取识别结果。
9.如权利要求8所述的语音和图像识别芯片,其特征在于:所述识别计算单元包括:
识别点获取模块,用于获取特征点数据,确定特征点数据的类型,其中,特征点数据的类型包括语音识别以及图像识别;
特征点匹配模块,提取识别数据库中标准识别点,遍历特征点数据,匹配待识别的特征点数据,获取匹配结果;
关联概率计算模块,获取匹配的特征点数据,筛除已匹配的特征点数据,得到关联特征点,基于高斯概率分布函数计算关联特征点与识别数据库中标准识别点的匹配概率,判断关联特征点与识别数据库中标准识别点的匹配概率是否大于预设阈值,若大于预设阈值,则匹配关联特征点;
匹配结果整合模块,整合关联特征点以及已匹配的特征点数据,获取识别结果。
10.一种基于权利要求1-9任一所述语音和图像识别芯片的语音和图像识别算法,其特征在于:所述语音和图像识别算法包括:
采集待识别的信息,其中,待识别的信息包括语音信息和图像信息;
获取待识别的信息,识别判断采集到的信息,获取识别结果;
提取识别结果,通过CPU服务器判断识别结果类型,发送识别结果类型和识别结果,存储反向识别数据,并反馈识别结果。
CN202210663519.2A 2022-06-13 2022-06-13 一种语音和图像识别芯片及其识别算法 Withdrawn CN114972925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210663519.2A CN114972925A (zh) 2022-06-13 2022-06-13 一种语音和图像识别芯片及其识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210663519.2A CN114972925A (zh) 2022-06-13 2022-06-13 一种语音和图像识别芯片及其识别算法

Publications (1)

Publication Number Publication Date
CN114972925A true CN114972925A (zh) 2022-08-30

Family

ID=82961660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210663519.2A Withdrawn CN114972925A (zh) 2022-06-13 2022-06-13 一种语音和图像识别芯片及其识别算法

Country Status (1)

Country Link
CN (1) CN114972925A (zh)

Similar Documents

Publication Publication Date Title
CN110619568A (zh) 风险评估报告的生成方法、装置、设备及存储介质
US20100021070A1 (en) Communication device and image classification method thereof
KR20060077988A (ko) 멀티미디어 통신 시스템에서 컨텍스트 추출 및 이를 통한정보 제공 시스템 및 방법
CN111683285B (zh) 文件内容识别方法、装置、计算机设备及存储介质
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN109473103A (zh) 一种会议纪要生成方法
CN112560468A (zh) 气象预警文本处理方法、相关装置及计算机程序产品
CN110188129A (zh) 人证核验终端的数据处理方法、装置、系统、设备及介质
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
CN116562270A (zh) 一种支持多模态输入的自然语言处理系统及其方法
CN107506407B (zh) 一种文件分类、调用的方法及装置
CN111444362B (zh) 恶意图片拦截方法、装置、设备和存储介质
CN115114805B (zh) 自主式交通系统架构的信息交互对离散仿真方法
CN114972925A (zh) 一种语音和图像识别芯片及其识别算法
CN114598832A (zh) 双模云执法记录终端控制方法、终端及装置
CN116189706A (zh) 数据传输方法、装置、电子设备和计算机可读存储介质
CN106503199A (zh) 一种基于网络的计算机信息检索系统
CN109493868B (zh) 基于语音识别的保单录入方法和相关装置
CN113741864A (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
CN116383391B (zh) 一种文本分类方法及装置
CN107169670B (zh) 一种执法记录评价系统及其方法
CN112287186B (zh) 一种用于城市管理的智能分类方法及其系统
CN110598531A (zh) 一种基于移动端人脸识别电子印章的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220830