CN116186325A - 一种基于数据处理的点读笔信息识别与管理方法及系统 - Google Patents

一种基于数据处理的点读笔信息识别与管理方法及系统 Download PDF

Info

Publication number
CN116186325A
CN116186325A CN202310457329.XA CN202310457329A CN116186325A CN 116186325 A CN116186325 A CN 116186325A CN 202310457329 A CN202310457329 A CN 202310457329A CN 116186325 A CN116186325 A CN 116186325A
Authority
CN
China
Prior art keywords
text
character
model
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310457329.XA
Other languages
English (en)
Other versions
CN116186325B (zh
Inventor
颜榅辉
陈许忠
徐柏勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen City Cultural Beyond Technology Co ltd
Original Assignee
Shenzhen City Cultural Beyond Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen City Cultural Beyond Technology Co ltd filed Critical Shenzhen City Cultural Beyond Technology Co ltd
Priority to CN202310457329.XA priority Critical patent/CN116186325B/zh
Publication of CN116186325A publication Critical patent/CN116186325A/zh
Application granted granted Critical
Publication of CN116186325B publication Critical patent/CN116186325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及点读笔信息处理技术领域,尤其涉及一种基于数据处理的点读笔信息识别与管理方法及系统,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,通过本方法能够减少点读笔在识别匹配文字时匹配量,进而降低系统运算量,提高系统的鲁棒性,以提高文字识别效率。

Description

一种基于数据处理的点读笔信息识别与管理方法及系统
技术领域
本发明涉及点读笔信息处理技术领域,尤其涉及一种基于数据处理的点读笔信息识别与管理方法及系统。
背景技术
点读笔是采用国际最新光学图像识别技术和先进的数码语音技术开发而成的新一代智能阅读和学习工具,点读笔通过孩子参与各种针对性的游戏和活动,不断刺激触觉、视觉、听觉等感官来丰富他们的体验,增长他们的兴趣,开发他们的脑神经。点读笔小巧方便,非常便携,可随时、随处使用,即点即发音,它将声音加于枯燥的文字之上,使图书内容更丰富,使阅读和学习更有趣,可充分实现寓教于乐。
随着图像识别算法的进步,现有的点读笔足以识别大多数内容,但是,其识别过程需要消耗大量的计算资源,识别效率不高;因此,如何在现有的成熟的点读笔识别技术上,提高识别速度,优化使用体验是点读笔领域的关键问题。
发明内容
本发明克服了现有技术的不足,提供了一种基于数据处理的点读笔信息识别与管理方法及系统。
为达到上述目的本发明采用的技术方案为:
本发明公开了一种基于数据处理的点读笔信息识别与管理方法,包括以下步骤:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
优选地,本发明的一个较佳实施例中,提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库,具体为:
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集;
通过局部敏感哈希算法计算所述文字模型合集中各文字模型之间的相似度,预设若干个相似度范围;
基于所述各文字模型之间的相似度与所述相似度范围对所述文字模型合集中各文字模型进行聚类并整合,得到若干个分类后的文字模型子合集;
将若干个分类后的文字模型子合集分别映射到所述初始文本语音特性数据库的不同空间中,得到分类后的文本语音特性数据库。
优选地,本发明的一个较佳实施例中,获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库,具体为:
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点;构建空间坐标系,将所述文字模型对应的特征点导入所述空间坐标系中,得到各个特征点对应的坐标值,基于所述坐标值获取得到各个特征点对应的向量值;
获取每一文字模型的各个特征点对应的向量值,并对每一文字模型的各个特征点对应的向量值进行汇聚,得到每一文字模型对应的向量合集;
通过灰色关联分析法计算各文字模型子合集中任意两个文字模型对应的向量合集之间的配对率,并将所述配对率与预设配对率进行比较,得到配对率偏差值;
判断所述配对率偏差值是否大于预设偏差值阈值,若大于,则将配对率偏差值大于预设偏差值阈值所对应的任意一个文字模型由所述文字模型子合集中剔除;若不大于,则将配对率偏差值不大于预设偏差值阈值所对应的两个文字模型均由所述文字模型子合集中保留;
重复上述步骤,直至各文字模型子合集中任意一个文字模型均与其余文字模型配对完毕,得到筛选后的文字模型子合集,并基于所述筛选后的文字模型子合集得到最终文本语音特性数据库。
优选地,本发明的一个较佳实施例中,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
本发明另一方面公开了一种基于数据处理的点读笔信息识别与管理系统,所述点读笔信息识别与管理系统包括存储器与处理器,所述存储器中包括点读笔信息识别与管理方法程序,当所述点读笔信息识别与管理方法程序被处理器执行时,实现如下步骤:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
优选地,本发明的一个较佳实施例中,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
本发明解决了背景技术中存在的技术缺陷,本发明具备以下有益效果:通过本方法能够减少点读笔在识别匹配文字时匹配量,进而降低系统运算量,提高系统的鲁棒性,以提高文字识别效率,提高点读笔的点读反应速度,使得用户体验更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1为一种基于数据处理的点读笔信息识别与管理方法第一方法流程图;
图2为一种基于数据处理的点读笔信息识别与管理方法第二方法流程图;
图3为一种基于数据处理的点读笔信息识别与管理方法第三方法流程图;
图4为一种基于数据处理的点读笔信息识别与管理系统的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明公开了一种基于数据处理的点读笔信息识别与管理方法,如图1所示,包括以下步骤:
S102:通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
S104:提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
S106:获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
S108:获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
需要说明的是,通过本方法能够减少点读笔在识别匹配文字时匹配量,进而降低系统运算量,提高系统的鲁棒性,以提高文字识别效率,提高点读笔的点读反应速度,使得用户体验更佳。
在本发明的一个较佳实施例中,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
需要说明的是,所述文字模型通过文字图片分割得到,将文字图片的背景与文字分割后,便能够得到文字模型。所述语音特性数据信息包括但不限于文字的读音音频数据与拼音音频数据。所述文本关联性语音包中存在相应文字模型及其对读音音频、拼音音频的捆绑数据。通过本方法能够对由大数据网络中获取得到的文字模型及其对应的语音特性数据信息进行反复训练,以提高点读笔在使用时的点读数据的准确性与可靠性,避免发生点读错误的情况。
在本发明的一个较佳实施例中,提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库,如图3所示,具体为:
S202:提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集;
S204:通过局部敏感哈希算法计算所述文字模型合集中各文字模型之间的相似度,预设若干个相似度范围;
S206:基于所述各文字模型之间的相似度与所述相似度范围对所述文字模型合集中各文字模型进行聚类并整合,得到若干个分类后的文字模型子合集;
S208:将若干个分类后的文字模型子合集分别映射到所述初始文本语音特性数据库的不同空间中,得到分类后的文本语音特性数据库。
需要说明的是,在点读笔的实际应用过程中,点读笔所需要识别的文字是海量的,并且有着很高的维度。在获取得到待识别文字图像后,怎样快速地从海量文本关联性语音包中,匹配得到与待识别文字最相似的文本关联性语音包数据,是一个难点和问题。低维的小数据集,可通过线性查找来解决,但如果是对一个海量的高维数据集采用线性查找的话,时间代价非常大,因此,为了解决该问题,本方法通过对具有相同特征文字模型进行提前分类,如以字首偏旁为分类基准,将海量的文字模型进行分类,从而得到若干个分类后的文字模型子合集,将若干个分类后的文字模型子合集分别映射到所述初始文本语音特性数据库的不同的数据存储空间中,从而得到分类后的文本语音特性数据库,通过此方式进而提高本系统中对待识别文字的快速查询以及配对识别功能,从而提高本评估系统的运算速度。
另外还需要说明的是,局部敏感哈希算法是运用到高维海量数据的快速近似查找,通过近似查找时比较数据点之间相似度的一种方法,通过局部敏感哈希算法计算出海量文字模型之间的相似度,然后再根据相似度对海量的文字模型进行快速分类。
在本发明的一个较佳实施例中,获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库,具体为:
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点;构建空间坐标系,将所述文字模型对应的特征点导入所述空间坐标系中,得到各个特征点对应的坐标值,基于所述坐标值获取得到各个特征点对应的向量值;
获取每一文字模型的各个特征点对应的向量值,并对每一文字模型的各个特征点对应的向量值进行汇聚,得到每一文字模型对应的向量合集;
通过灰色关联分析法计算各文字模型子合集中任意两个文字模型对应的向量合集之间的配对率,并将所述配对率与预设配对率进行比较,得到配对率偏差值;
判断所述配对率偏差值是否大于预设偏差值阈值,若大于,则将配对率偏差值大于预设偏差值阈值所对应的任意一个文字模型由所述文字模型子合集中剔除;若不大于,则将配对率偏差值不大于预设偏差值阈值所对应的两个文字模型均由所述文字模型子合集中保留;
重复上述步骤,直至各文字模型子合集中任意一个文字模型均与其余文字模型配对完毕,得到筛选后的文字模型子合集,并基于所述筛选后的文字模型子合集得到最终文本语音特性数据库。
需要说明的是,在实际应用过程中,当将海量的文字模型进行分类,并且将多个分类后的文字模型子合集分别保存在不同的数据存储空间时,会出现重复分配的情况,导致文本关联性语音包被重复分在同一文字模型子合集,从而导致文本关联性语音包被重复存储在数据存储空间,从而出现重复存储某一数据包的情况发生。该种情况的出现一来会提高数据存储空间中文本关联性语音包数据的冗余度,从而导致出现重复占用数据库的存储空间的现象,浪费存储空间,进而降低数据库的实际存储量;二来还会提高后续对待识别文字的匹配识别量,进而降低系统运算速度。而通过本法能够有效杜绝文本关联性语音包被重复存储在数据存储空间的情况,能够有效的剔除存在重复的文本关联性语音包数据,进而剔除数据库中的冗余信息,以最大程度的利用存储空间,提高资源利用率,并且能够有效降低点读笔在识别文字时的计算复杂度,进一步提高对待识别文字的匹配速度,提高识别效率。
另外需要说明的是,在系统发展过程中,若两个因素具有一致性,即匹配程度较高,即可谓二者关联程度较高;反之,则较低。灰色关联分析方法是分析因素之间匹配程度的方法,亦即“灰色关联度”,作其为衡量因素间关联程度的一种方法。
在本发明的一个较佳实施例中,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,如图3所示,具体为:
S302:获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
S304:选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
S306:在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
S308:将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
需要说明的是,在点读笔使用的过程中,当用户将笔头点在待识别的文字区域上时,笔身上的红外摄像头会拍摄待识别文字的图像信息,然后通过对拍摄得到的图像进行特征匹配处理,进而构建得到待识别文字的平面模型;紧接着,首先在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,并且将待识别文字的平面模型与抽取得到的文字模型进行逐一匹配,从而首先配对识别出待识别文字的所属文字模型子合集,举例来说,当待识别文字的字首偏旁与某一文字模型子合集中的字首偏旁相匹配时,此时说明该待识别文字属于该文字模型子合集;再接着,将待识别文字与其所属文字模型子合集中所有的文字模型进行逐一匹配,进而匹配识别出与待识别文字相匹配的文字模型,接着再由与该文字模型相捆绑的语音包中提取得到对应的语音特性数据信息,并将该语音特性数据信息输出至点读笔的语音播报系统上完成语音播报,从而完成对文字的识别与播报过程。通过本方法能够大大减少点读笔在识别匹配文字时匹配量,进而降低系统运算量,提高系统的鲁棒性,以提高文字识别效率,提高点读笔的点读反应速度,使得用户体验更佳。
在本发明的一个较佳实施例中,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
需要说明的是,在点读笔中的红外摄像头拍摄待识别文字图像时,由于拍摄角度、拍摄环境等因素的影响,拍摄得到图像的模糊程度往往会过大,从而导致文字的轮廓特征的清晰度较低,使得提取得到的待识别文字的平面模型质量较差,进而会降低后续的文字模型配对准确度。通过本方法能够对文字的轮廓边线进行修正,以提高清晰度,有利于提高后续的文字模型配对准确度。
此外,所述一种基于数据处理的点读笔信息识别与管理方法,还包括以下步骤:
构建动态识别模型,并将预设动态视频信息导入所述动态识别模型中进行训练,得到训练好的动态识别模型;
在预设时间内获取用户的实时动态视频信息,将所述实时动态视频信息导入所述训练好的动态识别模型中,以将实时动态视频信息与预设动态视频信息进行识别配对,得到实时动态视频信息与预设动态视频信息之间的相像度;
将所述相像度与预设相像度进行比较,得到偏差率;将所述偏差率与预设偏差率进行比较;
若所述偏差率不大于预设偏差率,则生成第一识别结果;若所述偏差率大于预设偏差率,则生成第二识别结果;
若识别结果为第一识别结果,则将所述第一识别结果输送至物联网控制终端,并通过物联网控制终端对环境参数进行调节。
需要说明的是,当用户在智慧家居、智慧托儿所等物联网智慧环境中使用本点读笔时,本点读笔可以与控制智慧家居、智慧托儿所的物联网控制终端通讯连接。所述预设动态视频信息包括打瞌睡、打哈欠、眼皮紧闭等动态视频。通过卷积神经网络、深度学习网络、机器学习等方式来建立动态识别模型,然后在使用使用点读笔的过程中通过点读笔中的红外摄像头获取用户的实时动态视频信息,进而将实时动态视频信息与预设动态视频信息进行识别配对,从而得到识别结果,若所述偏差率不大于预设偏差率,此时说明用户在使用点读笔学习过程中存在打瞌睡、打哈欠、眼皮紧闭等动态(即第一识别结果),此时说明用户在当前学习过程出现疲倦、走神等不良状态,此时点读笔的信号传送器将第一识别结果输送至物联网控制终端,然后通过物联网控制终端对用户的学习环境参数进行调节,如可以适当提高用户学习环境的光线强度(通过调节灯光亮度来实现),以通过光线来对用户进行适当刺激,或者适当播放轻音乐,缓解用户情绪,以消除用户在当前学习过程的疲倦、走神状态,以提高用户学习效率,实现了物联网调控。其中所述环境参数还可以为温度、湿度等参数。
此外,所述一种基于数据处理的点读笔信息识别与管理方法,还包括以下步骤:
基于深度学习网络构建身份信息识别模型,获取用户身份信息,并将所述用户身份信息输入所述身份信息识别模型中进行训练,得到训练好的身份信息识别模型;
获取用户图像信息,将所述用户图像信息导入所述训练好的身份信息识别模型中进行识别,得到当前用户的身份数据;基于所述当前用户的身份数据制定出预设语音播报速度;
获取点读笔的实时语音播报速度,并将所述实时语音播报速度与预设语音播报速度进行比较,得到播报速度差值;将所述播报速度差值与预设差值进行比较;
若所述播报速度差值大于预设差值,则基于所述播报速度差值对点读笔的实时语音播报速度进行调节。
需要说明的是,所述用户身份信息包括用户的眼球特征信息、年龄信息、学习时间信息等。在用户使用本点读笔学习时,点读笔可以通过用户的眼球特征信息对用户进行身份识别,以得到用户的年龄信息、学习时间信息等身份数据信息,当用户处于低年龄段或累计学习时间较短时,点读笔可以自动将文字播报速度调低,降低学习难度,以提高用户的信心与学习积极性。用户处于高年龄段或累计学习时间较长时,点读笔可以自动将文字播报速度调高,提高学习难度,以训练用户的反应速度。通过本方法能够提高点读笔的多用性,实现了智能学习功能。
此外,所述一种基于数据处理的点读笔信息识别与管理方法,还包括以下步骤:
获取点读笔移动至当前文本文字上的时间节点,得到第一时间值;获取点读笔移开当前文本文字上的时间节点,得到第二时间值;
基于所述第一时间值与第二时间值计算出,点读笔的停留时间;
将所述停留时间与预设停留时间进行比较,得到停留时间差值,将所述停留时间差值与预设时间差值阈值进行比较;
若所述停留时间差值大于预设时间差值阈值,则将该文本文字标记为生僻文字;基于所述生僻文字构建得到生僻文字合集,并将所述生僻文字合集输出。
需要说明的是,在用户学习的过程中,若用户在对学习文本上的某一文字点击学习的过程中,若点读笔停留在该文字的时间上的过程,此时可以说明的是,用户对该文字的熟悉程度较低,此时将文字标记为生僻文字,并在用户每次学习完毕后,将各个生僻文字进行汇聚从而得到生僻文字合集,然后点读笔会将生僻文字合集输送至用户端上,此时用户可以借助该生僻文字合集对熟悉程度较低进行巩固训练。通过本方法能够提高用户的学习效率。
本发明另一方面公开了一种基于数据处理的点读笔信息识别与管理系统,所述点读笔信息识别与管理系统包括存储器11与处理器22,所述存储器11中包括点读笔信息识别与管理方法程序,当所述点读笔信息识别与管理方法程序被处理器22执行时,如图4所示,实现如下步骤:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
优选地,本发明的一个较佳实施例中,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
优选地,本发明的一个较佳实施例中,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于数据处理的点读笔信息识别与管理方法,其特征在于,包括以下步骤:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
2.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
3.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库,具体为:
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集;
通过局部敏感哈希算法计算所述文字模型合集中各文字模型之间的相似度,预设若干个相似度范围;
基于所述各文字模型之间的相似度与所述相似度范围对所述文字模型合集中各文字模型进行聚类并整合,得到若干个分类后的文字模型子合集;
将若干个分类后的文字模型子合集分别映射到所述初始文本语音特性数据库的不同空间中,得到分类后的文本语音特性数据库。
4.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库,具体为:
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点;构建空间坐标系,将所述文字模型对应的特征点导入所述空间坐标系中,得到各个特征点对应的坐标值,基于所述坐标值获取得到各个特征点对应的向量值;
获取每一文字模型的各个特征点对应的向量值,并对每一文字模型的各个特征点对应的向量值进行汇聚,得到每一文字模型对应的向量合集;
通过灰色关联分析法计算各文字模型子合集中任意两个文字模型对应的向量合集之间的配对率,并将所述配对率与预设配对率进行比较,得到配对率偏差值;
判断所述配对率偏差值是否大于预设偏差值阈值,若大于,则将配对率偏差值大于预设偏差值阈值所对应的任意一个文字模型由所述文字模型子合集中剔除;若不大于,则将配对率偏差值不大于预设偏差值阈值所对应的两个文字模型均由所述文字模型子合集中保留;
重复上述步骤,直至各文字模型子合集中任意一个文字模型均与其余文字模型配对完毕,得到筛选后的文字模型子合集,并基于所述筛选后的文字模型子合集得到最终文本语音特性数据库。
5.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
6.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
7.一种基于数据处理的点读笔信息识别与管理系统,其特征在于,所述点读笔信息识别与管理系统包括存储器与处理器,所述存储器中包括点读笔信息识别与管理方法程序,当所述点读笔信息识别与管理方法程序被处理器执行时,实现如下步骤:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;
提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;
获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。
8.根据权利要求7所述的一种基于数据处理的点读笔信息识别与管理系统,其特征在于,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:
通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;
基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;
基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;
若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。
9.根据权利要求7所述的一种基于数据处理的点读笔信息识别与管理系统,其特征在于,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:
获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;
选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;
在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;
将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配的文字模型对应的语音特性数据信息,将所述语音特性数据信息输出。
10.根据权利要求7所述的一种基于数据处理的点读笔信息识别与管理系统,其特征在于,对所述待识别文字图像信息进行处理,得到处理后文字图像信息,具体为:
对所述待识别文字图像信息进行特征提取,得到待识别文字图像信息对应的特征向量,构建特征向量解析模型,并将所述特征向量导入所述解析模型中进行解析,得到正交矩阵;
选取所述正交矩阵中的任一极限向量作为构建原点,基于所述构建原点构建得到特征重组坐标系;
将所述特征向量导入所述特征重组坐标系中,得到特征向量始点与特征向量终点在特征重组坐标系中的坐标值,基于所述特征向量始点与特征向量终点在特征重组坐标系中的坐标值得到特征重构点坐标合集;
构建特征重构模型,将所述特征重构点坐标合集输入到所述特征重构模型中的重构层,以对特征重构点进行特征重构,得到重构后的特征重构点,并将所述重构后的特征重构点输入到所述特征重构模型的精细匹配层中,得到精细化后的特征重构点对集,基于所述特征重构点对集对待识别文字图像信息进行重新组合处理,得到处理后文字图像信息。
CN202310457329.XA 2023-04-26 2023-04-26 一种基于数据处理的点读笔信息识别与管理方法及系统 Active CN116186325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310457329.XA CN116186325B (zh) 2023-04-26 2023-04-26 一种基于数据处理的点读笔信息识别与管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310457329.XA CN116186325B (zh) 2023-04-26 2023-04-26 一种基于数据处理的点读笔信息识别与管理方法及系统

Publications (2)

Publication Number Publication Date
CN116186325A true CN116186325A (zh) 2023-05-30
CN116186325B CN116186325B (zh) 2023-06-30

Family

ID=86450887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310457329.XA Active CN116186325B (zh) 2023-04-26 2023-04-26 一种基于数据处理的点读笔信息识别与管理方法及系统

Country Status (1)

Country Link
CN (1) CN116186325B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108168564A (zh) * 2017-12-04 2018-06-15 上海无线电设备研究所 一种基于lhd灰色关联度的航迹关联方法
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质
CN109255113A (zh) * 2018-09-04 2019-01-22 郑州信大壹密科技有限公司 智能校对系统
CN110517689A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置及存储介质
US20200005766A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Deeplearning method for voice recognition model and voice recognition device based on artificial neural network
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN115602161A (zh) * 2022-10-21 2023-01-13 南通大学(Cn) 一种中文语音增强识别及文本纠错矫正方法
CN115985320A (zh) * 2022-12-22 2023-04-18 科大讯飞股份有限公司 智能设备控制方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121757A1 (zh) * 2016-12-31 2018-07-05 深圳市优必选科技有限公司 文本语音播报方法及系统
CN108168564A (zh) * 2017-12-04 2018-06-15 上海无线电设备研究所 一种基于lhd灰色关联度的航迹关联方法
CN109087648A (zh) * 2018-08-21 2018-12-25 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质
CN109255113A (zh) * 2018-09-04 2019-01-22 郑州信大壹密科技有限公司 智能校对系统
US20200005766A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Deeplearning method for voice recognition model and voice recognition device based on artificial neural network
CN110517689A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置及存储介质
CN113420546A (zh) * 2021-06-24 2021-09-21 平安国际智慧城市科技股份有限公司 文本纠错方法、装置、电子设备及可读存储介质
CN115602161A (zh) * 2022-10-21 2023-01-13 南通大学(Cn) 一种中文语音增强识别及文本纠错矫正方法
CN115985320A (zh) * 2022-12-22 2023-04-18 科大讯飞股份有限公司 智能设备控制方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李梓钰 等: "基于中英文数字语音登陆系统的仿真研究", 电子产品世界, no. 06, pages 53 - 55 *

Also Published As

Publication number Publication date
CN116186325B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111191067A (zh) 绘本识别方法、终端设备及计算机可读存储介质
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN109271917B (zh) 人脸识别方法、装置、计算机设备和可读存储介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
US11886556B2 (en) Systems and methods for providing user validation
CN113392270A (zh) 视频处理方法、装置、计算机设备以及存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN116186325B (zh) 一种基于数据处理的点读笔信息识别与管理方法及系统
CN111652238B (zh) 一种多模型集成方法及系统
CN115690276A (zh) 虚拟形象的视频生成方法、装置、计算机设备和存储介质
CN115935358A (zh) 一种恶意软件识别方法、装置、电子设备及存储介质
CN111611427B (zh) 基于线性鉴别分析深度哈希算法的图像检索方法及系统
CN111339786B (zh) 语音处理方法、装置、电子设备及存储介质
CN114443889A (zh) 音频获取的方法、装置、电子设备及存储介质
CN114462546A (zh) 一种基于多模型融合的特征蒸馏方法、系统、设备和介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN110163222B (zh) 一种图像识别的方法、模型训练的方法以及服务器
CN112765377A (zh) 媒体流中的时段定位
CN116401394B (zh) 对象集和图像生成方法、装置、电子设备及存储介质
CN116798052B (zh) 文本识别模型的训练方法和装置、存储介质及电子设备
CN114581706B (zh) 证件识别模型的配置方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant