CN115691572B - 一种基于内容智能识别的音频多功能刻录方法及系统 - Google Patents
一种基于内容智能识别的音频多功能刻录方法及系统 Download PDFInfo
- Publication number
- CN115691572B CN115691572B CN202211742591.0A CN202211742591A CN115691572B CN 115691572 B CN115691572 B CN 115691572B CN 202211742591 A CN202211742591 A CN 202211742591A CN 115691572 B CN115691572 B CN 115691572B
- Authority
- CN
- China
- Prior art keywords
- audio
- background
- feature
- image
- identification code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Television Signal Processing For Recording (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开了一种基于内容智能识别的音频多功能刻录方法及系统,应用于数据处理技术领域,该方法包括:通过获取待刻录卡片的电子扫描图片和预制刻录音频。对电子扫描图片进行内容特征提取。根据内容特征,生成身份识别标识码。将预制刻录音频和身份识别标识码关联,生成音频触发映射关系,构建音频触发决策模型。根据音频播放设备,获取音频刻录装置和卡片插入装置。对待刻录卡片的预设区域进行凸起标识码加工。将音频触发决策模型迁移至卡片插入装置,将预制刻录音频刻录于音频刻录装置。实现了同一实物卡片区域的多内容匹配,提高了装置的灵活性。解决了现有技术中由于刻录机功能的单一性,导致刻录机设备场景化适应能力较弱的技术问题。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于内容智能识别的音频多功能刻录方法及系统。
背景技术
刻录机是一种可以进行各类数据刻录的设备,如刻录音频数据视频数据等,并且刻录机不仅可以进行各类数据的刻录还可以进行各类数据的读取。现有的刻录机在刻录音频时,按照音频目录依次存储,在进行播放时可以按照目录进行选择性播放。由于刻录机功能的单一性,在用于语言培训中场景化适应能力较弱,例如少儿语音培训中可操作性较弱。
因此,在现有技术中由于刻录机功能的单一性,导致刻录机设备场景化适应能力较弱的技术问题。
发明内容
本申请通过提供一种基于内容智能识别的音频多功能刻录方法及系统,解决了在现有技术中由于刻录机功能的单一性,导致刻录机设备场景化适应能力较弱的技术问题。
本申请提供一种基于内容智能识别的音频多功能刻录方法,应用于基于内容智能识别的音频多功能刻录系统,所述系统应用于音频播放设备,包括:获取待刻录卡片的电子扫描图片和预制刻录音频;对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;根据音频播放设备,获取音频刻录装置和卡片插入装置;根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
本申请还提供了一种基于内容智能识别的音频多功能刻录系统,所述系统包括:基础数据获取模块,用于获取待刻录卡片的电子扫描图片和预制刻录音频;内容特征提取模块,用于对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;身份标识码获取模块,用于根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;映射关系获取模块,用于将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;音频触发决策模块,用于根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;装置获取模块,用于根据音频播放设备,获取音频刻录装置和卡片插入装置;标识码加工模块,用于根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;音频刻录模块,用于将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
本申请还提供了一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时,实现本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法。
拟通过本申请提出的一种基于内容智能识别的音频多功能刻录方法及系统,通过将播放内容和实物卡片进行关联,使得播放内容和卡片的识别码关联,在进行播放时通过更改实物卡片,系统获取卡片识别码就可以实现对应内容的播放,实现了同一实物卡片区域的多内容匹配,在进行少儿语言教育时提高了学生的互动能力,提高了装置的灵活性。解决了现有技术中由于刻录机功能的单一性,导致刻录机设备场景化适应能力较弱的技术问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的附图作简单地介绍。明显地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法的流程示意图;
图2为本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法生成图像背景特征、图像物体特征和图像文字特征的流程示意图;
图3为本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法获取音频触发决策模型的流程示意图;
图4为本申请实施例提供的一种基于内容智能识别的音频多功能刻录方法的系统的结构示意图;
图5为本发明实施例提供的一种基于内容智能识别的音频多功能刻录方法的系统电子设备的结构示意图。
附图标记说明:基础数据获取模块11,内容特征提取模块12,身份标识码获取模块13,映射关系获取模块14,音频触发决策模块15,装置获取模块16,标识码加工模块17,音频刻录模块18。
具体实施方式
实施例一
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上,所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
如图1所示,本申请实施例提供了一种基于内容智能识别的音频多功能刻录方法,包括:
S10:获取待刻录卡片的电子扫描图片和预制刻录音频;
S20:对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;
S30:根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;
S40:将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;
具体的,获取待刻录卡片的电子扫描图片和预制刻录音频,其中待刻录卡片为与预制刻录音频所对应的实体卡片,该待刻录卡片与预制刻录音频存在唯一对应的关系,电子扫描图片为通过图像采集设备获取的待刻录卡片的图片,预制刻录音频为预先录制的音频,包括授课音频等其他由音频记录的信息。随后,对电子扫描图片进行内容特征提取,提取图片中图像背景特征、图像物体特征和图像文字特征的一个或多个特征。进一步,根据图像背景特征、所述图像物体特征和所述图像文字特征中的一个或多个特征进行编码,生成身份识别标识码,即将图像中包含的特征进行编码使得每个图像均对应一个标识码。进一步,将预制刻录音频和所述身份识别标识码关联,使得身份识别标识码和预制刻录音频互相对应,并生成音频触发映射关系。
如图2所示,本申请实施例提供的方法S20还包括:
S21:构建内容特征提取模型,其中,所述内容特征提取模型包括背景特征分离层、物体特征分离层和文字特征分离层;
S22:将所述电子扫描图片输入所述背景特征分离层,输出所述图像背景特征;
S23:将所述电子扫描图片输入所述物体特征分离层,输出所述图像物体特征;
S24:将所述电子扫描图片输入所述文字特征分离层,输出所述图像文字特征。
具体的,构建内容特征提取模型,在内容特征提取模型包括背景特征分离层、物体特征分离层和文字特征分离层。将所述电子扫描图片输入所述背景特征分离层,输出所述图像背景特征。将所述电子扫描图片输入所述物体特征分离层,输出所述图像物体特征。将所述电子扫描图片输入所述文字特征分离层,输出所述图像文字特征。
本申请实施例提供的方法S20还包括:
S25:对初始图片集进行背景特征标识,生成背景特征标签数据集和背景标记图片集,基于AlexNet神经网络结构,训练所述背景特征分离层;
S26:对所述初始图片集进行物体特征标识,生成物体特征标签数据集和物体标记图片集,基于AlexNet神经网络结构,训练所述物体特征分离层;
S27:对所述初始图片集进行文字特征标识,生成文字特征标签数据集和文字标记图片集,基于AlexNet神经网络结构,训练所述文字特征分离层。
具体的,对初始图片集进行背景特征标识,其中初始图片集为其他多个待刻录卡片的电子扫描图片,标识初始图片集中的背景,生成背景特征标签数据集和背景标记图片集,基于AlexNet神经网络结构,训练所述背景特征分离层。对所述初始图片集进行物体特征标识,标识初始图片集中的物体特征,生成物体特征标签数据集和物体标记图片集,基于AlexNet神经网络结构,训练所述物体特征分离层。对所述初始图片集进行文字特征标识,标识初始图片集中的文字特征,生成文字特征标签数据集和文字标记图片集,基于AlexNet神经网络结构,训练所述文字特征分离层。
本申请实施例提供的方法S25还包括:
S251:对所述初始图片集、所述背景特征标签数据集和所述背景标记图片集的多组数据赋予相同权重,生成第一样本数据集;
S252:根据所述第一样本数据集,基于AlexNet神经网络结构,训练背景特征第一分离子层;
S253:提取所述背景特征第一分离子层不满足设定输出准确率的所述第一样本数据集,记为第一损失样本数据集;
S254:判断所述第一损失样本数据集的数据量是否大于预设数据量;
S255:若大于,提升所述第一损失样本数据集在所述第一样本数据集中的权重,基于AlexNet神经网络结构,训练背景特征第二分离子层;
S256:重复迭代,当第N损失样本数据集的数据量小于或等于所述预设数据量,根据损失样本数据集的数据量由大到小对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层排序,生成排序结果;
S257:根据所述排序结果对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层进行权重分布后合并,生成所述背景特征分离层。
具体的,在进行背景分离层训练时,通过对所述初始图片集、所述背景特征标签数据集和所述背景标记图片集的多组数据赋予相同权重,生成第一样本数据集,此时在第一样本数据集中每个样本被选中的概率相同。随后,根据第一样本数据集,基于AlexNet神经网络结构,训练背景特征第一分离子层,即将第一样本数据集输入未经训练的神经网络中进行训练,获取第一分离子层。进一步提取背景特征第一分离子层不满足设定输出准确率的所述第一样本数据集,记为第一损失样本数据集。判断所述第一损失样本数据集的数据量是否大于预设数据量,其中预设数据量可以根据初始图片集的数量进行适应性设置,如设置比例为百分之5或固定的图片数值。若大于,则说明模型的训练结果较差,则提升所述第一损失样本数据集在所述第一样本数据集中的权重,基于AlexNet神经网络结构,训练背景特征第二分离子层。重复迭代,当第N损失样本数据集的数据量小于或等于所述预设数据量,根据损失样本数据集的数据量由大到小对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层排序,生成排序结果。最后,根据所述排序结果对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层进行权重分布后合并,其中各分离子层的权重总和为1,且排序越靠前的分离子层的对应权重越小,将各分离层进行合并,生成所述背景特征分离层。其中物体特征分离层以及文字特征分离层的构建采用与背景特征分离层相同的构建方式,区别仅在于样本数据集的不同。
本申请实施例提供的方法S30还包括:
S31:根据所述卡片插入装置,提取已存编码集合;
S32:基于所述已存编码数据库,对所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成所述身份识别标识码,其中,所述身份识别标识码不属于所述已存编码集合;
S33:将所述身份识别标识码存储进所述卡片插入装置。
具体的,根据卡片插入装置,提取已存编码集合,其中已存编码集合为已经在卡片插入装置中进行储存的历史编码。基于已存编码数据库,其中已存编码数据库包括多个卡片插入装置,中的已存编码集合。对所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成所述身份识别标识码,避免生成的身份识别标识码与已存编码数据库冲突。最后,将所述身份识别标识码存储进所述卡片插入装置。
S50:根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;
S60:根据音频播放设备,获取音频刻录装置和卡片插入装置;
S70:根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;
S80:将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
具体的,根据身份识别标识码和音频触发映射关系,构建音频触发决策模型,其中音频触发决策模型用于通过识别标识码触发音频刻录装置的音频。根据音频播放设备,获取音频刻录装置和卡片插入装置,其中音频刻录装置为CD刻录机,音频刻录机内存储的不同的音频刻录内容。卡片插入装置为放置或展示电子扫描图片的装置,且卡片插入装置包括多个卡片插入区域,任意一个区域均可以进行卡片的插入并进行标识码的提取。根据身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工,即在待刻录卡片即为记录音频的卡片,并在预设的区域进行标识码的加工,将音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置,完成对音频刻录。使得播放内容和卡片的识别码关联,在进行播放时通过更改实物卡片,系统获取卡片识别码就可以实现对应内容的播放,实现了同一实物卡片区域的多内容匹配,在进行少儿语言教育时提高了学生的互动能力,提高了装置的灵活性。
如图3所示,本申请实施例提供的方法S50还包括:
S51:对所述身份识别标识码按照首位顺序进行分解,生成身份识别标识字符序列;
S52:遍历所述身份识别标识字符序列,基于多层级二叉树,构建身份识别模块;
S53:根据所述音频触发映射关系,构建音频选定模块;
S54:将所述身份识别模块和所述音频选定模块,生成所述音频触发决策模型。
具体的,对身份识别标识码按照首位顺序进行分解,生成身份识别标识字符序列。随后,遍历身份识别标识字符序列,基于多层级二叉树,构建身份识别模块。其中二叉树中的任意一个层级对应一个字符,通过比对后才可以进入下一个层级的比对。随后,根据所述音频触发映射关系,构建音频选定模块。将所述身份识别模块和所述音频选定模块,生成所述音频触发决策模型。所述音频触发决策模型通过对身份识别标识码进行识别,并选定对应的音频。
本申请实施例提供的方法S80还包括:
S81:将所述音频触发决策模型离线迁移至所述卡片插入装置的处理器中;
S82:根据所述音频刻录装置,获取音频名录数据库;
S83:根据所述预制刻录音频对所述音频名录数据库进行更新,将所述预制刻录音频刻录于所述音频刻录装置。
具体的,将音频触发决策模型离线迁移至所述卡片插入装置的处理器中。根据音频刻录装置,获取音频名录数据库,音频名录数据库即为储存预制刻录音频的数据库。根据预制刻录音频对所述音频名录数据库进行更新,并将所述预制刻录音频刻录于所述音频刻录装置,完成对音频的刻录。使得播放内容和卡片的识别码关联,在进行播放时通过更改卡片,系统获取卡片识别码就可以实现对应内容的播放,实现了同一卡片区域的多内容匹配,提高了装置的灵活性。
本发明实施例所提供的技术方案,通过获取待刻录卡片的电子扫描图片和预制刻录音频。对所述电子扫描图片进行内容特征提取。根据内容特征,生成身份识别标识码。将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系,构建音频触发决策模型。根据音频播放设备,获取音频刻录装置和卡片插入装置。根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工。将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。实现了同一实物卡片区域的多内容匹配,提高了装置的灵活性。解决了现有技术中由于刻录机功能的单一性,导致刻录机设备场景化适应能力较弱的技术问题。
实施例二
基于与前述实施例中一种基于内容智能识别的音频多功能刻录方法同样发明构思,本发明还提供了一种基于内容智能识别的音频多功能刻录方法的系统,系统可以由硬件和/或软件的方式来实现,一般可集成于电子设备中,用于执行本发明任意实施例所提供的方法。如图4所示,所述系统包括:
基础数据获取模块11,用于获取待刻录卡片的电子扫描图片和预制刻录音频;
内容特征提取模块12,用于对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;
身份标识码获取模块13,用于根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;
映射关系获取模块14,用于将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;
音频触发决策模块15,用于根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;
装置获取模块16,用于根据音频播放设备,获取音频刻录装置和卡片插入装置;
标识码加工模块17,用于根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;
音频刻录模块18,用于将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
进一步地,所述内容特征提取模块12还用于:
构建内容特征提取模型,其中,所述内容特征提取模型包括背景特征分离层、物体特征分离层和文字特征分离层;
将所述电子扫描图片输入所述背景特征分离层,输出所述图像背景特征;
将所述电子扫描图片输入所述物体特征分离层,输出所述图像物体特征;
将所述电子扫描图片输入所述文字特征分离层,输出所述图像文字特征。
进一步地,所述内容特征提取模块12还用于:
对初始图片集进行背景特征标识,生成背景特征标签数据集和背景标记图片集,基于AlexNet神经网络结构,训练所述背景特征分离层;
对所述初始图片集进行物体特征标识,生成物体特征标签数据集和物体标记图片集,基于AlexNet神经网络结构,训练所述物体特征分离层;
对所述初始图片集进行文字特征标识,生成文字特征标签数据集和文字标记图片集,基于AlexNet神经网络结构,训练所述文字特征分离层。
进一步地,所述内容特征提取模块12还用于:
对所述初始图片集、所述背景特征标签数据集和所述背景标记图片集的多组数据赋予相同权重,生成第一样本数据集;
根据所述第一样本数据集,基于AlexNet神经网络结构,训练背景特征第一分离子层;
提取所述背景特征第一分离子层不满足设定输出准确率的所述第一样本数据集,记为第一损失样本数据集;
判断所述第一损失样本数据集的数据量是否大于预设数据量;
若大于,提升所述第一损失样本数据集在所述第一样本数据集中的权重,基于AlexNet神经网络结构,训练背景特征第二分离子层;
重复迭代,当第N损失样本数据集的数据量小于或等于所述预设数据量,根据损失样本数据集的数据量由大到小对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层排序,生成排序结果;
根据所述排序结果对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层进行权重分布后合并,生成所述背景特征分离层。
进一步地,所述身份标识码获取模块13还用于:
根据所述卡片插入装置,提取已存编码集合;
基于所述已存编码数据库,对所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成所述身份识别标识码,其中,所述身份识别标识码不属于所述已存编码集合;
将所述身份识别标识码存储进所述卡片插入装置。
进一步地,所述音频触发决策模块15还用于:
对所述身份识别标识码按照首位顺序进行分解,生成身份识别标识字符序列;
遍历所述身份识别标识字符序列,基于多层级二叉树,构建身份识别模块;
根据所述音频触发映射关系,构建音频选定模块;
将所述身份识别模块和所述音频选定模块,生成所述音频触发决策模型。
进一步地,所述音频刻录模块18还用于:
将所述音频触发决策模型离线迁移至所述卡片插入装置的处理器中;
根据所述音频刻录装置,获取音频名录数据库;
根据所述预制刻录音频对所述音频名录数据库进行更新,将所述预制刻录音频刻录于所述音频刻录装置。
本发明实施例所提供的一种基于内容智能识别的音频多功能刻录系统可执行本发明任意实施例所提供的一种基于内容智能识别的音频多功能刻录系统方法,具备执行方法相应的功能模块和有益效果。
所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图5为本发明实施例三提供的电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备的框图。图5显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,该电子设备包括处理器31、存储器32、输入装置33及输出装置34;电子设备中处理器31的数量可以是一个或多个,图5中以一个处理器31为例,电子设备中的处理器31、存储器32、输入装置33及输出装置34可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种基于内容智能识别的音频多功能刻录方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述一种基于内容智能识别的音频多功能刻录方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于内容智能识别的音频多功能刻录方法,其特征在于,应用于基于内容智能识别的音频多功能刻录系统,所述系统应用于音频播放设备,包括:
获取待刻录卡片的电子扫描图片和预制刻录音频;
对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;
根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;
将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;
根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;
根据音频播放设备,获取音频刻录装置和卡片插入装置;
根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;
将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
2.如权利要求1所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征,包括:
构建内容特征提取模型,其中,所述内容特征提取模型包括背景特征分离层、物体特征分离层和文字特征分离层;
将所述电子扫描图片输入所述背景特征分离层,输出所述图像背景特征;
将所述电子扫描图片输入所述物体特征分离层,输出所述图像物体特征;
将所述电子扫描图片输入所述文字特征分离层,输出所述图像文字特征。
3.如权利要求2所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述构建内容特征提取模型,其中,所述内容特征提取模型包括背景特征分离层、物体特征分离层和文字特征分离层,包括:
对初始图片集进行背景特征标识,生成背景特征标签数据集和背景标记图片集,基于AlexNet神经网络结构,训练所述背景特征分离层;
对所述初始图片集进行物体特征标识,生成物体特征标签数据集和物体标记图片集,基于AlexNet神经网络结构,训练所述物体特征分离层;
对所述初始图片集进行文字特征标识,生成文字特征标签数据集和文字标记图片集,基于AlexNet神经网络结构,训练所述文字特征分离层。
4.如权利要求3所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述对初始图片集进行背景特征标识,生成背景特征标签数据集和背景标记图片集,基于AlexNet神经网络结构,训练所述背景特征分离层,包括:
对所述初始图片集、所述背景特征标签数据集和所述背景标记图片集的多组数据赋予相同权重,生成第一样本数据集;
根据所述第一样本数据集,基于AlexNet神经网络结构,训练背景特征第一分离子层;
提取所述背景特征第一分离子层不满足设定输出准确率的所述第一样本数据集,记为第一损失样本数据集;
判断所述第一损失样本数据集的数据量是否大于预设数据量;
若大于,提升所述第一损失样本数据集在所述第一样本数据集中的权重,基于AlexNet神经网络结构,训练背景特征第二分离子层;
重复迭代,当第N损失样本数据集的数据量小于或等于所述预设数据量,根据损失样本数据集的数据量由大到小对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层排序,生成排序结果;
根据所述排序结果对所述背景特征第一分离子层、所述背景特征第二分离子层直到背景特征第N分离子层进行权重分布后合并,生成所述背景特征分离层。
5.如权利要求1所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码,包括:
根据所述卡片插入装置,提取已存编码集合;
基于所述已存编码集合,对所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成所述身份识别标识码,其中,所述身份识别标识码不属于所述已存编码集合;
将所述身份识别标识码存储进所述卡片插入装置。
6.如权利要求1所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型,包括:
对所述身份识别标识码按照首位顺序进行分解,生成身份识别标识字符序列;
遍历所述身份识别标识字符序列,基于多层级二叉树,构建身份识别模块;
根据所述音频触发映射关系,构建音频选定模块;
将所述身份识别模块和所述音频选定模块,生成所述音频触发决策模型。
7.如权利要求1所述的一种基于内容智能识别的音频多功能刻录方法,其特征在于,所述将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置,包括:
将所述音频触发决策模型离线迁移至所述卡片插入装置的处理器中;
根据所述音频刻录装置,获取音频名录数据库;
根据所述预制刻录音频对所述音频名录数据库进行更新,将所述预制刻录音频刻录于所述音频刻录装置。
8.一种基于内容智能识别的音频多功能刻录系统,其特征在于,所述系统包括:
基础数据获取模块,用于获取待刻录卡片的电子扫描图片和预制刻录音频;
内容特征提取模块,用于对所述电子扫描图片进行内容特征提取,生成图像背景特征、图像物体特征和图像文字特征;
身份标识码获取模块,用于根据所述图像背景特征、所述图像物体特征和所述图像文字特征进行编码,生成身份识别标识码;
映射关系获取模块,用于将所述预制刻录音频和所述身份识别标识码关联,生成音频触发映射关系;
音频触发决策模块,用于根据所述身份识别标识码和所述音频触发映射关系,构建音频触发决策模型;
装置获取模块,用于根据音频播放设备,获取音频刻录装置和卡片插入装置;
标识码加工模块,用于根据所述身份识别标识码对所述待刻录卡片的预设区域进行凸起标识码加工;
音频刻录模块,用于将所述音频触发决策模型迁移至所述卡片插入装置,将所述预制刻录音频刻录于所述音频刻录装置。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的一种基于内容智能识别的音频多功能刻录方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的一种基于内容智能识别的音频多功能刻录方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742591.0A CN115691572B (zh) | 2022-12-30 | 2022-12-30 | 一种基于内容智能识别的音频多功能刻录方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211742591.0A CN115691572B (zh) | 2022-12-30 | 2022-12-30 | 一种基于内容智能识别的音频多功能刻录方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115691572A CN115691572A (zh) | 2023-02-03 |
CN115691572B true CN115691572B (zh) | 2023-04-07 |
Family
ID=85057100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211742591.0A Active CN115691572B (zh) | 2022-12-30 | 2022-12-30 | 一种基于内容智能识别的音频多功能刻录方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691572B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6687383B1 (en) * | 1999-11-09 | 2004-02-03 | International Business Machines Corporation | System and method for coding audio information in images |
CN103314409A (zh) * | 2011-10-28 | 2013-09-18 | 松下电器产业株式会社 | 能够维持与旧格式的兼容且能对记录内容进行编辑的记录介质、再现装置、记录装置、再现方法、记录方法 |
CN108417101A (zh) * | 2018-03-09 | 2018-08-17 | 武汉语图文化传播有限公司 | 一种直接点读发声系统及方法 |
CN111966839A (zh) * | 2020-08-17 | 2020-11-20 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3778134B2 (ja) * | 2002-05-31 | 2006-05-24 | ヤマハ株式会社 | 楽曲再生装置 |
US20210158447A1 (en) * | 2016-09-15 | 2021-05-27 | Simpsx Technologies Llc | Web Browser and Operating System Portal and Search Portal with Price Time Priority Queues |
-
2022
- 2022-12-30 CN CN202211742591.0A patent/CN115691572B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6687383B1 (en) * | 1999-11-09 | 2004-02-03 | International Business Machines Corporation | System and method for coding audio information in images |
CN103314409A (zh) * | 2011-10-28 | 2013-09-18 | 松下电器产业株式会社 | 能够维持与旧格式的兼容且能对记录内容进行编辑的记录介质、再现装置、记录装置、再现方法、记录方法 |
CN108417101A (zh) * | 2018-03-09 | 2018-08-17 | 武汉语图文化传播有限公司 | 一种直接点读发声系统及方法 |
CN111966839A (zh) * | 2020-08-17 | 2020-11-20 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115691572A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427738B (zh) | 一种基于深度学习的快速图像检索方法 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN112447189A (zh) | 语音事件检测方法、装置、电子设备及计算机存储介质 | |
CN111191067A (zh) | 绘本识别方法、终端设备及计算机可读存储介质 | |
CN113298197B (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN112069319A (zh) | 文本抽取方法、装置、计算机设备和可读存储介质 | |
CN115146162A (zh) | 一种在线课程推荐方法及系统 | |
CN112966088B (zh) | 未知意图的识别方法、装置、设备及存储介质 | |
CN111816170B (zh) | 一种音频分类模型的训练和垃圾音频识别方法和装置 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN112101346A (zh) | 一种基于目标检测的验证码识别方法及装置 | |
CN115757731A (zh) | 对话问句改写方法、装置、计算机设备及存储介质 | |
CN117114475A (zh) | 基于多维度人才评估策略的综合能力测评系统 | |
CN110223340B (zh) | 一种机器人识别图书所在架位的方法、装置 | |
CN113220847B (zh) | 基于神经网络的知识掌握程度测评方法、装置及相关设备 | |
CN115691572B (zh) | 一种基于内容智能识别的音频多功能刻录方法及系统 | |
CN116610784A (zh) | 一种保险业务场景问答推荐方法及其相关设备 | |
CN114595329B (zh) | 一种原型网络的少样本事件抽取系统及方法 | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN113468306B (zh) | 语音对话方法、装置、电子设备及存储介质 | |
CN115129902A (zh) | 媒体数据处理方法、装置、设备及存储介质 | |
CN115080745A (zh) | 基于人工智能的多场景文本分类方法、装置、设备及介质 | |
CN111552778B (zh) | 音频资源管理方法、装置、计算机可读存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |