CN107393556B - 一种实现音频处理的方法及装置 - Google Patents

一种实现音频处理的方法及装置 Download PDF

Info

Publication number
CN107393556B
CN107393556B CN201710579857.7A CN201710579857A CN107393556B CN 107393556 B CN107393556 B CN 107393556B CN 201710579857 A CN201710579857 A CN 201710579857A CN 107393556 B CN107393556 B CN 107393556B
Authority
CN
China
Prior art keywords
audio
infant
voice signal
early education
education content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710579857.7A
Other languages
English (en)
Other versions
CN107393556A (zh
Inventor
金海岚
曹磊
任妍
王子锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201710579857.7A priority Critical patent/CN107393556B/zh
Publication of CN107393556A publication Critical patent/CN107393556A/zh
Application granted granted Critical
Publication of CN107393556B publication Critical patent/CN107393556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种实现音频处理的方法及装置,包括:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。本发明实施例根据婴幼儿的声波信号确定对早教内容进行音频播放的语音信号,提高了婴幼儿对早教内容的兴趣,提升了早期教育的效果和用户使用体验。

Description

一种实现音频处理的方法及装置
技术领域
本文涉及但不限于多媒体应用技术,尤指一种实现音频处理的方法及装置。
背景技术
早期教育,广义指从人出生到小学以前阶段的教育,狭义主要指上述阶段的早期学习。
目前,针对早期教育的产品较少;其中,公开号为CN200420022023.4的专利公开了一种多功能婴儿监护和教学机,包括:利用语音识别技术,识别出婴儿的情绪;利用无线收发功能,实现远程婴儿睡眠监控;利用定时器,实现定时语音教学和音乐教育。公开号为CN104635574A的专利公开了一种面向幼儿的早教陪护机器人系统,包括:根据用户年龄和已有用户数据来推送适用的教学资源,同时为了保证内容的丰富性,服务器定时推送最新应用及资源,方便用户自主选择下载。
上述早期教育的产品根据对婴幼儿的情绪或年龄等进行确定后,推送已存的早教内容,一定程度上可以达到早期教育的目的;但上述产品推送的早教内容有时不能吸引婴幼儿的关注,可能影响用户的使用体验。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种实现音频处理的方法及装置,能够提升用户的使用体验。
本发明实施例提供了一种实现音频处理的方法,包括:
根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;
在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。
可选的,所述根据确定的语音信号进行早教内容的音频播放之前,该方法还包括:
根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;
确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
可选的,所述确定对早教内容进行音频播放的语音信号包括:
采用原始音频波形深度生成模型对所述声波信号进行处理,生成所述对早教内容进行音频播放的语音信号;或,
获取所述声波信号的特征参数,根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号;或,
根据所述声波信号,从预设的音频数据库中根据相似性度量匹配并选择出所述对早教内容进行音频播放的语音信号。
可选的,所述特征参数包括以下部分或全部参数:
音量强度曲线、基频轨迹、梅尔倒谱参数。
可选的,所述预设的音频数据库包括:
存储有与所述婴幼儿年龄在预设时间差值内、体重在预设重量差值内、性别相同、和/或第一语言相同的语音信号的数据库。
可选的,所述根据确定的语音信号进行早教内容的音频播放包括:
所述早教内容为文本文件时,将文本文件根据所述确定的语音信号转换为音频文件后播放;
所述早教内容为音频文件时,将音频文件中的原始语音信号替换为所述确定的语音信号后播放。
另一方面,本发明实施例还提供一种实现音频处理的装置,包括:信号确定单元和播放单元;其中,
信号确定单元用于:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;
播放单元用于:在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。
可选的,所述装置还包括状态确定单元,用于:
根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;
确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
可选的,所述信号确定单元具体用于:
采用原始音频波形深度生成模型对所述声波信号进行处理,生成所述对早教内容进行音频播放的语音信号;或,
获取所述声波信号的特征参数,根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号;或,
根据所述声波信号,从预设的音频数据库中根据相似性度量匹配并选择出所述对早教内容进行音频播放的语音信号。
可选的,所述播放单元具体用于:在婴幼儿处于清醒活动状态时,
如果所述早教内容为文本文件,将文本文件根据所述确定的语音信号转换为音频文件后播放;
如果所述早教内容为音频文件,将音频文件中的原始语音信号替换为所述确定的语音信号后播放。
与相关技术相比,本申请技术方案包括:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。本发明实施例根据婴幼儿的声波信号确定对早教内容进行音频播放的语音信号,提高了婴幼儿对早教内容的兴趣,提升了早期教育的效果和用户使用体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例实现音频处理的方法的流程图;
图2为本发明实施例实现音频处理的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本发明实施例实现音频处理的方法的流程图,如图1所示,包括:
步骤100、根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;
需要说明的是,本发明实施例步骤100之前可以包括获取婴幼儿的声波信号,获取方法可以是相关技术中已有的方法,声波信号可以在婴幼儿成长过程中,根据其发音状况进行更新,即用户发现婴幼儿的发音发生变化时,就可以进行声波信号的重新获取。
步骤101、在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。
可选的,所述根据确定的语音信号进行早教内容的音频播放之前,本发明实施例方法还包括:
根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;
确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
需要说明的是,是否睁开眼睛可以通过对获取的图像采用相关技术中已有的方法进行特征分析后确定;是否哭闹可以通过相关技术中已有的实现方法对音频信号进行频率分析后确定。
可选的,所述确定对早教内容进行音频播放的语音信号包括:
方法一:采用原始音频波形深度生成模型对所述声波信号进行处理,生成所述对早教内容进行音频播放的语音信号;
需要说明的是,原始音频波形深度生成模型包括:波形网络(Wavenet)深度学习算法中的模型,Wavenet深度学习算法为相关技术中已有的实现方法,在此不做赘述。
方法二:获取所述声波信号的特征参数,根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号;
需要说明的是,根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号可以是相关技术中已有的算法。
方法三:根据所述声波信号,从预设的音频数据库中根据相似性度量匹配并选择出所述对早教内容进行音频播放的语音信号。
需要说明的是,基于相似性度量从预设的音频数据库中匹配选择所述对早教内容进行音频播放的语音信号可以包括:基于音量强度曲线、基频轨迹、和/或梅尔倒谱参数将声波信号与音频数据库中的语音信号进行相似性度量,根据相似性度量确定最接近与声波信号最接近的语音信号。相似性度量的方法为相关技术中已有的实现方法,在此不再赘述。
可选的,所述特征参数包括以下部分或全部参数:音量强度曲线、基频轨迹、梅尔倒谱参数。
可选的,所述预设的音频数据库包括:存储有与所述婴幼儿年龄在预设时间差值内、体重在预设重量差值内、性别相同、和/或第一语言相同的语音信号的数据库。
需要说明的是,本发明实施例预设的音频数据库也可以采用其他参数进行设定,例如、在存储数据时,添加区域信息,是否添加辅食信息,休息时间信息等。
可选的,所述根据确定的语音信号进行早教内容的音频播放包括:早教内容为文本文件时,将文本文件根据所述确定的语音信号转换为音频文件后播放;早教内容为音频文件时,将音频文件中的原始语音信号替换为所述确定的语音信号后播放。
需要说明的是,音频文件包括朗诵诗词、拼音、词语的没有伴音的音频文件;还包括具有伴音的朗诵或歌曲等音频文件。将音频文件中的原始语音信号替换为确定的语音信号的方法可以是相关技术中已有的实现方法,在此不做赘述。
可选的,本发明实施例还可以对婴幼儿的活动状态进行录制,以实现监护管理;还可以采集婴幼儿早教内容,以进行更新改进。
与相关技术相比,本申请技术方案包括:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。本发明实施例根据婴幼儿的声波信号确定对早教内容进行音频播放的语音信号,提高了婴幼儿对早教内容的兴趣,提升了早期教育的效果和用户使用体验。
图2为本发明实施例实现音频处理的装置的结构框图,如图2所示,包括:信号确定单元和播放单元;其中,
信号确定单元用于:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;
需要说明的是,本发明实施例还可以包括用于获取婴幼儿声波信号的获取单元,获取方法可以是相关技术中已有的方法,声波信号可以在婴幼儿成长过程中,根据其发音状况进行更新,即用户发现婴幼儿的发音发生变化时,就可以进行声波信号的重新获取。
播放单元用于:在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。
需要说明的是,本发明实施例装置可以是早教机,陪护机等婴幼儿早教期间使用的设备,也可以设置在现有的早教设备中。另外,本发明实施例装置可以设置于摇篮、婴幼儿推车等位置。
可选的,所述装置还包括状态确定单元,用于:
根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;
确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
需要说明的是,是否睁开眼睛可以通过对获取的图像采用相关技术中已有的方法进行特征分析后确定;是否哭闹可以通过相关技术中已有的实现方法对音频信号进行频率分析后确定。
可选的,所述信号确定单元具体用于:
采用原始音频波形深度生成模型对所述声波信号进行处理,生成所述对早教内容进行音频播放的语音信号;或,
获取所述声波信号的特征参数,根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号;或,
根据所述声波信号,从预设的音频数据库中根据相似性度量匹配并选择出所述对早教内容进行音频播放的语音信号。
需要说明的是,原始音频波形深度生成模型包括:波形网络(Wavenet)深度学习算法中的模型,Wavenet深度学习算法为相关技术中已有的实现方法,在此不做赘述。根据获取的所述特征参数合成所述对早教内容进行音频播放的语音信号可以是相关技术中已有的算法。基于相似性度量从预设的音频数据库中匹配选择所述对早教内容进行音频播放的语音信号可以包括:基于音量强度曲线、基频轨迹、和/或梅尔倒谱参数将声波信号与音频数据库中的语音信号进行相似性度量,根据相似性度量确定最接近与声波信号最接近的语音信号。相似性度量的方法为相关技术中已有的实现方法,在此不再赘述。
可选的,本发明实施例特征参数包括以下部分或全部参数:
音量强度曲线、基频轨迹、梅尔倒谱参数。
可选的,本发明实施例预设的音频数据库包括:
存储有与所述婴幼儿年龄、性别、体重、和/或第一语言相同的语音信号的数据库。
需要说明的是,本发明实施例预设的音频数据库也可以采用其他参数进行设定,例如、在存储数据时,添加区域信息,是否添加辅食信息,休息时间信息等。
可选的,所述播放单元具体用于:在婴幼儿处于清醒活动状态时,
如果所述早教内容为文本文件,将文本文件根据所述确定的语音信号转换为音频文件后播放;
如果所述早教内容为音频文件,将音频文件中的原始语音信号替换为所述确定的语音信号后播放。
与相关技术相比,本申请技术方案包括:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号;在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放。本发明实施例根据婴幼儿的声波信号确定对早教内容进行音频播放的语音信号,提高了婴幼儿对早教内容的兴趣,提升了早期教育的效果和用户使用体验。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (4)

1.一种实现音频处理的方法,包括:
根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号,包括:根据所述声波信号,基于相似性度量从预设的音频数据库中匹配并选择出所述对早教内容进行音频播放的语音信号;基于相似性度量从预设的音频数据库中匹配并选择出所述对早教内容进行音频播放的语音信号包括:基于音量强度曲线、基频轨迹、和/或梅尔倒谱参数,将声波信号与音频数据库中的语音信号进行相似性度量,根据相似性度量确定与声波信号最接近的语音信号;所述预设的音频数据库包括:存储有与所述婴幼儿年龄在预设时间差值内、体重在预设重量差值内、性别相同、和/或第一语言相同的语音信号的数据库;
在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放,包括:所述早教内容为音频文件时,将音频文件中的原始语音信号替换为所述确定的语音信号后播放;
所述根据确定的语音信号进行早教内容的音频播放之前,该方法还包括:根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
2.根据权利要求1所述的方法,其特征在于,所述根据确定的语音信号进行早教内容的音频播放还包括:
所述早教内容为文本文件时,将文本文件根据所述确定的语音信号转换为音频文件后播放。
3.一种实现音频处理的装置,包括:信号确定单元、播放单元和状态确定单元;其中,
信号确定单元用于:根据婴幼儿的声波信号,确定对早教内容进行音频播放的语音信号,包括:根据所述声波信号,基于相似性度量从预设的音频数据库中匹配并选择出所述对早教内容进行音频播放的语音信号;基于相似性度量从预设的音频数据库中匹配并选择出所述对早教内容进行音频播放的语音信号包括:基于音量强度曲线、基频轨迹、和/或梅尔倒谱参数,将声波信号与音频数据库中的语音信号进行相似性度量,根据相似性度量确定与声波信号最接近的语音信号;所述预设的音频数据库包括:存储有与所述婴幼儿年龄在预设时间差值内、体重在预设重量差值内、性别相同、和/或第一语言相同的语音信号的数据库;
播放单元用于:在婴幼儿处于清醒活动状态时,根据确定的语音信号进行早教内容的音频播放,包括:如果所述早教内容为音频文件,将音频文件中的原始语音信号替换为所述确定的语音信号后播放;
状态确定单元用于:根据预设的摄像头获取实时图像信息,以确定婴幼儿是否睁开眼睛;通过预设的音频传感器获取实时音频信息,以确定婴幼儿是否哭闹;确定婴幼儿睁开眼睛且未哭闹时,确定婴幼儿处于所述清醒活动状态。
4.根据权利要求3所述的装置,其特征在于,所述播放单元还用于:在婴幼儿处于清醒活动状态时,
如果所述早教内容为文本文件,将文本文件根据所述确定的语音信号转换为音频文件后播放。
CN201710579857.7A 2017-07-17 2017-07-17 一种实现音频处理的方法及装置 Active CN107393556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710579857.7A CN107393556B (zh) 2017-07-17 2017-07-17 一种实现音频处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710579857.7A CN107393556B (zh) 2017-07-17 2017-07-17 一种实现音频处理的方法及装置

Publications (2)

Publication Number Publication Date
CN107393556A CN107393556A (zh) 2017-11-24
CN107393556B true CN107393556B (zh) 2021-03-12

Family

ID=60340194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710579857.7A Active CN107393556B (zh) 2017-07-17 2017-07-17 一种实现音频处理的方法及装置

Country Status (1)

Country Link
CN (1) CN107393556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573694B (zh) * 2018-02-01 2022-01-28 北京百度网讯科技有限公司 基于人工智能的语料扩充及语音合成系统构建方法及装置
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
CN113082710B (zh) * 2021-04-23 2024-05-28 杭州雾联科技有限公司 一种音频播放方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202460102U (zh) * 2012-01-30 2012-10-03 孟贵勇 一种儿童智能语音识别玩具
CN203064008U (zh) * 2013-02-25 2013-07-17 长沙理工大学 安全娱乐监测一体化智能婴儿手推车
CN105727572A (zh) * 2016-03-14 2016-07-06 深圳市艾塔文化科技有限公司 一种玩具的基于语音识别的自学习方法和自学习装置
CN106409021A (zh) * 2016-12-15 2017-02-15 北京奇虎科技有限公司 智能故事机及智能交互系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0700166B1 (en) * 1994-09-02 2007-10-17 Matsushita Electric Industrial Co., Ltd. Modulation degree detecting device
KR100337235B1 (ko) * 2000-05-12 2002-05-22 황세연 울음소리를 이용한 유아의 상태분석장치
CN2692757Y (zh) * 2004-04-20 2005-04-13 上海上悦通讯技术有限公司 多功能婴儿监护、教学机
CN1851778A (zh) * 2006-05-26 2006-10-25 刘东援 基于多媒体技术的智能育儿辅助系统
KR101092473B1 (ko) * 2010-04-09 2011-12-13 계명대학교 산학협력단 진동수 및 지속 패턴을 이용한 아기 울음소리 감지 방법 및 장치
CN202724416U (zh) * 2012-08-31 2013-02-13 丁肇芬 多模态婴儿抚慰智能仪
CN104347066B (zh) * 2013-08-09 2019-11-12 上海掌门科技有限公司 基于深层神经网络的婴儿啼哭声识别方法及系统
CN104635574B (zh) * 2014-12-15 2017-07-25 山东大学 一种面向幼儿的早教陪护机器人系统
CN105575384A (zh) * 2016-01-13 2016-05-11 广东小天才科技有限公司 一种根据用户水平自动调整播放资源的方法、装置及设备
CN106024016B (zh) * 2016-06-21 2020-04-07 上海禹昌信息科技有限公司 一种儿童看护型机器人及辨识儿童哭声的方法
CN106531173A (zh) * 2016-11-11 2017-03-22 努比亚技术有限公司 一种基于终端的动物数据处理方法和终端
CN106653059B (zh) * 2016-11-17 2020-06-30 沈晓明 婴儿啼哭原因的自动识别方法及其系统
CN106843458B (zh) * 2016-12-12 2021-05-25 北京光年无限科技有限公司 一种用于智能机器人的人机交互方法及装置
CN106652336A (zh) * 2016-12-28 2017-05-10 北京小米移动软件有限公司 儿童声音监控的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202460102U (zh) * 2012-01-30 2012-10-03 孟贵勇 一种儿童智能语音识别玩具
CN203064008U (zh) * 2013-02-25 2013-07-17 长沙理工大学 安全娱乐监测一体化智能婴儿手推车
CN105727572A (zh) * 2016-03-14 2016-07-06 深圳市艾塔文化科技有限公司 一种玩具的基于语音识别的自学习方法和自学习装置
CN106409021A (zh) * 2016-12-15 2017-02-15 北京奇虎科技有限公司 智能故事机及智能交互系统

Also Published As

Publication number Publication date
CN107393556A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
Bergelson et al. What do North American babies hear? A large‐scale cross‐corpus analysis
CN104538024B (zh) 语音合成方法、装置及设备
Grillo et al. Influence of smartphones and software on acoustic voice measures
CN107393556B (zh) 一种实现音频处理的方法及装置
CN112489682B (zh) 音频处理方法、装置、电子设备和存储介质
US10971125B2 (en) Music synthesis method, system, terminal and computer-readable storage medium
US20190254572A1 (en) Auditory training device, auditory training method, and program
TWI731382B (zh) 語音合成的方法、裝置及設備
RU2005123387A (ru) Способ и система для обогащения аудиосигнала
WO2020015411A1 (zh) 一种训练改编水平评价模型、评价改编水平的方法及装置
US11875770B2 (en) Systems and methods for selectively providing audio alerts
CN110019962A (zh) 一种视频文案信息的生成方法及装置
CN110223365A (zh) 一种笔记生成方法、系统、装置及计算机可读存储介质
Derégnaucourt et al. Song development: In search of the error‐signal
CN116959393B (zh) 音乐生成模型的训练数据生成方法、装置、设备及介质
JP6856115B2 (ja) 情報処理方法および情報処理装置
WO2014176489A2 (en) A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
US9293124B2 (en) Tempo-adaptive pattern velocity synthesis
Yu Research on multimodal music emotion recognition method based on image sequence
CN111414669A (zh) 一种音频数据处理的方法及装置
JP2023027697A (ja) 端末装置、送信方法、送信プログラム及び情報処理システム
JP2006323008A (ja) 楽曲検索装置および楽曲検索方法
Rincon et al. A context-aware baby monitor for the automatic selective archiving of the language of infants
US20190385590A1 (en) Generating device, generating method, and non-transitory computer readable storage medium
US20230381628A1 (en) Method and system for movement guidance, electronic device and server

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant