CN109410985B - 哭声智能翻译手表 - Google Patents

哭声智能翻译手表 Download PDF

Info

Publication number
CN109410985B
CN109410985B CN201811240895.0A CN201811240895A CN109410985B CN 109410985 B CN109410985 B CN 109410985B CN 201811240895 A CN201811240895 A CN 201811240895A CN 109410985 B CN109410985 B CN 109410985B
Authority
CN
China
Prior art keywords
equation
linear
feature
crying
intelligent translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201811240895.0A
Other languages
English (en)
Other versions
CN109410985A (zh
Inventor
潘正祥
冯庆祥
郑为民
吴祖扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201811240895.0A priority Critical patent/CN109410985B/zh
Publication of CN109410985A publication Critical patent/CN109410985A/zh
Application granted granted Critical
Publication of CN109410985B publication Critical patent/CN109410985B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种哭声智能翻译手表,具体涉及语音智能识别技术领域。其解决了现有的哭声识别主要关注在识别小孩有没有在哭泣,并没有关注小孩为什么哭泣,不能将小孩的哭声翻译成对应的信号,便于家长及时的了解孩子的需求的不足。哭声智能翻译手表,包括声音采集器和智能翻译系统,所述声音采集器将采集的哭声信息输送至智能翻译系统,智能翻译系统利用基于组合特征的系数表示方法对声音信息进行判别认证,经过判别认证的声音信息对应的内容以语音形式输出。

Description

哭声智能翻译手表
技术领域
本发明涉及语音智能识别技术领域,具体涉及一种哭声智能翻译手表。
背景技术
小孩哭声识别系统是目前儿童护理系统当中非常关键的一个子系统,在很多企业和科研单位受到很大的关注。小孩哭声识别系统主要用于很好的识别小孩在哭及因为什么原因哭。目前主要的小孩哭声识别技术主要有:防丢失哭声求助智能手环。智能化多功能婴幼儿伴护系统,现有的哭声识别主要关注在识别小孩有没有在哭泣,并没有关注小孩为什么哭泣,不能将小孩的哭声翻译成对应的信号,便于家长及时的了解孩子的需求。
发明内容
本发明的目的是针对上述不足,提出了一种基于智能翻译系统对哭声声音信息认证,以语音形式反馈出哭声信息表示的含义的哭声智能翻译手表。
本发明具体采用如下技术方案:
哭声智能翻译手表,包括声音采集器和智能翻译系统,所述声音采集器将采集的哭声信息输送至智能翻译系统,智能翻译系统利用基于组合特征的系数表示方法对声音信息进行判别认证,经过判别认证的声音信息对应的内容以语音形式输出。
优选地,所述基于组合特征的系数表示方法包括稀疏编码方法,该方法以声音采集器采集的哭声信息为测试样本;
设定非线性特征映射函数,Φ(.):Rq→RQ(q<<Q)该函数将测试样本x和扩展原型集
Figure GDA0001886524760000016
按照式(1)映射到高维特征空间
Figure GDA0001886524760000011
x→Φ(x) (1)
将SRC中使用的原始特征定义为测试样本的“线性特征”,基于核函数的SRC使用的高维特征作为测试样本的“非线性特征”;将原始线性特征和非线性特征按照式(2)结合起来
Figure GDA0001886524760000012
其中,
Figure GDA0001886524760000013
是测试样板的线性特征,
Figure GDA0001886524760000014
是测试样本的非线性特征,Z是新的原型集,z是新的测试样本;将稀疏编码的优化问题表述为式(3)
Figure GDA0001886524760000015
Figure GDA0001886524760000021
是核矩阵,K采用式(4)进行计算
Figure GDA0001886524760000022
在将非线性特征变换到低维空间之后,组合特征矩阵采用式(5)表示
Figure GDA0001886524760000023
其中,d是伪变换矩阵K的保留维数,根据式(6)提出组合-多特征模型
Figure GDA0001886524760000024
其中Fcom表示组合特征,F1,F2,...,Fv表示等待组合的v特征,w1,w2,...,wv是加权值和
Figure GDA0001886524760000025
Figure GDA0001886524760000026
表示样本的第v个特征中的所有点的平方的总和。
优选地,取线性特征和非线性特征的贡献相同,即w1和w2都为0.5,将X和K的每一列标准化为加权为式(7)
Figure GDA0001886524760000027
测试样本的非线性特征也被转换为式(8)
Figure GDA0001886524760000028
测试样品的组合特征可以描述为式(9)
Figure GDA0001886524760000029
然后采用式(10)测试样本
Figure GDA00018865247600000210
本发明具有如下有益效果:
具体实施方式
下面结合具体实施例对本发明的具体实施方式做进一步说明:
SRC:(sparse representation-based classifier)基于稀疏表达的分类。
哭声智能翻译手表(哭声可以着重针对小孩的哭声),包括声音采集器和智能翻译系统,所述声音采集器将采集的哭声信息输送至智能翻译系统,智能翻译系统利用基于组合特征的系数表示方法对声音信息进行判别认证,经过判别认证的声音信息对应的内容以语音形式输出。
基于组合特征的系数表示方法包括稀疏编码方法,该以声音采集器采集的哭声信息为测试样本,在算法部分,测试样本可以为若干5秒左右(或者10s左右)的声音片断作为一个样本。
测试样本包括两部分数据:实施采集的数据x和预先采集的数据
实施采集数据是实施采集出手环旁边的声音,然后使用分类方法去判断这个声音是不是小孩哭声是那种类型的哭声(例如饿了、困了、厌烦了或者身体不舒服等)。
预先采集的数据(就是手环生产前采集的训练数据)
X_c这个大字母里面有很多小字母,也就是有很多样本,样本个数是N_c(c=1,2,3,4,5),c=1代表是小孩没有哭,c=2代表是小孩饿了的哭声c=3代表小孩困了的哭声c=4代表小孩烦了的哭声c=5代表小孩身体不舒服的哭声,X_c里面的声音样本是提前采集好的可以有很多也就是N_c可以有很多,(例如100或者300等)一般来说N_c越大识别精度越高不过计算量也会增加。
分类方法最后会输出一个类标,即返回一个数值c=1?2?3?4?5?代表不同种类的哭声。
系数表示(SRC)仅使用原型集来解决线性问题,但是测试样本不容易被数据集线性编码。因此,基于核函数的稀疏表示使用原型集的非线性特征来对测试样本进行分类,设定非线性特征映射函数,Φ(.):Rq→RQ(q<<Q)该函数将测试样本x和扩展原型集
Figure GDA0001886524760000031
按照式(1)映射到高维特征空间
Figure GDA0001886524760000032
x→Φ(x) (1)
将SRC中使用的原始特征定义为测试样本的“线性特征”,基于核函数的SRC使用的高维特征作为测试样本的“非线性特征”;将原始线性特征和非线性特征按照式(2)结合起来
Figure GDA0001886524760000033
其中,
Figure GDA0001886524760000034
是测试样板的线性特征,
Figure GDA0001886524760000035
是测试样本的非线性特征,Z是新的原型集,z是新的测试样本;将稀疏编码的优化问题表述为式(3)
Figure GDA0001886524760000041
由于Q非常大,优化问题不能直接解决,另
Figure GDA0001886524760000042
是核矩阵,K采用式(4)进行计算
Figure GDA0001886524760000043
在将非线性特征变换到低维空间之后,组合特征矩阵采用式(5)表示
Figure GDA0001886524760000044
其中,d是伪变换矩阵K的保留维数,根据式(6)提出组合-多特征模型
Figure GDA0001886524760000045
其中Fcom表示组合特征,F1,F2,...,Fv表示等待组合的v特征,w1,w2,...,wv是加权值和
Figure GDA0001886524760000046
Figure GDA0001886524760000047
表示样本的第v个特征中的所有点的平方的总和。
取线性特征和非线性特征的贡献相同,即w1和w2都为0.5,将X和K的每一列标准化为加权为式(7)
Figure GDA0001886524760000048
测试样本的非线性特征也被转换为式(8)
Figure GDA0001886524760000049
测试样品的组合特征可以描述为式(9)
Figure GDA00018865247600000410
然后采用式(10)测试样本
Figure GDA00018865247600000411
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (1)

1.哭声智能翻译手表,其特征在于,包括声音采集器和智能翻译系统,所述声音采集器将采集的哭声信息输送至智能翻译系统,智能翻译系统利用基于组合特征的系数表示方法对声音信息进行判别认证,经过判别认证的声音信息对应的内容以语音形式输出;
所述基于组合特征的系数表示方法包括稀疏编码方法,该方法以声音采集器采集的哭声信息为测试样本;
设定非线性特征映射函数,Φ(.):Rq→RQ(q<<Q)该函数将测试样本x和扩展原型集
Figure FDA00038245171900000112
按照式(1)映射到高维特征空间
Figure FDA0003824517190000011
x→Φ(x) (1)
将SRC中使用的原始特征定义为测试样本的“线性特征”,基于核函数的SRC使用的高维特征作为测试样本的“非线性特征”;将原始线性特征和非线性特征按照式(2)结合起来
Figure FDA0003824517190000012
其中,
Figure FDA0003824517190000013
是测试样板的线性特征,
Figure FDA0003824517190000014
是测试样本的非线性特征,Z是新的原型集,z是新的测试样本;将稀疏编码的优化问题表述为式(3)
Figure FDA0003824517190000015
Figure FDA0003824517190000016
是核矩阵,K采用式(4)进行计算
Figure FDA0003824517190000017
在将非线性特征变换到低维空间之后,组合特征矩阵采用式(5)表示
Figure FDA0003824517190000018
其中,d是伪变换矩阵K的保留维数,根据式(6)提出组合-多特征模型
Figure FDA0003824517190000019
其中Fcom表示组合特征,F1,F2,...,Fv表示等待组合的v特征,w1,w2,...,wv是加权值和
Figure FDA00038245171900000110
Figure FDA00038245171900000111
表示样本的第v个特征中的所有点的平方的总和;
取线性特征和非线性特征的贡献相同,即w1和w2都为0.5,将X和K的每一列标准化为加权为式(7)
Figure FDA0003824517190000021
测试样本的非线性特征也被转换为式(8)
Figure FDA0003824517190000022
测试样品的组合特征可以描述为式(9)
Figure FDA0003824517190000023
然后采用式(10)测试样本
Figure FDA0003824517190000024
CN201811240895.0A 2018-10-24 2018-10-24 哭声智能翻译手表 Expired - Fee Related CN109410985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811240895.0A CN109410985B (zh) 2018-10-24 2018-10-24 哭声智能翻译手表

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811240895.0A CN109410985B (zh) 2018-10-24 2018-10-24 哭声智能翻译手表

Publications (2)

Publication Number Publication Date
CN109410985A CN109410985A (zh) 2019-03-01
CN109410985B true CN109410985B (zh) 2022-11-04

Family

ID=65469363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811240895.0A Expired - Fee Related CN109410985B (zh) 2018-10-24 2018-10-24 哭声智能翻译手表

Country Status (1)

Country Link
CN (1) CN109410985B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177265A (zh) * 2013-03-25 2013-06-26 中山大学 基于核函数与稀疏编码的高清图像分类方法
CN103440513A (zh) * 2013-09-17 2013-12-11 西安电子科技大学 基于稀疏非负张量分解的大脑特定视觉认知状态判定方法
CN106531192A (zh) * 2016-12-09 2017-03-22 电子科技大学 基于冗余特征和多词典表示的语音情感识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3564501B2 (ja) * 2001-03-22 2004-09-15 学校法人明治大学 乳幼児の音声解析システム
CN105893954B (zh) * 2016-03-30 2019-04-23 深圳大学 一种基于核机器学习的非负矩阵分解人脸识别方法及系统
CN107886953A (zh) * 2017-11-27 2018-04-06 四川长虹电器股份有限公司 一种基于表情和语音识别的婴儿哭声翻译系统
CN108564967B (zh) * 2018-03-14 2021-05-18 南京邮电大学 面向哭声检测系统的Mel能量声纹特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177265A (zh) * 2013-03-25 2013-06-26 中山大学 基于核函数与稀疏编码的高清图像分类方法
CN103440513A (zh) * 2013-09-17 2013-12-11 西安电子科技大学 基于稀疏非负张量分解的大脑特定视觉认知状态判定方法
CN106531192A (zh) * 2016-12-09 2017-03-22 电子科技大学 基于冗余特征和多词典表示的语音情感识别方法及系统

Also Published As

Publication number Publication date
CN109410985A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
Alajlan et al. TinyML: Enabling of inference deep learning models on ultra-low-power IoT edge devices for AI applications
CN112100383B (zh) 一种面向多任务语言模型的元-知识微调方法及平台
Siedlecki Jr et al. Location, handshape & movement: Young children's acquisition of the formational aspects of American Sign Language
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN110020671B (zh) 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN109033374A (zh) 基于贝叶斯分类器的知识图谱检索方法
WO2021120779A1 (zh) 一种基于人机对话的用户画像构建方法、系统、终端及存储介质
CN112101044B (zh) 一种意图识别方法、装置及电子设备
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN104616030A (zh) 一种基于极限学习机算法的识别方法
CN106295245A (zh) 基于Caffe的堆栈降噪自编码基因信息特征提取的方法
CN112288013A (zh) 基于元度量学习的小样本遥感场景分类方法
Ravenscroft et al. Machine learning methods for automatic silent speech recognition using a wearable graphene strain gauge sensor
CN111125370A (zh) 一种适应小样本的关系抽取方法
CN113946685A (zh) 一种融合规则和深度学习的渔业标准知识图谱构建方法
CN106096642A (zh) 基于鉴别局部保持投影的多模态情感特征融合方法
CN109459235A (zh) 基于集成学习增强型齿轮单故障类别诊断方法
Zhang et al. Detecting unfavorable driving states in electroencephalography based on a PCA sample entropy feature and multiple classification algorithms
CN114528944A (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN112967710B (zh) 一种低资源客家方言点识别方法
CN109410985B (zh) 哭声智能翻译手表
CN114117078A (zh) 一种基于d-s证据理论的电力异构知识融合的方法
CN103020046B (zh) 基于人名起源分类的人名音译方法
CN107704580A (zh) 基于用户时期的问答推送方法、装置、服务器及存储介质
CN107844474A (zh) 基于层叠条件随机场的疾病数据命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221104