CN105336325A - 语音信号识别处理方法及装置 - Google Patents

语音信号识别处理方法及装置 Download PDF

Info

Publication number
CN105336325A
CN105336325A CN201510624061.XA CN201510624061A CN105336325A CN 105336325 A CN105336325 A CN 105336325A CN 201510624061 A CN201510624061 A CN 201510624061A CN 105336325 A CN105336325 A CN 105336325A
Authority
CN
China
Prior art keywords
voice signal
demand type
feature database
corresponding relation
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510624061.XA
Other languages
English (en)
Inventor
褚静波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510624061.XA priority Critical patent/CN105336325A/zh
Publication of CN105336325A publication Critical patent/CN105336325A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种语音信号识别处理方法和装置,其中,该方法包括:接收待识别的语音信号;提取所述语音信号的特征信息;根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。通过本发明提供的语音信号识别处理方法和装置,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。

Description

语音信号识别处理方法及装置
技术领域
本申请涉及语音信号识别处理技术领域,尤其涉及一种语音信号识别处理方法及装置。
背景技术
在互联网应用中,语音识别的输入形式越来越多地被使用在各个场景中,输入法、搜索、导航和各种助手类工具交互中。目前绝大多数语音识别还处在有语义的语言识别,即将输入的语音识别为某一种语言文字,机器再根据语言文字来转化为具体的需求指令来执行。
然而,有些用户不具有或者丧失了语言表达的能力,以婴儿为例进行说明:新手爸妈听到宝宝哭泣时总是手足无措,除了哭泣以外,稍大的婴儿也会有笑声、不知名的发音。
由此可见,目前的语音识别技术无法识别没有语义的语音信号的目标需求,因此,亟需一种针对上述情况的语音识别处理方法。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种语音信号识别处理方法,该方法实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
本申请的第二个目的在于提出一种语音信号识别处理装置。
为达上述目的,本申请第一方面实施例提出了一种语音信号识别处理方法,包括:接收待识别的语音信号;提取所述语音信号的特征信息;根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
本申请实施例的语音信号识别处理方法,首先接收待识别的语音信号;然后提取所述语音信号的特征信息;最后根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
为达上述目的,本申请第二方面实施例提出了一种语音信号识别处理装置,包括:接收模块,用于接收待识别的语音信号;提取模块,用于提取所述语音信号的特征信息;识别模块,用于根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
本申请实施例的语音信号识别处理装置,通过接收模块接收待识别的语音信号;通过提取模块提取所述语音信号的特征信息;通过识别模块根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的语音信号识别处理方法的流程图;
图2为建立用于语音识别的特征库的预处理示意图;
图3是本申请另一个实施例的语音信号识别处理方法的流程图;
图4是本申请另一个实施例的语音信号识别处理方法的流程图;
图5是本申请另一个实施例的语音信号识别处理方法的流程图;
图6为采用特征库进行语音识别的处理示意图;
图7是本申请一个实施例的语音信号识别处理装置的结构示意图;
图8是本申请另一个实施例的语音信号识别处理装置的结构示意图;
图9是本申请另一个实施例的语音信号识别处理装置的结构示意图;
图10是本申请另一个实施例的语音信号识别处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音信号识别处理方法及装置。
图1是本申请一个实施例的语音信号识别处理方法的流程图。
如图1所示,该语音信号识别处理方法包括:
步骤101,接收待识别的语音信号。
接收其他终端设备采集并上传的待识别的语音信号。其中,其他终端设备可以通过设备上的麦克风或者录音设备采集待识别的语音信号,采集方式很多,根据实际应用需要进行选择,例如可以包括:自动采集和人工采集,以婴儿发出的语音信号为例具体说明如下:
场景一:人工采集方式,
当有婴儿发出的语音信号需要识别时,通过用户主动设置的方式,打开声音采集设备比如录音设备,采集一定长度的语音信号并上传。
场景二:自动采集,
当根据声音传感器监测到有婴儿发出的语音信号时,即自动打开声音采集设备,采集一定长度的语音信号并上传。
步骤102,提取所述语音信号的特征信息。
提取待识别的语音信号的特征信息,其中,可以根据实际应用需要选择提取语音信号不同的特征信息。举例说明:该语音信号的特征信息可以为频谱、基因周期、线谱对、线形预测倒谱和美尔频标倒谱系数等,可以根据应用需要采用不同的信号处理手段对语音信号进行处理,提取相应的特征信息。
步骤103,根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
根据特征库中语音信号的需求类型与特征样本的对应关系,识别与获取的特征信息对应的需求类型,其中,特征库中语音信号的需求类型与特征样本的对应关系是预先对大量的数据进行采集、清洗、挖掘、学习生成的,图2为建立用于语音识别的特征库的预处理示意图,参见图2,具体实施过程可以包括如下步骤:
步骤一,采集携带需求类型的语音信号的基础数据;
步骤二,对所述基础数据进行数据清洗和数据挖掘,训练语音信号的特征样本与需求类型的对应关系;
步骤三,建立包含所述对应关系的特征库。
具体地,首先,采集携带需求类型的语音信号的基础数据,其中,采集方式和来源有很多,例如:可以在相关领域获取携带需求类型的语音信号,其中的语音信号已经由相关人员标记需求类型;较为灵活的是,实时从各种网络应用中获取相关用户发送的携带需求类型的语音信号。以婴儿哭声作为无语义的语音信号为例说明如下:
通常来说,婴儿的哭声对应的需求类型包括:1、生理性啼哭;2、需求性啼哭,包括:a)饥饿性啼哭;b)口渴性啼哭;c)尿湿了啼哭;d)身体冷啼哭;e)身体热啼哭;f)困倦新啼哭;g)要妈咪抱啼哭;h)疼痛引起的啼哭;3、疾病性啼哭,包括:a)营养性疾病引起的惊哭;b)肠痉挛性啼哭;c)阵发性剧哭;d)突发尖叫啼哭;e)啼哭伴抓耳挠腮;f)疝气嵌顿性啼哭等,其中,每种类型的哭声具有一定的特征,以生理性啼哭为例:啼哭的声音响亮而不刺耳,富有节奏感;常常哭而无泪,吃奶、睡眠、玩耍都很好,每次哭得时间也很短,其他不再赘述。
基础数据的采集方式主要通过两种方式:方式一:在专业场所(如医院、月子会所等)录入婴儿的哭声,并在医生、专家的指导下对哭声的需求类型进行标注;方式二:通过软件系统(网页、移动APP等应用)引导用户对婴儿哭声进行录音并上传,并对语音信号的需求类型进行标注。
然后,对获取的基础数据进行数据清洗和数据挖掘,通过机器学习训练语音信号的特征样本与需求类型的对应关系,即采用的分析挖掘工具对语音信号进行处理获取特征信息,以及类似于关联模型等数学处理模型生成特征样本与需求类型的对应关系。具体的挖掘工具和处理模型可以根据应用需要进行选择,从而建立包含语音信号的特征样本与需求类型的对应关系的特征库(即图2所示的音频特征库)。
根据特征库中语音信号的需求类型与特征样本的对应关系,识别与获取的特征信息对应的需求类型,进而根据该需求类型可以获知该语音信号的需求意图,使得用户可以根据该需求意图进行相应的处理操作。需要注意的是,需求类型的数量可以为一个,也可以为多个。
需要说明的是,由于语音信号的具体特征信息不同,因此特征库中语音信号的需求类型与特征样本的对应关系的具体内容也不同,以及根据对应关系识别需求类型的过程也不同。在具体实现识别时,可能采用的手段包括计算、查询和比较等处理手段,应视所提取的具体的特征信息而定。
本申请实施例的语音信号识别处理方法,首先接收待识别的语音信号;然后提取所述语音信号的特征信息;最后根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
基于上述实施例,本实施例提出的语音信号识别处理方法用于识别无语义的语音信号的需求意图,由于不同场景下无语义的语音信号的特点不同,因此,为了提高处理效果,可以采用不同的信号处理手段获取不同的特征信息进行识别,下面通过图3和图4所示实施例具体说明:
图3是本申请另一个实施例的语音信号识别处理方法的流程图。
如图3所示,本实施例针对语音的振动频率不大的应用场景,比如一些暗语使用的场景,根据不同的语音信号执行不同的指令,本实施例具体可以包括以下步骤:
步骤201,提取待识别的语音信号的频谱。
步骤202,计算所述频谱与所述特征库中每个频谱样本的差值,根据所有差值和预设门限值筛选出候选频谱样本。
步骤203,根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。
具体地,首先,采用频谱分析仪对待识别的语音信号在频域中进行处理,获取语音信号的频谱;或者采用数字信号处理(DigitalSignalProcessing,DSP)对待识别的语音信号进行快速傅里叶变换,获取语音信号的频谱。
然后计算语音信号的频谱与特征库中每个频谱样本的差值,根据获取的所有差值和预设门限值筛选出候选频谱样本。其中,由于门限值设置的不同,筛选候选频谱样本的处理过程也不同,比如:将所有差值与第一门限值比较,将低于第一门限值的差值对应的频谱样本作为候选频谱样本;将所有差值与第二门限值比较,将高于第二门限值的差值对应的频谱样本作为候选频谱样本。
最后根据特征库中频谱样本和需求类型的对应关系,获取与候选频谱样本对应的需求类型,从而将该需求类型作为语音信号的意图类型。
本申请实施例的语音信号识别处理方法,首先采用频谱分析仪提取待识别的语音信号的频谱,然后计算所述频谱与所述特征库中每个频谱样本的差值,根据所有差值和预设门限值筛选出候选频谱样本,最后根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
图4是本申请另一个实施例的语音信号识别处理方法的流程图。
如图4所示,本实施例针对语音的振动频率变化较大的应用场景,比如婴儿啼哭的场景,本实施例具体可以包括以下步骤:
步骤301,检测待识别的语音信号的基因周期。
步骤302,计算所述基因周期与所述特征库中每个基因周期样本的相似度,并判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本。
步骤303,根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。
具体地,首先,检测待识别语音信号的基音周期,其中,基音周期的估计称为基音检测,基音检测的最终目标是画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。检测的方式很多,根据不同的应用场景可以选择自相关函数法、平均幅度差函数法、倒谱方法,以及小波变化等。
然后,计算获取的基因周期与特征库中每个基因周期样本的相似度,并判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于数据区间的候选基因周期样本。不同的应用场景下数据区间可以分段设置,或者实时调整。
最后,根据特征库中基因周期样本和需求类型的对应关系,获取与候选基因周期样本对应的需求类型,从而将该需求类型作为语音信号的意图类型。
本申请实施例的语音信号识别处理方法,首先检测待识别的语音信号的基因周期,然后计算所述基因周期与所述特征库中每个基因周期样本的相似度,并判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本,最后根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
图5是本申请另一个实施例的语音信号识别处理方法的流程图,图6为采用特征库识别语音信号的处理示意图,
参见如图5和图6,该语音信号识别处理方法包括:
步骤401,接收待识别的语音信号,以及与所述语音信号对应的用户数据。
具体地,接收待识别的语音信号,以及与该语音信号对应的用户数据。用户除了上传待识别的语音信号之外,还通过其他传感器和检测设备采集其他的用户数据上传,比如:通过摄像头拍摄照片和视频;通过红外测温采集实时温度等等。
步骤402,提取所述语音信号的特征信息。
步骤403,根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
步骤402和步骤403的具体实施过程参见上述实施例,此处不再赘述。
步骤404,查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型。
查询信息数据库(相当于图6所示的辅助特征库),信息数据库中记录了用户数据与类型标识的对应关系,因此,可以更加精确的根据上传的用户数据,继续从与特征信息对应的需求类型中筛选与用户数据匹配的需求类型。
步骤405,将识别出的需求类型发送给用户,并接收所述用户对所述识别结果的反馈信息。
步骤406,根据所述反馈信息更新所述特征库。
具体地,将经过上述识别处理后的需求类型发送给用户,用户根据实际情况对该识别结果进行评价或者标注正确的类型标识并反馈,进而根据用户的反馈信息更新当前的特征库,以便不断的完善特征库,更加准确高效的识别语音信号所对应的类型标识。
本申请实施例的语音信号识别处理方法,接收待识别的语音信号,以及与所述语音信号对应的用户数据,提取所述语音信号的特征信息,并根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型,进而查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型;将识别出的需求类型发送给用户,并接收所述用户对所述识别结果的反馈信息,根据所述反馈信息更新所述特征库。由此,实现了能够识别无语义语音信号的需求意图,进一步地提高了语音信号处理的全面性和适用性,以及准确性。
为了实现上述实施例,本申请还提出一种语音信号识别处理装置。
图7是本申请一个实施例的语音信号识别处理装置的结构示意图。
如图7所示,该语音信号识别处理装置包括:
接收模块11,用于接收待识别的语音信号;
提取模块12,用于提取所述语音信号的特征信息;
识别模块13,用于根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
需要说明的是,前述对语音信号识别处理方法实施例的解释说明也适用于该实施例的语音信号识别处理装置,此处不再赘述。
本申请实施例的语音信号识别处理装置,首先接收待识别的语音信号;然后提取所述语音信号的特征信息;最后根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
图8是本申请另一个实施例的语音信号识别处理装置的结构示意图,如图8所示,基于图7所示实施例,所述提取模块12,具体用于:
采用频谱分析仪提取所述语音信号的频谱;
所述识别模块13,包括:
第一计算单元131,用于计算所述频谱与所述特征库中每个频谱样本的差值;
第一筛选单元132,用于根据所有差值和预设门限值筛选出候选频谱样本;
第一获取单元133,用于根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。
需要说明的是,前述对语音信号识别处理方法实施例的解释说明也适用于该实施例的语音信号识别处理装置,此处不再赘述。
本申请实施例的语音信号识别处理装置,首先采用频谱分析仪提取待识别的语音信号的频谱,然后计算所述频谱与所述特征库中每个频谱样本的差值,根据所有差值和预设门限值筛选出候选频谱样本,最后根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
图9是本申请另一个实施例的语音信号识别处理装置的结构示意图,如图9所示,基于图7所示实施例,所述提取模块12,具体用于:
检测所述语音信号的基因周期;
所述识别模块13,包括:
第二计算单元134,用于计算所述基因周期与所述特征库中每个基因周期样本的相似度;
第二筛选单元135,用于判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本;
第二获取单元136,用于根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。
需要说明的是,前述对语音信号识别处理方法实施例的解释说明也适用于该实施例的语音信号识别处理装置,此处不再赘述。
本申请实施例的语音信号识别处理装置,首先检测待识别的语音信号的基因周期,然后计算所述基因周期与所述特征库中每个基因周期样本的相似度,并判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本,最后根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。由此,实现了能够识别无语义语音信号的需求意图,提高了语音信号处理的全面性和适用性。
图10是本申请另一个实施例的语音信号识别处理装置的结构示意图,如图10所示,基于上述实施例,以图7所示实施例为例,还包括:
采集模块14,用于采集携带需求类型的语音信号的基础数据;
处理模块15,用于对所述基础数据进行数据清洗和数据挖掘,训练语音信号的特征样本与需求类型的对应关系;
建立模块16,用于建立包含所述对应关系的特征库。
进一步地,在另一个实施例中,
所述接收模块11,还用于接收与所述语音信号对应的用户数据;
所述识别模块13,还用于查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型。
进一步地,在另一个实施例中,所述装置还包括:
发送模块17,用于将识别出的需求类型发送给用户;
更新模块18,用于接收所述用户对所述识别结果的反馈信息,并根据所述反馈信息更新所述特征库。
需要说明的是,前述对语音信号识别处理方法实施例的解释说明也适用于该实施例的语音信号识别处理装置,此处不再赘述。
本申请实施例的语音信号识别处理装置,接收待识别的语音信号,以及与所述语音信号对应的用户数据,提取所述语音信号的特征信息,并根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型,进而查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型;将识别出的需求类型发送给用户,并接收所述用户对所述识别结果的反馈信息,根据所述反馈信息更新所述特征库。由此,实现了能够识别无语义语音信号的需求意图,进一步地提高了语音信号处理的全面性和适用性,以及准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个第一处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音信号识别处理方法,其特征在于,包括以下步骤:
接收待识别的语音信号;
提取所述语音信号的特征信息;
根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
2.如权利要求1所述的语音信号识别处理方法,其特征在于,所述接收待识别的语音信号之前,还包括:
采集携带需求类型的语音信号的基础数据;
对所述基础数据进行数据清洗和数据挖掘,训练语音信号的特征样本与需求类型的对应关系;
建立包含所述对应关系的特征库。
3.如权利要求1所述的语音信号识别处理方法,其特征在于,所述提取所述语音信号的特征信息,包括:
采用频谱分析仪提取所述语音信号的频谱;
所述根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型,包括:
计算所述频谱与所述特征库中每个频谱样本的差值;
根据所有差值和预设门限值筛选出候选频谱样本;
根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。
4.如权利要求1所述的语音信号识别处理方法,其特征在于,所述提取所述语音信号的特征信息,包括:
检测所述语音信号的基因周期;
所述根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型,包括:
计算所述基因周期与所述特征库中每个基因周期样本的相似度;
判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本;
根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。
5.如权利要求1所述的语音信号识别处理方法,其特征在于,还包括:
接收与所述语音信号对应的用户数据;
所述根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型之后,还包括:
查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型。
6.如权利要求1-5任一所述的语音信号识别处理方法,其特征在于,还包括:
将识别出的需求类型发送给用户;
接收所述用户对所述识别结果的反馈信息;
根据所述反馈信息更新所述特征库。
7.一种语音信号识别处理装置,其特征在于,包括:
接收模块,用于接收待识别的语音信号;
提取模块,用于提取所述语音信号的特征信息;
识别模块,用于根据特征库中语音信号的需求类型与特征样本的对应关系,识别与所述特征信息对应的需求类型。
8.如权利要求7所述的语音信号识别处理装置,其特征在于,还包括:
采集模块,用于采集携带需求类型的语音信号的基础数据;
处理模块,用于对所述基础数据进行数据清洗和数据挖掘,训练语音信号的特征样本与需求类型的对应关系;
建立模块,用于建立包含所述对应关系的特征库。
9.如权利要求7所述的语音信号识别处理装置,其特征在于,所述提取模块,具体用于:
采用频谱分析仪提取所述语音信号的频谱;
所述识别模块,包括:
第一计算单元,用于计算所述频谱与所述特征库中每个频谱样本的差值;
第一筛选单元,用于根据所有差值和预设门限值筛选出候选频谱样本;
第一获取单元,用于根据所述特征库中频谱样本和需求类型的对应关系,获取与所述候选频谱样本对应的需求类型。
10.如权利要求7所述的语音信号识别处理方法,其特征在于,所述提取模块,具体用于:
检测所述语音信号的基因周期;
所述识别模块,包括:
第二计算单元,用于计算所述基因周期与所述特征库中每个基因周期样本的相似度;
第二筛选单元,用于判断每个基因周期样本的相似度是否属于预设的数据区间,筛选出相似度属于所述数据区间的候选基因周期样本;
第二获取单元,用于根据所述特征库中基因周期样本和需求类型的对应关系,获取与所述候选基因周期样本对应的需求类型。
11.如权利要求7所述的语音信号识别处理装置,其特征在于,
所述接收模块,还用于接收与所述语音信号对应的用户数据;
所述识别模块,还用于查询信息数据库,从与所述特征信息对应的需求类型中筛选与所述用户数据匹配的需求类型。
12.如权利要求7-11任一所述的语音信号识别处理装置,其特征在于,还包括:
发送模块,用于将识别出的需求类型发送给用户;
更新模块,用于接收所述用户对所述识别结果的反馈信息,并根据所述反馈信息更新所述特征库。
CN201510624061.XA 2015-09-25 2015-09-25 语音信号识别处理方法及装置 Pending CN105336325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510624061.XA CN105336325A (zh) 2015-09-25 2015-09-25 语音信号识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510624061.XA CN105336325A (zh) 2015-09-25 2015-09-25 语音信号识别处理方法及装置

Publications (1)

Publication Number Publication Date
CN105336325A true CN105336325A (zh) 2016-02-17

Family

ID=55286813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510624061.XA Pending CN105336325A (zh) 2015-09-25 2015-09-25 语音信号识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN105336325A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
CN107705786A (zh) * 2017-09-27 2018-02-16 努比亚技术有限公司 一种语音处理方法、装置及计算机可读存储介质
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、系统及哭声原因辨别方法
CN112381450A (zh) * 2020-12-02 2021-02-19 广州要啥网信息技术有限公司 基于人工智能的社会化需求处理方法、装置、计算机设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
CN1268732A (zh) * 2000-03-31 2000-10-04 清华大学 基于语音识别专用芯片的特定人语音识别、语音回放方法
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
CN102436807A (zh) * 2011-09-14 2012-05-02 苏州思必驰信息科技有限公司 自动生成重读音节语音的方法和系统
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
US20140200889A1 (en) * 2012-12-03 2014-07-17 Chengjun Julian Chen System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
CN104851424A (zh) * 2015-04-06 2015-08-19 何涛 一种语音辨识照顾护理的方法及其系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
CN1268732A (zh) * 2000-03-31 2000-10-04 清华大学 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN102436807A (zh) * 2011-09-14 2012-05-02 苏州思必驰信息科技有限公司 自动生成重读音节语音的方法和系统
CN103680495A (zh) * 2012-09-26 2014-03-26 中国移动通信集团公司 语音识别模型训练方法和装置及终端
US20140200889A1 (en) * 2012-12-03 2014-07-17 Chengjun Julian Chen System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN103280220A (zh) * 2013-04-25 2013-09-04 北京大学深圳研究生院 一种实时的婴儿啼哭声识别方法
CN104851424A (zh) * 2015-04-06 2015-08-19 何涛 一种语音辨识照顾护理的方法及其系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
CN107705786A (zh) * 2017-09-27 2018-02-16 努比亚技术有限公司 一种语音处理方法、装置及计算机可读存储介质
CN109903780A (zh) * 2019-02-22 2019-06-18 宝宝树(北京)信息技术有限公司 哭声原因模型建立方法、系统及哭声原因辨别方法
CN112381450A (zh) * 2020-12-02 2021-02-19 广州要啥网信息技术有限公司 基于人工智能的社会化需求处理方法、装置、计算机设备

Similar Documents

Publication Publication Date Title
CN105336325A (zh) 语音信号识别处理方法及装置
US20180214061A1 (en) Systems for speech-based assessment of a patient's state-of-mind
CN109817227B (zh) 一种养殖场的异常声音监测方法和系统
CN110060685A (zh) 语音唤醒方法和装置
WO2016209888A1 (en) Processing speech signals in voice-based profiling
Stoeger et al. Age-group estimation in free-ranging African elephants based on acoustic cues of low-frequency rumbles
Reggiannini et al. A flexible analysis tool for the quantitative acoustic assessment of infant cry
WO2017080235A1 (zh) 录音编辑方法及录音装置
CN106205652A (zh) 一种音频跟读评测方法及装置
US10529357B2 (en) Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN110753922A (zh) 基于情绪的内容推荐方法、装置、头戴式设备和存储介质
CN116057627A (zh) 提供用于自动婴幼儿啼哭评估的数据的计算机实施的方法
CN110019922B (zh) 一种音频高潮识别方法和装置
US10535340B2 (en) Systems and methods for identifying voice
CN104252872A (zh) 歌词生成方法和智能终端
DK1511007T3 (da) Fölgning af resonansrumsresonans under anvendelse af en målstyret begrænsning
CN105513610A (zh) 一种声音分析方法及装置
KR101524918B1 (ko) 생체 신호를 이용한 감정 인식 방법 및 그 장치
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
CN116631380B (zh) 一种音视频多模态的关键词唤醒方法及装置
CN115206347A (zh) 肠鸣音的识别方法、装置、存储介质及计算机设备
Tejaswini et al. Recognition of infant cries using wavelet derived mel frequency feature with SVM classification
CN113936663A (zh) 困难气道的检测方法及其电子设备和存储介质
CN114512122A (zh) 声学模型训练方法、语音识别算法、存储介质及电子设备
CN114652280A (zh) 睡眠质量监测系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160217