CN114792521A - 基于语音识别的智能答复方法及装置 - Google Patents
基于语音识别的智能答复方法及装置 Download PDFInfo
- Publication number
- CN114792521A CN114792521A CN202210390255.8A CN202210390255A CN114792521A CN 114792521 A CN114792521 A CN 114792521A CN 202210390255 A CN202210390255 A CN 202210390255A CN 114792521 A CN114792521 A CN 114792521A
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- audio
- voice information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004044 response Effects 0.000 claims abstract description 52
- 230000002996 emotional effect Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 35
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008909 emotion recognition Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010013954 Dysphoria Diseases 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出了一种基于语音识别的智能答复方法及装置,该方法包括:获取待识别的语音信息;对待识别的语音信息进行识别,以确定语音信息对应的文本;对语音进行特征提取,以确定音频特征信息;根据音频特征信息,确定语音信息对应的性别特征标签;将语音信息输入至年龄识别模型中,以确定年龄特征标签;根据音频特征信息以及文本信息,确定情感特征标签;根据情感特征标签,年龄特征标签、性别特征标签以及文本信息,确定待答复的语句信息以及待选用的音频特征;基于待答复的语句信息以及待选用的音频特征,生成待答复的内容。由此,可以结合用户的情感特征、年龄特征、性别特征以及文本信息,从而使得生成的答复内容更加可靠、准确、人性化。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于语音识别的智能答复方法及装置。
背景技术
随着智能语音技术的发展,基于智能语音的产品层出不穷,大量的人机交互产品需要对说话人本身进行区分,通过人发出的语音进行精确的识别和区分可以使得人机交互产品为用户提供更好的答复,进而使得用户感到放松,亲切,起到了陪伴用户的作用。由于相关技术中仅根据语音信息中包含的文本这一单一的特征,确定了答复文本这一内容,不仅由于特征单一答复的结果准确度不高,而且内容非常单一,让用户感觉非常枯燥,机械化。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
本公开第一方面实施例提出了一种基于语音识别的智能答复方法,包括:
获取待识别的语音信息;
对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息;
对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息;
根据音频特征信息,确定所述语音信息对应的性别特征标签;
将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签;
根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签;
根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征;
基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。
本公开第二方面实施例提出了一种基于语音识别的智能答复装置,包括:
获取模块,用于获取待识别的语音信息;
第一确定模块,用于对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息;
第二确定模块,用于对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息;
第三确定模块,用于根据音频特征信息,确定所述语音信息对应的性别特征标签;
第四确定模块,用于将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签;
第五确定模块,用于根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签;
第六确定模块,用于根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征;
生成模块,用于基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。
本公开第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本公开第一方面实施例提出的基于语音识别的智能答复方法。
本公开第四方面实施例提出了一种非临时性计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如本公开第一方面实施例提出的基于语音识别的智能答复方法。
本公开第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行本公开第一方面提出的基于语音识别的智能答复方法。
本公开提供的基于语音识别的智能答复方法、装置、计算机设备及存储介质,存在如下有益效果:
本公开实施例中,首先获取待识别的语音信息,对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息,对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息,根据音频特征信息,确定所述语音信息对应的性别特征标签;将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签,根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签,根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。由此,在获取到用户的语音信息之后,可以对特征进行有效地提取,之后可以结合用户的情感特征、年龄特征、性别特征以及文本信息,从而使得生成的答复内容更加可靠、准确、人性化,且提供了视觉答复内容和听觉答复内容,更符合用户的交流习惯,多角度,全方位地提高用户的交流体验感。
本公开附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本公开实施例所提供的基于语音识别的智能答复方法的流程示意图;
图2为本公开实施例所提供的基于语音识别的智能答复装置的结构框图;
图3示出了适于用来实现本公开实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本公开的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。
下面参考附图描述本公开实施例的基于语音识别的智能答复方法、装置、计算机设备和存储介质。
图1为本公开实施例所提供的基于语音识别的智能答复方法的流程示意图。
本公开实施例中的基于语音识别的智能答复方法的执行主体为基于语音识别的智能答复装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在终端设备中,下面将以“终端设备”作为执行主体对本公开第一实施例中提出的基于语音识别的智能答复方法进行说明,在此不进行限定。
需要说明的是,本公开所提供的基于语音识别的智能答复方法,可以由终端设备做为执行主体进行执行,其中,终端设备可以为一种语音交互设备,其可以通过接收到用户的语音信息之后,进行相应的答复。其中,该答复可以为对用户问题的解答,或者,也可以为跟用户之间的语音沟通。
如图1所示,该基于语音识别的智能答复方法可以包括以下步骤:
步骤101,获取待识别的语音信息。
其中,待识别的语音信息可以为需要进行识别的一段连续的语音,例如一个句子,也可以为多个句子,也即一段话。
需要说明的是,终端设备可以在确定交互显示屏幕中的指定控件被触发,获取待识别的语音信息。其中,终端设备可以为交互设备,也即可以与用户实现交互的电子设备。终端设备可以通过接收用户的交互请求,并对交互请求进行处理,以生成交互请求对应的结果,进而通过语音、文本、图片等形式向用户展示结果。
其中,交互显示屏幕可以为终端设备的显示装置,其可以为任意形式的电子屏幕。用户可以通过触摸或者点击长按交互显示屏幕中的控件,比如按钮或者按键,从而终端设备即可接收到交互显示屏幕发送的交互请求,进而可以启动语音识别装置进入工作状态,以实时获取环境中用户发出的语音信息。
作为另一种可能实现的方式,终端设备可以在确定接收到的蓝牙广播信息中包含目标物理地址的情况下,获取待识别的语音信息。
可以理解的是,终端设备可以在只有确定当前需要进行语音交互的人为指定用户的情况下,会根据用户的语音进行相应的答复。
比如,可以在用户在交互显示屏幕中输入了预先注册的密码,或者进行了有效的登录。或者,还可以为用户通过所持的电子设备,比如手机,可穿戴设备或者平板电脑,开启了蓝牙模组,从而蓝牙模组可以对外发送蓝牙广播信息。
其中,蓝牙广播信息中可以包含有用户所用设备的物理地址或者厂商信息,在终端设备获取到蓝牙广播消息中包含的物理地址为目标物理地址的情况下,可以触发语音交互功能,从而开始获取待识别的语音信息。
具体的,终端设备中可以安装有蓝牙模组,在终端设备处于工作状态的情况下,蓝牙模组可以实时的获取环境中的蓝牙广播消息。
本公开中,用户在需要进行语音识别时,可以通过已注册的蓝牙设备发送蓝牙广播信息,其中,所述蓝牙广播信息中包含用户所持设备的MAC地址,在确定该蓝牙广播消息中包含该MAC地址时,也即说明用户此时有进行语音交互的需求,从而终端设备即可开始采集用户的语音信息。
步骤102,对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息。
其中,文本信息是指语音信息中包含的文本,即将语音信息中包含的内容用文本的形式显示。
本公开实施例中,语音识别用于把语音信息对应的语音信号转变为对应的文本信息。可选的,可以采用隐马尔可夫模型(Hidden Markov Model,HMM)对输入语音进行语音识别,以确定输入语音对应的文本信息;或者,也可以通过将获取的语音信号与语音数据库中语音进行比对,找到相同的语音,进而得到语音数据库中语音对应的文本信息作为输入语音对应的文本信息。本公开对此不做限定。
步骤103,对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息。
其中,音频特征信息可以为语音信息对应的语音信号的频率,幅值等信息。
需要说明的是,语音信号的频率、幅值等特征可以反映出输入语音对应的说话者的情绪信息。比如,语音信息对应的语音信号的频率较高,表示说话者语速较快,情绪可能较为急躁;语音信号的频率正常时,表示说话者的情绪可能较为轻松。语音信号的幅值较高时,表示说话者的声音较大,情绪可能较为高涨时。语音信号对应的幅值较低时,表示说话者的声音较小,情绪可能较为低迷。
可选的,可以采用快速傅里叶变换对输入语音进行音频特征提取,以确定输入语音对应的频率、幅值等。或者,也可以使用matlab工具中的max函数提取输入语音对应的幅值,使用pitch函数提取输入语音中的频率。本公开对此不做限定。
可选的,可以采用梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC),对语音信息中的每帧音频进行音频特征提取。或者,也可以采用感知线性预测系数(Perceptual Linear Predictive,plp),对语音信息中的每帧音频进行音频特征提取。或者,还可以采用过滤器组(FilterBank,Fbank)对语音信息中的每帧音频进行音频特征提取。本公开对此不做限定。
可选的,可以按照指定的时间长度,对所述语音信息进行分帧并根据所述语音信息中每帧语音对应的第一幅值,确定所述输入语音对应的第二幅值,之后根据第二幅值所属的范围,确定所述输入语音对应的幅值特征。
可选的,在对语音信息进行音频特征提取之前可以先对语音信息进行分帧处理,即将语音信息切分为固定长度的小段。由于对语音信息进行音频特征提取时,采用采用傅里叶变换将语音信息从时域信号转换为频域信号,而傅里叶变换适用于平稳的信号,因此,为了保证音频数据的短时平稳性,一般取20毫秒(ms)-40ms音频为一帧,比如,每帧音频的长度可以为25ms,本公开对此不做限定。
可选的,在对语音信息进行分帧时,为了避免窗边界对语音信息的遗漏,对帧做偏移时候,要有帧迭(也称帧移),即每帧语音信息之间需要重叠一部分。一般取帧长的一半作为帧移。比如,帧长为25ms,帧移可以为10ms。本公开对此不做限定。
其中,第一幅值可以为每帧语音对应的幅值中的最大值。
其中,第二幅值可以为每帧语音对应的第一幅值中的最大值。即将输入语音对应的最大幅值作为输入语音对应的第二幅值。
其中,幅值特征可以包括:高幅值、中幅值及低幅值等,本公开对此不做限定。需要说明的是,每个幅值特征对应不同的幅值范围,本公开实施例中,可以根据第二幅值所属的范围,确定输入语音对应的幅值特征。
其中,音频特征可以包括频率特征和幅值特征。幅值特征可以包括:高幅值、中幅值及低幅值;频率特征可以包括:高频、中频及低频等。
作为一种可能实现的方式,还可以将得到的语音信息进行音频特征分析之后,将得到的频率及幅值按从大到小的顺序进行排序,进而将第一阈值范围内的频率标注为高频、将第二阈值范围内的频率标注为中频、第三阈值范围内的频率标注为低频;将第四阈值范围内的幅值标注为高幅值、将第五阈值范围内的幅值标注为中幅值、第六阈值范围内的幅值标注为低幅值。
举例来说,若全部的语音信息对应的频率范围为[a,b],则第一阈值范围可以为[b-20%*(b-a),b],即将频率范围内最高的10%的频率标注为高频,第二阈值范围可以为[a+20%*(b-a),b-20%*(b-a)],即将频率范围内20%-80%的频率标注为中频,第三阈值范围可以为[a,a+20%*(b-a)],即将频率范围内最低的10%的频率标注为低频。
举例来说,若全部的语音信息对应的幅值范围为[c,d],第四阈值范围可以为[d-20%*(d-c),d],即将幅值范围内最高的20%的幅值标注为高幅值,第五阈值范围可以为[c+20%*(d-c),d-20%*(d-c)],即将幅值范围内20%-80%的幅值标注为中幅值,第六阈值范围可以为[c,c+20%*(d-c)],即将幅值范围内最低的20%的幅值标注为低幅值。
需要说明的是,上述示例只是简单的举例说明,不能作为本公开实施例中第一阈值范围、第二阈值范围、第三阈值范围、第四阈值范围、第五阈值范围、第六阈值范围等的具体限定。
将第四阈值范围内的幅值标注为高幅值、将第五阈值范围内的幅值标注为中幅值、第六阈值范围内的幅值标注为低幅值。
步骤104,根据音频特征信息,确定语音信息对应的性别特征标签。
需要说明的是,人类基音的范围约为70Hz~350Hz左右,由于生理结构的不同,男性与女性的声音呈现出不同的听觉特征,男声的基音频率大都在100—200HZ之间,而女声则在200—350HZ之间,女声与男声相比,前者的平均值、标准差都为后者的两倍左右。对数频率轴上男声,女声分别呈现正态分布,男声的基音频率的平均值和标准差分别为125HZ及其20HZ。女声约为男声的2倍。鉴于男女声存在基音频率的明显差异,基音频率可作为男女声识别的依据。
其中,性别特征标签可以为“男性”或者“女性”。
作为一种可能实现的方式,可以首先男女生语音训练数据集,对男女生语音训练数据集中的男性女性语音分别进行操作,对所有男性语音进行平滑处理后得到基音频率参数,对其求均值可以得到男性语音的基音频率的平均参数,同理,对所有女性语音进行平滑处理后得到基音频率参数,对其求均值可以得到女性语音的基音频率的平均参数。其中平滑处理的目的是减小外界噪声,声音本身抖动不稳定等多种因素导致的波形不稳定以及所导致的误差,经平滑处理后所得的波形更加稳定,基音频率参数更加准确。另外,如果男性基音频率的最大值和女性基音频率的最小值,如果单纯地将这两个因素直接加入考虑,其偶然性较高,会导致错误率上升不少,所以,考虑到概率论与数理统计中的“3σ”准则,取出边缘对整体几乎没有影响的值,在剩下的值中选取男性基音频率的最大值和女性基音频率的最小值。本公开中,可以综合考虑男性女性基音频率的分布以及重要指标参数,得到最终建立的初始模型的判别值,也即基因频率阈值。
优选的,基因频率阈值可以为180hz。
可选的,可以将当前所述语音信息对应的基因频率与预设的基因频率阈值进行比较,以确定比较结果,之后根据所述比较结果,确定所述语音信息对应的性别特征标签。
需要说明的是,如果当前比较结果为当前语音信息的基因频率高于或者等于基因频率阈值,则可以将该语音信息对应的性别特征标签确定为“女性”,如果比较结果为当前语音信息的基因频率低于基因频率阈值,则可以将该语音信息对应的性别特征标签确定为“男性”,在此不做限定。
步骤105,将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签。
可选的,终端设备可以首先获取初始音频数据并进行预处理,以生成训练数据集,然后基于所述训练数据集对初始年龄识别模型进行训练,以生成可用于年龄识别的年龄识别模型。
具体的,获取初始音频数据并进行预处理可以包括以下步骤:
获取初始音频数据并进行数据增强;
响应于确定初始音频数据数据增强完成,对增强后的所述初始音频数据进行数据对齐和端点检测处理,以生成待提取的初始音频数据;
对所述待提取的初始音频数据进行特征值提取并设置年龄标签,以生成训练数据集。
其中,初始音频数据可以为0.3s-1.1s长度之间的音频。
需要说明的是,在利用年龄识别模型对语音进行识别时,训练数据集非常重要,如果前期数据处理不充分,那么就会影响训练效果,进而使得训练出的算法的识别精度和性能受到严重影响。
本公开中,在获取初始音频数据并进行数据增强时可以优选采用唤醒词,且可以包含中文、英文以及中英文的混合等。其中,选用的原始音频还可以是从线上音频获取而来,示例性地,从后台下载用户缓存的音频,而选用的原始音频例如可以为共5000小时。
优选地,对原始音频所做的数据增强处理可以实现为设定多个场景,在每个场景下分别对原始音频进行近场和远场拾音,例如在家居,车载,商场,路边,办公室等多个场景下分别近场和远场拾音,以得到增强的音频数据。通过多场景模拟和近场远场分别拾音,可以保证训练出的算法模型的真实性。
其中,数据对齐处理也即align(alignment,对位算法,是用于对语音特征数据进行对齐处理的技术,为现有技术)。
其中,端点检测处理也即vad(Voice Activity Detection,语音端点检测技术,是用于是从带有噪声的语音中准确的定位出语音的开始和结束点的技术,为现有技术)处理、对align和vad处理后的数据进行特征值提取,之后再对对提取出的特征值设置年龄标签,以形成最终的训练数据集。
具体地,对初始年龄识别模型进行一次训练的完整过程可以是包括前向传播、反向传播和权重更新三个步骤。在训练时,从训练数据集中获取训练数据,将训练数据中的特征值作为初始年龄识别模型的输入,将各训练数据对应的年龄标签作为初始年龄识别模型的输出匹配目标,从而对模型的权重系数进行训练,以得到训练好的年龄识别模型。
进一步地,在训练出算法模型后,就可以应用该算法模型进行年龄识别,具体应用方法可以是:对语音信息进行特征值提取,将提取的特征值输入年龄识别模型,由此就可以得到年龄标签及其对应的概率的输出结果,选取概率最大的年龄标签对应的年龄,作为最终确定的发音者的年龄特征标签。
其中,年龄特征标签可以为“孩童”、“少年”、“青少年”、“青年”、“中年”、“中老年”以及“老年”,在此不做限定。或者,也可以为具体的数字,比如(0-10岁],(10-20岁],(20-30岁],(30-40岁],(40-50岁]等等,在此不进行限定。
步骤106,根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签。
其中,情感特征标签可以为“满意”、“平静”、“烦躁”、“生气”、“伤心”、“失落”、“绝望”、“快乐”、“兴奋”等等,在此不做限定。
需要说明的是,语音信息的频率、幅值等音频特征可以反映出输入语音对应的说话者的情绪信息。比如,输入语音对应的语音信息的频率较高,表示说话者语速较快,情绪可能较为急躁;语音信息的频率正常时,表示说话者的情绪可能较为轻松。语音信息的幅值较高时,表示说话者的声音较大,情绪可能较为高涨时。语音信息对应的幅值较低时,表示说话者的声音较小,情绪可能较为低迷。
可选的,可以将所述音频特征信息以及所述文本信息输入预设的情感识别模型中,以确定所述语音信息对应的情感特征标签。
其中,获取预设的情感特征标签的具体步骤可以包括:获取情感训练样本集,其中,情感训练样本集中包含文本信息以及对应的音频特征,音频特征对应的标注情感特征标签及文本信息对应的标注情感特征标签,之后将文本信息以及对应的音频特征输入初始情感识别模型中,以获取初始情感识别模型输出的预测情感特征标签,之后再根据文本信息的预测情感特征标签与标注情感特征标签之间的差异,及音频特征的预测情感特征标签与情感特征标签之间的差异对初始情感识别模型进行修正,以生成预设的情感识别模型。可选的,训练样本集可以通过以下方式获得:首先从网络信息中自动挖掘大量的文本对话语料,并对文本对话语料进行人工配音,之后对配音的语音信息进行情感特征提取,以获取文本对话语料中包含的文本信息及对应的情感特征,音频特征及对应的情感特征。
步骤107,根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及音频特征信息。
可选的,可以根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,从数据库集中确定当前待选用的目标对话数据库,之后将所述文本信息与所述目标对话数据库中的各个对话数据进行匹配,以确定所述文本信息对应的待答复的语句信息。
需要说明的是,数据库集中可以包含有多个数据库,其中,每个数据库对应类型可以是不同的,比如说,可以根据性别是男或者是女,预先设置两种独立的数据库。由于不同年龄,不同性别的人说话风格,用词以及方式之间是存在差别的,因而预先收集海量的不同类型的对话数据置入各个类型的数据库集中。
举例来说,可以将数据库集中的数据库分成两大类,分别为A和B,以A代表男性,以B代表女性,之后再分别将A和B根据年龄阶段进行细分,比如A1代表少年,A2代表青年,A3代表中年,A4代表老年,进一步地,再对A1、A2、A3、A4进行细分,具体的,可以按照情感类型,比如“开心”风格的、“烦恼”风格的、“愤怒”风格的等等,确定各个类型的数据库。
在确定了语音信息对应的情感特征标签,年龄特征标签、性别特征标签之后,终端设备可以从数据库集中筛选出当前语音信息对应的目标对话数据库。
需要说明的是,目标对话数据库中的对话数据为预先选出的包含多个对话数据的数据库。终端设备可以将文本信息在该数据库中进行匹配,以获取各个语句与该文本的匹配度,之后可以将匹配度大于阈值的数据作为该文本对应的待答复的语句信息。
需要说明的是,为了更好地提升用户体验,使得当前对使用者的回复更加合情合理,并且拉近与使用者之间的距离,本公开中,可以针对使用者情感特征标签,年龄特征标签、性别特征标签,确定当前符合答复时待选用的音频特征。
举例来说,对于老年人,可以将音频特征中的幅值确定为高幅值,也即避免老年人听不到,对于性别为男性的人,可以优选使用基音频率较高的音频特征,也即更符合女性特征的基音频率,对于性别为女性的人,可以优选待使用的音频特征为较低的基音频率,也即更符合男性特征的基音频率。
可选的,终端设备可以根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,确定当前语音信息对应的特征向量,之后根据所述语音信息对应的特征向量与音频特征向量之间的映射关系,确定当前所述语音信息对应的待选用的音频特征,其中,所述音频特征对应所述音频特征向量。
具体的,可以基于TensorFlow,将多分类标签,也即情感特征标签,年龄特征标签、性别特征标签转换成One-hot,之后可以根据预设的One-hot特征向量与音频特征向量之间的映射关系,确定待选用的音频特征向量。
具体的,可以将语音信息对应的特征向量在预设的哈希表中进行匹配,以确定语音信息对应的待选用的音频特征。
其中,音频特征可以包括音调,响度,音色,基音频率,幅值,还可以为语速以及时间长度。
步骤108,基于所述待答复的语句信息以及音频特征信息,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。
可选的,可以采用语音合成技术(Text to Speech,TTS),将待答复的语句信息以及音频特征信息相结合,生成听觉答复内容。
可选的,可以根据所述情感特征标签,所述年龄特征标签、所述性别特征标签,对所述待答复的内容进行修正。
需要说明的是,本公开实施例中,在根据语音合成技术合成了听觉答复内容之后,还可以利用当前语音信息的发声人的性别、年龄以及情绪针对性地修正并调整待答复的内容,以使得答复的内容更加准确、贴合发声人,进而与发声人建立密切的交流,满足发声人的交流需求。
其中,听觉答复内容可以为语音对话,比如一句对白,或者,也可以为一段话,另外,其还可以包括一句对白与背景音或者一段话与背景音,在此不做限定。
需要说明的是,比如当前的年龄特征标签为老年人,则终端设备在向该老年人进行展示时可以以一种平缓且高音量的方式展示该听觉答复内容。
或者,若当前的年龄特征标签为孩童,则终端设备在向该老年人进行展示时可以以一种卡通音的方式展示该听觉答复内容。
其中,视觉答复内容可以图片、符号、文字,在确定当前待答复的语句之后,终端设备可以在交互显示屏幕上进行相对应的显示。比如,表情包,或者心灵鸡汤、表情符号等等,在此不做限定。需要说明的是,该视觉答复内容可以从视觉上让用户感受到呼应,进而提高与用户之间交互的深入程度。
可选的,还可以根据情感特征标签,年龄特征标签、性别特征标签、以及待答复的语句,生成视觉答复内容。
举例来说,若根据年龄特征标签和性别特征标签,确定当前的语音信息是一个女孩童发出的,且此时情感特征标签为“伤心”,则终端设备则可以在交互显示屏幕中显示出“抱抱你”的卡通表情包,以及卡通字体,以安慰当前的女孩童。
或者,若根据年龄特征标签和性别特征标签,确定当前的语音信息是一个中年人发出的,且此时情感特征标签为“疑惑”,则终端设备则可以基于待答复的语句在交互显示屏幕中显示出与该待答复的语句相关的资料,以及励志的名人名言。
本公开中,为了提高终端设备返回视觉答复内容以及听觉答复内容的响应速度,以及视觉答复内容以及听觉答复内容的精确度,可以根据每个年龄特征标签设置单独的数据库。举例来说,可以分别设置0-18岁,18-40岁,40-70岁的数据库,从而可以为当前年龄阶段的用户提供相对应的视觉答复内容以及听觉答复内容,并且可以提高数据处理的效率和速度,以及适用性。
本公开实施例中,首先获取待识别的语音信息,对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息,对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息,根据音频特征信息,确定所述语音信息对应的性别特征标签;将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签,根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签,根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。由此,在获取到用户的语音信息之后,可以对特征进行有效地提取,之后可以结合用户的情感特征、年龄特征、性别特征以及文本信息,从而使得生成的答复内容更加可靠、准确、人性化,且提供了视觉答复内容和听觉答复内容,更符合用户的交流习惯,多角度,全方位地提高用户的交流体验感。
图2为本公开实施例所提供的基于语音识别的智能答复装置的结构示意图。
如图2所示,该基于语音识别的智能答复装置200可以包括:获取模块210、第一确定模块220、第二确定模块230、第三确定模块240、第四确定模块250、第五确定模块260、第六确定模块270、生成模块280。
获取模块,用于获取待识别的语音信息;
第一确定模块,用于对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息;
第二确定模块,用于对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息;
第三确定模块,用于根据音频特征信息,确定所述语音信息对应的性别特征标签;
第四确定模块,用于将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签;
第五确定模块,用于根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签;
第六确定模块,用于根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征;
生成模块,用于基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。
可选的,所述获取模块,具体用于:
响应于确定交互显示屏幕中的指定控件被触发,获取待识别的语音信息;
或者,
响应于确定接收到的蓝牙广播信息中包含目标物理地址,获取待识别的语音信息。
可选的,所述音频特征信息为幅值特征,所述第二确定模块,具体用于:
按照指定的时间长度,对所述语音信息进行分帧并根据所述语音信息中每帧语音对应的第一幅值,确定所述输入语音对应的第二幅值;
根据所述第二幅值所属的范围,确定所述输入语音对应的幅值特征。
可选的,第四确定模块,还用于:
获取初始音频数据并进行预处理,以生成训练数据集;
基于所述训练数据集对初始年龄识别模型进行训练,以生成可用于年龄识别的年龄识别模型。
可选的,第四确定模块,还用于:
获取初始音频数据并进行数据增强;
响应于确定初始音频数据数据增强完成,对增强后的所述初始音频数据进行数据对齐和端点检测处理,以生成待提取的初始音频数据;
对所述待提取的初始音频数据进行特征值提取并设置年龄标签,以生成训练数据集。
可选的,所述音频特征信息为基因频率,所述根据音频特征信息,确定所述语音信息对应的性别特征标签,包括:
将当前所述语音信息对应的基因频率与预设的基因频率阈值进行比较,以确定比较结果;
根据所述比较结果,确定所述语音信息对应的性别特征标签。
可选的,所述第六确定模块,具体用于:
根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,从数据库集中确定当前待选用的目标对话数据库;
将所述文本信息与所述目标对话数据库中的各个对话数据进行匹配,以确定所述文本信息对应的待答复的语句信息。
可选的,所述第六确定模块,具体用于:
根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,确定当前语音信息对应的特征向量;
根据所述语音信息对应的特征向量与音频特征向量之间的映射关系,确定当前所述语音信息对应的待选用的音频特征,其中,所述音频特征对应所述音频特征向量。
可选的,所述待选用的音频特征包括音色、基音频率、幅值、音调、响度、语速以及时间长度。
可选的,所述生成模块,还用于:
根据所述情感特征标签,所述年龄特征标签、所述性别特征标签,对所述待答复的内容进行修正。
本公开实施例中,首先获取待识别的语音信息,对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息,对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息,根据音频特征信息,确定所述语音信息对应的性别特征标签;将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签,根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签,根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。由此,在获取到用户的语音信息之后,可以对特征进行有效地提取,之后可以结合用户的情感特征、年龄特征、性别特征以及文本信息,从而使得生成的答复内容更加可靠、准确、人性化,且提供了视觉答复内容和听觉答复内容,更符合用户的交流习惯,多角度,全方位地提高用户的交流体验感。
为了实现上述实施例,本公开还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的基于语音识别的智能答复方法。
为了实现上述实施例,本公开还提出一种非临时性计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现如本公开前述实施例提出的基于语音识别的智能答复方法。
为了实现上述实施例,本公开还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行如本公开前述实施例提出的基于语音识别的智能答复方法。
图3示出了适于用来实现本公开实施方式的示例性计算机设备的框图。图3显示的计算机设备12仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本公开各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAI D系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
本公开实施例中,首先获取待识别的语音信息,对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息,对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息,根据音频特征信息,确定所述语音信息对应的性别特征标签;将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签,根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签,根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。由此,在获取到用户的语音信息之后,可以对特征进行有效地提取,之后可以结合用户的情感特征、年龄特征、性别特征以及文本信息,从而使得生成的答复内容更加可靠、准确、人性化,且提供了视觉答复内容和听觉答复内容,更符合用户的交流习惯,多角度,全方位地提高用户的交流体验感。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于语音识别的智能答复方法,其特征在于,包括:
获取待识别的语音信息;
对所述待识别的语音信息进行识别,以确定所述语音信息对应的文本信息;
对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息;
根据音频特征信息,确定所述语音信息对应的性别特征标签;
将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签;
根据所述音频特征信息以及所述文本信息,确定所述语音信息对应的情感特征标签;根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征;
基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容,其中,所述待答复的内容包括视觉答复内容以及听觉答复内容。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别的语音信息,包括:
响应于确定交互显示屏幕中的指定控件被触发,获取待识别的语音信息;
或者,
响应于确定接收到的蓝牙广播信息中包含目标物理地址,获取待识别的语音信息。
3.根据权利要求1所述的方法,其特征在于,所述音频特征信息为幅值特征,所述对所述语音信息进行特征提取,以确定所述语音信息对应的音频特征信息,包括:
按照指定的时间长度,对所述语音信息进行分帧并根据所述语音信息中每帧语音对应的第一幅值,确定所述输入语音对应的第二幅值;
根据所述第二幅值所属的范围,确定所述输入语音对应的幅值特征。
4.根据权利要求1所述的方法,其特征在于,在所述将所述语音信息输入至预先训练生成的年龄识别模型中,以确定所述语音信息对应的年龄特征标签之前,还包括:
获取初始音频数据并进行预处理,以生成训练数据集;
基于所述训练数据集对初始年龄识别模型进行训练,以生成可用于年龄识别的年龄识别模型。
5.根据权利要求4所述的方法,其特征在于,所述获取初始音频数据并进行预处理,以生成训练数据集,包括:
获取初始音频数据并进行数据增强;
响应于确定初始音频数据数据增强完成,对增强后的所述初始音频数据进行数据对齐和端点检测处理,以生成待提取的初始音频数据;
对所述待提取的初始音频数据进行特征值提取并设置年龄标签,以生成训练数据集。
6.根据权利要求1所述的方法,其特征在于,所述音频特征信息为基因频率,所述根据音频特征信息,确定所述语音信息对应的性别特征标签,包括:
将当前所述语音信息对应的基因频率与预设的基因频率阈值进行比较,以确定比较结果;
根据所述比较结果,确定所述语音信息对应的性别特征标签。
7.根据权利要求1所述的方法,其特征在于,所述根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,包括:
根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,从数据库集中确定当前待选用的目标对话数据库;
将所述文本信息与所述目标对话数据库中的各个对话数据进行匹配,以确定所述文本信息对应的待答复的语句信息。
8.根据权利要求1所述的方法,其特征在于,所述根据所述情感特征标签,所述年龄特征标签、所述性别特征标签以及所述文本信息,确定待答复的语句信息以及待选用的音频特征,包括:
根据语音信息对应的所述情感特征标签,所述年龄特征标签、所述性别特征标签,确定当前语音信息对应的特征向量;
根据所述语音信息对应的特征向量与音频特征向量之间的映射关系,确定当前所述语音信息对应的待选用的音频特征,其中,所述音频特征对应所述音频特征向量。
9.根据权利要求1所述的方法,其特征在于,所述待选用的音频特征包括音色、基音频率、幅值、音调、响度、语速以及时间长度。
10.根据权利要求1所述的方法,其特征在于,在所述基于所述待答复的语句信息以及待选用的音频特征,生成待答复的内容之后,还包括:
根据所述情感特征标签,所述年龄特征标签、所述性别特征标签,对所述待答复的内容进行修正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390255.8A CN114792521A (zh) | 2022-04-14 | 2022-04-14 | 基于语音识别的智能答复方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390255.8A CN114792521A (zh) | 2022-04-14 | 2022-04-14 | 基于语音识别的智能答复方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114792521A true CN114792521A (zh) | 2022-07-26 |
Family
ID=82462222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210390255.8A Pending CN114792521A (zh) | 2022-04-14 | 2022-04-14 | 基于语音识别的智能答复方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114792521A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076627A (zh) * | 2023-08-07 | 2023-11-17 | 北京字跳网络技术有限公司 | 一种信息交互方法、装置、计算机设备及存储介质 |
-
2022
- 2022-04-14 CN CN202210390255.8A patent/CN114792521A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076627A (zh) * | 2023-08-07 | 2023-11-17 | 北京字跳网络技术有限公司 | 一种信息交互方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110265040B (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
JP7540080B2 (ja) | 声変換および音声認識モデルを使用した合成データ拡大 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
US20210390973A1 (en) | Method and system for speech emotion recognition | |
US11842721B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs | |
US20220284882A1 (en) | Instantaneous Learning in Text-To-Speech During Dialog | |
CN112309365A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
WO2022057283A1 (zh) | 声纹注册方法、装置和计算机可读存储介质 | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 | |
CN111370030A (zh) | 语音情感检测方法与装置、存储介质、电子设备 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
JP2019124952A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
CN114792521A (zh) | 基于语音识别的智能答复方法及装置 | |
CN113129895A (zh) | 一种语音检测处理系统 | |
CN114125506A (zh) | 语音审核方法及装置 | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 | |
CN113112996A (zh) | 用于基于语音的音频和文本对齐的系统和方法 | |
JP6003352B2 (ja) | データ生成装置、及びデータ生成方法 | |
JP2018036580A (ja) | 疑問発話判定装置、その方法、及びプログラム | |
Tomar et al. | NITK-KLESC: Kannada Language Emotional Speech Corpus for Speaker Recognition | |
CN113870829A (zh) | 基于家庭角色的声学模型播报的方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |