CN111462755A - 信息提示方法、装置、电子设备及介质 - Google Patents
信息提示方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111462755A CN111462755A CN202010139944.2A CN202010139944A CN111462755A CN 111462755 A CN111462755 A CN 111462755A CN 202010139944 A CN202010139944 A CN 202010139944A CN 111462755 A CN111462755 A CN 111462755A
- Authority
- CN
- China
- Prior art keywords
- information
- sound
- voice
- neutral
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000007935 neutral effect Effects 0.000 claims abstract description 115
- 238000003062 neural network model Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims description 73
- 230000006870 function Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 4
- 230000006798 recombination Effects 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000005406 washing Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000007613 environmental effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种信息提示方法,包括:采集声音信息;确认所述声音信息的类别;当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;根据识别的语义信息和确认的类别给出提示;当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,再识别所述声音信息对应的语义信息。本发明还提供一种性别识别装置、电子设备及存储介质。通过本发明可以根据识别的语义信息和性别信息为用户提供准确的指示。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种信息提示方法、装置、电子设备及介质。
背景技术
语音识别说话人的生物属性(如性别)是人工智能领域重要的领域。根据声音识别说话者的性别对于人类来说这是一种天生的能力,而对于人工智能来说,却代表了最高水平的进展。男性与女性说话者的声音通常会有较为明显的区别,但是较为中性的声音,若不仔细辨别是很难准确识别出说话人的性别的。这对于人工智能来讲,更是一个极大的挑战。如果能准确识别出中性音,能大大提升语音识别说话人生物属性在实际业务场景(如智能客服系统)中的应用能力。
发明内容
鉴于以上内容,有必要提出一种信息提示方法、装置、电子设备及介质,通过识别采集的声音信息中的中性声音,再识别所述中性声音对应的性别,为用户提供更加准确的指示信息。
本发明的第一方面提供一种信息提示方法,所述方法包括:
采集步骤,采集声音信息;
确认步骤,确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;
识别步骤,当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;
提示步骤,根据识别的语义信息和确认的类别给出提示;
处理步骤,当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,再返回所述识别步骤,其中,所述预先训练的性别识别深度神经网络模型为残差神经网络ResNet-10模型,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层。
优选地,所述确认步骤包括:
提取所述声音信息的基音频率;
将所述声音信息的基音频率与第一基音频率范围、第二基音频率范围和第三基音频率范围进行比对;
当所述声音信息的基音频率落在所述第一基音频率范围内,确认所述声音信息的类别为男性声音;
当所述声音信息的基音频率落在所述第二基音频率范围内,确认所述声音信息的类别为女性声音;
当所述声音信息的基音频率落在所述第三基音频率范围内,确认所述声音信息的类别为中性声音。
优选地,识别所述声音信息对应的语义信息包括:
将所述声音信息转换为文本信息;
对所述文本信息进行预处理,所述预处理包括分词和噪声词去除处理。
根据预先存储的语义关系库和基本概念库对预处理后的文本信息进行语义匹配,得到语义匹配结果。
优选地,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别包括一个残差模块,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别连接一个自适应全局平均池化。
优选地,所述ResNet-10模型为基于AM-Softmax损失函数设计的深度神经网络模型,其中,当所述AM-Softmax损失函数的参数因子为0.2时,得到所述性别识别深度神经网络模型的最佳决策边界。
优选地,预先训练所述性别识别深度神经网络模型的方法包括:
扩充所述中性声音得到训练数据;
根据扩充的训练数据训练所述深度神经网络模型,得到性别识别深度神经网络模型。
优选地,扩充所述中性声音的方法包括:
在采集的中性声音中叠加噪声;
获取叠加噪声后的中性声音的频谱图;
将频谱图在时间方向上进行打乱重组。
本发明的第二方面提供一种基于中性声音的性别识别装置,所述装置包括:
采集模块,用于采集声音信息;
确认模块,用于确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;
识别模块,用于当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;
提示模块,用于根据识别的语义信息和确认的类别给出提示;
处理模块,用于当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,其中,所述预先训练的性别识别深度神经网络模型为残差神经网络ResNet-10模型,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述信息提示方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述信息提示方法。
本发明所述的信息提示方法、装置、电子设备及存储介质。通过采集声音信息;确认所述声音信息的类别;当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;根据识别的语义信息和确认的类别给出提示;当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,再识别所述声音信息对应的语义信息。从而可以根据识别的语义信息和性别信息为用户提供准确的指示。本申请在对中性声音对应的性别进行识别时,借鉴了人脸识别中的成熟思想,推动了分类边界的更大化,使得分类边界模糊的语音数据如中性声音,能够通过深度训练,得到有效的性别归属识别,大大提升了性别识别的准确率,提高了说话人性别识别在实际业务场景以及智能客服系统中的应用能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的信息提示方法的流程图。
图2是本发明实施例二提供的信息提示装置的功能模块图。
图3是本发明实施例三提供的电子设备的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例的信息提示方法应用在电子设备中。所述对于需要进智能交互的电子设备,可以直接在电子设备上集成本发明的方法所提供的信息提示功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供信息提示功能的接口,电子设备或其他设备通过提供的接口即可实现信息提示功能。
实施例一
图1是本发明实施例一提供的信息提示方法的流程图。根据不同的需求,所述流程图中的执行顺序可以改变,某些步骤可以省略。
在本实施方式中,所述信息提示方法可以应用于机器人等电子设备中,所述机器人可以是为用户指路的机器人。例如,所述机器人应用在医院中,当用户需要询问机器人医院的妇科门诊在哪里时,所述机器人可以根据识别的用户性别和语义信息给出准确的指示。或者当用户需要询问机器人某个公共场所的男洗手间或女洗手间在哪里时,所述机器人也可以根据识别的用户性别和语义信息给出准确的指示。所述方法包括:
步骤S1,采集声音信息。
在本实施例中,所述机器人上安装有麦克风,可以通过所述麦克风采集声音信息。
步骤S2,确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音。
现有技术中,绝大多数人发出声音的基音频率范围为50Hz-400Hz,正常情况下,男性发出声音的基音频率范围为50Hz-200Hz,女性发出声音的基音频率范围为150Hz-400Hz。从男性声音的基音频率范围和女性声音的基音频率范围可发现,两者有部分重叠150Hz-200Hz。根据这部分重叠的基音频率范围是比较难分辨出说话者到底是男性还是女性。由此,可以将重叠的基音频率范围对应的声音定义为中性声音。
在本实施例中,确认所述声音信息的类别包括:
(1)提取所述声音信息的基音频率;
(2)将所述声音信息的基音频率与第一基音频率范围、第二基音频率范围和第三基音频率范围进行比对;
(3)当所述声音信息的基音频率落在所述第一基音频率范围内,确认所述声音信息的类别为男性声音;当所述声音信息的基音频率落在所述第二基音频率范围内,确认所述声音信息的类别为女性声音;所述声音信息的基音频率落在所述第三基音频率范围内,确认所述声音信息的类别为中性声音。
具体地,设定男性声音的第一基音频率范围为50Hz-150Hz,女性声音的第二基音频率范围为200Hz-400Hz,中性声音的第三基音频率范围为150Hz-200Hz。在本实施例中,根据所述声音信息的基音频率来确认所述声音信息的类别。当所述声音信息的基音频率落在所述第一基音频率范围内(如50Hz-150Hz),确认所述声音信息的类别为男性声音,流程进入步骤S3;当所述声音信息的基音频率落在所述第二基音频率范围(如200Hz-400Hz)内,确认所述声音信息的类别为女性声音,流程进入步骤S3;当所述声音信息的基音频率落在所述第三基音频率范围(如150Hz-200Hz)内,确认所述声音信息的类别为中性声音,流程进入步骤S5。
步骤S3,当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息。
在本实施例中,可以通过自然语言处理方法识别所述声音信息对应的语义信息,具体包括:
将所述声音信息转换为文本信息;
对所述文本信息进行预处理,所述预处理包括分词和噪声词去除处理。
根据预先存储的语义关系库和基本概念库对预处理后的文本信息进行语义匹配,得到语义匹配结果。
在本实施例中,上述基本概念库包括含义的基本概念以及与上述基本概念对应的扩展概念。所述语义关系库包括与上述基本概念库、句型关系模板和常识库相关的关系和模糊语义关系。
步骤S4,根据识别的语义信息和确认的类别给出提示。
在本实施例中,当确定的类别为男性声音,可以确认用户的性别为男性。当确定的类别为女性声音,可以确认用户的性别为女性。此时,由于用户有可能并非需要根据自身性别得到机器人的指示。所以机器人还不能仅根据识别的性别给出指示,而是需要根据识别的语义信息来给出指示。
优选地,所述识别的语义信息的优先级高于确认的类别的优先级。
例如,当用户为男性,而该用户需要替他身边的女性询问女洗手间所在位置时。当男性用户给出语音询问信息“女洗手间在哪?”。此时,机器人可以根据用户的声音信息判定用户性别为男性。但是并不能给出男洗手间的位置的提示,而是需要根据用户给出的语音询问信息对应的语义信息来给出女洗手间所在位置的提示。由此,可以为用户提供更加准确的提示,提高用户体验。
例如,当用户仅给出语音询问信息“请问洗手间在哪”。此时,机器人只需要根据所述语音询问信息判定用户性别,再根据判定的用户性别给出指示。如,当男性用户给出语音询问信息“请问洗手间在哪”,机器人根据所述语音询问信息确定对应的用户性别男性,则给出男洗手间所在位置的提示。
步骤S5,当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,流程返回步骤S3。
在本实施例中,当通过所述性别识别深度神经网络模型识别了用户性别后,为了避免仅根据用户性别给出错误指示的情况出现,需要先获取所述声音信息对应的语义信息,再根据所述语义信息和用户性别给出正确指示。
在本实施例中,所述性别识别深度神经网络模型为残差神经网络ResNet模型。所述ResNet模型为基于AM-Softmax损失函数设计的深度神经网络模型,其中,通过调整所述AM-Softmax损失函数的参数因子得到所述性别识别深度神经网络模型的最佳决策边界。
在本实施方式中,对于性别识别而言,需要设计一个二分类的深度模型。二分类模型通常使用sigmod或者softmax损失函数。然而,sigmod或者softmax损失函数在边界模糊的数据效果不佳。为了能够准确的根据中性声音对性别进行分类,增加类间距,并减小类内距,本申请中采用AM-Softmax损失函数设计深度神经网络模型。所述AM-Softmax损失函数可以推动类别之间的分类边界更大化。
所述AM-Softmax损失函数为:
其中,S=30,m=0.2,为了提高收敛速度,引进了一个超参数s,这里s设置为固定值30。
所述AM-Softmax损失函数的参数因子m的取值为0.2时,可以得到所述性别识别深度神经网络模型的最佳决策边界。
在本实施方式中,由于性别识别是一个二分类的问题,目标类别只有男性和女性。相对于图片分类来说,问题的解空间较为简单。如果直接使用图像分类领域的深度模型,容易出现过拟合的情况。因此,在本申请中,为了避免出现过拟合现象,提高深度模型的泛化能力,对现有的识别图片的深度模型进行改进,得到ResNet-10模型。具体地,在ResNet-18的基础上,再次降低模型深度和减少残差层数,得到所述ResNet-10模型。
在本实施方式中,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层,其中,本发明中ResNet-10的参数可以参考表1所示,表1中的max pool为池化层,其中,Conv3_x、Conv4_x和Conv5_x的第一层的步长stride均为2,每个卷积层之后都连接有激活层ReLU和正则化层Batech Normalization,表1中Conv2_x、Conv3_x、Conv4_x和Conv5_x均包括1个残差模块(X1blocks),为了实现本发明中性别识别模型的二分类任务,卷积层Conv5_x的最后一层连接一个全连接层,所述全连接层可以输出声音信息对应的类型结果。
在本实施方式中,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别连接一个自适应全局平均池化。因为本申请需要解决的问题是较少分类问题(男性和女性),使用平均池化比最大池化的效果更好。在本申请中,通过采用自适应全局平均池化,避免特征尺寸不匹配。由于语音频谱图的特征尺寸浮动较大,采用自适应全局平均池化效果更好。
表1
在本实施例中,所述ResNet-10模型的输入部分的卷积核为3x3的卷积核。在本实施方式中,3x3的卷积核可以有效减少计算量,同时能更好的适应语音频谱图。并且在降低所述ResNet-10模型的每个残差层的特征图尺寸后,可以使得模型不容易过拟合,同时降低模型参数量级。
在本实施例中,预先训练的性别识别深度神经网络模型的方法包括:
(1)扩充所述中性声音得到训练数据;
(2)根据扩充的训练数据训练所述深度神经网络模型,得到性别识别深度神经网络模型。
本实施方式中,所述神经网络模型的训练方法包括如下步骤:
(a)获取中性声音对应的特征参数,并对所述特征参数标注类别,以使所述特征参数携带类别标签。
例如,分别选取500个男性中性声音和女性中性声音对应的特征参数,并对每个特征参数标注类别,可以以“1”作为男性中性声音的参数标签,以“2”作为女性中性声音的参数标签。
在本实施方式中,所述男性中性声音和女性中性声音对应的特征参数包括声音信号的Mel频率倒谱系数。所述Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的分析基于人耳的听觉特性。因为,人耳听到的声音的高低与声音的频率并不成线性正比关系,Mel频率尺度更符合人耳的听觉特性。
(b)将所述特征参数随机分成第一预设比例的训练集和第二预设比例的验证集。
先将不同性别中性声音的训练集中的训练样本分发到不同的文件夹里。例如,将男性中性声音的训练样本分发到第一文件夹里、女性中性声音的训练样本分发到第二文件夹里。然后从不同的文件夹里分别提取第一预设比例(例如,70%)的训练样本作为总的作为训练集,其目的是用于训练所述深度神经网络模型;再从不同的文件夹里分别取剩余第二预设比例(例如,30%)的训练样本作为测试集,其目的是用于测试所述深度神经网络模型的分类性能。
(c)利用所述训练集对深度神经网络模型进行训练。
将训练集输入至建立好的神经网络模型(如resnet10)中进行模型训练的过程可以采用现有技术中的手段实现,在此不做详述。在一些实施例中,利用训练集对所述神经网络模型进行训练还可以包括:将深度神经网络模型的训练部署在多个图形处理器(Graphics Processing Unit,GPU)上进行分布式训练。例如,可以通过Tensorflow的分布式训练原理,将模型的训练部署在多个图形处理器上进行分布式训练,可以缩短模型的训练时间,加快模型收敛。
(d)利用所述验证集验证训练后的所述深度神经网络模型的准确率。
本实施方式中,若所述准确率大于或者等于预设准确率时,则结束训练,以训练后的所述深度神经网络模型作为分类器识别当前中性声音对应的用户性别;若所述准确率小于所述预设准确率时,则增加样本数量以重新训练所述深度神经网络模型直至所述准确率大于或者等于预设准确率。
在本实施方式中,扩充所述中性声音的方法为:在采集的中性声音中叠加噪声,获取叠加噪声后的中性声音的频谱图,将频谱图在时间方向上进行打乱重组。
在本实施方式中,通过数据增强技术,来扩充所述中性声音的训练数据。因为中性声音相对来说是较少的。而为了训练深度神经网络模型,需要对采集的中性声音进行扩充。
具体地,在采集的中性声音中叠加噪声包括:在采集的中性声音中叠加白噪声和/在采集的中性声音中混合环境噪声。
例如,在采集的中性声音(original_signal)上线性叠加高斯白噪声,得到新的声音信号:new_signal=0.9*original_signal+0.1*white_noise()。
例如,在采集的中性声音中混合真实环境噪声可以是将上述高斯白噪声替换成采集的真实环境噪声,来得到新的声音信号:new_signal=0.9*original_signal+0.1*real_noise()。所述真实环境噪声可以是从公园、公交站、体育场馆、咖啡店等场地采集的噪声。
将叠加噪声后的中性声音经过短时傅里叶变换处理后得到频谱图,对所述频谱图在时间方向上进行打乱重组,得到训练数据。
例如,在频谱图的时间方向上,按固定的语音帧序列长度(如64帧)裁剪上述中性声音对应的频谱图,得到长度为64帧的语音片段,然后将所述语音片段进行随机重新组合。例如,对于640帧的中性声音频谱图进行裁剪得到十个为64帧的语音片段,从十个语音片段中选取随机选取3个进行顺序拼接得到新的声音信号。通过以上两个步骤可生成足够多的有效的高质量的中性语音数据。
由于本申请需要对语音的频谱图设计用于识别用户性别的深度模型,因此,在这里使用了频谱图随机剪裁和堆叠的方法,进行语音数据的扩充。以此,得到一个相对规模的中性声音数据,按照不同的标签划入对应的性别数据组别,来扩充训练数据。
综上所述,本发明提供的信息提示方法包括,采集声音信息;确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;根据识别的语义信息和确认的类别给出提示;当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别。本申请可以识别采集的声音信息中的中性声音,再识别所述中性声音对应的性别,从而可以提供更加准确的指示。并且在识别所述中性声音对应的性别时,通过设计基于AM-Softmax训练的深度神经网络模型ResNet-10,在用户性别识别上,使得用户的声音特征空间,具有更好的分类边界。并且本申请提出的信息提示方法,借鉴了人脸识别中的成熟思想,推动了分类边界的更大化,使得分类边界模糊的语音数据如中性声音,能够通过深度训练,得到有效的性别归属识别,大大提升了性别识别的准确率,提高了说话人性别识别在实际业务场景以及智能客服系统中的应用能力。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
下面结合图2和图3,分别对实现上述信息提示的电子设备的功能模块及硬件结构进行介绍。
实施例二
图2为本发明信息提示装置较佳实施例中的功能模块图。
在一些实施例中,所述信息提示装置20运行于电子设备中。所述信息提示装置20可以包括多个由程序代码段所组成的功能模块。所述信息提示装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行信息提示功能。
本实施例中,所述信息提示装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:采集模块201、确认模块202、识别模块203、提示模块204及处理模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
所述采集模块201用于采集声音信息。
在本实施例中,所述机器人上安装有麦克风,可以通过所述麦克风采集声音信息。
所述确认模块202用于确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音。
现有技术中,绝大多数人发出声音的基音频率范围为50Hz-400Hz,正常情况下,男性发出声音的基音频率范围为50Hz-200Hz,女性发出声音的基音频率范围为150Hz-400Hz。从男性声音的基音频率范围和女性声音的基音频率范围可发现,两者有部分重叠150Hz-200Hz。根据这部分重叠的基音频率范围是比较难分辨出说话者到底是男性还是女性。由此,可以将重叠的基音频率范围对应的声音定义为中性声音。
在本实施例中,所述确认模块202确认所述声音信息的类别包括:
(1)提取所述声音信息的基音频率;
(2)将所述声音信息的基音频率与第一基音频率范围、第二基音频率范围和第三基音频率范围进行比对;
(3)当所述声音信息的基音频率落在所述第一基音频率范围内,所述确认模块202确认所述声音信息的类别为男性声音;当所述声音信息的基音频率落在所述第二基音频率范围内,所述确认模块202确认所述声音信息的类别为女性声音;所述声音信息的基音频率落在所述第三基音频率范围内,所述确认模块202确认所述声音信息的类别为中性声音。
具体地,设定男性声音的第一基音频率范围为50Hz-150Hz,女性声音的第二基音频率范围为200Hz-400Hz,中性声音的第三基音频率范围为150Hz-200Hz。在本实施例中,根据所述声音信息的基音频率来确认所述声音信息的类别。当所述声音信息的基音频率落在所述第一基音频率范围内(如50Hz-150Hz),所述确认模块202确认所述声音信息的类别为男性声音;当所述声音信息的基音频率落在所述第二基音频率范围(如200Hz-400Hz)内,所述确认模块202确认所述声音信息的类别为女性声音;当所述声音信息的基音频率落在所述第三基音频率范围(如150Hz-200Hz)内,所述确认模块202确认所述声音信息的类别为中性声音。
所述识别模块203用于当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息。
在本实施例中,可以通过自然语言处理方法识别所述声音信息对应的语义信息,具体包括:
将所述声音信息转换为文本信息;
对所述文本信息进行预处理,所述预处理包括分词和噪声词去除处理。
根据预先存储的语义关系库和基本概念库对预处理后的文本信息进行语义匹配,得到语义匹配结果。
在本实施例中,上述基本概念库包括含义的基本概念以及与上述基本概念对应的扩展概念。所述语义关系库包括与上述基本概念库、句型关系模板和常识库相关的关系和模糊语义关系。
所述提示模块204用于根据识别的语义信息和确认的类别给出提示。
在本实施例中,当确定的类别为男性声音,可以确认用户的性别为男性。当确定的类别为女性声音,可以确认用户的性别为女性。此时,由于用户有可能并非需要根据自身性别得到机器人的指示。所以机器人还不能仅根据识别的性别给出指示,而是需要根据识别的语义信息来给出指示。
优选地,所述识别的语义信息的优先级高于确认的类别的优先级。
例如,当用户为男性,而该用户需要替他身边的女性询问女洗手间所在位置时。当男性用户给出语音询问信息“女洗手间在哪?”。此时,机器人可以根据用户的声音信息判定用户性别为男性。但是并不能给出男洗手间的位置的提示,而是需要根据用户给出的语音询问信息对应的语义信息来给出女洗手间所在位置的提示。由此,可以为用户提供更加准确的提示,提高用户体验。
例如,当用户仅给出语音询问信息“请问洗手间在哪”。此时,机器人只需要根据所述语音询问信息判定用户性别,再根据判定的用户性别给出指示。如,当男性用户给出语音询问信息“请问洗手间在哪”,机器人根据所述语音询问信息确定对应的用户性别男性,则给出男洗手间所在位置的提示。
所述处理模块205用于当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别。
在本实施例中,当通过所述性别识别深度神经网络模型识别了用户性别后,为了避免仅根据用户性别给出错误指示的情况出现,需要先获取所述声音信息对应的语义信息,再根据所述语义信息和用户性别给出正确指示。
在本实施例中,所述性别识别深度神经网络模型为残差神经网络ResNet模型。所述ResNet模型为基于AM-Softmax损失函数设计的深度神经网络模型,其中,通过调整所述AM-Softmax损失函数的参数因子得到所述性别识别深度神经网络模型的最佳决策边界。
在本实施方式中,对于性别识别而言,需要设计一个二分类的深度模型。二分类模型通常使用sigmod或者softmax损失函数。然而,sigmod或者softmax损失函数在边界模糊的数据效果不佳。为了能够准确的根据中性声音对性别进行分类,增加类间距,并减小类内距,本申请中采用AM-Softmax损失函数设计深度神经网络模型。所述AM-Softmax损失函数可以推动类别之间的分类边界更大化。
所述AM-Softmax损失函数为:
其中,S=30,m=0.2,为了提高收敛速度,引进了一个超参数s,这里s设置为固定值30。
所述AM-Softmax损失函数的参数因子m的取值为0.2时,可以得到所述性别识别深度神经网络模型的最佳决策边界。
在本实施方式中,由于性别识别是一个二分类的问题,目标类别只有男性和女性。相对于图片分类来说,问题的解空间较为简单。如果直接使用图像分类领域的深度模型,容易出现过拟合的情况。因此,在本申请中,为了避免出现过拟合现象,提高深度模型的泛化能力,对现有的识别图片的深度模型进行改进,得到ResNet-10模型。具体地,在ResNet-18的基础上,再次降低模型深度和减少残差层数,得到所述ResNet-10模型。
在本实施方式中,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层,其中,本发明中ResNet-10的参数可以参考上文中的表1所示,表1中的max pool为池化层,其中,Conv3_x、Conv4_x和Conv5_x的第一层的步长stride均为2,每个卷积层之后都连接有激活层ReLU和正则化层Batech Normalization,表1中Conv2_x、Conv3_x、Conv4_x和Conv5_x均包括1个残差模块(X1blocks),为了实现本发明中性别识别模型的二分类任务,卷积层Conv5_x的最后一层连接一个全连接层,所述全连接层可以输出声音信息对应的类型结果。
在本实施方式中,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别连接一个自适应全局平均池化。因为本申请需要解决的问题是较少分类问题(男性和女性),使用平均池化比最大池化的效果更好。在本申请中,通过采用自适应全局平均池化,避免特征尺寸不匹配。由于语音频谱图的特征尺寸浮动较大,采用自适应全局平均池化效果更好。
在本实施例中,所述ResNet-10模型的输入部分的卷积核为3x3的卷积核。在本实施方式中,3x3的卷积核可以有效减少计算量,同时能更好的适应语音频谱图。并且在降低所述ResNet-10模型的每个残差层的特征图尺寸后,可以使得模型不容易过拟合,同时降低模型参数量级。
在本实施例中,预先训练的性别识别深度神经网络模型的方法包括:
(1)扩充所述中性声音得到训练数据;
(2)根据扩充的训练数据训练所述深度神经网络模型,得到性别识别深度神经网络模型。
本实施方式中,所述神经网络模型的训练方法包括如下步骤:
(a)获取中性声音对应的特征参数,并对所述特征参数标注类别,以使所述特征参数携带类别标签。
例如,分别选取500个男性中性声音和女性中性声音对应的特征参数,并对每个特征参数标注类别,可以以“1”作为男性中性声音的参数标签,以“2”作为女性中性声音的参数标签。
在本实施方式中,所述男性中性声音和女性中性声音对应的特征参数包括声音信号的Mel频率倒谱系数。所述Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的分析基于人耳的听觉特性。因为,人耳听到的声音的高低与声音的频率并不成线性正比关系,Mel频率尺度更符合人耳的听觉特性。
(b)将所述特征参数随机分成第一预设比例的训练集和第二预设比例的验证集。
先将不同性别中性声音的训练集中的训练样本分发到不同的文件夹里。例如,将男性中性声音的训练样本分发到第一文件夹里、女性中性声音的训练样本分发到第二文件夹里。然后从不同的文件夹里分别提取第一预设比例(例如,70%)的训练样本作为总的作为训练集,其目的是用于训练所述深度神经网络模型;再从不同的文件夹里分别取剩余第二预设比例(例如,30%)的训练样本作为测试集,其目的是用于测试所述深度神经网络模型的分类性能。
(c)利用所述训练集对深度神经网络模型进行训练。
将训练集输入至建立好的神经网络模型(如resnet10)中进行模型训练的过程可以采用现有技术中的手段实现,在此不做详述。在一些实施例中,利用训练集对所述神经网络模型进行训练还可以包括:将深度神经网络模型的训练部署在多个图形处理器(Graphics Processing Unit,GPU)上进行分布式训练。例如,可以通过Tensorflow的分布式训练原理,将模型的训练部署在多个图形处理器上进行分布式训练,可以缩短模型的训练时间,加快模型收敛。
(d)利用所述验证集验证训练后的所述深度神经网络模型的准确率。
本实施方式中,若所述准确率大于或者等于预设准确率时,则结束训练,以训练后的所述深度神经网络模型作为分类器识别当前中性声音对应的用户性别;若所述准确率小于所述预设准确率时,则增加样本数量以重新训练所述深度神经网络模型直至所述准确率大于或者等于预设准确率。
在本实施方式中,扩充所述中性声音的方法为:在采集的中性声音中叠加噪声,获取叠加噪声后的中性声音的频谱图,将频谱图在时间方向上进行打乱重组。
在本实施方式中,通过数据增强技术,来扩充所述中性声音的训练数据。因为中性声音相对来说是较少的。而为了训练深度神经网络模型,需要对采集的中性声音进行扩充。
具体地,在采集的中性声音中叠加噪声包括:在采集的中性声音中叠加白噪声和/在采集的中性声音中混合环境噪声。
例如,在采集的中性声音(original_signal)上线性叠加高斯白噪声,得到新的声音信号:new_signal=0.9*original_signal+0.1*white_noise()。
例如,在采集的中性声音中混合真实环境噪声可以是将上述高斯白噪声替换成采集的真实环境噪声,来得到新的声音信号:new_signal=0.9*original_signal+0.1*real_noise()。所述真实环境噪声可以是从公园、公交站、体育场馆、咖啡店等场地采集的噪声。
将叠加噪声后的中性声音经过短时傅里叶变换处理后得到频谱图,对所述频谱图在时间方向上进行打乱重组,得到训练数据。
例如,在频谱图的时间方向上,按固定的语音帧序列长度(如64帧)裁剪上述中性声音对应的频谱图,得到长度为64帧的语音片段,然后将所述语音片段进行随机重新组合。例如,对于640帧的中性声音频谱图进行裁剪得到十个为64帧的语音片段,从十个语音片段中选取随机选取3个进行顺序拼接得到新的声音信号。通过以上两个步骤可生成足够多的有效的高质量的中性语音数据。
由于本申请需要对语音的频谱图设计用于识别用户性别的深度模型,因此,在这里使用了频谱图随机剪裁和堆叠的方法,进行语音数据的扩充。以此,得到一个相对规模的中性声音数据,按照不同的标签划入对应的性别数据组别,来扩充训练数据。
综上所述,本发明提供的基于中性声音的信息提示装置20包括采集模块201、确认模块202、识别模块203、提示模块204及处理模块205。所述采集模块201用于采集声音信息;所述确认模块202用于确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;所述识别模块203用于当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;所述提示模块204用于根据识别的语义信息和确认的类别给出提示;所述处理模块205用于当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别。本申请可以识别采集的声音信息中的中性声音,再识别所述中性声音对应的性别,从而可以提供更加准确的指示。并且在识别所述中性声音对应的性别时,通过设计基于AM-Softmax训练的深度神经网络模型ResNet-10,在用户性别识别上,使得用户的声音特征空间,具有更好的分类边界。并且本申请提出的信息提示装置,借鉴了人脸识别中的成熟思想,推动了分类边界的更大化,使得分类边界模糊的语音数据如中性声音,能够通过深度训练,得到有效的性别归属识别,大大提升了性别识别的准确率,提高了说话人性别识别在实际业务场景以及智能客服系统中的应用能力。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,双屏设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
图3为本发明实施例三提供的电子设备的示意图。
所述电子设备3包括:存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33、至少一条通讯总线34及数据库35。
所述至少一个处理器32执行所述计算机程序33时实现上述信息提示方法实施例中的步骤。
示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。
所述电子设备3可以是手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)等安装有应用程序的设备。本领域技术人员可以理解,所述示意图3仅仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者所述处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块(采集模块201、确认模块202、识别模块203、提示模块204及处理模块205)是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到信息提示的目的。
所述数据库(Database)35是按照数据结构来组织、存储和管理数据的建立在所述电子设备3上的仓库。数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。在本实施方式中,所述数据库35用于存储采集的声音信息等。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应所述理解到,所揭露的电子设备和方法,可以通过其它的方式实现。例如,以上所描述的电子设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。
Claims (10)
1.一种信息提示方法,其特征在于,所述方法包括:
采集步骤,采集声音信息;
确认步骤,确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;
识别步骤,当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;
提示步骤,根据识别的语义信息和确认的类别给出提示;
处理步骤,当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,再返回所述识别步骤,其中,所述预先训练的性别识别深度神经网络模型为残差神经网络ResNet-10模型,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层。
2.如权利要求1所述的信息提示方法,其特征在于,所述确认步骤包括:
提取所述声音信息的基音频率;
将所述声音信息的基音频率与第一基音频率范围、第二基音频率范围和第三基音频率范围进行比对;
当所述声音信息的基音频率落在所述第一基音频率范围内,确认所述声音信息的类别为男性声音;
当所述声音信息的基音频率落在所述第二基音频率范围内,确认所述声音信息的类别为女性声音;
当所述声音信息的基音频率落在所述第三基音频率范围内,确认所述声音信息的类别为中性声音。
3.如权利要求1所述的信息提示方法,其特征在于,识别所述声音信息对应的语义信息包括:
将所述声音信息转换为文本信息;
对所述文本信息进行预处理,所述预处理包括分词和噪声词去除处理。
根据预先存储的语义关系库和基本概念库对预处理后的文本信息进行语义匹配,得到语义匹配结果。
4.如权利要求1所述的信息提示方法,其特征在于,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别包括一个残差模块,所述卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x分别连接一个自适应全局平均池化。
5.如权利要求1所述的信息提示方法,其特征在于,所述ResNet-10模型为基于AM-Softmax损失函数设计的深度神经网络模型,其中,当所述AM-Softmax损失函数的参数因子为0.2时,得到所述性别识别深度神经网络模型的最佳决策边界。
6.如权利要求1所述的信息提示方法,其特征在于,预先训练所述性别识别深度神经网络模型的方法包括:
扩充所述中性声音得到训练数据;
根据扩充的训练数据训练所述深度神经网络模型,得到性别识别深度神经网络模型。
7.如权利要求6所述的信息提示方法,其特征在于,扩充所述中性声音的方法包括:
在采集的中性声音中叠加噪声;
获取叠加噪声后的中性声音的频谱图;
将频谱图在时间方向上进行打乱重组。
8.一种信息提示装置,其特征在于,所述装置包括:
采集模块,用于采集声音信息;
确认模块,用于确认所述声音信息的类别,其中,所述声音信息的类别包括男性声音、女性声音和中性声音;
识别模块,用于当确认所述声音信息的类别为男性声音或女性声音时,识别所述声音信息对应的语义信息;
提示模块,用于根据识别的语义信息和确认的类别给出提示;
处理模块,用于当确认所述声音信息的类别为中性声音时,根据预先训练的性别识别深度神经网络模型识别所述中性声音对应的性别,其中,所述预先训练的性别识别深度神经网络模型为残差神经网络ResNet-10模型,ResNet-10模型包括卷积层Conv_1、Conv2_x、Conv3_x、Conv4_x和Conv5_x和全连接层共10个层。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的信息提示方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的信息提示方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010139944.2A CN111462755A (zh) | 2020-03-03 | 2020-03-03 | 信息提示方法、装置、电子设备及介质 |
PCT/CN2021/072860 WO2021175031A1 (zh) | 2020-03-03 | 2021-01-20 | 信息提示方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010139944.2A CN111462755A (zh) | 2020-03-03 | 2020-03-03 | 信息提示方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111462755A true CN111462755A (zh) | 2020-07-28 |
Family
ID=71678415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010139944.2A Pending CN111462755A (zh) | 2020-03-03 | 2020-03-03 | 信息提示方法、装置、电子设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111462755A (zh) |
WO (1) | WO2021175031A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382301A (zh) * | 2021-01-12 | 2021-02-19 | 北京快鱼电子股份公司 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
CN112447188A (zh) * | 2020-11-18 | 2021-03-05 | 中国人民解放军陆军工程大学 | 一种基于改进softmax函数的声学场景分类方法 |
WO2021175031A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167174A (zh) * | 2013-02-25 | 2013-06-19 | 广东欧珀移动通信有限公司 | 一种移动终端问候语的输出方法、装置及移动终端 |
CN105185385B (zh) * | 2015-08-11 | 2019-11-15 | 东莞市凡豆信息科技有限公司 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
JP6553015B2 (ja) * | 2016-11-15 | 2019-07-31 | 日本電信電話株式会社 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN109961794B (zh) * | 2019-01-14 | 2021-07-06 | 湘潭大学 | 一种基于模型聚类的提高说话人识别效率的方法 |
CN110428843B (zh) * | 2019-03-11 | 2021-09-07 | 杭州巨峰科技有限公司 | 一种语音性别识别深度学习方法 |
CN110136726A (zh) * | 2019-06-20 | 2019-08-16 | 厦门市美亚柏科信息股份有限公司 | 一种语音性别的估计方法、装置、系统及存储介质 |
CN111462755A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
-
2020
- 2020-03-03 CN CN202010139944.2A patent/CN111462755A/zh active Pending
-
2021
- 2021-01-20 WO PCT/CN2021/072860 patent/WO2021175031A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021175031A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
CN112447188A (zh) * | 2020-11-18 | 2021-03-05 | 中国人民解放军陆军工程大学 | 一种基于改进softmax函数的声学场景分类方法 |
CN112447188B (zh) * | 2020-11-18 | 2023-10-20 | 中国人民解放军陆军工程大学 | 一种基于改进softmax函数的声学场景分类方法 |
CN112382301A (zh) * | 2021-01-12 | 2021-02-19 | 北京快鱼电子股份公司 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
CN112382301B (zh) * | 2021-01-12 | 2021-05-14 | 北京快鱼电子股份公司 | 基于轻量级神经网络的含噪语音性别识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021175031A1 (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107578775B (zh) | 一种基于深度神经网络的多分类语音方法 | |
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
WO2021175031A1 (zh) | 信息提示方法、装置、电子设备及介质 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
WO2021047319A1 (zh) | 基于语音的个人信用评估方法、装置、终端及存储介质 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
Lataifeh et al. | Arabic audio clips: Identification and discrimination of authentic cantillations from imitations | |
CN111696579B (zh) | 一种语音情感识别方法、装置、设备和计算机存储介质 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Waldekar et al. | Two-level fusion-based acoustic scene classification | |
El-Moneim et al. | Text-dependent and text-independent speaker recognition of reverberant speech based on CNN | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN108989551A (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
Srinivasan et al. | Multi-view representation based speech assisted system for people with neurological disorders | |
CN114664325A (zh) | 一种异常声音识别方法、系统、终端设备及计算机可读存储介质 | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
CN116959421B (zh) | 处理音频数据的方法及装置、音频数据处理设备和介质 | |
CN110444053B (zh) | 语言学习方法、计算机装置及可读存储介质 | |
US20220399016A1 (en) | Presence-based application invocation | |
Muneer et al. | Convolutional Neural Network-Based Automatic Speech Emotion Recognition System for Malayalam | |
Vasuki et al. | Emotion recognition using ensemble of cepstral, perceptual and temporal features | |
CN112820292A (zh) | 生成会议纪要的方法、装置、电子装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |