CN115547328A - 基于声纹识别的语音提醒方法、装置、设备及存储介质 - Google Patents
基于声纹识别的语音提醒方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115547328A CN115547328A CN202211192284.XA CN202211192284A CN115547328A CN 115547328 A CN115547328 A CN 115547328A CN 202211192284 A CN202211192284 A CN 202211192284A CN 115547328 A CN115547328 A CN 115547328A
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- voiceprint
- voiceprint information
- application scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 241000282414 Homo sapiens Species 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000008451 emotion Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000006378 damage Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000008094 contradictory effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 210000000952 spleen Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 244000245420 ail Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 235000004611 garlic Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于声纹识别的语音提醒方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:建立第一语音数据库,第一语音数据库中存储有目标用户已录制的第一声纹信息以及与第一声纹信息相对应的应用场景信息;接收目标用户发出的第二声纹信息,将第二声纹信息与第一语音数据库中的第一声纹信息进行比较,以得到比较结果;如果比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息,则确定当前的应用场景信息;发出与当前的应用场景信息对应的预设语音。本发明可以通过设备精确地去判断出来用户的声纹信息对应的场景,给出精确提醒。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及基于声纹识别的语音提醒方法、装置、设备及存储介质。
背景技术
智能语音交互包括收音降噪、语音唤醒、语音识别、语义理解、语音合成等,其中现有技术中语音唤醒存在不同程度的问题和缺陷,大多只能针对特定唤醒词激活语音唤醒,使得智能语音交互的发起方只能是人有意识的特意行为,因此限制了很多应用场景。并且对于语义的理解只能做到固定的问答,无法像人类一样思考,再加上人类语言有大量的不同表达方式和歧义语句,导致了已有的设备没有办法精确地去判断出来用户的情绪或对应的场景,给出精确提醒。
发明内容
为了能准确判断出用户情绪及场景,及时给出提醒,从而减少不断发生的矛盾与争吵问题,本发明提供基于声纹识别的语音提醒方法、装置、设备及存储介质,旨在解决仅能针对特定唤醒词激活语音唤醒,发起方为人有意识的特意行为,从而限制了应用场景的问题,以及对于语义理解只能做到固定回答,且容易引起理解错误的问题。本发明通过对应用场景的判断,进一步地在人们有情绪争吵发生初期就可识别,并通过不同种语音文字提醒家庭成员控制情绪。
为实现上述的技术目的,本发明能够提供一种基于声纹识别的语音提醒方法,该方法可包括但不限于如下的至少一个步骤。
建立第一语音数据库,第一语音数据库中存储有目标用户已录制的第一声纹信息以及与第一声纹信息相对应的应用场景信息,不同的应用场景信息与不同的预设语音相对应。
接收目标用户发出的第二声纹信息,将第二声纹信息与第一语音数据库中的第一声纹信息进行比较,以得到比较结果。
如果比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息,则确定当前的应用场景信息。
发出与当前的应用场景信息对应的预设语音。
进一步地,建立第一语音数据库包括:接收目标用户的第一声纹信息;获取与第一声纹信息相对应的应用场景信息;利用第一声纹信息和应用场景信息建立第一语音数据库。
进一步地,利用第一声纹信息和应用场景信息建立第一语音数据库包括:对第一声纹信息进行降噪处理,得到降噪后的第一声纹信息;利用降噪后的第一声纹信息和所述应用场景信息,建立第一语音数据库。
进一步地,接收目标用户的第一声纹信息包括:通过麦克风阵列进行收音的方式接收目标用户的第一声纹信息;对第一声纹信息进行降噪处理包括:对通过麦克风阵列获取的第一声纹信息背景噪音去除和混响处理,并循环覆盖式录制语音存储;背景噪音包括所处环境中非人的声音。
本发明在获取第一声纹信息后进行背景噪音去除和混响处理,将第一声纹信息进行进一步的优化处理,为后续识别判断提供了更准确的依据,提高了识别的准确性。
进一步地,将第二声纹信息与第一语音数据库中的第一声纹信息进行比较包括:第二声纹信息与第一语音数据库中的第一声纹信息依据特征参数及副语言信息进行比较;特征参数包括目标用户的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹;副语音信息包括语速、语调、重音、高音中的至少一种。
进一步地,预设语音包括预录制语音、预导入资源语音、通过语音合成引擎生成的语音中的至少一种。
进一步地,通过语音合成引擎生成的语音包括童声、播音声、变形金刚声中的至少一种。本发明基于上述改进后的方案能够将发出与当前应用场景信息对应的预设语音,通过第一语音数据库预录制语音、预导入资源语音、语音合成引擎变声进行语音输出,通过幽默巧妙的言语设计,吸引并转移使用者注意力,将其矛盾初期产生的不满,怒气化解在萌芽阶段,避免进一步伤害和破坏家庭成员关系。
基于上述过程,本发明还提供了一种基于声纹识别的语音提醒装置,该装置可包括但不限于语音数据库建立模块、声纹信息接收模块、声纹信息比较模块、应用场景确定模块以及语音输出模块。
语音数据库建立模块,用于建立第一语音数据库。
声纹信息接收模块,用于接收目标用户的声纹信息。
声纹信息比较模块,用于比较目标用户声纹信息与第一数据语音库声纹信息是否一致。
应用场景确定模块,用于通过比较第一语音数据库中是否存在与第二声纹信息相匹配的第一声纹信息,来确定当前的应用场景。
语音输出模块,用于输出与当前应用场景相对应的语音。
为实现上述的技术目的,本发明还能够提供一种计算机设备,计算机设备可包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本发明任一实施例中语音提醒的方法的步骤。
为实现上述的技术目的,本发明还可提供一种存储有计算机可读指令的存储介质,存储器可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本发明任一实施例中语音提醒的方法的步骤。
本发明的有益效果为:
通过建立存储有目标用户已录制的第一声纹信息、与第一声纹信息相对应的应用场景信息以及不同的应用场景信息与不同的预设语音相对应的第一语音数据库,然后接收目标用户发出的第二声纹信息,根据目标用户的特征参数及副语言信息与第一语音数据库中的第一声纹信息进行比较,通过比较结果确定当前的应用场景信息,发出与当前应用场景信息对应的预设语音。本发明能够通过声纹信息表现出用户的情绪信息,可通过设备精确地去判断出来用户的声纹信息对应的场景,并给出精确提醒。本发明能够在特定的应用场景即生气愤怒争吵等场景下,在争吵发生初期识别并提醒家庭成员控制情绪,避免进一步伤害和破坏家庭成员关系,对稳定家庭关系会带来非常正面的效果,对容易生气的个人身体健康也会起到积极作用,因此,本发明会带来很好的社会效益。
附图说明
图1示出了本发明一个或多个实施例中语音提醒方法的流程示意图。
图2示出了本发明一个或多个实施例中语音提醒装置的工作流程图。
图3示出了本发明一个或多个实施例中语音提醒装置的组成示意图。
图4示出了本发明一个或多个实施例中语音提醒装置的结构示意图。
图5示出了本发明一个或多个实施例中计算机设备的内部结构组成示意图。
具体实施方式
下面结合说明书附图对本发明所提出的基于声纹识别的语音提醒方法、装置、设备及存储介质进行详细的解释和说明。
如图1所示,本发明一个或多个实施例中具体可提供一种基于声纹识别的语音提醒方法,通过比较当前用户所说的声纹与所记录的语音数据库的声纹,确定当前的应用场景,从而发出相应的预设语音,从而在应用于家庭环境的场景下,本发明实施例可以在争吵发生初期就识别并通过语音提醒家庭成员控制情绪,有助于将矛盾初期产生的不满、怒气化解在萌芽阶段,避免进一步伤害和破坏家庭成员关系;其中语音提醒方法包括但不限于如下的一个或多个步骤。
步骤S100,建立第一语音数据库,第一语音数据库中存储有目标用户已录制的第一声纹信息以及与第一声纹信息相对应的应用场景信息。
可选地,建立第一语音数据库首先接收目标用户在指定场景下的第一声纹信息;然后获取与第一声纹信息相对应的应用场景信息;最后利用第一声纹信息和应用场景信息建立第一语音数据库。
本实施例中,指定应用场景包括但不限于类似于愤怒争吵生气的场景,所接收的在指定应用场景下的第一声纹信息为提前录制用户在生气愤怒情绪下的声纹信息,然后针对家庭矛盾争吵这一特定场景预设了根据不同场景和不同用户的提醒语音。
可选地,对第一语音数据库中所包含的目标用户预先录制的第一声纹信息进行收音降噪,得到降噪后的第一声纹信息,包括该用户基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹特征参数以及语速、语调、重音、音高副语音信息。利用降噪后的第一声纹信息匹配特定的应用场景信息建立第一语音数据库;通过麦克风阵列进行收音的方式接收目标用户的第一声纹信息;对通过麦克风阵列获取的第一声纹信息背景噪音去除和去混响处理,并循环覆盖式录制语音存储;背景噪音包括所处环境中非人的声音。
在一些实施方式中,获取使用者第一音频信息前,可以在进行声纹采集时入库,也可以在进行收音降噪时选取录制的声音片段补充入库。语音数据库可存储多个用户的声纹信息。
可选地,通过麦克风阵列收音,即通过麦克风阵列,判断人在哪个方向,增强人所处方向的拾音效果,开机状态下7*24监测设备所处环境中的人的声音,进行背景噪音去除和去混响处理,并循环覆盖式录制存储于内置存储设备上。录制的声音有两个用途:一是可根据时间序列查找播放录制的声音。二是可截选特定典型使用者语音加入语音数据库,提高识别准确率。录制的语音根据存储器容量大小循环覆盖式存储,单个语音文件可根据设置时间切分,例如,每10分钟或30分钟等切分一个文件,时间排序,便于后续定位查找。
步骤S200,接收目标用户发出的第二声纹信息,将第二声纹信息与第一语音数据库中的第一声纹信息进行比较,以得到比较结果。
可选地,第二声纹信息与第一语音数据库中的第一声纹信息依据特征参数及副语言信息进行比较;特征参数包括目标用户的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹等;副语音信息包括语速、语调、重音、高音中的至少一种。
步骤S300,如果比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息,则确定当前的应用场景信息。
可选地,第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息,声纹信息匹配方法包括但不限于模板匹配法,最近邻方法,神经元网络方法,VQ聚类法;根据各个特征参数阈值设定高低,分为高精度级别和低精度级别声纹信息匹配,首先进行高精度级别声纹信息匹配,根据第一语音数据库的第一声纹信息匹配到当前某一特定的矛盾争吵应用场景。当高精度级别声纹信息不匹配的情况下,启用低精度级别声纹信息匹配,如匹配低级别精度,即非特定场景下的通用情形,如仍不匹配,则终止触发后续步骤。结合上述实施例,第一声纹信息与第二声纹信息相匹配包括但不限于第一声纹信息与第二声纹信息的特征参数和/或副语言信息相匹配,例如,第一声纹信息与第二声纹信息的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹、语速、语调、重音、高音中的一种或多种相匹配。
可选地,针对家庭矛盾争吵应用场景,并不需要理解复杂的争吵内容,只需要能够识别特定场景,比如家长辅导孩子作业,夫妻或情侣琐事争吵,小孩子发脾气大喊大叫,然后对已识别的场景,确定当前的应用场景信息。
步骤S400,发出与当前的应用场景信息对应的预设语音。
可选地,预设语音包括预录制语音、预导入资源语音、通过语音合成引擎生成的语音中的至少一种,通过语音合成引擎生成的语音包括童声、播音声、变形金刚声中的至少一种。本发明实施例发出与当前的应用场景信息对应的预设语音,有两种语音输出方式;语音输出方式可选第一语音数据库预录制语音、预导入资源语音,也可选语音合成引擎变声播放;语音合成引擎变声包括但不限于童声、播音声、变形金刚声方式;语音合成引擎未激活情况下,可选第一语音数据库预录制语音或者设备默认预先存储的语音。
可选地,根据高精度级别识别的应用场景,设备中预设了根据不同场景和不同用户的提醒文字,在此进行匹配,待语音合成引擎变声使用播放。如果场景判定失败,即非特定场景下的通用情形,也适用设备预设提醒文字,一般为通用的幽默式的提醒文字。
可选地,声纹识别(Voiceprint Recognition,VPR),也称为说话人识别,有两类,即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。
随着生活节奏日益加快,人们来自各方压力增加,日常生活中家庭成员间争吵发脾气的情况司空见惯,比如夫妻间,情侣间,与长辈,与子女。在这过程中人们难免会说一些“气头话”,这些争吵时的“气头话”恰恰伤害的是最亲近的人,有时甚至会对家庭成员关系带来不可逆的损伤。然而当人们事后回顾争吵的起因时,经常发现是鸡毛蒜皮的小事,虽然事后多数时候也会为此感到懊悔,但是在争吵发生时往往不受控制。大多家庭成员的争吵发生在二人之间,即使有第三人在场,大多时候也不方便劝架或者劝架反而适得其反。
在本发明中,结合分贝检测,人声识别,声纹信息特征参数以及副语音信息,比较当前用户发出的声纹信息与语音数据库中预先录制的声纹信息,确定当前特定愤怒情绪的应用场景,从而进行触发唤醒。在争吵发生初期即识别并提醒家庭成员控制情绪,通过幽默巧妙的言语设计,吸引并转移使用者注意力,将其矛盾初期产生的不满,怒气化解在萌芽阶段,避免进一步伤害和破坏家庭成员关系。对稳定家庭关系会带来非常正面的效果,对容易生气的个人身体健康也会起到积极作用。本发明仅针对特定生活场景,也因为通过对特定场景的限定,降低对技术实现要求,在较低成本下可实现较高的识别率,具有一定经济性。
本发明还可以有一种精简模式,即不建立语音数据库和声纹信息匹配,语音识别仅识别人声,且人声带有副语言表现为愤怒生气情绪,此时即触发语音输出,输出语音也仅为用户预录制的语音或者设备默认预设语音。
如图2所示,本发明一个或多个实施例还能提供一种语音提醒装置的流程,包括但不限于声纹采集、收音降噪、语音唤醒、场景判断及语音输出。如图3所示,与本发明中的语音提醒的方法基于同一发明技术构思,本发明一个或多个实施例还能提供一种语音提醒的装置。本发明实施例所提供的语音提醒的装置包括但不限于语音数据库建立模块、声纹信息接收模块、声纹信息比较模块、应用场景确定模块以及语音输出模块,具体说明如下。
语音数据库建立模块,用于建立第一语音数据库;其中第一语音数据库包含目标用户预先录制的第一声纹信息以及与所述第一声纹信息相对应的应用场景信息,不同的应用场景信息与不同的预设语音相对应。
声纹信息接收模块,用于接收目标用户的声纹信息。
声纹信息比较模块,用于比较目标用户声纹信息与第一数据语音库声纹信息是否一致。
可选地,声纹识别芯片结合分贝检测,人声识别,声纹信息包括基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹特征参数,再结合副语音信息包括语速、语调、重音、高音条件组合比较声纹信息是否一致。
应用场景确定模块,用于通过比较第一语音数据库中是否存在与第二声纹信息相匹配的第一声纹信息,来确定当前的应用场景。
可选地,针对家庭矛盾争吵这一特定应用场景,并不需要理解复杂的争吵内容,只需要能够识别特定场景,比如家长辅导孩子作业,夫妻或情侣琐事争吵,小孩子发脾气大喊大叫。
可选地,对已识别的场景,根据语音识别通过说话人辨认技术定位用户,设备中预设了根据不同场景和不同人的提醒文字,在此进行匹配,待下一步使用。如果场景判定失败,即不能判定场景,但可以判定人,也适用设备预设提醒文字,一般为通用的幽默式的提醒文字。
语音输出模块,用于输出与当前应用场景相对应的语音。
可选地,可以根据需要选用一种或者两种语音输出方式。其一是直接由用户预先录制的语音或者设备默认预先存储的语音,支持诙谐幽默语音文件多方式的扩展导入,其二是根据得到的预先存储的提醒文字,使用语音合成引擎变声播放出来,语音合成引擎变声可为童声、播音声、变形金刚声。
如图4所示,本发明一个或多个实施例还能提供一种语音提醒装置的结构示意图。本发明实施例所提供的语音提醒装置的结构包括但不限于麦克风阵列单元、声纹识别单元、存储单元、语音合成单元、功能按键区、功能按键电路板、液晶显示屏、WiFi及蓝牙模块、供电单元以及电源开关,具体说明如下。
麦克风阵列单元,包含麦克风模块或麦克风阵列模块,高清消噪模块,是语音输入设备,用于声纹采集,收音降噪,语音唤醒步骤。
声纹识别单元,包括语音数据库模块,声纹识别模块和场景判定模块。其中,语音数据库模块采集记录使用者声纹信息入库,声纹信息来源有两种,一种是事前在声纹采集步骤入库,另一种是事后在收音降噪步骤中选取录制的声音片段补充入库。语音数据库可存储多个使用者的声纹信息。
声纹识别模块可以在收音降噪步骤中降噪和去混响,并实时监控环境中人的声音,当监控的人声与语音数据库中用户发怒情绪下的声纹信息匹配时,具体方法包括模板匹配法,最近邻方法,神经元网络方法,VQ聚类法,即触发语音唤醒步骤。
场景识别模块通过预设条件判断唤醒时使用者所处场景,比如,用户单方面持续性的高音频高音量的输出,间断有幼年使用者语音,则为教育辅导场景,如果有两个使用者互相间断性的高音频高音量的输出,则为夫妻间或者恋人间矛盾争吵。这些场景与用户预先设定的不同场景下第一声纹信息匹配,适用于高精度级别声纹信息匹配,当高精度级别声纹信息不匹配的情况下,启用低精度级别声纹信息匹配,即非特定场景下的通用提醒信息。
存储单元,各种形式的内置或者外置存储介质。有以下几个功能用途,一是用于语音数据库的物理载体,二是用于将收音降噪步骤采集的语音信息存储起来备用,三是用于存储用户预先录制的语音或者设备默认预设语音以支持语音输出步骤。
语音合成单元,包含语音合成引擎和预设语音选择模块。语音合成播报模块,支持文本转语音,预设语音选择模块即直接由用户预先录制的语音或者设备默认预设语音,当语音合成引擎未激活情况下使用。
功能按键区,包含多个功能按键,比如模式选择/使用人选择,播放,录制,上一个、下一个,WiFi/蓝牙连接。
功能按键电路板,设备主板,接收功能按键指令,并根据编译预设分配指令到相对应模块进一步执行,同时如有必要,在液晶显示屏输出结果。
音响外放单元,即腔体喇叭扬声器。
液晶显示屏,即液晶显示模块,含液晶显示屏,集成电路芯片,液晶屏接口。
WiFi及蓝牙模块,提供更多的可扩展移动应用场景,适配智能家居环境。比如手机移动端远程设置操作。
供电单元,包含电源模块,采用通用直流电压输入充电接口或者内置电池输入。
电源开关,开通或者切断设备电源。
如图5所示,本施例提供一种计算机设备,包括存储器和处理器,处理器用于读取存储器中存储的指令,以执行以下操作。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本发明的描述中,参考术语“本实施例”、“一个实施例”、“示例”、“具体示例”、或“一些实例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于声纹识别的语音提醒方法,其特征在于,包括如下步骤:
建立第一语音数据库,所述第一语音数据库中存储有目标用户已录制的第一声纹信息以及与所述第一声纹信息相对应的应用场景信息;
接收目标用户发出的第二声纹信息,将所述第二声纹信息与所述第一语音数据库中的所述第一声纹信息进行比较,以得到比较结果;
如果所述比较结果包含第一语音数据库中存在与第二声纹信息相匹配的第一声纹信息,则确定当前的应用场景信息;
发出与所述当前的应用场景信息对应的预设语音。
2.根据权利要求1所述的一种基于声纹识别的语音提醒方法,其特征在于,所述建立第一语音数据库,包括:
接收所述目标用户的第一声纹信息;
获取与所述第一声纹信息相对应的应用场景信息;
利用所述第一声纹信息和所述应用场景信息建立所述第一语音数据库。
3.根据权利要求2所述的一种基于声纹识别的语音提醒方法,其特征在于,所述利用所述第一声纹信息和所述应用场景信息建立所述第一语音数据库,包括:
对所述第一声纹信息进行降噪处理,得到降噪后的第一声纹信息;
利用所述降噪后的第一声纹信息和所述应用场景信息,建立所述第一语音数据库。
4.根据权利要求3所述的一种基于声纹识别的语音提醒方法,其特征在于,
所述接收所述目标用户的第一声纹信息,包括:通过麦克风阵列进行收音的方式接收所述目标用户的第一声纹信息;
所述对所述第一声纹信息进行降噪处理,包括:对通过麦克风阵列获取的第一声纹信息背景噪音去除和混响处理;
所述背景噪音包括所处环境中非人的声音。
5.根据权利要求1所述的一种基于声纹识别的语音提醒方法,其特征在于,将第二声纹信息与第一语音数据库中的第一声纹信息进行比较,包括:
所述第二声纹信息与第一语音数据库中的第一声纹信息依据特征参数及副语言信息进行比较;
所述特征参数包括目标用户的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及轨迹;
所述副语音信息包括语速、语调、重音、高音中的至少一种。
6.根据权利要求1所述的一种基于声纹识别的语音提醒方法,其特征在于,
所述预设语音包括预录制语音、预导入资源语音、通过语音合成引擎生成的语音中的至少一种。
7.根据权利要求6所述的一种基于声纹识别的语音提醒方法,其特征在于,
所述通过语音合成引擎生成的语音包括童声、播音声、变形金刚声中的至少一种。
8.一种基于声纹识别的语音提醒装置,其特征在于,包括:
语音数据库建立模块,用于建立第一语音数据库;
声纹信息接收模块,用于接收目标用户的声纹信息;
声纹信息比较模块,用于比较目标用户声纹信息与第一数据语音库声纹信息是否一致;
应用场景确定模块,用于通过比较第一语音数据库中是否存在与第二声纹信息相匹配的第一声纹信息,来确定当前的应用场景;
语音输出模块,用于输出与当前应用场景相对应的语音。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述语音提醒的方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述存储器可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-7中任一项权利要求所述语音提醒的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192284.XA CN115547328A (zh) | 2022-09-28 | 2022-09-28 | 基于声纹识别的语音提醒方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192284.XA CN115547328A (zh) | 2022-09-28 | 2022-09-28 | 基于声纹识别的语音提醒方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115547328A true CN115547328A (zh) | 2022-12-30 |
Family
ID=84728852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192284.XA Pending CN115547328A (zh) | 2022-09-28 | 2022-09-28 | 基于声纹识别的语音提醒方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547328A (zh) |
-
2022
- 2022-09-28 CN CN202211192284.XA patent/CN115547328A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
US8909537B2 (en) | Device capable of playing music and method for controlling music playing in electronic device | |
JP7070544B2 (ja) | 学習装置、学習方法、音声合成装置、音声合成方法 | |
EP3611724A1 (en) | Voice response method and device, and smart device | |
US20070189544A1 (en) | Ambient sound responsive media player | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN110475170A (zh) | 耳机播放状态的控制方法、装置、移动终端及存储介质 | |
CN111199732B (zh) | 一种基于情感的语音交互方法、存储介质及终端设备 | |
CN107909995B (zh) | 语音交互方法和装置 | |
US12119022B2 (en) | Cognitive assistant for real-time emotion detection from human speech | |
CN111261195A (zh) | 音频测试方法、装置、存储介质及电子设备 | |
WO2018038235A1 (ja) | 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
CN111739529A (zh) | 一种交互方法、装置、耳机和服务器 | |
JP2005049773A (ja) | 音楽再生装置 | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
CN108922523B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN115547328A (zh) | 基于声纹识别的语音提醒方法、装置、设备及存储介质 | |
US7403895B2 (en) | Control system outputting received speech with display of a predetermined effect or image corresponding to its ambient noise power spectrum | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
CN112866480B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
JP6217003B2 (ja) | 端末装置、睡眠言動記録方法及び睡眠言動記録プログラム | |
CN114822551A (zh) | 一种基于智能耳机的交互方法 | |
CN110083392B (zh) | 音频唤醒预录的方法、存储介质、终端及其蓝牙耳机 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |