CN115101074A - 基于用户说话情绪的语音识别方法、装置、介质及设备 - Google Patents
基于用户说话情绪的语音识别方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN115101074A CN115101074A CN202211017683.2A CN202211017683A CN115101074A CN 115101074 A CN115101074 A CN 115101074A CN 202211017683 A CN202211017683 A CN 202211017683A CN 115101074 A CN115101074 A CN 115101074A
- Authority
- CN
- China
- Prior art keywords
- frequency response
- user
- voice
- emotion
- response curve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 207
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004044 response Effects 0.000 claims abstract description 243
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims abstract description 21
- 230000001502 supplementing effect Effects 0.000 claims abstract description 6
- 230000003993 interaction Effects 0.000 claims description 48
- 230000036651 mood Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 16
- 238000013475 authorization Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 3
- 239000000047 product Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种基于用户说话情绪的语音识别方法、装置、介质及设备,该方法包括:通过获取用户语音,对用户语音进行频响分析生成用户语音对应的频响曲线,对用户语音进行文本识别生成用户语音对应的文本数据,根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型,通过目标场景类型,确定用户语音在目标场景类型下的预设情绪频响曲线,将频响曲线与预设情绪频响曲线进行比较,确定频响曲线的情绪属性,情绪属性为情绪正常的情况下,根据文本数据确定用户意图,在情绪异常的情况下,根据情绪色彩对文本数据进行补充,并通过补充后的文本数据,确定用户意图。从而使设备准确识别用户语音所对应的用户意图,提高语音识别的准确性。
Description
技术领域
本发明涉及智能交互技术领域,特别是涉及一种基于用户说话情绪的语音识别方法、装置、介质及设备。
背景技术
人机交互产品越来越多,通过语音识别技术使智能设备能够识别出用户语音对应的含义,并作出相应的响应。但在进行语音识别时现有技术中,只是针对用户语音进行文字识别,通过解析出的文本语义来识别出用户意图,但语音对话场景中,只对语义进行分析获得的用户意图不准确,严重影响后续智能设备与用户之间的交互过程,给用户带来不好的体验。
发明内容
有鉴于此,本公开的目的在于提供一种基于用户说话情绪的语音识别方法、装置、介质及设备,以解决相关技术中语音识别不准确的技术问题。
基于上述发明目的,本公开的第一方面提供一种基于用户说话情绪的语音识别方法,所述方法包括:
在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据;
根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景;
通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段;
将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高;
在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图;
在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
进一步地,所述在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据,包括:
在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;
以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
进一步地,所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景,包括:
根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别,获得历史用户语音对应的多个历史文本数据;
对所述多个历史文本数据和所述文本数据进行特征提取,确定所述目标场景类型对应的多个关键词,并根据所述多个关键词生成词向量;
计算所述词向量与多个预设词向量之间的相似度,将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。
进一步地,所述将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高,包括:
将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点,并计算曲线的一阶导数值、二阶导数值和曲率值,根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图,将所述灰度直方图进行归一化处理,基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值;
根据所述振幅差值确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度;在所述相似度大于相似度阈值的情况下,将所述预设情绪频响曲线对应的预设情绪属性作为对应频响曲线频段的情绪子属性,通过生成的多个情绪子属性,按照情绪表达权重进行融合,确定所述频响曲线对应的所述情绪属性。
进一步地,所述将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,包括:
对所述频响曲线在水平方向上的长度进行判断,在所述长度超过预设长度阈值的情况下,按照预设比例对所述频响曲线进行截取;
将截取后的频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,其中所述预设情绪频响曲线包括多个不同类型的频响曲线段,所述类型为情绪属性类型;
根据所述相似度,确定所述频响曲线的情绪属性。
进一步地,所述方法还包括:
响应于接收到的音频数据,对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音;
在确定所述音频数据中存在所述用户语音的情况下,根据语音识别模型对所述音频数据进行分离,获取所述用户语音。
本公开的第二方面提供一种基于情绪的语音识别装置,所述装置包括:
生成模块,用于在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据;
第一确定模块,用于根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景;
第二确定模块,用于通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段;
第三确定模块,用于将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高;
第四确定模块,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图;
第五确定模块,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
进一步地,所述生成模块,还可以用于:
在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;
以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
本公开的第三方面提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面中任一项所述基于情绪的语音识别方法的步骤。
本公开的第四方面提供一种电子设备,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任一项所述基于情绪的语音识别方法的步骤。
本公开至少可以达到以下有益效果:
通过获取用户语音,并对用户语音进行频响分析生成用户语音对应的频响曲线,以及对用户语音进行文本识别生成用户语音对应的文本数据,根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型,通过目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,将所述频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线的情绪属性,情绪属性为情绪正常的情况下,根据文本数据确定用户意图,在情绪异常的情况下,根据情绪色彩对文本数据进行补充,并通过补充后的文本数据,确定用户意图。从而通过对用户语音进行情绪判断,确定用户语音情绪是否异常,并基于不同的情绪情况确定用户意图,使智能设备能够更准确识别出用户语音所对应的用户意图,提高了语音识别的准确性,给用户带来了更好的产品体验。
附图说明
图1为本公开所提供的一实施例中基于情绪的语音识别方法的流程图。
图2为本公开所提供的一实施例中实现图1中步骤S12的流程图。
图3是本公开所提供的一实施例中基于情绪的语音识别装置的结构图。
具体实施方式
为使本公开的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本公开。但是本公开能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本公开内涵的情况下做类似改进,因此本公开不受下面公开的具体实施例的限制。
在本公开的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本公开中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
在本公开中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
图1为本公开所提供的一实施例中基于情绪的语音识别方法的流程图,如图1所示,所述方法包括以下步骤:
在步骤S11中,获取用户语音,对所述用户语音进行频响分析生成所述频响曲线,以及对所述用户语音进行文本识别生成文本数据;
其中,所述用户语音是在用户授权的前提下,通过麦克风矩阵采集的用于进行人机交互的用户语音;所述频响曲线是对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线。
在步骤S12中,根据历史用户语音对应的历史文本数据和所述文本数据确定人机交互的目标场景类型;
其中,所述历史文本数据为存储在智能设备中的,通过上述采集方式采集到的预设时间段内的多个用户语音;所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景。
在步骤S13中,通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线;
其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段。
在步骤S14中,将所述频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线的情绪属性;
其中,所述情绪属性是通过确认所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度;根据相似度确认的所述频响曲线对应的情绪属性。所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高。
在步骤S15中,在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图。
在步骤S16中,在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,确定所述用户语音对应的语音情绪和文本情绪,根据所述文本情绪和所述语音情绪对所述文本数据进行补充,通过补充后的文本数据确定所述用户意图。
其中,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
采用上述技术方案,通过获取用户语音,并对用户语音进行频响分析生成用户语音对应的频响曲线,以及对用户语音进行文本识别生成用户语音对应的文本数据,根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型,通过目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,将所述频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线的情绪属性,情绪属性为情绪正常的情况下,根据文本数据确定用户意图,在情绪异常的情况下,根据情绪色彩对文本数据进行补充,并通过补充后的文本数据,确定用户意图。从而通过对用户语音进行情绪判断,确定用户语音情绪是否异常,并基于不同的情绪情况确定用户意图,使智能设备能够更准确识别出用户语音所对应的用户意图,提高了语音识别的准确性,给用户带来了更好的产品体验。
进一步地,在步骤S11中,在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;
以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
进一步地,图2为本公开所提供的一实施例中实现图1中步骤S12的流程图,在步骤S12中,所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景,包括以下步骤:
在步骤S121中,根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别,获得历史用户语音对应的多个历史文本数据。
在步骤S122中,对所述多个历史文本数据和所述文本数据进行特征提取,确定所述目标场景类型对应的多个关键词,并根据所述多个关键词生成词向量。
在步骤S123中,计算所述词向量与多个预设词向量之间的相似度,将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。
进一步地,上述步骤S14,包括:
将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点,并计算曲线的一阶导数值、二阶导数值和曲率值,根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图,将所述灰度直方图进行归一化处理,基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值。
根据所述振幅差值确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度;在所述相似度大于相似度阈值的情况下,将所述预设情绪频响曲线对应的预设情绪属性作为对应频响曲线频段的情绪子属性,通过生成的多个情绪子属性,按照情绪表达权重进行融合,确定所述频响曲线对应的所述情绪属性。
进一步地,上述步骤S14,包括:
对所述频响曲线在水平方向上的长度进行判断,在所述长度超过预设长度阈值的情况下,按照预设比例对所述频响曲线进行截取。
将截取后的频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,其中所述预设情绪频响曲线包括多个不同类型的频响曲线段,所述类型为情绪属性类型。
根据所述相似度,确定所述频响曲线的情绪属性。
进一步地,上述识别方法,还可以包括:
响应于接收到的音频数据,对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音。
在确定所述音频数据中存在所述用户语音的情况下,根据语音识别模型对所述音频数据进行分离,获取所述用户语音。
图3是本公开所提供的一实施例中基于情绪的语音识别装置的结构图,该识别装置100包括:生成模块110,第一确定模块120,第二确定模块130,第三确定模块140,第四确定模块150和第五确定模块160。
生成模块110,用于在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据;
第一确定模块120,用于根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景;
第二确定模块130,用于通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段;
第三确定模块140,用于将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高;
第四确定模块150,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图;
第五确定模块160,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
上述装置,通过获取用户语音,并对用户语音进行频响分析生成用户语音对应的频响曲线,以及对用户语音进行文本识别生成用户语音对应的文本数据,根据多个历史文本数据和用户语音对应的文本数据确定目标场景类型,通过目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,将所述频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线的情绪属性,情绪属性为情绪正常的情况下,根据文本数据确定用户意图,在情绪异常的情况下,根据情绪色彩对文本数据进行补充,并通过补充后的文本数据,确定用户意图。从而通过对用户语音进行情绪判断,确定用户语音情绪是否异常,并基于不同的情绪情况确定用户意图,使智能设备能够更准确识别出用户语音所对应的用户意图,提高了语音识别的准确性,给用户带来了更好的产品体验。
进一步地,所述生成模块110,还可以用于:
在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;
以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
进一步地,所述第一确定模块120,还可以用以:
根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别,获得历史用户语音对应的多个历史文本数据;
对所述多个历史文本数据和所述文本数据进行特征提取,确定所述目标场景类型对应的多个关键词,并根据所述多个关键词生成词向量;
计算所述词向量与多个预设词向量之间的相似度,将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。
进一步地,所述第三确定模块140,还可以用于:
将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点,并计算曲线的一阶导数值、二阶导数值和曲率值,根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图,将所述灰度直方图进行归一化处理,基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值;
根据所述振幅差值确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度;在所述相似度大于相似度阈值的情况下,将所述预设情绪频响曲线对应的预设情绪属性作为对应频响曲线频段的情绪子属性,通过生成的多个情绪子属性,按照情绪表达权重进行融合,确定所述频响曲线对应的所述情绪属性。
进一步地,所述第三确定模块140,还可以用于:
对所述频响曲线在水平方向上的长度进行判断,在所述长度超过预设长度阈值的情况下,按照预设比例对所述频响曲线进行截取;
将截取后的频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,其中所述预设情绪频响曲线包括多个不同类型的频响曲线段,所述类型为情绪属性类型;
根据所述相似度,确定所述频响曲线的情绪属性。
进一步地,所述装置100,还包括获取模块,所述获取模块用于:
响应于接收到的音频数据,对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音;
在确定所述音频数据中存在所述用户语音的情况下,根据语音识别模型对所述音频数据进行分离,获取所述用户语音。
本公开还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述中任一项所述基于情绪的语音识别方法的步骤。
本公开还提供一种电子设备,包括计算机程序,该计算机程序被处理器执行时实现如前述中任一项所述基于情绪的语音识别方法的步骤。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于用户说话情绪的语音识别方法,其特征在于,所述方法包括:
在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据;
根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景;
通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段;
将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高;
在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图;
在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
2.根据权利要求1所述的基于用户说话情绪的语音识别方法,其特征在于,所述在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据,包括:
在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
3.根据权利要求1所述的基于用户说话情绪的语音识别方法,其特征在于,所述根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景,包括:
根据特征提取算法对所述多个历史用户语音中的每一历史用户语音进行识别,获得历史用户语音对应的多个历史文本数据;
对所述多个历史文本数据和所述文本数据进行特征提取,确定所述目标场景类型对应的多个关键词,并根据所述多个关键词生成词向量;
计算所述词向量与多个预设词向量之间的相似度,将最大相似度对应的目标预设词向量对应的场景类型作为所述人机交互对应的场景类型。
4.根据权利要求1所述的基于用户说话情绪的语音识别方法,其特征在于,所述将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高,包括:
将所述频响曲线和所述预设情绪频响曲线移动至同一坐标原点,并计算曲线的一阶导数值、二阶导数值和曲率值,根据所述一阶导数值、所述二阶导数值和所述曲率值确定曲线对应的灰度直方图,将所述灰度直方图进行归一化处理,基于余弦相似度计算方法确定归一化处理后的灰度直方图之间在同一频率下的振幅差值;
根据所述振幅差值确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度;在所述相似度大于相似度阈值的情况下,将所述预设情绪频响曲线对应的预设情绪属性作为对应频响曲线频段的情绪子属性,通过生成的多个情绪子属性,按照情绪表达权重进行融合,确定所述频响曲线对应的所述情绪属性。
5.根据权利要求1所述的基于用户说话情绪的语音识别方法,其特征在于,所述将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,包括:
对所述频响曲线在水平方向上的长度进行判断,在所述长度超过预设长度阈值的情况下,按照预设比例对所述频响曲线进行截取;
将截取后的频响曲线与所述预设情绪频响曲线进行比较,确定所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,其中所述预设情绪频响曲线包括多个不同类型的频响曲线段,所述类型为情绪属性类型;
根据所述相似度,确定所述频响曲线的情绪属性。
6.根据权利要求1所述的基于用户说话情绪的语音识别方法,其特征在于,所述方法还包括:
响应于接收到的音频数据,对所述音频数据进行识别确定所述音频数据中是否存在所述用户语音;
在确定所述音频数据中存在所述用户语音的情况下,根据语音识别模型对所述音频数据进行分离,获取所述用户语音。
7.一种基于用户说话情绪的语音识别装置,其特征在于,包括:
生成模块,用于在用户授权的情况下,获取通过麦克风矩阵采集的用于进行人机交互的用户语音,并对所述麦克风矩阵中每一麦克风采集的所述用户语音按照对应的采集时间戳进行频响分析生成所述用户语音对应的频响曲线,以及对每一麦克风采集的所述用户语音进行文本识别生成所述用户语音对应的文本数据;
第一确定模块,用于根据预设数量的多个历史用户语音对应的多个历史文本数据和所述用户语音对应的所述文本数据确定所述人机交互的目标场景类型,其中,所述人机交互对应的场景类型至少包括游戏交互场景、引导服务场景和智能配送场景;
第二确定模块,用于通过所述目标场景类型,确定所述用户语音在所述目标场景类型下的预设情绪频响曲线,其中,所述预设情绪频响曲线中包括情绪正常频响曲线段和情绪异常频响曲线段;
第三确定模块,用于将所述频响曲线与所述预设情绪频响曲线进行比较,根据所述频响曲线与所述预设情绪频响曲线中不同频响曲线的相似度,确定所述频响曲线的情绪属性,所述相似度根据频响曲线在同一频率下各个频响曲线对应的振幅差值确定,所述振幅差值越小对应的相似度越高;
第四确定模块,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪正常的情况下,根据所述文本数据进行语义分析,确定所述用户语音对应的用户意图;
第五确定模块,用于在通过所述相似度确定所述频响曲线的情绪属性为情绪异常的情况下,根据所述频响曲线的曲线斜率确定所述用户语音对应的语音情绪,并获取所述文本数据中的语气助词,根据预设情绪助词表确定所述语气助词对应的文本情绪,通过所述文本情绪和所述语音情绪确定所述用户语音对应的情绪色彩,根据所述情绪色彩对所述文本数据进行补充,并通过补充后的文本数据,确定所述用户语音对应的所述用户意图其中,所述预设情绪助词表中包括多个语气助词和多种异常情绪之间的映射关系。
8.根据权利要求7所述的基于用户说话情绪的语音识别装置,其特征在于,所述生成模块,还可以用于:
在用户授权的情况下,对所述用户的历史语音进行分析,确定所述用户对应的语音停顿间隔,所述语音停顿间隔为所述用户语音中各个语音词语之间的停顿间隔或所述用户语音中各个短句之间的停顿间隔;
根据所述语音停顿间隔确定所述麦克风矩阵中每一麦克风采集所述用户语音时对应的所述采集时间戳,通过所述采集时间戳对通过所述麦克风矩阵采集的用于进行人机交互的所述用户语音进行频响分析,生成所述用户语音对应的频响曲线;
以及根据所述采集时间戳将每一麦克风采集的所述用户语音切分为多个用户子语音,并对所述用户子语音进行文本识别生成多个文本子数据,根据预设语音习惯将所述文本子数据组合成所述文本数据,其中所述预设语音习惯是通过语音识别模型对所述历史语音进行分析确定的。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一项所述基于用户说话情绪的语音识别方法的步骤。
10.一种电子设备,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-6任一项所述基于用户说话情绪的语音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017683.2A CN115101074B (zh) | 2022-08-24 | 2022-08-24 | 基于用户说话情绪的语音识别方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211017683.2A CN115101074B (zh) | 2022-08-24 | 2022-08-24 | 基于用户说话情绪的语音识别方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115101074A true CN115101074A (zh) | 2022-09-23 |
CN115101074B CN115101074B (zh) | 2022-11-11 |
Family
ID=83300359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211017683.2A Active CN115101074B (zh) | 2022-08-24 | 2022-08-24 | 基于用户说话情绪的语音识别方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101074B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578691A (zh) * | 2023-07-13 | 2023-08-11 | 江西合一云数据科技股份有限公司 | 一种智能养老机器人对话方法及其对话系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
CN108197115A (zh) * | 2018-01-26 | 2018-06-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
CN110085262A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 语音情绪交互方法、计算机设备和计算机可读存储介质 |
CN110085221A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 语音情感交互方法、计算机设备和计算机可读存储介质 |
US20200152194A1 (en) * | 2018-11-14 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
CN111801730A (zh) * | 2017-12-29 | 2020-10-20 | 得麦股份有限公司 | 用于人工智能驱动的自动伴侣的系统和方法 |
WO2020233504A1 (en) * | 2019-05-17 | 2020-11-26 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition |
CN113450804A (zh) * | 2021-06-23 | 2021-09-28 | 深圳市火乐科技发展有限公司 | 语音可视化方法、装置、投影设备及计算机可读存储介质 |
-
2022
- 2022-08-24 CN CN202211017683.2A patent/CN115101074B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562816A (zh) * | 2017-08-16 | 2018-01-09 | 深圳狗尾草智能科技有限公司 | 用户意图自动识别方法及装置 |
CN111801730A (zh) * | 2017-12-29 | 2020-10-20 | 得麦股份有限公司 | 用于人工智能驱动的自动伴侣的系统和方法 |
CN108197115A (zh) * | 2018-01-26 | 2018-06-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
CN110085262A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 语音情绪交互方法、计算机设备和计算机可读存储介质 |
CN110085221A (zh) * | 2018-01-26 | 2019-08-02 | 上海智臻智能网络科技股份有限公司 | 语音情感交互方法、计算机设备和计算机可读存储介质 |
US20200152194A1 (en) * | 2018-11-14 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
WO2020233504A1 (en) * | 2019-05-17 | 2020-11-26 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition |
CN113450804A (zh) * | 2021-06-23 | 2021-09-28 | 深圳市火乐科技发展有限公司 | 语音可视化方法、装置、投影设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
DEEPAK BHARTI 等: "A Hybrid Machine Learning Model for Emotion Recognition From Speech Signals", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON SMART ELECTRONICS AND COMMUNICATION》 * |
张雪英 等: "语音情感识别的关键技术", 《太原理工大学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578691A (zh) * | 2023-07-13 | 2023-08-11 | 江西合一云数据科技股份有限公司 | 一种智能养老机器人对话方法及其对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115101074B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
US20180158464A1 (en) | Blind Diarization of Recorded Calls With Arbitrary Number of Speakers | |
CN111639177B (zh) | 文本提取方法和装置 | |
Zhu et al. | Online speaker diarization using adapted i-vector transforms | |
CN110390946A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN115101074B (zh) | 基于用户说话情绪的语音识别方法、装置、介质及设备 | |
CN110164417B (zh) | 一种语种向量获得、语种识别的方法和相关装置 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN106910495A (zh) | 一种应用于异常声音检测的音频分类系统和方法 | |
EP1005019B1 (en) | Segment-based similarity measurement method for speech recognition | |
CN114141252A (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN115440196A (zh) | 基于用户面部表情的语音识别方法、装置、介质及设备 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN113808612B (zh) | 语音处理方法、设备及存储介质 | |
US9697825B2 (en) | Audio recording triage system | |
CN113891177A (zh) | 一种音视频数据的摘要生成方法、装置、设备和存储介质 | |
Zeinali et al. | Non-speaker information reduction from cosine similarity scoring in i-vector based speaker verification | |
CN112562736A (zh) | 一种语音数据集质量评估方法和装置 | |
Lazaro et al. | Music tempo classification using audio spectrum centroid, audio spectrum flatness, and audio spectrum spread based on MPEG-7 audio features | |
Amid et al. | Unsupervised feature extraction for multimedia event detection and ranking using audio content | |
Warule et al. | Hilbert-Huang Transform-Based Time-Frequency Analysis of Speech Signals for the Identification of Common Cold | |
CN114299924A (zh) | 基于语音情绪的话术推送方法、装置、设备及存储介质 | |
Castan et al. | Segmentation-by-classification system based on factor analysis | |
Ghaemmaghami et al. | Speaker linking using complete-linkage clustering | |
Paulino et al. | A brazilian speech database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |