CN118038869A - 基于改进语音识别的电力智能交互方法及系统 - Google Patents
基于改进语音识别的电力智能交互方法及系统 Download PDFInfo
- Publication number
- CN118038869A CN118038869A CN202410432051.5A CN202410432051A CN118038869A CN 118038869 A CN118038869 A CN 118038869A CN 202410432051 A CN202410432051 A CN 202410432051A CN 118038869 A CN118038869 A CN 118038869A
- Authority
- CN
- China
- Prior art keywords
- user
- model
- knowledge graph
- mel
- electric power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000005236 sound signal Effects 0.000 claims description 43
- 238000009826 distribution Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及基于改进语音识别的电力智能交互方法及系统,包括以下步骤:步骤S1:构建电力领域的知识图谱;步骤S2:获取用户语音数据,并构建用户声纹库;步骤S3:基于Transformer构建端到端的语音识别模型,并使用用户声纹库中的数据对模型进行个性化训练;步骤S4:用户通过用户端输入语音,基于个性化语音识别模型进行语音识别,得到最终的文本结果;步骤S5:对最终的文本结果进行自然语言处理,将问题转换为计算机可理解的形式;步骤S6:将问题表示为语义向量,将问题的语义向量映射到知识图谱中,形成查询知识图谱的语义表示,并基于知识图谱的信息,回答用户提出的问题。本发明能够提供个性化、准确性高、智能化的交互体验,提升用户体验和工作效率。
Description
技术领域
本发明涉及人工智能交互领域,尤其涉及一种基于改进语音识别的电力智能交互方法及系统。
背景技术
电网人机交互终端对电网发展至关重要,随着电力系统规模的不断扩大和智能化水平的提升,交互技术不断的发展,但现有的语音交互无法准确地获取用户的输入数据,如此用户在进行信息交互时自然就会感到不符合预期,或者说交互不够准确,进而导致交互准确性较低的问题出现。
发明内容
为了解决上述问题,本发明的目的在于提供一种基于改进语音识别的电力智能交互方法及系统,能够提供个性化、准确性高、智能化的交互体验,提升用户体验和工作效率。
为实现上述目的,本发明采用以下技术方案:
一种基于改进语音识别的电力智能交互方法,包括以下步骤:
步骤S1:收集电力领域的相关数据和知识,建立实体间的关联关系,构建电力领域的知识图谱,包括实体、属性和关系;
步骤S2:获取用户语音数据,并构建用户声纹库;
步骤S3:基于Transformer构建端到端的语音识别模型,并使用用户声纹库中的数据对模型进行个性化训练;
步骤S4:用户通过用户端输入语音,基于个性化训练后的语音识别模型进行语音识别,并使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果;
步骤S5:对最终的文本结果进行自然语言处理,包括分词、词性标注、实体识别,将问题转换为计算机可理解的形式;
步骤S6:通过BERT模型,将问题表示为语义向量,将问题的语义向量映射到知识图谱中的实体、属性和关系,形成查询知识图谱的语义表示,并基于知识图谱的信息,回答用户提出的问题。
进一步的,所述步骤S1具体为:
步骤S11:收集来自电力行业的各种数据源,对数据进行清洗、整合和标注,提取出实体的属性信息;
步骤S12:利用决策树算法建立实体之间的关系模型,根据特征的重要性和关联性构建树结构,包括层次关系、关联关系和依赖关系,形成完整的知识图谱网络。
进一步的,所述步骤S12具体为:
(1)将实体属性作为特征,实体之间的关系作为目标标签;
(2)计算每个特征的信息增益,选择信息增益最大的特征作为节点的划分依据,计算每个特征对训练数据集的信息增益,并选择信息增益最大的特征作为划分依据;
;
;
其中,为信息增益,S是训练数据集,A是特征,/>是特征A对应的数据集;/>是特征A的一个取值v对应的子集,/>和/>分别是S和/>的熵;c是类别数量;/>是第i个类别在数据集S中出现的概率;其中,/>;
(3)使用选定的特征作为划分依据,构建决策树模型,并通过构建决策树模型,根据特征的重要性和关联性建立实体之间的关系模型,获取实体之间的层次关系、关联关系和依赖关系。
进一步的,所述步骤S2具体为:
步骤S21:收集不同用户的声音信号,包括语音指令、短语;
步骤S22:对采集的声音信号进行预处理,包括去噪、降采样处理;
步骤S23:使用梅尔频率倒谱系数,将声音信号转换为频谱图;
步骤S24:通过声纹特征提取算法,从频谱图中提取声纹特征向量;
步骤S25:将每个用户的声纹特征向量存储在声纹数据库中,建立用户声纹库。
进一步的,所述步骤S23具体为:
(1)对预处理后的声音信号通过一阶高通滤波进行预加重,并将声音信号分成若干帧;
;
;
其中,为预处理后的声音信号的时域波形,表示声音信号在时间点n的振幅值;为预加重系数;/>表示经过预加重处理后的声音信号;m为帧的索引,表示声音信号被分割成的多个帧之一;n表示时间点;/>为帧移;/>表示时间点n的第m帧的声音信号;
(2)对每帧应用汉明窗,以减少频谱泄漏;
(3)对每帧信号进行快速傅里叶变换,将时域信号转换为频域信号;
(4)将频谱图映射到梅尔频率域,通过一组A个梅尔滤波器计算每个频段的能量;
;
其中,为经过傅里叶变换后的信号,表示第m帧的第k个频率分量的复数幅度;/>经过梅尔滤波器组处理后的信号,表示第m帧第/>个梅尔频率倒谱系数;/>为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应;a代表梅尔滤波器组中的第a个滤波器;/>表示绝对值运算符;1≤/>≤A,1≤a≤A;
(5)对梅尔频率域的能量取对数,对取对数后的能量应用离散余弦变换,得到MFCC系数;
;
;
其中,为对数压缩后的信号,j表示第j个梅尔频率倒谱系数;/>为提取的MFCC系数的数量;/>为MFCC系数,表示第m帧第/>个梅尔频率倒谱系数;J为梅尔频率倒谱系数数量;
并将MFCC系数作为声音信号的频谱图表示。
进一步的,所述步骤S3具体为:
步骤S31: 获取声音信号数据集,包括语音样本和相应的文本标注,并转换为MFCC系数作为Transformer模型的输入;
使用CTC损失函数进行预训练,优化模型参数;
步骤S32:基于用户声纹库,为每个用户分配一个唯一的标识符,使用独热编码向量表示,将用户标识符作为额外的输入特征与声音数据一起输入到Transformer模型中;
步骤S33:在预训练的Transformer模型基础上,将用户标识符引入模型,与声音特征一起进行训练,通过调整模型参数,使其能够更好地适应每个用户的声音特征,得到最终的语音识别模型;
其中,为个性化训练后的模型参数;/>为模型预训练后的参数;N为用户声纹库中的用户数量;L()为损失函数;/>为模型对用户的声音信号/>的输出;为用户/>的标签。
进一步的,所述使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果,具体为:
(1)初始时刻t=0,选择初始的若干个备选结果作为初始搜索状态。
(2)逐步遍历时间步t,根据语音识别模型输出的概率分布P(word∣audio),扩展备选结果,保留概率最高的G个结果;
(3)在每个时间步中,根据概率分布和已有的备选结果,计算新的备选结果的概率得分,并选择概率最高的G个结果;
(4)当达到最大时间步或满足停止条件时,选择最终概率最高的结果作为最终的文本结果。
进一步的,步骤S6具体为:
设问题文本表示为Q text,通过BERT模型生成问题的语义表示Q:
其中,表示BERT模型的编码器部分,/>表示句子的特征标记;
通过相似度计算将问题语义向量映射到知识图谱元素,得到查询语义表示:
;
其中,为查询语义表示,E、A、R分别为知识图谱中的实体、属性和关系的集合;e、a、r分别为实体、属性和关系的元素;/>为相似度;
利用知识图谱中的信息,结合查询语义表示,回答用户提出的问题。
一种基于改进语音识别的电力智能交互系统,包括处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时,具体执行如上所述的一种基于改进语音识别的电力智能交互方法中的步骤。
本发明具有如下有益效果:
1、本发明通过构建用户声纹库并对语音识别模型进行个性化训练,实现了个性化的语音识别,提高了识别准确性和用户体验,提高语音识别系统在多用户场景下的准确度和用户体验;
2、本发明使用梅尔频率倒谱系数,将声音信号转换为频谱图,并通过声纹特征提取算法,从频谱图中提取声纹特征向量,可以有效地从频谱图中提取声纹特征向量,为声纹识别系统提供准确、高效的声纹特征表示,从而实现准确的声纹识别和个性化声纹识别任务;
3、本发明根据语音识别得到的文本结果进行语义分析,并结合知识图谱和语义模型来回答用户问题,有效提高回答的准确性。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图和具体实施例对本发明做进一步详细说明:
参考图1,在本实施例中,一种基于改进语音识别的电力智能交互方法,包括以下步骤:
步骤S1:收集电力领域的相关数据和知识,建立实体间的关联关系,构建电力领域的知识图谱,包括实体、属性和关系;
步骤S2:获取用户语音数据,并构建用户声纹库;
步骤S3:基于Transformer构建端到端的语音识别模型,并使用用户声纹库中的数据对模型进行个性化训练;
步骤S4:用户通过用户端输入语音,基于个性化训练后的语音识别模型进行语音识别,并使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果;
步骤S5:对最终的文本结果进行自然语言处理,包括分词、词性标注、实体识别,将问题转换为计算机可理解的形式;
步骤S6:通过BERT模型,将问题表示为语义向量,将问题的语义向量映射到知识图谱中的实体、属性和关系,形成查询知识图谱的语义表示,并基于知识图谱的信息,回答用户提出的问题。
在本实施例中,步骤S1具体为:
步骤S11:收集来自电力行业的各种数据源,对数据进行清洗、整合和标注,提取出实体的属性信息;
步骤S12:利用决策树算法建立实体之间的关系模型,根据特征的重要性和关联性构建树结构,包括层次关系、关联关系和依赖关系,形成完整的知识图谱网络。
在本实施例中,步骤S12具体为:
(1)将实体属性作为特征,实体之间的关系作为目标标签;
(2)计算每个特征的信息增益,选择信息增益最大的特征作为节点的划分依据,计算每个特征对训练数据集的信息增益,并选择信息增益最大的特征作为划分依据;
;
;
其中,为信息增益,S是训练数据集,A是特征,/>是特征A对应的数据集;/>是特征A的一个取值v对应的子集,/>和/>分别是S和/>的熵;c是类别数量;/>是第i个类别在数据集S中出现的概率;其中,/>;
(3)使用选定的特征作为划分依据,构建决策树模型,并通过构建决策树模型,根据特征的重要性和关联性建立实体之间的关系模型,获取实体之间的层次关系、关联关系和依赖关系。
在本实施例中,步骤S2具体为:
步骤S21:收集不同用户的声音信号,包括语音指令、短语;
步骤S22:对采集的声音信号进行预处理,包括去噪、降采样处理;
步骤S23:使用梅尔频率倒谱系数,将声音信号转换为频谱图;
步骤S24:通过声纹特征提取算法,从频谱图中提取声纹特征向量;
步骤S25:将每个用户的声纹特征向量存储在声纹数据库中,建立用户声纹库。
在本实施例中,步骤S23具体为:
(1)对预处理后的声音信号通过一阶高通滤波进行预加重,并将声音信号分成若干帧;
;
;
其中,为预处理后的声音信号的时域波形,表示声音信号在时间点n的振幅值;为预加重系数;/>表示经过预加重处理后的声音信号;m为帧的索引,表示声音信号被分割成的多个帧之一;n表示时间点;/>为帧移;/>表示时间点n的第m帧的声音信号;
(2)对每帧应用汉明窗,以减少频谱泄漏;
(3)对每帧信号进行快速傅里叶变换,将时域信号转换为频域信号;
(4)将频谱图映射到梅尔频率域,通过一组A个梅尔滤波器计算每个频段的能量;
;
其中,为经过傅里叶变换后的信号,表示第m帧的第k个频率分量的复数幅度;/>经过梅尔滤波器组处理后的信号,表示第m帧第/>个梅尔频率倒谱系数;/>为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应;a代表梅尔滤波器组中的第a个滤波器;/>表示绝对值运算符;1≤/>≤A,1≤a≤A;
(5)对梅尔频率域的能量取对数,对取对数后的能量应用离散余弦变换,得到MFCC系数;
;
;
其中,为对数压缩后的信号,j表示第j个梅尔频率倒谱系数;/>为提取的MFCC系数的数量;/>为MFCC系数,表示第m帧第/>个梅尔频率倒谱系数;J为梅尔频率倒谱系数数量;
并将MFCC系数作为声音信号的频谱图表示。
在本实施例中,步骤S3具体为:
步骤S31: 获取声音信号数据集,包括语音样本和相应的文本标注,并转换为MFCC系数作为Transformer模型的输入;
使用CTC损失函数进行预训练,优化模型参数;
步骤S32:基于用户声纹库,为每个用户分配一个唯一的标识符,使用独热编码向量表示,将用户标识符作为额外的输入特征与声音数据一起输入到Transformer模型中;
步骤S33:在预训练的Transformer模型基础上,将用户标识符引入模型,与声音特征一起进行训练,通过调整模型参数,使其能够更好地适应每个用户的声音特征,得到最终的语音识别模型;
其中,为个性化训练后的模型参数;/>为模型预训练后的参数;N为用户声纹库中的用户数量;L()为损失函数;/>为模型对用户的声音信号/>的输出;/>为用户/>的标签。
在本实施例中,使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果,具体为:
(1)初始时刻t=0,选择初始的若干个备选结果作为初始搜索状态。
(2)逐步遍历时间步t,根据语音识别模型输出的概率分布P(word∣audio),扩展备选结果,保留概率最高的G个结果;
(3)在每个时间步中,根据概率分布和已有的备选结果,计算新的备选结果的概率得分,并选择概率最高的G个结果;
(4)当达到最大时间步或满足停止条件时,选择最终概率最高的结果作为最终的文本结果。
在本实施例中,步骤S6具体为:
设问题文本表示为Q text,通过BERT模型生成问题的语义表示Q:
其中,表示BERT模型的编码器部分,/>表示句子的特征标记;
通过相似度计算将问题语义向量映射到知识图谱元素,得到查询语义表示:
;
其中,为查询语义表示,E、A、R分别为知识图谱中的实体、属性和关系的集合;e、a、r分别为实体、属性和关系的元素;/>为相似度;
利用知识图谱中的信息,结合查询语义表示,回答用户提出的问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (9)
1.基于改进语音识别的电力智能交互方法,其特征在于,包括以下步骤:
步骤S1:收集电力领域的相关数据和知识,建立实体间的关联关系,构建电力领域的知识图谱,包括实体、属性和关系;
步骤S2:获取用户语音数据,并构建用户声纹库;
步骤S3:基于Transformer构建端到端的语音识别模型,并使用用户声纹库中的数据对模型进行个性化训练;
步骤S4:用户通过用户端输入语音,基于个性化训练后的语音识别模型进行语音识别,并使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果;
步骤S5:对最终的文本结果进行自然语言处理,包括分词、词性标注、实体识别,将问题转换为计算机可理解的形式;
步骤S6:通过BERT模型,将问题表示为语义向量,将问题的语义向量映射到知识图谱中的实体、属性和关系,形成查询知识图谱的语义表示,并基于知识图谱的信息,回答用户提出的问题。
2.根据权利要求1所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S1具体为:
步骤S11:收集来自电力行业的各种数据源,对数据进行清洗、整合和标注,提取出实体的属性信息;
步骤S12:利用决策树算法建立实体之间的关系模型,根据特征的重要性和关联性构建树结构,包括层次关系、关联关系和依赖关系,形成完整的知识图谱网络。
3.根据权利要求2所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S12具体为:
(1)将实体属性作为特征,实体之间的关系作为目标标签;
(2)计算每个特征的信息增益,选择信息增益最大的特征作为节点的划分依据,计算每个特征对训练数据集的信息增益,并选择信息增益最大的特征作为划分依据;
;
;
其中,为信息增益,S是训练数据集,A是特征,/>是特征A对应的数据集;是特征A的一个取值v对应的子集,/>和/>分别是S和/>的熵;c是类别数量;/>是第i个类别在数据集S中出现的概率;其中,/>;
(3)使用选定的特征作为划分依据,构建决策树模型,并通过构建决策树模型,根据特征的重要性和关联性建立实体之间的关系模型,获取实体之间的层次关系、关联关系和依赖关系。
4.根据权利要求1所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S2具体为:
步骤S21:收集不同用户的声音信号,包括语音指令、短语;
步骤S22:对采集的声音信号进行预处理,包括去噪、降采样处理;
步骤S23:使用梅尔频率倒谱系数,将声音信号转换为频谱图;
步骤S24:通过声纹特征提取算法,从频谱图中提取声纹特征向量;
步骤S25:将每个用户的声纹特征向量存储在声纹数据库中,建立用户声纹库。
5.根据权利要求4所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S23具体为:
(1)对预处理后的声音信号通过一阶高通滤波进行预加重,并将声音信号分成若干帧;
;
;
其中,为预处理后的声音信号的时域波形,表示声音信号在时间点n的振幅值;/>为预加重系数;/>表示经过预加重处理后的声音信号;m为帧的索引,表示声音信号被分割成的多个帧之一;n表示时间点;/>为帧移;/>表示时间点n的第m帧的声音信号;
(2)对每帧应用汉明窗,以减少频谱泄漏;
(3)对每帧信号进行快速傅里叶变换,将时域信号转换为频域信号;
(4)将频谱图映射到梅尔频率域,通过一组A个梅尔滤波器计算每个频段的能量;
;
其中,为经过傅里叶变换后的信号,表示第m帧的第k个频率分量的复数幅度;经过梅尔滤波器组处理后的信号,表示第m帧第/>个梅尔频率倒谱系数;/>为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应;a代表梅尔滤波器组中的第a个滤波器;/>表示绝对值运算符;1≤/>≤A,1≤a≤A;
(5)对梅尔频率域的能量取对数,对取对数后的能量应用离散余弦变换,得到MFCC系数;
;
;
其中,为对数压缩后的信号,j表示第j个梅尔频率倒谱系数;/>为提取的MFCC系数的数量;/>为MFCC系数,表示第m帧第/>个梅尔频率倒谱系数;J为梅尔频率倒谱系数数量;
并将MFCC系数作为声音信号的频谱图表示。
6.根据权利要求1所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S3具体为:
步骤S31: 获取声音信号数据集,包括语音样本和相应的文本标注,并转换为MFCC系数作为Transformer模型的输入;
使用CTC损失函数进行预训练,优化模型参数;
步骤S32:基于用户声纹库,为每个用户分配一个唯一的标识符,使用独热编码向量表示,将用户标识符作为额外的输入特征与声音数据一起输入到Transformer模型中;
步骤S33:在预训练的Transformer模型基础上,将用户标识符引入模型,与声音特征一起进行训练,通过调整模型参数,使其能够更好地适应每个用户的声音特征,得到最终的语音识别模型;
;
其中,为个性化训练后的模型参数;/>为模型预训练后的参数;N为用户声纹库中的用户数量;L()为损失函数;/>为模型对用户的声音信号/>的输出;/>为用户/>的标签。
7.根据权利要求1所述的基于改进语音识别的电力智能交互方法,其特征在于,所述使用集束搜索方法对语音识别模型输出的概率分布进行解码,得到最终的文本结果,具体为:
(1)初始时刻t=0,选择初始的若干个备选结果作为初始搜索状态;
(2)逐步遍历时间步t,根据语音识别模型输出的概率分布P(word∣audio),扩展备选结果,保留概率最高的G个结果;
(3)在每个时间步中,根据概率分布和已有的备选结果,计算新的备选结果的概率得分,并选择概率最高的G个结果;
(4)当达到最大时间步或满足停止条件时,选择最终概率最高的结果作为最终的文本结果。
8.根据权利要求1所述的基于改进语音识别的电力智能交互方法,其特征在于,所述步骤S6具体为:
设问题文本表示为Q text,通过BERT模型生成问题的语义表示Q:
其中,/>表示BERT模型的编码器部分,/>表示句子的特征标记;
通过相似度计算将问题语义向量映射到知识图谱元素,得到查询语义表示:
;
其中,为查询语义表示,E、A、R分别为知识图谱中的实体、属性和关系的集合;e、a、r分别为实体、属性和关系的元素;/>为相似度;
利用知识图谱中的信息,结合查询语义表示,回答用户提出的问题。
9.一种基于改进语音识别的电力智能交互系统,其特征在于,包括处理器、存储器以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时,具体执行如权利要求1-8任一项所述的基于改进语音识别的电力智能交互方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410432051.5A CN118038869B (zh) | 2024-04-11 | 2024-04-11 | 基于改进语音识别的电力智能交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410432051.5A CN118038869B (zh) | 2024-04-11 | 2024-04-11 | 基于改进语音识别的电力智能交互方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118038869A true CN118038869A (zh) | 2024-05-14 |
CN118038869B CN118038869B (zh) | 2024-09-24 |
Family
ID=90991702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410432051.5A Active CN118038869B (zh) | 2024-04-11 | 2024-04-11 | 基于改进语音识别的电力智能交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038869B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN111597308A (zh) * | 2020-05-19 | 2020-08-28 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的语音问答系统及其应用方法 |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN113449107A (zh) * | 2021-06-29 | 2021-09-28 | 金陵科技学院 | 面向地理大数据的分布式自适应访问控制方法 |
US20210390959A1 (en) * | 2020-06-15 | 2021-12-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN113990326A (zh) * | 2021-11-03 | 2022-01-28 | 四川启睿克科技有限公司 | 一种基于联合模型的声纹属性识别训练方法和装置 |
CN114550703A (zh) * | 2020-11-24 | 2022-05-27 | 亚信科技(中国)有限公司 | 语音识别系统的训练方法和装置、语音识别方法和装置 |
CN115101077A (zh) * | 2022-06-24 | 2022-09-23 | 北京中科智加科技有限公司 | 一种声纹检测模型训练方法及声纹识别方法 |
CN115547344A (zh) * | 2022-09-28 | 2022-12-30 | 北京中科智加科技有限公司 | 一种声纹识别特征提取模型的训练方法和声纹识别系统 |
CN115619117A (zh) * | 2022-08-30 | 2023-01-17 | 国网浙江省电力有限公司 | 基于值班系统的电网智能调度方法 |
CN117524202A (zh) * | 2023-10-27 | 2024-02-06 | 广州市图之灵计算机技术有限公司 | 一种ip电话语音数据检索方法及系统 |
CN117524232A (zh) * | 2023-11-08 | 2024-02-06 | 国网浙江省电力有限公司营销服务中心 | 一种基于检索模式的声纹识别方法和系统 |
-
2024
- 2024-04-11 CN CN202410432051.5A patent/CN118038869B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357875A (zh) * | 2017-07-04 | 2017-11-17 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN111597308A (zh) * | 2020-05-19 | 2020-08-28 | 中国电子科技集团公司第二十八研究所 | 一种基于知识图谱的语音问答系统及其应用方法 |
US20210390959A1 (en) * | 2020-06-15 | 2021-12-16 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN114550703A (zh) * | 2020-11-24 | 2022-05-27 | 亚信科技(中国)有限公司 | 语音识别系统的训练方法和装置、语音识别方法和装置 |
CN113449107A (zh) * | 2021-06-29 | 2021-09-28 | 金陵科技学院 | 面向地理大数据的分布式自适应访问控制方法 |
CN113990326A (zh) * | 2021-11-03 | 2022-01-28 | 四川启睿克科技有限公司 | 一种基于联合模型的声纹属性识别训练方法和装置 |
CN115101077A (zh) * | 2022-06-24 | 2022-09-23 | 北京中科智加科技有限公司 | 一种声纹检测模型训练方法及声纹识别方法 |
CN115619117A (zh) * | 2022-08-30 | 2023-01-17 | 国网浙江省电力有限公司 | 基于值班系统的电网智能调度方法 |
CN115547344A (zh) * | 2022-09-28 | 2022-12-30 | 北京中科智加科技有限公司 | 一种声纹识别特征提取模型的训练方法和声纹识别系统 |
CN117524202A (zh) * | 2023-10-27 | 2024-02-06 | 广州市图之灵计算机技术有限公司 | 一种ip电话语音数据检索方法及系统 |
CN117524232A (zh) * | 2023-11-08 | 2024-02-06 | 国网浙江省电力有限公司营销服务中心 | 一种基于检索模式的声纹识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN118038869B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN109065071B (zh) | 一种基于迭代k-means算法的歌曲聚类方法 | |
WO2016119604A1 (zh) | 一种语音信息搜索方法、装置及服务器 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN110852215A (zh) | 一种多模态情感识别方法、系统及存储介质 | |
CN113539240B (zh) | 动画生成方法、装置、电子设备和存储介质 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
JPS59121100A (ja) | 連続音声認識装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN109584904A (zh) | 应用于基础音乐视唱教育的视唱音频唱名识别建模方法 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN115312080A (zh) | 一种基于互补声学表征的语音情绪识别模型以及方法 | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
CN118173092A (zh) | 一种基于ai语音交互的在线客服平台 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN118038869B (zh) | 基于改进语音识别的电力智能交互方法及系统 | |
CN111785256A (zh) | 声学模型训练方法、装置、电子设备及存储介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
KR20190021421A (ko) | 오디오 인식을 위한 방법 및 디바이스 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |