CN118038869A

CN118038869A - 基于改进语音识别的电力智能交互方法及系统

Info

Publication number: CN118038869A
Application number: CN202410432051.5A
Authority: CN
Inventors: 庄莉; 池少宁; 白海滨; 袁宝峰; 耿雪霞; 林生雄
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-05-14
Anticipated expiration: 2044-04-11
Also published as: CN118038869B

Abstract

本发明涉及基于改进语音识别的电力智能交互方法及系统，包括以下步骤：步骤S1:构建电力领域的知识图谱;步骤S2:获取用户语音数据，并构建用户声纹库；步骤S3:基于Transformer构建端到端的语音识别模型，并使用用户声纹库中的数据对模型进行个性化训练；步骤S4:用户通过用户端输入语音，基于个性化语音识别模型进行语音识别，得到最终的文本结果；步骤S5:对最终的文本结果进行自然语言处理,将问题转换为计算机可理解的形式;步骤S6:将问题表示为语义向量，将问题的语义向量映射到知识图谱中，形成查询知识图谱的语义表示，并基于知识图谱的信息，回答用户提出的问题。本发明能够提供个性化、准确性高、智能化的交互体验，提升用户体验和工作效率。

Description

基于改进语音识别的电力智能交互方法及系统

技术领域

本发明涉及人工智能交互领域，尤其涉及一种基于改进语音识别的电力智能交互方法及系统。

背景技术

电网人机交互终端对电网发展至关重要，随着电力系统规模的不断扩大和智能化水平的提升，交互技术不断的发展，但现有的语音交互无法准确地获取用户的输入数据，如此用户在进行信息交互时自然就会感到不符合预期，或者说交互不够准确，进而导致交互准确性较低的问题出现。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于改进语音识别的电力智能交互方法及系统，能够提供个性化、准确性高、智能化的交互体验，提升用户体验和工作效率。

为实现上述目的，本发明采用以下技术方案：

一种基于改进语音识别的电力智能交互方法，包括以下步骤：

步骤S1:收集电力领域的相关数据和知识，建立实体间的关联关系，构建电力领域的知识图谱，包括实体、属性和关系;

步骤S2:获取用户语音数据，并构建用户声纹库；

步骤S3:基于Transformer构建端到端的语音识别模型，并使用用户声纹库中的数据对模型进行个性化训练；

步骤S4:用户通过用户端输入语音，基于个性化训练后的语音识别模型进行语音识别，并使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果；

步骤S5:对最终的文本结果进行自然语言处理，包括分词、词性标注、实体识别,将问题转换为计算机可理解的形式;

步骤S6:通过BERT模型，将问题表示为语义向量，将问题的语义向量映射到知识图谱中的实体、属性和关系，形成查询知识图谱的语义表示，并基于知识图谱的信息，回答用户提出的问题。

进一步的，所述步骤S1具体为：

步骤S11:收集来自电力行业的各种数据源，对数据进行清洗、整合和标注，提取出实体的属性信息；

步骤S12:利用决策树算法建立实体之间的关系模型，根据特征的重要性和关联性构建树结构，包括层次关系、关联关系和依赖关系，形成完整的知识图谱网络。

进一步的，所述步骤S12具体为：

（1）将实体属性作为特征，实体之间的关系作为目标标签；

（2）计算每个特征的信息增益，选择信息增益最大的特征作为节点的划分依据，计算每个特征对训练数据集的信息增益，并选择信息增益最大的特征作为划分依据；

；

其中，为信息增益，S是训练数据集,A是特征，/>是特征A对应的数据集；/>是特征A的一个取值v对应的子集,/>和/>分别是S和/>的熵；c是类别数量；/>是第i个类别在数据集S中出现的概率；其中，/>；

（3）使用选定的特征作为划分依据，构建决策树模型，并通过构建决策树模型，根据特征的重要性和关联性建立实体之间的关系模型，获取实体之间的层次关系、关联关系和依赖关系。

进一步的，所述步骤S2具体为：

步骤S21:收集不同用户的声音信号，包括语音指令、短语；

步骤S22:对采集的声音信号进行预处理，包括去噪、降采样处理；

步骤S23:使用梅尔频率倒谱系数，将声音信号转换为频谱图；

步骤S24:通过声纹特征提取算法，从频谱图中提取声纹特征向量；

步骤S25：将每个用户的声纹特征向量存储在声纹数据库中，建立用户声纹库。

进一步的，所述步骤S23具体为：

（1）对预处理后的声音信号通过一阶高通滤波进行预加重，并将声音信号分成若干帧；

；

其中，为预处理后的声音信号的时域波形，表示声音信号在时间点n的振幅值；为预加重系数；/>表示经过预加重处理后的声音信号；m为帧的索引，表示声音信号被分割成的多个帧之一；n表示时间点；/>为帧移；/>表示时间点n的第m帧的声音信号；

（2）对每帧应用汉明窗，以减少频谱泄漏；

（3）对每帧信号进行快速傅里叶变换，将时域信号转换为频域信号；

（4）将频谱图映射到梅尔频率域，通过一组A个梅尔滤波器计算每个频段的能量；

；

其中，为经过傅里叶变换后的信号，表示第m帧的第k个频率分量的复数幅度；/>经过梅尔滤波器组处理后的信号，表示第m帧第/>个梅尔频率倒谱系数；/>为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应；a代表梅尔滤波器组中的第a个滤波器；/>表示绝对值运算符；1≤/>≤A，1≤a≤A；

（5）对梅尔频率域的能量取对数，对取对数后的能量应用离散余弦变换，得到MFCC系数；

；

其中，为对数压缩后的信号，j表示第j个梅尔频率倒谱系数；/>为提取的MFCC系数的数量；/>为MFCC系数，表示第m帧第/>个梅尔频率倒谱系数；J为梅尔频率倒谱系数数量；

并将MFCC系数作为声音信号的频谱图表示。

进一步的，所述步骤S3具体为：

步骤S31: 获取声音信号数据集，包括语音样本和相应的文本标注，并转换为MFCC系数作为Transformer模型的输入；

使用CTC损失函数进行预训练，优化模型参数；

步骤S32:基于用户声纹库，为每个用户分配一个唯一的标识符，使用独热编码向量表示，将用户标识符作为额外的输入特征与声音数据一起输入到Transformer模型中；

步骤S33:在预训练的Transformer模型基础上，将用户标识符引入模型，与声音特征一起进行训练，通过调整模型参数，使其能够更好地适应每个用户的声音特征，得到最终的语音识别模型；

其中，为个性化训练后的模型参数；/>为模型预训练后的参数；N为用户声纹库中的用户数量；L()为损失函数；/>为模型对用户的声音信号/>的输出；为用户/>的标签。

进一步的，所述使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果，具体为：

（1）初始时刻t=0，选择初始的若干个备选结果作为初始搜索状态。

（2）逐步遍历时间步t，根据语音识别模型输出的概率分布P(word∣audio)，扩展备选结果，保留概率最高的G个结果；

（3）在每个时间步中，根据概率分布和已有的备选结果，计算新的备选结果的概率得分，并选择概率最高的G个结果；

（4）当达到最大时间步或满足停止条件时，选择最终概率最高的结果作为最终的文本结果。

进一步的，步骤S6具体为:

设问题文本表示为Q_text，通过BERT模型生成问题的语义表示Q：

其中，表示BERT模型的编码器部分，/>表示句子的特征标记；

通过相似度计算将问题语义向量映射到知识图谱元素，得到查询语义表示：

;

其中，为查询语义表示，E、A、R分别为知识图谱中的实体、属性和关系的集合；e、a、r分别为实体、属性和关系的元素；/>为相似度；

利用知识图谱中的信息，结合查询语义表示，回答用户提出的问题。

一种基于改进语音识别的电力智能交互系统，包括处理器、存储器以及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时，具体执行如上所述的一种基于改进语音识别的电力智能交互方法中的步骤。

本发明具有如下有益效果：

1、本发明通过构建用户声纹库并对语音识别模型进行个性化训练，实现了个性化的语音识别，提高了识别准确性和用户体验，提高语音识别系统在多用户场景下的准确度和用户体验；

2、本发明使用梅尔频率倒谱系数，将声音信号转换为频谱图，并通过声纹特征提取算法，从频谱图中提取声纹特征向量，可以有效地从频谱图中提取声纹特征向量，为声纹识别系统提供准确、高效的声纹特征表示，从而实现准确的声纹识别和个性化声纹识别任务；

3、本发明根据语音识别得到的文本结果进行语义分析，并结合知识图谱和语义模型来回答用户问题，有效提高回答的准确性。

附图说明

图1为本发明方法流程图。

具体实施方式

以下结合附图和具体实施例对本发明做进一步详细说明：

参考图1，在本实施例中，一种基于改进语音识别的电力智能交互方法，包括以下步骤：

步骤S2:获取用户语音数据，并构建用户声纹库；

在本实施例中，步骤S1具体为：

在本实施例中，步骤S12具体为：

（1）将实体属性作为特征，实体之间的关系作为目标标签；

；

在本实施例中，步骤S2具体为：

步骤S21:收集不同用户的声音信号，包括语音指令、短语；

步骤S23:使用梅尔频率倒谱系数，将声音信号转换为频谱图；

在本实施例中，步骤S23具体为：

；

（2）对每帧应用汉明窗，以减少频谱泄漏；

；

并将MFCC系数作为声音信号的频谱图表示。

在本实施例中，步骤S3具体为：

使用CTC损失函数进行预训练，优化模型参数；

其中，为个性化训练后的模型参数；/>为模型预训练后的参数；N为用户声纹库中的用户数量；L()为损失函数；/>为模型对用户的声音信号/>的输出；/>为用户/>的标签。

在本实施例中，使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果，具体为：

在本实施例中，步骤S6具体为:

其中，表示BERT模型的编码器部分，/>表示句子的特征标记；

;

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.基于改进语音识别的电力智能交互方法，其特征在于，包括以下步骤：

步骤S2:获取用户语音数据，并构建用户声纹库；

2.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S1具体为：

3.根据权利要求2所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S12具体为：

（1）将实体属性作为特征，实体之间的关系作为目标标签；

；

其中，为信息增益，S是训练数据集,A是特征，/>是特征A对应的数据集；是特征A的一个取值v对应的子集,/>和/>分别是S和/>的熵；c是类别数量；/>是第i个类别在数据集S中出现的概率；其中，/>；

4.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S2具体为：

步骤S21:收集不同用户的声音信号，包括语音指令、短语；

步骤S23:使用梅尔频率倒谱系数，将声音信号转换为频谱图；

5.根据权利要求4所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S23具体为：

；

其中，为预处理后的声音信号的时域波形，表示声音信号在时间点n的振幅值；/>为预加重系数；/>表示经过预加重处理后的声音信号；m为帧的索引，表示声音信号被分割成的多个帧之一；n表示时间点；/>为帧移；/>表示时间点n的第m帧的声音信号；

（2）对每帧应用汉明窗，以减少频谱泄漏；

；

其中，为经过傅里叶变换后的信号，表示第m帧的第k个频率分量的复数幅度；经过梅尔滤波器组处理后的信号，表示第m帧第/>个梅尔频率倒谱系数；/>为梅尔滤波器组中第a个滤波器第k个频率分量的频率响应；a代表梅尔滤波器组中的第a个滤波器；/>表示绝对值运算符；1≤/>≤A，1≤a≤A；

；

并将MFCC系数作为声音信号的频谱图表示。

6.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S3具体为：

使用CTC损失函数进行预训练，优化模型参数；

；

7.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述使用集束搜索方法对语音识别模型输出的概率分布进行解码，得到最终的文本结果，具体为：

（1）初始时刻t=0，选择初始的若干个备选结果作为初始搜索状态；

8.根据权利要求1所述的基于改进语音识别的电力智能交互方法，其特征在于，所述步骤S6具体为:

其中，/>表示BERT模型的编码器部分，/>表示句子的特征标记；

;

9.一种基于改进语音识别的电力智能交互系统，其特征在于，包括处理器、存储器以及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序时，具体执行如权利要求1-8任一项所述的基于改进语音识别的电力智能交互方法中的步骤。