CN117932005B

CN117932005B - 一种基于人工智能的语音交互方法

Info

Publication number: CN117932005B
Application number: CN202410325791.9A
Authority: CN
Inventors: 罗滔; 李小军
Original assignee: Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School
Current assignee: Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-06-04
Anticipated expiration: 2044-03-21
Also published as: CN117932005A

Abstract

本发明公开了一种基于人工智能的语音交互方法，属于语音处理技术领域，包括以下步骤：S1、获取用户的若干条历史搜索记录，并采集用户的搜索语音；S2、将用户的搜索语音转换为搜索文本；S3、根据用户的搜索文本以及若干条历史搜索记录，确定用户的搜索关键词集合。本发明根据用户此次的搜索文本的关键词，从所有用户的历史搜索记录中提取与本次搜索文本相关的搜索记录，由这部分历史搜索记录以及此次搜索文本确定用户最终的搜索关键词集合，这样可以充分考虑用户平时的搜索习惯，确定用户的感兴趣方向，搜搜关键词集合的准确生成有利于为用户推荐准确的浏览内容。

Description

一种基于人工智能的语音交互方法

技术领域

本发明属于语音处理技术领域，具体涉及一种基于人工智能的语音交互方法。

背景技术

随着语音交互和人工智能等技术应用越来越普遍。目前，典型语音交互场景主要是根据用户发出的语音信息，语音识别设备识别语音内容后，搜索匹配的应答信息。但是，现有的语音交互局限性在于对于用户提出的问题，答复反馈内容不准确，没有根据用户的不同身份特征进行差异化处理，语音交互过程的智能化程度及用户体验度有待提高。

发明内容

本发明为了解决以上问题，提出了一种基于人工智能的语音交互方法。

本发明的技术方案是：一种基于人工智能的语音交互方法包括以下步骤：

S1、获取用户的若干条历史搜索记录，并采集用户的搜索语音；

S2、将用户的搜索语音转换为搜索文本；

S3、根据用户的搜索文本以及若干条历史搜索记录，确定用户的搜索关键词集合。

进一步地，S2中，将用户的搜索语音转换为搜索文本的具体方法为：构建语音转换模型，将用户的搜索语音输入至语音转换模型中，生成搜索文本。

进一步地，语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层；

预处理层的输入端作为语音转换模型的输入端；若干个特征提取层的输入端均与预处理层的输出端连接；若干个特征提取层的输出端均与池化层的输入端连接；池化层的输出端和全连接层的输入端连接；全连接层的输出端作为语音转换模型的输出端。

上述进一步方案的有益效果是：在本发明中，梅尔倒谱系数是一种音频特征提取方法，常用于语音识别等领域。梅尔倒谱系数通过将音频信号频谱在频率上进行转换。预处理层将用户的搜索语音转换为若干帧语音片段，特征提取层针对每帧语音信号提取特征，会得到若干个语音特征（即梅尔倒谱系数），这样的特征系数较多，会增加模型的运算量，因此本发明采用池化层对若干帧语音信号的特征进行压缩融合处理，这样可以减少运算时长，提高模型的泛化能力。接着，本发明采用全连接层进行最终处理，输出搜索文本。

进一步地，预处理层用于对用户的搜索语音进行分帧处理；

特征提取层用于提取分帧处理后每帧语音信号的梅尔倒谱系数；

池化层用于对所有帧语音信号的梅尔倒谱系数进行压缩处理，得到融合特征系数；

全连接层用于根据融合特征系数输出搜索文本。

进一步地，池化层的表达式为：

；

式中，C表示池化层的输出，MeanPooling2D(·)表示平均池化函数，E_k表示第k帧语音信号的梅尔倒谱系数，r表示池化层的池化核尺寸，e表示指数，K表示语音信号的帧数。

进一步地，全连接层的表达式为：

；

式中，Q表示全连接层的输出，C表示池化层的输出，K表示语音信号的帧数，L表示全连接层中神经元的个数，E_k表示第k帧语音信号的梅尔倒谱系数，max(·)表示最大值函数，ε表示所有梅尔倒谱系数的标准差，B_l表示全连接层第l个神经元的偏差，P_l表示全连接层第l个神经元的尺寸，D_l表示全连接层第l个神经元的权重，σ(·)表示激活函数。

进一步地，S3包括以下子步骤：

S31、剔除用户的搜索文本中所有停用词，得到标准搜索文本；

S32、提取标准搜索文本的所有关键词，并将词频最大的关键词作为重点搜索关键词；

S33、计算每条历史搜索记录与标准搜索文本的搜索关联度，将大于或等于搜索关联阈值的所有历史搜索记录作为待筛选搜索记录集合；

S34、根据待筛选搜索记录集合以及重点搜索关键词，确定用户的搜索关键词集合。

上述进一步方案的有益效果是：在本发明中，用户在网站存在很多条历史搜索记录，这些历史搜索记录可能与用户本次的搜索语音具有关联性或完全不相干，因此本发明在获取到用户的搜索文本后，从若干条历史搜索记录中挑选与本次搜索文本相关的记录，这样可以扩大搜索关键词的提取范围。再在由此获得的待筛选搜索记录集合中，提取与重点搜索关键词相近的词汇，组成用户的搜索关键词集合。

搜索关联阈值可由标准搜索文本的关键词个数确定，即搜索关联阈值与标准搜索文本的关键词个数相同，这样可以保证标准搜索文本的关键词个数越多，作为待筛选搜索记录集合的子集就越多，提取搜索关键词的范本就越多，可以提高最终搜索关键词集合的准确率。

进一步地，S33中，历史搜索记录与标准搜索文本的搜索关联度G的计算公式为：

；

式中，a表示重点搜索关键词的词频，b表示历史搜索记录的最大词频，max(·)表示最大值运算，A₀表示重点搜索关键词的词向量，B₀表示历史搜索记录中最大词频对应词汇的词向量，cos(·)表示余弦相似度函数。

进一步地，S34中，确定用户的搜索关键词集合的具体方法为：在待筛选搜索记录集合中，计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离，将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。

本发明的有益效果是：

（1）本发明通过构建语音转换模型，对用户本次输入的搜索语音进行文本转换，便于与用户的历史搜索记录结合提取关键词；

（2）本发明根据用户此次的搜索文本的关键词，从所有用户的历史搜索记录中提取与本次搜索文本相关的搜索记录，由这部分历史搜索记录以及此次搜索文本确定用户最终的搜索关键词集合，这样可以充分考虑用户平时的搜索习惯，确定用户的感兴趣方向，搜搜关键词集合的准确生成有利于为用户推荐准确的浏览内容，提高用户的交互体验感。

附图说明

图1为基于人工智能的语音交互方法的流程图；

图2为语音转换模型的结构示意图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种基于人工智能的语音交互方法，包括以下步骤：

S2、将用户的搜索语音转换为搜索文本；

在本发明实施例中，S2中，将用户的搜索语音转换为搜索文本的具体方法为：构建语音转换模型，将用户的搜索语音输入至语音转换模型中，生成搜索文本。

在本发明实施例中，如图2所示，语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层；

在本发明中，梅尔倒谱系数是一种音频特征提取方法，常用于语音识别等领域。梅尔倒谱系数通过将音频信号频谱在频率上进行转换。预处理层将用户的搜索语音转换为若干帧语音片段，特征提取层针对每帧语音信号提取特征，会得到若干个语音特征（即梅尔倒谱系数），这样的特征系数较多，会增加模型的运算量，因此本发明采用池化层对若干帧语音信号的特征进行压缩融合处理，这样可以减少运算时长，提高模型的泛化能力。接着，本发明采用全连接层进行最终处理，输出搜索文本。

在本发明实施例中，预处理层用于对用户的搜索语音进行分帧处理；

全连接层用于根据融合特征系数输出搜索文本。

在本发明实施例中，池化层的表达式为：

；

在本发明实施例中，全连接层的表达式为：

；

在本发明实施例中，S3包括以下子步骤：

在本发明中，用户在网站存在很多条历史搜索记录，这些历史搜索记录可能与用户本次的搜索语音具有关联性或完全不相干，因此本发明在获取到用户的搜索文本后，从若干条历史搜索记录中挑选与本次搜索文本相关的记录，这样可以扩大搜索关键词的提取范围。再在由此获得的待筛选搜索记录集合中，提取与重点搜索关键词相近的词汇，组成用户的搜索关键词集合。

在本发明实施例中，S33中，历史搜索记录与标准搜索文本的搜索关联度G的计算公式为：

；

在本发明实施例中，S34中，确定用户的搜索关键词集合的具体方法为：在待筛选搜索记录集合中，计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离，将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于人工智能的语音交互方法，其特征在于，包括以下步骤：

S2、将用户的搜索语音转换为搜索文本；

S3、根据用户的搜索文本以及若干条历史搜索记录，确定用户的搜索关键词集合；

所述S2中，将用户的搜索语音转换为搜索文本的具体方法为：构建语音转换模型，将用户的搜索语音输入至语音转换模型中，生成搜索文本；

所述语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层；

所述预处理层的输入端作为语音转换模型的输入端；若干个所述特征提取层的输入端均与预处理层的输出端连接；若干个所述特征提取层的输出端均与池化层的输入端连接；所述池化层的输出端和全连接层的输入端连接；所述全连接层的输出端作为语音转换模型的输出端；

所述预处理层用于对用户的搜索语音进行分帧处理；

所述特征提取层用于提取分帧处理后每帧语音信号的梅尔倒谱系数；

所述池化层用于对所有帧语音信号的梅尔倒谱系数进行压缩处理，得到融合特征系数；

所述全连接层用于根据融合特征系数输出搜索文本；

所述池化层的表达式为：

；

式中，C表示池化层的输出，MeanPooling2D(·)表示平均池化函数，E_k表示第k帧语音信号的梅尔倒谱系数，r表示池化层的池化核尺寸，e表示指数，K表示语音信号的帧数；

所述全连接层的表达式为：

；

2.根据权利要求1所述的基于人工智能的语音交互方法，其特征在于，所述S3包括以下子步骤：

3.根据权利要求2所述的基于人工智能的语音交互方法，其特征在于，所述S33中，历史搜索记录与标准搜索文本的搜索关联度G的计算公式为：

；

4.根据权利要求2所述的基于人工智能的语音交互方法，其特征在于，所述S34中，确定用户的搜索关键词集合的具体方法为：在待筛选搜索记录集合中，计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离，将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。