CN118227734A

CN118227734A - 一种工业手册内容智能语音查询方法

Info

Publication number: CN118227734A
Application number: CN202410314304.9A
Authority: CN
Inventors: 任泽成; 俞锃楠; 张文艺; 雷渠江
Original assignee: Huda Guangdong Hong Kong Macao Greater Bay Area Innovation Research Institute Zengcheng Guangzhou
Current assignee: Huda Guangdong Hong Kong Macao Greater Bay Area Innovation Research Institute Zengcheng Guangzhou
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-06-21

Abstract

本发明属于智能信息处理技术领域，具体涉及一种工业手册内容智能语音查询方法，包括以下步骤：文本向量检索库构建，形成文本向量检索库；输入转文本，将用户输入的提问语音转为文本；检索内容，将语音转换后的文本进行检索；规范检索结果，整理最符合当前问题的回答作为输出；输出结果，输出文本整理成语音输出；本发明所提出的一种工业手册内容智能语音查询方法应用于工业生产模式中，用于解决在工人们操作机器人时遇到问题时，需要根据错误代码翻阅厚重的工业手册来查找报错的原因，由于工业手册的厚度页数较多，需要花费大量时间来翻阅手册进而导致工作效率低下的问题。

Description

一种工业手册内容智能语音查询方法

技术领域

本发明属于智能信息处理技术领域，具体涉及一种工业手册内容智能语音查询方法。

背景技术

人工智能技术是当下时代发展的热门关键词之一，由OpenAI研发的GPT-4的横空出世更是使得2023年被人们称为大语言模型(LLM)年，根据Hugging Face的排行榜，大模型的下载率持续走高并且居高不下，毫无疑问GPT-4给人类社会带来了一场颠覆性的变革，GPT-4并不单单是一个高级聊天机器人，它所属于大模型的一个应用领域，同时也为未来大模型在其他领域的发展起到了里程碑式的作用，我国正处于经济发展的高速阶段，加快推动人工智能技术的发展也是国家现在大力支持和开展的重要项目之一。

在工业生产模式中，工人们操作机器人时会遇到各种各样的问题，在处理基础问题时，工人往往需要根据错误代码翻阅厚重的工业手册来查找报错的原因，通常来说工业手册的厚度普遍在500页左右，因此需要花费大量时间来翻阅手册进而导致工作效率低下，为了解决这一问题，推动我国人工智能的场景以及应用的创新，我们提供了一种工业手册内容智能语音查询方法。

发明内容

本发明的目的是：旨在提供一种工业手册内容智能语音查询方法，用于解决背景技术中存在的问题。

为实现上述技术目的，本发明采用的技术方案如下：

一种工业手册内容智能语音查询方法，包括以下步骤：

步骤100：文本向量检索库构建，先将工业手册作为知识库进行归类分割形成多个文本信息，再将归类分割的多个文本信息进行向量化，形成文本向量检索库；

步骤200：输入转文本，在Seq2Seq架构上引入注意力机制，将用户输入的提问语音转为文本，并将语音转换后的文本信息进行向量化；

步骤300：检索内容，将语音转换后的向量化文本信息在工业手册所形成的文本向量检索库中进行检索，按照相似度最高的前几个段落作为检索结果；

步骤400：规范检索结果，根据检索结果的相似度最高的前几个段落，整理最符合当前问题的回答作为输出；

步骤500：输出结果，引入Transformer架构将最终输出文本整理成语音输出。

在步骤100中的“先将工业手册作为知识库进行归类分割”主要通过以下子步骤完成：

步骤101：将工业手册录入并读取为文本信息；

步骤102：将工业手册的文本信息依次按照特殊字符集的各类特殊字符进行文本分割。

在步骤200中的“在Seq2Seq架构上引入注意力机制，将用户输入的提问语音转为文本”具体包括有以下子步骤：

步骤201：先将语音数据预处理，再将预处理后的语音数据传入引入注意力机制的Seq2Seq模型将其转为文本。

在步骤100中的“将归类分割的多个文本信息进行向量化”以及步骤200中“将语音转换后的文本信息进行向量化”均包括有以下子流程：

流程A：以Transformer架构中编码器(Encoder)为基础构建向量编码模型，向量编码模型包括4层Transformer构架；

流程B：将文本信息经过分词、构建词汇表后，将要输入到编码模型的文本映射为词汇表对应的编码表示并填充为指定长度后，输入向量编码模型并映射为512维的嵌入向量，在此过程中，经过4层Transformer构架后得到的结果累加除以文本信息长度的平方根，得到最终表示文本信息的嵌入向量。

在步骤100中的“形成文本向量检索库”具体如下：

将工业手册中经过分割后的多个文本信息形成文本数据集合D，分割后的各个段落文本d_i嵌入至d维的向量x_i中，即D＝{x₁，x₂，x₃，……，x_n}内，形成文本向量检索库。

在步骤S300中的“将语音转换后的向量化文本信息在工业手册所形成的文本向量检索库中进行检索”具体包括有以下子步骤：

步骤301：应用K-means聚类算法对向量数据库构建索引结构，将文本向量库中的向量划分为K个聚类中心，然后用这些聚类中心构建索引结构，通过随机选择的方式初始化簇心：

步骤302：计算簇的分配：

步骤303：根据步骤302的结果更新簇心：

步骤304：重复步骤302与步骤303直至收敛，得到簇心后构建索引结构，查询时只需要搜索与查询向量所在簇最近的簇心，然后在该簇中进行更细致的查询。

在步骤S300中的“按照相似度最高的前几个段落作为检索结果”具体包括有以下子步骤：

步骤305：采用余弦相似度进行向量相似度计算，通过计算结果得到最匹配的相似度最高的前几个段落作为检索结果。

所述步骤400还包括有以下子步骤：

步骤401：使用ChatGLM3-6B语言模型来进行文本输出处理，输出处理依次包括两个流程：引入提示词工程；基于ChatGLM3-6B语言模型得到输出文本。

所述步骤500中的“引入Transformer架构将最终输出文本整理成语音输出”包括有以下子步骤：

步骤501：文本预处理；

步骤502：文本映射为音素；

步骤503：构建声学模型；

步骤504：声音合成；

步骤505：音频后处理及输出。

本发明解决了在工人们操作机器人时遇到问题时，需要根据错误代码翻阅厚重的工业手册来查找报错的原因，由于工业手册的厚度页数较多，需要花费大量时间来翻阅手册进而导致工作效率低下的问题，推动我国人工智能的场景以及应用的创新。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明。

图1为本发明的主要流程示意图；

图2为本发明的查询匹配回答的流程示意图；

图3为本发明的文本转语音的流程示意图；

图4为本发明的transform构架简化结构示意图；

图5为本发明的向量编码模型结构示意图；

图6为模型验证的余弦相似度和皮尔逊相关系数的折线关系图；

图7为模型验证的MSE分布图；

具体实施方式

为了使本领域的技术人员可以更好地理解本发明，下面结合附图和实施例对本发明技术方案进一步说明。

如图1至图4的一种工业手册内容智能语音查询方法，包括以下步骤：

其中，“先将工业手册作为知识库进行归类分割”主要通过以下子步骤完成：

步骤101：将工业手册录入并读取为文本信息；

步骤102：将工业手册的文本信息依次按照特殊字符集的各类特殊字符进行文本分割；

特殊字符集包括{‘\n\n’、‘\n’、‘。’、‘’}；

如此设定特殊字符的原因在于为了区别于以往英文文本中段落分割的特殊字符集，为更贴切中文语境以及结合当前段落划分的任务，我们在字符集中添加了中文中的‘。’作为特殊字符,通过‘。’的引入使中文文本分割后的子段落在句意的连贯性上有了更好的表现,‘。’适用于对文本使用段落分割符以及行分割符操作之后仍然无法满足最小段落长度的情况,‘。’可以在以行为基础划分段落时更符合中文划分习惯同时也更符合中文语意，特殊字符的具体意义如下：

‘\n\n’为两个连续的换行符，在多文本中表示段落之间的间隔换行；

‘\n’为单个换行符，表示文本中一行的结束，分割段落中的每行；

‘。’表示一句话的结尾，分割段落内的句子；

‘’表示空白或特殊符号，用于处理文本中特殊情况；

步骤103：预设指定字符数量作为分割段落的长度，在本发明的实施中，可以采用500个字符作为分隔后的段落长度，根据上述分割原则，在进行文本信息分割时，先根据表示段落间隔换行的‘\n\n’进行分割，若分割后的段落长度超过预设指定字符数量，则通过递归的方式依次按照特殊字符集中的下一项特殊字符对段落进行二次分割，直至段落的长度满足预设指定字符数量；

同时在分割段落时，需要考虑段落间重叠度的问题，即保证每个段落上下文的连贯性，因此在划分段落时需要在当前段落中保留一部分其他段落的内容，在本任务中我们选用划分后段落长度的20％即100个字符作为每个段落之间重叠的文本；

在形成文本向量检索库的过程中，具体如下：

在该步骤中的“在Seq2Seq架构上引入注意力机制，将用户输入的提问语音转为文本”具体包括有以下子步骤：

步骤201：先将语音数据预处理，再将预处理后的语音数据传入引入注意力机制的Seq2Seq模型将其转为文本，具体如下：

常用的语音数据预处理的方法包括但不限于：音量标准化、数据增强、归一化、音频切分和填充、梅尔频率图，区别于常规化语音数据预处理流程，即读取语音数据、语音数据填充或裁剪、音频标准化、梅尔频率图等，由于本发明的实际的应用场景为操作机器人的工厂，音频数据中会存在噪音，因此步骤201的“先将语音数据预处理”之后，我们需要将语音数据进行去噪处理，在本发明中我们采用自编码器(Autoencoder)进行去噪处理，自编码器是一种无监督模型常用于音频数据的去噪任务，它通过编码器学习输入数据之间紧凑的编码表示，并且尝试使用解码器将这种编码表示重建为原始数据，具体为先使用编码器将输入映射到低维表示，再由解码器将低维表示映射为原始数据，我们把梅尔频率图中得到的数据传入自编码器中，对原有音频中的特征进一步提取为高级特征，同时也对原音频数据进行去噪操作；

首先，梅尔频率图(Mel Spectrogram)是一种常应用于语音处理的特征表示方法，它擅长捕捉人类听觉系统对音频信号的感知。其公式如下：

①将音频信号x(t)分帧，得到一系列短时帧x_i(n)，其中i是帧的索引，n是帧内样本点的索引。

②对每一帧x_i(n)进行离散傅里叶变换，得到频域信号X_i(k)，其中k是频率索引。

③设计梅尔滤波器组：

1、设M(f)为梅尔频率，通过以下公式计算：

其中f是频率值；700是一个经验调整参数，用于将频率映射到梅尔频率尺度；对数运算是为了将线性频率变换为对数尺度从而更符合人类听觉感知；2595用于将对数尺度映射到更大的范围。

2、滤波器的中心频率我们选用如下公式计算：

f_c(m)表示第m个滤波器的中心频率；M^-1(m)表示梅尔频率的逆变换。

3、梅尔滤波器的频率响应公式计算方法如下：

其中f(m-1)和f(m+1)是相邻滤波器的边缘频率。

④得到梅尔功率谱，计算公式如下：

其中S_m表示第m个梅尔滤波器的输出；|x_i[k]|²表示信号在频率k处的功率；H_m[k]表示梅尔滤波器在频率k处的响应。N为频谱的长度。

⑤离散余弦变换(DCT)：

其中C_k是第k个梅尔频率倒谱系数；M是梅尔频率谱的维度；α(k)是调整系数，当k＝0时，否则α(k)＝1。

经过上述方式将语音数据预处理之后，在进行语音数据去噪过程中，本发明中所采用的全连接层编码器如下：

Z＝f_encoder(X)＝σ(W_encoder·X+b_encoder)

其中，W_encoder为编码器的权重，X为输入数据，b_encoder为编码器的偏置，σ(·)是激活函数，在这里选用ReLU激活函数；

本发明中所采用的全连接层解码器如下：

其中，Z为学习特征，W_decoder为解码器的权重，b_decoder为解码器的偏置，σ(·)选用ReLU激活函数，在此得到语音数据为通过预处理后的数据，即模型的输入数据。

本发明引入注意力机制(Attention Mechanism)的Seq2Seq模型作为语音转文本的模型，Seq2Seq模型(Sequence-to-Sequence模型)是一种用于处理序列数据的深度学习模型，被广泛应用于序列生成任务，如语音转文本，传统的Seq2Seq模型由编码器、上下文向量、解码器构成，Seq2Seq模型通过编码器将输入序列映射成上下文向量，然后通过解码器使用上下文向量生成输出序列，然而在Seq2Seq模型中，上下文向量高度汇总编码器映射的结果，解码器需要通过上下文向量得到所有输入信息，这就导致了解码器无法准确通过上下文向量在编码器中寻找到需要的单词，同时上下文向量中的信息也存在损失，导致模型无法有效捕捉输入信息之间的关系，注意力机制的引入很好的解决了这样的问题。

注意力机制是一种用于处理序列数据的机制，它使模型能够在生成输出的过程中动态地关注输入序列的不同组成部分，在Seq2Seq模型中引入注意力机制后，模型在生成每个输出符号时，都可以对输入序列中的不同位置分配不同的注意力权重，从而更灵活地捕捉输入序列中的重要信息。

对于编码器来说，X＝(x₁，x₂，x₃，...，x_T)为输入序列，其中x_t是输入的第t个时间步的向量，编码器的隐藏状态公式为：

h_t＝EncoderRNN(x_t，h_t-1)

EncoderRNN为RNN网络，在这里我们使用长短时记忆网络(Long Short TermMemory Network,LSTM)。h_t是给定输入x_t和前隐藏状态h_t-1的情况下，当前时间步t的隐藏状态。

对于解码器来说，Y＝(y₁，y₂，y₃，...，y_T′)为输出序列，其中y_t′是输出的第t′个时间步的向量。解码器的隐藏状态公式为：

s_t′＝DecoderRNN(y_t′-1，s_t′-1，c_t′-1)

其中s_t′是给定前一个输出y_t′-1，上一时刻的解码器隐藏状态s_t′-1和上下文向量c_t′-1的情况下，当前时间步t′的隐藏状态。DecoderRNN仍然选用LSTM。

引入注意力机制：

其中α_t′，t为注意力权重，表示在解码器时间步t′时，对编码器隐藏状态h_t的关注程度。score(s_t′-1，h_t)为得分函数，这里我们构建一个前馈神经网络f来表示得分函数并与模型进行联合训练：

其中，为网络的参数。

新的上下文向量c_t′为：

与以往计算损失的方法不同，我们对负对数似然损失使用正则化参数进行了改进，设模型在每个解码器时间步t′生成的概率分布为P(y_t′|y_＜t′，x)，则损失函数定义为：

其中T′是目标序列的长度，K是目标词汇表的大小，P(y_t′|y_＜t′，X)是模型在给定输入X和之前的部分生成文本y_＜t′的情况下，预测下一个词y_t′，k的概率，β_k是一个正则化项，计算方法如下：

其中，α_t′，t是注意力权重，1[·]是指示函数，γ是正则化权重，用于控制α_t′，t对损失函数的影响程度。

在上述步骤100和步骤200中的“将归类分割的多个文本信息进行向量化”以及步骤200中“将语音转换后的文本信息进行向量化”均包括有以下子流程：

流程A：以Transformer架构中编码器(Encoder)为基础构建向量编码模型，Transformer中编码器简化结构如图3所示，向量编码模型包括4层Transformer构架，本发明的向量编码模型简化结构如图4所示，Transformer架构的核心之一是自注意力机制，通过这种机制，使得模型能够在一个序列中的不同位置分配不同的注意力权重，从而更好地捕捉序列中不同元素之间的关系，在本任务中引入Transformer架构可以在考虑到词语出现顺序的情况下同时感知句子中单词上下文的关系，从而得到更准确的嵌入向量；

具体的计算方式如下：

输入段落为：

P＝(p₁，p₂，p₃，...，p_T)

其中p_t是分割后段落中的第t个词。

经过编码器得到的输出为：

H＝(h₁，h₂，h₃，...，h_T)

其中h_t是每个p_t经过编码器处理后得到的隐藏状态。h_t为：

h_t＝Encoder(p_t)

其中Encoder(·)表示输入经过4层Transformer层计算后得到的结果。

最后将输出结果求平均并进行长度归一化：

在该步骤中的“将语音转换后的向量化文本信息在工业手册所形成的文本向量检索库中进行检索”具体包括有以下子步骤：

Centroids＝[Vector₁，Vector₂，...，Vector_K]

步骤302：计算簇的分配：

Assignment(i)＝argmin_k||vector_i-Centroid_k||²

步骤303：根据步骤302的结果更新簇心：

步骤304：重复步骤302与步骤303直至收敛，得到簇心后构建索引结构，查询时只需要搜索与查询向量所在簇最近的簇心，然后在该簇中进行更细致的查询；

在该步骤中的“按照相似度最高的前几个段落作为检索结果”具体包括有以下子步骤：

步骤305：采用余弦相似度进行向量相似度计算，设提问语音转换后的文本向量为q,对于向量数据库中的每一个x_i则有：

其中d为向量的维度，通过计算结果得到最匹配的相似度最高的前几个段落作为检索结果。

步骤400：规范检索结果，根据检索结果的相似度最高的前几个段落，整理最符合当前问题的回答作为输出，具体包括有以下子步骤：

具体的，在处理下游任务时，直接对大模型微调成本高昂，同时语言模型的输出也经常不可控制，提示词工程是针对Prompt进行结构、内容等维度进行优化的技术，它可以把大模型的输入限制在特定的范围内从而更好地控制模型的输出，通过提示词工程可以引导模型生成高相关、高准确的文本回答内容，本任务将输入规范成当前问题加段落的格式以便语言模型学习。

将Prompt输入到大模型中，ChatGLM3-6B语言模型会根据Prompt检索结果的相似度最高的前几个段落中的文本内容，整理并提炼出最符合当前用户问题的回答作为输出，得到根据当前用户提出的问题在工业手册检索后得到的回答。

步骤500：引入Transformer架构将最终输出文本整理成语音输出，具体包括有以下子步骤：

步骤501：文本预处理：将由ChatGLM3-6B生成的文本进行转换，转换方法包括但不限于：对文本进行分词、词性标注、语法分析等预处理，从而提高语音合成系统对文本的理解能力；

步骤502：文本映射为音素：将文本映射到音素可以使系统生成相应的语音信号，直接引用Transformer架构将预处理后的文本映射为音素：

Y＝Transformer(X)

对于一个输入文本序列X＝{x₁,x₂,x₃,…,x_n}，其中x_i是第i个语言单位，通过Transformer映射后得到Y＝{y₁,y₂,y₃,…,y_n}，其中y_j是第j个音素；

步骤503：构建声学模型：同样采用Transformer架构构建声学模型，与步骤502中不同的是，步骤502的输入是预处理后的文本数据，输出为声音的音素，而步骤503的输入为音素序列，输出为表示音频特征的序列；

步骤504：声音合成；引入WaveNet模型来通过音频特征生成语音波形，WaveNet模型是一种常见的声码器(Vocoder)模型，用于高质量语音波形生成，其核心包括两个重要组件：膨胀卷积(Dilated Convolution)以及门控卷积(Gated Activation)，WaveNet可以通过膨胀卷集捕捉长距离的时序依赖关系，其输出可以表示为：

y_t＝tanh(W*x_t+V*h_t-1)

其中，*代表卷积操作，W和V是模型的参数，h_t-1是前一时刻的隐藏状态，x_t为当前时刻的输入，同时WaveNet通过门控机制来控制模型的输出，门控卷积的输出可以表示为：

z_t＝σ(W′*x_t+V′*h_t-1)

其中，σ是sigmoid激活函数，W′和V′是模型参数。然后通过门控机制将y_t和z_t结合：

h_t＝(1-z_t)*y_t+z_t*h_t-1

最后通过逐个样本点的生成过程，完成语音波形的生成；

步骤505：音频后处理及输出，音频后处理是对生成的语音波形进行进一步处理，以提高质量、清晰度和逼真度，本任务采用了包括但不限于以下处理方式：去噪、音量调整、均衡化等操作，最终将处理后的音频转换为mp3格式输出。

本发明的模型结果评估验证：

本发明的模型结果评估选用自动评估指标，即利用自动化评估指标来衡量知识库回答的准确性，本实验采用文本的语义相似度来对模型的准确率进行衡量，具体使用余弦相似度以及皮尔逊相关系数作为主要指标，同时采用均方误差作为补充指标，具体如下：

模型的具体评估方式为：针对某一特定问题，将知识库的回答与工业手册中正确的回答以向量的形式分别使用余弦相似度以及皮尔逊相关系数进行计算，从而衡量两个向量之间的相似程度，同时本实验还通过计算均方误差通过计算向量之间的距离作为补充指标辅助衡量向量之间的相似性。

皮尔逊相关系数(Pearson correlation coefficient)是用来衡量两个变量之间线性相关程度的统计量，取值范围在-1到1之间(当取值为1说明两个变量完全呈正相关；当取值为-1说明两个变量完全呈负相关；当取值为0说明两个变量没有关系)，其计算方法如下：

设存在两个变量X，Y，它们的样本数据分别为x_i以及y_i，其中i＝1,2,…,n其中n为样本数量，计算公式为：

其中和/>分别为x_i和y_i的样本均值。

我们将余弦相似度和皮尔逊相关系数绘制在折线图中来观察两者之间的关系，如图6所示，从总体可以看出两个向量之间最低的相似度为0.88左右，最高接近1，总体保持在0.91-1之间。

根据实验结果中的皮尔逊相关系数可以得出：模型生成的答案与正确答案之间存在着非常强的线性正相关关系，这意味着其中一个向量的变化可以几乎完全由另一个向量的变化来解释，即它们在线性方向上的变化趋势非常一致，而余弦相似度度量了两个向量之间的夹角的余弦值，用于评估它们在向量空间中的方向性相似性，当余弦相似度的值同样处在0.91-1的区间时，表示这两个向量之间的夹角非常接近于0度，即它们的方向非常相似，而余弦相似度和皮尔逊相似度几乎完全重合则说明了向量在空间和线性关系上都高度相似，因此我们有理由认为模型回答的结果无限接近于正确结果。

除此之外，本实验还采用了均方误差作为辅助指标，均方误差是一种衡量两个向量之间距离的指标。它可以帮助衡量向量之间的差异程度，通过计算向量之间的距离的平方差的均值，可以在虑到向量的方向性相似度后更全面地评估两个向量之间的相似度，本实验得到MSE的结果如图7所示，可知模型的MSE总体保持在0-0.15之间，即误差保持在可接受的范围之内。

综上我们得到模型的平均余弦相似度为0.947,平均皮尔逊相关系数为0.947，平均MSE为0.104，因此我们合理认为模型是有效的，本发明适用于各种类似的工业场景并且具有较强的泛化性及较高的准确率。

上述实施例仅示例性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种工业手册内容智能语音查询方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤100中的“先将工业手册作为知识库进行归类分割”主要通过以下子步骤完成：

步骤101：将工业手册录入并读取为文本信息；

3.根据权利要求2所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤200中的“在Seq2Seq架构上引入注意力机制，将用户输入的提问语音转为文本”具体包括有以下子步骤：

4.根据权利要求3所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤100中的“将归类分割的多个文本信息进行向量化”以及步骤200中“将语音转换后的文本信息进行向量化”均包括有以下子流程：

5.根据权利要求4所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤100中的“形成文本向量检索库”具体如下：

6.根据权利要求5所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤S300中的“将语音转换后的向量化文本信息在工业手册所形成的文本向量检索库中进行检索”具体包括有以下子步骤：

步骤302：计算簇的分配：

步骤303：根据步骤302的结果更新簇心：

7.根据权利要求6所述的一种工业手册内容智能语音查询方法，其特征在于：在步骤S300中的“按照相似度最高的前几个段落作为检索结果”具体包括有以下子步骤：

8.根据权利要求7所述的一种工业手册内容智能语音查询方法，其特征在于：所述步骤400还包括有以下子步骤：

9.根据权利要求8所述的一种工业手册内容智能语音查询方法，其特征在于：所述步骤500中的“引入Transformer架构将最终输出文本整理成语音输出”包括有以下子步骤：

步骤501：文本预处理；

步骤502：文本映射为音素；

步骤503：构建声学模型；

步骤504：声音合成；

步骤505：音频后处理及输出。