CN115798517A

CN115798517A - 基于语音信息特征数据的商品搜索方法及系统

Info

Publication number: CN115798517A
Application number: CN202310080355.5A
Authority: CN
Inventors: 汪莹; 杨珑钰; 谭旭; 戴熠辰; 席晓宇; 王子任; 张馨予; 陈奕; 李懿嫒; 薛景; 魏建香
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-03-14
Anticipated expiration: 2043-02-08
Also published as: CN115798517B

Abstract

本发明提供一种基于语音信息特征数据的商品搜索方法及系统，该方法通过卖家用户端收集商品编号id与商品的语音信息，对收集到的商品的语音信息对应的波形图数据转换为三维频谱图序列集；计算获得商品语音信息特征数据的哈希编码后，根据商品编号与得到的商品语音信息特征数据的哈希编码更新数据库服务器中的商品信息；对待搜索商品的语音信息的波形图，转换为待搜索商品的频谱图序列；将待搜索哈希编码与数据库服务器中保存的各商品语音信息特征数据的哈希编码分别计算相似度；将得到的商品信息序列作为商品搜索结果；本发明无需将商品的语音信息转换为文字或普通话等中间形式，能够高效、准确地查找用语音信息作为显著特征的商品。

Description

基于语音信息特征数据的商品搜索方法及系统

技术领域

本发明涉及一种基于语音信息特征数据的商品搜索方法及系统，属于信息检索技术领域。

背景技术

伴随着互联网的兴盛和物流行业的发展，网络购物已经成为日常生活里重要的一部分，语音搜索功能也已经逐渐普及，现在已有电商软件将语音搜索功能用于商品搜索。但是，目前已有的语音搜索功能通常将语音信息进行一系列处理之后转化为以文字表达的商品关键字信息，再对该关键字信息进行普通的文字搜索。

这种方式下，在语音描述的且无法转换成普通文本的语音信息特征，已有的语音搜索难以对上述商品进行搜索。实际的电商购物中存在着大量无法用书面文字或普通话描述的商品信息，例如地方土特产，其拥有以方言描述的且无法转换成普通文本的语音信息特征，目前语音搜索难以实现商品的语音搜索。

例如，中国发明专利CN201710063075.8公开的一种语音购物方法以及系统，同样存在着在语音信息无法转换成普通文本时，难以实现语音进行商品搜索的问题。

上述问题是在基于语音信息特征数据的商品搜索过程中应当予以考虑并解决的问题。

发明内容

本发明的目的是提供一种基于语音信息特征数据的商品搜索方法及系统解决现有技术中存在的现有的语音商品搜索中，在语音信息不能转换文本时，难以实现语音商品搜索的问题。

本发明的技术解决方案是：

一种基于语音信息特征数据的商品搜索方法，包括以下步骤，

S1、通过卖家用户端收集商品编号id与商品的语音信息V_business={v₁,v₂,v₃,...,v_n}，其中，v₁,v₂,v₃,..., v_n分别为n个商品对应的语音信息，语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图；

S2、对收集到的商品的语音信息V_business对应的波形图数据W_business={w₁,w₂,w₃,...,w_n}，其中，w₁,w₂,w₃,... ,w_n分别为n个商品语音信息的波形图数据，进行分帧、加窗、降噪处理后，将每个经过处理的波形图先分别转换为语谱图序列集L_business={l₁,l₂,l₃,... ,l_n}，其中，l₁,l₂,l₃,... ,l_n分别为n个商品对应的语谱图序列，再转换为三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，其中，s₁,s₂,s₃,... ,s_n分别为n个商品对应的频谱图序列；

S3、提取三维频谱图序列集S_business中每一个频谱图序列的特征值，计算获得商品语音信息特征数据的哈希编码H_business={h₁,h₂,h₃,... ,h_n}，其中，h₁,h₂,h₃,... ,h_n分别为n个商品对应的哈希编码，根据商品编号id与得到的商品语音信息特征数据的哈希编码H_business更新数据库服务器中的商品信息；

S4、通过买家用户端收集待搜索商品的语音信息V_customer，包括语音的声音强度和以时间为横轴、频率为纵轴的波形图；

S5、对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，先转换为语谱图序列L_customer,再转换为待搜索商品的三维频谱图序列S_customer；

S6、提取待搜索商品的频谱图序列S_customer上的特征值，并计算待搜索哈希编码H_customer，将待搜索哈希编码H_customer与数据库服务器中保存的各商品语音信息特征数据的哈希编码H_business分别计算相似度，进而得到按相似度从高到低排序的商品信息序列；

S7、将得到的商品信息序列作为商品搜索结果，返回给买家用户端。

进一步地，步骤S2中，对收集到的语音信息V_business对应的波形图数据W_business={w₁,w₂,w₃,... ,w_n}进行分帧、加窗、降噪处理，将经过处理的波形图分别转换为三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，具体为，

S21、将波形图数据W_business={w₁,w₂,w₃,... ,w_n}，其中，w₁,w₂,w₃,... ,w_n分别为n个商品语音信息的波形图数据，以设定帧长与设定帧移进行分帧后，再将每帧信号的波形图与汉明窗进行相乘，得到加窗后的波形图；

S22、对加窗后的波形图，根据设定数量的帧语音信号计算出平均噪声谱；

S23、由语音信号波形图的纵坐标频率减去平均噪声谱的纵坐标频率，并在频率出现负值时，置为零，得到降噪后的波形图作为经过处理的波形图；

S24、将经过处理的波形图分别由快速傅里叶变换FFT转换为二维频谱图序列集，进而绘制语谱图序列集L_business={l₁,l₂,l₃,... ,l_n}，其中，l₁,l₂,l₃,... ,l_n分别为n个商品对应的语谱图序列，再以对应的声音强度作为频谱图第三维度，构建得到三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，其中，s₁,s₂,s₃,... ,s_n分别为n个商品对应的频谱图序列。

进一步地，步骤S3中，提取频谱图序列集S_business中每一个频谱图序列的特征值，并计算获得商品语音信息特征数据的哈希编码H_business，具体为，

S31、采用关键点识别算法即landmark算法分别提取每个三维频谱图上的局部峰值点作为对应三维频谱图的特征值；

S32、根据局部峰值点间的相对关系确定坐标系，将局部峰值点在坐标系上表示出来，并用哈希函数进行编码，获得商品语音信息特征数据的哈希编码H_business。

进一步地，步骤S3中，根据商品编号id与得到的商品语音信息特征数据的哈希编码H_business更新数据库服务器中的商品信息，具体为，

S33、根据商品编号id，使用得到的商品语音信息特征数据的哈希编码H_business，更新数据库服务器中商品信息中对应的商品语音信息特征数据的哈希编码；

S34、数据库服务器中的Logstash数据收集引擎监听到数据库的更新日志后，将更新后的商品信息同步至ES搜索引擎，并在ES搜索引擎中更新商品信息索引。

进一步地，步骤S5中，对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，先转换为语谱图序列L_customer，再转换为待搜索商品的三维频谱图序列S_customer，具体为，

S51、将语音信息V_customer的波形图W_customer以设定帧长、设定帧移进行分帧，再将每帧信号的波形图与汉明窗进行相乘，得到加窗后的波形图；

S52、根据设定数量语音信号计算出平均噪声谱；

S53、用波形图的纵坐标频率减去平均噪声谱的纵坐标频率得到降噪后的波形图，在降噪后的波形图中频率出现负值时，则置为零；

S54、将经过处理的波形图W_customer分别利用傅里叶快速变换FFT转换为二维频谱图序列，然后再以频率为横轴，振幅为纵轴用坐标表示出来，再将该坐标轴旋转，横轴代表幅度值，纵轴代表频率，对幅度值进行映射，通过量化的方式，0表示白，255表示黑色绘制语谱图序列集L_customer，并以声音强度作为第三维度，转换为三维频谱图序列作为待搜索商品的三维频谱图序列S_customer。

进一步地，步骤S6中，提取待搜索商品的频谱图序列S_customer上的特征值，并计算待搜索哈希编码H_customer，将待搜索哈希编码H_customer与数据库服务器中保存的各商品语音信息特征数据的哈希编码H_business分别计算相似度，进而得到按相似度从高到低排序的商品信息序列，具体为，

S61、利用landmark算法分别提取待搜索商品的频谱图序列S_customer上的局部峰值点，根据峰值点间的相对关系确定坐标系，将峰值点在坐标系上表示出来，并计算待搜索哈希编码H_customer；

S62、将待搜索哈希编码H_customer作为参数调用ES搜索引擎的API接口，得到按相似度从高到低排序的商品信息，进而得到按相似度从高到低排序的商品信息序列。

一种实现上述任一项所述的基于语音信息特征数据的商品搜索方法的系统，包括卖家用户端、买家用户端和数据库服务器，

卖家用户端：收集商品编号id与商品的语音信息V_business={v₁,v₂,v₃,...,v_n}，其中，v₁,v₂,v₃,..., v_n分别为n个商品对应的语音信息；对收集到的商品的语音信息V_business对应的波形图数据W_business={w₁,w₂,w₃,... ,w_n}，其中，w₁,w₂,w₃,... ,w_n分别为n个商品语音信息的波形图数据，进行分帧、加窗、降噪处理后，将经过处理的波形图分别转换为频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，其中，s₁,s₂,s₃,... ,s_n分别为n个商品对应的频谱图序列；

买家用户端：收集待搜索商品的语音信息V_customer，对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，转换为待搜索商品的频谱图序列S_customer；

数据库服务器：提取频谱图序列集S_business中每一个频谱图序列的特征值，计算获得商品语音信息特征数据的哈希编码H_business={h₁,h₂,h₃,... ,h_n}，其中，h₁,h₂,h₃,... ,h_n分别为n个商品对应的哈希编码，根据商品编号id与得到的商品语音信息特征数据的哈希编码H_business更新数据库服务器中的商品信息；提取待搜索商品的频谱图序列S_customer上的特征值，并计算待搜索哈希编码H_customer；将待搜索哈希编码H_customer与数据库服务器中保存的各商品语音信息特征数据的哈希编码H_business分别计算相似度，进而得到按相似度从高到低排序的商品信息序列；将得到的商品信息序列作为商品搜索结果，返回给买家用户端。

本发明的有益效果是：该种基于语音信息特征数据的商品搜索方法及系统，能够根据买家用户端的语音信息实现对商品的搜索，无需将商品的语音信息转换为文字或普通话等中间形式，有效地弥补了现有电商软件在语音搜索上的不足，能够高效、准确地查找用语音信息作为显著特征的商品。同时，本发明在进行音频对比过程中使用了音频指纹技术，尽可能减小了搜索误差，提高搜索精度，使得搜索更加准确。

附图说明

图1是本发明实施例基于语音信息特征数据的商品搜索方法的流程示意图；

图2是实施例中卖家用户端收集到的语音信息中波形图的说明示意图；

图3是实施例中经过加窗、降噪、分帧后得到经过处理的波形图中一帧的波形图的说明示意图；

图4是实施例中将经过处理的波形图由快速傅里叶变换FFT转换为二维频谱图的说明示意图；

图5是实施例中绘制语谱图序列集的说明示意图；

图6是实施例中以声音强度作为第三维度构建得到三维频谱图并用landmark算法标记出局部峰值点的说明示意图；

图7是实施例基于语音信息特征数据的商品搜索系统的说明示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例提供一种基于语音信息特征数据的商品搜索方法，如图1，包括以下步骤，

S1、通过卖家用户端收集商品编号id与商品的语音信息V_business={v₁,v₂,v₃,...,v_n}，其中，v₁,v₂,v₃,..., v_n分别为n个商品对应的语音信息，语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图，如图2；

S21、将波形图数据W_business={w₁,w₂,w₃,... ,w_n}，其中，w₁,w₂,w₃,... ,w_n分别为n个商品语音信息的波形图数据，以设定帧长如25ms与设定帧移如10ms进行分帧后，再将每帧信号的波形图与汉明窗进行相乘，得到加窗后的波形图；

S22、对加窗后的波形图，根据设定数量如前5帧的帧语音信号计算出平均噪声谱；

S23、由语音信号波形图的纵坐标频率减去平均噪声谱的纵坐标频率，并在频率出现负值时，置为零，得到降噪后的波形图作为经过处理的波形图，如图3；

S24、将经过处理的波形图分别由快速傅里叶变换FFT转换为二维频谱图序列集，如图4，进而绘制语谱图序列集L_business={l₁,l₂,l₃,... ,l_n}，其中，l₁,l₂,l₃,... ,l_n分别为n个商品对应的语谱图序列，如图5，图5中，横坐标为时间，纵坐标为频率，坐标点值为语音数据能量，颜色越深，表示该点的语音能量越强；再以对应的声音强度作为频谱图第三维度，构建得到三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，其中，s₁,s₂,s₃,... ,s_n分别为n个商品对应的频谱图序列，如图6。

步骤S3中，提取频谱图序列集S_business中每一个频谱图序列的特征值，并计算获得商品语音信息特征数据的哈希编码H_business={h₁,h₂,h₃,... ,h_n}，具体为，

S31、采用关键点识别算法即landmark算法分别提取每个三维频谱图上的局部峰值点作为对应三维频谱图的特征值，如图6；

S32、根据局部峰值点间的相对关系确定坐标系，将局部峰值点在坐标系上表示出来，并用哈希函数进行编码，获得商品语音信息特征数据的哈希编码H_business={h₁,h₂,h₃,...,h_n}。

步骤S3中，根据商品编号id与得到的商品语音信息特征数据的哈希编码H_business更新数据库服务器中的商品信息，具体为，

S33、根据商品编号id，使用得到的商品语音信息特征数据的哈希编码H_business，更新数据库服务器中商品信息中对应的商品语音信息特征数据的哈希编码。

S34、数据库服务器中的Logstash数据收集引擎监听到数据库的更新日志后，将更新后的商品信息同步至ES搜索引擎，并在ES搜索引擎中更新商品信息索引。步骤S34中，Logstash、ES为Elasticsearch公司的开源软件名称。

步骤S3中，进行特征信息提取并存储，利用landmark算法提取频谱图序列集S_business中每一个频谱图的局部峰值点，根据峰值点间的相对关系确定坐标系，将峰值点在坐标系上表示出来，并用哈希函数进行编码，存入数据库服务器。数据库服务器goods表中，每一条商品信息Goods_Info中存在单独的一个字段(字段名为hash)用于存放该商品对应的语音信息特征数据的哈希编码值，其类型为长度为20的char，初始为空。存储步骤为：接收由卖家端程序传至数据库服务器程序的商品编号id和语音信息，并在数据库服务器计算其语音信息特征数据对应的哈希编码值H_business根据商品编号id对商品信息Goods_Info中hash字段的值用计算所得的H_business进行更新；数据库服务器中的Logstash数据收集引擎监听到数据库服务器的更新日志后，将更新后的商品信息同步至ES(Elasticsearch)搜索引擎，并在ES搜索引擎中更新商品信息索引。

S5、对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，先转换为语谱图序列L_customer，再转换为待搜索商品的三维频谱图序列S_customer；

S51、将语音信息V_customer的波形图W_customer以设定帧长如25ms、设定帧移如10ms进行分帧，再将每帧信号的波形图与汉明窗进行相乘，得到加窗后的波形图；

S52、根据设定数量如前5帧语音信号计算出平均噪声谱；

S53、用波形图的纵坐标频率减去平均噪声谱的纵坐标频率得到降噪后的波形图，在降噪后的波形图中频率出现负值时，则将其置为零；

S54、将经过处理的波形图W_customer分别利用傅里叶快速变换FFT转换为二维频谱图序列，再将其以频率为横轴，振幅为纵轴用坐标表示出来，再将该坐标轴旋转，横轴代表幅度值，纵轴代表频率，对幅度值进行映射，通过量化的方式，0表示白，255表示黑色绘制语谱图序列L_customer，并以声音强度作为第三维度，转换为三维频谱图序列作为待搜索商品的三维频谱图序列S_customer。

S6、提取待搜索商品的频谱图序列S_customer上的特征值，并计算待搜索哈希编码H_customer，将待搜索哈希编码H_customer与数据库服务器中保存的各商品语音信息特征数据的哈希编码H_business分别计算相似度Similarity={Sim₁,Sim₂,Sim₃,... ,Sim_n}，其中，Sim₁,Sim₂,Sim₃,... ,Sim_n分别为待搜索商品与数据库中n个商品的相似度，进而得到按相似度从高到低排序的商品信息序列；

S62、将待搜索哈希编码H_customer作为参数调用ES搜索引擎的API接口，得到按相似度从高到低排序的商品信息，得到按相似度从高到低排序的商品信息序列。

该种基于语音信息特征数据的商品搜索方法，能够根据买家用户端的语音信息实现对商品的搜索，无需将商品的语音信息转换为文字或普通话等中间形式，有效地弥补了现有电商软件在语音搜索上的不足，能够高效、准确地查找用语音信息作为显著特征的商品，例如：无法用文字描述的土特产商品等。同时，本发明在进行音频对比过程中使用了音频指纹技术，尽可能减小了搜索误差，提高搜索精度，使得搜索更加准确。

实施例还提供一种实现上述任一项所述的基于语音信息特征数据的商品搜索方法的系统，如图7，包括卖家用户端、买家用户端和数据库服务器，

该种基于语音信息特征数据的商品搜索系统，通过买家用户端的麦克风收集买家输入的待搜索商品G_customer的语音信息V_customer，对其波形图数据W_customer进行分帧、加窗、降噪等处理，用快速傅里叶变换（FFT）转换成为二维频谱图，再以声音强度作为频谱图第三维度构建三维频谱图S_customer；利用landmark算法，提取每个三维频谱图上的局部峰值点，根据峰值点间的相对关系确定坐标系，将峰值点在坐标系上表示出来，并计算其哈希编码H_customer，将生成的哈希编码H_customer与数据库服务器中已保存的各商品语音信息特征数据所对应的哈希编码H_business分别计算相似度Similarity={Sim₁,Sim₂,Sim₃,... ,Sim_n}，得到按相似度从高到低排序的商品信息序列返回到买家端供买家查看。

该种基于语音信息特征数据的商品搜索系统，通过卖家用户端麦克风收集各商品G_business={g₁,g₂,g₃,...,g_n}的语音信息V_business={v₁,v₂,v₃,...,v_n}，对其波形图W_business={w₁,w₂,w₃,... ,w_n}进行分帧、加窗、降噪等处理，用快速傅里叶变换（FFT）转换成为二维频谱图序列集，再以声音强度作为频谱图第三维度构建三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}；利用landmark算法，提取频谱图序列集中每个三维频谱图上的局部峰值点，根据峰值点间的相对关系确定坐标系，将峰值点在坐标系上表示出来，并计算其哈希编码H_business={h₁,h₂,h₃,... ,h_n}，存入数据库服务器；

该种基于语音信息特征数据的商品搜索系统，买家用户端传入商品语音信息，数据库服务器根据语音信息计算出哈希编码值，数据库服务器在收到买家用户端的信息后，执行商品搜索操作：将哈希编码值作为参数调用ES搜索引擎的API接口，得到搜索结果，再将结果返回买家端程序，操作结束；卖家用户端传入商品编号id及语音信息，数据库服务器在收到卖家用户端发送的信息后，执行商品信息更新操作：根据商品编号id对商品信息Goods_Info中hash字段的值用计算所得的哈希编码值进行更新，后台服务器中的Logstash数据收集引擎监听到数据库服务器的更新日志后，将更新后的商品信息同步至ES(Elasticsearch)搜索引擎，并在ES搜索引擎中更新商品信息索引，操作结束。

该种基于语音信息特征数据的商品搜索方法及系统，通过运用音频指纹技术，提取语音信息中的特征数据，将买家待搜索商品的语音信息特征数据与存储在数据库服务器中的所有商品语音信息特征数据进行比对，按照相似度的高低找出买家待搜索商品，无需转换为文本，能够通过采集的语音信息实现有效的商品搜索。

本发明未尽事宜为公知技术。上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于语音信息特征数据的商品搜索方法，其特征在于：包括以下步骤，

S1、通过卖家用户端收集商品编号id与商品的语音信息V_business={v₁,v₂,v₃,..., v_n}，其中，v₁,v₂,v₃,..., v_n分别为n个商品对应的语音信息，语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图；

S2、对收集到的商品的语音信息V_business对应的波形图数据W_business={w₁,w₂,w₃,... ,w_n}，其中，w₁,w₂,w₃,... ,w_n分别为n个商品语音信息的波形图数据，进行分帧、加窗、降噪处理后，将每个经过处理的波形图先分别转换为语谱图序列集L_business={l₁,l₂,l₃,... ,l_n}，其中，l₁,l₂,l₃,... ,l_n分别为n个商品对应的语谱图序列，再转换为三维频谱图序列集S_business={s₁,s₂,s₃,... ,s_n}，其中，s₁,s₂,s₃,... ,s_n分别为n个商品对应的频谱图序列；

S5、对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，先转换为语谱图序列L_customer，转换为待搜索商品的三维频谱图序列S_customer；

2. 如权利要求1所述的基于语音信息特征数据的商品搜索方法，其特征在于：步骤S2中，对收集到的语音信息V_business对应的波形图数据W_business={w₁,w₂,w₃,... ,w_n}进行分帧、加窗、降噪处理，将经过处理的波形图分别转换为三维频谱图序列集S_business={s₁,s₂,s₃,...,s_n}，具体为，

3.如权利要求1所述的基于语音信息特征数据的商品搜索方法，其特征在于：步骤S3中，提取频谱图序列集S_business中每一个频谱图序列的特征值，并计算获得商品语音信息特征数据的哈希编码H_business，具体为，

4.如权利要求1-3任一项所述的基于语音信息特征数据的商品搜索方法，其特征在于：步骤S3中，根据商品编号id与得到的商品语音信息特征数据的哈希编码H_business更新数据库服务器中的商品信息，具体为，

5.如权利要求1-3任一项所述的基于语音信息特征数据的商品搜索方法，其特征在于：步骤S5中，对待搜索商品的语音信息V_customer的波形图W_customer，进行分帧、加窗、降噪处理后，先将其转换为语谱图序列L_customer，再转换为待搜索商品的三维频谱图序列S_customer，具体为，

S52、根据设定数量语音信号计算出平均噪声谱；

6.如权利要求4所述的基于语音信息特征数据的商品搜索方法，其特征在于：步骤S6中，提取待搜索商品的频谱图序列S_customer上的特征值，并计算待搜索哈希编码H_customer，将待搜索哈希编码H_customer与数据库服务器中保存的各商品语音信息特征数据的哈希编码H_business分别计算相似度，进而得到按相似度从高到低排序的商品信息序列，具体为，

7.一种实现权利要求1-6任一项所述的基于语音信息特征数据的商品搜索方法的系统，其特征在于：包括卖家用户端、买家用户端和数据库服务器，