CN115798517A - 基于语音信息特征数据的商品搜索方法及系统 - Google Patents

基于语音信息特征数据的商品搜索方法及系统 Download PDF

Info

Publication number
CN115798517A
CN115798517A CN202310080355.5A CN202310080355A CN115798517A CN 115798517 A CN115798517 A CN 115798517A CN 202310080355 A CN202310080355 A CN 202310080355A CN 115798517 A CN115798517 A CN 115798517A
Authority
CN
China
Prior art keywords
commodity
voice information
business
customer
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310080355.5A
Other languages
English (en)
Other versions
CN115798517B (zh
Inventor
汪莹
杨珑钰
谭旭
戴熠辰
席晓宇
王子任
张馨予
陈奕
李懿嫒
薛景
魏建香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310080355.5A priority Critical patent/CN115798517B/zh
Publication of CN115798517A publication Critical patent/CN115798517A/zh
Application granted granted Critical
Publication of CN115798517B publication Critical patent/CN115798517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于语音信息特征数据的商品搜索方法及系统,该方法通过卖家用户端收集商品编号id与商品的语音信息,对收集到的商品的语音信息对应的波形图数据转换为三维频谱图序列集;计算获得商品语音信息特征数据的哈希编码后,根据商品编号与得到的商品语音信息特征数据的哈希编码更新数据库服务器中的商品信息;对待搜索商品的语音信息的波形图,转换为待搜索商品的频谱图序列;将待搜索哈希编码与数据库服务器中保存的各商品语音信息特征数据的哈希编码分别计算相似度;将得到的商品信息序列作为商品搜索结果;本发明无需将商品的语音信息转换为文字或普通话等中间形式,能够高效、准确地查找用语音信息作为显著特征的商品。

Description

基于语音信息特征数据的商品搜索方法及系统
技术领域
本发明涉及一种基于语音信息特征数据的商品搜索方法及系统,属于信息检索技术领域。
背景技术
伴随着互联网的兴盛和物流行业的发展,网络购物已经成为日常生活里重要的一部分,语音搜索功能也已经逐渐普及,现在已有电商软件将语音搜索功能用于商品搜索。但是,目前已有的语音搜索功能通常将语音信息进行一系列处理之后转化为以文字表达的商品关键字信息,再对该关键字信息进行普通的文字搜索。
这种方式下,在语音描述的且无法转换成普通文本的语音信息特征,已有的语音搜索难以对上述商品进行搜索。实际的电商购物中存在着大量无法用书面文字或普通话描述的商品信息,例如地方土特产,其拥有以方言描述的且无法转换成普通文本的语音信息特征,目前语音搜索难以实现商品的语音搜索。
例如,中国发明专利CN201710063075.8公开的一种语音购物方法以及系统,同样存在着在语音信息无法转换成普通文本时,难以实现语音进行商品搜索的问题。
上述问题是在基于语音信息特征数据的商品搜索过程中应当予以考虑并解决的问题。
发明内容
本发明的目的是提供一种基于语音信息特征数据的商品搜索方法及系统解决现有技术中存在的现有的语音商品搜索中,在语音信息不能转换文本时,难以实现语音商品搜索的问题。
本发明的技术解决方案是:
一种基于语音信息特征数据的商品搜索方法,包括以下步骤,
S1、通过卖家用户端收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,...,vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息,语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图;
S2、对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,...,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将每个经过处理的波形图先分别转换为语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,再转换为三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
S3、提取三维频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;
S4、通过买家用户端收集待搜索商品的语音信息Vcustomer,包括语音的声音强度和以时间为横轴、频率为纵轴的波形图;
S5、对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,先转换为语谱图序列Lcustomer,再转换为待搜索商品的三维频谱图序列Scustomer
S6、提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer,将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列;
S7、将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
进一步地,步骤S2中,对收集到的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn}进行分帧、加窗、降噪处理,将经过处理的波形图分别转换为三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},具体为,
S21、将波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,以设定帧长与设定帧移进行分帧后,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S22、对加窗后的波形图,根据设定数量的帧语音信号计算出平均噪声谱;
S23、由语音信号波形图的纵坐标频率减去平均噪声谱的纵坐标频率,并在频率出现负值时,置为零,得到降噪后的波形图作为经过处理的波形图;
S24、将经过处理的波形图分别由快速傅里叶变换FFT转换为二维频谱图序列集,进而绘制语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,再以对应的声音强度作为频谱图第三维度,构建得到三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列。
进一步地,步骤S3中,提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,并计算获得商品语音信息特征数据的哈希编码Hbusiness,具体为,
S31、采用关键点识别算法即landmark算法分别提取每个三维频谱图上的局部峰值点作为对应三维频谱图的特征值;
S32、根据局部峰值点间的相对关系确定坐标系,将局部峰值点在坐标系上表示出来,并用哈希函数进行编码,获得商品语音信息特征数据的哈希编码Hbusiness
进一步地,步骤S3中,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息,具体为,
S33、根据商品编号id,使用得到的商品语音信息特征数据的哈希编码Hbusiness,更新数据库服务器中商品信息中对应的商品语音信息特征数据的哈希编码;
S34、数据库服务器中的Logstash数据收集引擎监听到数据库的更新日志后,将更新后的商品信息同步至ES搜索引擎,并在ES搜索引擎中更新商品信息索引。
进一步地,步骤S5中,对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,先转换为语谱图序列Lcustomer,再转换为待搜索商品的三维频谱图序列Scustomer,具体为,
S51、将语音信息Vcustomer的波形图Wcustomer以设定帧长、设定帧移进行分帧,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S52、根据设定数量语音信号计算出平均噪声谱;
S53、用波形图的纵坐标频率减去平均噪声谱的纵坐标频率得到降噪后的波形图,在降噪后的波形图中频率出现负值时,则置为零;
S54、将经过处理的波形图Wcustomer分别利用傅里叶快速变换FFT转换为二维频谱图序列,然后再以频率为横轴,振幅为纵轴用坐标表示出来,再将该坐标轴旋转,横轴代表幅度值,纵轴代表频率,对幅度值进行映射,通过量化的方式,0表示白,255表示黑色绘制语谱图序列集Lcustomer,并以声音强度作为第三维度,转换为三维频谱图序列作为待搜索商品的三维频谱图序列Scustomer
进一步地,步骤S6中,提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer,将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列,具体为,
S61、利用landmark算法分别提取待搜索商品的频谱图序列Scustomer上的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并计算待搜索哈希编码Hcustomer
S62、将待搜索哈希编码Hcustomer作为参数调用ES搜索引擎的API接口,得到按相似度从高到低排序的商品信息,进而得到按相似度从高到低排序的商品信息序列。
一种实现上述任一项所述的基于语音信息特征数据的商品搜索方法的系统,包括卖家用户端、买家用户端和数据库服务器,
卖家用户端:收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,...,vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息;对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将经过处理的波形图分别转换为频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
买家用户端:收集待搜索商品的语音信息Vcustomer,对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,转换为待搜索商品的频谱图序列Scustomer
数据库服务器:提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer;将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列;将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
本发明的有益效果是:该种基于语音信息特征数据的商品搜索方法及系统,能够根据买家用户端的语音信息实现对商品的搜索,无需将商品的语音信息转换为文字或普通话等中间形式,有效地弥补了现有电商软件在语音搜索上的不足,能够高效、准确地查找用语音信息作为显著特征的商品。同时,本发明在进行音频对比过程中使用了音频指纹技术,尽可能减小了搜索误差,提高搜索精度,使得搜索更加准确。
附图说明
图1是本发明实施例基于语音信息特征数据的商品搜索方法的流程示意图;
图2是实施例中卖家用户端收集到的语音信息中波形图的说明示意图;
图3是实施例中经过加窗、降噪、分帧后得到经过处理的波形图中一帧的波形图的说明示意图;
图4是实施例中将经过处理的波形图由快速傅里叶变换FFT转换为二维频谱图的说明示意图;
图5是实施例中绘制语谱图序列集的说明示意图;
图6是实施例中以声音强度作为第三维度构建得到三维频谱图并用landmark算法标记出局部峰值点的说明示意图;
图7是实施例基于语音信息特征数据的商品搜索系统的说明示意图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例提供一种基于语音信息特征数据的商品搜索方法,如图1,包括以下步骤,
S1、通过卖家用户端收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,...,vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息,语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图,如图2;
S2、对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,...,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将每个经过处理的波形图先分别转换为语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,再转换为三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
S21、将波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,以设定帧长如25ms与设定帧移如10ms进行分帧后,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S22、对加窗后的波形图,根据设定数量如前5帧的帧语音信号计算出平均噪声谱;
S23、由语音信号波形图的纵坐标频率减去平均噪声谱的纵坐标频率,并在频率出现负值时,置为零,得到降噪后的波形图作为经过处理的波形图,如图3;
S24、将经过处理的波形图分别由快速傅里叶变换FFT转换为二维频谱图序列集,如图4,进而绘制语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,如图5,图5中,横坐标为时间,纵坐标为频率,坐标点值为语音数据能量,颜色越深,表示该点的语音能量越强;再以对应的声音强度作为频谱图第三维度,构建得到三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列,如图6。
S3、提取三维频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;
步骤S3中,提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,并计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},具体为,
S31、采用关键点识别算法即landmark算法分别提取每个三维频谱图上的局部峰值点作为对应三维频谱图的特征值,如图6;
S32、根据局部峰值点间的相对关系确定坐标系,将局部峰值点在坐标系上表示出来,并用哈希函数进行编码,获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,...,hn}。
步骤S3中,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息,具体为,
S33、根据商品编号id,使用得到的商品语音信息特征数据的哈希编码Hbusiness,更新数据库服务器中商品信息中对应的商品语音信息特征数据的哈希编码。
S34、数据库服务器中的Logstash数据收集引擎监听到数据库的更新日志后,将更新后的商品信息同步至ES搜索引擎,并在ES搜索引擎中更新商品信息索引。步骤S34中,Logstash、ES为Elasticsearch公司的开源软件名称。
步骤S3中,进行特征信息提取并存储,利用landmark算法提取频谱图序列集Sbusiness中每一个频谱图的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并用哈希函数进行编码,存入数据库服务器。数据库服务器goods表中,每一条商品信息Goods_Info中存在单独的一个字段(字段名为hash)用于存放该商品对应的语音信息特征数据的哈希编码值,其类型为长度为20的char,初始为空。存储步骤为:接收由卖家端程序传至数据库服务器程序的商品编号id和语音信息,并在数据库服务器计算其语音信息特征数据对应的哈希编码值Hbusiness根据商品编号id对商品信息Goods_Info中hash字段的值用计算所得的Hbusiness进行更新;数据库服务器中的Logstash数据收集引擎监听到数据库服务器的更新日志后,将更新后的商品信息同步至ES(Elasticsearch)搜索引擎,并在ES搜索引擎中更新商品信息索引。
S4、通过买家用户端收集待搜索商品的语音信息Vcustomer,包括语音的声音强度和以时间为横轴、频率为纵轴的波形图;
S5、对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,先转换为语谱图序列Lcustomer,再转换为待搜索商品的三维频谱图序列Scustomer
S51、将语音信息Vcustomer的波形图Wcustomer以设定帧长如25ms、设定帧移如10ms进行分帧,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S52、根据设定数量如前5帧语音信号计算出平均噪声谱;
S53、用波形图的纵坐标频率减去平均噪声谱的纵坐标频率得到降噪后的波形图,在降噪后的波形图中频率出现负值时,则将其置为零;
S54、将经过处理的波形图Wcustomer分别利用傅里叶快速变换FFT转换为二维频谱图序列,再将其以频率为横轴,振幅为纵轴用坐标表示出来,再将该坐标轴旋转,横轴代表幅度值,纵轴代表频率,对幅度值进行映射,通过量化的方式,0表示白,255表示黑色绘制语谱图序列Lcustomer,并以声音强度作为第三维度,转换为三维频谱图序列作为待搜索商品的三维频谱图序列Scustomer
S6、提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer,将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度Similarity={Sim1,Sim2,Sim3,... ,Simn},其中,Sim1,Sim2,Sim3,... ,Simn分别为待搜索商品与数据库中n个商品的相似度,进而得到按相似度从高到低排序的商品信息序列;
S61、利用landmark算法分别提取待搜索商品的频谱图序列Scustomer上的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并计算待搜索哈希编码Hcustomer
S62、将待搜索哈希编码Hcustomer作为参数调用ES搜索引擎的API接口,得到按相似度从高到低排序的商品信息,得到按相似度从高到低排序的商品信息序列。
S7、将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
该种基于语音信息特征数据的商品搜索方法,能够根据买家用户端的语音信息实现对商品的搜索,无需将商品的语音信息转换为文字或普通话等中间形式,有效地弥补了现有电商软件在语音搜索上的不足,能够高效、准确地查找用语音信息作为显著特征的商品,例如:无法用文字描述的土特产商品等。同时,本发明在进行音频对比过程中使用了音频指纹技术,尽可能减小了搜索误差,提高搜索精度,使得搜索更加准确。
实施例还提供一种实现上述任一项所述的基于语音信息特征数据的商品搜索方法的系统,如图7,包括卖家用户端、买家用户端和数据库服务器,
卖家用户端:收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,...,vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息;对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将经过处理的波形图分别转换为频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
买家用户端:收集待搜索商品的语音信息Vcustomer,对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,转换为待搜索商品的频谱图序列Scustomer
数据库服务器:提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer;将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列;将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
该种基于语音信息特征数据的商品搜索系统,通过买家用户端的麦克风收集买家输入的待搜索商品Gcustomer的语音信息Vcustomer,对其波形图数据Wcustomer进行分帧、加窗、降噪等处理,用快速傅里叶变换(FFT)转换成为二维频谱图,再以声音强度作为频谱图第三维度构建三维频谱图Scustomer;利用landmark算法,提取每个三维频谱图上的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并计算其哈希编码Hcustomer,将生成的哈希编码Hcustomer与数据库服务器中已保存的各商品语音信息特征数据所对应的哈希编码Hbusiness分别计算相似度Similarity={Sim1,Sim2,Sim3,... ,Simn},得到按相似度从高到低排序的商品信息序列返回到买家端供买家查看。
该种基于语音信息特征数据的商品搜索系统,通过卖家用户端麦克风收集各商品Gbusiness={g1,g2,g3,...,gn}的语音信息Vbusiness={v1,v2,v3,...,vn},对其波形图Wbusiness={w1,w2,w3,... ,wn}进行分帧、加窗、降噪等处理,用快速傅里叶变换(FFT)转换成为二维频谱图序列集,再以声音强度作为频谱图第三维度构建三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn};利用landmark算法,提取频谱图序列集中每个三维频谱图上的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并计算其哈希编码Hbusiness={h1,h2,h3,... ,hn},存入数据库服务器;
该种基于语音信息特征数据的商品搜索系统,买家用户端传入商品语音信息,数据库服务器根据语音信息计算出哈希编码值,数据库服务器在收到买家用户端的信息后,执行商品搜索操作:将哈希编码值作为参数调用ES搜索引擎的API接口,得到搜索结果,再将结果返回买家端程序,操作结束;卖家用户端传入商品编号id及语音信息,数据库服务器在收到卖家用户端发送的信息后,执行商品信息更新操作:根据商品编号id对商品信息Goods_Info中hash字段的值用计算所得的哈希编码值进行更新,后台服务器中的Logstash数据收集引擎监听到数据库服务器的更新日志后,将更新后的商品信息同步至ES(Elasticsearch)搜索引擎,并在ES搜索引擎中更新商品信息索引,操作结束。
该种基于语音信息特征数据的商品搜索方法及系统,通过运用音频指纹技术,提取语音信息中的特征数据,将买家待搜索商品的语音信息特征数据与存储在数据库服务器中的所有商品语音信息特征数据进行比对,按照相似度的高低找出买家待搜索商品,无需转换为文本,能够通过采集的语音信息实现有效的商品搜索。
本发明未尽事宜为公知技术。上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于语音信息特征数据的商品搜索方法,其特征在于:包括以下步骤,
S1、通过卖家用户端收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,..., vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息,语音信息包括语音的声音强度和以时间为横轴、振幅为纵轴的波形图;
S2、对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将每个经过处理的波形图先分别转换为语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,再转换为三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
S3、提取三维频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;
S4、通过买家用户端收集待搜索商品的语音信息Vcustomer,包括语音的声音强度和以时间为横轴、频率为纵轴的波形图;
S5、对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,先转换为语谱图序列Lcustomer,转换为待搜索商品的三维频谱图序列Scustomer
S6、提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer,将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列;
S7、将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
2. 如权利要求1所述的基于语音信息特征数据的商品搜索方法,其特征在于:步骤S2中,对收集到的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn}进行分帧、加窗、降噪处理,将经过处理的波形图分别转换为三维频谱图序列集Sbusiness={s1,s2,s3,...,sn},具体为,
S21、将波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,以设定帧长与设定帧移进行分帧后,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S22、对加窗后的波形图,根据设定数量的帧语音信号计算出平均噪声谱;
S23、由语音信号波形图的纵坐标频率减去平均噪声谱的纵坐标频率,并在频率出现负值时,置为零,得到降噪后的波形图作为经过处理的波形图;
S24、将经过处理的波形图分别由快速傅里叶变换FFT转换为二维频谱图序列集,进而绘制语谱图序列集Lbusiness={l1,l2,l3,... ,ln},其中,l1,l2,l3,... ,ln分别为n个商品对应的语谱图序列,再以对应的声音强度作为频谱图第三维度,构建得到三维频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列。
3.如权利要求1所述的基于语音信息特征数据的商品搜索方法,其特征在于:步骤S3中,提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,并计算获得商品语音信息特征数据的哈希编码Hbusiness,具体为,
S31、采用关键点识别算法即landmark算法分别提取每个三维频谱图上的局部峰值点作为对应三维频谱图的特征值;
S32、根据局部峰值点间的相对关系确定坐标系,将局部峰值点在坐标系上表示出来,并用哈希函数进行编码,获得商品语音信息特征数据的哈希编码Hbusiness
4.如权利要求1-3任一项所述的基于语音信息特征数据的商品搜索方法,其特征在于:步骤S3中,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息,具体为,
S33、根据商品编号id,使用得到的商品语音信息特征数据的哈希编码Hbusiness,更新数据库服务器中商品信息中对应的商品语音信息特征数据的哈希编码;
S34、数据库服务器中的Logstash数据收集引擎监听到数据库的更新日志后,将更新后的商品信息同步至ES搜索引擎,并在ES搜索引擎中更新商品信息索引。
5.如权利要求1-3任一项所述的基于语音信息特征数据的商品搜索方法,其特征在于:步骤S5中,对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,先将其转换为语谱图序列Lcustomer,再转换为待搜索商品的三维频谱图序列Scustomer,具体为,
S51、将语音信息Vcustomer的波形图Wcustomer以设定帧长、设定帧移进行分帧,再将每帧信号的波形图与汉明窗进行相乘,得到加窗后的波形图;
S52、根据设定数量语音信号计算出平均噪声谱;
S53、用波形图的纵坐标频率减去平均噪声谱的纵坐标频率得到降噪后的波形图,在降噪后的波形图中频率出现负值时,则置为零;
S54、将经过处理的波形图Wcustomer分别利用傅里叶快速变换FFT转换为二维频谱图序列,然后再以频率为横轴,振幅为纵轴用坐标表示出来,再将该坐标轴旋转,横轴代表幅度值,纵轴代表频率,对幅度值进行映射,通过量化的方式,0表示白,255表示黑色绘制语谱图序列集Lcustomer,并以声音强度作为第三维度,转换为三维频谱图序列作为待搜索商品的三维频谱图序列Scustomer
6.如权利要求4所述的基于语音信息特征数据的商品搜索方法,其特征在于:步骤S6中,提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer,将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列,具体为,
S61、利用landmark算法分别提取待搜索商品的频谱图序列Scustomer上的局部峰值点,根据峰值点间的相对关系确定坐标系,将峰值点在坐标系上表示出来,并计算待搜索哈希编码Hcustomer
S62、将待搜索哈希编码Hcustomer作为参数调用ES搜索引擎的API接口,得到按相似度从高到低排序的商品信息,进而得到按相似度从高到低排序的商品信息序列。
7.一种实现权利要求1-6任一项所述的基于语音信息特征数据的商品搜索方法的系统,其特征在于:包括卖家用户端、买家用户端和数据库服务器,
卖家用户端:收集商品编号id与商品的语音信息Vbusiness={v1,v2,v3,...,vn},其中,v1,v2,v3,..., vn分别为n个商品对应的语音信息;对收集到的商品的语音信息Vbusiness对应的波形图数据Wbusiness={w1,w2,w3,... ,wn},其中,w1,w2,w3,... ,wn分别为n个商品语音信息的波形图数据,进行分帧、加窗、降噪处理后,将经过处理的波形图分别转换为频谱图序列集Sbusiness={s1,s2,s3,... ,sn},其中,s1,s2,s3,... ,sn分别为n个商品对应的频谱图序列;
买家用户端:收集待搜索商品的语音信息Vcustomer,对待搜索商品的语音信息Vcustomer的波形图Wcustomer,进行分帧、加窗、降噪处理后,转换为待搜索商品的频谱图序列Scustomer
数据库服务器:提取频谱图序列集Sbusiness中每一个频谱图序列的特征值,计算获得商品语音信息特征数据的哈希编码Hbusiness={h1,h2,h3,... ,hn},其中,h1,h2,h3,... ,hn分别为n个商品对应的哈希编码,根据商品编号id与得到的商品语音信息特征数据的哈希编码Hbusiness更新数据库服务器中的商品信息;提取待搜索商品的频谱图序列Scustomer上的特征值,并计算待搜索哈希编码Hcustomer;将待搜索哈希编码Hcustomer与数据库服务器中保存的各商品语音信息特征数据的哈希编码Hbusiness分别计算相似度,进而得到按相似度从高到低排序的商品信息序列;将得到的商品信息序列作为商品搜索结果,返回给买家用户端。
CN202310080355.5A 2023-02-08 2023-02-08 基于语音信息特征数据的商品搜索方法及系统 Active CN115798517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310080355.5A CN115798517B (zh) 2023-02-08 2023-02-08 基于语音信息特征数据的商品搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310080355.5A CN115798517B (zh) 2023-02-08 2023-02-08 基于语音信息特征数据的商品搜索方法及系统

Publications (2)

Publication Number Publication Date
CN115798517A true CN115798517A (zh) 2023-03-14
CN115798517B CN115798517B (zh) 2023-04-28

Family

ID=85430433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310080355.5A Active CN115798517B (zh) 2023-02-08 2023-02-08 基于语音信息特征数据的商品搜索方法及系统

Country Status (1)

Country Link
CN (1) CN115798517B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012146136A1 (zh) * 2011-04-26 2012-11-01 北京百度网讯科技有限公司 信息搜索方法及系统
CN104023247A (zh) * 2014-05-29 2014-09-03 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
CN106776977A (zh) * 2016-12-06 2017-05-31 深圳前海勇艺达机器人有限公司 搜索音乐的方法及装置
CN108197319A (zh) * 2018-02-02 2018-06-22 重庆邮电大学 一种基于时频局部能量的特征点的音频检索方法和系统
CN109885646A (zh) * 2018-12-20 2019-06-14 广州企图腾科技有限公司 一种字音识别方法、电子设备及存储介质
CN113362852A (zh) * 2020-03-04 2021-09-07 深圳市腾讯网域计算机网络有限公司 一种用户属性识别方法和装置
CN114090901A (zh) * 2021-11-18 2022-02-25 中国电子科技集团公司第三十研究所 一种基于多模融合特征的暗网相似商品判定方法、存储介质及计算装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012146136A1 (zh) * 2011-04-26 2012-11-01 北京百度网讯科技有限公司 信息搜索方法及系统
CN104023247A (zh) * 2014-05-29 2014-09-03 腾讯科技(深圳)有限公司 获取、推送信息的方法和装置以及信息交互系统
WO2015188620A1 (en) * 2014-05-29 2015-12-17 Tencent Technology (Shenzhen) Company Limited Method, device, and system for obtaining information based on audio input
CN106776977A (zh) * 2016-12-06 2017-05-31 深圳前海勇艺达机器人有限公司 搜索音乐的方法及装置
CN108197319A (zh) * 2018-02-02 2018-06-22 重庆邮电大学 一种基于时频局部能量的特征点的音频检索方法和系统
CN109885646A (zh) * 2018-12-20 2019-06-14 广州企图腾科技有限公司 一种字音识别方法、电子设备及存储介质
CN113362852A (zh) * 2020-03-04 2021-09-07 深圳市腾讯网域计算机网络有限公司 一种用户属性识别方法和装置
CN114090901A (zh) * 2021-11-18 2022-02-25 中国电子科技集团公司第三十研究所 一种基于多模融合特征的暗网相似商品判定方法、存储介质及计算装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马龙飞: "新型海淘购物比价引擎方案设计" *

Also Published As

Publication number Publication date
CN115798517B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN106649890B (zh) 数据存储方法和装置
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
JP2021526242A (ja) 保険の録音による品質検査方法、装置、機器及びコンピュータ記憶媒体
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN109377985B (zh) 一种领域词的语音识别增强方法和装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN111626813A (zh) 产品推荐方法及其系统
CN112988753A (zh) 一种数据搜索方法和装置
CN108197106B (zh) 一种基于深度学习的产品竞争分析方法、装置及系统
JP2003132088A (ja) 時系列データ検索システム
CN110347786B (zh) 一种语义模型的调优方法及系统
CN111460109B (zh) 摘要及对话摘要生成方法和装置
CN114722199A (zh) 基于通话录音的风险识别方法、装置、计算机设备及介质
CA3140455A1 (en) Information extraction method, apparatus, and system
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN115798517A (zh) 基于语音信息特征数据的商品搜索方法及系统
CN115035351B (zh) 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质
CN114724144A (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN113971810A (zh) 文档生成方法、装置、平台、电子设备以及存储介质
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN111476641A (zh) 一种移动设备上语音自动下单的方法、系统及存储介质
CN114462364B (zh) 录入信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant