CN117932005B - 一种基于人工智能的语音交互方法 - Google Patents

一种基于人工智能的语音交互方法 Download PDF

Info

Publication number
CN117932005B
CN117932005B CN202410325791.9A CN202410325791A CN117932005B CN 117932005 B CN117932005 B CN 117932005B CN 202410325791 A CN202410325791 A CN 202410325791A CN 117932005 B CN117932005 B CN 117932005B
Authority
CN
China
Prior art keywords
search
voice
user
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410325791.9A
Other languages
English (en)
Other versions
CN117932005A (zh
Inventor
罗滔
李小军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School
Original Assignee
Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School filed Critical Chengdu Technician College Chengdu Industry And Trade Vocational And Technical College Chengdu Senior Technical School Chengdu Railway Engineering School
Priority to CN202410325791.9A priority Critical patent/CN117932005B/zh
Publication of CN117932005A publication Critical patent/CN117932005A/zh
Application granted granted Critical
Publication of CN117932005B publication Critical patent/CN117932005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的语音交互方法,属于语音处理技术领域,包括以下步骤:S1、获取用户的若干条历史搜索记录,并采集用户的搜索语音;S2、将用户的搜索语音转换为搜索文本;S3、根据用户的搜索文本以及若干条历史搜索记录,确定用户的搜索关键词集合。本发明根据用户此次的搜索文本的关键词,从所有用户的历史搜索记录中提取与本次搜索文本相关的搜索记录,由这部分历史搜索记录以及此次搜索文本确定用户最终的搜索关键词集合,这样可以充分考虑用户平时的搜索习惯,确定用户的感兴趣方向,搜搜关键词集合的准确生成有利于为用户推荐准确的浏览内容。

Description

一种基于人工智能的语音交互方法
技术领域
本发明属于语音处理技术领域,具体涉及一种基于人工智能的语音交互方法。
背景技术
随着语音交互和人工智能等技术应用越来越普遍。目前,典型语音交互场景主要是根据用户发出的语音信息,语音识别设备识别语音内容后,搜索匹配的应答信息。但是,现有的语音交互局限性在于对于用户提出的问题,答复反馈内容不准确,没有根据用户的不同身份特征进行差异化处理,语音交互过程的智能化程度及用户体验度有待提高。
发明内容
本发明为了解决以上问题,提出了一种基于人工智能的语音交互方法。
本发明的技术方案是:一种基于人工智能的语音交互方法包括以下步骤:
S1、获取用户的若干条历史搜索记录,并采集用户的搜索语音;
S2、将用户的搜索语音转换为搜索文本;
S3、根据用户的搜索文本以及若干条历史搜索记录,确定用户的搜索关键词集合。
进一步地,S2中,将用户的搜索语音转换为搜索文本的具体方法为:构建语音转换模型,将用户的搜索语音输入至语音转换模型中,生成搜索文本。
进一步地,语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层;
预处理层的输入端作为语音转换模型的输入端;若干个特征提取层的输入端均与预处理层的输出端连接;若干个特征提取层的输出端均与池化层的输入端连接;池化层的输出端和全连接层的输入端连接;全连接层的输出端作为语音转换模型的输出端。
上述进一步方案的有益效果是:在本发明中,梅尔倒谱系数是一种音频特征提取方法,常用于语音识别等领域。梅尔倒谱系数通过将音频信号频谱在频率上进行转换。预处理层将用户的搜索语音转换为若干帧语音片段,特征提取层针对每帧语音信号提取特征,会得到若干个语音特征(即梅尔倒谱系数),这样的特征系数较多,会增加模型的运算量,因此本发明采用池化层对若干帧语音信号的特征进行压缩融合处理,这样可以减少运算时长,提高模型的泛化能力。接着,本发明采用全连接层进行最终处理,输出搜索文本。
进一步地,预处理层用于对用户的搜索语音进行分帧处理;
特征提取层用于提取分帧处理后每帧语音信号的梅尔倒谱系数;
池化层用于对所有帧语音信号的梅尔倒谱系数进行压缩处理,得到融合特征系数;
全连接层用于根据融合特征系数输出搜索文本。
进一步地,池化层的表达式为:
式中,C表示池化层的输出,MeanPooling2D(·)表示平均池化函数,Ek表示第k帧语音信号的梅尔倒谱系数,r表示池化层的池化核尺寸,e表示指数,K表示语音信号的帧数。
进一步地,全连接层的表达式为:
式中,Q表示全连接层的输出,C表示池化层的输出,K表示语音信号的帧数,L表示全连接层中神经元的个数,Ek表示第k帧语音信号的梅尔倒谱系数,max(·)表示最大值函数,ε表示所有梅尔倒谱系数的标准差,Bl表示全连接层第l个神经元的偏差,Pl表示全连接层第l个神经元的尺寸,Dl表示全连接层第l个神经元的权重,σ(·)表示激活函数。
进一步地,S3包括以下子步骤:
S31、剔除用户的搜索文本中所有停用词,得到标准搜索文本;
S32、提取标准搜索文本的所有关键词,并将词频最大的关键词作为重点搜索关键词;
S33、计算每条历史搜索记录与标准搜索文本的搜索关联度,将大于或等于搜索关联阈值的所有历史搜索记录作为待筛选搜索记录集合;
S34、根据待筛选搜索记录集合以及重点搜索关键词,确定用户的搜索关键词集合。
上述进一步方案的有益效果是:在本发明中,用户在网站存在很多条历史搜索记录,这些历史搜索记录可能与用户本次的搜索语音具有关联性或完全不相干,因此本发明在获取到用户的搜索文本后,从若干条历史搜索记录中挑选与本次搜索文本相关的记录,这样可以扩大搜索关键词的提取范围。再在由此获得的待筛选搜索记录集合中,提取与重点搜索关键词相近的词汇,组成用户的搜索关键词集合。
搜索关联阈值可由标准搜索文本的关键词个数确定,即搜索关联阈值与标准搜索文本的关键词个数相同,这样可以保证标准搜索文本的关键词个数越多,作为待筛选搜索记录集合的子集就越多,提取搜索关键词的范本就越多,可以提高最终搜索关键词集合的准确率。
进一步地,S33中,历史搜索记录与标准搜索文本的搜索关联度G的计算公式为:
式中,a表示重点搜索关键词的词频,b表示历史搜索记录的最大词频,max(·)表示最大值运算,A0表示重点搜索关键词的词向量,B0表示历史搜索记录中最大词频对应词汇的词向量,cos(·)表示余弦相似度函数。
进一步地,S34中,确定用户的搜索关键词集合的具体方法为:在待筛选搜索记录集合中,计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离,将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。
本发明的有益效果是:
(1)本发明通过构建语音转换模型,对用户本次输入的搜索语音进行文本转换,便于与用户的历史搜索记录结合提取关键词;
(2)本发明根据用户此次的搜索文本的关键词,从所有用户的历史搜索记录中提取与本次搜索文本相关的搜索记录,由这部分历史搜索记录以及此次搜索文本确定用户最终的搜索关键词集合,这样可以充分考虑用户平时的搜索习惯,确定用户的感兴趣方向,搜搜关键词集合的准确生成有利于为用户推荐准确的浏览内容,提高用户的交互体验感。
附图说明
图1为基于人工智能的语音交互方法的流程图;
图2为语音转换模型的结构示意图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于人工智能的语音交互方法,包括以下步骤:
S1、获取用户的若干条历史搜索记录,并采集用户的搜索语音;
S2、将用户的搜索语音转换为搜索文本;
S3、根据用户的搜索文本以及若干条历史搜索记录,确定用户的搜索关键词集合。
在本发明实施例中,S2中,将用户的搜索语音转换为搜索文本的具体方法为:构建语音转换模型,将用户的搜索语音输入至语音转换模型中,生成搜索文本。
在本发明实施例中,如图2所示,语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层;
预处理层的输入端作为语音转换模型的输入端;若干个特征提取层的输入端均与预处理层的输出端连接;若干个特征提取层的输出端均与池化层的输入端连接;池化层的输出端和全连接层的输入端连接;全连接层的输出端作为语音转换模型的输出端。
在本发明中,梅尔倒谱系数是一种音频特征提取方法,常用于语音识别等领域。梅尔倒谱系数通过将音频信号频谱在频率上进行转换。预处理层将用户的搜索语音转换为若干帧语音片段,特征提取层针对每帧语音信号提取特征,会得到若干个语音特征(即梅尔倒谱系数),这样的特征系数较多,会增加模型的运算量,因此本发明采用池化层对若干帧语音信号的特征进行压缩融合处理,这样可以减少运算时长,提高模型的泛化能力。接着,本发明采用全连接层进行最终处理,输出搜索文本。
在本发明实施例中,预处理层用于对用户的搜索语音进行分帧处理;
特征提取层用于提取分帧处理后每帧语音信号的梅尔倒谱系数;
池化层用于对所有帧语音信号的梅尔倒谱系数进行压缩处理,得到融合特征系数;
全连接层用于根据融合特征系数输出搜索文本。
在本发明实施例中,池化层的表达式为:
式中,C表示池化层的输出,MeanPooling2D(·)表示平均池化函数,Ek表示第k帧语音信号的梅尔倒谱系数,r表示池化层的池化核尺寸,e表示指数,K表示语音信号的帧数。
在本发明实施例中,全连接层的表达式为:
式中,Q表示全连接层的输出,C表示池化层的输出,K表示语音信号的帧数,L表示全连接层中神经元的个数,Ek表示第k帧语音信号的梅尔倒谱系数,max(·)表示最大值函数,ε表示所有梅尔倒谱系数的标准差,Bl表示全连接层第l个神经元的偏差,Pl表示全连接层第l个神经元的尺寸,Dl表示全连接层第l个神经元的权重,σ(·)表示激活函数。
在本发明实施例中,S3包括以下子步骤:
S31、剔除用户的搜索文本中所有停用词,得到标准搜索文本;
S32、提取标准搜索文本的所有关键词,并将词频最大的关键词作为重点搜索关键词;
S33、计算每条历史搜索记录与标准搜索文本的搜索关联度,将大于或等于搜索关联阈值的所有历史搜索记录作为待筛选搜索记录集合;
S34、根据待筛选搜索记录集合以及重点搜索关键词,确定用户的搜索关键词集合。
在本发明中,用户在网站存在很多条历史搜索记录,这些历史搜索记录可能与用户本次的搜索语音具有关联性或完全不相干,因此本发明在获取到用户的搜索文本后,从若干条历史搜索记录中挑选与本次搜索文本相关的记录,这样可以扩大搜索关键词的提取范围。再在由此获得的待筛选搜索记录集合中,提取与重点搜索关键词相近的词汇,组成用户的搜索关键词集合。
搜索关联阈值可由标准搜索文本的关键词个数确定,即搜索关联阈值与标准搜索文本的关键词个数相同,这样可以保证标准搜索文本的关键词个数越多,作为待筛选搜索记录集合的子集就越多,提取搜索关键词的范本就越多,可以提高最终搜索关键词集合的准确率。
在本发明实施例中,S33中,历史搜索记录与标准搜索文本的搜索关联度G的计算公式为:
式中,a表示重点搜索关键词的词频,b表示历史搜索记录的最大词频,max(·)表示最大值运算,A0表示重点搜索关键词的词向量,B0表示历史搜索记录中最大词频对应词汇的词向量,cos(·)表示余弦相似度函数。
在本发明实施例中,S34中,确定用户的搜索关键词集合的具体方法为:在待筛选搜索记录集合中,计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离,将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于人工智能的语音交互方法,其特征在于,包括以下步骤:
S1、获取用户的若干条历史搜索记录,并采集用户的搜索语音;
S2、将用户的搜索语音转换为搜索文本;
S3、根据用户的搜索文本以及若干条历史搜索记录,确定用户的搜索关键词集合;
所述S2中,将用户的搜索语音转换为搜索文本的具体方法为:构建语音转换模型,将用户的搜索语音输入至语音转换模型中,生成搜索文本;
所述语音转换模型包括预处理层、若干个特征提取层、池化层和全连接层;
所述预处理层的输入端作为语音转换模型的输入端;若干个所述特征提取层的输入端均与预处理层的输出端连接;若干个所述特征提取层的输出端均与池化层的输入端连接;所述池化层的输出端和全连接层的输入端连接;所述全连接层的输出端作为语音转换模型的输出端;
所述预处理层用于对用户的搜索语音进行分帧处理;
所述特征提取层用于提取分帧处理后每帧语音信号的梅尔倒谱系数;
所述池化层用于对所有帧语音信号的梅尔倒谱系数进行压缩处理,得到融合特征系数;
所述全连接层用于根据融合特征系数输出搜索文本;
所述池化层的表达式为:
式中,C表示池化层的输出,MeanPooling2D(·)表示平均池化函数,Ek表示第k帧语音信号的梅尔倒谱系数,r表示池化层的池化核尺寸,e表示指数,K表示语音信号的帧数;
所述全连接层的表达式为:
式中,Q表示全连接层的输出,C表示池化层的输出,K表示语音信号的帧数,L表示全连接层中神经元的个数,Ek表示第k帧语音信号的梅尔倒谱系数,max(·)表示最大值函数,ε表示所有梅尔倒谱系数的标准差,Bl表示全连接层第l个神经元的偏差,Pl表示全连接层第l个神经元的尺寸,Dl表示全连接层第l个神经元的权重,σ(·)表示激活函数。
2.根据权利要求1所述的基于人工智能的语音交互方法,其特征在于,所述S3包括以下子步骤:
S31、剔除用户的搜索文本中所有停用词,得到标准搜索文本;
S32、提取标准搜索文本的所有关键词,并将词频最大的关键词作为重点搜索关键词;
S33、计算每条历史搜索记录与标准搜索文本的搜索关联度,将大于或等于搜索关联阈值的所有历史搜索记录作为待筛选搜索记录集合;
S34、根据待筛选搜索记录集合以及重点搜索关键词,确定用户的搜索关键词集合。
3.根据权利要求2所述的基于人工智能的语音交互方法,其特征在于,所述S33中,历史搜索记录与标准搜索文本的搜索关联度G的计算公式为:
式中,a表示重点搜索关键词的词频,b表示历史搜索记录的最大词频,max(·)表示最大值运算,A0表示重点搜索关键词的词向量,B0表示历史搜索记录中最大词频对应词汇的词向量,cos(·)表示余弦相似度函数。
4.根据权利要求2所述的基于人工智能的语音交互方法,其特征在于,所述S34中,确定用户的搜索关键词集合的具体方法为:在待筛选搜索记录集合中,计算每条待筛选搜索记录中各个词汇与重点搜索关键词之间的欧式距离,将重点搜索关键词以及每条待筛选搜索记录中欧式距离最大的词汇作为搜索关键词集合的子集。
CN202410325791.9A 2024-03-21 2024-03-21 一种基于人工智能的语音交互方法 Active CN117932005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410325791.9A CN117932005B (zh) 2024-03-21 2024-03-21 一种基于人工智能的语音交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410325791.9A CN117932005B (zh) 2024-03-21 2024-03-21 一种基于人工智能的语音交互方法

Publications (2)

Publication Number Publication Date
CN117932005A CN117932005A (zh) 2024-04-26
CN117932005B true CN117932005B (zh) 2024-06-04

Family

ID=90754194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410325791.9A Active CN117932005B (zh) 2024-03-21 2024-03-21 一种基于人工智能的语音交互方法

Country Status (1)

Country Link
CN (1) CN117932005B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统
CN103617266A (zh) * 2013-12-03 2014-03-05 北京奇虎科技有限公司 个性化扩展搜索方法及装置、系统
CN105389400A (zh) * 2015-12-24 2016-03-09 Tcl集团股份有限公司 语音交互方法及装置
CN111242214A (zh) * 2020-01-13 2020-06-05 浙江工业大学 一种基于图像的小型动物识别方法
WO2022142041A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、计算机设备和存储介质
CN115688879A (zh) * 2022-10-21 2023-02-03 中电智恒信息科技服务有限公司 一种基于知识图谱的智能客服语音处理系统及方法
CN116644159A (zh) * 2023-04-28 2023-08-25 深圳市声扬科技有限公司 关键词提取方法、装置、设备及计算机可读存储介质
CN116665669A (zh) * 2023-07-19 2023-08-29 上海海启科技有限公司 一种基于人工智能的语音交互方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统
CN103617266A (zh) * 2013-12-03 2014-03-05 北京奇虎科技有限公司 个性化扩展搜索方法及装置、系统
CN105389400A (zh) * 2015-12-24 2016-03-09 Tcl集团股份有限公司 语音交互方法及装置
CN111242214A (zh) * 2020-01-13 2020-06-05 浙江工业大学 一种基于图像的小型动物识别方法
WO2022142041A1 (zh) * 2020-12-29 2022-07-07 平安科技(深圳)有限公司 意图识别模型的训练方法、装置、计算机设备和存储介质
CN115688879A (zh) * 2022-10-21 2023-02-03 中电智恒信息科技服务有限公司 一种基于知识图谱的智能客服语音处理系统及方法
CN116644159A (zh) * 2023-04-28 2023-08-25 深圳市声扬科技有限公司 关键词提取方法、装置、设备及计算机可读存储介质
CN116665669A (zh) * 2023-07-19 2023-08-29 上海海启科技有限公司 一种基于人工智能的语音交互方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Any-to-Any Voice Conversion With Multi-Layer Speaker Adaptation and Content Supervision;Xuexin Xu 等;《IEEE/ACM Transactions on Audio, Speech and Language Processing》;20230818;第31卷;3431–3445 *
基于特征引导和多任务学习的聚合卷积神经网络的说话人识别;晏文怡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20240315(第03期);I136-191 *

Also Published As

Publication number Publication date
CN117932005A (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN111048082B (zh) 一种改进的端到端语音识别方法
Mao et al. Deep cross-modal retrieval for remote sensing image and audio
US8620658B2 (en) Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
CN101510222B (zh) 一种多层索引语音文档检索方法
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
WO2016119604A1 (zh) 一种语音信息搜索方法、装置及服务器
CN110717332A (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN113742471B (zh) 一种普法问答系统的向量检索式对话方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
Chen et al. Towards unsupervised automatic speech recognition trained by unaligned speech and text only
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
CN117932005B (zh) 一种基于人工智能的语音交互方法
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
CN114781348B (zh) 一种基于词袋模型的文本相似度计算方法及系统
CN115392244A (zh) 一种学术关键词批量识别系统
CN115270810A (zh) 一种基于句子相似度的意图识别装置和方法
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN112784036A (zh) 基于无监督集成学习的抽取式文本摘要方法
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法
CN110968795A (zh) 一种公司形象提升系统的数据关联匹配系统
CN115512708B (zh) 基于区分性字典与分类器联合学习的说话人识别方法
CN117312534B (zh) 一种基于保密知识库的智能问答实现方法、装置及介质
Huang et al. Affective structure modeling of speech using probabilistic context free grammar for emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant