CN116935880A - 基于人工智能的一体机人机交互系统和方法 - Google Patents

基于人工智能的一体机人机交互系统和方法 Download PDF

Info

Publication number
CN116935880A
CN116935880A CN202311203292.4A CN202311203292A CN116935880A CN 116935880 A CN116935880 A CN 116935880A CN 202311203292 A CN202311203292 A CN 202311203292A CN 116935880 A CN116935880 A CN 116935880A
Authority
CN
China
Prior art keywords
audio data
machine
data segment
spectrogram
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311203292.4A
Other languages
English (en)
Other versions
CN116935880B (zh
Inventor
李士中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yihe Culture Digital Technology Co ltd
Original Assignee
Shenzhen Yihe Culture Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yihe Culture Digital Technology Co ltd filed Critical Shenzhen Yihe Culture Digital Technology Co ltd
Priority to CN202311203292.4A priority Critical patent/CN116935880B/zh
Publication of CN116935880A publication Critical patent/CN116935880A/zh
Application granted granted Critical
Publication of CN116935880B publication Critical patent/CN116935880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及音频数据处理技术领域,具体涉及一种基于人工智能的一体机人机交互系统和方法,该方法在获取待去噪一体机音频数据中各个时间长度的局部音频数据段后,对局部音频数据与一体机历史音频数据之间的语谱图的相似程度进行分析,筛选出最优时间长度;根据最优时间长度划分出一体机参考音频数据段,并结合其与一体机历史音频数据之间的数据分布情况,得到对应的噪声可信程度,进一步通过噪声可信程度计算出对应的过减因子,通过减因子对每个一体机参考音频数据段进行分别去噪,得到去噪后的真实一体机音频数据并进行一体机人机交互。本发明通过对音频数据处理得到的真实一体机音频数据进行一体机人机交互的效果更好。

Description

基于人工智能的一体机人机交互系统和方法
技术领域
本发明涉及音频数据处理技术领域,具体涉及一种基于人工智能的一体机人机交互系统和方法。
背景技术
现有一体机的人机交互主要通过语言媒介进行,一体机根据采集到的人类语言数据做出相应的反应,从而实现人机交互。在商场中存在许多基于人机交互的一体机,但是商场中声音嘈杂,导致一体机所采集到的人类语言数据受到背景声音的干扰较为严重,影响人机交互的进行,因此需要对一体机采集到的音频数据进行去噪处理。
现有技术通常通过计算量小、操作简单的谱减法对一体机接收到的音频数据进行去噪处理,但是谱减法会产生“音乐噪声”,导致对一体机所采集到的音频数据的去噪效果较差,从而使得一体机的人机交互效果较差。
发明内容
为了解决现有技术通过谱减法对一体机接收到的音频数据进行去噪的方法会导致一体机的人机交互效果较差的技术问题,本发明的目的在于提供一种基于人工智能的一体机人机交互系统和方法,所采用的技术方案具体如下:
本发明提出了基于人工智能的一体机人机交互方法,所述方法包括:
获取待去噪一体机音频数据和一体机历史音频数据;
基于不同的时间长度遍历待去噪一体机音频数据,得到每个时间长度对应的所有局部音频数据段;根据各个时间长度对应的所有局部音频数据段与一体机历史音频数据之间语谱图的相似程度的整体特征,从所有时间长度中筛选出最优时间长度;
根据最优时间长度将待去噪一体机音频数据划分为至少一个一体机参考音频数据段;根据每个一体机参考音频数据段与一体机历史音频数据之间的波动程度差异,以及数据分布趋势相似情况,得到每个一体机参考音频数据段的噪声可信程度;根据所述噪声可信程度改进每个一体机参考音频数据段的信噪比,得到每个一体机参考音频数据段对应的修正信噪比;
根据所述修正信噪比计算每个一体机参考音频数据段的过减因子;根据所述过减因子对每个一体机参考音频数据段进行去噪,得到真实一体机音频数据;
根据所述真实一体机音频数据进行一体机人机交互。
进一步地,所述最优时间长度的获取方法包括:
依次选取每个时间长度中的每个局部音频数据段作为目标局部音频数据段,将目标局部音频数据段的时间长度作为目标时间长度;将一体机历史音频数据中所有与所述目标局部音频数据段对应的时间长度一致的音频数据段,作为对比音频数据段;将目标局部音频数据段的语谱图作为目标语谱图,将对比音频数据段的语谱图作为对比语谱图;
根据目标语谱图与每个对比语谱图在相同时间下语音数据能量的分布趋势相似程度,得到目标语谱图与每个对比语谱图之间的语谱图相似度;将大于预设相似阈值的语谱图相似度作为参考语谱图相似度;根据目标语谱图的参考语谱图相似度数量、最大语谱图相似度和所述目标时间长度,得到目标局部音频数据段的相似度评价值,所述参考语谱图相似度数量、所述最大语谱图相似度和所述目标时间长度均与所述相似度评价值呈正相关;
将每个时间长度对应的所有局部音频数据段的相似度评价值的均值,作为每个时间长度的参考评价值;将参考评价值最大的时间长度作为最优时间长度。
进一步地,所述语谱图相似度的获取方法包括:
在每个语谱图中,以对应频率从小到大的顺序对每个时间上的所有语音数据能量进行曲线拟合,得到每个语谱图中的所有时间索引值对应的拟合曲线;通过时间序列分解算法得到所述拟合曲线中每个频率对应的分布趋势值;
在每个时间索引值下,计算目标语谱图对应的拟合曲线和每个对比语谱图对应的拟合曲线之间相同频率的分布趋势值差异,将所有分布趋势值差异的均值的负相关映射值,作为每个时间索引值下目标语谱图与每个对比语谱图之间的分布趋势相似度;
将所有时间索引值对应的分布趋势相似度的均值,作为目标语谱图与每个对比语谱图之间的语谱图相似度。
进一步地,所述噪声可信程度的获取方法包括:
将一体机历史音频数据中所有时间长度为最优时间长度的连续音频数据段,作为最优对比音频数据段;将一体机参考音频数据段对应的语音信号,作为参考语音信号;将最优对比音频数据段对应的语音信号,作为对比语音信号;
通过动态时间距离规整算法计算每个参考语音信号与各个对比语音信号之间的DTW距离;计算每个参考语音信号的音频幅度极差和每个对比语音信号的音频幅度极差;根据所述DTW距离、所述音频幅度极差以及对比语音信号数量构建噪声可信程度模型,根据噪声可信程度模型得到每个一体机参考音频数据段的噪声可信程度。
进一步地,所述噪声可信程度模型包括:
其中,为第/>个一体机参考音频数据段的噪声可信程度,/>为第/>个一体机参考音频数据段的参考语音信号的音频幅度极差,/>为第/>个对比语音信号的音频幅度极差,为第/>个一体机参考音频数据段的参考语音信号与第/>个对比语音信号之间的DTW距离,为对比语音信号数量,/>为以自然常数e为底的指数函数,/>为归一化函数。
进一步地,所述修正信噪比的计算公式包括:
其中,为第/>个一体机参考音频数据段的修正信噪比,/>为第/>个一体机参考音频数据段的噪声平均功率,/>为第/>个一体机参考音频数据段的信号平均功率,/>为第/>个一体机参考音频数据段的噪声可信程度,/>为以10为底的对数函数。
进一步地,所述过减因子的获取方法包括:
将每个一体机参考音频数据段对应的修正信噪比的负相关映射值与预设参考常数的和值,作为每个一体机参考音频数据段的过减因子。
进一步地,所述真实一体机音频数据的获取方法包括:
对于任意一个一体机参考音频数据段:
将一体机参考音频数据段的过减因子代入到谱减法中,通过带入过减因子后的谱减法对一体机参考音频数据段进行去噪,得到每个一体机参考音频数据对应的去噪一体机参考音频数据段;
将所有的去噪一体机参考音频数据段按照时间顺序组合,得到真实一体机音频数据。
进一步地,所述相似度评价值的获取方法包括:
将所述参考语谱图相似度数量、所述最大语谱图相似度和所述目标时间长度的乘积,作为目标局部音频数据段的相似度评价值。
本发明还提出了一种基于人工智能的一体机人机交互系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现任意一项一种基于人工智能的一体机人机交互方法的步骤。
本发明具有如下有益效果:
考虑到商场中机器噪声对一体机采集到的音频数据的影响较大,机器噪声的变化较为稳定并且存在一定的规律,因此为了获取更加准确的噪声音频数据,本发明根据不同时间长度的局部音频数据段与一体机历史音频数据进行相似度的计算,得到噪声整体置信度最高的最优时间长度,进一步根据最优时间长度的一体机参考音频数据段与一体机历史音频数据进行对比分析,得到每个一体机参考音频数据段的噪声可信程度,得到的噪声音频数据更加准确,从而提高后续的去噪效果。进一步地根据噪声可信程度得到每个一体机参考音频数据段对应的更加准确的修正信噪比,通过修正信噪比调整每个一体机参考音频数据段的过减因子,并根据调整后的过减因子对一体机参考音频数据段进行去噪,得到去噪效果更好的真实一体机音频数据,从而使得根据真实一体机音频数据进行一体机人机交互的效果更好。综上所述,本发明通过对音频数据处理得到的真实一体机音频数据进行一体机人机交互的效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于人工智能的一体机人机交互方法流程图;
图2为本发明一个实施例所提供的一种基于人工智能的一体机音频数据去噪方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的一体机人机交互系统和方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
基于人工智能的一体机人机交互系统和方法实施例:
下面结合附图具体的说明本发明所提供的一种基于人工智能的一体机人机交互系统和方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的一体机人机交互方法流程图,该方法包括:
步骤S1:获取待去噪一体机音频数据和一体机历史音频数据。
本发明旨在提供一种基于人工智能的一体机人机交互系统和方法,用于根据一体机历史音频数据对待去噪一体机音频数据和进行音频处理,得到去噪后的真实一体机音频数据,根据真实一体机音频数据进行一体机人机交互,因此首先需要获取音频处理的对象。
本发明实施例首先获取待去噪一体机音频数据和一体机历史音频数据。通过一体机中的声音传感器采集需要去噪的待去噪一体机音频数据和历史数据中的一体机历史音频数据。考虑到本发明实施例后续对一体机历史音频数据进行分析的主要依据为:机器噪声对一体机历史音频数据的影响最大并且存在一定的规律和稳定性,进一步根据待去噪一体机音频数据与一体机历史音频数据之间的相似程度获取对应的噪声可信度,因此本发明实施例所获取的一体机历史音频数据需要受到机器噪声的影响。
考虑到待去噪一体机音频数据是持续的,并且本发明实施例中一体机历史音频数据的长度决定了计算量的大小;为了方便分析,本发明实施例对采集到的待去噪音频数据和一体机历史音频数据的时间范围进行限定。在本发明实施例中,获取时间范围为10秒的待去噪一体机音频数据以及时间范围为30秒的受到机器噪声影响的一体机历史音频数据。需要说明的是,本发明实施例后续分析时所采用的待去噪一体机音频数据的时间范围均为10秒,一体机历史音频数据均为受到机器噪声影响并且时间范围为30秒的待去噪一体机音频数据,并且其他时间范围的待去噪一体机音频数据以及受到机器噪声影响的一体机历史音频数据的分析方法与本发明实施例相同,实施者可根据具体实施环境自行设置,在此不做进一步赘述。
步骤S2:基于不同的时间长度遍历待去噪一体机音频数据,得到每个时间长度对应的所有局部音频数据段;根据各个时间长度对应的所有局部音频数据段与一体机历史音频数据之间语谱图的相似程度的整体特征,从所有时间长度中筛选出最优时间长度。
考虑到整体待去噪一体机音频数据在不同的时间范围内受到噪声影响的程度不同,因此为了使得后续对待去噪一体机音频数据的去噪更加准确,本发明实施例将待去噪一体机音频数据进行拆分,对拆分出的不同的一体机音频数据段分别进行去噪,但是考虑到差分出的一体机音频数据段的时间长度不同,对应的去噪效果不同,因此为了获取去噪效果最好的一体机音频数据段对应的时间长度,本发明实施例基于不同的时间长度遍历待去噪一体机音频数据,得到每个时间长度对应的所有局部音频数据段,局部音频数据段也即连续的音频数据。在本发明实施例中,遍历的过程类似于滑窗遍历了,例如,不同的时间长度之间的最小时间间隔设置为1秒,最小的时间长度设置为1秒,对应迭代过程中任意两个局部音频数据段的起始时间之间的最小差异设置为1秒,例如,本发明实施例中的待去噪一体机音频数据的时间范围为10秒,则不同的时间长度为1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒,而对应其中的每一秒,例如时间长度为5秒时,通过5秒遍历时间范围为10s的去噪一体机音频数据,由于迭代过程中任意两个局部音频数据段的起始时间之间的最小差异设置为1秒,即遍历的时间间隔为1秒,所以时间长度为5秒时能够得到6个局部音频数据段;同理,时间长度为1秒时对应10个局部音频数据段,8秒对应3个局部音频数据段,而10秒只对应一个局部音频数据段,在此不做进一步赘述。需要说明的是,实施者可根据具体实施环境自行调整不同的时间长度之间的最小时间间隔、最小的时间长度以及迭代过程中任意两个局部音频数据段的起始时间之间的最小差异。进一步地对每个时间长度的所有局部音频数据段进行分析,从而得到本发明实施例所需要的去噪效果最好的时间长度。
在得到局部音频数据段后,考虑到每个时间长度对应的所有局部音频数据段与一体机历史音频数据段之间的语谱图越相似,说明对应的时间长度的局部音频数据段的噪声可信度越高,也即根据对应时间长度在后续进行分析时对应的去噪效果越优秀,因此本发明实施例根据各个时间长度对应的所有局部音频数据段与一体机历史音频数据之间语谱图的相似程度的整体特征,从所有时间长度中筛选出最优时间长度。
优选地,最优时间长度的获取方法包括:
依次选取每个时间长度中的每个局部音频数据段作为目标局部音频数据段,将目标局部音频数据段的时间长度作为目标时间长度;将一体机历史音频数据中所有与目标局部音频数据段对应的时间长度一致的音频数据段,作为对比音频数据段;将目标局部音频数据段的语谱图作为目标语谱图,将对比音频数据段的语谱图作为对比语谱图。设置对比音频数据段与目标局部音频数据段对应时间长度一致的目的是方便后续进行相似度的计算。在本发明实施例中,将任意两个对比音频数据段的起始时间之间的最小差异设置为1秒,实施者可根据具体实施环境自行设置。
根据目标语谱图与每个对比语谱图在相同时间下语音数据能量的分布趋势相似程度,得到目标语谱图与每个对比语谱图之间的语谱图相似度。语谱图中的横轴代表时间,纵轴代表频率,语谱图中的每个像素点对应一个语音数据能量,因此语谱图中每个时间对应的所有频率都能对应一个语音数据能量。由于目标语谱图与对比语谱图之间的时间长度一致,因此对应的相同时间即目标语谱图的时间长度与对比语谱图的时间长度之间时间索引值相同的时间。
优选地,语谱图相似度的获取方法包括:
在每个语谱图中,以对应频率从小到大的顺序对每个时间上的所有语音数据能量进行曲线拟合,得到每个语谱图中的所有时间索引值对应的拟合曲线;通过时间序列分解算法得到拟合曲线中每个频率对应的分布趋势值。由于语谱图中每个时间对应的所有频率都能对应一个语音数据能量,因此按照频率从小到大的顺序排列即可得到一个语音数据能量序列,进一步将语音数据能量序列进行曲线拟合,即可得到本发明实施例所需要的拟合曲线,也即每个时间索引值对应一条拟合曲线。需要说明的是,时间序列分解算法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
考虑到当目标语谱图与对比语谱图越相似时,对应的相同索引值的拟合曲线之间的分布趋势也应当越相似,因此本发明实施例在每个时间索引值下,计算目标语谱图对应的拟合曲线和每个对比语谱图对应的拟合曲线之间相同频率的分布趋势值差异,将所有分布趋势值差异的均值的负相关映射值,作为每个时间索引值下目标语谱图与每个对比语谱图之间的分布趋势相似度。考虑到具体实施环境中只有机器噪音是稳定且规律的,因此为了反映每个局部音频数据段的噪声可信度,通过计算分布趋势的相似度相比于语音数据能量更加符合实际情况。在本发明实施例中,采用以自然常数e为底的指数函数对所有分布趋势值差异的均值进行负相关映射得到分布趋势相似度,实施者也可根据具体实施环境采用其他方法进行负相关映射,例如将所有分布趋势值差异的均值与防止分母为0的常数之间的和值的倒数,作为分布趋势相似度。
将所有时间索引值对应的分布趋势相似度的均值,作为目标语谱图与每个对比语谱图之间的语谱图相似度。由于目标语谱图与每个对比语谱图之间每个时间索引值都对应一个分布趋势相似度,因此为了表征目标语谱图与每个对比语谱图之间整体的相似度,通过计算所有分布趋势相似度的均值,得到目标语谱图与每个对比语谱图之间的语谱图相似度。
在本发明实施例中,目标语谱图与第个对比语谱图之间的语谱图相似度的获取方法在公式上表现为:
其中,为目标语谱图与第/>个对比语谱图之间的语谱图相似度;/>为目标语谱图对应的拟合曲线数量,也即第/>个对比语谱图对应的拟合曲线数量;/>为目标语谱图和对比语谱图对应的频率数量,/>为目标语谱图中第/>个时间索引值对应的拟合曲线中第/>个频率对应的分布趋势值,/>为第/>个对比语谱图中第/>个时间索引值对应的拟合曲线中第/>个频率对应的分布趋势值,/>为以自然常数e为底的指数函数;/>为第/>个时间索引值下目标语谱图与第/>个对比语谱图之间分布趋势相似度;/>为目标语谱图与第/>个对比语谱图之间第/>个时间索引值对应的拟合曲线中第/>个频率对应的分布趋势值差异。
将大于预设相似阈值的语谱图相似度作为参考语谱图相似度;根据目标语谱图的参考语谱图相似度数量、最大语谱图相似度和目标时间长度,得到目标局部音频数据段的相似度评价值,参考语谱图相似度数量、最大语谱图相似度和目标时间长度均与相似度评价值呈正相关。在本发明实施例中,预设相似阈值设置为0.6。目标时间长度对应的参考语谱图相似度的数量越多,最大语谱图相似度越大,说明目标时间长度对应的局部音频数据段的音频的稳定程度越高,使得后续根据目标时间长度进行分析时对应的去噪效果越优秀。并且考虑到时间长度越长时,所计算出的语谱图相似度的参考价值越大,因此引入目标时间长度进行相似度评价值的计算。优选地,相似度评价值的获取方法包括:将参考语谱图相似度数量、最大语谱图相似度和目标时间长度的乘积,作为目标局部音频数据段的相似度评价值。
在本发明实施例中,目标局部音频数据段的相似度评价值的获取方法在公式上表现为:
其中,为目标局部音频数据段的相似度评价值,/>为目标局部音频数据段对应的参考语谱图相似度数量,/>为目标局部音频数据段对应的最大语谱图相似度;/>为目标局部音频数据段对应的时间长度,即目标时间长度。
由于每个时间长度对应多个局部音频数据段,因此为了表征对每个时间长度进行整体评价,本发明实施例将每个时间长度对应的所有局部音频数据段的相似度评价值的均值,作为每个时间长度的参考评价值。对应的参考评价值越大,说明对应的时间长度所得到的各个局部音频数据段的噪声可信度越高,使得后续根据时间长度进行分析时对应的去噪效果越好。由于本发明实施例只需要获取其中一个时间长度,因此本发明实施例将参考评价值最大的时间长度作为最优时间长度。若存在两个以上的时间长度对应的参考评价值均为最大时,则将其中最短的时间长度作为最优时间长度,因为对应的时间长度越短,后续得到的过减因子越多,也即对待去噪一体机音频数据不同的区域的去噪更加准确。
步骤S3:根据最优时间长度将待去噪一体机音频数据划分为至少一个一体机参考音频数据段;根据每个一体机参考音频数据段与一体机历史音频数据之间的波动程度差异,以及数据分布趋势相似情况,得到每个一体机参考音频数据段的噪声可信程度;根据噪声可信程度改进每个一体机参考音频数据段的信噪比,得到每个一体机参考音频数据段对应的修正信噪比。
在得到最优时间长度后,进一步根据最优时间长度对待去噪一体机音频数据进行划分,本发明实施例根据最优时间长度将待去噪一体机音频数据划分为至少一个一体机参考音频数据段。本发明实施例按照时间顺序每隔最优时间长度选取一个一体机参考音频数据段,当最后剩余的音频数据段的时间长度小于最优时间长度时,在该音频数据段之前选取相邻的部分待去噪一体机音频数据进行补充,使得补充后的音频数据段与最优时间长度相同,并将补充后的音频数据段作为一个一体机参考音频数据段。例如,当待去噪一体机音频数据的时间范围为10秒且计算出的最优时间长度为4秒时,则1秒到4秒对应的音频数据段为一个一体机参考音频数据段,5秒到8秒对应的音频数据段为一个一体机参考音频数据段,由于剩余的9秒和10秒对应的时间长度为2秒,小于4秒的最优时间长度,因此在9秒和10秒之前选取相邻的部分待去噪一体机音频数据进行补充,也即将7秒和8秒的数据补充在9秒和10秒之前,也即对应一个7秒到10秒的一体机参考音频数据段,但是后续在计算出7秒到10秒对应的过减因子时,该过减因子只用于对9秒和10秒的音频数据段进行去噪,在此不做进一步赘述。
进一步地对每个一体机参考音频数据段进行分析,得到对应的噪声可信程度。由于一体机历史音频数据受到稳定其有规律的机器噪声影响,因此对应的音频数据之间的分布趋势和波动程度越相似时,对应的一体机参考音频数据段的噪声可信程度越大。本发明实施例根据每个一体机参考音频数据段与一体机历史音频数据之间的波动程度差异,以及数据分布趋势相似情况,得到每个一体机参考音频数据段的噪声可信程度。
优选地,噪声可信程度的获取方法包括:
将一体机历史音频数据中所有时间长度为最优时间长度的连续音频数据段,作为最优对比音频数据段;将一体机参考音频数据段对应的语音信号,作为参考语音信号;将最优对比音频数据段对应的语音信号,作为对比语音信号。设置最优对比音频数据与一体机参考音频数据段之间时间长度相等的目的是方便后续进行分布趋势相似度的计算。
通过动态时间距离规整算法计算每个参考语音信号与各个对比语音信号之间的DTW距离。语音信号中每个时间都对应一个音频幅度,且音频幅度的大小与语音携带的能量或强度有关,也即每个语音信号对应一个语音能量序列,且语音能量序列的长度与对应语音信号的时间长度。因此根据动态时间距离规整算法所计算出的DTW距离能够表征两个语音信号之间在语音能量分布上的趋势相似程度,对应的趋势相似程度越高,说明参考语音信号的语音数据对应的趋势与受到稳定的机器噪声影响的一体机历史音频数据之间的分布越相似,即参考语音信号的一体机参考音频数据段的噪声可信度越高。需要说明的是,动态时间距离规整算法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
但是考虑到趋势相似程度只能判断参考语音信号与对比语音信号在分布上的相似程度,不能判断噪声的分贝大小,也即没有考虑到语音携带的能量或强度,因此为了对每个参考语音信号的一体机参考音频数据段的噪声可信度表征更加准确。本发明实施例计算每个参考语音信号的音频幅度极差和每个对比语音信号的音频幅度极差;根据信号相似度、音频幅度极差以及对比语音信号数量构建噪声可信程度模型,根据噪声可信程度模型得到每个一体机参考音频数据段的噪声可信程度。音频幅度极差即每个语音信号对应的音频幅度的最大值与最小值之间的差值。
优选地,噪声可信程度模型包括:
其中,为第/>个一体机参考音频数据段的噪声可信程度,/>为第/>个一体机参考音频数据段的参考语音信号的音频幅度极差,/>为第/>个对比语音信号的音频幅度极差,为第/>个一体机参考音频数据段的参考语音信号与第/>个对比语音信号之间的DTW距离,为对比语音信号数量,/>为以自然常数e为底的指数函数,/>为归一化函数。
参考语音信号和每个对比语音信号的音频幅度极差的差值越大,说明参考语音信号与对比语音信号之间的能量分布的整体差异越大,也即在能量分布上越不相似。而DTW距离表征参考语音信号与对比语音信号之间分布趋势的差异情况,对应的DTW距离越小,说明参考语音信号与对比语音信号之间的分布趋势的差异越小,也即在分布趋势上越相似,进一步地计算参考语音信号和每个对比语音信号之间的音频幅度极差的差值与DTW距离的乘积,最后根据参考语音信号对应的所有乘积的均值的负相关映射值,得到对应的噪声可信程度。
本发明实施例根据噪声可信程度改进每个一体机参考音频数据段的信噪比,得到每个一体机参考音频数据段对应的修正信噪比。噪声可信程度表征每个一体机参考音频数据段对应的噪声权重,近似于真实噪声的占比。
优选地,任选一个一体机参考音频数据段作为第个一体机参考音频数据段,第/>个一体机参考音频数据段的修正信噪比的计算公式包括:
其中,为第/>个一体机参考音频数据段的修正信噪比,/>为第/>个一体机参考音频数据段的噪声平均功率,/>为第/>个一体机参考音频数据段的信号平均功率,/>为第/>个一体机参考音频数据段的噪声可信程度,/>为以10为底的对数函数。需要说明的是,信噪比的计算方法为本领域技术人员所熟知的现有技术,且传统的信噪比的计算公式为/>,本发明实施例仅在噪声平均功率的基础上添加一个噪声可信程度作为权重,使得对应的噪声平均功率更加准确,也即所计算出的修正信噪比更加准确。需要说明的是,由于本发明实施例中所计算出的第/>个一体机参考音频数据段的噪声可信程度不可能为0,且/>为传统的信噪比的计算公式中的参数,因此/>不可能为0,即不存在分母为0导致无意义的情况。
步骤S4:根据修正信噪比计算每个一体机参考音频数据段的过减因子;根据过减因子对每个一体机参考音频数据段进行去噪,得到真实一体机音频数据。
考虑到传统的谱减法中,在对高信噪比对应的音频数据进行去噪时,对应的过减因子通常取值较小;在对低信噪比对应的音频数据进行去噪时,对应的过减因子通常取值较大。本发明实施例根据修正信噪比计算每个一体机参考音频数据段的过减因子。
优选地,过减因子的获取方法包括:
将每个一体机参考音频数据段对应的修正信噪比的负相关映射值与预设参考常数的和值,作为每个一体机参考音频数据段的过减因子。由于信噪比的大小与过减因子呈负相关,因此本发明实施例对修正信噪比进行负相关映射处理。在本发明实施例中,预设参考常数设置为1,并且设置为1的原因是谱减法中的过减因子均大于1。
在本发明实施例中,任选一个一体机参考音频数据段作为第个一体机参考音频数据段,第/>个一体机参考音频数据段的过减因子的获取方法在公式上表现为:
其中,为第/>个一体机参考音频数据段的过减因子,/>为第/>个一体机参考音频数据段的修正信噪比,/>为以自然常数e为底的指数函数。需要说明的是,实施者也可通过以自然常数e为底的指数函数之外的其他方法进行负相关映射,例如通过双曲正切函数等,在此不做进一步赘述。
至此,得到每个一体机参考音频数据段对应的过减因子,考虑到过减因子为谱减法中的参数,而谱减法能够对音频数据进行去噪,因此本发明实施例根据过减因子对每个一体机参考音频数据段进行去噪,得到真实一体机音频数据。
优选地,真实一体机音频数据的获取方法包括:
对于任意一个一体机参考音频数据段:
将一体机参考音频数据段的过减因子代入到谱减法中,通过带入过减因子后的谱减法对一体机参考音频数据段进行去噪,得到每个一体机参考音频数据对应的去噪一体机参考音频数据段。需要说明的是,谱减法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
在分别对不同的一体机参考音频数据进行去噪后,为了得到完整的去噪后的待去噪一体机音频数据,本发明实施例将所有的去噪一体机参考音频数据段按照时间顺序组合,得到真实一体机音频数据,真实一体机音频数据即完整的去噪后的待去噪一体机音频数据。
步骤S5:根据真实一体机音频数据进行一体机人机交互。
本发明实施例根据真实一体机音频数据进行一体机人机交互。一体机根据真实一体机音频数据确定用户的意图和需求,并根据用户的意图和需求涉及合理的对话策略和对话流程,从而保证有效的人机交互。
综上所述,本发明在获取待去噪一体机音频数据中各个时间长度的局部音频数据段后,对局部音频数据与一体机历史音频数据之间的语谱图的相似程度进行分析,筛选出最优时间长度;根据最优时间长度划分出一体机参考音频数据段,并结合其与一体机历史音频数据之间的数据分布情况,得到对应的噪声可信程度,进一步通过噪声可信程度计算出对应的过减因子,通过减因子对每个一体机参考音频数据段进行分别去噪,得到去噪后的真实一体机音频数据并进行一体机人机交互。本发明通过对音频数据处理得到的真实一体机音频数据进行一体机人机交互的效果更好。
本发明还提出了一种基于人工智能的一体机人机交互系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现任意一项一种基于人工智能的一体机人机交互方法的步骤。
基于人工智能的一体机音频数据去噪方法实施例:
现有的对一体机音频数据的去噪方法为通过谱减法进行去噪,但是现有技术中的谱减法对一体机音频数据进行去噪时会产生“音乐噪声”,“音乐噪声”的存在会影响一体机音频数据的去噪效果,也即现有技术中的谱减法对一体机音频数据进行去噪时的去噪效果较差。为了解决现有技术通过谱减法对一体机接收到的音频数据进行去噪的效果较差的技术问题,本发明实施例提供了一种基于人工智能的一体机音频数据去噪方法。请参阅图2,其示出了一种基于人工智能的一体机音频数据去噪方法流程图,该方法包括:
步骤S1:获取待去噪一体机音频数据和一体机历史音频数据。
步骤S2:基于不同的时间长度遍历待去噪一体机音频数据,得到每个时间长度对应的所有局部音频数据段;根据各个时间长度对应的所有局部音频数据段与一体机历史音频数据之间语谱图的相似程度的整体特征,从所有时间长度中筛选出最优时间长度。
步骤S3:根据最优时间长度将待去噪一体机音频数据划分为至少一个一体机参考音频数据段;根据每个一体机参考音频数据段与一体机历史音频数据之间的波动程度差异,以及数据分布趋势相似情况,得到每个一体机参考音频数据段的噪声可信程度;根据噪声可信程度改进每个一体机参考音频数据段的信噪比,得到每个一体机参考音频数据段对应的修正信噪比。
步骤S4:根据修正信噪比计算每个一体机参考音频数据段的过减因子;根据过减因子对每个一体机参考音频数据段进行去噪,得到真实一体机音频数据。
其中,步骤S1、步骤S2、步骤S3和步骤S4在上述基于人工智能的一体机人机交互方法对应的实施例中已给出了详细说明,不再赘述。
该基于人工智能的一体机音频数据去噪方法涉及音频数据处理技术领域,该方法考虑到商场中机器噪声对一体机采集到的音频数据的影响较大,机器噪声的变化较为稳定并且存在一定的规律,因此为了获取更加准确的噪声音频数据,本发明根据不同时间长度的局部音频数据段与一体机历史音频数据进行相似度的计算,得到噪声整体置信度最高的最优时间长度,进一步根据最优时间长度的一体机参考音频数据段与一体机历史音频数据进行对比分析,得到每个一体机参考音频数据段的噪声可信程度,得到的噪声音频数据更加准确,从而提高后续的去噪效果。进一步地根据噪声可信程度得到每个一体机参考音频数据段对应的更加准确的修正信噪比,通过修正信噪比调整每个一体机参考音频数据段的过减因子,并根据调整后的过减因子对一体机参考音频数据段进行去噪,得到去噪效果更好的真实一体机音频数据。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (10)

1.基于人工智能的一体机人机交互方法,其特征在于,所述方法包括:
获取待去噪一体机音频数据和一体机历史音频数据;
基于不同的时间长度遍历待去噪一体机音频数据,得到每个时间长度对应的所有局部音频数据段;根据各个时间长度对应的所有局部音频数据段与一体机历史音频数据之间语谱图的相似程度的整体特征,从所有时间长度中筛选出最优时间长度;
根据最优时间长度将待去噪一体机音频数据划分为至少一个一体机参考音频数据段;根据每个一体机参考音频数据段与一体机历史音频数据之间的波动程度差异,以及数据分布趋势相似情况,得到每个一体机参考音频数据段的噪声可信程度;根据所述噪声可信程度改进每个一体机参考音频数据段的信噪比,得到每个一体机参考音频数据段对应的修正信噪比;
根据所述修正信噪比计算每个一体机参考音频数据段的过减因子;根据所述过减因子对每个一体机参考音频数据段进行去噪,得到真实一体机音频数据;
根据所述真实一体机音频数据进行一体机人机交互。
2.根据权利要求1所述的基于人工智能的一体机人机交互方法,其特征在于,所述最优时间长度的获取方法包括:
依次选取每个时间长度中的每个局部音频数据段作为目标局部音频数据段,将目标局部音频数据段的时间长度作为目标时间长度;将一体机历史音频数据中所有与所述目标局部音频数据段对应的时间长度一致的音频数据段,作为对比音频数据段;将目标局部音频数据段的语谱图作为目标语谱图,将对比音频数据段的语谱图作为对比语谱图;
根据目标语谱图与每个对比语谱图在相同时间下语音数据能量的分布趋势相似程度,得到目标语谱图与每个对比语谱图之间的语谱图相似度;将大于预设相似阈值的语谱图相似度作为参考语谱图相似度;根据目标语谱图的参考语谱图相似度数量、最大语谱图相似度和所述目标时间长度,得到目标局部音频数据段的相似度评价值,所述参考语谱图相似度数量、所述最大语谱图相似度和所述目标时间长度均与所述相似度评价值呈正相关;
将每个时间长度对应的所有局部音频数据段的相似度评价值的均值,作为每个时间长度的参考评价值;将参考评价值最大的时间长度作为最优时间长度。
3.根据权利要求2所述的基于人工智能的一体机人机交互方法,其特征在于,所述语谱图相似度的获取方法包括:
在每个语谱图中,以对应频率从小到大的顺序对每个时间上的所有语音数据能量进行曲线拟合,得到每个语谱图中的所有时间索引值对应的拟合曲线;通过时间序列分解算法得到所述拟合曲线中每个频率对应的分布趋势值;
在每个时间索引值下,计算目标语谱图对应的拟合曲线和每个对比语谱图对应的拟合曲线之间相同频率的分布趋势值差异,将所有分布趋势值差异的均值的负相关映射值,作为每个时间索引值下目标语谱图与每个对比语谱图之间的分布趋势相似度;
将所有时间索引值对应的分布趋势相似度的均值,作为目标语谱图与每个对比语谱图之间的语谱图相似度。
4.根据权利要求1所述的基于人工智能的一体机人机交互方法,其特征在于,所述噪声可信程度的获取方法包括:
将一体机历史音频数据中所有时间长度为最优时间长度的连续音频数据段,作为最优对比音频数据段;将一体机参考音频数据段对应的语音信号,作为参考语音信号;将最优对比音频数据段对应的语音信号,作为对比语音信号;
通过动态时间距离规整算法计算每个参考语音信号与各个对比语音信号之间的DTW距离;计算每个参考语音信号的音频幅度极差和每个对比语音信号的音频幅度极差;根据所述DTW距离、所述音频幅度极差以及对比语音信号数量构建噪声可信程度模型,根据噪声可信程度模型得到每个一体机参考音频数据段的噪声可信程度。
5.根据权利要求4所述的基于人工智能的一体机人机交互方法,其特征在于,所述噪声可信程度模型包括:
其中,为第/>个一体机参考音频数据段的噪声可信程度,/>为第/>个一体机参考音频数据段的参考语音信号的音频幅度极差,/>为第/>个对比语音信号的音频幅度极差,/>为第/>个一体机参考音频数据段的参考语音信号与第/>个对比语音信号之间的DTW距离,/>为对比语音信号数量,/>为以自然常数e为底的指数函数,/>为归一化函数。
6.根据权利要求1所述的基于人工智能的一体机人机交互方法,其特征在于,所述修正信噪比的计算公式包括:
其中,为第/>个一体机参考音频数据段的修正信噪比,/>为第/>个一体机参考音频数据段的噪声平均功率,/>为第/>个一体机参考音频数据段的信号平均功率,/>为第/>个一体机参考音频数据段的噪声可信程度,/>为以10为底的对数函数。
7.根据权利要求1所述的基于人工智能的一体机人机交互方法,其特征在于,所述过减因子的获取方法包括:
将每个一体机参考音频数据段对应的修正信噪比的负相关映射值与预设参考常数的和值,作为每个一体机参考音频数据段的过减因子。
8.根据权利要求1所述的基于人工智能的一体机人机交互方法,其特征在于,所述真实一体机音频数据的获取方法包括:
对于任意一个一体机参考音频数据段:
将一体机参考音频数据段的过减因子代入到谱减法中,通过带入过减因子后的谱减法对一体机参考音频数据段进行去噪,得到每个一体机参考音频数据对应的去噪一体机参考音频数据段;
将所有的去噪一体机参考音频数据段按照时间顺序组合,得到真实一体机音频数据。
9.根据权利要求2所述的基于人工智能的一体机人机交互方法,其特征在于,所述相似度评价值的获取方法包括:
将所述参考语谱图相似度数量、所述最大语谱图相似度和所述目标时间长度的乘积,作为目标局部音频数据段的相似度评价值。
10.一种基于人工智能的一体机人机交互系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~9任意一项所述方法的步骤。
CN202311203292.4A 2023-09-19 2023-09-19 基于人工智能的一体机人机交互系统和方法 Active CN116935880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311203292.4A CN116935880B (zh) 2023-09-19 2023-09-19 基于人工智能的一体机人机交互系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311203292.4A CN116935880B (zh) 2023-09-19 2023-09-19 基于人工智能的一体机人机交互系统和方法

Publications (2)

Publication Number Publication Date
CN116935880A true CN116935880A (zh) 2023-10-24
CN116935880B CN116935880B (zh) 2023-11-21

Family

ID=88388279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311203292.4A Active CN116935880B (zh) 2023-09-19 2023-09-19 基于人工智能的一体机人机交互系统和方法

Country Status (1)

Country Link
CN (1) CN116935880B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882442A (zh) * 2009-05-04 2010-11-10 上海音乐学院 历史音频噪声检测与消除方法
CN103474072A (zh) * 2013-10-11 2013-12-25 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
KR20190125078A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
CN112951259A (zh) * 2021-03-01 2021-06-11 杭州网易云音乐科技有限公司 音频降噪方法、装置、电子设备及计算机可读存储介质
CN113744750A (zh) * 2021-07-27 2021-12-03 荣耀终端有限公司 一种音频处理方法及电子设备
CN114023348A (zh) * 2021-10-29 2022-02-08 西安邮电大学 一种基于自适应谱底优化的多带谱减法的语音增强方法
CN114582354A (zh) * 2022-05-06 2022-06-03 深圳市长丰影像器材有限公司 基于声纹识别的语音控制方法、装置、设备及存储介质
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882442A (zh) * 2009-05-04 2010-11-10 上海音乐学院 历史音频噪声检测与消除方法
CN103474072A (zh) * 2013-10-11 2013-12-25 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
KR20190125078A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
CN112951259A (zh) * 2021-03-01 2021-06-11 杭州网易云音乐科技有限公司 音频降噪方法、装置、电子设备及计算机可读存储介质
CN113744750A (zh) * 2021-07-27 2021-12-03 荣耀终端有限公司 一种音频处理方法及电子设备
CN114023348A (zh) * 2021-10-29 2022-02-08 西安邮电大学 一种基于自适应谱底优化的多带谱减法的语音增强方法
CN114582354A (zh) * 2022-05-06 2022-06-03 深圳市长丰影像器材有限公司 基于声纹识别的语音控制方法、装置、设备及存储介质
CN116129926A (zh) * 2023-04-19 2023-05-16 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Also Published As

Publication number Publication date
CN116935880B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
EP2828856B1 (en) Audio classification using harmonicity estimation
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
WO2021114733A1 (zh) 一种分频段进行处理的噪声抑制方法及其系统
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
CN111242005B (zh) 一种基于改进狼群算法优化支持向量机的心音分类方法
JP2022547525A (ja) 音声信号を生成するためのシステム及び方法
CN112185410B (zh) 音频处理方法及装置
CN110223708A (zh) 基于语音处理的语音增强方法及相关设备
Li Speech denoising based on improved discrete wavelet packet decomposition
CN113823301A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN116935880B (zh) 基于人工智能的一体机人机交互系统和方法
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
Rigaud et al. Drum extraction from polyphonic music based on a spectro-temporal model of percussive sounds
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN115762551A (zh) 鼾声检测方法、装置、计算机设备及存储介质
CN113593604A (zh) 检测音频质量方法、装置及存储介质
CN112397087A (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN117711419B (zh) 用于数据中台的数据智能清洗方法
Trawicki et al. Speech enhancement using Bayesian estimators of the perceptually-motivated short-time spectral amplitude (STSA) with Chi speech priors
Therese et al. A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system
CN117037834B (zh) 一种会议语音数据智能采集方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant