CN115862639A - 一种基于k—均值聚类分析的人工智能语音分析方法 - Google Patents
一种基于k—均值聚类分析的人工智能语音分析方法 Download PDFInfo
- Publication number
- CN115862639A CN115862639A CN202211512555.5A CN202211512555A CN115862639A CN 115862639 A CN115862639 A CN 115862639A CN 202211512555 A CN202211512555 A CN 202211512555A CN 115862639 A CN115862639 A CN 115862639A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- analysis
- cluster
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于K—均值聚类分析的人工智能语音分析方法,包括:建立语音分析模型,获取训练语音,对所述训练语音进行语音处理,获得训练语音特征,并针对所述训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型;采集输入语音信息;针对输入语音信息进行语音处理,获得语音特征;将语音特征结合语音分析模型进行数据分析,获得语音特征与语音分析模型的分析数据;根据分析数据得到语音信息的分析识别结果。本发明提出的一种基于K—均值聚类分析的人工智能语音分析方法,针对K—均值聚类分析算法针对语音进行分析与识别,从而使得能够针对任何长度的语音都能够识别出来,从而消除语音识别对语音长度的限制,提高语音识别的准确性。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于K—均值聚类分析的人工智能语音分析方法。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。
目前,在对语音进行识别时对语音的要求较高,只能对简短的语音准确识别,对于较长的语音就会出现识别准确性低的现象,因此,本发明提出了一种基于K—均值聚类分析的人工智能语音分析方法,针对K—均值聚类分析算法针对语音进行分析与识别,从而使得能够针对任何长度的语音都能够识别出来,从而消除语音识别对语音长度的限制,提高语音识别的准确性。
发明内容
本发明的目的在于提供一种基于K—均值聚类分析的人工智能语音分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于K—均值聚类分析的人工智能语音分析方法,包括:
建立语音分析模型,获取训练语音,对所述训练语音进行语音处理,获得训练语音特征,并针对所述训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型;
采集输入语音信息;
针对所述输入语音信息进行语音处理,获得语音特征;
将所述语音特征结合所述语音分析模型进行数据分析,获得所述语音特征与所述语音分析模型的分析数据;
根据所述分析数据得到所述语音信息的分析识别结果。
进一步地,建立语音分析模型时,将所述训练语音特征作为数据集进行聚类分析的,在数据集中,每条训练语音对应的语音特征即为一个数据对象,聚类分析的过程包括:针对所述训练语音进行分析确定聚类数目;在所述数据集中随机选择与所述聚类数目相等的数目的数据对象作为初始聚类中心;确定初始阈值;针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离,并结合所述阈值寻找归属的所述初始聚类中心,得到数据分类;计算所述数据分类中每个数据簇的均值;更新所述每个数据簇的均值和所述阈值后继续对数据集中的数据对象进行计算与分类,直至更新次数达到预设次数或者所述数据分类的目标函数满足输出条件时,输出聚类分析结果。
进一步地,针对所述训练语音进行分析确定聚类数目时,根据所述训练语音的来源确定所述聚类数目;
所述阈值在更新时根据更新次数进行更新,而且更新后的阈值随着更新次数的增加逐渐变大。
进一步地,针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离时,采用欧式距离计算公式针对所述数据对象和所述聚类中心进行有效距离计算,而且在计算过程中参照维度进行计算。
进一步地,所述结合所述阈值寻找归属的所述初始聚类中心包括:根据所述阈值确定所述聚类中心的上下近似集;根据所述聚类中心的上下近似集针对所述有效距离进行判断,确定所述数据对象是否在所述聚类中心的阈值有效范围内,得到数据对象判断结果;根据所述数据对象判断结果得到数据分类。
进一步地,在更新每个数据簇的均值时,包括:在所述数据簇中确定一个基本集;将所述数据簇中聚类中心的上下近似集与所述数据簇确定的基本集进行比较,得到比较结果;根据比较结果针对所述数据簇采用不同的更新方式得到数据簇更新后的均值。
进一步地,所述目标函数是针对聚类分析过程中当前数据分类状态的评价,在目标函数中,将数据对象与聚类中心在当前数据分类状态下的相似度结合所述当前数据分类状态中的第一权重值和第二权重值得到目标评价值,其中,所述第一权重值是所述当前数据分类状态下所述聚类中心对应的数据簇的权重,所述第二权重值时所述当前状态下数据对象在所述聚类中心对应的数据簇中的权重。
进一步地,针对所述语音信息进行语音处理,包括:通过高通滤波器对采集输入的语音信息进行预加重处理,获得第一处理语音信息;针对所述第一处理语音信息进行分帧处理,将所述第一处理语音信息按照帧分割,获得第二处理语音信息;在所述第二处理语音信息中,针对每帧信息进行加窗处理,获得第三处理语音信息;针对所述第三处理语音信息通过傅里叶变换确定所述语音信息在图谱上的能量分析,得到语音信息帧的频谱,并根据所述语音信息帧的频谱得到语音信号的功率谱;采用三角带通滤波器对所述语音信号功率谱进行滤波处理,同时计算所述三角带通滤波器中每个滤波器组输出的对数能量,并针对所述对数能量经过变换得到所述语音信息的语音特征。
进一步地,所述采集输入的语音信息时,通过多个语音采集装置进行语音采集,所述语音采集装置设置在不同的方位,且共同连接在一个控制管理装置上,输入语音信息时,所述语音采集装置分别在不同的方位上针对输入语音进行语音采集,得到不同方位上的语音信息,并将不同方位上的语音信息传输至所述控制管理装置,所述控制管理装置针对所述不同方位上的语音信息进行信息合并处理,如果存在相同的语音片段,则对所述相同的语音片段进行语音品质分析,将所述语音品质最好的语音片段留下来,得到采集输入的语音信息。
进一步地,将所述语音特征结合所述语音分析模型进行数据分析时,将所述语音特征与所述语音分析模型中的聚类分析结果量化计算,分析计算出所述语音特征与所述聚类分析结果中数据簇之间的相似差距,并根据所述相似差距结合预设判断条件确定所述语音信息的归属数据簇,当在所述聚类分析结果中确定出所述语音信息的归属数据簇时,确定所述语音信息对应的说话的人与所述归属数据簇对应的说话人是同一个人。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种基于K—均值聚类分析的人工智能语音分析方法的步骤示意图;
图2为本发明所述的一种基于K—均值聚类分析的人工智能语音分析方法中步骤一的流程示意图;
图3为本发明所述的一种基于K—均值聚类分析的人工智能语音分析方法中步骤三的步骤示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于K—均值聚类分析的人工智能语音分析方法,包括:
步骤一、建立语音分析模型,获取训练语音,对所述训练语音进行语音处理,获得训练语音特征,并针对所述训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型;
步骤二、采集输入语音信息;
步骤三、针对所述输入语音信息进行语音处理,获得语音特征;
步骤四、将所述语音特征结合所述语音分析模型进行数据分析,获得所述语音特征与所述语音分析模型的分析数据;
步骤五、根据所述分析数据得到所述语音信息的分析识别结果。
上述技术方案提供的基于K—均值聚类分析的人工智能语音分析方法在进行人工智能语音分析时,预先要建立语音分析模型,在建立语音分析模型时,首先要获取用于构建语音分析模型的训练语音,在训练语音中包括多种不同情况的语音,然后针对获取的训练语音就那些语音处理,将训练语音中的语音特征提取出来,得到训练语音特征,再对训练语音也在采用K—均值聚类分析的算法进行聚类分析,从而得到聚类分析结果,也就是语音分析模型;当建立语音分析模型之后,输入语音信息时,采集输入语音信息,然后对采集的输入语音信息进行语音处理,针对采集的语音信息通过降噪优化处理后将语音信息中的语音特征提取出来,得到输入的语音信息的语音特征,然后再将输入的语音信息的语音特征与语音分析模型中的数据进行分析计算,计算输入的语音信息的语音特征与聚类结果中的数据信息进行计算,并分析计算得到的分析数据中数据的大小,从而根据分析数据中最小值得到输入的语音信息的分析识别结果。
上述技术方案通过采用K—均值聚类分析建立语音分析模型之后使得在进行人工智能语音分析时能够直接对输入的语音信息进行分析识别,从而提高分析识别结果的得到效率,而且在训练语音中包含了多种情况使得建立的语音分析模型更加全面,在具有较少语音特征时也能够进行数据分析,从而消除语音识别对语音长度的限制,提高语音识别的准确性。此外,通过针对采集的输入语音信息进行语音处理得到输入的语音信息的语音特征时,语音特征是发出语音的人确定的,无论是较长语音还是简单语音只要是同一个人都是一致,即使对于长语音也不会因为不同时间段内的语音导致语音特征而产生差异,从而使得针对长语音也能够准确识别。
如图2所示,本发明提供的一个实施例中,建立语音分析模型时,将所述训练语音特征作为数据集进行聚类分析的,在数据集中,每条训练语音对应的语音特征即为一个数据对象,聚类分析的过程包括:针对所述训练语音进行分析确定聚类数目;在所述数据集中随机选择与所述聚类数目相等的数目的数据对象作为初始聚类中心;确定初始阈值;针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离,并结合所述阈值寻找归属的所述初始聚类中心,得到数据分类;计算所述数据分类中每个数据簇的均值;更新所述每个数据簇的均值和所述阈值后继续对数据集中的数据对象进行计算与分类,直至更新次数达到预设次数或者所述数据分类的目标函数满足输出条件时,输出聚类分析结果。
上述技术方案在针对训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型是将训练语音特征作为数据集进行聚类分析的,在数据集中,每条训练语音对应的语音特征即为一个数据对象,包括:针对训练语音进行分析确定聚类数目;在数据集中随机选择与聚类数目相等的数目的数据对象作为初始聚类中心;确定初始阈值;针对数据集中的数据对象计算数据对象到聚类中心的有效距离,并结合阈值寻找归属的初始聚类中心,得到数据分类;计算数据分类中每个数据簇的均值;更新每个数据簇的均值和阈值后继续对数据集中的数据对象进行计算与分类,直至更新次数达到预设次数或者数据分类的目标函数满足输出条件时,输出聚类分析结果。
上述技术方案通过K—均值聚类实现了对训练语音特征的聚类分析,而且具有较高的自适应性和稳定性,并且初始聚类中心是任意取的,对操作人员没有过多要求,而且通过更新次数达到预设次数或者所述数据分类的目标函数满足输出条件,利用双条件限制从而有效避免聚类分析无限更新,有效节省了时间,提高了聚类分析的效率,而且还能够在有限条件限制下输出较优的聚类分析结果。
本发明提供的一个实施例中,针对所述训练语音进行分析确定聚类数目时,根据所述训练语音的来源确定所述聚类数目;
所述阈值在更新时根据更新次数进行更新,而且更新后的阈值随着更新次数的增加逐渐变大。其中,阈值更新规则为:
其中,ε′表示更新后的阈值,ε表示更新前的阈值,t为更新次数。
上述技术方案在对训练语音进行分析确定聚类数目时,根据训练语音的来源确定聚类数目,而且阈值在更新时根据更新次数进行更新,而且更新后的阈值随着更新次数的增加逐渐变大。
上述技术方案通过根据训练语音的来源确定聚类数目使得最终聚类的数据簇与训练语音的来源有关,而且通过得到的更新后的阈值ε′作为新的阈值用于确定相应簇的上、下近似集,随着更新次数的增加,阈值会自适应更新调整下一次的聚类精度,提升数据集中的元素的划分的精细程度,提高对数据对象的聚类结果的精准,加快聚类分析过程的收敛速度。
本发明提供的一个实施例中,针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离时,采用欧式距离计算公式针对所述数据对象和所述聚类中心进行有效距离计算,而且在计算过程中参照维度进行计算。
上述技术方案在对数据集中的数据对象计算数据对象到聚类中心的有效距离时,采用欧式距离计算公式针对数据对象和聚类中心进行有效距离计算,而且在计算过程中参照维度进行计算,其中,有效距离计算的公式如下:
上述公式中,dik表示第i个数据对象与第k个聚类中心邻域的有效距离,xid表示第i个数据对象在d维度上的位置信息分量,ckd表示第k个聚类中心在d维度上的位置信息分量,L表示数据集的维度数,ωkdi表示第i个数据对象对第k个聚类中心在d维度上的重要程度,而且ωkdi的通过如下公式确定:
上述公式中,z表示聚类中数据对象的数据量,表示第k聚类中数据对象的均值,/>表示第k聚类中第p个数据对象的均值,/>表示第k聚类中数据对象的方差,/>表示第k聚类中第p个数据对象的方差,xid表示第i个数据对象在d维度上的数据分量,ckd表示第k个聚类中心在d维度上的数据分量,N表示数据对象在数据集中的数据量,Xi表示第i个数据对象的数据信息,Ck表示第k个聚类中心的数据信息。
上述技术方案采用欧式距离计算公式计算数据集中数据对象与初始聚类中心的距离时,引入ωkdi,考虑到了数据对象对不同聚类中心在不同维度上的重要程度,从而使得得到的数据集中数据对象与初始聚类中心的距离相较于传统距离计算公式得到的数据集中数据对象与初始聚类中心的距离更加准确。
本发明提供的一个实施例中,所述结合所述阈值寻找归属的所述初始聚类中心包括:根据所述阈值确定所述聚类中心的上下近似集;根据所述聚类中心的上下近似集针对所述有效距离进行判断,确定所述数据对象是否在所述聚类中心的阈值有效范围内,得到数据对象判断结果;根据所述数据对象判断结果得到数据分类。
上述技术方案在结合阈值寻找归属的初始聚类中心时,首先根据阈值确定聚类中心的上下近似集,然后根据聚类中心的上下近似集针对有效距离进行判断,确定数据对象是否在聚类中心的阈值有效范围内,得到数据对象判断结果;接着根据数据对象判断结果得到数据分类。
上述技术方案通过阈值和聚类中心的上下近似集判断数据对象是否在聚类中心的有效范围内,从而将在聚类中心的有小范围内的数据对象作为该聚类中心的数据簇,实现数据对象的聚类,使得数据分类更加集中。
本发明提供的一个实施例中,在更新每个数据簇的均值时,包括:在所述数据簇中确定一个基本集;将所述数据簇中聚类中心的上下近似集与所述数据簇确定的基本集进行比较,得到比较结果;根据比较结果针对所述数据簇采用不同的更新方式得到数据簇更新后的均值。
上述技术方案在更新每个数据簇的均值时,包括:在数据簇中确定一个基本集;将数据簇中聚类中心的上下近似集与数据簇确定的基本集进行比较,得到比较结果;根据比较结果针对数据簇采用不同的更新方式得到数据簇更新后的均值,其中均值通过如下公式进行计算:
上述公式中,mk表示第k个数据簇的均值,Ck 表示聚类后第k个数据簇的下逼近集合,表示聚类后第k个数据簇的上逼近集合,uk代表第k个数据簇的均值,Xi表示数据集中的第i个数据对象,φ为数据簇的一个基本集,/>表示/>
上述技术方案引入边界影响因子和下近似影响因子,得到基于密度加权的均值计算公式表示的质心的自适应程度,以满足迭代过程中上近似和下近似的变化,有效避免了位于数据稀疏区和密集区的数据对象对聚类结果的几乎没有影响的弊端,从而提高了算法的准确性。根据密度划分结果,计算上下近似权重,通过计算划分精确的边界区域,由于数据对象被错误分类的情况被降低,可以避免对固定经验权重的依赖。
本发明提供的一个实施例中,所述目标函数是针对聚类分析过程中当前数据分类状态的评价,在目标函数中,将数据对象与聚类中心在当前数据分类状态下的相似度结合所述当前数据分类状态中的第一权重值和第二权重值得到目标评价值,其中,所述第一权重值是所述当前数据分类状态下所述聚类中心对应的数据簇的权重,所述第二权重值时所述当前状态下数据对象在所述聚类中心对应的数据簇中的权重。
上述技术方案中的目标函数是针对聚类分析过程中当前数据分类状态的评价,在目标函数中,将数据对象与聚类中心在当前数据分类状态下的相似度结合当前数据分类状态中的第一权重值和第二权重值得到目标评价值,其中,第一权重值是当前数据分类状态下聚类中心对应的数据簇的权重,第二权重值时当前状态下数据对象在聚类中心对应的数据簇中的权重,其中,目标函数A的表示形式如下:
上述公式中,表示第t次更新中第k簇处罚因子,ωkdi表示更新时第k簇第i个数据对象在d维度中自身的权重,Xi表示第i个数据对象,/>表示第t次更新中的第k个聚类中心,α表示记忆因子,L代表维度总数,N代表数据集包含数据对象的数量,K代表聚类簇的数目,即聚类数目。
上述技术方案在最终的总函数中考虑到了更新过程中不同簇的权重占比差异,从而防止聚类过程中等同重要性分配导致的弊端,更新过程中在适应聚类中心变化的同时兼顾了聚类分析算法的整体稳定性。
如图3所示,本发明提供的一个实施例中,针对所述语音信息进行语音处理,包括:
S301、通过高通滤波器对采集输入的语音信息进行预加重处理,获得第一处理语音信息;
S302、针对所述第一处理语音信息进行分帧处理,将所述第一处理语音信息按照帧分割,获得第二处理语音信息;
S303、在所述第二处理语音信息中,针对每帧信息进行加窗处理,获得第三处理语音信息;
S304、针对所述第三处理语音信息通过傅里叶变换确定所述语音信息在图谱上的能量分析,得到语音信息帧的频谱,并根据所述语音信息帧的频谱得到语音信号的功率谱;
S305、采用三角带通滤波器对所述语音信号功率谱进行滤波处理,同时计算所述三角带通滤波器中每个滤波器组输出的对数能量,并针对所述对数能量经过变换得到所述语音信息的语音特征。
上述技术方案在针对语音信息进行语音处理,首先通过高通滤波器对采集输入的语音信息进行预加重处理,获得第一处理语音信息;然后,针对第一处理语音信息进行分帧处理,以帧为观测单元,将第一处理语音信息按照帧分割,而且在两相邻帧之间有一段重叠区域,重叠区域为相邻两帧之间差值的二分之一或三分之一,从而获得第二处理语音信息;接着,在第二处理语音信息中,针对每帧信息进行加窗处理,将第二处理语音信息与乘上汉明窗后,获得第三处理语音信息;然后再针对第三处理语音信息通过傅里叶变换确定语音信息在图谱上的能量分析,得到语音信息帧的频谱,并根据语音信息帧的频谱得到语音信号的功率谱;接着再采用三角带通滤波器对语音信号功率谱进行滤波处理,同时计算三角带通滤波器中每个滤波器组输出的对数能量,并针对对数能量经过变换得到语音信息的语音特征。
上述技术方案通过预加重处理提升采集输入的语音信息中高频部分,使得采集输入的语音信息的频谱变得平坦,通过分帧处理使得化整为零,提高处理的效率,而且两相邻帧之间有一段重叠区域能够有效避免相邻两帧的变化过大,提高语音特征的误差;而且通过傅里叶变换使得转换为频域上的能量分布,从而方便观察不同的能量分布,进而为语音特征的获取提供便捷。
本发明提供的一个实施例中,所述采集输入的语音信息时,通过多个语音采集装置进行语音采集,所述语音采集装置设置在不同的方位,且共同连接在一个控制管理装置上,输入语音信息时,所述语音采集装置分别在不同的方位上针对输入语音进行语音采集,得到不同方位上的语音信息,并将不同方位上的语音信息传输至所述控制管理装置,所述控制管理装置针对所述不同方位上的语音信息进行信息合并处理,如果存在相同的语音片段,则对所述相同的语音片段进行语音品质分析,将所述语音品质最好的语音片段留下来,得到采集输入的语音信息。
上述技术方案在采集输入的语音信息时,通过多个语音采集装置和控制管理装置获得输入的语音信息,语音采集装置设置在不同的方位上,当采集输入的语音信息时,语音采集装置分别在不同的方位上进行语音信息获取,得到不同方位上的语音信息,然后将得到的不同方位上的语音信息传输至控制管理装置,接着再在控制管理装置中对不同方位上的语音信息进行合并处理,将不同方位上的语音信息中相同的语音片段通过语音品质分析后,把语音品质最高的语音片段保留下来,将不同方位上的语音信息中不同的语音片段也保留下来,从而得到完整的采集输入的语音信息。
上述技术方案通过设置多个语音采集装置分布在不同方位上能够使得在采集输入语音信息时对语音进行全面信息采集,避免采集的语音信息缺少信息,从而提高语音分析的全面性,而且通过不同方位上的语音信息进行合并处理使得得到的语音信息中出现过多相同的语音片段,而且还能使得采集输入的语音信息的语音特征明显和全面,从而提高语音分析的准确性。
本发明提供的一个实施例中,将所述语音特征结合所述语音分析模型进行数据分析时,将所述语音特征与所述语音分析模型中的聚类分析结果量化计算,分析计算出所述语音特征与所述聚类分析结果中数据簇之间的相似差距,并根据所述相似差距结合预设判断条件确定所述语音信息的归属数据簇,当在所述聚类分析结果中确定出所述语音信息的归属数据簇时,确定所述语音信息对应的说话的人与所述归属数据簇对应的说话人是同一个人。
上述技术方案在将语音特征结合语音分析模型进行数据分析时,将语音特征与语音分析模型中的聚类分析结果量化计算,分析计算出语音特征与聚类分析结果中数据簇之间的相似差距,并根据相似差距结合预设判断条件确定语音信息的归属数据簇,如果在聚类分析结果中确定出语音信息的归属数据簇,那么确定语音信息对应的说话的人与归属数据簇对应的说话人是同一个人,其中,预设判断条件中预设了不同的语音特征参数对应的判断条件。
上述技术方案通过量化计算使得数据分析的过程能够更加直观的通过数据提现,而且根据相似差距结合预设判断条件确定语音信息的归属数据簇时,通过预设条件能够消除对语音特征中数据的要求,使得无论针对较长的语音还是较短的语音都能够进行语音分析,消除了对语音长度的要求,扩大了基于K—均值聚类分析的人工智能语音分析方法适用范围。
本领域技术人员应当理解的是,本发明中的第一、第二仅仅指的是不同应用阶段而已。
本领域技术客户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于K—均值聚类分析的人工智能语音分析方法,其特征在于,包括:
建立语音分析模型,获取训练语音,对所述训练语音进行语音处理,获得训练语音特征,并针对所述训练语音特征采用K—均值聚类分析通过聚类分析建立语音分析模型;
采集输入语音信息;
针对所述输入语音信息进行语音处理,获得语音特征;
将所述语音特征结合所述语音分析模型进行数据分析,获得所述语音特征与所述语音分析模型的分析数据;
根据所述分析数据得到所述语音信息的分析识别结果。
2.根据权利要求1所述的人工智能语音分析方法,其特征在于,建立语音分析模型时,将所述训练语音特征作为数据集进行聚类分析的,在数据集中,每条训练语音对应的语音特征即为一个数据对象,聚类分析的过程包括:针对所述训练语音进行分析确定聚类数目;在所述数据集中随机选择与所述聚类数目相等的数目的数据对象作为初始聚类中心;确定初始阈值;针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离,并结合所述阈值寻找归属的所述初始聚类中心,得到数据分类;计算所述数据分类中每个数据簇的均值;更新所述每个数据簇的均值和所述阈值后继续对数据集中的数据对象进行计算与分类,直至更新次数达到预设次数或者所述数据分类的目标函数满足输出条件时,输出聚类分析结果。
3.根据权利要求2所述的人工智能语音分析方法,其特征在于,针对所述训练语音进行分析确定聚类数目时,根据所述训练语音的来源确定所述聚类数目;
所述阈值在更新时根据更新次数进行更新,而且更新后的阈值随着更新次数的增加逐渐变大。
4.根据权利要求3所述的人工智能语音分析方法,其特征在于,针对所述数据集中的数据对象计算所述数据对象到所述聚类中心的有效距离时,采用欧式距离计算公式针对所述数据对象和所述聚类中心进行有效距离计算,而且在计算过程中参照维度进行计算。
5.根据权利要求4所述的人工智能语音分析方法,其特征在于,所述结合所述阈值寻找归属的所述初始聚类中心包括:根据所述阈值确定所述聚类中心的上下近似集;根据所述聚类中心的上下近似集针对所述有效距离进行判断,确定所述数据对象是否在所述聚类中心的阈值有效范围内,得到数据对象判断结果;根据所述数据对象判断结果得到数据分类。
6.根据权利要求5所述的人工智能语音分析方法,其特征在于,在更新每个数据簇的均值时,包括:在所述数据簇中确定一个基本集;将所述数据簇中聚类中心的上下近似集与所述数据簇确定的基本集进行比较,得到比较结果;根据比较结果针对所述数据簇采用不同的更新方式得到数据簇更新后的均值。
7.根据权利要求6所述的人工智能语音分析方法,其特征在于,所述目标函数是针对聚类分析过程中当前数据分类状态的评价,在目标函数中,将数据对象与聚类中心在当前数据分类状态下的相似度结合所述当前数据分类状态中的第一权重值和第二权重值得到目标评价值,其中,所述第一权重值是所述当前数据分类状态下所述聚类中心对应的数据簇的权重,所述第二权重值时所述当前状态下数据对象在所述聚类中心对应的数据簇中的权重。
8.根据权利要求1所述的人工智能语音分析方法,其特征在于,针对所述语音信息进行语音处理,包括:通过高通滤波器对采集输入的语音信息进行预加重处理,获得第一处理语音信息;针对所述第一处理语音信息进行分帧处理,将所述第一处理语音信息按照帧分割,获得第二处理语音信息;在所述第二处理语音信息中,针对每帧信息进行加窗处理,获得第三处理语音信息;针对所述第三处理语音信息通过傅里叶变换确定所述语音信息在图谱上的能量分析,得到语音信息帧的频谱,并根据所述语音信息帧的频谱得到语音信号的功率谱;采用三角带通滤波器对所述语音信号功率谱进行滤波处理,同时计算所述三角带通滤波器中每个滤波器组输出的对数能量,并针对所述对数能量经过变换得到所述语音信息的语音特征。
9.根据权利要求1所述的人工智能语音分析方法,其特征在于,所述采集输入的语音信息时,通过多个语音采集装置进行语音采集,所述语音采集装置设置在不同的方位,且共同连接在一个控制管理装置上,输入语音信息时,所述语音采集装置分别在不同的方位上针对输入语音进行语音采集,得到不同方位上的语音信息,并将不同方位上的语音信息传输至所述控制管理装置,所述控制管理装置针对所述不同方位上的语音信息进行信息合并处理,如果存在相同的语音片段,则对所述相同的语音片段进行语音品质分析,将所述语音品质最好的语音片段留下来,得到采集输入的语音信息。
10.根据权利要求1所述的人工智能语音分析方法,其特征在于,将所述语音特征结合所述语音分析模型进行数据分析时,将所述语音特征与所述语音分析模型中的聚类分析结果量化计算,分析计算出所述语音特征与所述聚类分析结果中数据簇之间的相似差距,并根据所述相似差距结合预设判断条件确定所述语音信息的归属数据簇,当在所述聚类分析结果中确定出所述语音信息的归属数据簇时,确定所述语音信息对应的说话的人与所述归属数据簇对应的说话人是同一个人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211512555.5A CN115862639A (zh) | 2022-11-28 | 2022-11-28 | 一种基于k—均值聚类分析的人工智能语音分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211512555.5A CN115862639A (zh) | 2022-11-28 | 2022-11-28 | 一种基于k—均值聚类分析的人工智能语音分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115862639A true CN115862639A (zh) | 2023-03-28 |
Family
ID=85667851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211512555.5A Pending CN115862639A (zh) | 2022-11-28 | 2022-11-28 | 一种基于k—均值聚类分析的人工智能语音分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115862639A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894319A (zh) * | 2024-03-14 | 2024-04-16 | 南京土星信息科技有限公司 | 基于机器学习数据生成的小样本声纹识别模型训练方法 |
-
2022
- 2022-11-28 CN CN202211512555.5A patent/CN115862639A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894319A (zh) * | 2024-03-14 | 2024-04-16 | 南京土星信息科技有限公司 | 基于机器学习数据生成的小样本声纹识别模型训练方法 |
CN117894319B (zh) * | 2024-03-14 | 2024-05-17 | 南京土星信息科技有限公司 | 基于机器学习数据生成的小样本声纹识别模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN104882144B (zh) | 基于声谱图双特征的动物声音识别方法 | |
CN112507996B (zh) | 一种主样本注意力机制的人脸检测方法 | |
CN110969191B (zh) | 基于相似性保持度量学习方法的青光眼患病概率预测方法 | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
WO1995034063A1 (en) | Method of partitioning a sequence of data frames | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测系统 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN104751186A (zh) | 一种基于bp网络和小波变换的虹膜图像质量分类方法 | |
Sun et al. | Dynamic time warping for speech recognition with training part to reduce the computation | |
CN115457966B (zh) | 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN115862639A (zh) | 一种基于k—均值聚类分析的人工智能语音分析方法 | |
CN116842460A (zh) | 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统 | |
CN105916090A (zh) | 一种基于智能化语音识别技术的助听器系统 | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
CN117727307B (zh) | 基于特征融合的鸟类声音智能识别方法 | |
CN117219088A (zh) | 一种复杂环境下生猪连续咳嗽声音识别方法 | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 | |
CN114384999A (zh) | 基于自适应学习的用户无关肌电手势识别系统 | |
CN111191510B (zh) | 基于关系网络的复杂场景下遥感图像小样本目标识别方法 | |
CN115273908B (zh) | 一种基于分类器融合的生猪咳嗽声音识别方法 | |
CN112244863A (zh) | 信号识别方法、信号识别装置、电子设备及可读存储介质 | |
CN113523904A (zh) | 一种刀具磨损检测方法 | |
CN110443276A (zh) | 基于深度卷积网络与灰度递归图分析的时间序列分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |