CN116959435A - 呼叫通话的语义识别方法、设备及存储介质 - Google Patents
呼叫通话的语义识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116959435A CN116959435A CN202311211350.8A CN202311211350A CN116959435A CN 116959435 A CN116959435 A CN 116959435A CN 202311211350 A CN202311211350 A CN 202311211350A CN 116959435 A CN116959435 A CN 116959435A
- Authority
- CN
- China
- Prior art keywords
- noise reduction
- preset
- voiceprint
- reduction audio
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000009467 reduction Effects 0.000 claims abstract description 104
- 239000012634 fragment Substances 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 230000008451 emotion Effects 0.000 claims abstract description 41
- 230000008909 emotion recognition Effects 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 102100032202 Cornulin Human genes 0.000 claims description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010020843 Hyperthermia Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036031 hyperthermia Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明涉及语音控制领域,公开了一种呼叫通话的语义识别方法、设备及存储介质。该方法包括:根据预处理分析,对语音数据降噪切割处理,生成降噪音频片段集;根据语音分析算法,对降噪音频片段集进行语义识别处理,生成预测结果集;根据情感分析算法,对降噪音频片段集进行情感识别处理,生成情感标签集;根据声纹分析算法,对降噪音频片段集进行声纹识别处理,生成声纹标签集;对预测结果集进行打标处理,生成标记结果集;对标记结果集进行分类组合处理,生成组合结果集;根据文本分析算法,对组合结果集进行筛选处理,得到目标识别结果。在本发明实施例中,解决了当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。
Description
技术领域
本发明涉及语音控制领域,尤其涉及一种呼叫通话的语义识别方法、设备及存储介质。
背景技术
目前电话呼叫系统的现状是总体是相对成熟的,电话呼叫已成为人们日常生活和商业活动中不可或缺的一部分。许多企业和组织都建立了庞大的电话呼叫系统,用于处理大量的呼叫流量,依赖电话呼叫与客户进行沟通、提供支持和解决问题。
在电话呼叫系统中,语音分析呼叫系统起着越来越重要的作用。它可以帮助企业自动化处理电话呼叫,提高工作效率和客户满意度。同时,语音呼叫分析系统还可以提供有关呼叫内容和客户反馈的有用信息,帮助企业改进产品和服务,优化业务流程。
但是由于呼叫通话是双方行为,声音来源存在至少是两方及以上,因此,单纯的识别语音内容后进行情感分析和语义理解对于区分客户立场、了解真实客户意图是存在障碍的,系统使用方仍然需要逐个点开个录音文件,听取录音,根据声音来源来分析通话内容。因此,针对当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题,需要一种新的技术来解决当前问题。
发明内容
本发明的主要目的在于解决当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。
本发明第一方面提供了一种呼叫通话的语义识别方法,包括步骤:
接收语音数据;
根据预置预处理分析,对所述语音数据降噪切割处理,生成降噪音频片段集;
根据预置语音分析算法,对所述降噪音频片段集进行语音识别处理,生成预测结果集;
根据预置情感分析算法,对所述降噪音频片段集进行情感识别处理,生成情感标签集;
根据预置声纹分析算法,对所述降噪音频片段集进行声纹识别处理,生成声纹标签集;
基于所述情感标签集与所述声纹标签集,对所述预测结果集进行打标处理,生成标记结果集;
利用所述声纹标签集的种类,对所述标记结果集进行分类组合处理,生成组合结果集;
根据预置文本分析算法,对所述组合结果集进行筛选处理,得到目标识别结果。
可选的,在本发明第一方面的第一种实现方式中,所述根据预置预处理分析,对所述语音数据降噪切割处理,生成降噪音频片段集包括:
基于预置傅里叶变换,对所述语音数据进行频域转换处理,生成频域语音数据;
根据预置谱减算法,对所述频域语音数据进行降噪处理,生成频域降噪语音数据;
基于预置傅里叶逆变换,对所述频域降噪语音数据进行逆转换处理,得到降噪音频;
根据预置切片算法,对所述降噪音频进行切割处理,生成降噪音频片段集。
可选的,在本发明第一方面的第二种实现方式中,所述根据预置谱减算法,对所述频域语音数据进行降噪处理,生成频域降噪语音数据包括:
对所述频域语音数据进行复数绝对值平方处理,得到频域语音数据对应的语音功率谱;
根据预置谱减公式和预置噪声功率谱,对所述语音功率谱进行谱减处理,生成纯净功率谱;
对所述纯净功率谱进行滤波运算处理,生成频域降噪语音数据。
可选的,在本发明第一方面的第三种实现方式中,所述根据预置语音分析算法,对所述降噪音频片段集进行语音识别处理,生成预测结果集包括:
基于预置RNN-text神经网络,对所述降噪音频片段集的每个元素逐一进行语音识别处理,组合生成预测结果集。
可选的,在本发明第一方面的第四种实现方式中,所述根据预置情感分析算法,对所述降噪音频片段集进行情感识别处理,生成情感标签集包括:
基于预置LSTM神经网络,对所述降噪音频片段集的每个元素逐一进行情感识别处理,组合生成情感标签集。
可选的,在本发明第一方面的第五种实现方式中,所述基于所述情感标签集与所述声纹标签集,对所述预测结果集进行打标处理,生成标记结果集包括:
读取所述情感标签集与所述降噪音频片段集的第一映射关系,读取所述声纹标签集与所述降噪音频片段集的第二映射关系,读取所述预测结果集与所述降噪音频片段集的第三映射关系;
基于所述第一映射关系、所述第二映射关系、所述第三映射关系,将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上,生成标记结果集。
可选的,在本发明第一方面的第六种实现方式中,所述根据预置声纹分析算法,对所述降噪音频片段集进行声纹识别处理,生成声纹标签集包括:
基于预置时延神经网络,对所述降噪音频片段集的每个元素逐一进行声纹识别处理,组合生成声纹标签集。
可选的,在本发明第一方面的第七种实现方式中,所述根据预置文本分析算法,对所述组合结果集进行筛选处理,得到目标识别结果包括:
基于预置CRNN神经网络,对所述组合结果集的每个元素进行语义分析处理,得到带有目标特征的组合结果;
将所述带有目标特征的组合结果确认为目标识别结果。
本发明第二方面提供了一种呼叫通话的语义识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述呼叫通话的语义识别设备执行上述的呼叫通话的语义识别方法。
本发明的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的呼叫通话的语义识别方法。
在本发明实施例中,对通话语音数据进行先进行降噪拆分,然后对每个片段进行语义、情感、声纹分析,然后基于情感、声纹标签对每个拆分的语义进行标记,基于声纹标签进行分类组合,生成组合结果。最后,对组合结果进行情感和语义的识别和筛选,实现对目标对象的语音结果筛选,实现了追溯呼叫通话中一个声源的语义文本生成,解决了当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。
附图说明
图1为本发明实施例中呼叫通话的语义识别方法的第一个实施例示意图;
图2为本发明实施例中呼叫通话的语义识别方法的102步骤的一个实施例示意图;
图3为本发明实施例中呼叫通话的语义识别方法的1022步骤的一个实施例示意图;
图4为本发明实施例中呼叫通话的语义识别方法的106步骤的一个实施例示意图;
图5为本发明实施例中呼叫通话的语义识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种呼叫通话的语义识别方法、设备及存储介质。
下面将参照附图更详细地描述本发明公开的实施例。虽然附图中显示了本发明公开的某些实施例,然而应当理解的是,本发明公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本发明公开的附图及实施例仅用于示例性作用,并非用于限制本发明公开的保护范围。
在本发明公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中呼叫通话的语义识别方法的一个实施例包括:
101、接收语音数据;
102、根据预置预处理分析,对所述语音数据降噪切割处理,生成降噪音频片段集;
在101-102步骤中,语音数据可以是一段通话录音,包含多个声音来源的数据,不同声音来源的音频数据。
对通话语音数据先进行降噪处理,降噪方法可以使用LMS算法或者是窗口滤波降噪等方式进行降噪处理,得到降噪音频。然后对降噪音频基于时域的波峰变化进行切割处理,将降噪音频切割成多个片段,按照原有时序排序,生成降噪音频片段集。
进一步的,请参阅图2,图2为本发明实施例中呼叫通话的语义识别方法的102步骤的一个实施例,在102步骤中包含以下步骤:
1021、基于预置傅里叶变换,对所述语音数据进行频域转换处理,生成频域语音数据;
1022、根据预置谱减算法,对所述频域语音数据进行降噪处理,生成频域降噪语音数据;
1023、基于预置傅里叶逆变换,对所述频域降噪语音数据进行逆转换处理,得到降噪音频;
1024、根据预置切片算法,对所述降噪音频进行切割处理,生成降噪音频片段集。
在1021-1024步骤中,语音数据F先进行傅里叶变换,得到频域语音数据F1(W),W为数据采样率一般为1-256。利用谱减法,对语音数据进行谱减处理,谱减法是一种对频域数据进行降噪的方法,得到频域降噪语音数据F2(W)。再使用傅里叶逆变换,对频域降噪语音数据F2(W)转换回时域,得到降噪音频。最后再基于降噪音频的时域波峰变化进行切割处理,将降噪音频切割成多个片段,按照原有时序排序,生成降噪音频片段集。
进一步的,请参阅图3,图3为本发明实施例中呼叫通话的语义识别方法的1022步骤的一个实施例,在1022步骤中包含以下步骤:
10221、对所述频域语音数据进行复数绝对值平方处理,得到频域语音数据对应的语音功率谱;
10222、根据预置谱减公式和预置噪声功率谱,对所述语音功率谱进行谱减处理,生成纯净功率谱;
10223、对所述纯净功率谱进行滤波运算处理,生成频域降噪语音数据。
在10221-10223步骤中,频域语音数据对应的语音功率谱的计算过程可以使用该方程表示:P1(W)=|F1(W)|2,其中P1(W)为域语音数据对应的语音功率谱,F1(W)为频域语音数据。
谱减公式可以执行以下方式:
其中,a、b、c为常数,P1频域语音数据对应的语音功率谱,P2为预置噪声功率谱,P3为纯净功率谱。
最后,采用该滤波方式生成频域降噪语音数据,具体滤波方式如下:
其中,P3为纯净功率谱,P2为预置噪声功率谱,F1为频域语音数据,F2为频域降噪语音数据。
103、根据预置语音分析算法,对所述降噪音频片段集进行语音识别处理,生成预测结果集;
在本实施例中,语音分析算法主要采用神经网络,对降噪音频片段集每个片段进行语音识别,识别的多个字段按照原有音频排序,生成预测结果集。
具体的,在103步骤中可以执行以下步骤:
1031、基于预置RNN-text神经网络,对所述降噪音频片段集的每个元素逐一进行语音识别处理,组合生成预测结果集。
在1031步骤中,语音分析过程使用较为成熟RNN-text神经网络,将所述降噪音频片段集的每个元素逐一进行语音识别为文本数据,按照原有音频排序生成预测结果集。
104、根据预置情感分析算法,对所述降噪音频片段集进行情感识别处理,生成情感标签集;
在本实施例中,情感分析过程中主要对降噪音频片段的进行语音的情感识别,对每个降噪音频的片段识别出情感如:高亢、平静、失落等标签,标签排序按照降噪音频的顺序排列,生成情感标签集。
具体的,在104步骤中可以执行以下步骤:
1041、基于预置LSTM神经网络,对所述降噪音频片段集的每个元素逐一进行情感识别处理,组合生成情感标签集。
在1031步骤中,情感识别的处理上,使用LSTM神经网络对每个降噪音频片段逐一识别,然后将识别的情感标签按照降噪音频的顺序排列,生成情感标签集。
105、根据预置声纹分析算法,对所述降噪音频片段集进行声纹识别处理,生成声纹标签集;
在本实施例中,声纹识别主要是为了针对每个降噪音频片段的声音来源,对每个降噪音频片段的进行声纹识别后,得到一个标签,将所有标签按照降噪音频的顺序排列,生成声纹标签集。
具体的,在105步骤中可以执行以下步骤:
1051、基于预置时延神经网络,对所述降噪音频片段集的每个元素逐一进行声纹识别处理,组合生成声纹标签集。
在本实施例中,时延神经网络(time delay neural network,tdnn)是在声纹识别中较为成熟的方案,以tdnn的倒数第一层或第二层隐藏层作为声纹特征输出,输出特征向量x-vector,基于该向量进行聚类分类,生成多个声纹标签,组合生成声纹标签集。
106、基于所述情感标签集与所述声纹标签集,对所述预测结果集进行打标处理,生成标记结果集;
在本实施例中,声纹标签集按照对应降噪音频片段集顺序对预测结果集进行打标,情感标签集按照对应应降噪音频片段集顺序对预测结果集进行打标,打标两次后生成标记结果集。
进一步的,请参阅图4,图4为本发明实施例中呼叫通话的语义识别方法的106步骤的一个实施例,在106步骤中可以执行以下步骤:
1061、读取所述情感标签集与所述降噪音频片段集的第一映射关系,读取所述声纹标签集与所述降噪音频片段集的第二映射关系,读取所述预测结果集与所述降噪音频片段集的第三映射关系;
1062、基于所述第一映射关系、所述第二映射关系、所述第三映射关系,将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上,生成标记结果集。
在1061-1062步骤中,情感标签集、降噪音频片段集、声纹标签集、预测结果集的并没有顺序对应关系,而是映射关系。由此读取情感标签集与降噪音频片段集的第一映射关系,读取声纹标签集与降噪音频片段集的第二映射关系,读取预测结果集与降噪音频片段集的第三映射关系。第一、二、三映射关系的基础为降噪音频片段集,因此基于降噪音频片段集的映射对象,对预测结果集的每个元素进行打标,由此生成标记结果集。
107、利用所述声纹标签集的种类,对所述标记结果集进行分类组合处理,生成组合结果集;
在本实施例中,将同类的声纹标签打标的标记结果,按照降噪音频片段集的先后顺序组合,生成各类声纹标签组合的数据,也即是组合结果集。
108、根据预置文本分析算法,对所述组合结果集进行筛选处理,得到目标识别结果。
在本实施例中,目标为识别客户的文本,根据预置文本分析算法,对组合结果集中每个组合结果的文本数据进行文本语义识别,从中筛选出组合结果集的客户语音对应文本数据,也即是目标识别结果。
进一步的,在108步骤中可以执行以下步骤:
1081、基于预置CRNN神经网络,对所述组合结果集的每个元素进行语义分析处理,得到带有目标特征的组合结果;
1082、将所述带有目标特征的组合结果确认为目标识别结果。
在本实施例中,文本的语义识别可以使用CRNN神经网络,按照全连接层将组合结果集进行特征识别,从中找到带有客户特征的组合结果,并将带有客户特征的组合结果作为目标识别结果进行输出。实际上也可以将客服作为目标特征进行特征识别,得到带有客服特征的组合结果,也即是目标识别结果。
在本发明实施例中,对通话语音数据进行先进行降噪拆分,然后对每个片段进行语义、情感、声纹分析,然后基于情感、声纹标签对每个拆分的语义进行标记,基于声纹标签进行分类组合,生成组合结果。最后,对组合结果进行情感和语义的识别和筛选,实现对目标对象的语音结果筛选,实现了追溯呼叫通话中一个声源的语义文本生成,解决了当前的呼叫通话语音的无法有效准确的识别来源和内容的技术问题。
图5是本发明实施例提供的一种呼叫通话的语义识别设备的结构示意图,该呼叫通话的语义识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对呼叫通话的语义识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在呼叫通话的语义识别设备500上执行存储介质530中的一系列指令操作。
基于呼叫通话的语义识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,Free BSD等等。本领域技术人员可以理解,图5示出的呼叫通话的语义识别设备结构并不构成对基于呼叫通话的语义识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述呼叫通话的语义识别方法的步骤。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (10)
1.一种呼叫通话的语义识别方法,其特征在于,包括步骤:
接收语音数据;
根据预置预处理分析,对所述语音数据降噪切割处理,生成降噪音频片段集;
根据预置语音分析算法,对所述降噪音频片段集进行语音识别处理,生成预测结果集;
根据预置情感分析算法,对所述降噪音频片段集进行情感识别处理,生成情感标签集;
根据预置声纹分析算法,对所述降噪音频片段集进行声纹识别处理,生成声纹标签集;
基于所述情感标签集与所述声纹标签集,对所述预测结果集进行打标处理,生成标记结果集;
利用所述声纹标签集的种类,对所述标记结果集进行分类组合处理,生成组合结果集;
根据预置文本分析算法,对所述组合结果集进行筛选处理,得到目标识别结果。
2.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述根据预置预处理分析,对所述语音数据降噪切割处理,生成降噪音频片段集包括:
基于预置傅里叶变换,对所述语音数据进行频域转换处理,生成频域语音数据;
根据预置谱减算法,对所述频域语音数据进行降噪处理,生成频域降噪语音数据;
基于预置傅里叶逆变换,对所述频域降噪语音数据进行逆转换处理,得到降噪音频;
根据预置切片算法,对所述降噪音频进行切割处理,生成降噪音频片段集。
3.根据权利要求2所述的呼叫通话的语义识别方法,其特征在于,所述根据预置谱减算法,对所述频域语音数据进行降噪处理,生成频域降噪语音数据包括:
对所述频域语音数据进行复数绝对值平方处理,得到频域语音数据对应的语音功率谱;
根据预置谱减公式和预置噪声功率谱,对所述语音功率谱进行谱减处理,生成纯净功率谱;
对所述纯净功率谱进行滤波运算处理,生成频域降噪语音数据。
4.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述根据预置语音分析算法,对所述降噪音频片段集进行语音识别处理,生成预测结果集包括:
基于预置RNN-text神经网络,对所述降噪音频片段集的每个元素逐一进行语音识别处理,组合生成预测结果集。
5.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述根据预置情感分析算法,对所述降噪音频片段集进行情感识别处理,生成情感标签集包括:
基于预置LSTM神经网络,对所述降噪音频片段集的每个元素逐一进行情感识别处理,组合生成情感标签集。
6.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述基于所述情感标签集与所述声纹标签集,对所述预测结果集进行打标处理,生成标记结果集包括:
读取所述情感标签集与所述降噪音频片段集的第一映射关系,读取所述声纹标签集与所述降噪音频片段集的第二映射关系,读取所述预测结果集与所述降噪音频片段集的第三映射关系;
基于所述第一映射关系、所述第二映射关系、所述第三映射关系,将所述情感标签集的元素、所述声纹标签集的元素标记于所述预测结果集的元素上,生成标记结果集。
7.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述根据预置声纹分析算法,对所述降噪音频片段集进行声纹识别处理,生成声纹标签集包括:
基于预置时延神经网络,对所述降噪音频片段集的每个元素逐一进行声纹识别处理,组合生成声纹标签集。
8.根据权利要求1所述的呼叫通话的语义识别方法,其特征在于,所述根据预置文本分析算法,对所述组合结果集进行筛选处理,得到目标识别结果包括:
基于预置CRNN神经网络,对所述组合结果集的每个元素进行语义分析处理,得到带有目标特征的组合结果;
将所述带有目标特征的组合结果确认为目标识别结果。
9.一种呼叫通话的语义识别设备,其特征在于,所述呼叫通话的语义识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述呼叫通话的语义识别设备执行如权利要求1-8中任一项所述的呼叫通话的语义识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的呼叫通话的语义识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211350.8A CN116959435B (zh) | 2023-09-20 | 2023-09-20 | 呼叫通话的语义识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311211350.8A CN116959435B (zh) | 2023-09-20 | 2023-09-20 | 呼叫通话的语义识别方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116959435A true CN116959435A (zh) | 2023-10-27 |
CN116959435B CN116959435B (zh) | 2023-12-08 |
Family
ID=88458655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311211350.8A Active CN116959435B (zh) | 2023-09-20 | 2023-09-20 | 呼叫通话的语义识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959435B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137109A1 (en) * | 2016-11-11 | 2018-05-17 | The Charles Stark Draper Laboratory, Inc. | Methodology for automatic multilingual speech recognition |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN114937447A (zh) * | 2022-06-09 | 2022-08-23 | 深圳市大头兄弟科技有限公司 | 带情感的音频生成方法、装置、设备及存储介质 |
CN116665676A (zh) * | 2023-07-31 | 2023-08-29 | 枣庄福缘网络科技有限公司 | 一种用于智能语音外呼系统的语义识别方法 |
-
2023
- 2023-09-20 CN CN202311211350.8A patent/CN116959435B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137109A1 (en) * | 2016-11-11 | 2018-05-17 | The Charles Stark Draper Laboratory, Inc. | Methodology for automatic multilingual speech recognition |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN114937447A (zh) * | 2022-06-09 | 2022-08-23 | 深圳市大头兄弟科技有限公司 | 带情感的音频生成方法、装置、设备及存储介质 |
CN116665676A (zh) * | 2023-07-31 | 2023-08-29 | 枣庄福缘网络科技有限公司 | 一种用于智能语音外呼系统的语义识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116959435B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8417524B2 (en) | Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN107154257B (zh) | 基于客户语音情感的客服服务质量评价方法及系统 | |
US11017775B1 (en) | Systems and methods to utilize text representations of conversations | |
CN111091835B (zh) | 模型训练的方法、声纹识别的方法、系统、设备及介质 | |
CN111312219A (zh) | 电话录音标注方法、系统、存储介质和电子设备 | |
US11688412B2 (en) | Multi-modal framework for multi-channel target speech separation | |
CN113257283B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
WO2022142031A1 (zh) | 无效通话判断方法、装置、计算机设备及存储介质 | |
CN107680584B (zh) | 用于切分音频的方法和装置 | |
CN113627547B (zh) | 训练方法、电弧检测方法、装置、电子设备及存储介质 | |
CN116959435B (zh) | 呼叫通话的语义识别方法、设备及存储介质 | |
CN112087726B (zh) | 彩铃识别的方法及系统、电子设备及存储介质 | |
US20180342235A1 (en) | System and method for segmenting audio files for transcription | |
CN111949777A (zh) | 一种基于人群分类的智能语音对话方法、装置及电子设备 | |
Felipe et al. | Acoustic scene classification using spectrograms | |
CN111049997B (zh) | 电话背景音乐检测模型方法、系统、设备及介质 | |
WO2012068705A1 (en) | Analysis system and method for audio data | |
CN112711654B (zh) | 语音机器人的汉字解释话术生成方法、系统、设备及介质 | |
KR101066228B1 (ko) | 감성 분류 시스템 및 그 방법 | |
CN113516995B (zh) | 声音处理方法和装置 | |
CN116862530B (zh) | 一种智能售后服务方法和系统 | |
US11521623B2 (en) | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording | |
US20240127790A1 (en) | Systems and methods for reconstructing voice packets using natural language generation during signal loss | |
JP5777568B2 (ja) | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |