CN117198290A - 一种基于声控的多模式led智能控制的方法及装置 - Google Patents
一种基于声控的多模式led智能控制的方法及装置 Download PDFInfo
- Publication number
- CN117198290A CN117198290A CN202311462054.5A CN202311462054A CN117198290A CN 117198290 A CN117198290 A CN 117198290A CN 202311462054 A CN202311462054 A CN 202311462054A CN 117198290 A CN117198290 A CN 117198290A
- Authority
- CN
- China
- Prior art keywords
- text
- mode
- voice
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000010586 diagram Methods 0.000 claims abstract description 45
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000002087 whitening effect Effects 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 57
- 238000001228 spectrum Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 42
- 230000000694 effects Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02B—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
- Y02B20/00—Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
- Y02B20/40—Control techniques providing energy savings, e.g. smart controller or presence detection
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及人工智能技术领域,揭露了一种基于声控的多模式LED智能控制的方法及装置,所述方法包括:对多模式LED接收到的语音信号进行噪声白化以及信号重构,得到增强语音信号;对增强语音信号进行卷积上采样及线性变换,得到卷积向量,对卷积向量进行向量编码,得到编码特征;识别编码特征对应的语音文本,构建语音文本的词语节点图;根据词语节点图计算特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;根据模式相似度确定控制模式,从而根据控制模式对多模式LED进行显示校正,得到多模式LED的目标显示模式。本发明可以提高多模式LED的控制效率以及准确度。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于声控的多模式LED智能控制的方法及装置。
背景技术
随着电子技术的发展,人们从外部获取信息的途径也在逐步增多,获取信息逐渐从原先的书报形式过渡到各种各样的显示设备,其中大尺寸显示屏也成为公众场合不可或缺的显示方式,由于具有发光稳定和低功耗等优点,LED(Light Emitting Diode,发光二极管)显示屏得到迅速发展,第四代光源 LED具有低能耗、寿命长、绿色环保、高光效等优点,被广泛应用于照明领域,近些年来,LED 超越照明技术和应用成为行业内的研究热点,预计未来 LED 超越照明的应用将在应用市场占有超过20%份额。
为了使显示屏达到人眼最舒服的显示效果,越来越多的学者在这方面投入了大量的时间和精力,目前对LED进行智能控制的方法主要包括通过分段伽马变换的 LED 显示屏控制系统,在低灰度、中灰度、高灰度严格按照固定曲线的基础上,该设计实现不同的伽马校正,确保各个灰度等级保持一致性,以对LED显示进行智能控制,或根据曝光程度自适应地获取矫正参数,在特定光源的弱光或非均匀强光下有效恢复彩色条码图像的真实颜色。但现有的LED智能控制主要都是通过对LED显示屏上待显示的图像进行校正,以对LED的显示进行智能控制,存在滞后性,导致对多模式LED的控制效率以及准确度较差。
发明内容
本发明提供一种基于声控的多模式LED智能控制的方法及装置,其主要目的在于解决多模式LED的控制效率以及准确度较差的问题。
为实现上述目的,本发明提供的一种基于声控的多模式LED智能控制的方法,包括:
获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号;
对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征;
根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图;
根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;
根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
可选地,所述对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,包括:
获取预设阶数的滤波器,根据所述滤波器对所述语音信号进行滤波,得到所述语音信号的白化语音信号;
利用如下所示的公式对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号:其中,/>所述表示所述语音信号在/>处的白化语音信号,/>表示预设的滤波阶数为/>的滤波器在滤波阶数为/>时的滤波系数,/>表示语音信号在/>帧时的语音信号值。
可选地,所述对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号,包括:
提取所述白化语音信号的信号幅度谱,计算所述信号幅度谱的信噪比估计值;
根据所述信噪比估计值构建幅度增益函数及相位补偿函数,将所述幅度增益函数的函数值与所述信号幅度谱相乘,得到所述白化语音信号的增强语音频谱;
所述幅度增益函数如下式所示:其中,/>表示幅度增益函数,表示在第/>帧中第/>个频点的信噪比估计值;
所述相位补偿函数如下式所示: 表示相位补偿函数,/>表示白化语音信号在第/>帧中第/>个频点的频度,/>表示预设的补偿因子,/>表示白化语音信号在第/>帧中第/>个频点的噪声幅度,/>表示第/>帧中频点的总数;
根据所述相位补偿函数计算所述增强语音频谱的增益相位,将所述增益相位与所述增强语音频谱的幅度谱相乘,得到相位增强语音频谱;
对所述相位增强语音频谱进行傅里叶逆变换,得到所述语音信号的增强语音信号。
可选地,所述对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,包括:
将所述增强语音信号转化为二维矩阵,对所述二维矩阵进行第一卷积及特征激活,得到所述增强语音信号的第一卷积特征;
对所述第一卷积特征进行上采样及第二卷积,得到所述增强语音信号的卷积上采样特征;
对所述卷积上采样特征进行对数函数激活及全连接,得到所述增强语音信号的卷积向量。
可选地,所述对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征,包括:
利用预构建的第一前馈神经网络对所述卷积向量进行计算,得到第一前馈特征;
将所述第一前馈特征与所述卷积向量进行向量拼接,得到第一拼接向量,对所述第一拼接向量进行注意力计算,得到注意力特征;
对所述注意力特征进行卷积计算,得到注意力卷积特征,将所述注意力卷积特征与所述注意力特征进行向量拼接,得到第二拼接向量;
利用预构建的第二前馈神经网络对所述第二拼接向量进行计算,得到第二前馈特征,将所述第二前馈特征与所述第二拼接向量进行向量拼接,得到所述增强语音信号的编码特征。
可选地,所述提取所述语音文本中的语法词语对,包括:
对所述语音文本进行文本分词及去停用词处理,得到所述语音文本的文本分词;
对所述文本分析进行词性标注,得到所述文本分词的分词词性;
根据所述分词词性对所述文本分词进行依存语法分析,得到所述语音文本中的语法词语对。
可选地,所述根据所述词语节点图计算所述语音文本中的特征文本词,包括:
计算所述词语节点图中每个词语节点的节点强度及节点中心度,根据所述节点强度及所述节点中心度确定每个所述词语节点的特征值;
利用如下公式计算所述词语节点图中每个词语节点的节点中心度:其中,/>表示所述词语节点图中第/>个词语节点的节点中心度,/>表示所述词语节点图中第/>个词语节点与第/>个词语节点之间的欧式距离,/>表示所述所述词语节点图中词语节点的总数,/>表示所述第/>个词语节点与第/>个词语节点之间的预设权重;
根据所述特征值从所述词语节点图中选取预设数量的词语节点作为所述语音文本中的特征文本词。
可选地,所述根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度,包括:
对所述LED模式文本进行分词,得到所述LED模式文本的模式分词,将所述模式分词与所述特征文本词转化为分词向量,得到所述模式分词的模式分词向量以及所述特征文本词的特征文本向量;
分别计算每个所述特征文本向量与每个所述模式分词向量之间的向量距离,根据所述向量距离构建所述特征文本词与所述LED模式文本之间的距离矩阵;
根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述语音文本与所述LED模式文本之间的模式相似度。
可选地,所述根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述特征文本词与所述模式文本之间的模式相似度,包括:
利用如下公式计算所述所述特征文本词与所述模式文本之间的模式相似度:其中,/>表示语音文本/>与LED模式文本/>之间的模式相似度,/>、/>分别表示语音文本/>中第/>个特征文本向量的转置向量、LED模式文本中第/>个模式分词向量的转置向量,/>表示语音文本/>的特征文本词与LED模式文本/>之间的距离矩阵,/>、/>分别表示语音文本/>中特征文本向量之间的距离矩阵以及LED模式文本/>中模式分词向量之间的距离矩阵。
为了解决上述问题,本发明还提供一种基于声控的多模式LED智能控制的装置,所述装置包括:
语音信号增强模块,用于获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号;
编码特征提取模块,用于对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征;
词语节点图构建模块,用于根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图;
模式相似度计算模块,用于根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;
显示校正模块,用于根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
本发明实施例通过对接收到的语音信号进行噪声白化使得语音信号中的噪声保证较低的低秩性,提高后续语音信号增强的效果;对白化语音信号进行重构能够对语音信号的幅度信息以及相位信息进行补偿,使得谐波结构恢复,得到增强效果更优的增强语音信号;提取增强语音信号的编码特征,增加特征提取的全面性;根据编码特征识别语音文本,并根据语音文本的语法词语对构建词语节点图,能够在保留了语音文本原始文本信息的基础上将文本信息可视化;再根据词语节点图计算语音文本与预设的LED模式文本之间的模式相似度,能够从语义距离以及句法依存关系等多维度计算模式相似度,避免单一维度造成的计算偏差,提高模式相似度的计算精确度,从而根据模式相似度确定多模式LED对应的控制模式,以对多模式LED进行及时准确地显示校正,从而提高多模式LED的控制效率及准确度。因此本发明提出的基于声控的多模式LED智能控制的方法及装置,可以解决多模式LED的控制效率以及准确度较差的问题。
附图说明
图1为本发明一实施例提供的基于声控的多模式LED智能控制的方法的流程示意图;
图2为本发明一实施例提供的对白化语音信号进行信号重构的流程示意图;
图3为本发明一实施例提供的计算模式相似度的流程示意图;
图4为本发明一实施例提供的基于声控的多模式LED智能控制的装置的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于声控的多模式LED智能控制的方法。所述基于声控的多模式LED智能控制的方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于声控的多模式LED智能控制的方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于声控的多模式LED智能控制的方法的流程示意图。在本实施例中,所述基于声控的多模式LED智能控制的方法包括:
S1、获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号。
本发明实施例中,多模式LED是具有多种显示模式的LED显示装置或系统,其中,多模式LED可以通过语音对LED进行模式的控制,例如,亮度模式的控制,白光灯亮模式、黄光灯亮模式、白光灯与黄光灯同时亮模式、预设的晚餐模式、阅读模式以及观影模式等。具体地,可以在获取到预设的目标语音信号后,开始接受语音信号以对多模式LED进行控制。
本发明实施例中,语音信号的白噪声是近乎平坦的,但色噪声的能量分布不均匀,难以保证较低的低秩性,使得对语音信号增强的效果较差,因此,需要将语音信号中的噪声进行噪声白化,提高后续语音信号增强的效果。
本发明实施例中,所述对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,包括:
获取预设阶数的滤波器,根据所述滤波器对所述语音信号进行滤波,得到所述语音信号的白化语音信号。
所述根据所述滤波器对所述语音信号进行滤波,得到所述语音信号的白化语音信号,包括:
利用如下所示的公式对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号:其中,/>所述表示所述语音信号在/>处的白化语音信号,/>表示预设的滤波阶数为/>的滤波器在滤波阶数为/>时的滤波系数,/>表示语音信号在/>帧时的语音信号值。
本发明实施例中,滤波器可以是基于线性预测的有限长单位冲激响应(FiniteImpulse Response,FIR)滤波器对语音学信号进行滤波,通过FIR滤波器能够有效地保留语音信号的相位信息,从而提高后续语音信号增强的效果。
本发明实施例中,参阅图2所示,所述对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号,包括:
S21、提取所述白化语音信号的信号幅度谱,计算所述信号幅度谱的信噪比估计值;
S22、根据所述信噪比估计值构建幅度增益函数及相位补偿函数,将所述幅度增益函数的函数值与所述信号幅度谱相乘,得到所述白化语音信号的增强语音频谱;
S23、根据所述相位补偿函数计算所述增强语音频谱的增益相位,将所述增益相位与所述增强语音频谱的幅度谱相乘,得到相位增强语音频谱;
S24、对所述相位增强语音频谱进行傅里叶逆变换,得到所述语音信号的增强语音信号。
本发明实施例中,通过傅里叶变换将白化语音信号转化到频率域,对频率域的白化语音信号进行取模操作,得到信号幅度谱,计算信号幅度谱的信噪比估计值,具体地,可以通过预训练完成的信噪比估计神经网络对信号幅度谱的信噪比进行估计,例如,信噪比估计神经网络中可以包括一个归一化层以及整流线性单元 (ReLU)激活函数的全连接层,全连接层后面跟多层残差结构,每层残差结构包含3个一维因果膨胀卷积层,每个卷积层通过层归一化和 ReLU 激活函数进行预激活,最后利用包含sigmoid激活函数的全连接层对信噪比估计值进行输出,得到信号幅度谱的信噪比估计值。
本发明实施例中,所述根据所述信噪比估计值构建幅度增益函数及相位补偿函数,包括:
所述幅度增益函数如下式所示:
所述幅度增益函数如下式所示:其中,/>表示幅度增益函数,表示在第/>帧中第/>个频点的信噪比估计值;
所述相位补偿函数如下式所示: 表示相位补偿函数,/>表示白化语音信号在第/>帧中第/>个频点的频度,/>表示预设的补偿因子,/>表示白化语音信号在第/>帧中第/>个频点的噪声幅度,/>表示第/>帧中频点的总数。
本发明实施例中,通过幅度增益函数计算对白化语音信号的频谱进行增强,通过相位补偿函数对白化语音信号的相位进行补偿,能够很好地反应噪声能量的变化情况,以提高语音信号重构的精确度。具体地,需要对白化语音信号进行噪声估计,得到噪声幅度谱,例如,通过直方图噪声估计法、最小值噪声估计法等方法估计得到白化语音信号的噪声频谱,从而对噪声频谱取模得到噪声幅度谱。
本发明实施例中,通过对白化语音信号进行重构能够对语音信号的幅度信息以及相位信息进行补偿,从而恢复语音信息中被抑制的谐波分量,使得谐波结构恢复,得到增强效果更优的增强语音信号。
S2、对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征。
本发明实施例中,所述卷积上采样是用于扩展特征图尺寸,便于张量拼接,本发明实施例将卷积上采样作为卷积的中间层,以扩大特征的的分辨信息。
本发明实施例中,所述对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,包括:
将所述增强语音信号转化为二维矩阵,对所述二维矩阵进行第一卷积及特征激活,得到所述增强语音信号的第一卷积特征;
对所述第一卷积特征进行上采样及第二卷积,得到所述增强语音信号的卷积上采样特征;
对所述卷积上采样特征进行对数函数激活及全连接,得到所述增强语音信号的卷积向量。
本发明实施例中,将增强语音信号转化为时域表示一个维度,频域表示一个维度的二维矩阵,其中,若增强语音信号被分为n帧,则将n帧语音信号划分为在静态形式、一阶差分以及二阶差分下的二维矩阵,以对增强语音信号进行卷积。
本发明实施例中,第一卷积可以采用大小为5×5的卷积核作为采样窗口,使用log激活函数作为激活函数,以更好地模拟生物神经元特性,缓解卷积梯度消失的情况,提高卷积向量提取的精确度。可利用反卷积对第一卷积特征进行上采样,以及利用大小为4×4的卷积核进行第二卷积,得到卷积上采样特征。
本发明实施例中,线性变换即对卷积上采用特征进行全连接,本发明实施例采用卷积层代替传统的全连接层,能够降低全连接结构的复杂度,增强特征信息。
本发明实施例中,所述对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征,包括:
利用预构建的第一前馈神经网络对所述卷积向量进行计算,得到第一前馈特征;
将所述第一前馈特征与所述卷积向量进行向量拼接,得到第一拼接向量,对所述第一拼接向量进行注意力计算,得到注意力特征;
对所述注意力特征进行卷积计算,得到注意力卷积特征,将所述注意力卷积特征与所述注意力特征进行向量拼接,得到第二拼接向量;
利用预构建的第二前馈神经网络对所述第二拼接向量进行计算,得到第二前馈特征,将所述第二前馈特征与所述第二拼接向量进行向量拼接,得到所述增强语音信号的编码特征。
本发明实施例中,前馈神经网络是(feedforward neural network)包括全连接前馈神经网络和卷积神经网络,可以看做是一个函数,通过简单非线性函数的多次复合,实现输入空间到输出空间的复杂映射。在前馈神经网络中,把每个神经元按接收信息的先后分为不同的组,每一组可以看做是一个神经层,每一层中的神经元接收前一层神经元的输出,并输出到下一层神经元。整个网络中的信息是朝着一个方向传播的,没有反向的信息传播,可以用一个有向无环图来表示。具体地,本发明实施例中,可以将一个预构建的前馈神经网络划分为前后两部分,得到第一前馈神经网络以及第二前馈神经网络。
本发明实施例中,可以在上述卷积上采样及线性变换计算后接向量编码模块,向量编码模块中包括前后的前馈神经网络、多头自注意力模块以及包含不同卷积核的卷积层,通过向量编码进一步增加特征提取的全面性,得到更精确的编码特征。
S3、根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图。
本发明实施例中,可以对编码特征进行向量激活,例如,利用Softmax激活函数实现对编码特征进行特征分类,从而对语音信号进行文本识别,得到语音信号对应的语音文本。
本发明实施例中,语音文本中可能是包含多人描述对应的文本或长度较长的文本,因此需要对语音文本进行文本分词和去停用词等文本处理,得到文本分词。语法词语对是对语音文本中的文本分析进行依存句法分析,得到文本分词之间的语法关系,从而得到具有依存句法关系的语法词语对。
本发明实施例中,所述提取所述语音文本中的语法词语对,包括:
对所述语音文本进行文本分词及去停用词处理,得到所述语音文本的文本分词;
对所述文本分析进行词性标注,得到所述文本分词的分词词性;
根据所述分词词性对所述文本分词进行依存语法分析,得到所述语音文本中的语法词语对。
本发明实施例中,词性标注是标注文本分词每个词语的词性,例如,“我”为代名词,“开启”为动词,得到分词词性,在根据分词词性对文本分词之间进行依存语法分析,例如,主谓关系,动宾关系等,具体地,可以通过预构建的语言技术平台进行依存语法分析,例如,基于深度学习的方法的技术平台、NLP工具包等技术平台。
本发明实施例中,词语节点图是以文本分词为节点,根据文本分词之间的依存语法关系将节点相连接,同时节点间边和边的方向由依存语法分析决定,进而得到语音文本的词语节点图。
本发明实施例中,通过词语节点图能够在保留了语音文本原始文本信息的基础上将文本信息可视化,同时分析语音文本之间的依存语法关系,已更全面地计算模式相似度,提高模式相似度计算的精确度。
S4、根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度。
本发明实施例中,特征文本词是词语节点图中最能体现语音文本特征的词语节点,通过计算词语节点图中每个词语节点的重要性,在词语节点图中选取特征文本词。
本发明实施例中,所述根据所述词语节点图计算所述语音文本中的特征文本词,包括:
计算所述词语节点图中每个词语节点的节点强度及节点中心度,根据所述节点强度及所述节点中心度确定每个所述词语节点的特征值;
根据所述特征值从所述词语节点图中选取预设数量的词语节点作为所述语音文本中的特征文本词。
本发明实施例中,所述节点强度是每个词语节点与其他词语节点相连的次数,节点中心度是每个词语节点在词语节点图中的中心程度,将节点强度及节点中心度相加,得到特征值。
本发明实例中,所述计算所述词语节点图中每个词语节点的节点中心度,包括:
利用如下公式计算所述词语节点图中每个词语节点的节点中心度:其中,/>表示所述词语节点图中第/>个词语节点的节点中心度,/>表示所述词语节点图中第/>个词语节点与第/>个词语节点之间的欧式距离,/>表示所述所述词语节点图中词语节点的总数,/>表示所述第/>个词语节点与第/>个词语节点之间的预设权重。
本发明实施例中,词语节点之间的预设权重可以根据词语节点之间的依存语法关系决定,例如,主谓关系的权重设置为0.1,动宾关系的权重设置为0.3等,依存语法关系总体的权重为1,若词语节点之间不存在依存语法关系,则权重是设置为0,从而保证节点中心度计算的准确度。
本发明实施例中,所述模式相似度是语音文本与每个模式文本之间的语义相似度,其中,所述模式文本是多模式LED所支持的控制模式对应的文本,例如,阅读模式、观影模式等LED模式对应的文本,具体地,模式文本中包括LED模式需要进行的LED控制,例如,LED的亮度调整目标、色彩调整目标等,以实现对多模式LED的控制。
本发明实施例中,参阅图3所示,所述根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度,包括:
S31、对所述LED模式文本进行分词,得到所述LED模式文本的模式分词,将所述模式分词与所述特征文本词转化为分词向量,得到所述模式分词的模式分词向量以及所述特征文本词的特征文本向量;
S32、分别计算每个所述特征文本向量与每个所述模式分词向量之间的向量距离,根据所述向量距离构建所述特征文本词与所述LED模式文本之间的距离矩阵;
S33、根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述语音文本与所述LED模式文本之间的模式相似度。
本发明实施例中,可以通过Word2Vec等模型将模式分词与特征文本词转化为分词向量,通过计算向量距离反应特征文本向量与每个模式分词向量之间的语义相似度,进而能够计算模式相似度。
本发明实施例中,可以将每个特征文本向量与模式分词向量之间的向量距离作为距离矩阵的行向量,进而构建距离矩阵。
本发明实施例中,所述根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述特征文本词与所述模式文本之间的模式相似度,包括:
利用如下公式计算所述所述特征文本词与所述模式文本之间的模式相似度:其中,/>表示语音文本/>与LED模式文本/>之间的模式相似度,/>、/>分别表示语音文本/>中第/>个特征文本向量的转置向量、LED模式文本/>中第/>个模式分词向量的转置向量,/>表示语音文本/>的特征文本词与LED模式文本/>之间的距离矩阵,/>、/>分别表示语音文本/>中特征文本向量之间的距离矩阵以及LED模式文本/>中模式分词向量之间的距离矩阵。
本发明实施例中,通过计算每个特征文本向量与每个模式分词向量之间的向量乘积并综合语义距离计算模式相似度,能够从语义距离以及句法依存关系等多维度计算模式相似度,避免单一维度造成的计算偏差,提高模式相似度的计算精确度,从而提高多模式LED控制的准确度。
S5、根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
本发明实施例中,控制模式是语音信号需要多模式LED显示的LED模式,选取模式相似度最大值对应的LED模式文本作为对应的控制模式,通过控制模式对模式LED进行显示校正,例如,调整LED显示的亮度、对比度、色彩值等显示参数,得到多模式LED的目标显示模式。
具体地,可以根据每个LED模式文本对应的显示模板对多模式LED进行显示校正,其中,显示模板是每个LED模式文本对应的显示参数,例如,在显示模板中预设白光灯亮模式、阅读模式等LED模式对应亮度、对比度、色彩值等显示参数的值,以及亮度降低、亮度增加等LED模式中控制LED显示参数的变化范围,进而及时准确地对LED进行显示校正,提高多模式LED的控制效率及准确度。
本发明实施例通过对接收到的语音信号进行噪声白化使得语音信号中的噪声保证较低的低秩性,提高后续语音信号增强的效果;对白化语音信号进行重构能够对语音信号的幅度信息以及相位信息进行补偿,使得谐波结构恢复,得到增强效果更优的增强语音信号;提取增强语音信号的编码特征,增加特征提取的全面性;根据编码特征识别语音文本,并根据语音文本的语法词语对构建词语节点图,能够在保留了语音文本原始文本信息的基础上将文本信息可视化;再根据词语节点图计算语音文本与预设的LED模式文本之间的模式相似度,能够从语义距离以及句法依存关系等多维度计算模式相似度,避免单一维度造成的计算偏差,提高模式相似度的计算精确度,从而根据模式相似度确定多模式LED对应的控制模式,以对多模式LED进行及时准确地显示校正,从而提高多模式LED的控制效率及准确度。因此本发明提出的基于声控的多模式LED智能控制的方法,可以解决多模式LED的控制效率以及准确度较差的问题。
如图4所示,是本发明一实施例提供的基于声控的多模式LED智能控制的装置的功能模块图。
本发明所述基于声控的多模式LED智能控制的装置400可以安装于电子设备中。根据实现的功能,所述基于声控的多模式LED智能控制的装置400可以包括语音信号增强模块401、编码特征提取模块402、词语节点图构建模块403、模式相似度计算模块404及显示校正模块405。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述语音信号增强模块401,用于获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号;
所述编码特征提取模块402,用于对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征;
所述词语节点图构建模块403,用于根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图;
所述模式相似度计算模块404,用于根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;
所述显示校正模块405,用于根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
详细地,本发明实施例中所述基于声控的多模式LED智能控制的装置400中所述的各模块在使用时采用与上述图1至图3中所述的基于声控的多模式LED智能控制的方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
本发明还提供一种电子设备,所述电子设备可以包括处理器、存储器、通信总线以及通信接口,还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序,如基于声控的多模式LED智能控制的方法程序。
其中,所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行基于声控的多模式LED智能控制的方法程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于声控的多模式LED智能控制的方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
所述通信接口用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
具体地,所述处理器对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于声控的多模式LED智能控制的方法,其特征在于,所述方法包括:
获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号;
对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征;
根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图;
根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;
根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
2.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,包括:
获取预设阶数的滤波器,根据所述滤波器对所述语音信号进行滤波,得到所述语音信号的白化语音信号;
利用如下所示的公式对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号:其中,所述/>表示所述语音信号在/>处的白化语音信号,/>表示预设的滤波阶数为/>的滤波器在滤波阶数为/>时的滤波系数,/>表示语音信号在/>帧时的语音信号值。
3.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号,包括:
提取所述白化语音信号的信号幅度谱,计算所述信号幅度谱的信噪比估计值;
根据所述信噪比估计值构建幅度增益函数及相位补偿函数,将所述幅度增益函数的函数值与所述信号幅度谱相乘,得到所述白化语音信号的增强语音频谱;
所述幅度增益函数如下式所示:其中,/>表示幅度增益函数,/>表示在/>第帧中第/>个频点的信噪比估计值;
所述相位补偿函数如下式所示: 表示相位补偿函数,/>表示白化语音信号在第/>帧中第/>个频点的频度,/>表示预设的补偿因子,/>表示白化语音信号在第/>帧中第/>个频点的噪声幅度,/>表示第/>帧中频点的总数;
根据所述相位补偿函数计算所述增强语音频谱的增益相位,将所述增益相位与所述增强语音频谱的幅度谱相乘,得到相位增强语音频谱;
对所述相位增强语音频谱进行傅里叶逆变换,得到所述语音信号的增强语音信号。
4.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,包括:
将所述增强语音信号转化为二维矩阵,对所述二维矩阵进行第一卷积及特征激活,得到所述增强语音信号的第一卷积特征;
对所述第一卷积特征进行上采样及第二卷积,得到所述增强语音信号的卷积上采样特征;
对所述卷积上采样特征进行对数函数激活及全连接,得到所述增强语音信号的卷积向量。
5.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征,包括:
利用预构建的第一前馈神经网络对所述卷积向量进行计算,得到第一前馈特征;
将所述第一前馈特征与所述卷积向量进行向量拼接,得到第一拼接向量,对所述第一拼接向量进行注意力计算,得到注意力特征;
对所述注意力特征进行卷积计算,得到注意力卷积特征,将所述注意力卷积特征与所述注意力特征进行向量拼接,得到第二拼接向量;
利用预构建的第二前馈神经网络对所述第二拼接向量进行计算,得到第二前馈特征,将所述第二前馈特征与所述第二拼接向量进行向量拼接,得到所述增强语音信号的编码特征。
6.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述提取所述语音文本中的语法词语对,包括:
对所述语音文本进行文本分词及去停用词处理,得到所述语音文本的文本分词;
对所述文本分析进行词性标注,得到所述文本分词的分词词性;
根据所述分词词性对所述文本分词进行依存语法分析,得到所述语音文本中的语法词语对。
7.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述根据所述词语节点图计算所述语音文本中的特征文本词,包括:
计算所述词语节点图中每个词语节点的节点强度及节点中心度,根据所述节点强度及所述节点中心度确定每个所述词语节点的特征值;
利用如下公式计算所述词语节点图中每个词语节点的节点中心度:其中,/>表示所述词语节点图中第/>个词语节点的节点中心度,/>表示所述词语节点图中第/>个词语节点与第/>个词语节点之间的欧式距离,/>表示所述所述词语节点图中词语节点的总数,/>表示所述第/>个词语节点与第/>个词语节点之间的预设权重;
根据所述特征值从所述词语节点图中选取预设数量的词语节点作为所述语音文本中的特征文本词。
8.如权利要求1所述的基于声控的多模式LED智能控制的方法,其特征在于,所述根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度,包括:
对所述LED模式文本进行分词,得到所述LED模式文本的模式分词,将所述模式分词与所述特征文本词转化为分词向量,得到所述模式分词的模式分词向量以及所述特征文本词的特征文本向量;
分别计算每个所述特征文本向量与每个所述模式分词向量之间的向量距离,根据所述向量距离构建所述特征文本词与所述LED模式文本之间的距离矩阵;
根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述语音文本与所述LED模式文本之间的模式相似度。
9.如权利要求8所述的基于声控的多模式LED智能控制的方法,其特征在于,所述根据所述模式分词向量、所述特征文本向量以及所述距离矩阵计算所述特征文本词与所述模式文本之间的模式相似度,包括:
利用如下公式计算所述所述特征文本词与所述模式文本之间的模式相似度:其中,/>表示语音文本/>与LED模式文本/>之间的模式相似度,/>、/>分别表示语音文本/>中第/>个特征文本向量的转置向量、LED模式文本中第/>个模式分词向量的转置向量,/>表示语音文本/>的特征文本词与LED模式文本之间的距离矩阵,/>、/>分别表示语音文本/>中特征文本向量之间的距离矩阵以及LED模式文本中/>模式分词向量之间的距离矩阵。
10.一种基于声控的多模式LED智能控制的装置,其特征在于,所述装置包括:
语音信号增强模块,用于获取多模式LED接收到的语音信号,对所述语音信号进行噪声白化,得到所述语音信号的白化语音信号,对所述白化语音信号进行信号重构,得到所述语音信号的增强语音信号;
编码特征提取模块,用于对所述增强语音信号进行卷积上采样及线性变换,得到所述增强语音信号的卷积向量,对所述卷积向量进行向量编码,得到所述增强语音信号的编码特征;
词语节点图构建模块,用于根据所述编码特征识别所述语音信号对应的语音文本,提取所述语音文本中的语法词语对,根据所述语法词语对构建所述语音文本的词语节点图;
模式相似度计算模块,用于根据所述词语节点图计算所述语音文本中的特征文本词,根据所述特征文本词计算所述语音文本与预设的LED模式文本之间的模式相似度;
显示校正模块,用于根据所述模式相似度确定所述多模式LED对应的控制模式,根据所述控制模式对所述多模式LED进行显示校正,得到所述多模式LED的目标显示模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311462054.5A CN117198290A (zh) | 2023-11-06 | 2023-11-06 | 一种基于声控的多模式led智能控制的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311462054.5A CN117198290A (zh) | 2023-11-06 | 2023-11-06 | 一种基于声控的多模式led智能控制的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117198290A true CN117198290A (zh) | 2023-12-08 |
Family
ID=88994634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311462054.5A Pending CN117198290A (zh) | 2023-11-06 | 2023-11-06 | 一种基于声控的多模式led智能控制的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117198290A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与系统 |
CN112885375A (zh) * | 2021-01-08 | 2021-06-01 | 天津大学 | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN116364109A (zh) * | 2023-03-03 | 2023-06-30 | 重庆邮电大学 | 一种语音增强网络信噪比估计器及损失优化方法 |
CN116631383A (zh) * | 2023-07-12 | 2023-08-22 | 北京工商大学 | 基于自监督预训练和交互式融合网络的语音识别方法 |
CN116994573A (zh) * | 2023-05-16 | 2023-11-03 | 北京理工大学 | 一种基于脉冲神经网络的端到端语音识别方法与系统 |
-
2023
- 2023-11-06 CN CN202311462054.5A patent/CN117198290A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649561A (zh) * | 2016-11-10 | 2017-05-10 | 复旦大学 | 面向税务咨询业务的智能问答系统 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与系统 |
CN112885375A (zh) * | 2021-01-08 | 2021-06-01 | 天津大学 | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN116364109A (zh) * | 2023-03-03 | 2023-06-30 | 重庆邮电大学 | 一种语音增强网络信噪比估计器及损失优化方法 |
CN116994573A (zh) * | 2023-05-16 | 2023-11-03 | 北京理工大学 | 一种基于脉冲神经网络的端到端语音识别方法与系统 |
CN116631383A (zh) * | 2023-07-12 | 2023-08-22 | 北京工商大学 | 基于自监督预训练和交互式融合网络的语音识别方法 |
Non-Patent Citations (2)
Title |
---|
严娇等: "基于融合共现距离的句法网络下文本语义相似度计算", 数据分析与知识发现, no. 2019, pages 93 - 99 * |
吉慧芳: "改进相位谱信息及相位重构的语音增强算法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2019, pages 136 - 123 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Connecting image denoising and high-level vision tasks via deep learning | |
CN113641820B (zh) | 基于图卷积神经网络的视角级文本情感分类方法及系统 | |
CN111062489A (zh) | 一种基于知识蒸馏的多语言模型压缩方法、装置 | |
CN111079532A (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111275107A (zh) | 一种基于迁移学习的多标签场景图像分类方法及装置 | |
CN109034206A (zh) | 图像分类识别方法、装置、电子设备及计算机可读介质 | |
CN110188866B (zh) | 一种基于注意力机制的特征提取方法 | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
WO2022126902A1 (zh) | 模型压缩方法、装置、电子设备及介质 | |
CN108171328A (zh) | 一种卷积运算方法和基于该方法的神经网络处理器 | |
JP2022145623A (ja) | ヒント情報を提示する方法及び装置並びにコンピュータプログラム | |
CN114091450A (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN114283347A (zh) | 目标检测方法、系统、智能终端及计算机可读存储介质 | |
CN116701574A (zh) | 文本语义相似度计算方法、装置、设备及存储介质 | |
CN116564322A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN116630712A (zh) | 基于模态组合的信息分类方法、装置、电子设备及介质 | |
CN117198290A (zh) | 一种基于声控的多模式led智能控制的方法及装置 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN116665878A (zh) | 改善累计误差的智能问诊方法、装置、设备及存储介质 | |
CN115908175A (zh) | 低照度图像多级增强方法、装置、电子设备以及存储介质 | |
CN113823271B (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
CN115620342A (zh) | 跨模态行人重识别方法、系统及计算机 | |
CN110457692B (zh) | 复合词表示学习方法及装置 | |
CN114365155A (zh) | 具有快速逐点卷积的高效推断 | |
CN114692715A (zh) | 一种样本标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |