CN112151069B - 语音数据处理方法、装置、计算机设备和存储介质 - Google Patents

语音数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112151069B
CN112151069B CN202010841180.1A CN202010841180A CN112151069B CN 112151069 B CN112151069 B CN 112151069B CN 202010841180 A CN202010841180 A CN 202010841180A CN 112151069 B CN112151069 B CN 112151069B
Authority
CN
China
Prior art keywords
voice
byte order
voice data
decoding
byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010841180.1A
Other languages
English (en)
Other versions
CN112151069A (zh
Inventor
曾振
曹荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ifreecomm Technology Co ltd
Original Assignee
Ifreecomm Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ifreecomm Technology Co ltd filed Critical Ifreecomm Technology Co ltd
Priority to CN202010841180.1A priority Critical patent/CN112151069B/zh
Publication of CN112151069A publication Critical patent/CN112151069A/zh
Application granted granted Critical
Publication of CN112151069B publication Critical patent/CN112151069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。所述方法包括:接收目标设备发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种。按照第一字节序对语音数据进行解码,获得语音解码结果。对语音解码结果进行语音检测。当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序。按照第一字节序,对转换为第一字节序后的语音数据进行重解码。采用本方法能够提升终端之间的通信成功率。

Description

语音数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音数据处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了语音通信技术,语音通信完全打破了地域的限制,使身处异地的人员可以实现实时的语音通话,可以随时随地解决问题,既减少了旅行费用,又提高了生产力。
目前,语音通信的顺利实现,依赖于通信终端各自的语音协议所支持的编解码方式。针对G722.1系列编解码协议,存在部分厂商编码数据的字节序不是ITU(InternationalTelecommunication Union,国际电信联盟)规定的字节序,如果依然按ITU规定的字节序进行解码,语音数据会被解码成断断续续的卡顿杂音,从而导致进行语音通信的通信终端之间无法进行正常的语音通信。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升终端之间的通信成功率的语音数据处理方法、装置、计算机设备和存储介质。
一种语音数据处理方法,所述方法包括:
接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对所述语音数据进行解码,获得语音解码结果;
对所述语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
在其中一个实施例中,所述接收目标设备发送的语音数据之后,所述方法还包括:
当存在与所述目标设备对应的配置文件时,按照所述配置文件对所述语音数据进行解码;
当不存在与所述目标设备对应的配置文件时,执行所述按照第一字节序对所述语音数据进行解码,获得语音解码结果的步骤。
在其中一个实施例中,所述对所述语音解码结果进行语音检测之后,所述方法还包括:
当语音检测的结果是语音正常时,在配置文件中记录所述目标设备对应第一字节序;
当语音检测的结果是语音异常时,在配置文件中记录所述目标设备对应第二字节序。
在其中一个实施例中,所述按照所述配置文件对所述语音数据进行解码,包括:
确定所述配置文件中记录的所述目标设备所对应的字节序;
当确定的所述字节序为第一字节序时,按照第一字节序对所述语音数据进行解码;
当确定的所述字节序为第二字节序时,从所述将第二字节序的所述语音数据转换为第一字节序的步骤起执行。
在其中一个实施例中,所述对所述语音解码结果进行语音检测,包括:
提取所述语音解码结果所对应的语音特征;
将提取的语音特征输入至预训练的语音识别模型;
通过所述语音识别模型,并基于所述语音特征对所述语音解码结果进行语音检测,以确定所述语音数据是否正常。
在其中一个实施例中,所述第一字节序为大端字节序时,所述第二字节序为小端字节序;所述第一字节序为小端字节序时,所述第二字节序为大端字节序。
一种语音数据处理装置,所述装置包括:
接收模块,用于接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
解码模块,用于按照第一字节序对所述语音数据进行解码,获得语音解码结果;
检测模块,用于对所述语音解码结果进行语音检测;
转换模块,用于当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
所述解码模块还用于按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
在其中一个实施例中,所述装置还包括:
记录模块,用于当语音检测的结果是语音正常时,在配置文件中记录所述目标设备对应第一字节序;当语音检测的结果是语音异常时,在配置文件中记录所述目标设备对应第二字节序。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对所述语音数据进行解码,获得语音解码结果;
对所述语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对所述语音数据进行解码,获得语音解码结果;
对所述语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
上述语音数据处理方法、装置、计算机设备和存储介质,通过接收目标设备发送的语音数据。目标设备发送的语音数据采用第一字节序和第二字节序中的任一种方式编码和传输。首先,默认语音数据采用第一字节序,按照第一字节序对语音数据进行解码,获得语音解码结果。进而,对语音解码结果进行语音检测,以判断语音数据是否异常。当语音检测的结果是语音异常时,表明语音数据采用的是第二字节序,则将第二字节序的语音数据转换为第一字节序。最后,再按照第一字节序,对转换为第一字节序后的语音数据进行重解码。这样,避免了语音数据被解码成断断续续的卡顿杂音,提升了终端之间的通信成功率。
附图说明
图1为一个实施例中语音数据处理方法的应用场景图;
图2为一个实施例中语音数据处理方法的流程示意图;
图3为另一个实施例中语音数据处理方法的流程示意图;
图4为一个实施例中语音数据处理装置的结构框图;
图5为另一个实施例中语音数据处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音数据处理方法,可以应用于如图1所示的应用环境中。该应用环境包括目标设备102和终端104。目标设备102与终端104通过网络进行通信。其中,目标设备102具体可以包括台式终端或移动终端。移动终端具体可以包括手机、平板电脑和笔记本电脑等中的至少一种。本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案相关的部分场景,并不构成对本申请方案应用环境的限定。
终端104接收目标设备104发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种。终端104按照第一字节序对语音数据进行解码,获得语音解码结果。终端104对语音解码结果进行语音检测。当语音检测的结果是语音异常时,终端104将第二字节序的语音数据转换为第一字节序。终端104按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,如图2所示,提供了一种语音数据处理方法,以该方法应用于图1中的终端104为例进行说明,包括以下步骤:
S202,接收目标设备发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种。
其中,第一字节序是按照第一存储方式对字节进行存储的字节序。第二字节序是按照第二存储方式对字节进行存储的字节序。
具体地,目标设备可通过网络与终端进行通信。目标设备可向终端发送语音数据,终端可接收目标设备所发送的语音数据。目标设备可对应第一字节序和第二字节序中的任一种字节序对语音数据进行编码和传输。因此,目标设备所发送的语音数据可采用第一字节序和第二字节序中的任一种字节序。
在一个实施例中,目标设备具体可以是视频会议系统中所使用到的设备,终端也可以是视频会议系统中所使用到的终端。语音数据可以是视频会议进行的过程中,目标设备所采集到的会议参与者的语音。目标设备可将采集到的会议参与者的语音发送至终端,终端可接收会议参与者的语音。
S204,按照第一字节序对语音数据进行解码,获得语音解码结果。
其中,语音解码结果是按照第一字节序解码后的语音数据。
具体地,终端对应的字节序是第一字节序。当终端接收到目标设备发送的语音数据时,终端不需要确定语音数据在目标设备上是采用第一字节序还是第二字节序进行的编码和传输,终端可直接按照第一字节序对语音数据进行解码,获得语音解码结果。
S206,对语音解码结果进行语音检测。
具体地,语音解码结果携带有对应的语音特征。针对正常的语音数据,其语音解码结果携带的语音特征为正常的语音特征,针对异常的语音数据,其语音解码结果携带的语音特征为异常的语音特征。通过预训练的语音识别模型,对语音解码结果进行语音检测。
在一个实施例中,语音识别模型具体可以是GMM(Adaptive background mixturemodels for real-time tracking,高斯混合模型)模型、DNN(Deep Neural Networks,深度神经网络)模型和LSTM模型(Long-Short Term Memory,长短期记忆模型)等中的任一种。需要说明的是,本实施例对语音识别模型不做限定。
S208,当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序。
具体地,当语音检测的结果是语音异常时,表明目标设备对应的字节序为第二字节序,目标设备所发送的语音设备采用的是第二字节序进行的编码和传输。此时,终端可将第二字节序的语音数据转换为第一字节序。
在一个实施例中,终端可通过对语音数据的字节序列进行位移操作以及或操作,将第二字节序的语音数据转换为第一字节序。
举例说明,第二字节序的语音数据为78563412。终端通过对语音数据的字节序列进行位移操作以及或操作之后,将原第二字节序的语音数据转换为第一字节序的语音数据12345678。
S210,按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
具体地,转换为第一字节序后的语音数据符合终端所对应的第一字节序,终端可按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,终端可对重解码之后的语音数据进行再一次的语音检测。当再一次的语音检测的结果是语音正常,则表示目标设备与终端可以进行正常的通信。当再一次的语音检测的结果是语音异常,则表示目标设备出现了故障,目标设备与终端不可以进行正常的通信。此时,终端可发出告警信息。告警信息可通过在终端的界面上以弹窗的形式通知用户,也可以通过语音播报的形式通知用户。
上述语音数据处理方法中,通过接收目标设备发送的语音数据。目标设备发送的语音数据采用第一字节序和第二字节序中的任一种方式编码和传输。首先,默认语音数据采用第一字节序,按照第一字节序对语音数据进行解码,获得语音解码结果。进而,对语音解码结果进行语音检测,以判断语音数据是否异常。当语音检测的结果是语音异常时,表明语音数据采用的是第二字节序,则将第二字节序的语音数据转换为第一字节序。最后,再按照第一字节序,对转换为第一字节序后的语音数据进行重解码。这样,避免了语音数据被解码成断断续续的卡顿杂音,提升了终端之间的通信成功率。
在一个实施例中,步骤S202之后,也就是接收目标设备发送的语音数据的步骤之后,语音数据处理方法还包括:当存在与目标设备对应的配置文件时,按照配置文件对语音数据进行解码;当不存在与目标设备对应的配置文件时,执行按照第一字节序对语音数据进行解码,获得语音解码结果的步骤。
具体地,终端可获取目标设备的设备标识。当终端接收到目标设备所发送的语音数据时,终端可根据目标设备的设备标识,在终端本地查找与目标设备对应的配置文件。当在终端本地查找到与目标设备对应的配置文件时,终端可按照配置文件对语音数据进行解码。当在终端本地未查找到与目标设备对应的配置文件时,执行按照第一字节序对语音数据进行解码,获得语音解码结果的步骤。即,执行按照第一字节序对语音数据进行解码,获得语音解码结果;对语音解码结果进行语音检测;当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序;按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,终端可与多个目标设备进行语音通信。终端中的配置文件可以有一个,也可以有多个。多个目标设备可以对应同一个配置文件,也可以分别对应各自的配置文件。
上述实施例中,接收到语音数据之后,通过在终端上查找与目标设备对应的配置文件,根据查找结果,确定与查找结果对应的语音数据的处理方式。这样,提升了对语音数据的解码效率。
在一个实施例中,步骤S206之后,也就是对语音解码结果进行语音检测的步骤之后,语音数据处理方法还包括:当语音检测的结果是语音正常时,在配置文件中记录目标设备对应第一字节序;当语音检测的结果是语音异常时,在配置文件中记录目标设备对应第二字节序。
具体地,终端对语音数据进行语音检测的语音检测结果,具体可以包括语音正常和语音异常。当终端对语音数据进行语音检测的语音检测结果是语音正常时,终端可在配置文件中记录目标设备对应第一字节序。当终端对语音数据进行语音检测的语音检测结果是语音异常时,终端可在配置文件中记录目标设备对应第二字节序。
上述实施例中,通过语音检测的结果,在配置文件中记录目标设备对应字节序,以便于下一个该目标设备与终端通信时,直接根据在配置文件中记录目标设备对应字节序,直接确定对语音数据的处理方式,避免再次对语音数据进行语音检测,同时能更快让目标设备与终端进行正常通信。
在一个实施例中,按照配置文件对语音数据进行解码的步骤,具体包括:确定配置文件中记录的目标设备所对应的字节序;当确定的字节序为第一字节序时,按照第一字节序对语音数据进行解码;当确定的字节序为第二字节序时,从将第二字节序的语音数据转换为第一字节序的步骤起执行。
具体地,终端可在查找到与目标设备对应的配置文件之后,确定配置文件中记录的目标设备所对应的字节序。其中,字节序可包括第一字节序和第二字节序。当终端确定配置文件中记录的目标设备所对应的字节序为第一字节序时,终端可按照第一字节序对语音数据进行解码。当终端确定配置文件中记录的目标设备所对应的字节序为第二字节序时,终端可从将第二字节序的语音数据转换为第一字节序的步骤起执行。即,终端可跳转至执行将第二字节序的语音数据转换为第一字节序;按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
上述实施例中,通过确定配置文件中记录的目标设备所对应的字节序,直接确定对语音数据的处理方式。这样,加快了对语音数据的处理效率,同时也能更快让目标设备与终端进行正常通信。
在一个实施例中,步骤S206,也就是对语音解码结果进行语音检测的步骤,具体包括:提取语音解码结果所对应的语音特征;将提取的语音特征输入至预训练的语音识别模型;通过语音识别模型,并基于语音特征对语音解码结果进行语音检测,以确定语音数据是否正常。
具体地,终端在获取到语音数据所对应的语音解码结果后,可提取语音解码结果所对应的语音特征。语音识别模型是通过大量的正常语音特征和异常语音特征训练得到。终端可将提取的语音特征输入至预训练的语音识别模型。终端可通过语音识别模型,并基于语音特征对语音解码结果进行语音检测,以确定语音数据是否正常。
上述实施例中,通过提取语音解码结果所对应的语音特征,并将提取的语音特征输入至预训练的语音识别模型,以通过语音识别模型对语音解码结果进行语音检测,以最终确定语音数据是否正常。这样,提升了语音检测的准确率,同时,也进一步提升了目标设备与终端进行正常通信的成功率。
在一个实施例中,第一字节序为大端字节序时,第二字节序为小端字节序;第一字节序为小端字节序时,第二字节序为大端字节序。
其中,大端字节序是高字节数据存放在低地址处,低字节数据存放在高地址处。可以理解,大端字节序的语音数据按从最左侧比特(最高有效位)至最右比特(最低有效位)的顺序传输。小端字节序是低字节数据存放在内存低地址处,高字节数据存放在内存高地址处。可以理解,小端字节序的语音数据按从最右侧比特(最低有效位)至最左比特(最高有效位)的顺序传输。
上述实施例中,通过确定终端的字节序,当目标终端的字节序与终端的字节序一致时,直接按照终端的字节序对语音数据进行解码。当目标终端的字节序与目标终端的字节序不一致时,说明目标终端的字节序是与终端相反的字节序。此时,先按照终端的字节序将目标终端发送的语音数据进行字节序转换,进而再按照终端的字节序对转换后的语音数据进行解码。这样,能够保证终端对语音数据进行正确的解码,保障终端与目标终端的正常通信。
在一个实施例中,如图3所示,目标设备和终端均使用G722.1(国际一种电信联盟所规定的音频编码方式)系列的编解码协议对语音数据进行编码和解码。终端可从目标设备中获取采用G722.1系列的协议进行编码缩短得到的待解码的语音数据。在获取到语音数据之后,终端可在本地查询是否存在与目标终端对应的配置文件。当存在与目标终端对应的配置文件时,终端可直接按照与目标终端对应的配置文件所记录的大端字节序,通过G722.1系列解码器,根据大端字节序对语音数据进行相应的解码处理。当不存在与目标终端对应的配置文件时,终端可先通过G722.1系列解码器对语音数据进行相应的解码处理,得到G722.1系列语音解码结果。进而,终端可对G722.1系列语音解码结果进行语音检测,以判断对应的语音数据是否正常。当检测到语音数据正常时,表明目标设备对应的字节序为大端字节序,此时,直接通过大端字节序对语音数据进行解码,目标设备即可与终端进行通信。同时,将目标设备的设备标识与对应的字节序进行绑定,并将其绑定关系写入至目标设备对应的配置文件中。以便目标设备再次与终端通信时可直接通过配置文件,对语音数据进行相应解码。当检测到语音数据异常时,表明目标设备对应的字节序为小端字节序,此时,终端可将小端字节序的语音数据转换为大端字节序。终端可重置G722.1系列解码器,并再根据大端字节序对语音数据进行相应的解码处理,以使得目标设备与终端进行正常通信。同时,将目标设备的设备标识与对应的小端字节序进行绑定,并将其绑定关系写入至目标设备对应的配置文件中,以便目标设备再次与终端通信时可直接通过配置文件,对语音数据进行相应解码。
应该理解的是,虽然图2的各个步骤按照顺序依次显示,但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种语音数据处理装置400,包括:接收模块401、解码模块402、检测模块403和转换模块404,其中:
接收模块401,用于接收目标设备发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种。
解码模块402,用于按照第一字节序对语音数据进行解码,获得语音解码结果。
检测模块403,用于对语音解码结果进行语音检测。
转换模块404,用于当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序。
解码模块402还用于按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,解码模块402还用于当存在与目标设备对应的配置文件时,按照配置文件对语音数据进行解码;当不存在与目标设备对应的配置文件时,执行按照第一字节序对语音数据进行解码,获得语音解码结果的步骤。
在一个实施例中,解码模块402还用于确定配置文件中记录的目标设备所对应的字节序;当确定的字节序为第一字节序时,按照第一字节序对语音数据进行解码;当确定的字节序为第二字节序时,从将第二字节序的语音数据转换为第一字节序的步骤起执行。
在一个实施例中,检测模块403还用于提取语音解码结果所对应的语音特征;将提取的语音特征输入至预训练的语音识别模型;通过语音识别模型,并基于语音特征对语音解码结果进行语音检测,以确定语音数据是否正常。
在一个实施例中,第一字节序为大端字节序时,第二字节序为小端字节序;第一字节序为小端字节序时,第二字节序为大端字节序。
参考图5,在一个实施例中,语音数据处理装置400还包括:记录模块405,其中:
记录模块405,用于当语音检测的结果是语音正常时,在配置文件中记录目标设备对应第一字节序;当语音检测的结果是语音异常时,在配置文件中记录目标设备对应第二字节序。
上述语音数据处理装置,通过接收目标设备发送的语音数据。目标设备发送的语音数据采用第一字节序和第二字节序中的任一种方式编码和传输。首先,默认语音数据采用第一字节序,按照第一字节序对语音数据进行解码,获得语音解码结果。进而,对语音解码结果进行语音检测,以判断语音数据是否异常。当语音检测的结果是语音异常时,表明语音数据采用的是第二字节序,则将第二字节序的语音数据转换为第一字节序。最后,再按照第一字节序,对转换为第一字节序后的语音数据进行重解码。这样,避免了语音数据被解码成断断续续的卡顿杂音,提升了终端之间的通信成功率。
关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定,在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是上述图1中的终端104,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
接收目标设备发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对语音数据进行解码,获得语音解码结果;
对语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序;
按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当存在与目标设备对应的配置文件时,按照配置文件对语音数据进行解码;
当不存在与目标设备对应的配置文件时,执行按照第一字节序对语音数据进行解码,获得语音解码结果的步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当语音检测的结果是语音正常时,在配置文件中记录目标设备对应第一字节序;
当语音检测的结果是语音异常时,在配置文件中记录目标设备对应第二字节序。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定配置文件中记录的目标设备所对应的字节序;
当确定的字节序为第一字节序时,按照第一字节序对语音数据进行解码;
当确定的字节序为第二字节序时,从将第二字节序的语音数据转换为第一字节序的步骤起执行。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取语音解码结果所对应的语音特征;
将提取的语音特征输入至预训练的语音识别模型;
通过语音识别模型,并基于语音特征对语音解码结果进行语音检测,以确定语音数据是否正常。
在一个实施例中,第一字节序为大端字节序时,第二字节序为小端字节序;第一字节序为小端字节序时,第二字节序为大端字节序。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收目标设备发送的语音数据;语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对语音数据进行解码,获得语音解码结果;
对语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的语音数据转换为第一字节序;
按照第一字节序,对转换为第一字节序后的语音数据进行重解码。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当存在与目标设备对应的配置文件时,按照配置文件对语音数据进行解码;
当不存在与目标设备对应的配置文件时,执行按照第一字节序对语音数据进行解码,获得语音解码结果的步骤。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当语音检测的结果是语音正常时,在配置文件中记录目标设备对应第一字节序;
当语音检测的结果是语音异常时,在配置文件中记录目标设备对应第二字节序。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定配置文件中记录的目标设备所对应的字节序;
当确定的字节序为第一字节序时,按照第一字节序对语音数据进行解码;
当确定的字节序为第二字节序时,从将第二字节序的语音数据转换为第一字节序的步骤起执行。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
提取语音解码结果所对应的语音特征;
将提取的语音特征输入至预训练的语音识别模型;
通过语音识别模型,并基于语音特征对语音解码结果进行语音检测,以确定语音数据是否正常。
在一个实施例中,第一字节序为大端字节序时,第二字节序为小端字节序;第一字节序为小端字节序时,第二字节序为大端字节序。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音数据处理方法,其特征在于,所述方法包括:
接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
按照第一字节序对所述语音数据进行解码,获得语音解码结果;
对所述语音解码结果进行语音检测;
当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
2.根据权利要求1所述的方法,其特征在于,所述接收目标设备发送的语音数据之后,所述方法还包括:
当存在与所述目标设备对应的配置文件时,按照所述配置文件对所述语音数据进行解码;
当不存在与所述目标设备对应的配置文件时,执行所述按照第一字节序对所述语音数据进行解码,获得语音解码结果的步骤。
3.根据权利要求2所述的方法,其特征在于,所述对所述语音解码结果进行语音检测之后,所述方法还包括:
当语音检测的结果是语音正常时,在配置文件中记录所述目标设备对应第一字节序;
当语音检测的结果是语音异常时,在配置文件中记录所述目标设备对应第二字节序。
4.根据权利要求3所述的方法,其特征在于,所述按照所述配置文件对所述语音数据进行解码,包括:
确定所述配置文件中记录的所述目标设备所对应的字节序;
当确定的所述字节序为第一字节序时,按照第一字节序对所述语音数据进行解码;
当确定的所述字节序为第二字节序时,从所述将第二字节序的所述语音数据转换为第一字节序的步骤起执行。
5.根据权利要求1所述的方法,其特征在于,所述对所述语音解码结果进行语音检测,包括:
提取所述语音解码结果所对应的语音特征;
将提取的语音特征输入至预训练的语音识别模型;
通过所述语音识别模型,并基于所述语音特征对所述语音解码结果进行语音检测,以确定所述语音数据是否正常。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述第一字节序为大端字节序时,所述第二字节序为小端字节序;所述第一字节序为小端字节序时,所述第二字节序为大端字节序。
7.一种语音数据处理装置,其特征在于,所述装置包括:
接收模块,用于接收目标设备发送的语音数据;所述语音数据采用第一字节序和第二字节序中的任一种;
解码模块,用于按照第一字节序对所述语音数据进行解码,获得语音解码结果;
检测模块,用于对所述语音解码结果进行语音检测;
转换模块,用于当语音检测的结果是语音异常时,将第二字节序的所述语音数据转换为第一字节序;
所述解码模块还用于按照所述第一字节序,对转换为第一字节序后的语音数据进行重解码。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
记录模块,用于当语音检测的结果是语音正常时,在配置文件中记录所述目标设备对应第一字节序;当语音检测的结果是语音异常时,在配置文件中记录所述目标设备对应第二字节序。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010841180.1A 2020-08-20 2020-08-20 语音数据处理方法、装置、计算机设备和存储介质 Active CN112151069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841180.1A CN112151069B (zh) 2020-08-20 2020-08-20 语音数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841180.1A CN112151069B (zh) 2020-08-20 2020-08-20 语音数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112151069A CN112151069A (zh) 2020-12-29
CN112151069B true CN112151069B (zh) 2024-03-15

Family

ID=73888561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841180.1A Active CN112151069B (zh) 2020-08-20 2020-08-20 语音数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112151069B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117528829A (zh) * 2023-12-19 2024-02-06 广州通则康威科技股份有限公司 一种用于客户端设备的数据交互方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165777A (ja) * 1998-11-25 2000-06-16 Sony Corp 情報処理装置及びこれを具備した電子機器
WO2001057872A1 (en) * 2000-02-01 2001-08-09 Cirrus Logic, Inc. Hand-held audio decoder
CN102982013A (zh) * 2007-11-14 2013-03-20 Zih公司 在没有字节序标记的情况下对流式xml数据中的utf-16编码的检测以及相关的打印机、系统、方法和计算机程序产品
KR20130107118A (ko) * 2012-03-21 2013-10-01 삼성테크윈 주식회사 음향 처리 장치 및 음향 처리 방법
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN108390759A (zh) * 2018-03-21 2018-08-10 平安普惠企业管理有限公司 代码加密、解密方法、装置、计算机设备和存储介质
CN108809921A (zh) * 2017-07-31 2018-11-13 北京视联动力国际信息技术有限公司 一种音频处理方法、视联网服务器和视联网终端
CN110647355A (zh) * 2018-06-27 2020-01-03 上海寒武纪信息科技有限公司 数据处理器和数据处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008029102A1 (de) * 2008-06-20 2009-12-24 Micronas Gmbh Audio- und/oder Video-Datenverarbeitungsvorrichtung, Kommunikations- oder Datennetz zum Umkodieren von Audio- und/oder Video-Daten bzw. Verfahren zum Dekodieren von Audio- und/oder Video-Daten
US20170063495A1 (en) * 2015-08-28 2017-03-02 Red Sunrise Co., Ltd. Audio signal transmission system and data processing method for enhancing data accuracy of the same
US9628944B2 (en) * 2015-09-09 2017-04-18 Nagravision S.A. Methods and systems for transmission of arbitrary data via bluetooth HFP audio connections with low latency

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000165777A (ja) * 1998-11-25 2000-06-16 Sony Corp 情報処理装置及びこれを具備した電子機器
WO2001057872A1 (en) * 2000-02-01 2001-08-09 Cirrus Logic, Inc. Hand-held audio decoder
CN102982013A (zh) * 2007-11-14 2013-03-20 Zih公司 在没有字节序标记的情况下对流式xml数据中的utf-16编码的检测以及相关的打印机、系统、方法和计算机程序产品
KR20130107118A (ko) * 2012-03-21 2013-10-01 삼성테크윈 주식회사 음향 처리 장치 및 음향 처리 방법
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN108809921A (zh) * 2017-07-31 2018-11-13 北京视联动力国际信息技术有限公司 一种音频处理方法、视联网服务器和视联网终端
CN108390759A (zh) * 2018-03-21 2018-08-10 平安普惠企业管理有限公司 代码加密、解密方法、装置、计算机设备和存储介质
CN110647355A (zh) * 2018-06-27 2020-01-03 上海寒武纪信息科技有限公司 数据处理器和数据处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"G.729AB语音编解码系统研究与实现";李峥嵘;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20090615;全文 *
肖联民.《银行计算机网络及其应用》.西安交通大学出版社,1999,(第1版),第62-65页. *

Also Published As

Publication number Publication date
CN112151069A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
US20170111414A1 (en) Video playing method and device
CN108197572B (zh) 一种唇语识别方法和移动终端
CN110647703A (zh) 动画播放方法、装置、计算机设备和存储介质
EP2210191A1 (en) System and method for producing importance rate-based rich media, and server applied to the same
CN112071300B (zh) 语音会话方法、装置、计算机设备和存储介质
CN112151069B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN104361021A (zh) 网页编码识别方法及装置
CN111341315A (zh) 语音控制方法、装置、计算机设备和存储介质
CN111601154B (zh) 一种视频处理方法及相关设备
CN103646048A (zh) 实现多媒体图片的方法和装置
CN114337678A (zh) 数据压缩方法、装置、设备及存储介质
CN113096218A (zh) 动态图像播放方法、装置、存储介质和计算机设备
CN115577363A (zh) 恶意代码反序列化利用链的检测方法及装置
CN114173154B (zh) 视频处理方法及系统
CN113411503A (zh) 一种云手机相机预览方法、装置及计算机设备、存储介质
CN113065879A (zh) 一种数据流质检方法及系统
CN114495081A (zh) 文本识别的方法、装置、可读介质和电子设备
CN114339199A (zh) 音视频同步检测方法、装置、计算机设备和存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN110674093A (zh) 文件数据处理方法、装置、计算机设备和存储介质
CN115546329B (zh) 一种音视频硬件加速转码检测方法及系统
CN115348232B (zh) 解码方法、装置、电子设备、介质及产品
CN112188213B (zh) 编码方法、装置、计算机设备和存储介质
CN117544814B (zh) 基于执法记录仪的数据处理方法、装置、设备和可读介质
CN113206996B (zh) 一种业务录制数据的质检方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant