CN113112993A - 一种音频信息处理方法、装置、电子设备以及存储介质 - Google Patents

一种音频信息处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113112993A
CN113112993A CN202010026971.9A CN202010026971A CN113112993A CN 113112993 A CN113112993 A CN 113112993A CN 202010026971 A CN202010026971 A CN 202010026971A CN 113112993 A CN113112993 A CN 113112993A
Authority
CN
China
Prior art keywords
audio
information
feature
features
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010026971.9A
Other languages
English (en)
Other versions
CN113112993B (zh
Inventor
张仕良
雷鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010026971.9A priority Critical patent/CN113112993B/zh
Priority to EP21738888.3A priority patent/EP4089671A4/en
Priority to PCT/CN2021/070879 priority patent/WO2021139772A1/zh
Priority to US17/789,055 priority patent/US20230047378A1/en
Publication of CN113112993A publication Critical patent/CN113112993A/zh
Application granted granted Critical
Publication of CN113112993B publication Critical patent/CN113112993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种音频信息处理方法、装置、电子设备以及存储介质。本申请提供的音频信息处理方法,包括:获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。本申请提供的音频信息处理方法,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。

Description

一种音频信息处理方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种音频信息处理方法、装置、电子设备以及存储介质。
背景技术
随着计算机技术和物联网技术的发展,越来越多的智能设备开始支持人机语音交互。在人机语音交互过程中,智能设备需要采集与用户指令相关的语音信息,并进一步根据用户指令做出相应的反馈,从而实现人机语音交互。在用户与智能设备进行人机语音交互过程中,智能设备如何识别用户指令相关的语音信息成为完成人机语音交互的关键。传统的语音识别方法一般基于ASR(Automatic Speech Recognition,自动语音识别技术)的语音识别技术,传统的语音识别方法训练流程繁琐,需要引入很多人为设定的先验知识,此外,传统的语音识别方法还需要单独训练声学模型和语言模型,没法获得联合优化带来的收益。
近年来端到端的语音识别方法在语音识别领域得到了越来越多的关注。端到端的语音识别方法将传统语音识别方法中的声学模型和语言模型统一为一体,能够直接根据音频信息,得到音频信息对应的文本信息,从而简化了语音识别的过程。现有的端到端语音识别方法主要基于RNN(Recurrent Neural Network,循环神经网络)或者CNN(ConvolutionalNeural Networks,卷积神经网络)的神经网络。但是,基于RNN或者CNN的端到端语音识别方法往往会存在由计算复杂度高而导致语音识别效率低的问题。
发明内容
本申请提供一种音频信息处理方法、装置、电子设备和存储介质,以降低音频信息处理过程中的计算复杂度,提高音频信息处理的效率。
本申请提供一种音频信息处理方法,包括:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
可选的,所述根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,包括:
在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征;
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码。
可选的,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码,包括:
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征;
根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,依次执行上述步骤,直至所述编码次数到达指定编码次数,完成对所述指定时刻的音频特征的编码;
将所述第一音频特征对应的最终编码音频特征作为所述第二音频特征。
可选的,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征,包括:根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征。
可选的,所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,包括:根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征。
可选的,还包括:
对所述第一音频特征对应的第一编码音频特征进行线性变换,获得所述第一音频特征对应的第一编码线性音频特征;
对所述第一音频特征对应的第一编码线性音频特征进行线性整流,获得所述第一音频特征对应的第一编码非线性音频特征。
可选的,所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定与所述指定时刻的音频特征相邻的音频特征的范围;
根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述确定与所述指定时刻的音频特征相邻的音频特征的范围,包括:确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围,并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围;
所述根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定步幅因子,所述步幅因子为用于指示在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔;
根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一步幅因子和所述第一范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第二步幅因子和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息,包括:根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息,包括:
获得所述第二音频特征对应的第一待解码音频信息;
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息;
获得所述第二音频特征对应的第二待解码音频信息;
更新所述第一解码文本信息为所述已解码信息;
根据所述第二音频特征和所述已解码文本信息,对所述第二待解码音频信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对所述第二音频信息对应的全部待解码音频信息进行解码,获得所述音频信息对应的文本信息。
可选的,所述已解码信息包括:用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息;
根据所述第一待解码音频信息对应的文本信息和所述已解码文本信息,获得第一解码文本信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,获得所述第一待解码音频信息对应的文本单位的预测值;
获得所述文本单位的概率分布;
获得概率值最大的文本单位,作为所述第一待解码音频信息对应的文本信息。可选的,所述获得音频信息对应的第一音频特征,包括:
获得所述音频信息;
对所述音频信息进行特征提取,获得所述第一音频特征。
可选的,所述对所述音频信息进行特征提取,获得所述第一音频特征,包括:对所述音频信息进行特征提取,获得所述音频信息对应的第一音频特征序列。
可选的,还包括:输出所述音频信息对应的文本信息。
本申请另一方面,还提供一种音频信息处理装置,包括:
第一音频特征获得单元,用于获得音频信息对应的第一音频特征;
第二音频特征获得单元,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
已解码文本信息获得单元,用于获得所述音频信息对应的已解码文本信息;
文本信息获得单元,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
本申请另一方面,还提供一种电子设备,包括:
处理器;
存储器,用于存储音频信息处理方法的程序,该设备通电并通过所述处理器运行所述音频信息处理方法的程序后,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
本申请另一方面,还提供一种存储设备,存储有音频信息处理方法的程序,该程序被处理器运行,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
本申请另一方面,还提供一种智能音箱,包括:音频采集设备和音频识别设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;所述音频采集设备,用于获得音频信息
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
本申请另一方面,还提供一种车载智能语音交互装置,包括:音频采集设备、音频识别设备和执行设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;
所述音频采集设备,用于获得音频信息;
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;
所述执行设备,用于根据所述音频信息对应的文本信息执行相应指令。
本申请另一方面,还提供一种音频信息处理系统,包括:客户端、服务端;
所述客户端,用于获得音频信息;将所述音频信息发送给所述服务端;
所述服务端,用于获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;将所述音频信息对应的文本信息提供给所述客户端。
与现有技术相比,本申请具有以下优点:
本申请提供的音频信息处理方法,首先,获得音频信息对应的第一音频特征;其次,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征;再次,获得音频信息对应的已解码文本信息;最后,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。本申请提供的音频信息处理方法,能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征,对第一音频特征中指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征,并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息,本申请提供的音频信息处理方法,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要使用到的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
附图说明
图1为本申请提供的音频信息处理方法的第一应用场景实施例的示意图。
图2为本申请提供的音频信息处理方法的第二应用场景实施例的示意图。
图3为本申请第一实施例中提供的一种音频信息处理方法的流程图。
图4为本申请第一实施中提供的一种对指定时刻的音频特征进行编码的方法的流程图。
图5为本申请第一实施中提供的一种选择多个目标时刻的音频特征的方法的流程图。
图6为本申请第一实施例中提供的一种获得音频信息对应的文本信息的方法的流程图。
图7为本申请第二实施例中提供的一种音频信息处理装置的示意图。
图8为本申请实施例中提供的一种电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
为了更清楚地展示本申请提供的音频信息处理方法,先介绍一下本申请提供的音频信息处理方法的应用场景。本申请提供的音频信息处理方法可以应用于机器翻译场景,如图1所示,其为本申请提供的音频信息处理方法的第一应用场景实施例的示意图。本申请第一场景实施例中具体以将本申请提供的音频信息处理方法应用于同声翻译耳机的应用场景为例,对本申请提供的音频信息处理方法进行详细说明。在将本申请提供的音频信息处理方法应用于同声翻译耳机时,音频信息为用户的语音信息。
当用户使用同声翻译耳机进行对话时,同声翻译耳机会通过自带的声音采集设备采集目标用户的语音信息,在采集到目标用户的语音信息后,同声翻译耳机会先识别该语音对应的语种,并进一步判断该语音的语种是否为用户预设的待翻译语种,若是,则同声翻译耳机会对用户的语音信息进行处理,识别并翻译该语音信息。
同声翻译耳机识别目标用户的语音信息的具体过程如下:首先,对语音信息进行降噪处理,并在降噪处理后,进一步对该语音信息进行声学特征提取,获得语音信息对应的第一语音特征。其中,第一语音特征具体为语音特征序列,即,该语音信息在N个语音帧的语音特征,语音特征包括语音的音素特征、语音的频谱特征等。其次,同声翻译耳机的编码单元会根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征,对指定时刻的语音特征进行编码,获得语音信息对应的第二语音特征。本申请场景实施例中,指定时刻为根据预先设定的编码次数和音频长度确定的,具体的,根据音频长度和预设的编码次数,求出编码的时间间隔,在选定一个时刻作为起始时刻,根据起始时刻、编码次数、时间间隔即可获得每一指定时刻。再次,同声翻译耳机的解码单元会获得第二语音特征以及语音信息对应的已解码文本信息作为解码语音信息中为解码语音信息的输出。其中,已解码信息可以为用于指示对第二语音信息对应的待解码语音信息进行解码的指示信息。最后,同声翻译耳机的解码单元会根据第二语音特征和已解码文本信息,获得语音信息对应的文本信息。
需要说明的是,同声翻译耳机的编码单元根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征,对指定时刻的语音特征进行编码,获得语音信息对应的第二语音特征的具体过程为:首先,在与指定时刻的语音特征相邻的语音特征中选择多个目标时刻的语音特征。其次,根据指定时刻的语音特征和多个目标时刻的语音特征,对指定时刻的语音特征进行第一次编码,获得第一语音特征对应的第一编码语音特征;根据指定时刻的语音特征对应的第一编码语音特征和多个目标时刻的语音特征对应的第一编码语音特征,获得第一语音特征对应的第二编码语音特征,依次执行上述步骤,直至编码次数到达指定编码次数,完成对指定时刻的语音特征的编码;将第一语音特征对应的最终编码语音特征作为第二语音特征。
在对指定时刻的语音特征进行第一次编码,获得第一语音特征对应的第一编码语音特征的具体过程是:根据对指定时刻的线性语音特征、指定时刻的非线性语音特征、多个目标时刻的线性语音特征以及多个目标时刻的非线性语音特征进行第一次编码,获得第一语音特征对应的第一编码语音特征。
在对指定时刻的语音特征进行第N次编码,获得第一语音特征对应的第N编码语音特征的具体过程是:根据指定时刻的语音特征对应的第N-1编码线性语音特征、指定时刻的语音特征对应的第N-1编码非线性语音特征、多个目标时刻的语音特征对应的第N-1编码线性语音特征以及多个目标时刻的语音特征对应的第N-1编码非线性语音特征进行第N次编码,获得第一语音特征对应的第N编码语音特征。其中,N为预先设置好的编码次数。
需要说明的是,根据第二语音特征和已解码文本信息,获得语音信息对应的文本信息的具体过程为:同声翻译耳机的解码单元在获得第二语音特征信息和已解码文本信息后,会获得第二语音特征对应的第一待解码语音信息;根据第二语音特征和已解码文本信息,对第一待解码语音信息进行解码,获得第一解码文本信息;获得第二语音特征对应的第二待解码语音信息;更新第一解码文本信息为已解码信息;根据第二语音特征和已解码文本信息,对第二待解码语音信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对第二语音信息对应的全部待解码语音信息进行解码,获得语音信息对应的文本信息。其中,根据第二语音特征和已解码文本信息,对第一待解码语音信息进行解码,获得第一解码文本信息时,需要首先,根据第二语音特征和已解码文本信息,获得第一待解码语音信息对应的文本单位的预测值;然后,获得文本单位的概率分布;最后,获得概率值最大的文本单位,作为第一待解码语音信息对应的文本信息。
在获得语音信息对应的文本信息后,同声翻译的解码单元会将该语音信息对应的文本信息提供给同声翻译的翻译模块单元,由于翻译模块单元针对语音信息对应的文本信息进行翻译,将语音信息对应的文本信息翻译为预设育种的文本信息,并将文本信息转化为预设语种的语音信息并输出。
本申请提供的音频信息处理方法可以应用于语音转换为文字场景,如图2所示,其为本申请提供的音频信息处理方法的第二应用场景实施例的示意图。本申请第二场景实施例中具体以将本申请提供的音频信息处理方法应用于社交软件中将语音转换为文字的应用场景为例,对本申请提供的音频信息处理方法进行详细说明。本申请第二应用场景实施例中,音频信息为语音信息。
社交软件在将接受到的语音信息转换成文字信息时,会先将语音信息发送至语音识别系统,通过该语音识别系统对语音信息进行语音识别。具体的,该语音识别系统包括语音特征提取模块201、编码模块202、解码模块203。通过语音识别系统对语音信息进行识别的过程如下:
首先,由语音特征提取模块201对语音信息进行特征提取,获得语音信息对应的第一语音特征,并进一步将第一语音特征提供给编码模块202。
其次,编码模块202获得第一语音特征后,通过依次通过该编码模块202中的线性投影层202-1对第一语音特征进行线性变换,获得第一语音特征的线性语音特征,通过线性整流层202-2对第一语音特征的线性语音特征进行线性整流,获得第一语音特征的非线性语音特征。
再次,通过编码模块202中的N层编码层202-3根据第一语音特征中指定时刻的语音特征和与指定时刻的语音特征相邻的语音特征,对指定时刻的语音特征进行编码,获得语音信息对应的第二语音特征。
最后,由解码模块203获得语音信息对应的已解码文本信息和第二语音特征,并根据第二语音特征和已解码文本信息,获得语音信息对应的文本信息。
需要说明的是,上述两个应用场景仅仅是本申请提供的音频信息处理方法的应用场景的两个实施例,提供这两个应用场景实施例的目的是便于理解本申请提供的音频信息处理方法,而并非用于限定本申请提供的音频信息处理方法。本申请第一实施例提供一种在手持设备上展示电子阅读对象的内容的方法,以下结合图1至图6进行说明。
请参照图3,其为本申请第一实施例中提供的一种音频信息处理方法的流程图。
在步骤S301中,获得音频信息对应的第一音频特征。
音频特征包括音频的音素特征、音频的频谱特征等。本申请第一实施例中的音频信息一般为人发出的语音信息、音频设备发出的语音信息,如:歌声等。
获得音频信息对应的第一音频特征的具体步骤为:获得音频信息;对音频信息进行特征提取,获得第一音频特征。其中,对音频信息进行特征提取,获得第一音频特征,包括:对音频信息进行特征提取,获得音频信息对应的第一音频特征序列。即,获得音频信息在N个语音帧的音频特征。
在步骤S302中,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征。
本申请第一实施例中,对指定时刻的音频特征进行编码的过程为将指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征输入到编码器中进行线性和非线性变换,从而对第一音频特征进行特征属性降维,获得新的音频特征的表达,本申请第一实施例中,第二音频特征信息是对第一音频特征进行编码后获得音频特征信息。
根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码的过程为:在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征;根据指定时刻的音频特征和多个目标时刻的音频特征,对指定时刻的音频特征进行编码。其中,根据指定时刻的音频特征和多个目标时刻的音频特征,对指定时刻的音频特征进行编码的过程请参照图4,其为本申请第一实施中提供的一种对指定时刻的音频特征进行编码的方法的流程图。
在步骤S401中,根据指定时刻的音频特征和多个目标时刻的音频特征,对指定时刻的音频特征进行第一次编码,获得第一音频特征对应的第一编码音频特征。
根据指定时刻的音频特征和多个目标时刻的音频特征,对指定时刻的音频特征进行第一次编码,获得第一音频特征对应的第一编码音频特征,包括:根据指定时刻的线性音频特征、指定时刻的非线性音频特征、多个目标时刻的线性音频特征以及多个目标时刻的非线性音频特征进行第一次编码,获得第一音频特征对应的第一编码音频特征。
在步骤S402中,根据指定时刻的音频特征对应的第一编码音频特征和多个目标时刻的音频特征对应的第一编码音频特征,对指定时刻的音频特征进行第二次编码,获得第一音频特征对应的第二编码音频特征,依次执行上述步骤,直至编码次数到达指定编码次数,完成对指定时刻的音频特征的编码。
编码次数和音频长度有关,在本申请第一实施例中,在获得音频信息对应的第一音频特征时,通常每10ms提取一帧音频信息的音频特征,如:6s的音频信息,就能够提取出600帧的音频特征,从而获得音频信息对应的第一音频特征。在获得音频信息对应的第一音频特征后,由于音频信息对应的第一音频特征中的600帧的音频特征是不相邻帧的音频特征,在获得音频信息对应的第二音频特征时,会对第一音频特征中的600帧的音频特征进行相邻帧拼接处理和采样处理,如果采样率为6,那么600帧音频特征会进一步会转化成100帧拼接的音频特征。在将600帧音频特征转化成100帧拼接的音频特征时,会对任一指定时刻的音频特征进行编码,编码次数也为100。
本申请第一实施例中在对指定时刻的音频特征进行第二-N次编码时的过程类似,所以,本申请第一实施例中仅对指定时刻的音频特征进行第二次编码时的过程进行详细地说明。根据指定时刻的音频特征对应的第一编码音频特征和多个目标时刻的音频特征对应的第一编码音频特征,对指定时刻的音频特征进行第二次编码,获得第一音频特征对应的第二编码音频特征,包括:根据指定时刻的音频特征对应的第一编码线性音频特征、指定时刻的音频特征对应的第一编码非线性音频特征、多个目标时刻的音频特征对应的第一编码线性音频特征以及多个目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码,获得第一音频特征对应的第二编码音频特征。
由于在每次编码过程都需要用到线性音频特征和非线性音频特征,在本申请第一实施例中具体以对指定时刻的音频特征进行第二次编码进行说明,在对指定时刻的音频特征进行第二次编码之前还需要对第一音频特征对应的第一编码音频特征进行线性变换,获得第一音频特征对应的第一编码线性音频特征;对第一音频特征对应的第一编码线性音频特征进行线性整流,获得第一音频特征对应的第一编码非线性音频特征。
本申请第一实施例中对线性音频特征进行线性整流获得非线性音频特征时,一般是通过ReLU函数(Rectified Linear Unit,线性整流函数)来实现。
在执行步骤S302过程中,需要在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,本申请第一实施例中在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征的步骤请参照图5,其为本申请第一实施中提供的一种选择多个目标时刻的音频特征的方法的流程图。
在步骤S501中,确定与指定时刻的音频特征相邻的音频特征的范围。
确定与指定时刻的音频特征相邻的音频特征的范围,包括:确定在指定时刻的音频特征之前、与指定时刻的音频特征相邻的音频特征的第一范围,并确定在指定时刻的音频特征之后、与指定时刻的音频特征相邻的音频特征的第二范围。
在步骤S502中,根据与指定时刻的音频特征相邻的音频特征的范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
根据与指定时刻的音频特征相邻的音频特征的范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一范围和第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。具体的,在根据第一范围和第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时,需要首先,确定步幅因子,步幅因子为用于指示在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔;然后,再根据步幅因子、根据第一范围以及第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
需要说明的是,根据步幅因子、根据第一范围以及第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一步幅因子和第一范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
需要说明的是,根据步幅因子、根据第一范围以及第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第二步幅因子和第二范围,在与指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
在步骤S403中,将第一音频特征对应的最终编码音频特征作为第二音频特征。
在获得第二音频特征,需要进一步根据第二特征来获得音频信息对应的文本信息。
在步骤S303中,获得音频信息对应的已解码文本信息。
本申请第一实施例中,已解码文本信息可以为在当前时刻之前已经获得的音频信息对应的文本信息,当前时刻之前未获得的音频信息对应的文本信息时,已解码文本信息也可以为用于指示对第二音频信息对应的待解码音频信息进行解码的指示信息。
在步骤S304中,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。
根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息具体包括:根据第二音频特征和已解码文本信息,对第二音频信息对应的待解码音频信息进行解码,获得音频信息对应的文本信息,具体过程请参照图6,其为本申请第一实施例中提供的一种获得音频信息对应的文本信息的方法的流程图。
在步骤S601中,获得第二音频特征对应的第一待解码音频信息。
本申请第一实施例中,解码过程是将前一时刻的解码结果和编码器的编码表达输入到一个解码器中,得到相对应的解码输出的过程。
在步骤S602中,根据第二音频特征和已解码文本信息,对第一待解码音频信息进行解码,获得第一解码文本信息。
根据第二音频特征和已解码文本信息,对第一待解码音频信息进行解码,获得第一解码文本信息的具体过程为:
首先,根据第二音频特征和已解码文本信息,对第一待解码音频信息进行解码,获得第一待解码音频信息对应的文本信息。
然后,根据第一待解码音频信息对应的文本信息和已解码文本信息,获得第一解码文本信息。即,根据第二音频特征和已解码文本信息,获得第一待解码音频信息对应的文本单位的预测值;获得文本单位的概率分布;获得概率值最大的文本单位,作为第一待解码音频信息对应的文本信息。
在步骤S603中,更新第一解码文本信息为已解码信息。
在步骤S604中,根据第二音频特征和已解码文本信息,对第二待解码音频信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对第二音频信息对应的全部待解码音频信息进行解码,获得音频信息对应的文本信息。
对本申请对第二-M待解码音频信息进行解码的过程,请参照在步骤S602中对第一待解码音频信息进行解码的过程。
本申请提供的音频信息处理方法,首先,获得音频信息对应的第一音频特征;其次,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征;再次,获得音频信息对应的已解码文本信息;最后,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。本申请提供的音频信息处理方法,能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征,对第一音频特征中指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征,并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息,本申请提供的音频信息处理方法,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要使用到的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
本申请第一实施例中提供的音频信息处理方法还包括:输出音频信息对应的文本信息。
第二实施例
与本申请第一实施例提供的一种音频信息处理方法相对应的,本申请第二实施例提供了一种音频信息处理装置。由于装置实施例基本相似于方法第一实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅示意性的。
如图7所示,其为本申请第二实施例中提供的一种音频信息处理装置的示意图。
该音频信息处理装置包括:
第一音频特征获得单元701,用于获得音频信息对应的第一音频特征;
第二音频特征获得单元702,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
已解码文本信息获得单元703,用于获得所述音频信息对应的已解码文本信息;
文本信息获得单元704,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
可选的,所述第二音频特征获得单元702,具体用于在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征;根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码。可选的,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码,包括:
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征;
根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,依次执行上述步骤,直至所述编码次数到达指定编码次数,完成对所述指定时刻的音频特征的编码;
将所述第一音频特征对应的最终编码音频特征作为所述第二音频特征。
可选的,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征,包括:根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征。
可选的,所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,包括:根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征。
可选的,还包括:
对所述第一音频特征对应的第一编码音频特征进行线性变换,获得所述第一音频特征对应的第一编码线性音频特征;
对所述第一音频特征对应的第一编码线性音频特征进行线性整流,获得所述第一音频特征对应的第一编码非线性音频特征。
可选的,所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定与所述指定时刻的音频特征相邻的音频特征的范围;
根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述确定与所述指定时刻的音频特征相邻的音频特征的范围,包括:确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围,并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围;
所述根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定步幅因子,所述步幅因子为用于指示在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔;
根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一步幅因子和所述第一范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第二步幅因子和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
可选的,所述文本信息获得单元704,具体用于根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息,包括:
获得所述第二音频特征对应的第一待解码音频信息;
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息;
获得所述第二音频特征对应的第二待解码音频信息;
更新所述第一解码文本信息为所述已解码信息;
根据所述第二音频特征和所述已解码文本信息,对所述第二待解码音频信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对所述第二音频信息对应的全部待解码音频信息进行解码,获得所述音频信息对应的文本信息。
可选的,所述已解码信息包括:用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息;
根据所述第一待解码音频信息对应的文本信息和所述已解码文本信息,获得第一解码文本信息。
可选的,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,获得所述第一待解码音频信息对应的文本单位的预测值;
获得所述文本单位的概率分布;
获得概率值最大的文本单位,作为所述第一待解码音频信息对应的文本信息。可选的,所述第一音频特征获得单元701,具体用于获得所述音频信息;对所述音频信息进行特征提取,获得所述第一音频特征。
可选的,所述对所述音频信息进行特征提取,获得所述第一音频特征,包括:对所述音频信息进行特征提取,获得所述音频信息对应的第一音频特征序列。
可选的,所述音频信息处理装置还包括:文本信息输出单元,用于输出所述音频信息对应的文本信息。
本申请第二实施例中提供的音频信息处理装置,首先,获得音频信息对应的第一音频特征;其次,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征;再次,获得音频信息对应的已解码文本信息;最后,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。本申请提供的音频信息处理装置,能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征,对第一音频特征中指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征,并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息,本申请提供的音频信息处理装置,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要使用到的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
第三实施例
与本申请第一实施例提供的音频信息处理方法相对应的,本申请第三实施例中提供一种电子设备。
如图8所示,图8为本申请实施例中提供的一种电子设备的示意图。所述电子设备包括:
处理器801;以及
存储器802,用于存储计算机程序,该设备通电并通过所述处理器运行该计算机程序后,执行本申请第一实施中所述的音频信息处理方法。
本申请第三实施例中提供的电子设备,首先,获得音频信息对应的第一音频特征;其次,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征;再次,获得音频信息对应的已解码文本信息;最后,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。本申请提供的音频信息处理电子设备,能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征,对第一音频特征中指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征,并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息,本申请提供的音频信息处理电子设备,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要使用到的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
需要说明的是,对于本申请第三实施例提供的电子设备执行的音频信息处理方法的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
第四实施例
与本申请第一实施例提供的音频信息处理方法相对应的,本申请第四实施例提供一种存储介质,该存储介质存储有计算机程序,该计算机程序被处理器运行,执行本申请第一实施中所述的音频信息处理方法。
本申请第四实施例中提供的存储介质,首先,获得音频信息对应的第一音频特征;其次,根据第一音频特征中指定时刻的音频特征和与指定时刻的音频特征相邻的音频特征,对指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征;再次,获得音频信息对应的已解码文本信息;最后,根据第二音频特征和已解码文本信息,获得音频信息对应的文本信息。本申请提供的音频信息处理存储介质,能够根据第一音频特征中指定时刻的音频特征和第一音频特征中与指定时刻的音频特征相邻的音频特征,对第一音频特征中指定时刻的音频特征进行编码,获得音频信息对应的第二音频特征,并进一步根据第二音频特征和已解码文本信息来获得音频信息对应的文本信息,本申请提供的音频信息处理存储介质,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要使用到的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
需要说明的是,对于本申请第四实施例提供的存储介质的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
第五实施例
在上述第一实施例中,提供了一种音频信号处理方法,与之相对应的,本申请第五实施例提供了一种智能音箱。
本申请第五实施例中提供的智能音箱,包括:音频采集设备和音频识别设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;所述音频采集设备,用于获得音频信息
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
第六实施例
在上述第一实施例中,提供了一种音频信号处理方法,与之相对应的,本申请第六实施例提供了一种车载智能语音交互装置。
本申请第六实施例中提供的车载智能语音交互装置,包括:音频采集设备、音频识别设备和执行设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;
所述音频采集设备,用于获得音频信息;
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;
所述执行设备,用于根据所述音频信息对应的文本信息执行相应指令。
第七实施例
在上述第一实施例中,提供了一种音频信号处理方法,与之相对应的,本申请第七实施例提供了一种音频信息处理系统。
本申请第七实施例中提供的音频信息处理系统,包括:客户端、服务端;
所述客户端,用于获得音频信息;将所述音频信息发送给所述服务端;
所述服务端,用于获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;将所述音频信息对应的文本信息提供给所述客户端。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、信息结构、程序的模块或其他信息。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的信息信号和载波。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (25)

1.一种音频信息处理方法,其特征在于,包括:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
2.根据权利要求1所述的音频信息处理方法,其特征在于,所述根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,包括:
在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征;
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码。
3.根据权利要求2所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码,包括:
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征;
根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,依次执行上述步骤,直至所述编码次数到达指定编码次数,完成对所述指定时刻的音频特征的编码;
将所述第一音频特征对应的最终编码音频特征作为所述第二音频特征。
4.根据权利要求3所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征,包括:根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征。
5.根据权利要求3所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,包括:根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征。
6.根据权利要求5所述的音频信息处理方法,其特征在于,还包括:
对所述第一音频特征对应的第一编码音频特征进行线性变换,获得所述第一音频特征对应的第一编码线性音频特征;
对所述第一音频特征对应的第一编码线性音频特征进行线性整流,获得所述第一音频特征对应的第一编码非线性音频特征。
7.根据权利要求2所述的音频信息处理方法,其特征在于,所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定与所述指定时刻的音频特征相邻的音频特征的范围;
根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
8.根据权利要求7所述的音频信息处理方法,其特征在于,所述确定与所述指定时刻的音频特征相邻的音频特征的范围,包括:确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围,并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围;
所述根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
9.根据权利要求8所述的音频信息处理方法,其特征在于,所述根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定步幅因子,所述步幅因子为用于指示在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔;
根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
10.根据权利要求9所述的音频信息处理方法,其特征在于,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一步幅因子和所述第一范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
11.根据权利要求9所述的音频信息处理方法,其特征在于,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第二步幅因子和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
12.根据权利要求1所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息,包括:根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息。
13.根据权利要求12所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息,包括:
获得所述第二音频特征对应的第一待解码音频信息;
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息;
获得所述第二音频特征对应的第二待解码音频信息;
更新所述第一解码文本信息为所述已解码信息;
根据所述第二音频特征和所述已解码文本信息,对所述第二待解码音频信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对所述第二音频信息对应的全部待解码音频信息进行解码,获得所述音频信息对应的文本信息。
14.根据权利要求13所述的音频信息处理方法,其特征在于,所述已解码信息包括:用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。
15.根据权利要求13所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息;
根据所述第一待解码音频信息对应的文本信息和所述已解码文本信息,获得第一解码文本信息。
16.根据权利要求15所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,获得所述第一待解码音频信息对应的文本单位的预测值;
获得所述文本单位的概率分布;
获得概率值最大的文本单位,作为所述第一待解码音频信息对应的文本信息。
17.根据权利要求1所述的音频信息处理方法,其特征在于,所述获得音频信息对应的第一音频特征,包括:
获得所述音频信息;
对所述音频信息进行特征提取,获得所述第一音频特征。
18.根据权利要求17所述的音频信息处理方法,其特征在于,所述对所述音频信息进行特征提取,获得所述第一音频特征,包括:对所述音频信息进行特征提取,获得所述音频信息对应的第一音频特征序列。
19.根据权利要求1所述的音频信息处理方法,其特征在于,还包括:输出所述音频信息对应的文本信息。
20.一种音频信息处理装置,其特征在于,包括:
第一音频特征获得单元,用于获得音频信息对应的第一音频特征;
第二音频特征获得单元,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
已解码文本信息获得单元,用于获得所述音频信息对应的已解码文本信息;
文本信息获得单元,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
21.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储音频信息处理方法的程序,该设备通电并通过所述处理器运行所述音频信息处理方法的程序后,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
22.一种存储设备,其特征在于,存储有音频信息处理方法的程序,该程序被处理器运行,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
23.一种智能音箱,其特征在于,包括:音频采集设备和音频识别设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;所述音频采集设备,用于获得音频信息
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
24.一种车载智能语音交互装置,其特征在于,包括:音频采集设备、音频识别设备和执行设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;
所述音频采集设备,用于获得音频信息;
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;
所述执行设备,用于根据所述音频信息对应的文本信息执行相应指令。
25.一种音频信息处理系统,其特征在于,包括:客户端、服务端;
所述客户端,用于获得音频信息;将所述音频信息发送给所述服务端;
所述服务端,用于获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;将所述音频信息对应的文本信息提供给所述客户端。
CN202010026971.9A 2020-01-10 2020-01-10 一种音频信息处理方法、装置、电子设备以及存储介质 Active CN113112993B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010026971.9A CN113112993B (zh) 2020-01-10 2020-01-10 一种音频信息处理方法、装置、电子设备以及存储介质
EP21738888.3A EP4089671A4 (en) 2020-01-10 2021-01-08 AUDIO INFORMATION PROCESSING METHOD AND APPARATUS, ELECTRONIC DEVICE AND STORAGE MEDIUM
PCT/CN2021/070879 WO2021139772A1 (zh) 2020-01-10 2021-01-08 一种音频信息处理方法、装置、电子设备以及存储介质
US17/789,055 US20230047378A1 (en) 2020-01-10 2021-01-08 Processing accelerator architectures

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010026971.9A CN113112993B (zh) 2020-01-10 2020-01-10 一种音频信息处理方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113112993A true CN113112993A (zh) 2021-07-13
CN113112993B CN113112993B (zh) 2024-04-02

Family

ID=76708744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010026971.9A Active CN113112993B (zh) 2020-01-10 2020-01-10 一种音频信息处理方法、装置、电子设备以及存储介质

Country Status (4)

Country Link
US (1) US20230047378A1 (zh)
EP (1) EP4089671A4 (zh)
CN (1) CN113112993B (zh)
WO (1) WO2021139772A1 (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680130A (en) * 1994-04-01 1997-10-21 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus, information transmission method, and information recording medium
JP2001242890A (ja) * 2000-02-28 2001-09-07 Kanaasu Data Kk 音声データのデータ構造、生成方法、再生方法、記録方法、記録媒体、配信方法、及びマルチメディアの再生方法
US20030055634A1 (en) * 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
US6549147B1 (en) * 1999-05-21 2003-04-15 Nippon Telegraph And Telephone Corporation Methods, apparatuses and recorded medium for reversible encoding and decoding
CN1623289A (zh) * 2002-04-05 2005-06-01 国际商业机器公司 基于特征的音频内容识别
CN1661675A (zh) * 2004-02-26 2005-08-31 世嘉股份有限公司 语音分析设备、语音分析方法和语音分析程序
KR20080012000A (ko) * 2006-08-02 2008-02-11 엠텍비젼 주식회사 디지털 오디오 데이터의 복호화 방법, 디지털 오디오데이터의 복호화 장치 및 디지털 오디오 데이터의 복호화방법을 수행하는 기록매체
CN102257564A (zh) * 2009-10-21 2011-11-23 松下电器产业株式会社 音频编码装置、解码装置、方法、电路及程序
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
US20140093086A1 (en) * 2011-06-02 2014-04-03 Huawei Technologies Co., Ltd. Audio Encoding Method and Apparatus, Audio Decoding Method and Apparatus, and Encoding/Decoding System
WO2017054496A1 (zh) * 2015-09-30 2017-04-06 中兴通讯股份有限公司 一种发送文本信息、获取文本信息的方法及装置
JP2017090789A (ja) * 2015-11-13 2017-05-25 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN109509475A (zh) * 2018-12-28 2019-03-22 出门问问信息科技有限公司 语音识别的方法、装置、电子设备及计算机可读存储介质
US20190370316A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Information processing method and related device

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
CN101178897B (zh) * 2007-12-05 2011-04-20 浙江大学 利用基频包络剔除情感语音的说话人识别方法
CN101740030B (zh) * 2008-11-04 2012-07-18 北京中星微电子有限公司 语音信号的发送及接收方法、及其装置
CN103123787B (zh) * 2011-11-21 2015-11-18 金峰 一种移动终端与媒体同步与交互的方法
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
CN107170453B (zh) * 2017-05-18 2020-11-03 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN110197658B (zh) * 2019-05-30 2021-01-26 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680130A (en) * 1994-04-01 1997-10-21 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus, information transmission method, and information recording medium
US6549147B1 (en) * 1999-05-21 2003-04-15 Nippon Telegraph And Telephone Corporation Methods, apparatuses and recorded medium for reversible encoding and decoding
JP2001242890A (ja) * 2000-02-28 2001-09-07 Kanaasu Data Kk 音声データのデータ構造、生成方法、再生方法、記録方法、記録媒体、配信方法、及びマルチメディアの再生方法
US20030055634A1 (en) * 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
CN1623289A (zh) * 2002-04-05 2005-06-01 国际商业机器公司 基于特征的音频内容识别
CN1661675A (zh) * 2004-02-26 2005-08-31 世嘉股份有限公司 语音分析设备、语音分析方法和语音分析程序
KR20080012000A (ko) * 2006-08-02 2008-02-11 엠텍비젼 주식회사 디지털 오디오 데이터의 복호화 방법, 디지털 오디오데이터의 복호화 장치 및 디지털 오디오 데이터의 복호화방법을 수행하는 기록매체
CN102257564A (zh) * 2009-10-21 2011-11-23 松下电器产业株式会社 音频编码装置、解码装置、方法、电路及程序
US20140093086A1 (en) * 2011-06-02 2014-04-03 Huawei Technologies Co., Ltd. Audio Encoding Method and Apparatus, Audio Decoding Method and Apparatus, and Encoding/Decoding System
CN102708862A (zh) * 2012-04-27 2012-10-03 苏州思必驰信息科技有限公司 触控辅助的实时语音识别系统及其同步解码方法
WO2017054496A1 (zh) * 2015-09-30 2017-04-06 中兴通讯股份有限公司 一种发送文本信息、获取文本信息的方法及装置
JP2017090789A (ja) * 2015-11-13 2017-05-25 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN107871497A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 语音识别方法和装置
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US20190370316A1 (en) * 2017-06-22 2019-12-05 Tencent Technology (Shenzhen) Company Limited Information processing method and related device
CN109509475A (zh) * 2018-12-28 2019-03-22 出门问问信息科技有限公司 语音识别的方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
US20230047378A1 (en) 2023-02-16
EP4089671A4 (en) 2024-02-21
WO2021139772A1 (zh) 2021-07-15
EP4089671A1 (en) 2022-11-16
CN113112993B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
EP3255633B1 (en) Audio content recognition method and device
WO2016119604A1 (zh) 一种语音信息搜索方法、装置及服务器
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
US20230090590A1 (en) Speech recognition and codec method and apparatus, electronic device and storage medium
CN103514882A (zh) 一种语音识别方法及系统
CN107680584B (zh) 用于切分音频的方法和装置
CN106550268B (zh) 视频处理方法和视频处理装置
CN114360485A (zh) 语音处理方法、系统、装置及介质
CN114495977A (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN113782042A (zh) 语音合成方法、声码器的训练方法、装置、设备及介质
CN111400463A (zh) 对话响应方法、装置、设备和介质
CN117496960A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN113112993B (zh) 一种音频信息处理方法、装置、电子设备以及存储介质
CN111489745A (zh) 一种应用于人工智能的汉语语音识别系统
CN113782005B (zh) 语音识别方法及装置、存储介质及电子设备
CN113409756B (zh) 语音合成方法、系统、设备及存储介质
CN113257238A (zh) 预训练模型的训练方法、编码特征获取方法及相关装置
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN110909613B (zh) 视频人物识别方法、装置、存储介质与电子设备
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US7200557B2 (en) Method of reducing index sizes used to represent spectral content vectors
CN112420022B (zh) 一种噪声提取方法、装置、设备和存储介质
CN116798409A (zh) 语音处理方法、存储介质及系统
CN116644154A (zh) 文本语义匹配方法及冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant