CN115440198A - 混合音频信号的转换方法、装置、计算机设备和存储介质 - Google Patents

混合音频信号的转换方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115440198A
CN115440198A CN202211388921.0A CN202211388921A CN115440198A CN 115440198 A CN115440198 A CN 115440198A CN 202211388921 A CN202211388921 A CN 202211388921A CN 115440198 A CN115440198 A CN 115440198A
Authority
CN
China
Prior art keywords
audio signal
sample
conversion
mixed audio
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211388921.0A
Other languages
English (en)
Other versions
CN115440198B (zh
Inventor
黄文琦
林全郴
梁凌宇
郭尧
陈彬
林克全
林志达
陈英达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202211388921.0A priority Critical patent/CN115440198B/zh
Publication of CN115440198A publication Critical patent/CN115440198A/zh
Application granted granted Critical
Publication of CN115440198B publication Critical patent/CN115440198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请涉及一种混合音频信号的转换方法、装置、计算机设备和存储介质。所述方法包括:获取多人会话场景下的混合音频信号,将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本,其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。采用本方法能够提高混合音频信号的转换效率。

Description

混合音频信号的转换方法、装置、计算机设备和存储介质
技术领域
本申请涉及语音识别技术领域,特别是涉及一种混合音频信号的转换方法、装置、计算机设备和存储介质。
背景技术
随着移动互联网时代的发展,产生了越来越多不同种类的音频数据,例如,多人会话的混合音频数据等。如何在这些音频数据中获取感兴趣的信息成为了目前的研究热点,通常,获取音频数据中的感兴趣信息需要先将音频数据转换成文本数据。
传统技术中,将多人会话的混合音频数据转换为文本数据主要是通过识别混合音频数据中单人的语音信号,再分别对单人的语音信号进行转换,得到单人语音信号对应的转换文本数据,进而对单人语音信号对应的转换文本数据进行排序,得到混合音频数据对应的转换文本。
然而,传统方法存在对混合音频数据的转换效率较低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对混合音频数据的转换效率的混合音频信号的转换方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种混合音频信号的转换方法。所述方法包括:
获取多人会话场景下的混合音频信号;
将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本;其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
在其中一个实施例中,所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络,所述将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本,包括:
将所述混合音频信号输入所述编码器子网络,获取所述混合音频信号中各单人音频信号的特征信息;
将各所述特征信息输入所述注意力机制子网络,获取各所述单人音频信号对应的识别权重;
将各所述特征信息和各所述识别权重输入所述解码器子网络,得到转换文本。
在其中一个实施例中,所述获取多人会话场景下的混合音频信号,包括:
获取所述多人会话场景下的初始混合音频信号;
对所述初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到所述混合音频信号;所述目标声纹信息包括空白声纹信息和噪音声纹信息。
在其中一个实施例中,所述转换模型的训练过程包括:
将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到所述样本混合音频信号对应的样本转换文本;
根据所述样本转换文本和金标准转换文本,得到所述初始转换模型的损失函数的值;
根据所述损失函数的值对所述初始转换模型进行训练,得到所述转换模型。
在其中一个实施例中,所述金标准转换文本的获取过程包括:
对所述样本混合音频信号的声纹进行识别,获取所述样本混合音频信号中多个单人样本音频信号;
对于各所述单人样本音频信号,将所述单人样本音频信号输入预设的神经网络模型中,获取所述单人样本音频信号对应的单位样本转换文本;所述神经网络模型用于将单人音频信号转换为对应的单位转换文本;
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理,得到所述金标准转换文本。
在其中一个实施例中,所述按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理,得到所述金标准转换文本,包括:
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本;
在所述排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本;
根据所述处理后的单位样本转换文本的初始符号和结束符号,对所述处理后的单位样本转换文本进行首尾拼接,得到所述金标准转换文本。
在其中一个实施例中,所述按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本,包括:
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;
或者,
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
第二方面,本申请还提供了一种混合音频信号的转换装置。所述装置包括:
第一获取模块,用于获取多人会话场景下的混合音频信号;
第二获取模块,用于将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本;其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的方法。
上述混合音频信号的转换方法、装置、计算机设备和存储介质,通过获取多人会话场景下的混合音频信号,将混合音频信号输入预设的转换模型中,从而可以根据混合音频信号和转换模型快速的获取混合音频信号对应的转换文本,这样通过转换模型就能够直接将获取的混合音频信号转换成文本数据,相比于传统技术,减少了将混合音频信号进行音频分离处理的步骤,提高了获取混合音频信号的转换文本效率;另外,由于获取的转换文本中包括的是多个按照时序排列的单人音频信号对应的单位转换文本,通过该时序排列关系能够表征各单人音频信号对应的单位转换文本之间的连贯性和依赖性,使得转换文本更加容易理解,避免了因转换文本的可读性较低而引起的转换不准确和重复转换的问题,从而提高了混合音频信号的转换效率和转换的准确度。
附图说明
图1为一个实施例中混合音频信号的转换方法的应用环境图;
图2为一个实施例中混合音频信号的转换方法的第一流程示意图;
图3为一个实施例中混合音频信号的转换方法的第二流程示意图;
图4为一个实施例中混合音频信号的转换方法的第三流程示意图;
图5为一个实施例中混合音频信号的转换方法的第四流程示意图;
图6为一个实施例中混合音频信号的转换方法的第五流程示意图;
图7为一个实施例中混合音频信号的转换方法的第六流程示意图;
图8为一个实施例中混合音频信号的转换装置的结构框图;
图9为另一个实施例中混合音频信号的转换装置的结构框图;
图10为另一个实施例中混合音频信号的转换方法的应用环境图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
通常,识别音频信号的方法是将音频信号转换成文本数据,从文本数据中获取音频信号中包含的感兴趣的信息,目前将多人说话的混合音频信号转换成文本数据的方法是先将混合音频信号进行语音分离处理为单人音频信号,再对单人音频信号进行语音转换处理,然而上述方法的转换效率较低,不能适用于海量的音频信号识别处理。因此,本申请提出了一种能够提高混合音频信号的转换效率的混合音频信号的转换方法。
本申请实施例提供的混合音频信号的转换方法,可以应用于如图1所示的应用环境中。其中,音频采集设备102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,音频采集设备102可以但不限于是各种笔记本电脑、智能手机、平板电脑、话筒、录音笔等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种混合音频信号的转换方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S201,获取多人会话场景下的混合音频信号。
其中,多人会话场景为包括两个及两个以上说话人进行日常对话或者会议的场景,在上述场景下产生的音频信号为混合音频信号,示例性地,可以将在多人会话场景下包含有两个不同说话声音的音频信号确定为混合音频信号,也可以将包含有三个不同说话声音的音频信号确定为混合音频信号。
可选的,可以将通过手机录音得到的包含多人讲话的声音片段作为混合音频信号,或者,也可以将通过音频采集设备采集到的包含多人讲话的声音片段作为混合音频信号。可选的,在本实施例中,可以实时的获取混合音频信号,也可以从预先录制的音频信号中,获取一段时长内的混合音频信号。
S202,将混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本;其中,转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
其中,转换文本可以包括多个按照时序倒序排列的单位转换文本,也可以包括多个按照时序顺序排列的单位转换文本。可选的,预设的转换模型可以为反向传播(BackPropagation,BP)神经网络模型,也可以为卷积神经网络(Convolutional NeuralNetwork,CNN)模型,本实施例在此不做限制。
可选的,在本实施例中,可以将获取的混合音频信号输入至转换模型中,通过转换模型识别出混合音频信号中不同说话人的多个单人音频信号,并对多个单人音频信号进行音频信号的转换处理,得到对应的多个单位转换文本,按照各单位转换文本对应的音频信号的生成时间进行排序,获取混合音频信号对应的转换文本。作为另一种可选的实施方式,也可以是将获取的混合音频信号输入预设的转换模型,通过转换模型对混合音频信号进行时序特征的提取,进而按照提取的时序特征,将混合音频信号中的各单人音频信号转换为对应的单位转换文本,得到混合音频信号的转换文本。
上述混合音频信号的转换方法中,通过获取多人会话场景下的混合音频信号,将混合音频信号输入预设的转换模型中,从而可以根据混合音频信号和转换模型快速的获取混合音频信号对应的转换文本,这样通过转换模型就能够直接将获取的混合音频信号转换成文本数据,相比于传统技术,减少了将混合音频信号进行音频分离处理的步骤,提高了获取混合音频信号的转换文本效率;另外,由于获取的转换文本中包括的是多个按照时序排列的单人音频信号对应的单位转换文本,通过该时序排列关系能够表征各单人音频信号对应的单位转换文本之间的连贯性和依赖性,使得转换文本更加容易理解,避免了因转换文本的可读性较低而引起的混合音频信号转换不准确和重复转换的问题,从而提高了混合音频信号的转换效率和转换的准确度。
在上述将获取的混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本的场景中,在一个实施例中,上述转换模型包括编码器子网络、注意力机制子网络和解码器子网络,如图3所示,上述S202,包括:
S301,将混合音频信号输入编码器子网络,获取混合音频信号中各单人音频信号的特征信息。
其中,编码器子网络为神经网络中用于特征提取和数据降维的子网络,在本实施例中,可以将获取的混合音频信号输入至编码器子网络,利用编码器子网络提取混合音频信号中的特征信息,从而获取混合音频信号中各单人音频信号的特征信息,例如,该特征信息可以包括各单人音频信号的时序特征和音频特征等等。
下边进一步地对各单人音频信号的特征信息加以说明,可以理解的是,音频信号一般被认为是短时平稳的信号,可选的,在本实施例中,单人音频信号的特征信息可以为音频信号的短时平均幅度,也可以为音频信号的共振峰频率,也可以为音频信号的短时过零率,例如,说话的声音可以分为轻音和浊音,轻音的短时平均幅度小,短时过零率高,浊音的短时平均幅度大,短时过零率低;音频信号的特征信息也可以为对应的生成时间,例如,第一个连续音频信号对应的生成时间是第0.01秒,第二个连续音频信号对应的生成时间是第15秒。
S302,将各特征信息输入注意力机制子网络,获取各单人音频信号对应的识别权重。
其中,注意力机制子网络为神经网络中对不同特征信息分配权重的子网络,在本实施例中,可以根据各单人音频信号的特征信息对各单人音频信号分配不同的权重,示例性的,可以对于音频信号的短时平均幅度强的分配较高的识别权重,或者,也可以对于音频信号的短时过零率低的分配较高的识别权重。
S303,将各特征信息和各识别权重输入解码器子网络,得到转换文本。
其中,解码器子网络为神经网络中根据提取的特征信息和分配的权重输出结果的子网络,在本实施例中,对于混合音频信号,可以根据提取的各单人音频信号的特征信息,以及根据特征信息分配的对应的识别权重,得到各单人音频信号对应的单位转换文本,进而根据各单位转换文本按照时间排序,得到混合音频信号对应的转换文本。进一步地,作为一种可选的实施方式,还可以将上述得到的转换文本显示在显示屏中,以直观地显示混合音频信号对应的文本信息。
本实施例中,通过将混合音频信号输入编码器子网络,能够获取混合音频信号中各单人音频信号的特征信息,从而将各特征信息输入注意力机制子网络,能够获取各单人音频信号对应的识别权重,进而将各特征信息和各识别权重输入解码器子网络,能够得到混合音频信号对应的转换文本,提高了获取的混合音频信号对应的转换文本的准确度。
在上述获取混合音频信号的场景中,由于混合音频信号中可能存在无人说话的音频片段或者噪音片段,需要对获取的初始混合音频信号进行预处理。在一个实施例中,如图4所示,上述S201,包括:
S401,获取多人会话场景下的初始混合音频信号。
可选的,在本实施例中,可以从手机中获取多人会话时的初始混合音频信号,或者,也可以从音频采集设备中获取多人会话的初始混合音频信号。可选的,在本实施例中,可以是服务器向采集初始混合音频信号的设备发送获取指令,以使该设备将采集的初始混合音频信号发送给服务器,也可以是采集初始混合音频信号的设备实时地将采集到的初始混合音频信号自主地发送给服务器。
S402,对初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到混合音频信号,目标声纹信息包括空白声纹信息和噪音声纹信息。
其中,声纹信息指的是携带言语信息的声波频谱,由于说话时发声器官的尺寸和形态的不同,不同用户的声纹信息的图谱也不相同。本实施例中,目标声纹信息为混合音频信号对应的声纹信息中需要剔除掉的声纹信息,即目标声纹信息可以包括空白声纹信息和噪音声纹信息等。可选的,在本实施例中,可以将无人说话的音频片段对应的声纹信息作为目标声纹信息中的空白声纹信息,也可以将噪音片段对应的声纹信息作为目标声纹信息中的噪音声纹信息。
在本实施例中,根据上述目标声纹信息对获取的初始混合音频信的声纹信息进行筛选处理,将符合空白声纹信息或者噪音声纹信息的声纹信息剔除,将筛选后的声纹信息对应的初始混合音频信号作为上述混合音频信号。
本实施例中,通过获取多人会话场景下的初始混合音频信号,然后对初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,能够剔除掉获取的初始混合音频信号中的无人说话的音频片段和噪音片段对应的声纹信息,减少了得到的混合音频信号中的干扰音频信号,从而可以提高获取混合音频信号对应的转换文本的效率和准确度。
在上述将获取的混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本的场景中,需要先对初始的转换模型进行训练,在一个实施例中,如图5所示,上述转换模型的训练过程包括:
S501,将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本。
可选的,样本混合音频信号可以是通过手机录音得到的包含多人讲话的声音片段,或者,也可以是通过音频采集设备采集到的包含多人讲话的声音片段。
可选的,初始转换模型可以包括初始编码器子网络、初始注意力机制子网络和初始解码器子网络,在本实施例中,将获取的样本混合音频信号输入预设的初始转换模型中,经过初始编码器子网络、初始注意力机制子网络和初始解码器子网络的处理,得到初始转换模型的输出结果,将输出结果作为样本转换文本。
S502,根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值。
其中,金标准转换文本为混合音频信号的标准转换文本。可选的,在本实施例中,可以将得到的样本转换文本与金标准转换文本进行比较,根据比较结果确定初始转换模型的损失函数的值,可选的,损失函数可以是均方误差函数,也可以是交叉熵误差函数。
S503,根据损失函数的值对初始转换模型进行训练,得到转换模型。
可选的,在本实施例中,可以根据损失函数的值,计算初始转化模型中每个参数的梯度,根据计算结果对初始转换模型的参数进行更新,进而根据更新后的初始转换模型获取样本混合音频信号的样本转换文本,直到损失函数的值达到稳定值或者最小值,并将损失函数达到稳定值或者最小值对应的初始转换模型作为转换模型。
本实施例中,通过将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,能够得到样本混合音频信号对应的样本转换文本,从而可以根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值,进而可以根据损失函数的值对初始转换模型进行训练,得到转换模型,使得能够根据样本混合音频信号和对应的样本转换文本对初始转换模型训练,得到精度更高的转换模型,从而提高获取的混合音频信号的转换文本的准确度。
在上述对初始的转换模型进行训练的场景中,需要先获取金标准转换文本,在一个实施例中,如图6所示,上述金标准转换文本的获取过程包括:
S601,对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号。
可选的,在本实施中,可以通过人工标注的方法或者自动化标注的方法,对样本混合音频信号中不同说话人的音频信号对应的声纹信息进行标注,获取样本混合音频信号中带有标注信息的多个单人样本音频信号。
上述标注信息可以包括不同说话人的说话时间,示例性的,若说话人A只有一个语音片段,则样本混合音频信号中包含一个带有说话人A的说话时间的音频信号;若说话人B有两个语音片段,则样本混合音频信号中包含两个带有说话人B的说话时间的音频信号。
S602,对于各单人样本音频信号,将单人样本音频信号输入预设的神经网络模型中,获取单人样本音频信号对应的单位样本转换文本;神经网络模型用于将单人音频信号转换为对应的单位转换文本。
其中,预设的神经网络模型可以为反向传播(Back Propagation,BP)神经网络模型,也可以为卷积神经网络(Convolutional Neural Network,CNN)模型,本实施例在此不做限制。可选的,在本实施例中,可以将带有标注信息的各单人样本音频信号分别输入预设的神经网络模型中,通过该神经网络模型将各单人样本音频信号转换为对应的单位样本转换文本,得到多个带有标注信息的单位转换文本。
S603,按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本。
在本实施例中,通过预设的神经网络模型将各样本单人音频信号转换成对应的各样本单位转换文本后,可以根据各单人样本音频信号的标注信息,获取每个说话人的各个音频信号的生成时间,根据生成时间将对应的各样本单位转换文本进行拼接处理,从而得到拼接处理后的样本转换文本,将拼接后的样本转换文本作为金标准转换文本。
本实施例中,通过对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号,进一步的对于各单人样本音频信号,将单人样本音频信号输入预设的用于将单人音频信号转换为对应的单位转换文本的神经网络模型中,能够获取各单人样本音频信号对应的各单位样本转换文本,从而按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,能够得到金标准转换文本,由于是通过样本混合音频信号得到的多个单人样本音频信号,从而得到的多个对应的单位转换文本,进而将多个单位转换文本拼接得到的金标准转换文本,保证了金标准转换文本的正确性和准确度,进一步的,利用得到的金标准转换文本对初始转换模型训练,提高了转换模型的精度和输出的转换文本准确度。
在上述按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本的场景中,需要根据生成时间各单人样本音频信号进行排序。在一个实施例中,如图7所示,上述S603,包括:
S701,按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本。
可选的,可以按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;或者,也可以按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
S702,在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本。
在本实施例中,可以在上述得到的排序后的各单位样本转换文本的初始字符处插入开始符号,以及在结尾字符处插入结束符号。
示例性的,可以在第一个单位样本转换文本的初始字符处插入开始符号,可以在第一个单位样本转换文本的结尾字符处插入结束符号,可以在第二个单位样本转换文本的开始字符处插入开始符号,在第二个单位样本转换文本的结尾字符处插入结束符号,得到处理后的单位样本转换文本。需要说明的是,最后一个单位样本转换文本的结尾字符插入的结束符号与其他的结束符号不相同,例如,其他结束符号为逗号,最后一个单位样本转换文本的结尾字符插入的结束符号为句号。
S703,根据处理后的单位样本转换文本的初始符号和结束符号,对处理后的单位样本转换文本进行首尾拼接,得到金标准转换文本。
在本实施例中,根据插入的初始符号和结束符号对上述处理之后的单位样本文本进行首尾拼接处理时,可以将前一个结尾符号与后一个开始符号依次拼接,得到拼接处理后的样本转换文本,将拼接处理后的样本转换文本作为金标准转换文本。例如,处理后的第一个单位样本转换文本为“\xxxxx;”处理后的第二个单位样本转换文本为“\aaaaaa;”,处理后的最后一个单位样本转换文本为“\bbbbbb。”,则对处理后的单位样本转换文本进行首尾拼接得到的标准转换文本可以为“\xxxxx;\aaaaaa;\bbbbbb。”。
本实施例中,通过按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到了排序后的单位样本转换文本,进一步的,在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到了处理后的单位样本转换文本,使得可以根据处理后的单位样本转换文本的初始符号和结束符号,将处理后的单位样本转换文本进行首尾拼接处理,从而得到金标准转换文本,保证了各单位样本转换文本之间的连贯性和正确性,进而提高了得到的金标准转换文本的准确度。
下面结合一个具体的实施例,介绍混合音频信号的转换方法,包括如下步骤:
S1,获取样本混合音频信号。
S2,对获取的样本混合音频信号的声纹进行识别,获取样本混合音频信号中的多个单人样本音频信号。
S3,将各单人样本音频信号输入预设的神经网络模型中,得到多个对应的单位样本转换文本。
S4,根据各单人样本音频信号的生成时间,将单位样本转换文本进行排序,得到排序后的单位样本转换文本。
S5,在上述S4得到的排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本。
S6,将上述S5得到的处理后的单位样本转换文本进行首尾拼接,得到拼接后的单位样本转换文本,将拼接后的单位样本转换文本作为金标准转换文本。
S7,将获取的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本。
S8,根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值。
S9,根据损失函数的值对初始转换模型进行训练,得到训练好的转换模型。
S10,在实际对混合音频信号进行转换的场景中,将混合音频信号输入至训练好的转换模型中的编码器子网络中,获取混合音频信号中各单人音频信号的特征信息。
S11,将各特征信息输入训练好的转换模型中的注意力机制子网络,获取各单人音频信号对应的识别权重。
S12,将各特征信息和各识别权重输入训练好的转换模型中的解码器子网络,得到混合音频信号对应的转换文本。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的混合音频信号的转换方法的混合音频信号的转换装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个混合音频信号的转换装置实施例中的具体限定可以参见上文中对于混合音频信号的转换方法的限定,在此不再赘述。
在一个实施例中,如图8所示,提供了一种混合音频信号的转换装置,包括:第一获取模块11和第二获取模块12,其中:
第一获取模块11,用于获取多人会话场景下的混合音频信号。
第二获取模块12,用于将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本;其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,如图9所示,所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络,上述第二获取模块12,包括:第一获取单元121、第二获取单元122和第三获取单元123,其中:
第一获取单元121,用于将所述混合音频信号输入所述编码器子网络,获取所述混合音频信号中各单人音频信号的特征信息。
第二获取单元122,用于将各所述特征信息输入所述注意力机制子网络,获取各所述单人音频信号对应的识别权重。
第三获取单元123,用于将各所述特征信息和各所述识别权重输入所述解码器子网络,得到转换文本。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,请继续参照图9,上述第一获取模块11,包括:第四获取单元111和第五获取单元112,其中:
第四获取单元111,用于获取所述多人会话场景下的初始混合音频信号。
第五获取单元112,用于对所述初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到所述混合音频信号;所述目标声纹信息包括空白声纹信息和噪音声纹信息。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,请继续参照图9,上述装置还包括:第三获取模块13、第四获取模块14和第五获取模块15,其中:
第三获取模块13,用于将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本。
第四获取模块14,用于根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值。
第五获取模块15,用于根据损失函数的值对初始转换模型进行训练,得到转换模型。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,请继续参照图9,上述装置还包括:第六获取模块16、第七获取模块17和第八获取模块18,其中:
第六获取模块16,用于对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号。
第七获取模块17,用于对于各单人样本音频信号,将单人样本音频信号输入预设的神经网络模型中,获取单人样本音频信号对应的单位样本转换文本;神经网络模型用于将单人音频信号转换为对应的单位转换文本。
第八获取模块18,用于按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,请继续参照图9,上述第八获取模块18,包括:第六获取单元181,第七获取单元182和第八获取单元183,其中:
第六获取单元181,用于按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本。
第七获取单元182,用于在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本.
第八获取单元183,用于根据处理后的单位样本转换文本的初始符号和结束符号,对处理后的单位样本转换文本进行首尾拼接,得到金标准转换文本。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,请继续参照图9,上述第六获取单元181,具体用于:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;或者,按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
本实施例提供的混合音频信号的转换装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
上述混合音频信号的转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储混合音频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种混合音频信号的转换方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取多人会话场景下的混合音频信号;
将混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本;其中,转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
在一个实施例中,转换模型包括编码器子网络、注意力机制子网络和解码器子网络,处理器执行计算机程序时还实现以下步骤:
将混合音频信号输入编码器子网络,获取混合音频信号中各单人音频信号的特征信息;
将各特征信息输入注意力机制子网络,获取各单人音频信号对应的识别权重;
将各特征信息和各识别权重输入解码器子网络,得到转换文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取多人会话场景下的初始混合音频信号;
对初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到混合音频信号;目标声纹信息包括空白声纹信息和噪音声纹信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本;
根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值;
根据损失函数的值对初始转换模型进行训练,得到转换模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号;
对于各单人样本音频信号,将单人样本音频信号输入预设的神经网络模型中,获取单人样本音频信号对应的单位样本转换文本;神经网络模型用于将单人音频信号转换为对应的转换文本;
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本;
在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本;
根据处理后的单位样本转换文本的初始符号和结束符号,对处理后的单位样本转换文本进行首尾拼接,得到金标准转换文本。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;
或者,
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取多人会话场景下的混合音频信号;
将混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本;其中,转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
在一个实施例中,转换模型包括编码器子网络、注意力机制子网络和解码器子网络,计算机程序被处理器执行时还实现以下步骤:
将混合音频信号输入编码器子网络,获取混合音频信号中各单人音频信号的特征信息;
将各特征信息输入注意力机制子网络,获取各单人音频信号对应的识别权重;
将各特征信息和各识别权重输入解码器子网络,得到转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取多人会话场景下的初始混合音频信号;
对初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到混合音频信号;目标声纹信息包括空白声纹信息和噪音声纹信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本;
根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值;
根据损失函数的值对初始转换模型进行训练,得到转换模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号;
对于各单人样本音频信号,将单人样本音频信号输入预设的神经网络模型中,获取单人样本音频信号对应的单位样本转换文本;神经网络模型用于将单人音频信号转换为对应的转换文本;
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本;
在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本;
根据处理后的单位样本转换文本的初始符号和结束符号,对处理后的单位样本转换文本进行首尾拼接,得到金标准转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;
或者,
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取多人会话场景下的混合音频信号;
将混合音频信号输入预设的转换模型中,获取混合音频信号对应的转换文本;其中,转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
在一个实施例中,转换模型包括编码器子网络、注意力机制子网络和解码器子网络,计算机程序被处理器执行时还实现以下步骤:
将混合音频信号输入编码器子网络,获取混合音频信号中各单人音频信号的特征信息;
将各特征信息输入注意力机制子网络,获取各单人音频信号对应的识别权重;
将各特征信息和各识别权重输入解码器子网络,得到转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取多人会话场景下的初始混合音频信号;
对初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到混合音频信号;目标声纹信息包括空白声纹信息和噪音声纹信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到样本混合音频信号对应的样本转换文本;
根据样本转换文本和金标准转换文本,得到初始转换模型的损失函数的值;
根据损失函数的值对初始转换模型进行训练,得到转换模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对样本混合音频信号的声纹进行识别,获取样本混合音频信号中多个单人样本音频信号;
对于各单人样本音频信号,将单人样本音频信号输入预设的神经网络模型中,获取单人样本音频信号对应的单位样本转换文本;神经网络模型用于将单人音频信号转换为对应的转换文本;
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行拼接处理,得到金标准转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本;
在排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本;
根据处理后的单位样本转换文本的初始符号和结束符号,对处理后的单位样本转换文本进行首尾拼接,得到金标准转换文本。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;
或者,
按照各单人样本音频信号的生成时间,对各单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种混合音频信号的转换方法,其特征在于,所述方法包括:
获取多人会话场景下的混合音频信号;
将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本;其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
2.根据权利要求1所述的方法,其特征在于,所述转换模型包括编码器子网络、注意力机制子网络和解码器子网络,所述将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本,包括:
将所述混合音频信号输入所述编码器子网络,获取所述混合音频信号中各单人音频信号的特征信息;
将各所述特征信息输入所述注意力机制子网络,获取各所述单人音频信号对应的识别权重;
将各所述特征信息和各所述识别权重输入所述解码器子网络,得到转换文本。
3.根据权利要求1或2所述的方法,其特征在于,所述获取多人会话场景下的混合音频信号,包括:
获取所述多人会话场景下的初始混合音频信号;
对所述初始混合音频信号中的声纹信息进行识别,剔除掉目标声纹信息,得到所述混合音频信号;所述目标声纹信息包括空白声纹信息和噪音声纹信息。
4.根据权利要求1或2所述的方法,其特征在于,所述转换模型的训练过程包括:
将多人会话场景下的样本混合音频信号输入预设的初始转换模型中,得到所述样本混合音频信号对应的样本转换文本;
根据所述样本转换文本和金标准转换文本,得到所述初始转换模型的损失函数的值;
根据所述损失函数的值对所述初始转换模型进行训练,得到所述转换模型。
5.根据权利要求4所述的方法,其特征在于,所述金标准转换文本的获取过程包括:
对所述样本混合音频信号的声纹进行识别,获取所述样本混合音频信号中多个单人样本音频信号;
对于各所述单人样本音频信号,将所述单人样本音频信号输入预设的神经网络模型中,获取所述单人样本音频信号对应的单位样本转换文本;所述神经网络模型用于将单人音频信号转换为对应的单位转换文本;
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理,得到所述金标准转换文本。
6.根据权利要求5所述的方法,其特征在于,所述按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行拼接处理,得到所述金标准转换文本,包括:
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本;
在所述排序后的单位样本转换文本的初始字符和结尾字符中分别插入开始符号和结束符号,得到处理后的单位样本转换文本;
根据所述处理后的单位样本转换文本的初始符号和结束符号,对所述处理后的单位样本转换文本进行首尾拼接,得到所述金标准转换文本。
7.根据权利要求6所述的方法,其特征在于,所述按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行排序,得到排序后的单位样本转换文本,包括:
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行顺序排序,得到排序后的单位样本转换文本;
或者,
按照各所述单人样本音频信号的生成时间,对各所述单人样本音频信号对应的单位样本转换文本进行倒序排序,得到排序后的单位样本转换文本。
8.一种混合音频信号的转换装置,其特征在于,所述装置包括:
第一获取模块,用于获取多人会话场景下的混合音频信号;
第二获取模块,用于将所述混合音频信号输入预设的转换模型中,获取所述混合音频信号对应的转换文本;其中,所述转换文本包括多个按照时序排列的单人音频信号对应的单位转换文本。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211388921.0A 2022-11-08 2022-11-08 混合音频信号的转换方法、装置、计算机设备和存储介质 Active CN115440198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388921.0A CN115440198B (zh) 2022-11-08 2022-11-08 混合音频信号的转换方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388921.0A CN115440198B (zh) 2022-11-08 2022-11-08 混合音频信号的转换方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN115440198A true CN115440198A (zh) 2022-12-06
CN115440198B CN115440198B (zh) 2023-05-02

Family

ID=84252928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388921.0A Active CN115440198B (zh) 2022-11-08 2022-11-08 混合音频信号的转换方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115440198B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486130A (zh) * 2015-08-25 2017-03-08 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法及装置
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN111243579A (zh) * 2020-01-19 2020-06-05 清华大学 一种时域单通道多说话人语音识别方法与系统
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN111989742A (zh) * 2018-04-13 2020-11-24 三菱电机株式会社 语音识别系统及使用语音识别系统的方法
CN113903327A (zh) * 2021-09-13 2022-01-07 北京卷心菜科技有限公司 一种基于深度神经网络的语音环境气氛识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486130A (zh) * 2015-08-25 2017-03-08 百度在线网络技术(北京)有限公司 噪声消除、语音识别方法及装置
CN111989742A (zh) * 2018-04-13 2020-11-24 三菱电机株式会社 语音识别系统及使用语音识别系统的方法
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN111243579A (zh) * 2020-01-19 2020-06-05 清华大学 一种时域单通道多说话人语音识别方法与系统
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN113903327A (zh) * 2021-09-13 2022-01-07 北京卷心菜科技有限公司 一种基于深度神经网络的语音环境气氛识别方法

Also Published As

Publication number Publication date
CN115440198B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN106688034B (zh) 具有情感内容的文字至语音转换
CN108305643B (zh) 情感信息的确定方法和装置
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
US20160372118A1 (en) Context-dependent modeling of phonemes
CN110808034A (zh) 语音转换方法、装置、存储介质及电子设备
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN107274906A (zh) 语音信息处理方法、装置、终端及存储介质
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
CN104157285A (zh) 语音识别方法、装置及电子设备
CN112116903B (zh) 语音合成模型的生成方法、装置、存储介质及电子设备
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN112863489B (zh) 语音识别方法、装置、设备及介质
CN108764114B (zh) 一种信号识别方法及其设备、存储介质、终端
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
Soboleva et al. Replacing human audio with synthetic audio for on-device unspoken punctuation prediction
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN113724690B (zh) Ppg特征的输出方法、目标音频的输出方法及装置
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN115440198A (zh) 混合音频信号的转换方法、装置、计算机设备和存储介质
US12026632B2 (en) Response phrase selection device and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant