CN114220422A - 系统构建、信息录制、模型训练方法、装置、设备及介质 - Google Patents

系统构建、信息录制、模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN114220422A
CN114220422A CN202111626379.3A CN202111626379A CN114220422A CN 114220422 A CN114220422 A CN 114220422A CN 202111626379 A CN202111626379 A CN 202111626379A CN 114220422 A CN114220422 A CN 114220422A
Authority
CN
China
Prior art keywords
voice
simulation
recording
simulated
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111626379.3A
Other languages
English (en)
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Apollo Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Zhilian Beijing Technology Co Ltd filed Critical Apollo Zhilian Beijing Technology Co Ltd
Priority to CN202111626379.3A priority Critical patent/CN114220422A/zh
Publication of CN114220422A publication Critical patent/CN114220422A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开提供了一种系统构建、信息录制、模型训练方法、装置、设备及介质,涉及数据处理技术领域,尤其涉及语音技术、车辆网技术等人工智能技术领域。具体实现方案为:根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,所述仿真语音模块包括声音采集模块和声音输出模块;根据所述仿真语音模块和所述仿真位置分布,在仿真空间内构建所述仿真语音录制系统,用于仿真语音信息录制。根据本公开的技术,提高了语音信息录制的便捷度和稳定性。

Description

系统构建、信息录制、模型训练方法、装置、设备及介质
技术领域
本公开涉及数据处理技术领域,尤其涉及语音技术、车联网技术等人工智能技术领域,具体涉及一种语音录制系统构建方法、语音信息录制方法、语音识别模型训练方法、语音录制系统构建装置、语音信息录制装置、语音识别模型训练装置、电子设备及非瞬时计算机可读存储介质。
背景技术
随着人工智能技术的发展,语音系统被广泛地应用于各个领域。例如,可以采用车载终端进行语音识别等。为了使语音系统具备语音识别能力,通常需要在语音系统中采集大量语音信息,以供语音系统学习。
发明内容
本公开提供了一种语音录制系统构建方法、语音信息录制方法、语音识别模型训练方法、语音录制系统构建装置、语音信息录制装置、语音识别模型训练装置、电子设备及非瞬时计算机可读存储介质。
根据本公开的一方面,提供了一种语音录制系统构建方法,包括:
根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,仿真语音模块包括声音采集模块和声音输出模块;
根据仿真语音模块和仿真位置分布,在仿真空间内构建仿真语音录制系统,用于仿真语音信息录制。
根据本公开的另一方面,还提供了一种语音信息录制方法,包括:
根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号;其中,仿真语音录制系统基于本公开实施例提供的任意一种语音录制系统构建方法构建得到;
控制仿真语音录制系统中的声音采集模块采集声音信号,得到仿真语音信息。
根据本公开的另一方面,还提供了一种语音识别模型训练方法,包括:
获取仿真语音信息;其中,仿真语音信息基于本公开实施例提供的任意一种语音信息录制方法采集得到;
根据仿真语音信息,对待仿真语音系统中的语音识别模型进行训练。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例提供的语音录制系统构建方法、语音信息录制方法和语音识别模型训练方法中的任意一种。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例提供的语音录制系统构建方法、语音信息录制方法和语音识别模型训练方法中的任意一种。
根据本公开的技术,提高了语音信息录制的便捷度和稳定性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种语音录制系统构建方法的流程图;
图2是本公开实施例提供的一种语音信息录制方法的流程图;
图3是本公开实施例提供的一种语音识别模型训练方法的流程图;
图4是本公开实施例提供的一种语音录制系统构建装置的结构图;
图5是本公开实施例提供的一种语音信息录制装置的结构图;
图6是本公开实施例提供的一种语音识别模型训练装置的结构图;
图7是用来实现本公开实施例的语音录制系统构建方法、语音信息录制方法、或语音识别模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例提供的语音录制系统构建方法,适用于对进行仿真语音信息录制的仿真语音录制系统的构建场景。本公开实施例所提供的各语音录制系统构建方法,可以由语音录制系统构建装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。
为了便于理解,首先对语音录制系统构建方法进行详细说明。
参见图1所示的一种语音录制系统构建方法,包括:
S101、根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,仿真语音模块包括声音采集模块和声音输出模块。
其中,待仿真语音系统可以理解为具备语音录制能力和语音识别能力的封闭系统。例如,待仿真语音系统可以是设置有车载终端的车辆,其中,车载终端包括声音采集模块(如麦克风等)和声音输出模块(如喇叭等)。
其中,系统类型用于唯一表征待仿真语音系统。延续前例,若待仿真语音系统为车辆,系统类型可以是车型标识或车系标识等。
其中,仿真位置分布用于表征不同仿真语音模块之间的相对位置关系。
其中,仿真语音模块中的声音输出模块,用于模拟待仿真语音系统中的声音输出模块进行声音信号的输出;仿真语音模块中的声音采集模块,用于模拟待仿真语音系统中的声音采集模块进行声音信号的采集。其中,仿真语音模块中的声音输出模块与待仿真语音系统中的声音输出模块可以相同或不同;仿真语音模块中的声音采集模块与待仿真语音系统中的声音采集模块可以相同或不同。可以理解的是,为了保证后续仿真语音录制系统与待仿真语音系统之间的匹配性,通常仿真语音模块中的声音输出模块与待仿真语音系统中的声音输出模块至少部分相同;仿真语音模块中的声音采集模块与待仿真语音系统中的声音采集模块至少部分相同。
需要说明的是,本公开对仿真语音模块中声音采集模块的种类以及声音输出模块的种类不作任何限定。
在一个具体实现方式中,仿真语音模块中的声音采集模块可以是麦克风。
在另一具体实现方式中,仿真语音模块中的声音输出模块可以包括喇叭,用于输出噪声信息等,从而进行待仿真语音系统中内部噪声环境的模拟,为后续仿真语音信息的录制提供了数据支撑。例如,噪声信息可以是音乐、导航语音或收音机音频等。
在又一具体实现方式中,仿真语音模块中的声音输出模块可以包括仿真人头,用于替代真人进行声音信息的输出,提高了所输出声音信息的稳定性,为后续仿真语音信息的录制提供了数据支撑,同时降低了人力成本。
例如,若待仿真语音系统为车辆,则仿真人头可以与车辆中的车辆座位相对应,用于模拟车辆座位中的驾驶用户或乘车用户进行声音信号输出。又如,若待仿真语音系统为智能音箱放置区域内的设备所构建系统,则仿真人头可以与智能音箱放置区域内的家电设备相对应,用于模拟家电设备进行噪声信号输出。
在一个可选实施例中,可以预先存储有仿真位置分布图或仿真位置分布表,其中,仿真位置分布图或仿真位置分布表中存储有不同系统类型对应仿真语音模块的数量,以及不同仿真语音模块之间的仿真位置分布。相应的,在语音录制系统构建过程中,基于待仿真语音系统的系统类型,通过查询仿真位置分布图或仿真位置分布表的方式,确定各仿真语音模块的数量,以及不同仿真语音模块之间的仿真位置分布。
在另一可选实施例中,还可以根据待仿真语音系统的系统类型,确定待仿真语音设备中不同实际语音模块之间的实际位置分布;根据实际位置分布,确定不同仿真语音模块之间的仿真位置分布;其中,仿真语音模块与实际语音模块一一对应。
其中,实际语音模块可以理解为待仿真语音系统中的声音采集模块和声音输出模块等;实际位置分布用于表征待仿真语音系统中不同实际语音模块之间的相对位置关系。其中,实际语音模块可以包括声音输出模块和声音采集模块。其中,声音输出模块可以是发声体,例如车辆中的驾驶用户、乘车用户或发声设备等。
可以理解的是,由于实际位置分布能够直观的反映待仿真语音系统中不同实际语音模块之间的相对位置关系,在待仿真语音系统构建过程中,该相对位置关系已经确定,因此直接根据待仿真语音系统的系统类型进行实际位置分布的确定,不会受到其他因素的干扰,其确定结果准确性更高,稳定性更好。相应的,基于该实际位置分布,确定不同仿真语音模块之间的仿真位置分布的确定,能够根据不同实际位置分布情况,差异性的进行仿真位置分布的确定,提高了仿真位置分布确定结果的准确度。通过设置仿真语音模块与实际语音模块一一对应的匹配关系,提高了后续所构建的仿真语音录制系统与待仿真语音系统之间的匹配度。
可选的,根据实际位置分布,确定不同仿真语音模块之间的仿真位置分布,可以是:直接将不同实际语音模块之间的实际位置分布,等效为相应的不同仿真语音模块之间的仿真位置分布,从而实现了所构建仿真语音录制系统与待仿真语音系统之间的语音模块的位置分布复原,有助于提高仿真语音录制系统与待仿真语音系统之间的匹配度。
或者可选的,根据实际位置分布,确定不同仿真语音模块之间的仿真位置分布,可以是:根据仿真空间的空间大小,确定缩放比例;根据缩放比例和实际位置分布,确定不同仿真语音模块之间的仿真位置分布。
其中,仿真空间可以理解为仿真语音录制系统的构建空间,为仿真语音录制系统提供录制环境。在一个具体示例中,仿真空间可以是室内空间。
示例性的,根据仿真空间的空间大小,确定缩放比例,可以是:预先设定不同仿真空间的空间大小与缩放比例之间的对应关系,并通过该对应关系进行缩放比例的查找确定。
由于仿真语音录制系统用于对待仿真语音系统进行空间模拟,因此,还可以根据仿真空间的空间大小和待仿真语音系统的空间大小,确定空间比例;根据空间比例,确定缩放比例。相应的,根据缩放比例对不同实际语音模块之间的实际位置分布中的实际距离信息进行加权,得到相应不同仿真语音模块之间的仿真位置分布的仿真距离信息。
示例性的,根据空间比例,确定缩放比例,可以是:基于预设缩放比例确定函数,根据空间比例,确定缩放比例。其中,预设缩放比例确定函数的自变量为空间比例,因变量为缩放比例;预设缩放比例确定函数为空间比例的增函数。
或者示例性的,根据空间比例,确定缩放比例,可以是:预先设定不同空间比例与缩放比例之间的对应关系,并通过该对应关系,进行空间比例对应缩放比例的查找确定。
可以理解的是,通过引入仿真空间的空间大小,进行缩放比例的确定,进而根据缩放比例建立实际位置分布与仿真位置分布之间的映射关系,从而在仿真空间单一或有限的情况下,能够进行不同待仿真语音系统对应仿真语音录制系统的构建,提高了仿真语音录制系统构建过程的灵活性和普适性。
S102、根据仿真语音模块和仿真位置分布,在仿真空间内构建仿真语音录制系统,用于仿真语音信息录制。
示例性的,可以根据不同仿真语音模块的仿真位置分布,确定各仿真语音模块在仿真空间内的位置信息;控制将各仿真语音模块设置于相应位置信息,得到用于仿真语音信息录制的仿真语音录制系统。
本公开实施例通过根据待仿真语音系统的系统类型,进行构建仿真语音录制系统的仿真语音模块,以及不同仿真语音模块之间的仿真位置分布的确定,并将仿真语音模块和不同仿真语音模块之间的仿真位置分布作为参照数据,进行仿真语音录制系统的构建,保证了仿真语音录制系统与待仿真语音系统之间的匹配性。同时,通过仿真语音录制系统替代待仿真语音系统,进行仿真语音信息的录制,实现了在待仿真语音系统获取不便的情况下的语音信息录制,提高了语音信息录制的便捷度。由于仿真语音录制系统处于仿真空间中,受真实环境因素影响较小,因此还提高了语音信息录制的稳定性。
在上述各技术方案的基础上,本公开还提供了一种语音信息录制方法,适用于基于前述所构建的仿真语音录制系统,进行仿真语音信息录制的场景。本公开实施例所提供的语音信息录制方法,可以采用语音信息录制装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。该电子设备与执行前述语音录制系统构建方法的电子设备,两者可以相同或不同,本公开对此不作任何限定。
参见图2所示的一种语音信息录制方法,包括:
S201、根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号。
其中,仿真语音录制系统基于本公开实施例所提供的任意一种语音录制系统构建方法构建得到。
可选的,语音录制需求可以包括录制内容需求,例如所录制的待录制声音信息中的文本主题、文本关键字、文本内容和录制时长等中的至少一种。或者可选的,语音录制需求可以包括录制声源方向,用于表征在仿真语音录制系统中发出所录制待录制声音信息的声源,在仿真空间中所处的方向位置。或者可选的,语音录制信息可以包括噪声干扰方向,用于表征在仿真语音录制系统中引入噪声干扰时对应噪声信息的声源在仿真空间中所处的方向位置。或者可选的,语音录制信息可以包括录制声源强度,用于表征在仿真语音录制系统中发出所录制待录制声音信息对应声音信号的信号强度。或者可选的,语音录制信息可以包括噪声干扰强度,用于表征在仿真语音录制系统中发出噪声干扰信号的信号强度。
示例性的,可以根据语音录制需求,从仿真语音录制系统中的声音输出模块中选取至少一个目标声音输出模块;控制目标声音输出模块进行语音录制需求对应声音信号的输出。其中,声音信号包括待录制声音信号和/或噪声干扰信号。举例说明,在录制“打开音乐”这一语音信息时,背景交谈声音对应声音信号即为噪声干扰信号;“打开音乐”对应的声音信号即为待录制声音信息对应的待录制声音信号。
在一个可选实施例中,若语音录制需求包括录制声源方向,则根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出语音信息,可以包括:控制仿真语音录制系统中录制声源方向对应的声音输出模块,输出待录制声音信号。
示例性的,可以预先建立仿真语音录制系统中不同声音输出模块与发声方向之间的方向模块对应关系;相应的,根据该方向模块对应关系,进行录制声源方向对应声音输出模块的查找,得到第一声音输出模块;控制第一声音输出模块输出待录制声音信号。
在另一可选实施例中,若语音录制需求包括噪声干扰方向,则根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出语音信息,可以包括:控制仿真语音录制系统中噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
示例性的,可以根据前述方向模块对应关系,进行噪声干扰方向对应声音输出模块的查找,得到第二声音输出模块;控制第二声音输出模块输出噪声干扰信号。
可以理解的是,通过引入录制声音方向和/或噪声干扰方向,控制相应的声音输出模块进行待录制声音信号和/或噪声干扰信号的输出,从而提高了声音输出模块所输出声音信号的丰富性,有助于提高后续所录制仿真语音信息的丰富性。
在一个可选实施例中,待录制声音信号的信号强度可以预先设定为固定值。
为了从信号强度维度提高待录制声音信号的丰富性,进而提高所录制仿真语音信息的丰富性,在另一可选实施例中,语音录制需求中还可以包括录制声源强度;相应的,控制仿真语音录制系统中录制声源方向对应的声音输出模块,输出待录制声音信号,可以包括:根据录制声源强度,控制仿真语音录制系统中录制声源方向对应的声音输出模块,输出待录制声音信息。
在又一可选实施例中,噪声干扰信号的信号强度可以预先设置为固定值。
为了从信号强度维度提高噪声干扰信号的丰富性,进而提高所录制仿真语音信息的丰富性,在再一可选实施例中,语音录制需求中还可以包括噪声干扰强度;相应的,控制仿真语音录制系统中噪声干扰方向对应的声音输出模块,输出噪声干扰信号,可以包括:根据噪声干扰强度,控制仿真语音录制系统中噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
S202、控制仿真语音录制系统中的声音采集模块采集声音信号,得到仿真语音信息。
控制仿真语音录制系统中的声音采集模块采集声音输出模块所输出的声音信号,也即待录制声音信号和/或噪声干扰信号,并将所录制的声音信号合成,得到仿真语音信息。
本公开实施例通过仿真语音录制系统模拟待仿真语音系统,并通过在仿真语音录制系统中进行仿真语音信息的录制,无需进行待仿真语音系统的获取,从而实现了在待仿真语音系统获取不便的情况下的语音信息录制,提高了语音信息录制的便捷度。另外,通过引入语音录制需求对仿真语音录制系统进行声音信号输出以及声音信号采集的控制,提高了仿真语音信息录制过程的灵活性。同时,通过仿真语音信息的自动化录制,减少了人力成本,也避免了人员差异或录制环境差异带来所录制语音信息的差异,提高了仿真语音信息的稳定性。
在上述各技术方案的基础上,本公开还提供了一种语音识别模型训练方法,适用于基于仿真语音录制系统所录制的语音信息,进行语音识别模型训练的应用场景。本公开实施例所提供的各语音识别模型训练方法,可以由语音识别模型训练装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。该电子设备通常配置于待仿真语音系统中。
参见图3所示的一种语音识别模型训练方法,包括:
S301、获取仿真语音信息。
其中,仿真语音信息基于本公开实施例所提供的任意一种语音信息录制方法采集得到。
S302、根据仿真语音信息,对待仿真语音系统中的语音识别模型进行训练。
将仿真语音信息作为训练样本,对待仿真语音系统中的语音识别模型进行训练,直至满足模型训练截止条件,从而使得待仿真语音系统中的语音识别模型,具备语音识别能力。
其中,模型训练截止条件可以是仿真语音信息的数量达到设定数量阈值、训练后的语音识别模型趋于稳定、或训练后的语音识别模型的模型精度满足设定精度阈值。其中,设定数量阈值和设定精度阈值的具体数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
需要说明的是,本公开对语音识别模型的具体网络结构不作任何限定。
本公开实施例通过将仿真语音录制系统所录制的仿真语音信息作为训练样本,对待仿真语音系统中的语音识别模型进行训练,无需在训练样本准备阶段进行待仿真语音系统的获取,降低了语音识别模型训练样本的获取难度,从而降低了训练样本准备阶段的时间成本,从而提高了语音识别模型所需训练样本训练效率。同时,由于所获取的仿真语音信息基于仿真语音录制系统自动录制得到,保证了仿真语音信息的稳定性,从而提高了语音识别模型训练结果的准确度。
在上述各技术方案的基础上,由于仿真语音录制系统的语音录制环境与待仿真语音系统的真实环境,存在一定的固有差异,因此,通过仿真语音信息训练好的语音识别模型,存在无法很好地适配待仿真语音系统的真实环境的问题。为了进一步提高语音识别模型的准确度和稳定性,在一个可选实施例中,还可以采集在待仿真语音系统中的在线语音信息;根据在线语音信息,对训练后的语音识别模型进行二次训练。
其中,在线语音信息也即在待仿真语音系统的真实环境中所录制的语音信息。
可以理解的是,将在线语音信息作为前述训练好的语音识别模型的在线训练样本,对前述训练好的语音识别模型进行二次训练,从而对语音识别模型的网络参数进行微调,有助于提高训练好的语音识别模型与待仿真语音系统的适配性,进而提高了语音识别模型的语音识别结果准确度和稳定性。
在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该可选实施例中,对前述训练好的语音识别模型的使用过程进行了说明。
可选的,可以获取待测试语音信息;将待测试语音信息作为输入数据,输入至采用前述语音识别模型训练方法训练好的语音识别模型,得到语音预测结果;根据语音预测结果和待测试语音信息的标准结果,对语音识别模型进行模型评价。
或者可选的,可以获取待识别语音信息;将待识别语音信息作为输入数据,输入至采用前述语音识别模型训练方法训练好的语音识别模型,得到语音识别结果。
作为上述各语音录制系统构建方法的实现,本公开实施例还提供了一种实现语音录制系统构建方法的执行装置的可选实施例。进一步参见图4所示的语音录制系统构建装置400,包括:仿真位置分布确定模块401和仿真系统构建模块402。其中,
仿真位置分布确定模块401,用于根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,所述仿真语音模块包括声音采集模块和声音输出模块;
仿真系统构建模块402,用于根据所述仿真语音模块和所述仿真位置分布,在仿真空间内构建所述仿真语音录制系统,用于仿真语音信息录制。
本公开实施例通过根据待仿真语音系统的系统类型,进行构建仿真语音录制系统的仿真语音模块,以及不同仿真语音模块之间的仿真位置分布的确定,并将仿真语音模块和不同仿真语音模块之间的仿真位置分布作为参照数据,进行仿真语音录制系统的构建,保证了仿真语音录制系统与待仿真语音系统之间的匹配性。同时,通过仿真语音录制系统替代待仿真语音系统,进行仿真语音信息的录制,实现了在待仿真语音系统获取不便的情况下的语音信息录制,提高了语音信息录制的便捷度。由于仿真语音录制系统处于仿真空间中,受真实环境因素影响较小,因此还提高了语音信息录制的稳定性。
在一个可选实施例中,所述仿真位置分布确定模块401,包括:
实际位置分布确定单元,用于根据所述待仿真语音系统的系统类型,确定所述待仿真语音设备中不同实际语音模块之间的实际位置分布;
仿真位置分布确定单元,用于根据所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布;
其中,所述仿真语音模块与所述实际语音模块一一对应。
在一个可选实施例中,所述仿真位置分布确定单元,包括:
缩放比例确定子单元,用于根据所述仿真空间的空间大小,确定缩放比例;
仿真位置分布确定子单元,用于根据所述缩放比例和所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布。
在一个可选实施例中,所述声音输出模块包括喇叭和/或仿真人头。
上述语音录制系统构建装置可执行本公开任意实施例所提供的语音录制系统构建方法,具备执行各语音录制系统构建方法相应的功能模块和有益效果。
作为上述各语音信息录制方法的实现,本公开实施例还提供了一种实现语音信息录制方法的执行装置的可选实施例。进一步参见图5所示的语音信息录制装置500,包括:声音信息输出模块501和仿真语音信息得到模块502。其中,
声音信息输出模块501,用于根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号;其中,所述仿真语音录制系统基于本公开实施例提供的任意一种语音录制系统构建装置构建得到;
仿真语音信息得到模块502,用于控制所述仿真语音录制系统中的声音采集模块采集所述声音信号,得到仿真语音信息。
本公开实施例通过仿真语音录制系统模拟待仿真语音系统,并通过在仿真语音录制系统中进行仿真语音信息的录制,无需进行待仿真语音系统的获取,从而实现了在待仿真语音系统获取不便的情况下的语音信息录制,提高了语音信息录制的便捷度。另外,通过引入语音录制需求对仿真语音录制系统进行声音信号输出以及声音信号采集的控制,提高了仿真语音信息录制过程的灵活性。同时,通过仿真语音信息的自动化录制,减少了人力成本,也避免了人员差异或录制环境差异带来所录制语音信息的差异,提高了仿真语音信息的稳定性。
在一个可选实施例中,所述语音录制需求包括录制声源方向和噪声干扰方向;
所述声音信息输出模块501,包括:
待录制声音信号输出单元,用于控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出待录制声音信号;以及,
噪声干扰信号输出单元,用于控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
在一个可选实施例中,所述语音录制需求包括录制声源强度;
所述待录制声音信号输出单元,包括:
声源强度控制子单元,用于根据所述录制声源强度,控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出所述待录制声音信息。
在一个可选实施例中,所述语音录制需求包括噪声干扰强度;
所述待录制声音信号输出单元,包括:
干扰强度控制子单元,用于根据所述噪声干扰强度,控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
上述语音信息录制装置可执行本公开任意实施例所提供的语音信息录制方法,具备执行各语音信息录制方法相应的功能模块和有益效果。
作为上述各语音识别模型训练方法的实现,本公开实施例还提供了一种实现语音识别模型训练方法的执行装置的可选实施例。进一步参见图6所示的语音识别模型训练装置600,包括:仿真语音信息获取模块601和训练模块602。其中,
仿真语音信息获取模块601,用于获取仿真语音信息;其中,所述仿真语音信息基于本公开实施例提供的任意一种语音信息录制装置采集得到;
训练模块602,用于根据所述仿真语音信息,对待仿真语音系统中的语音识别模型进行训练。
本公开实施例通过将仿真语音录制系统所录制的仿真语音信息作为训练样本,对待仿真语音系统中的语音识别模型进行训练,无需在训练样本准备阶段进行待仿真语音系统的获取,降低了语音识别模型训练样本的获取难度,从而降低了训练样本准备阶段的时间成本,从而提高了语音识别模型所需训练样本训练效率。同时,由于所获取的仿真语音信息基于仿真语音录制系统自动录制得到,保证了仿真语音信息的稳定性,从而提高了语音识别模型训练结果的准确度。
在一个可选实施例中,该装置,还包括:
在线语音信息采集模块,用于采集在所述待仿真语音系统中的在线语音信息;
二次训练模块,用于根据所述在线语音信息,对训练后的语音识别模型进行二次训练。
上述语音识别模型训练装置可执行本公开任意实施例所提供的语音识别模型训练方法,具备执行各语音识别模型训练方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的系统类型、仿真空间的空间大小、语音录制需求等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如语音录制系统构建方法、语音信息录制方法、和语音识别模型训练方法中的至少一种。例如,在一些实施例中,语音录制系统构建方法、语音信息录制方法、和语音识别模型训练方法中的至少一种可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的语音录制系统构建方法、语音信息录制方法、或语音识别模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音录制系统构建方法、语音信息录制方法、和语音识别模型训练方法中的至少一种。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在一个可选实施例中,上述电子设备可以是车载终端。
在另一可选实施例中,本公开还提供了一种车辆,该车辆中设置有前述车载终端。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种语音录制系统构建方法,包括:
根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,所述仿真语音模块包括声音采集模块和声音输出模块;
根据所述仿真语音模块和所述仿真位置分布,在仿真空间内构建所述仿真语音录制系统,用于仿真语音信息录制。
2.根据权利要求1所述的方法,其中,所述根据待仿真语音系统的系统类型,确定不同仿真语音模块之间的仿真位置分布,包括:
根据所述待仿真语音系统的系统类型,确定所述待仿真语音设备中不同实际语音模块之间的实际位置分布;
根据所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布;
其中,所述仿真语音模块与所述实际语音模块一一对应。
3.根据权利要求2所述的方法,其中,所述根据所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布,包括:
根据所述仿真空间的空间大小,确定缩放比例;
根据所述缩放比例和所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布。
4.根据权利要求1-3任一项所述的方法,其中,所述声音输出模块包括喇叭和/或仿真人头。
5.一种语音信息录制方法,包括:
根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号;其中,所述仿真语音录制系统基于权利要求1-4任一项所述的语音录制系统构建方法构建得到;
控制所述仿真语音录制系统中的声音采集模块采集所述声音信号,得到仿真语音信息。
6.根据权利要求5所述的方法,其中,所述语音录制需求包括录制声源方向和噪声干扰方向;
所述根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号,包括:
控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出待录制声音信号;以及,
控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
7.根据权利要求6所述的方法,其中,所述语音录制需求包括录制声源强度;
所述控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出待录制声音信号,包括:
根据所述录制声源强度,控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出所述待录制声音信息。
8.根据权利要求6所述的方法,其中,所述语音录制需求包括噪声干扰强度;
所述控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号,包括:
根据所述噪声干扰强度,控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
9.一种语音识别模型训练方法,包括:
获取仿真语音信息;其中,所述仿真语音信息基于权利要求5-8任一项所述的语音信息录制方法采集得到;
根据所述仿真语音信息,对待仿真语音系统中的语音识别模型进行训练。
10.根据权利要求9所述的方法,还包括:
采集在所述待仿真语音系统中的在线语音信息;
根据所述在线语音信息,对训练后的语音识别模型进行二次训练。
11.一种语音录制系统构建装置,包括:
仿真位置分布确定模块,用于根据待仿真语音系统的系统类型,确定仿真语音录制系统的仿真语音模块和不同仿真语音模块之间的仿真位置分布;其中,所述仿真语音模块包括声音采集模块和声音输出模块;
仿真系统构建模块,用于根据所述仿真语音模块和所述仿真位置分布,在仿真空间内构建所述仿真语音录制系统,用于仿真语音信息录制。
12.根据权利要求11所述的装置,其中,所述仿真位置分布确定模块,包括:
实际位置分布确定单元,用于根据所述待仿真语音系统的系统类型,确定所述待仿真语音设备中不同实际语音模块之间的实际位置分布;
仿真位置分布确定单元,用于根据所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布;
其中,所述仿真语音模块与所述实际语音模块一一对应。
13.根据权利要求12所述的装置,其中,所述仿真位置分布确定单元,包括:
缩放比例确定子单元,用于根据所述仿真空间的空间大小,确定缩放比例;
仿真位置分布确定子单元,用于根据所述缩放比例和所述实际位置分布,确定不同仿真语音模块之间的仿真位置分布。
14.根据权利要求11-13任一项所述的装置,其中,所述声音输出模块包括喇叭和/或仿真人头。
15.一种语音信息录制装置,包括:
声音信息输出模块,用于根据语音录制需求,控制仿真语音录制系统中的声音输出模块输出声音信号;其中,所述仿真语音录制系统基于权利要求11-14任一项所述的语音录制系统构建装置构建得到;
仿真语音信息得到模块,用于控制所述仿真语音录制系统中的声音采集模块采集所述声音信号,得到仿真语音信息。
16.根据权利要求15所述的装置,其中,所述语音录制需求包括录制声源方向和噪声干扰方向;
所述声音信息输出模块,包括:
待录制声音信号输出单元,用于控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出待录制声音信号;以及,
噪声干扰信号输出单元,用于控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
17.根据权利要求16所述的装置,其中,所述语音录制需求包括录制声源强度;
所述待录制声音信号输出单元,包括:
声源强度控制子单元,用于根据所述录制声源强度,控制所述仿真语音录制系统中所述录制声源方向对应的声音输出模块,输出所述待录制声音信息。
18.根据权利要求16所述的装置,其中,所述语音录制需求包括噪声干扰强度;
所述待录制声音信号输出单元,包括:
干扰强度控制子单元,用于根据所述噪声干扰强度,控制所述仿真语音录制系统中所述噪声干扰方向对应的声音输出模块,输出噪声干扰信号。
19.一种语音识别模型训练装置,包括:
仿真语音信息获取模块,用于获取仿真语音信息;其中,所述仿真语音信息基于权利要求15-18任一项所述的语音信息录制装置采集得到;
训练模块,用于根据所述仿真语音信息,对待仿真语音系统中的语音识别模型进行训练。
20.根据权利要求19所述的装置,还包括:
在线语音信息采集模块,用于采集在所述待仿真语音系统中的在线语音信息;
二次训练模块,用于根据所述在线语音信息,对训练后的语音识别模型进行二次训练。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中所述的语音录制系统构建方法、权利要求5-8中所述的语音信息录制方法和权利要求9-10中所述的语音识别模型训练方法中的任一项。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-4中所述的语音录制系统构建方法、权利要求5-8中所述的语音信息录制方法和权利要求9-10中所述的语音识别模型训练方法中的任一项。
23.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-4中所述的语音录制系统构建方法、权利要求5-8中所述的语音信息录制方法和权利要求9-10中所述的语音识别模型训练方法中的任一项。
CN202111626379.3A 2021-12-28 2021-12-28 系统构建、信息录制、模型训练方法、装置、设备及介质 Pending CN114220422A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111626379.3A CN114220422A (zh) 2021-12-28 2021-12-28 系统构建、信息录制、模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111626379.3A CN114220422A (zh) 2021-12-28 2021-12-28 系统构建、信息录制、模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114220422A true CN114220422A (zh) 2022-03-22

Family

ID=80706379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111626379.3A Pending CN114220422A (zh) 2021-12-28 2021-12-28 系统构建、信息录制、模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114220422A (zh)

Similar Documents

Publication Publication Date Title
CN108269567B (zh) 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
CN104407834A (zh) 信息输入方法和装置
CN106875949B (zh) 一种语音识别的校正方法及装置
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN113436611B (zh) 车载语音设备的测试方法、装置、电子设备和存储介质
CN103956167A (zh) 一种基于Web的可视化手语翻译方法及设备
CN112466289A (zh) 语音指令的识别方法、装置、语音设备和存储介质
CN113470618A (zh) 唤醒测试的方法、装置、电子设备和可读存储介质
CN113658586A (zh) 语音识别模型的训练方法、语音交互方法及装置
CN112837672B (zh) 对话归属的确定方法、装置、电子设备及存储介质
CN114220422A (zh) 系统构建、信息录制、模型训练方法、装置、设备及介质
CN115292467A (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN115497458A (zh) 智能语音助手的持续学习方法、装置、电子设备及介质
CN112509567B (zh) 语音数据处理的方法、装置、设备、存储介质及程序产品
CN115171695A (zh) 语音识别方法、装置、电子设备和计算机可读介质
CN112817463A (zh) 输入法获取音频数据的方法、设备和存储介质
CN113223500B (zh) 语音识别方法、训练语音识别模型的方法及对应装置
CN113742517B (zh) 语音包的生成方法、装置、电子设备和存储介质
CN113658585B (zh) 语音交互模型的训练方法、语音交互方法及装置
JP7352680B2 (ja) 指令実行方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113889102A (zh) 指令接收方法、系统、电子设备、云端服务器和存储介质
CN116132493A (zh) 信息处理方法、装置、设备和存储介质
CN114842839A (zh) 车载人机交互方法、装置、设备、存储介质及程序产品
CN113744728A (zh) 一种语音处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination