CN112735425A - 轨旁设备巡检报文生成方法及系统 - Google Patents

轨旁设备巡检报文生成方法及系统 Download PDF

Info

Publication number
CN112735425A
CN112735425A CN202011548232.2A CN202011548232A CN112735425A CN 112735425 A CN112735425 A CN 112735425A CN 202011548232 A CN202011548232 A CN 202011548232A CN 112735425 A CN112735425 A CN 112735425A
Authority
CN
China
Prior art keywords
audio
target audio
sample
trackside equipment
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011548232.2A
Other languages
English (en)
Other versions
CN112735425B (zh
Inventor
智国盛
周驰楠
唐建林
毕佳晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Traffic Control Technology TCT Co Ltd
Original Assignee
Traffic Control Technology TCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Traffic Control Technology TCT Co Ltd filed Critical Traffic Control Technology TCT Co Ltd
Priority to CN202011548232.2A priority Critical patent/CN112735425B/zh
Publication of CN112735425A publication Critical patent/CN112735425A/zh
Application granted granted Critical
Publication of CN112735425B publication Critical patent/CN112735425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C1/00Registering, indicating or recording the time of events or elapsed time, e.g. time-recorders for work people
    • G07C1/20Checking timed patrols, e.g. of watchman
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

本发明提供一种轨旁设备巡检报文生成方法及系统,该方法包括:获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文。本发明实现不仅可以实时自动生成巡检报文,而且在巡检过程中可以将巡检结果实时录入,使得生成的巡检报文更加准确。

Description

轨旁设备巡检报文生成方法及系统
技术领域
本发明涉及轨道交通技术领域,尤其涉及一种轨旁设备巡检报文生成方法及系统。
背景技术
随着城市轨道交通的迅猛发展,城市轨道交通的承载力与日俱增,为了能够保障列车安全且平稳的运行,需要对轨道交通的每条线路的轨道旁的相关设施进行定期巡检和维护,如道岔等室外设备等。
目前,通过人工对各种轨旁设备进行巡检。主要通过人工记录的方式生成巡检报文。采用人工记录的方式生成巡检报文时,一般对轨旁设备巡检后才将巡检结果记录在作业记录单中,很容易造成巡检结果记录缺失和错误。
此外,轨道交通的每条线路上布置的轨旁设备数量较多,且需要巡检的项目较多,采用人工将巡检结果一一记录在作业记录单中,工作强度大,费时费力。
发明内容
本发明提供一种轨旁设备巡检报文生成方法及系统,用以解决现有技术中通过人工记录的方式生成巡检报文导致巡检结果记录缺失和错误,工作强度大,费时费力的缺陷,实现巡检报文的自动准确生成。
本发明提供一种轨旁设备巡检报文生成方法,包括:
获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;
其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述将所述目标音频输入到声学模型,输出所述目标音频的音素,包括:
基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本;
将生成的所述音频样本从时域转换到频域;
使用转换后的音频样本对所述声学模型进行训练;
将所述目标音频从时域转换到频域;
将转换后的目标音频输入到训练后的声学模型,输出所述目标音频的音素。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本,包括:
采集多种轨旁设备环境音频;
将符合高斯分布的白噪声和每种轨旁设备环境音频输入到所述WaveGAN模型,输出具有每种轨旁设备环境音频的音频样本。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述基于WaveGAN模型生成具有不同轨旁设备环境音效的音频样本,还包括:
将所述白噪声和每种轨旁设备环境音频作为训练样本,将预设文本内容作为标签,根据所述WaveGAN模型的生成器和鉴别器的损失函数对所述WaveGAN模型进行训练;
将所述生成器在训练中的最后输出作为所述音频样本。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述生成器的损失函数为:
Ladv(G,D)=Ez~N(0,1)[(1-D(G(z|yn))2)];
其中,Ladv(G,D)为所述生成器的损失函数,z为符合N(0,1)高斯分布的白噪声,yn为第n种轨旁设备环境音频,G(z|yn)为将yn和z输入所述生成器时,所述生成器的输出,D(G(z|yn))为将所述生成器的输出结果输入所述鉴别器时,所述鉴别器的输出,E(·)为数学期望;
所述鉴别器的损失函数为:
Figure BDA0002856956060000031
其中,LD(G,D)为所述鉴别器的损失函数,x为所述预设文本内容,Pdata为x的分布,D(x|yn)为将yn和x输入所述鉴别器时,所述鉴别器的输出。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述将所述目标音频输入到训练后的声学模型,输出所述目标音频的音素,包括:
基于模型剪枝算法或模型压缩算法对训练后的声学模型进行剪枝;
将转换后的目标音频输入到剪枝后的声学模型,输出所述目标音频的音素。
根据本发明提供的一种轨旁设备巡检报文生成方法,所述将所述目标音频输入到声学模型,输出所述目标音频的音素,还包括:
对所述目标音频进行预处理;
其中,所述预处理包括基于降噪算法对所述目标音频中的噪声进行消除和/或基于信道均衡算法对所述目标音频中的信道失真进行消除;
将预处理后的所述目标音频从时域转换到频域;
将转换后的目标音频输入到声学模型,输出所述目标音频的音素。
本发明还提供一种轨旁设备巡检报文生成系统,包括:
第一输出模块,用于获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
第二输出模块,用于将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
报文生成模块,用于将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;
其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述轨旁设备巡检报文生成方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述轨旁设备巡检报文生成方法的步骤。
本发明提供的轨旁设备巡检报文生成方法及系统,通过将巡检人员在巡检过程中录入的目标音频实时转换成文字,并将巡检报文模板中的预设关键词与文字进行匹配,获取预设关键词的值,将预设关键词的值插入巡检报文模板中生成巡检报文,不仅可以实时自动生成巡检报文,而且在巡检过程中可以将巡检结果实时录入,使得生成的巡检报文更加准确。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的轨旁设备巡检报文生成方法的流程示意图之一;
图2是本发明提供的轨旁设备巡检报文生成方法的流程示意图之二;
图3是本发明提供的轨旁设备巡检报文生成方法中音频文本生成的结构示意图;
图4是本发明提供的轨旁设备巡检报文生成方法的流程示意图之三;
图5是本发明提供的轨旁设备巡检报文生成系统的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的轨旁设备巡检报文生成方法,包括:步骤101,获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
其中,当前轨旁设备可以是信号机和轨道电路设备等,本实施例不限于当前轨旁设备的类型。巡检人员可以在对当前轨旁设备进行巡检的过程中,将对当前轨旁设备的巡检结果口述出来。并且将口述的内容通过到移动端的语音录入模块进行录入。例如,可以通过语音录入模块中的麦克风将口述的内容转存为目标音频。其中,移动端可以随身携带。还可以对目标音频进行存储。其中,巡检结果包括当前轨旁设备的设备号、故障情况和维修情况,本实施例不对巡检结果中的内容进行限定。
当获取到目标音频后,可以直接将目标音频作为声学模型的输入,也可以将处理后的目标音频作为声学模型的输入。通过将目标音频输入到声学模型,可以将目标音频中的特征转化为音素。其中,可以基于模式匹配的动态时间规整的方法、隐马尔可夫模型的方法和基于人工神经网络识别的方法中的一种或多种对声学模型进行构建。
步骤102,将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
其中,语言模型可以是统计语言模型,例如,N-Gram语言模型(N元语言模型)、马尔可夫N元模型、指数模型和决策树模型等。本实施例不限于语言模型的类型。样本文字可以是包含根据现场巡检报文提取的关键内容语句制作的文字,通过这种方法制作的文字可以提高巡检报文生成阶段的单词间的联系,减少语料库的搜索范围。
在将目标音频的音素输入到语言模型之前,需要对语言模型进行训练。对语言模型进行训练时,将音频样本的音素作为语言模型的输入,将样本文字作为语言模型的标签,对语言模型中的参数进行调整。若满足语言模型训练的终止条件,则可以将最后一次训练得到的模型作为最优的声学模型。将目标音频的音素输入到最优的语言模型中,可以将输入的目标音频的音素转化为可读的无歧义的文字。通过这种方法可以将目标音频的音素转换为正确的单词,并组成有逻辑的句子。
步骤103,将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
其中,巡检报文模板可以是通过对收集的历史巡检报文进行分析、归纳和总结,对同质化较高的内容进行提取,根据提取的内容构建生成。预设关键词可以是设备号、故障情况和维修情况等。如图2所示,将每个预设关键词与语言模型输出的文字进行匹配,若在文字中匹配到预设关键词,则从文字中获取匹配到的预设关键词的值,将预设关键词的值插入巡检报文模板中的相应位置。通过这种录音的方式,可以将巡检人员对当前轨旁设备进性巡检时的巡检结果及时生成巡检报文,避免巡检人员遗忘或错误记录,保证巡检报文的正确性。
现有技术通过作业记录单记录巡检结果,造成反馈滞后,无法将轨旁设备的巡检结果及时上报到管理中心,导致维护人员不能及时对发生故障的轨旁设备进行处理,严重影响列车的安全运行。而本实施例可以通过无线传输的方式将生成的巡检报文实时上报到管理中心,以供维护人员实时查看各轨旁设备的状态。
本实施例将巡检人员在巡检过程中录入的目标音频实时转换成文字,并将巡检报文模板中的预设关键词与文字进行匹配,获取预设关键词的值,将预设关键词的值插入巡检报文模板中生成巡检报文,不仅可以实时自动生成巡检报文,而且在巡检过程中可以将巡检结果实时录入,使得生成的巡检报文更加准确。
在上述实施例的基础上,本实施例中所述将所述目标音频输入到声学模型,输出所述目标音频的音素,包括:基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本;将生成的所述音频样本从时域转换到频域;使用转换后的音频样本对所述声学模型进行训练;将所述目标音频从时域转换到频域;将转换后的目标音频输入到训练后的声学模型,输出所述目标音频的音素。
其中,GAN(Generative Adversarial Networks,生成对抗网络)模型包括生成器和鉴别器。通过生成器和鉴别器之间相互博弈学习,对GAN模型进行优化。WaveGAN模型是一种基于WaveNet模型的GAN模型,是一种生成原始音频波形的深度神经网络。
在将目标音频输入到声学模型之前,需要对声学模型进行训练。通常,训练样本的质量对模型的训练具有重要的影响,因此提高训练样本的质量是模型训练的关键。现有技术中,通过人工的方式对音频样本进行采集和标注,这种标注可以保证音频样本的质量。但是,通常对声学模型进行训练时需要大量的音频样本,才能保证训练的声学模型具有良好的性能。而通过人工采集大量的音频样本需要消耗大量的人力物力,且复用率很低。如图3所示,为了解决这个问题,本发明采用WaveGAN模型生成具有不同轨旁设备环境音频的音频样本,以使生成的音频样本可以满足声学模型训练的需求。
生成音频样本后,需要将音频样本从时域转换为频域,为声学模型的训练提供具有代表性的特征向量。对声学模型进行训练时,将转换到频域的音频样本作为声学模型的输入,将音频样本的音素作为声学模型的标签,对声学模型中的参数进行调整,直到满足声学模型训练的终止条件。通过对参数进行调整,可以获取最优的声学模型。将目标音频从时域转换为频域,将转换后的目标音频输入到最优的语言模型中,可以将输入的目标音频转化为音素。
本实施例中可以通过WaveGAN模型生成大量的具有不同轨旁设备环境音频的音频样本,不仅可以满足声学模型训练的需求,还可以避免因人工采集音频样本消耗大量的人力物力。
在上述实施例的基础上,本实施例中所述基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本,包括:采集多种轨旁设备环境音频;将符合高斯分布的白噪声和每种轨旁设备环境音频输入到所述WaveGAN模型,输出具有每种轨旁设备环境音频的音频样本。
优选地,由于不同的轨旁设备所在场景不同,则轨旁设备环境音频也不同,因此,采用不同轨旁设备环境音频对声学模型进行训练时,对声学模型产生的影响也不尽相同。为了使得训练后的声学模型具有更好的鲁棒性,可以采集多种轨旁设备环境音频,将其记为yn,其中n∈(0,S),S为S种不同的场景类别。S的值可以根据实际需求进行设置,为了使得训练的声学模型具有更好的鲁棒性,应使S的值尽可能大。将这种方式生成的音频样本作为声学模型的训练样本,可以使得训练后的声学模型具有更好的鲁棒性。
在上述实施例的基础上,本实施例中所述基于WaveGAN模型生成具有不同轨旁设备环境音效的音频样本,还包括:将所述白噪声和每种轨旁设备环境音频作为训练样本,将预设文本内容作为标签,根据所述WaveGAN模型的生成器和鉴别器的损失函数对所述WaveGAN模型进行训练;将所述生成器在训练中的最后输出作为所述音频样本。
优选地,在基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本之前,需要对WaveGAN模型进行训练。在训练的过程中根据WaveGAN模型中生成器的损失函数和鉴别器的损失函数对WaveGAN模型中的参数进行优化,直到达到WaveGAN模型训练的停止条件。可以将WaveGAN模型最后一次训练中生成器的输出作为生成的音频样本。通过这种方式,只需要将符合高斯分布白噪声和多种轨旁设备环境音频输入到WaveGAN模型,就可以生成大量的具有多种轨旁设备环境音频的音频样本。
此外,还可以将训练后的WaveGAN模型进行保存,若需要生成其他种类的轨旁设备环境音频的音频样本,只需要将符合高斯分布白噪声和其他种类的轨旁设备环境音频输入到训练后的WaveGAN模型的生成器中,即可获取具有其他种类的轨旁设备环境音频的音频样本,使得训练后的WaveGAN模型可以反复使用,节约计算资源,提高生成音频样本的效率。
在上述实施例的基础上,本实施例中所述生成器的损失函数为:
Ladv(G,D)=Ez~N(0,1)[(1-D(G(z|yn))2)];
其中,Ladv(G,D)为所述生成器的损失函数,z为符合N(0,1)高斯分布的白噪声,yn为第n种轨旁设备环境音频,G(z|yn)为将yn和z输入所述生成器时,所述生成器的输出,D(G(z|yn))为将所述生成器的输出结果输入所述鉴别器时,所述鉴别器的输出,E(·)为数学期望;
所述鉴别器的损失函数为:
Figure BDA0002856956060000101
其中,LD(G,D)为所述鉴别器的损失函数,x为所述预设文本内容,Pdata为x的分布,D(x|yn)为将yn和x输入所述鉴别器时,所述鉴别器的输出。
具体地,为了提高对抗训练过程的稳定性和效率,还可以使用多分辨率STFT(Short-Time Fourier Transform,短时傅里叶变换)对生成器的损失函数进行辅助。其中,单个STFT定义为:
Figure BDA0002856956060000102
其中,x′为生成器的输出,LSC(·)和Lmag(·)分别为频谱收敛和对数STFT幅度损失,p(x)为x的概率分布。
其中,频谱收敛和对数STFT幅度损失的计算公式分别为:
Figure BDA0002856956060000111
Figure BDA0002856956060000112
其中,||·||F表示F范数,|STFT(·)|和N分别表示STFT幅度和STFT幅度中的元素数量,log(·)表示对数函数。
STFT多分辨率附加损失函数为:
Figure BDA0002856956060000113
其中,Laux(G)为STFT多分辨率附加损失函数,M为STFT的损耗数。
可以将STFT多分辨率附加损失函数添加到生成器中,则生成器的总损失函数为:
Figure BDA0002856956060000114
其中,LG(·)为生成器的总损失函数,
Figure BDA0002856956060000115
为平衡Laux(G)和Ladv(G,D)两个损失函数的平衡系数,可以通过模型训练获取。
通过将STFT多分辨率附加损失函数添加到生成器中,可以提高WaveGAN模型在训练过程中的稳定性和效率。
在上述实施例的基础上,本实施例中所述将所述目标音频输入到训练后的声学模型,输出所述目标音频的音素,包括:基于模型剪枝算法或模型压缩算法对训练后的声学模型进行剪枝;将转换后的目标音频输入到剪枝后的声学模型,输出所述目标音频的音素。
优选地,为了满足移动端的部署需求,可以采用移动端的部署模块对训练后的声学模型进行部署。如图4所示,可以是对声学模型进行剪枝,以减小训练后的声学模型的规模。其中对模型进行剪枝,就是将模型中对整体模型贡献很小的参数删除,可以通过模型剪枝算法或模型压缩算法实现。例如,ThiNet算法是一种用于深度神经网络压缩的滤波器级别剪枝算法,利用ThiNet算法可以减去模型中权重相对较小的卷集核。同理,也可以对训练后的语言模型进行剪枝。
通过这种方法,既可以减小存储声学模型的空间,满足移动端的部署需求,又可以实现声学模型的加速运行。
在上述各实施例的基础上,本实施例中所述将所述目标音频输入到声学模型,输出所述目标音频的音素,还包括:对所述目标音频进行预处理;其中,所述预处理包括基于降噪算法对所述目标音频中的噪声进行消除和/或基于信道均衡算法对所述目标音频中的信道失真进行消除;将预处理后的所述目标音频从时域转换到频域;将转换后的目标音频输入到声学模型,输出所述目标音频的音素。
优选地,由于获取的目标音频可能存在噪声或信道失真,为了避免噪声或信道失真对目标音频中录入的巡检结果的音频造成干扰,可以采用移动端中语音数据处理模块对目标音频进行预处理。其中,语音数据处理模块包括降噪算法和信道均衡算法。可以采用降噪算法对目标音频中的噪声进行消除,也可以采用信道均衡算法对目标音频中的信道失真进行消除,以对目标音频中巡检结果的音频进行增强。通过对目标音频进行预处理,可以消除目标音频中的噪声或信道失真,对目标音频进行增强,从而使得生成的巡检报文更加准确。
下面对本发明提供的轨旁设备巡检报文生成系统进行描述,下文描述的轨旁设备巡检报文生成系统与上文描述的轨旁设备巡检报文生成方法可相互对应参照。
如图5所示,本实施例提供一种轨旁设备巡检报文生成系统,该系统包括第一输出模块501、第二输出模块502和报文生成模块503,其中:
第一输出模块501用于获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
其中,当前轨旁设备可以是信号机和轨道电路设备等,本实施例不限于当前轨旁设备的类型。巡检人员可以在对当前轨旁设备进行巡检的过程中,将对当前轨旁设备的巡检结果口述出来。并且将口述的内容通过到移动端的语音录入模块进行录入。其中,移动端可以随身携带。还可以对目标音频进行存储。其中,巡检结果包括当前轨旁设备的设备号、故障情况和维修情况,本实施例不对巡检结果中的内容进行限定。
当获取到目标音频后,可以直接将目标音频作为声学模型的输入,也可以将处理后的目标音频作为声学模型的输入。通过将目标音频输入到声学模型,可以将目标音频中的特征转化为音素。其中,可以基于模式匹配的动态时间规整的方法、隐马尔可夫模型的方法和基于人工神经网络识别的方法中的一种或多种对声学模型进行构建。
第二输出模块502用于将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
其中,语言模型可以是统计语言模型,本实施例不限于语言模型的类型。样本文字可以是包含根据现场巡检报文提取的关键内容语句制作的文字,通过这种方法制作的文字可以提高巡检报文生成阶段的单词间的联系,减少语料库的搜索范围。
在将目标音频的音素输入到语言模型之前,需要对语言模型进行训练。对语言模型进行训练时,将音频样本的音素作为语言模型的输入,将样本文字作为语言模型的标签,对语言模型中的参数进行调整。若满足语言模型训练的终止条件,则可以将最后一次训练得到的模型作为最优的声学模型。将目标音频的音素输入到最优的语言模型中,可以将输入的目标音频的音素转化为可读的无歧义的文字。通过这种方法可以将目标音频的音素转换为正确的单词,并组成有逻辑的句子。
报文生成模块503用于将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
其中,巡检报文模板可以是通过对收集的历史巡检报文进行分析、归纳和总结,对同质化较高的内容进行提取,根据提取的内容构建生成。预设关键词可以是设备号、故障情况和维修情况等。如图2所示,将每个预设关键词与语言模型输出的文字进行匹配,若在文字中匹配到预设关键词,则从文字中获取匹配到的预设关键词的值,将预设关键词的值插入巡检报文模板中的相应位置。通过这种录音的方式,可以将巡检人员对当前轨旁设备进性巡检时的巡检结果及时生成巡检报文,避免巡检人员遗忘或错误记录,保证巡检报文的正确性。
现有技术通过作业记录单记录巡检结果,造成反馈滞后,无法将轨旁设备的巡检结果及时上报到管理中心,导致维护人员不能及时对发生故障的轨旁设备进行处理,严重影响列车的安全运行。而本实施例可以通过无线传输的方式将生成的巡检报文实时上报到管理中心,以供维护人员实时查看各轨旁设备的状态。
本实施例将巡检人员在巡检过程中录入的目标音频实时转换成文字,并将巡检报文模板中的预设关键词与文字进行匹配,获取预设关键词的值,将预设关键词的值插入巡检报文模板中生成巡检报文,不仅可以实时自动生成巡检报文,而且在巡检过程中可以将巡检结果实时录入,使得生成的巡检报文更加准确。
在上述实施例的基础上,本实施例中第一输出模块具体用于:基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本;将生成的所述音频样本从时域转换到频域;使用转换后的音频样本对所述声学模型进行训练;将所述目标音频从时域转换到频域;将转换后的目标音频输入到训练后的声学模型,输出所述目标音频的音素。
在上述实施例的基础上,本实施例中生成模块具体用于:采集多种轨旁设备环境音频;将符合高斯分布的白噪声和每种轨旁设备环境音频输入到所述WaveGAN模型,输出具有每种轨旁设备环境音频的音频样本。
在上述实施例的基础上,本实施例中第一输出模块,还用于将所述白噪声和每种轨旁设备环境音频作为训练样本,将预设文本内容作为标签,根据所述WaveGAN模型的生成器和鉴别器的损失函数对所述WaveGAN模型进行训练;将所述生成器在训练中的最后输出作为所述音频样本。
在上述实施例的基础上,本实施例中所述生成器的损失函数为:
Ladv(G,D)=Ez~N(0,1)[(1-D(G(z|yn))2)];
其中,Ladv(G,D)为所述生成器的损失函数,z为符合N(0,1)高斯分布的白噪声,yn为第n种轨旁设备环境音频,G(z|yn)为将yn和z输入所述生成器时,所述生成器的输出,D(G(z|yn))为将所述生成器的输出结果输入所述鉴别器时,所述鉴别器的输出,E(·)为数学期望;
所述鉴别器的损失函数为:
Figure BDA0002856956060000151
其中,LD(G,D)为所述鉴别器的损失函数,x为所述预设文本内容,Pdata为x的分布,D(x|yn)为将yn和x输入所述鉴别器时,所述鉴别器的输出。
在上述实施例的基础上,本实施例中第一输出模块,还用于基于模型剪枝算法或模型压缩算法对训练后的声学模型进行剪枝;将转换后的目标音频输入到剪枝后的声学模型,输出所述目标音频的音素。
在上述实施例的基础上,本实施例中第一输出模块,还用于对所述目标音频进行预处理;其中,所述预处理包括基于降噪算法对所述目标音频中的噪声进行消除和/或基于信道均衡算法对所述目标音频中的信道失真进行消除;将预处理后的所述目标音频从时域转换到频域;将转换后的目标音频输入到声学模型,输出所述目标音频的音素。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行轨旁设备巡检报文生成方法,该方法包括:获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的轨旁设备巡检报文生成方法,该方法包括:获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的轨旁设备巡检报文生成方法,该方法包括:获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种轨旁设备巡检报文生成方法,其特征在于,包括:
获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;
其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
2.根据权利要求1所述的轨旁设备巡检报文生成方法,其特征在于,所述将所述目标音频输入到声学模型,输出所述目标音频的音素,包括:
基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本;
将生成的所述音频样本从时域转换到频域;
使用转换后的音频样本对所述声学模型进行训练;
将所述目标音频从时域转换到频域;
将转换后的目标音频输入到训练后的声学模型,输出所述目标音频的音素。
3.根据权利要求2所述的轨旁设备巡检报文生成方法,其特征在于,所述基于WaveGAN模型生成具有不同轨旁设备环境音频的音频样本,包括:
采集多种轨旁设备环境音频;
将符合高斯分布的白噪声和每种轨旁设备环境音频输入到所述WaveGAN模型,输出具有每种轨旁设备环境音频的音频样本。
4.根据权利要求3所述的轨旁设备巡检报文生成方法,其特征在于,所述基于WaveGAN模型生成具有不同轨旁设备环境音效的音频样本,还包括:
将所述白噪声和每种轨旁设备环境音频作为训练样本,将预设文本内容作为标签,根据所述WaveGAN模型的生成器和鉴别器的损失函数对所述WaveGAN模型进行训练;
将所述生成器在训练中的最后输出作为所述音频样本。
5.根据权利要求4所述的轨旁设备巡检报文生成方法,其特征在于,所述生成器的损失函数为:
Ladv(G,D)=Ez~N(0,1)[(1-D(G(z|yn))2)];
其中,Ladv(G,D)为所述生成器的损失函数,z为符合N(0,1)高斯分布的白噪声,yn为第n种轨旁设备环境音频,G(z|yn)为将yn和z输入所述生成器时,所述生成器的输出,D(G(z|yn))为将所述生成器的输出结果输入所述鉴别器时,所述鉴别器的输出,E(·)为数学期望;
所述鉴别器的损失函数为:
Figure FDA0002856956050000021
其中,LD(G,D)为所述鉴别器的损失函数,x为所述预设文本内容,Pdata为x的分布,D(x|yn)为将yn和x输入所述鉴别器时,所述鉴别器的输出。
6.根据权利要求2所述的轨旁设备巡检报文生成方法,其特征在于,所述将所述目标音频输入到训练后的声学模型,输出所述目标音频的音素,包括:
基于模型剪枝算法或模型压缩算法对训练后的声学模型进行剪枝;
将转换后的目标音频输入到剪枝后的声学模型,输出所述目标音频的音素。
7.根据权利要求1-6任一所述的轨旁设备巡检报文生成方法,其特征在于,所述将所述目标音频输入到声学模型,输出所述目标音频的音素,还包括:
对所述目标音频进行预处理;
其中,所述预处理包括基于降噪算法对所述目标音频中的噪声进行消除和/或基于信道均衡算法对所述目标音频中的信道失真进行消除;
将预处理后的所述目标音频从时域转换到频域;
将转换后的目标音频输入到声学模型,输出所述目标音频的音素。
8.一种轨旁设备巡检报文生成系统,其特征在于,包括:
第一输出模块,用于获取巡检人员在当前轨旁设备的巡检过程中录入的目标音频,将所述目标音频输入到声学模型,输出所述目标音频的音素;
第二输出模块,用于将所述目标音频的音素输入到语言模型,输出所述目标音频的文字;
报文生成模块,用于将预先构建的巡检报文模板中的每个预设关键词与所述文字进行匹配,从所述文字中获取匹配到的预设关键词的值,并将所述预设关键词的值插入所述巡检报文模板中的相应位置,生成所述当前轨旁设备的巡检报文;
其中,所述声学模型为,以音频样本为样本,以与所述音频样本对应的样本音素为样本标签训练得到,所述语言模型为,以所述音频样本的音素为样本,以与所述音频样本的音素对应的样本文字为样本标签训练得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述轨旁设备巡检报文生成方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述轨旁设备巡检报文生成方法的步骤。
CN202011548232.2A 2020-12-24 2020-12-24 轨旁设备巡检报文生成方法及系统 Active CN112735425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011548232.2A CN112735425B (zh) 2020-12-24 2020-12-24 轨旁设备巡检报文生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011548232.2A CN112735425B (zh) 2020-12-24 2020-12-24 轨旁设备巡检报文生成方法及系统

Publications (2)

Publication Number Publication Date
CN112735425A true CN112735425A (zh) 2021-04-30
CN112735425B CN112735425B (zh) 2023-05-23

Family

ID=75605377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011548232.2A Active CN112735425B (zh) 2020-12-24 2020-12-24 轨旁设备巡检报文生成方法及系统

Country Status (1)

Country Link
CN (1) CN112735425B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN110263034A (zh) * 2019-05-29 2019-09-20 北京亮亮视野科技有限公司 智能眼镜及基于智能眼镜的作业巡检方法
CN110288019A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 图像标注方法、装置和存储介质
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
CN111435592A (zh) * 2018-12-25 2020-07-21 Tcl集团股份有限公司 一种语音识别方法、装置及终端设备
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
CN109036389A (zh) * 2018-08-28 2018-12-18 出门问问信息科技有限公司 一种对抗样本的生成方法及装置
CN111435592A (zh) * 2018-12-25 2020-07-21 Tcl集团股份有限公司 一种语音识别方法、装置及终端设备
CN110263034A (zh) * 2019-05-29 2019-09-20 北京亮亮视野科技有限公司 智能眼镜及基于智能眼镜的作业巡检方法
CN110288019A (zh) * 2019-06-21 2019-09-27 北京百度网讯科技有限公司 图像标注方法、装置和存储介质
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
CN111477247A (zh) * 2020-04-01 2020-07-31 宁波大学 基于gan的语音对抗样本生成方法
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN112735425B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
CN111182162B (zh) 基于人工智能的电话质检方法、装置、设备和存储介质
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN110853628A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN110689880A (zh) 一种应用于电力调度领域的语音识别方法及装置
CN110634471B (zh) 一种语音质检方法、装置、电子设备和存储介质
CN109544104A (zh) 一种招聘数据处理方法及装置
Venkatesan et al. Automatic language identification using machine learning techniques
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN109104258B (zh) 一种基于关键词识别的无线电识别方法
CN112735425A (zh) 轨旁设备巡检报文生成方法及系统
CN115983285A (zh) 问卷稽核方法、装置、电子设备和存储介质
CN110580899A (zh) 语音识别方法及装置、存储介质、计算设备
CN116150313A (zh) 数据扩充处理方法及装置
CN112581939A (zh) 一种应用于电力调度规范性评价的智能语音分析方法
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN112992150B (zh) 话术模板使用效果评价方法及装置
CN111246026A (zh) 一种基于卷积神经网络和连接性时序分类的录音处理方法
CN109189890A (zh) 招商引资投诉协调智能办理系统及方法
CN115132208A (zh) 一种基于ctc算法构建的人工智能催收方法
CN117113947B (zh) 一种表单填充系统、方法、电子设备及存储介质
CN113836346B (zh) 为音频文件生成摘要的方法、装置、计算设备及存储介质
CN111833897B (zh) 一种用于交互式教育的语音增强方法
CN111507758B (zh) 一种基于语义分析的调研方法、装置、系统及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant