CN114420132A - 一种列车语音播报内容校验方法、系统和存储介质 - Google Patents

一种列车语音播报内容校验方法、系统和存储介质 Download PDF

Info

Publication number
CN114420132A
CN114420132A CN202210308530.7A CN202210308530A CN114420132A CN 114420132 A CN114420132 A CN 114420132A CN 202210308530 A CN202210308530 A CN 202210308530A CN 114420132 A CN114420132 A CN 114420132A
Authority
CN
China
Prior art keywords
voice
train
neural network
network
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210308530.7A
Other languages
English (en)
Inventor
董彤
于子飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Beihai Communication Technology Co ltd
Original Assignee
Tianjin Beihai Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Beihai Communication Technology Co ltd filed Critical Tianjin Beihai Communication Technology Co ltd
Priority to CN202210308530.7A priority Critical patent/CN114420132A/zh
Publication of CN114420132A publication Critical patent/CN114420132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明提出了一种列车语音播报内容校验方法,为列车设备播报领域,具体为:获取列车播报的语音;将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;根据列车到站时刻表,获取相应站点的语音播报关键词包;根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心;本发明提供的方法,能够及时识别语音播报的内容与对应站点是否相符,且准确率高,提高用户体验,实现设备监测无人化。

Description

一种列车语音播报内容校验方法、系统和存储介质
技术领域
本发明属于列车设备播报领域,特别是指一种列车语音播报内容校验方法、系统和存储介质。
背景技术
随着生活水平的提高,列车上安装有广播器,到达不同的站点前,会播报到站站点的的相关内容,一方面作为宣传,让乘客了解城市的文化风俗、景点美食等,另一方面,也丰富了乘车时间。
由于设备或通讯问题,当播报的内容与对应站点不相符时,不能及时发现和处理,影响用户体验。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种列车语音播报内容校验方法,能够及时识别语音播报的内容与对应站点是否相符,且准确率高,提高用户体验,实现设备监测无人化。
本发明的技术方案:
一种列车语音播报内容校验方法,包括如下步骤:
获取列车播报的语音;
将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
根据列车到站时刻表,获取相应站点的语音播报关键词包;
根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络,其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 93203DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 547581DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure 100002_DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 406952DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则,
Figure 100002_DEST_PATH_IMAGE007
Figure 78105DEST_PATH_IMAGE008
Figure 100002_DEST_PATH_IMAGE009
为加权参数。
具体地,还包括:获取列车播报的语音还包括:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
本发明实施例另一方面还提供一种列车语音播报内容校验系统,包括如下:
语音获取单元:获取列车播报的语音;
语音识别单元:将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
播报关键词包获取单元:根据列车到站时刻表,获取相应站点的语音播报关键词包;
检验单元:根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
处理单元:若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
具体地,所述语音识别单元中,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络,其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
具体地,所述语音识别单元中,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 313914DEST_PATH_IMAGE002
其中,
Figure 885448DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 853404DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure 11853DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 723457DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则,
Figure 447699DEST_PATH_IMAGE007
Figure 586556DEST_PATH_IMAGE008
Figure 435564DEST_PATH_IMAGE009
为加权参数。
具体地:还包括,映射单元,用于:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
本发明再一实施例提供一种电子设备,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述一种列车语音播报内容校验方法步骤。
本发明又一实施例提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述一种列车语音播报内容校验方法步骤。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明提出了一种列车语音播报内容校验方法,获取列车播报的语音;将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;根据列车到站时刻表,获取相应站点的语音播报关键词包;根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心;本发明提供的方法,能够及时识别语音播报的内容与对应站点是否相符,且准确率高,提高用户体验,实现设备监测无人化。
(2)本发明提出的基于深度神经网络的多重因子感知组合模型,将语音特征的外界特征同时提取,并同时输入进行识别,实现了特征上的互补,且识别性能上得到了很大的提升。
(3)本发明一种列车语音播报内容校验方法,算法运行简单,可嵌入式实现,避免出现工控机系统不稳定的情况,同时成本也要比工控机更有优势。
附图说明
图1为本发明实施例提供的一种列车语音播报内容校验方法流程图;
图2为本发明实施例提供基于深度神经网络的多重因子感知组合模型的结构示意图;
图3为本发明实施例提供的一种列车语音播报内容校验方法的结构图;
图4为本发明实施例提供的一种电子设备的实施例示意图;
图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
本发明提出了一种列车语音播报内容校验方法方法,能够及时识别语音播报的内容与对应站点是否相符,且准确率高,提高用户体验,实现设备监测无人化。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
如图1,为本发明实施例提供的一种列车语音播报内容校验方法,包括如下步骤:
一种列车语音播报内容校验方法,包括如下步骤:
S101:获取列车播报的语音;
列车上安装有广播器,到达不同的站点前,会播报到站站点的的相关内容,一方面作为宣传,让乘客了解城市的文化风俗、景点美食等,另一方面,也丰富了乘车时间;通过录音设备获取列车播报的语音。
S102:将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
语音播报是提供给列车上的乘客听的,为了便于乘客听清楚,语音播报播报设备通常安装在车厢内;但车厢内的外界声音很多,为了提高语音识别的准确率,本发明实施例提出了基于深度神经网络的多重因子感知组合模型,网络结构如图2所示,外界因子提取网络连接到主神经网络的输出层。同时,主神经网络的信息也可以用来提取更好的环境因子表示,我们将提取出的所有的环境因子输入给用于语音识别的主神经网络的输出层。同时,将主神经网络的隐层激活也回输给外界因子提取网络,这一信息流称为交叉边,如图2中所示。在使用了交叉边之后,用于语音识别的主网络和用于环境表示提取的因子提取网络可以互相获益,最终提升语音识别系统的性能。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络,其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 685279DEST_PATH_IMAGE002
其中,
Figure 234335DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 544093DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure 677134DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 792858DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则,
Figure 632638DEST_PATH_IMAGE007
Figure 113298DEST_PATH_IMAGE008
Figure 264793DEST_PATH_IMAGE009
为加权参数。
各个因子提取网络的准则的动态范围有区别,在本发明实施例中,
Figure 121891DEST_PATH_IMAGE007
Figure 580292DEST_PATH_IMAGE008
Figure 231853DEST_PATH_IMAGE009
的取值分别设为1,0.1和0.1;然后使用常规的反向传播算法进行优化;
在多任务学习的深度神经网络中,所有的隐层在各个任务之间都是共享的,它的出发点是通过第二个任务的限制以及带来的更多训练数据增加主任务的泛化能力。我们提出的多重因子感知深度神经网络使用了一个完全不一样的网络结构,每一个因子提取网络都拥有自己独立的子网络。另外,我们使用了交叉边来增加主网络与各个因子提取网络之间的信息交换;主神经网络与各个因子提取网络一起集成到一个模型中且被联合优化。
外界因子提取网络包括第一环境因子提取网络,第二环境因子提取网络以及环境因子消除网络,其中,每一个外界因子提取网络都是一个含有瓶颈层的四层深度神经网络,其中瓶颈层处在第三层。瓶颈层的隐层输出被用来作为它所对应的外界因子的表示。对于不同的外界因子,使用了不同的优化准则来进行优化。比如,第一环境因子提取网络和第二环境因子提取网络,使用了说话人标签和单音素标签分别用于说话人提取和单音素提取,且使用的是用于分类的深度神经网络,它的优化准则是说话人标签或单音素标签与网络预测之间的交叉熵。
S103:根据列车到站时刻表,获取相应站点的语音播报关键词包;
具体地,还包括:获取列车播报的语音还包括:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
其中城市符号,包括该城市的景点、美食、文化等,都可以作为城市符号,这些内容也肯定是语音播报的关键内容,将这些关键词作为该站点的关键词包。
S104:根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
S105:若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
本发明提出的方法,实现设备监测无人化,地面中心能够随时知道故障时,语音播报内容以及校验时刻,方便及时维修和更改。本地板卡上拥有固态硬盘或者SD卡作为存储设备,所有的故障信息都会记录在本地板卡。地面中心可以通过网络调取车上记录的信息,车上的分析板卡也会向地面实时发送故障信息。
如图3,本发明实施例另一方面还提供一种列车语音播报内容校验系统,包括如下:
语音获取单元301:获取列车播报的语音;
列车上安装有广播器,到达不同的站点前,会播报到站站点的的相关内容,一方面作为宣传,让乘客了解城市的文化风俗、景点美食等,另一方面,也丰富了乘车时间;通过录音设备获取列车播报的语音.
语音识别单元302:将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
语音播报是提供给列车上的乘客听的,为了便于乘客听清楚,语音播报播报设备通常安装在车厢内;但车厢内的外界声音很多,为了提高语音识别的准确率,本发明实施例提出了基于深度神经网络的多重因子感知组合模型,网络结构如图2所示,其中,RobustASR为主神经网络,Noisy corrupted Feats为外界因子提取网络。外界因子提取网络连接到主神经网络的输出层。同时,主神经网络的信息也可以用来提取更好的环境因子表示,我们将提取出的所有的环境因子输入给用于语音识别的主神经网络的输出层。同时,将主神经网络的隐层激活也回输给因子提取网络,这一信息流称为交叉边,如图2中所示。在使用了交叉边之后,用于语音识别的主网络和用于环境表示提取的因子提取网络可以互相获益,最终提升语音识别系统的性能。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络,其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
具体地,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 339486DEST_PATH_IMAGE002
其中,
Figure 734696DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 142543DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure 230585DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 763197DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则。
各个因子提取网络的准则的动态范围有区别,在本发明实施例中,
Figure 322617DEST_PATH_IMAGE007
Figure 725917DEST_PATH_IMAGE008
Figure 984860DEST_PATH_IMAGE009
的取值分别设为1,0.1和0.1;然后使用常规的反向传播算法进行优化;
在多任务学习的深度神经网络中,所有的隐层在各个任务之间都是共享的,它的出发点是通过第二个任务的限制以及带来的更多训练数据增加主任务的泛化能力。我们提出的多重因子感知深度神经网络使用了一个完全不一样的网络结构,每一个因子提取网络都拥有自己独立的子网络。另外,我们使用了交叉边来增加主网络与各个因子提取网络之间的信息交换;主神经网络与各个因子提取网络一起集成到一个模型中且被联合优化。
外界因子提取网络包括第一环境因子提取网络,第二环境因子提取网络以及环境因子消除网络,其中,每一个外界因子提取网络都是一个含有瓶颈层的四层深度神经网络,其中瓶颈层处在第三层。瓶颈层的隐层输出被用来作为它所对应的外界因子的表示。对于不同的外界因子,使用了不同的优化准则来进行优化。比如,第一环境因子提取网络和第二环境因子提取网络,使用了说话人标签和单音素标签分别用于说话人提取和单音素提取,且使用的是用于分类的深度神经网络,它的优化准则是说话人标签或单音素标签与网络预测之间的交叉熵。
播报关键词包获取单元303:根据列车到站时刻表,获取相应站点的语音播报关键词包;
具体地:还包括,映射单元,用于:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
其中城市符号,包括该城市的景点、美食、文化等,都可以作为城市符号,这些内容也肯定是语音播报的关键内容,将这些关键词作为该站点的关键词包。
检验单元304:根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
处理单元305:若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
如图4所示,本发明实施例提供了一种电子设备400,包括存储器410、处理器420及存储在存储器410上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现本发明实施例提供的一种列车语音播报内容校验方法。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备,故而基于本发明实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍,只要本领域所属技术人员实施本发明实施例中的方法所采用的设备,都属于本发明所欲保护的范围。
请参阅图5,图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,该计算机程序511被处理器执行时实现本发明实施例提供的一种列车语音播报内容校验方法;
在具体实施过程中,该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明提出了一种列车语音播报内容校验方法,获取列车播报的语音;将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;根据列车到站时刻表,获取相应站点的语音播报关键词包;根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心;本发明提供的方法,能够及时识别语音播报的内容与对应站点是否相符,且准确率高,提高用户体验,实现设备监测无人化。
本发明提出的基于深度神经网络的多重因子感知组合模型,将语音特征的外界特征同时提取,并同时输入进行识别,实现了特征上的互补,且识别性能上得到了很大的提升。
本发明一种列车语音播报内容校验方法,算法运行简单,可嵌入式实现,避免出现工控机系统不稳定的情况,同时成本也要比工控机更有优势。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围行为。

Claims (10)

1.一种列车语音播报内容校验方法,其特征在于,包括如下步骤:
获取列车播报的语音;
将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
根据列车到站时刻表,获取相应站点的语音播报关键词包;
根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
2.根据权利要求1所述的一种列车语音播报内容校验方法,其特征在于,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络以及环境因子消除网络;其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
3.根据权利要求2所述的一种列车语音播报内容校验方法,其特征在于,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 694287DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 947455DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 65453DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则,
Figure DEST_PATH_IMAGE007
Figure 882099DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为加权参数。
4.根据权利要求1所述的一种列车语音播报内容校验方法,其特征在于,还包括:获取列车播报的语音还包括:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
5.一种列车语音播报内容校验系统,其特征在于,包括如下:
语音获取单元:获取列车播报的语音;
语音识别单元:将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,生成待识别语音的文本信息;
播报关键词包获取单元:根据列车到站时刻表,获取相应站点的语音播报关键词包;
检验单元:根据相应站点的语音播报关键词包,匹配所述待识别语音的文本信息,校验语音播报的内容;
处理单元:若校验不通过,获取所述语音播报内容以及校验时刻,通过无线网络上报到地面中心。
6.根据权利要求5所述的一种列车语音播报内容校验系统,其特征在于,所述语音识别单元中,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:
所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络;其中,外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络;
将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接,外界因子提取网络连接到主神经网络的输出层,将主神经网络的隐层激活反馈给外界因子提取网络。
7.根据权利要求6所述的一种列车语音播报内容校验系统,其特征在于,所述语音识别单元中,将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别,包括:采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型,采用的估计函数,具体为:
Figure 619111DEST_PATH_IMAGE002
其中,
Figure 706278DEST_PATH_IMAGE003
为主神经网络进行语素分类的交叉熵准则,
Figure 136122DEST_PATH_IMAGE004
为基于深度神经网络的多重因子感知组合模型中的所有参数,
Figure 440064DEST_PATH_IMAGE005
为外界因子提取网络中第一环境因子提取网络的交叉熵准则,
Figure 715188DEST_PATH_IMAGE006
为外界因子提取网络中第二环境因子提取网络的交叉熵准则,
Figure 420976DEST_PATH_IMAGE007
Figure 756142DEST_PATH_IMAGE008
Figure 547381DEST_PATH_IMAGE009
为加权参数。
8.根据权利要求5所述的一种列车语音播报内容校验系统,其特征在于,还包括:映射单元,用于:
根据列车到站的站点,获取站点的城市符号词语作为相应站点的语音播报关键词包;
将站点和语音播报关键词包进行映射。
9.一种电子设备,其特征在于,包括:存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202210308530.7A 2022-03-28 2022-03-28 一种列车语音播报内容校验方法、系统和存储介质 Pending CN114420132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308530.7A CN114420132A (zh) 2022-03-28 2022-03-28 一种列车语音播报内容校验方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308530.7A CN114420132A (zh) 2022-03-28 2022-03-28 一种列车语音播报内容校验方法、系统和存储介质

Publications (1)

Publication Number Publication Date
CN114420132A true CN114420132A (zh) 2022-04-29

Family

ID=81263007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308530.7A Pending CN114420132A (zh) 2022-03-28 2022-03-28 一种列车语音播报内容校验方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN114420132A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154227B1 (en) * 2003-11-26 2012-04-10 Liontech Trains Llc Model train control system
CN103674013A (zh) * 2013-11-26 2014-03-26 上海斐讯数据通信技术有限公司 一种盲人公交导航系统及其导航方法
CN104575090A (zh) * 2014-12-26 2015-04-29 青岛文创科技有限公司 一种基于app的语音式公交车行程播报方法及系统
CN105654767A (zh) * 2016-01-27 2016-06-08 宇龙计算机通信科技(深圳)有限公司 一种到站提醒处理的方法、装置以及终端
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN109204007A (zh) * 2018-08-29 2019-01-15 江西理工大学 一种无人驾驶的悬挂式磁悬浮列车及其控制方法
CN110648553A (zh) * 2019-09-26 2020-01-03 北京声智科技有限公司 一种站点提醒方法、电子设备及计算机可读存储介质
CN111222836A (zh) * 2019-10-08 2020-06-02 华为终端有限公司 一种到站提醒方法及相关装置
CN112637317A (zh) * 2020-12-18 2021-04-09 卡斯柯信号有限公司 应用于轨道交通的无接触式智能客服系统及应用方法
CN113276915A (zh) * 2021-07-06 2021-08-20 浙江非线数联科技股份有限公司 一种地铁发车调度方法和系统
CN113314121A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 无声语音识别方法、装置、介质、耳机及电子设备
CN113602319A (zh) * 2021-09-13 2021-11-05 青岛汉桦电子科技有限公司 一种应用于轨道交通环境的车载乘客信息显示系统
CN113709305A (zh) * 2021-08-27 2021-11-26 云知声(上海)智能科技有限公司 基于语音识别的公交智能提醒方法及提醒系统
CN114121033A (zh) * 2022-01-27 2022-03-01 深圳市北海轨道交通技术有限公司 基于深度学习的列车广播语音增强方法和系统
CN114187894A (zh) * 2021-12-10 2022-03-15 京东科技信息技术有限公司 一种意图识别方法、装置及其相关设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154227B1 (en) * 2003-11-26 2012-04-10 Liontech Trains Llc Model train control system
CN103674013A (zh) * 2013-11-26 2014-03-26 上海斐讯数据通信技术有限公司 一种盲人公交导航系统及其导航方法
CN104575090A (zh) * 2014-12-26 2015-04-29 青岛文创科技有限公司 一种基于app的语音式公交车行程播报方法及系统
CN105654767A (zh) * 2016-01-27 2016-06-08 宇龙计算机通信科技(深圳)有限公司 一种到站提醒处理的方法、装置以及终端
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN109204007A (zh) * 2018-08-29 2019-01-15 江西理工大学 一种无人驾驶的悬挂式磁悬浮列车及其控制方法
CN110648553A (zh) * 2019-09-26 2020-01-03 北京声智科技有限公司 一种站点提醒方法、电子设备及计算机可读存储介质
CN111222836A (zh) * 2019-10-08 2020-06-02 华为终端有限公司 一种到站提醒方法及相关装置
CN112637317A (zh) * 2020-12-18 2021-04-09 卡斯柯信号有限公司 应用于轨道交通的无接触式智能客服系统及应用方法
CN113314121A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 无声语音识别方法、装置、介质、耳机及电子设备
CN113276915A (zh) * 2021-07-06 2021-08-20 浙江非线数联科技股份有限公司 一种地铁发车调度方法和系统
CN113709305A (zh) * 2021-08-27 2021-11-26 云知声(上海)智能科技有限公司 基于语音识别的公交智能提醒方法及提醒系统
CN113602319A (zh) * 2021-09-13 2021-11-05 青岛汉桦电子科技有限公司 一种应用于轨道交通环境的车载乘客信息显示系统
CN114187894A (zh) * 2021-12-10 2022-03-15 京东科技信息技术有限公司 一种意图识别方法、装置及其相关设备
CN114121033A (zh) * 2022-01-27 2022-03-01 深圳市北海轨道交通技术有限公司 基于深度学习的列车广播语音增强方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭天: "基于结构化深度学习的语音识别自适应技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》, no. 01, 15 January 2020 (2020-01-15), pages 71 - 82 *

Similar Documents

Publication Publication Date Title
CN107316643B (zh) 语音交互方法及装置
CN102842306B (zh) 语音控制方法及装置、语音响应方法及装置
CN105096941B (zh) 语音识别方法以及装置
CN106953887B (zh) 一种细粒度电台音频内容个性化组织推荐方法
CN107835496B (zh) 一种垃圾短信的识别方法、装置和服务器
US9047868B1 (en) Language model data collection
US10380166B2 (en) Methods and apparatus to determine tags for media using multiple media features
CN108053545B (zh) 证件验真方法和装置、服务器、存储介质
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN108538294A (zh) 一种语音交互方法及装置
JP2019071089A (ja) 情報提示装置、および情報提示方法
CN104575509A (zh) 语音增强处理方法及装置
CN109471932A (zh) 基于学习模型的谣言检测方法、系统及存储介质
CN108492819A (zh) 语言练习方法、装置、智能车载终端及存储介质
CN111028834A (zh) 语音信息提醒方法、装置、服务器和语音信息提醒设备
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
CN109195154B (zh) 物联网窜卡用户识别方法和装置
CN111243604A (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN109147792A (zh) 一种语音简历系统
CN114420132A (zh) 一种列车语音播报内容校验方法、系统和存储介质
CN110764684A (zh) 基于语音触屏融合的即时交互方法、系统、存储介质、车载终端
CN110728982A (zh) 基于语音触屏的信息交互方法、系统、存储介质、车载终端
CN114912463B (zh) 会议自动记录方法、系统、可读存储介质及计算机设备
CN107180629B (zh) 一种语音采集识别方法与系统
JP2018529149A (ja) 情報をプッシュ配信する方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220429

RJ01 Rejection of invention patent application after publication