CN114420132A

CN114420132A - 一种列车语音播报内容校验方法、系统和存储介质

Info

Publication number: CN114420132A
Application number: CN202210308530.7A
Authority: CN
Inventors: 董彤; 于子飞
Original assignee: Tianjin Beihai Communication Technology Co ltd
Current assignee: Tianjin Beihai Communication Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-04-29

Abstract

本发明提出了一种列车语音播报内容校验方法，为列车设备播报领域，具体为：获取列车播报的语音；将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；根据列车到站时刻表，获取相应站点的语音播报关键词包；根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心；本发明提供的方法，能够及时识别语音播报的内容与对应站点是否相符，且准确率高，提高用户体验，实现设备监测无人化。

Description

一种列车语音播报内容校验方法、系统和存储介质

技术领域

本发明属于列车设备播报领域，特别是指一种列车语音播报内容校验方法、系统和存储介质。

背景技术

随着生活水平的提高，列车上安装有广播器，到达不同的站点前，会播报到站站点的的相关内容，一方面作为宣传，让乘客了解城市的文化风俗、景点美食等，另一方面，也丰富了乘车时间。

由于设备或通讯问题，当播报的内容与对应站点不相符时，不能及时发现和处理，影响用户体验。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种列车语音播报内容校验方法，能够及时识别语音播报的内容与对应站点是否相符，且准确率高，提高用户体验，实现设备监测无人化。

本发明的技术方案：

一种列车语音播报内容校验方法，包括如下步骤：

获取列车播报的语音；

将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；

根据列车到站时刻表，获取相应站点的语音播报关键词包；

根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；

若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心。

具体地，将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，包括：

所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络，其中，外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络；；

将外界因子提取网络和主神经网络中的输入、隐层和输出层进行拼接，外界因子提取网络连接到主神经网络的输出层，将主神经网络的隐层激活反馈给外界因子提取网络。

具体地，将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，包括：采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型，采用的估计函数，具体为：

其中，

为主神经网络进行语素分类的交叉熵准则，

为基于深度神经网络的多重因子感知组合模型中的所有参数，

为外界因子提取网络中第一环境因子提取网络的交叉熵准则，

为外界因子提取网络中第二环境因子提取网络的交叉熵准则，

、

、

为加权参数。

具体地，还包括：获取列车播报的语音还包括：

根据列车到站的站点，获取站点的城市符号词语作为相应站点的语音播报关键词包；

将站点和语音播报关键词包进行映射。

本发明实施例另一方面还提供一种列车语音播报内容校验系统，包括如下：

语音获取单元：获取列车播报的语音；

语音识别单元：将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；

播报关键词包获取单元：根据列车到站时刻表，获取相应站点的语音播报关键词包；

检验单元：根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；

处理单元：若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心。

具体地，所述语音识别单元中，将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，包括：

所述基于深度神经网络的多重因子感知组合模型包括外界因子提取网络和主神经网络，其中，外界因子提取网络包括第一环境因子提取网络和第二环境因子提取网络；

具体地，所述语音识别单元中，将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，包括：采用多任务自学习框架训练基于深度神经网络的多重因子感知组合模型，采用的估计函数，具体为：

其中，

为主神经网络进行语素分类的交叉熵准则，

、

、

为加权参数。

具体地：还包括，映射单元，用于：

将站点和语音播报关键词包进行映射。

本发明再一实施例提供一种电子设备，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述一种列车语音播报内容校验方法步骤。

本发明又一实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述一种列车语音播报内容校验方法步骤。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

（1）本发明提出了一种列车语音播报内容校验方法，获取列车播报的语音；将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；根据列车到站时刻表，获取相应站点的语音播报关键词包；根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心；本发明提供的方法，能够及时识别语音播报的内容与对应站点是否相符，且准确率高，提高用户体验，实现设备监测无人化。

（2）本发明提出的基于深度神经网络的多重因子感知组合模型，将语音特征的外界特征同时提取，并同时输入进行识别，实现了特征上的互补，且识别性能上得到了很大的提升。

（3）本发明一种列车语音播报内容校验方法，算法运行简单，可嵌入式实现，避免出现工控机系统不稳定的情况，同时成本也要比工控机更有优势。

附图说明

图1为本发明实施例提供的一种列车语音播报内容校验方法流程图；

图2为本发明实施例提供基于深度神经网络的多重因子感知组合模型的结构示意图；

图3为本发明实施例提供的一种列车语音播报内容校验方法的结构图；

图4为本发明实施例提供的一种电子设备的实施例示意图；

图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

具体实施方式

本发明提出了一种列车语音播报内容校验方法方法，能够及时识别语音播报的内容与对应站点是否相符，且准确率高，提高用户体验，实现设备监测无人化。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

如图1，为本发明实施例提供的一种列车语音播报内容校验方法，包括如下步骤：

一种列车语音播报内容校验方法，包括如下步骤：

S101：获取列车播报的语音；

列车上安装有广播器，到达不同的站点前，会播报到站站点的的相关内容，一方面作为宣传，让乘客了解城市的文化风俗、景点美食等，另一方面，也丰富了乘车时间；通过录音设备获取列车播报的语音。

S102：将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；

语音播报是提供给列车上的乘客听的，为了便于乘客听清楚，语音播报播报设备通常安装在车厢内；但车厢内的外界声音很多，为了提高语音识别的准确率，本发明实施例提出了基于深度神经网络的多重因子感知组合模型，网络结构如图2所示，外界因子提取网络连接到主神经网络的输出层。同时，主神经网络的信息也可以用来提取更好的环境因子表示，我们将提取出的所有的环境因子输入给用于语音识别的主神经网络的输出层。同时，将主神经网络的隐层激活也回输给外界因子提取网络，这一信息流称为交叉边，如图2中所示。在使用了交叉边之后，用于语音识别的主网络和用于环境表示提取的因子提取网络可以互相获益，最终提升语音识别系统的性能。

其中，

为主神经网络进行语素分类的交叉熵准则，

、

、

为加权参数。

各个因子提取网络的准则的动态范围有区别，在本发明实施例中，

、

、

的取值分别设为1，0.1和0.1；然后使用常规的反向传播算法进行优化；

在多任务学习的深度神经网络中，所有的隐层在各个任务之间都是共享的，它的出发点是通过第二个任务的限制以及带来的更多训练数据增加主任务的泛化能力。我们提出的多重因子感知深度神经网络使用了一个完全不一样的网络结构，每一个因子提取网络都拥有自己独立的子网络。另外，我们使用了交叉边来增加主网络与各个因子提取网络之间的信息交换；主神经网络与各个因子提取网络一起集成到一个模型中且被联合优化。

外界因子提取网络包括第一环境因子提取网络，第二环境因子提取网络以及环境因子消除网络，其中，每一个外界因子提取网络都是一个含有瓶颈层的四层深度神经网络，其中瓶颈层处在第三层。瓶颈层的隐层输出被用来作为它所对应的外界因子的表示。对于不同的外界因子，使用了不同的优化准则来进行优化。比如，第一环境因子提取网络和第二环境因子提取网络，使用了说话人标签和单音素标签分别用于说话人提取和单音素提取，且使用的是用于分类的深度神经网络，它的优化准则是说话人标签或单音素标签与网络预测之间的交叉熵。

S103：根据列车到站时刻表，获取相应站点的语音播报关键词包；

具体地，还包括：获取列车播报的语音还包括：

将站点和语音播报关键词包进行映射。

其中城市符号，包括该城市的景点、美食、文化等，都可以作为城市符号，这些内容也肯定是语音播报的关键内容，将这些关键词作为该站点的关键词包。

S104：根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；

S105：若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心。

本发明提出的方法，实现设备监测无人化，地面中心能够随时知道故障时，语音播报内容以及校验时刻，方便及时维修和更改。本地板卡上拥有固态硬盘或者SD卡作为存储设备，所有的故障信息都会记录在本地板卡。地面中心可以通过网络调取车上记录的信息，车上的分析板卡也会向地面实时发送故障信息。

如图3，本发明实施例另一方面还提供一种列车语音播报内容校验系统，包括如下：

语音获取单元301：获取列车播报的语音；

列车上安装有广播器，到达不同的站点前，会播报到站站点的的相关内容，一方面作为宣传，让乘客了解城市的文化风俗、景点美食等，另一方面，也丰富了乘车时间；通过录音设备获取列车播报的语音.

语音识别单元302：将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；

语音播报是提供给列车上的乘客听的，为了便于乘客听清楚，语音播报播报设备通常安装在车厢内；但车厢内的外界声音很多，为了提高语音识别的准确率，本发明实施例提出了基于深度神经网络的多重因子感知组合模型，网络结构如图2所示，其中，RobustASR为主神经网络，Noisy corrupted Feats为外界因子提取网络。外界因子提取网络连接到主神经网络的输出层。同时，主神经网络的信息也可以用来提取更好的环境因子表示，我们将提取出的所有的环境因子输入给用于语音识别的主神经网络的输出层。同时，将主神经网络的隐层激活也回输给因子提取网络，这一信息流称为交叉边，如图2中所示。在使用了交叉边之后，用于语音识别的主网络和用于环境表示提取的因子提取网络可以互相获益，最终提升语音识别系统的性能。

其中，

为主神经网络进行语素分类的交叉熵准则，

为外界因子提取网络中第二环境因子提取网络的交叉熵准则。

、

、

播报关键词包获取单元303：根据列车到站时刻表，获取相应站点的语音播报关键词包；

具体地：还包括，映射单元，用于：

将站点和语音播报关键词包进行映射。

检验单元304：根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；

处理单元305：若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心。

如图4所示，本发明实施例提供了一种电子设备400，包括存储器410、处理器420及存储在存储器410上并可在处理器420上运行的计算机程序411，处理器420执行计算机程序411时实现本发明实施例提供的一种列车语音播报内容校验方法。

在具体实施过程中，处理器420执行计算机程序411时，可以实现图1对应的实施例中任一实施方式。

由于本实施例所介绍的电子设备为实施本发明实施例中一种数据处理装置所采用的设备，故而基于本发明实施例中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本发明实施例中的方法不再详细介绍，只要本领域所属技术人员实施本发明实施例中的方法所采用的设备，都属于本发明所欲保护的范围。

请参阅图5，图5为本发明实施例提供的一种计算机可读存储介质的实施例示意图。

如图5所示，本实施例提供了一种计算机可读存储介质500，其上存储有计算机程序511，该计算机程序511被处理器执行时实现本发明实施例提供的一种列车语音播报内容校验方法；

在具体实施过程中，该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明提出了一种列车语音播报内容校验方法，获取列车播报的语音；将列车播报的语音通过基于深度神经网络的多重因子感知组合模型进行识别，生成待识别语音的文本信息；根据列车到站时刻表，获取相应站点的语音播报关键词包；根据相应站点的语音播报关键词包，匹配所述待识别语音的文本信息，校验语音播报的内容；若校验不通过，获取所述语音播报内容以及校验时刻，通过无线网络上报到地面中心；本发明提供的方法，能够及时识别语音播报的内容与对应站点是否相符，且准确率高，提高用户体验，实现设备监测无人化。

本发明提出的基于深度神经网络的多重因子感知组合模型，将语音特征的外界特征同时提取，并同时输入进行识别，实现了特征上的互补，且识别性能上得到了很大的提升。

本发明一种列车语音播报内容校验方法，算法运行简单，可嵌入式实现，避免出现工控机系统不稳定的情况，同时成本也要比工控机更有优势。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围行为。