CN114171011A - 基于铁路调度单声道语音识别方法及系统 - Google Patents
基于铁路调度单声道语音识别方法及系统 Download PDFInfo
- Publication number
- CN114171011A CN114171011A CN202111605503.8A CN202111605503A CN114171011A CN 114171011 A CN114171011 A CN 114171011A CN 202111605503 A CN202111605503 A CN 202111605503A CN 114171011 A CN114171011 A CN 114171011A
- Authority
- CN
- China
- Prior art keywords
- voice
- recording
- segment
- data set
- identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000012634 fragment Substances 0.000 claims abstract description 34
- 238000013518 transcription Methods 0.000 claims abstract description 20
- 230000035897 transcription Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000005520 cutting process Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于铁路调度业务处理技术领域,特别涉及一种基于铁路调度单声道语音识别方法及系统,构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成语音片段数据集一,且在每个录音片段均对应设置有ID;针对每个录音片段,将发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二,通过文字转写形成包含对应录音片段转写文字信息的数据集三;根据上述两个数据集三合并获取语音片段数据集四,以实现铁路调度指令语音的听看识别,便于对铁路调度业务中调度员的监管,提升铁路运输服务质量及国民满意度。
Description
技术领域
本发明属于铁路调度业务处理技术领域,特别涉及一种基于铁路调度单声道语音识别方法及系统。
背景技术
调度所是铁路日常运输组织的指挥中枢。调度员口头指示非常严肃,直接关系到运输生产效率与调度指挥安全,且有明确规定“指挥列车运行的命令(运行揭示调度命令除外)和口头指示,只能由列车调度员发布”,因此调度用语的标准化执行与检查工作就显得尤为重要。目前全国18个铁路局调度所使用的通信及录音设备已建设多年,如北京局调度所通信及录音系统建于2010年,已使用10年之久。铁路调度通信及录音设备陈旧老化、功能单一落后,调度语音数据量庞大,语音质量差,目前全路范围内对调度语音的检查工作,仍停留在通过人工回放、人耳分辨形式进行,反应滞后、效率低下,无法满足对全量调度语音进行快捷有效检查分析的需求。急需通过语音识别手段进行录音中调度员身份的自动确定及语音到文字的自动转写,便于后续的分析。经调研,全国多数铁路局调度的录音为单声道8k8bit,1:2压缩存储,信噪比较低,存在强噪声、强干扰、多方言、多术语等特点。两个调度员或多个调度员的对话共同存储在单一声道中,且存在调度人员说话速度快、单次说话时间短、多人说话切换快等特点。使用通用的声纹识别无法确定调度录音中的多个调度员身份;将多人的混合语音使用通用连续语音转写时,无法判断各调度员与语音指令转写文字后的对应关系;将多调度员说话内容进行统一的文本处理及顺滑,会导致严肃的调度指令转写的文本失真。
发明内容
为此,本发明提供一种基于铁路调度单声道语音识别方法及系统,基于铁路调度单声道语音来实现调度业务中语音处理、说话人识别及连续语音识别,便于对铁路调度业务中调度员的监管,提升铁路运输服务质量及国民满意度。
按照本发明所提供的设计方案,一种基于铁路调度单声道语音识别方法,包含如下内容:
构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;
根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度业务中调度指令语音的听看识别。
作为本发明基于铁路调度单声道语音识别方法,进一步地,针对收集到的收集调度台与车站之间的调度指令录音数据,首先对调度指令语音数据进行预处理,然后再进行录音片段切割,其中,预处理至少包含:对录音数据中噪声抑制处理的语音降噪处理及对录音数据中人声语音增强的信号增强处理。
作为本发明基于铁路调度单声道语音识别方法,进一步地,对调度指令录音数据进行录音片段切割中,利用人声分离算法对调度指令录音数据进行人声分离,确定发声人员个数及每个发声人员录音片段发声的起止时间段及不同时间段发声人员归属;并依据不同时间段对并行语音片段进行分组规整,形成以数组形式存储的语音片段数据集一。
作为本发明基于铁路调度单声道语音识别方法,进一步地,针对语音片段数据集一,以发声人员为依据,利用声纹识别算法提取语音片段中发声人员的声纹特征,将提取到的声纹特征与铁路调度人员声纹特征库中每个调度员的声纹特征进行比对,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,确定每个录音片段中发声人员身份信息并进行标记,形成包含调度员身份信息的语音片段数据集二。
作为本发明基于铁路调度单声道语音识别方法,进一步地,语音片段数据集二以数组形式存储,且在数组形式的存储结构中以调度员身份信息为元素对象key值,与调度员身份信息关联的录音片段信息依次存储在对应key值的数组元素对象中。
作为本发明基于铁路调度单声道语音识别方法,进一步地,通过语音识别技术将每个录音片段转写成对应文字信息,并利用文字识别技术对转写后的文字信息添加标点符号,以数组形式存储录音片段信息及对应转写文字信息,形成数据集三。
作为本发明基于铁路调度单声道语音识别方法,进一步地,针对语音片段数据集二和数据集三,通过录音片段ID进行关联合并,形成以数组形式存储每个录音片段信息、对应转写文字信息及录音片段对应调度员身份信息,形成语音片段数据集四。
作为本发明基于铁路调度单声道语音识别方法,进一步地,听看识别中,针对语音片段数据集四中每个录音片段,并通过生成每个录音片段的语音波形进行动态展示,并在动态展示中标注录音片段当前播放时间点和语音波形图起止时间点,形成调度指令语音中语音片段、文字及调度员身份信息相对应输出的听看同步效果。
进一步地,本发明还提供一种基于铁路调度单声道语音识别系统,包含:特征库构建模块、语音收集模块、语音关联模块和识别输出模块,其中,
特征库构建模块,用于构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
语音收集模块,用于收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
语音关联模块,用于针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
识别输出模块,用于依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度业务中调度指令语音的听看识别。
本发明的有益效果:
本发明针对铁路调度人员语音指令速度快、单次说话时间短、多人语音指令切换快、及多个调度员的对话混合存储在单一声道中的特点,通过构建与调度指令录音数据中每个录音片段有关联存有原始片段数据、声纹特征比对获取的包含调度员身份信息、及通过文字转写获取的包含文字信息的多个数据集来准确识别录音中每位调度人员的身份,通过录音片段转写及标点符号标记提升调度指令语音的转写准确率,并通过数据集中各调度员与转写后的指令文字进行对应关系,来获取最终调度指令语音数据的输出,以满足对调度员调度业务监管的听看同步需求,便于实际场景应用。
附图说明:
图1为实施例中基于铁路调度单声道语音识别方法流程示意;
图2为实施例中各数据集存储结构示意;
图3为实施例中调度指令录音数据处理逻辑示意;
图4为实施例中调度指令录音与文字、调度员身份对应展示输出示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
铁路调度业务中调度人员语音指令速度快、单次说话时间短、多人语音指令切换快,多个调度员的对话混合存储在单一声道中,导致:(1)无法通过传统的声纹识别算法确认调度人员的身份。(2)使用传统的连续语音转写时,依靠传统的语音停顿断句,会出现将多调度员的多句话作为为一句话进行识别的情况,导致严肃的调度语音指令转写的文本失真,无法从文字角度还原多调度员真实的对话调度场景。(3)无法确定各调度员与转写后的指令文字的对应关系。为此,本发明实施例,提供一种基于铁路调度单声道语音识别方法,参见图1所示,包含如下内容:
S101、构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
S102、收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
S103、针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;
S104、根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
S105、依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度业务中调度指令语音的听看识别。
通过构建与调度指令录音数据中每个录音片段有关联存有原始片段数据、声纹特征比对获取的包含调度员身份信息、及通过文字转写获取的包含文字信息的多个数据集来准确识别录音中每位调度人员的身份;并对录音片段转写来获取调度指令语音文字信息,并通过数据集中各调度员与转写后的指令文字进行对应关系,输出最终的调度指令语音数据及相关调度员身份信息和撰写的文字数据,以满足对调度员调度业务听看同步监管需求,便于实际场景中的应用功能。
作为本发明实施例中基于铁路调度单声道语音识别方法,进一步地,针对收集到的收集调度台与车站之间的调度指令录音数据,首先对调度指令语音数据进行预处理,然后再进行录音片段切割,其中,预处理至少包含:对录音数据中噪声抑制处理的语音降噪处理及对录音数据中人声语音增强的信号增强处理。利用语音降噪及人声增强算法引擎,对调度指令录音数据进行语音降噪及人声增强。进一步地,对调度指令录音数据进行录音片段切割中,利用人声分离算法对调度指令录音数据进行人声分离,确定发声人员个数及每个发声人员录音片段发声的起止时间段及不同时间段发声人员归属;并依据不同时间段对并行语音片段进行分组规整,形成以数组形式存储的语音片段数据集一。该语音片段数据集一包含多个子数据集,每个子数据集包含一段调度指令录音数据切割后的录音数据片段,以及该录音数据片段对应的起止时间、说话人归属信息,同时将每个录音数据片段对应一个ID。以数组表示时可如下所示:
作为本发明实施例中基于铁路调度单声道语音识别方法,进一步地,针对语音片段数据集一,以发声人员为依据,利用声纹识别算法提取语音片段中发声人员的声纹特征,将提取到的声纹特征与铁路调度人员声纹特征库中每个调度员的声纹特征进行比对,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,确定每个录音片段中发声人员身份信息并进行标记,形成包含调度员身份信息的语音片段数据集二。进一步地,语音片段数据集二以数组形式存储,且在数组形式的存储结构中以调度员身份信息为元素对象key值,与调度员身份信息关联的录音片段信息依次存储在对应key值的数组元素对象中。
以每个说话人为依据,将多个语音片段通过声纹识别算法引擎,提取语音片段中说话人的声纹特征,并与声纹库中每个调度员的声纹特征进行一对一比对,确定每个说话人的实际调度员身份。语音片段数据集二包含多个子项,每子项包含一个调度员的姓名、多个该调度员的录音数据片段、及每录音数据片段对应的起止时间,每录音数据片段ID。以数组表示时可如下所示:
作为本发明实施例中基于铁路调度单声道语音识别方法,进一步地,通过语音识别技术将每个录音片段转写成对应文字信息,并利用文字识别技术对转写后的文字信息添加标点符号,以数组形式存储录音片段信息及对应转写文字信息,形成数据集三。
将每段录音片段依次送连续语音识别引擎,将人声转写为中文文字,得到每段录音的转写文字结果。使用每段录音的文字转写结果集送至文本标点引擎,标点引擎负责将每段文字加上中文标点,最终形成一段带有标点的文字。数据集三包含多个子项,每子项包括一段调度指令录音数据切割后的录音数据片段,以及每个录音数据片段对应的录音数据、起止时间、连续语音转写后的文字及标点信息、ID,以数组表示时可如下所示:
作为本发明实施例中基于铁路调度单声道语音识别方法,进一步地,针对语音片段数据集二和数据集三,通过录音片段ID进行关联合并,形成以数组形式存储每个录音片段信息、对应转写文字信息及录音片段对应调度员身份信息,形成语音片段数据集四。
依据语音片段数据集二和数据集三最终形成调度指令录音与文字、文字与调度员身份的对应输出,听看同步,并可依照每指令时间、发出指令的调度员身份、指令文字形成最终的调度指令过程的文字报告。其中,语音片段数据集四包含多个子项,每子项包含一段调度指令录音数据切割后的录音数据片段,以及每个录音数据片段对应的录音数据、起止时间,并且包含每录音数据片段的发言调度员姓名、连续语音转写后的文字及标点信息;其以数组表示时可如下所示:。
进一步地,听看识别中,针对语音片段数据集四中每个录音片段,并通过生成每个录音片段的语音波形进行动态展示,并在动态展示中标注录音片段当前播放时间点和语音波形图起止时间点,形成调度指令语音中语音片段、文字及调度员身份信息相对应输出的听看同步效果。
进一步地,基于上述的方法中,本发明实施例还提供一种基于铁路调度单声道语音识别系统,包含:特征库构建模块、语音收集模块、语音关联模块和识别输出模块,其中,
特征库构建模块,用于构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
语音收集模块,用于收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
语音关联模块,用于针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
识别输出模块,用于依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度液温度中调度指令的听看识别。
上述系统在实现过程中,可利用服务器1台,并在服务器上部署语音降噪引擎、人声增强引擎、人声分离聚类算法引擎、声纹识别算法引擎及智能标点引擎,各类引擎部署中可利用现有软件或设备平台中已有的相应功能引擎来实现语音降噪、人声增强、人声分离、声纹识别及智能标点的功能,本案对各引擎算法不做限定。并在服务器上部署调度人员声纹特征库,已提前存储多个调度人员的身份及声纹特征;部署应用软件,应用软件以图形化和声音等形式展示数据集的最终效果。参见图2和3所示,该系统实现过程中的逻辑处理过程可设计如下:
步骤S201:基于各个调度员现有的语音指令录音数据,构建调度人员声纹特征库,存储每个调度人员的身份信息、每个调度人员的声纹特征,身份信息与声纹特征为一对一关系。
步骤S202:获取1条调度台与车站之间的调度指令录音数据D1。
步骤S203:通过语音降噪及人声增强算法引擎,对调度指令录音数据D1进行语音降噪及人声增强。
步骤S204:通过人声分离聚类算法引擎进行处理,确定录音数据D1中的说话人个数,如说话人1、说话人2、……、说话人N;将调度指令录音数据D1切割成多个语音片段,并确认每句话的起止时间段,确定每个语音片段的说话人归属。
步骤S205:根据S204步骤,进行录音数据的分组规整,形成数据集D101。
步骤S206:将数据集D101中以每个说话人为依据,将多个语音片段数据进行无序的拼接,得到一段录音数据,此录音数据均是归属于该说话人的。以此录音数据送声纹识别算法引擎,与声纹库中每个调度员的声纹特征进行比对,确定数据集D101中每个说话人的实际调度员姓名,进行标记。
步骤S207:根据S206的结果,进行数据规整,形成数据集D102。
步骤S208:依据数据集D101,将每段录音依次送连续语音识别引擎进行文字转写,得到每段录音的转写文字结果。
步骤S209:使用每个说话人的文字转写结果集送至文本标点引擎,将每段文字加上标点。
步骤S210:进行数据规整,形成数据集D103。
步骤S211:根据数据集D102、D013,得出最终结果数据集D104。
步骤S212:根据数据集D104,通过应用软件绘制出图4,形成调度指令录音与文字、文字与调度员身份的对应输出,听看同步效果。
依据最终结果数据集D104,通过应用软件将录音数据D1,进行图形化进行展示,可以以声音形势进行播放。如图4所示,“波形展示区”展示录音数据D1的语音波形,并根据数据集D104的每语音片段的起止时间数据,在波形上打上标记。“识别结果展示区”根据数据集D104,展示多条数据项,每数据项标记出对应语音片段的调度人员姓名、开始时间、结束时间、文字内容,并计算对应语音片段时长进行展示。播放声音时,在“波形展示区”绘制录音数据D1语音波形图,并进行当前播放时间进度的展示;根据录音数据D1当前播放的时间点和波形图上每片段的起止时间,在对应的起止时间范围内的波形进行高亮展示;根据录音数据D1当前播放的时间点和“识别结果展示区”中每数据项的起止时间,来高亮展示对应的一条数据项;根据录音数据D1的语音不断播放,效果动态展示。最终形成调度指令录音与文字、文字与调度员身份的对应输出,听看同步效果,以实现对调度人员业务监管需求,具有较好的应用价值。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法和/或系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法和/或系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (9)
1.一种基于铁路调度单声道语音识别方法,其特征在于,包含如下内容:
构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;
根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度业务中调度指令语音的听看识别。
2.根据权利要求1所述的基于铁路调度单声道语音识别方法,其特征在于,针对收集到的收集调度台与车站之间的调度指令录音数据,首先对调度指令语音数据进行预处理,然后再进行录音片段切割,其中,预处理至少包含:对录音数据中噪声抑制处理的语音降噪处理及对录音数据中人声语音增强的信号增强处理。
3.根据权利要求1或2所述的基于铁路调度单声道语音识别方法,其特征在于,对调度指令录音数据进行录音片段切割中,利用人声分离算法对调度指令录音数据进行人声分离,确定发声人员个数及每个发声人员录音片段发声的起止时间段及不同时间段发声人员归属;并依据不同时间段对并行语音片段进行分组规整,形成以数组形式存储的语音片段数据集一。
4.根据权利要求1所述的基于铁路调度单声道语音识别方法,其特征在于,针对语音片段数据集一,以发声人员为依据,利用声纹识别算法提取语音片段中发声人员的声纹特征,将提取到的声纹特征与铁路调度人员声纹特征库中每个调度员的声纹特征进行比对,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,确定每个录音片段中发声人员身份信息并进行标记,形成包含调度员身份信息的语音片段数据集二。
5.根据权利要求1或4所述的基于铁路调度单声道语音识别方法,其特征在于,语音片段数据集二以数组形式存储,且在数组形式的存储结构中以调度员身份信息为元素对象key值,与调度员身份信息关联的录音片段信息依次存储在对应key值的数组元素对象中。
6.根据权利要求1所述的基于铁路调度单声道语音识别方法,其特征在于,通过语音识别技术将每个录音片段转写成对应文字信息,并利用文字识别技术对转写后的文字信息添加标点符号,以数组形式存储录音片段信息及对应转写文字信息,形成数据集三。
7.根据权利要求1所述的基于铁路调度单声道语音识别方法,其特征在于,针对语音片段数据集二和数据集三,通过录音片段ID进行关联合并,形成以数组形式存储每个录音片段信息、对应转写文字信息及录音片段对应调度员身份信息,形成语音片段数据集四。
8.根据权利要求1或7所述的基于铁路调度单声道语音识别方法,其特征在于,听看识别中,针对语音片段数据集四中每个录音片段,并通过生成每个录音片段的语音波形进行动态展示,并在动态展示中标注录音片段当前播放时间点和语音波形图起止时间点,形成调度指令语音中语音片段、文字及调度员身份信息相对应输出的听看同步效果。
9.一种基于铁路调度单声道语音识别系统,其特征在于,包含:特征库构建模块、语音收集模块、语音关联模块和识别输出模块,其中,
特征库构建模块,用于构建铁路调度人员声纹特征库并存储每个调度人员声纹特征;
语音收集模块,用于收集调度台与车站之间的调度指令录音数据,并对调度指令录音数据进行录音片段切割和分组规整,形成原始的语音片段数据集一,且在该语音片段数据集一中每个录音片段均对应设置有ID;
语音关联模块,用于针对语音片段数据集一中每个录音片段,将每个录音片段中发声人员身份与声纹特征库中每个调度员身份进行关联,形成包含调度员身份信息的语音片段数据集二;并通过对每个录音片段进行文字转写,形成包含对应录音片段转写文字信息的数据集三;根据语音片段数据集二和数据集三,通过合并规整出来来获取包含发声人员身份及文字内容的语音片段数据集四;
识别输出模块,用于依据语音片段数据集四获取调度指令录音中每个语音片段调度员身份及语音片段对应文字并进行输出,以实现铁路调度业务中调度指令语音的听看识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111605503.8A CN114171011A (zh) | 2021-12-25 | 2021-12-25 | 基于铁路调度单声道语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111605503.8A CN114171011A (zh) | 2021-12-25 | 2021-12-25 | 基于铁路调度单声道语音识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114171011A true CN114171011A (zh) | 2022-03-11 |
Family
ID=80488252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111605503.8A Pending CN114171011A (zh) | 2021-12-25 | 2021-12-25 | 基于铁路调度单声道语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114171011A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125226A1 (en) * | 2003-10-29 | 2005-06-09 | Paul Magee | Voice recognition system and method |
CN104732974A (zh) * | 2013-12-19 | 2015-06-24 | 国家电网公司 | 智能录音识别系统 |
CN111755001A (zh) * | 2020-05-07 | 2020-10-09 | 国网山东省电力公司信息通信公司 | 一种基于人工智能的电网快速调度指挥系统及方法 |
CN113112236A (zh) * | 2021-04-19 | 2021-07-13 | 云南电网有限责任公司迪庆供电局 | 一种基于语音和声纹识别的配网智能调度系统及方法 |
CN113488061A (zh) * | 2021-08-05 | 2021-10-08 | 国网江苏省电力有限公司 | 基于改进Synth2Aug的配网调度员身份验证方法及系统 |
-
2021
- 2021-12-25 CN CN202111605503.8A patent/CN114171011A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125226A1 (en) * | 2003-10-29 | 2005-06-09 | Paul Magee | Voice recognition system and method |
CN104732974A (zh) * | 2013-12-19 | 2015-06-24 | 国家电网公司 | 智能录音识别系统 |
CN111755001A (zh) * | 2020-05-07 | 2020-10-09 | 国网山东省电力公司信息通信公司 | 一种基于人工智能的电网快速调度指挥系统及方法 |
CN113112236A (zh) * | 2021-04-19 | 2021-07-13 | 云南电网有限责任公司迪庆供电局 | 一种基于语音和声纹识别的配网智能调度系统及方法 |
CN113488061A (zh) * | 2021-08-05 | 2021-10-08 | 国网江苏省电力有限公司 | 基于改进Synth2Aug的配网调度员身份验证方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10593332B2 (en) | Diarization using textual and audio speaker labeling | |
WO2020211354A1 (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
US11037553B2 (en) | Learning-type interactive device | |
CN108399923B (zh) | 多人发言中发言人识别方法以及装置 | |
US9672825B2 (en) | Speech analytics system and methodology with accurate statistics | |
Forbes-Riley et al. | Predicting emotion in spoken dialogue from multiple knowledge sources | |
CN107274916B (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
Moore | Automated transcription and conversation analysis | |
CN111489765A (zh) | 一种基于智能语音技术的话务服务质检方法 | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
EP2763136B1 (en) | Method and system for obtaining relevant information from a voice communication | |
CN114449105A (zh) | 基于语音的电力客户服务话务质检系统 | |
CN111739536A (zh) | 一种音频处理的方法和装置 | |
CN111010484A (zh) | 一种通话录音自动质检方法 | |
CN113076747A (zh) | 基于角色识别的语音识别记录方法 | |
JP2014123813A (ja) | オペレータ対顧客会話自動採点装置およびその動作方法 | |
CN114125506B (zh) | 语音审核方法及装置 | |
CN114171011A (zh) | 基于铁路调度单声道语音识别方法及系统 | |
JPH04252375A (ja) | 情報提供方法 | |
KR102407055B1 (ko) | 음성인식 후 자연어 처리를 통한 대화 품질지수 측정장치 및 그 방법 | |
JP5713782B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN109635151A (zh) | 建立音频检索索引的方法、装置及计算机设备 | |
CN115063155A (zh) | 一种数据标注方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220311 |