CN109243460A - 一种自动生成基于地方方言的讯或询问笔录的方法 - Google Patents
一种自动生成基于地方方言的讯或询问笔录的方法 Download PDFInfo
- Publication number
- CN109243460A CN109243460A CN201810929477.6A CN201810929477A CN109243460A CN 109243460 A CN109243460 A CN 109243460A CN 201810929477 A CN201810929477 A CN 201810929477A CN 109243460 A CN109243460 A CN 109243460A
- Authority
- CN
- China
- Prior art keywords
- model
- word
- training
- acoustic
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims description 29
- 230000000694 effects Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 238000013518 transcription Methods 0.000 claims description 8
- 230000035897 transcription Effects 0.000 claims description 8
- 238000011160 research Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 5
- 241001269238 Data Species 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000012827 research and development Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明专利涉及一种讯或询问笔录的方法,尤其涉及一种自动生成基于地方方言的讯或询问笔录的方法。按以下步骤进行:前端语音处理模块→后端语音识别模块→模型训练模块。一种自动生成基于地方方言的讯或询问笔录的方法,进一步提高办事效率和准确性。
Description
技术领域
本发明专利涉及一种讯或询问笔录的方法,尤其涉及一种自动生成基于地方方言的讯或询问笔录的方法。
背景技术
中国上下五千年,历史悠久,文化一脉相承,又地大物博,但是因为地域广阔所以各地也有各自的风俗习惯,同时也语言丰富多彩。
以杭州市萧山区为例,目前常住人口约150万人,随着萧山经济的迅猛发展,社会矛盾日益凸显,各类违法犯罪案件呈现逐年上升趋势。公安机关肩负的责任和承担的工作任务越来越重。多年来案多人少、办案力量不足,一直是基层比较突出的问题。办案力量不足,不仅影响本职工作的开展,还影响其他工作的有效发挥和齐头并进。如何提高工作效率以破解“案多人少”的难题,如何革新现有技术手段以简化工作人员办公过程,成为当前公安领域日益凸显的问题。公安民警在处理各种案件时都需要制作笔录,笔录是公安民警审讯过程中常用到的取证手段。目前很多地方的民警在制作笔录的时候普遍采用手写形式。由于传统手工笔录制作非常耗时,也容易存在字迹潦草、记录不完整、制作不规范等问题而严重影响笔录的质量和法律效力。采用语音识别技术(尤其是针对萧山方言的语音识别技术)实现交谈语音数据的实时自动内容识别,可以解放公安民警的双手,让公安民警专注案件的分析和侦查,方便警务人员迅速办理、审查案件,提高笔录制作的速度和效率。
发明内容
本发明主要是解决现有技术中存在的不足,提供建立一套针对日常交谈、能够将报案人或嫌疑人说的任意连续语音通过计算机自动转写为对应的文字系统的一种自动生成基于地方方言的讯或询问笔录的方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种自动生成基于地方方言的讯或询问笔录的方法,按以下步骤进行:
(一)、前端语音处理模块:
针对输入的语音,首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括VTLN、HLDA、特征域SAT相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;
(二)、后端语音识别模块:
为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合WFST解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;
接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;
置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;
语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;
由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用Force Alignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;
(三)、模型训练模块:
①声学模型训练:
声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(LSTM)的LSTM-HMM混合模型的相关研究成为国际上研究的热点,其相当于传统HMM获得了显著的性能提升;除了针对传统HMM模型进行了一系列核心技术的研发,还对最新的研究热点LSTM-HMM模型进行研发,具体的是基于海量数据的声学模型区分性训练;
声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用MPE和Boosted MMI相关训练准则算法,还在传统EBW参数更新算法的基础上提出称为Constrained Line Search(CLS)和Trust Region(TR)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;
接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000-5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;
②语言模型训练:
语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及RNN语言模型;
基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1G以内,且相应训练的语言模型规模一般控制在1M n-gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;
基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100M n-gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;
③词典资源训练:
词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。
本系统开创性的将智能语音交互技术引入询问、讯问工作领域,通过语音转写辅助公安笔录快速制作。采用针对萧山方言的语音识别技术实现交谈语音数据的实时自动内容识别,可以解放公安民警的双手,让公安民警专注案件的分析和侦查。同时,讯(询)问过程全程留痕,变听为看,语音与文字联动,解决在笔录制作过程中发生的记录不全,描述不准等问题,方便民警快速了解案情的第一手资料,彻底解决笔录漏记、错记、回溯监督难等问题,全面提升公安机关依法履责、依法管理的能力和水平。口供证据和客观证据的结合应用,从源头提高证据的合法性、客观性和关联性,提高办案民警工作质效,促进司法公正。
本发明提供一种自动生成基于地方方言的讯或询问笔录的方法,进一步提高办事效率和准确性。
附图说明
图1是本发明的系统生成原理图;
图2是本发明的后端语音识别技术框图;
图3是本发明的体声学模型训练流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:如图所示,一种自动生成基于地方方言的讯或询问笔录的方法,按以下步骤进行:
(一)、前端语音处理模块:
针对输入的语音,首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括VTLN、HLDA、特征域SAT相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;
(二)、后端语音识别模块:
为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合WFST解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;
接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;
置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;
语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;
由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用Force Alignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;
(三)、模型训练模块:
①声学模型训练:
声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(LSTM)的LSTM-HMM混合模型的相关研究成为国际上研究的热点,其相当于传统HMM获得了显著的性能提升;除了针对传统HMM模型进行了一系列核心技术的研发,还对最新的研究热点LSTM-HMM模型进行研发,具体的是基于海量数据的声学模型区分性训练;
声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用MPE和Boosted MMI相关训练准则算法,还在传统EBW参数更新算法的基础上提出称为Constrained Line Search(CLS)和Trust Region(TR)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;
接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000-5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;
②语言模型训练:
语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及RNN语言模型;
基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1G以内,且相应训练的语言模型规模一般控制在1M n-gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;
基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100M n-gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;
③词典资源训练:
词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。
Claims (1)
1.一种自动生成基于地方方言的讯或询问笔录的方法,其特征在于按以下步骤进行:
(一)、前端语音处理模块:
针对输入的语音,首先使用基于能量及模型的VAD技术进行分段,再采用基于模型的聚类技术对原始语音中的人声、非语音、背景噪音相关现象进行自动判别及归类,再进一步针对不同说话人进行聚类,针对分割后的语音提取对语音识别有效的、对噪声鲁棒性较好的声学特征,同时为了消除不同说话人对识别效果的影响,首先会从特征域尽可能去除说话人的信息,主流的特征域处理方式包括VTLN、HLDA、特征域SAT相关技术,通过这些关键技术的加入,可以获得冗余信息更少、说话人信息被去除的声学特征,为后续的语音识别做好准备;
(二)、后端语音识别模块:
为了将各语音转写关键技术点进行更好的整合,并综合考虑识别效果和识别效率相关因素,在系统中将使用多编解码框架:首先使用简单声学模型和低阶语言模型,简单声学模型是指模型复杂度较小、未去除说话人信息;低阶语言模型是指三阶且模型复杂度较小;并结合WFST解码器进行一遍的快速解码,并生成对应的词图空间,该词图空间具有覆盖性好、结构紧致的特点;
接着,将绝大多数对性能提升的核心技术点放到二遍解码中,包括特征规整、区分性特征、模型区分性训练、模型自适应,并在二遍解码中相应使用更加复杂的声学模型和超大规模高阶语言模型,在词图空间中采用重新打分的方式输出二遍解码结果;虽然二遍解码融入了各关键技术点,且模型复杂度相对于一编解码提升很多,但是由于基于该词图空间的搜索范围小了很多,二遍解码的效率非常高;基于上述多编解码框架,不仅能将各转写技术点的性能提升发挥出来,在效率上还有巨大的优势;
置信度判决是后端语音识别系统中重要的后处理模块,针对识别结果中可能出现的错误通过词后验概率技术给出识别结果对应的可信度得分,对可信度低的识别结果进行智能拒识;
语音识别在解码过程中会生成词图网格来表征可能的句子候选空间;词图网格中每条弧表示了词的声学和语言模型得分,一般而言每一时刻会有若干候选词,通过维特比前后向算法计算每个词的后验概率;识别最优结果是词图候选空间中的一条整体得分最大的路径,通过构成该句子的每个词的后验概率;
由于一遍置信度计算是定义在词图上,词图对多候选的覆盖度一般很难控制,存在计算不够精确的情况;此外每个词一般包含若干语音帧,时间精度也不够;在一遍解码的基础之上采用Force Alignment的方案得到每个语音帧的时间状态信息,基于最优路径状态声学后验概率的几何平均构建第二个句子置信度;最终置信度是词图置信度和最优路径状态声学置信度的平均;此外在解码过程中,由于每条路径的状态置信度可以同步存储下来,所以两个置信度得分计算可以在一遍解码过程中完成从而不会对引擎效率带来大的影响;
(三)、模型训练模块:
①声学模型训练:
声学模型训练模块用于识别方言声学模型资源,主要是指针对音素、音节相关声学建模单元设计适合的模型分布,并使用相应的语音数据,实际是转化为上面提及的声学特征,对这些模型参数进行训练;声学模型是语音识别引擎中最重要的模块之一,其模型准确性直接影响了最终的识别效果;基于长短时记忆(LSTM)的LSTM-HMM混合模型的相关研究成为国际上研究的热点,其相当于传统HMM获得了显著的性能提升;除了针对传统HMM模型进行了一系列核心技术的研发,还对最新的研究热点LSTM-HMM模型进行研发,具体的是基于海量数据的声学模型区分性训练;
声学模型的区分性训练是提升声学模型性能的最主要手段;除了采用MPE和BoostedMMI相关训练准则算法,还在传统EBW参数更新算法的基础上提出称为Constrained LineSearch(CLS)和Trust Region(TR)的两种模型参数更新算法,使得区分性模型参数更具有理论性和可调配性,有效地提升区分性训练算法的效果;
接着,在获得大量讯或询问场景下海量声学数据的前提下,研发大数据量下的声学模型区分性训练,数据量为2000-5000小时声学数据:首先,针对竞争空间的生成规模进行仔细的调节,否则容易出现过训练或欠训练的现象,只有结合训练数据量仔细的控制区分性训练中积累的统计量,才能使得海量数据上的声学模型区分性训练相对于最大似然估计的基线系统获得合理的提升;另外,相对于最大似然基线系统,区分性训练是非常耗费机器资源的,通过对区分性训练流程的优化,显著提升训练过程的效率,使得海量数据基础上的区分性训练真正实用化;
②语言模型训练:
语言模型模块用于识别方言语言模型资源,语言模型主要是指针对词序列之间的组合建立相应的概率体系,以判断哪些词序列在识别过程中更容易出现;语言模型对词序列的预测能力直接影响着识别性能的好坏;采用基于海量文本数据的超大规模高阶语言模型,以及RNN语言模型;
基于海量文本数据的超大规模高阶语言模型训练:在传统任务中,训练文本一般控制在1G以内,且相应训练的语言模型规模一般控制在1M n-gram数目以内,此时已经能获得较饱和的识别性能;然而,在询问或讯问环境下,语音输入的内容是完全开放没有任何限制的,此时如果想针对开放性内容获得较好的识别效果,一方面必须要扩大训练语料的获取范围和数据量以提高响应模型的覆盖度,另一方面也要相应增加语言模型的复杂度以用更多的模型参数来对海量数据进行建模;
基于大量的讯或询问文本训练了超大规模的语言模型,超大规模是指100M n-gram,同时为了提升语言模型对更长词序列的覆盖性,语言模型的阶数从传统的3阶提升到5阶;然而,如此庞大的语言模型一般无法直接在解码器中使用,通过开发查分系统,以达到在二遍解码中用到此超大规模语言模型得分的目的;在已有研究成果表明,在使用了该超大规模语言模型以后,整体识别结果提升了绝对5个点以上,在较生僻词汇及说法的识别效果有了显著的改善;
③词典资源训练:
词典资源模块用于识别方言音字词典资源,词典资源模块包含系统所能处理的单词的集合,并标明了其发音;通过词典资源得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;词典资源是存放所有单词的发音的词典,它的作用是用来连接声学模型和语言模型的;如,一个句子可以分成若干个单词相连接,每个单词通过查询词典资源得到该单词发音的音素序列;相邻单词的转移概率可以通过语言模型获得,音素的概率模型可以通过声学模型获得;从而生成了这句话的一个概率模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810929477.6A CN109243460A (zh) | 2018-08-15 | 2018-08-15 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810929477.6A CN109243460A (zh) | 2018-08-15 | 2018-08-15 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109243460A true CN109243460A (zh) | 2019-01-18 |
Family
ID=65069959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810929477.6A Pending CN109243460A (zh) | 2018-08-15 | 2018-08-15 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109243460A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543559A (zh) * | 2019-06-28 | 2019-12-06 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111461946A (zh) * | 2020-04-14 | 2020-07-28 | 山东致群信息技术有限公司 | 一种智能公安审讯系统 |
CN111489744A (zh) * | 2020-04-03 | 2020-08-04 | 中数通信息有限公司 | 一种智慧银行管理系统 |
CN111613209A (zh) * | 2020-04-14 | 2020-09-01 | 北京三快在线科技有限公司 | 声学模型训练方法、装置、电子设备及存储介质 |
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN116386603A (zh) * | 2023-06-01 | 2023-07-04 | 蔚来汽车科技(安徽)有限公司 | 语音识别方法、设备、驾驶设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103810997A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种确定语音识别结果置信度的方法和装置 |
CN103839546A (zh) * | 2014-03-26 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于江淮语系的语音识别系统 |
CN103903611A (zh) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | 一种语音信息的识别方法和设备 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
-
2018
- 2018-08-15 CN CN201810929477.6A patent/CN109243460A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102376305A (zh) * | 2011-11-29 | 2012-03-14 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法及系统 |
CN103810997A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种确定语音识别结果置信度的方法和装置 |
CN103903611A (zh) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | 一种语音信息的识别方法和设备 |
CN103839546A (zh) * | 2014-03-26 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于江淮语系的语音识别系统 |
CN106328125A (zh) * | 2016-10-28 | 2017-01-11 | 许昌学院 | 一种河南方言语音识别系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN111862944B (zh) * | 2019-04-30 | 2024-04-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN110543559A (zh) * | 2019-06-28 | 2019-12-06 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110992929A (zh) * | 2019-11-26 | 2020-04-10 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN110827805A (zh) * | 2019-12-09 | 2020-02-21 | 苏州思必驰信息科技有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN110827805B (zh) * | 2019-12-09 | 2022-11-29 | 思必驰科技股份有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN111429935A (zh) * | 2020-02-28 | 2020-07-17 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN111489744A (zh) * | 2020-04-03 | 2020-08-04 | 中数通信息有限公司 | 一种智慧银行管理系统 |
CN111461946A (zh) * | 2020-04-14 | 2020-07-28 | 山东致群信息技术有限公司 | 一种智能公安审讯系统 |
CN111613209A (zh) * | 2020-04-14 | 2020-09-01 | 北京三快在线科技有限公司 | 声学模型训练方法、装置、电子设备及存储介质 |
CN116386603A (zh) * | 2023-06-01 | 2023-07-04 | 蔚来汽车科技(安徽)有限公司 | 语音识别方法、设备、驾驶设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109243460A (zh) | 一种自动生成基于地方方言的讯或询问笔录的方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
Le et al. | From senones to chenones: Tied context-dependent graphemes for hybrid speech recognition | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
CN101650886B (zh) | 一种自动检测语言学习者朗读错误的方法 | |
JP2003036093A (ja) | 音声入力検索システム | |
CN103345922A (zh) | 一种长篇幅语音全自动切分方法 | |
CN102982811A (zh) | 一种基于实时解码的语音端点检测方法 | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN106548775A (zh) | 一种语音识别方法和系统 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
CN104575495A (zh) | 一种采用总变化量因子的语种识别方法及系统 | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
US10929601B1 (en) | Question answering for a multi-modal system | |
CN112632977A (zh) | 一种彝语语音数据自动标注方法 | |
Gao et al. | An investigation of the target approximation model for tone modeling and recognition in continuous Mandarin speech | |
Peng | Research on interactive English speech recognition algorithm in multimedia cooperative teaching | |
Rocha et al. | Voice segmentation system based on energy estimation | |
CN114780786B (zh) | 一种基于瓶颈特征和残差网络的语音关键词检索方法 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190118 |