CN106373558B - 语音识别文本处理方法及系统 - Google Patents

语音识别文本处理方法及系统 Download PDF

Info

Publication number
CN106373558B
CN106373558B CN201510450586.6A CN201510450586A CN106373558B CN 106373558 B CN106373558 B CN 106373558B CN 201510450586 A CN201510450586 A CN 201510450586A CN 106373558 B CN106373558 B CN 106373558B
Authority
CN
China
Prior art keywords
detected
voice data
sound bite
speech
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510450586.6A
Other languages
English (en)
Other versions
CN106373558A (zh
Inventor
占吉清
高建清
刘聪
王智国
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510450586.6A priority Critical patent/CN106373558B/zh
Publication of CN106373558A publication Critical patent/CN106373558A/zh
Application granted granted Critical
Publication of CN106373558B publication Critical patent/CN106373558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别文本处理方法及系统,该方法包括:获取待识别语音数据;对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;对所述识别文本中对应所述异常语音的部分进行标记;将标记后的识别文本提供给用户。利用本发明,可以自动检测出异常语音数据的识别文本并标记出来,提示用户,降低对用户的误导。

Description

语音识别文本处理方法及系统
技术领域
本发明涉及语音信号处理技术领域,具体涉及一种语音识别文本处理方法及系统。
背景技术
随着语音技术的发展,自动语音识别技术已经被广泛地应用于生产、生活的各个领域,构造出各种实用的语音识别系统,如语音会议转写系统等。然而,在实际的识别文本中,经常会存在各种异常语音数据的识别文本,因此不可避免地会产生一些异常识别文本。由于异常语音数据的识别文本可懂度较低,经常会使用户无法理解识别文本所表达的语义,给用户造成干扰,甚至误导用户,如异常语音数据为“九幺零九后边再隔一家”,识别文本为“九幺零九后面的可以去”。因此,如何减轻异常语音识别文本对用户的干扰,是业界需要解决的一个问题。
发明内容
本发明提供一种语音识别文本处理方法及系统,以自动检测出异常语音数据的识别文本并标记出来,提示用户,降低对用户的误导。
为此,本发明提供如下技术方案:
一种语音识别文本处理方法,包括:
获取待识别语音数据;
对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;
对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;
对所述识别文本中对应所述异常语音的部分进行标记;
将标记后的识别文本提供给用户。
优选地,所述根据语音识别结果对所述语音数据进行异常语音检测,得到异常语音检测结果包括:
依次获取所述语音数据中的待检测语音片段;
根据语音识别结果计算所述待检测语音片段的后验概率和/或置信度;
基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音。
优选地,所述根据语音识别结果计算所述待检测语音片段的后验概率包括:
根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元;
计算各语法单元每帧语音数据的后验概率;
将当前待检测语音片段对应的所有语法单元每帧语音数据的后验概率进行融合处理,得到当前待检测语音片段的后验概率;
所述根据语音识别结果计算所述待检测语音片段的置信度包括:
提取所述待检测语音片段的检测特征,所述检测特征包括:所述待检测语音片段的识别特征;或者所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;或者所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率;
根据所述检测特征计算所述待检测语音数据的置信度;
所述基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音包括:
如果当前待检测语音片段的后验概率和/或置信度小于设定的阈值,则确定当前待检测语音片段为异常语音。
优选地,所述后验概率包括:状态后验概率、和/或属性后验概率。
优选地,所述方法还包括:
在对所述语音数据进行语音识别之前,依次获取所述语音数据中的待检测语音片段;
如果当前待检测语音片段满足设定的异常语音确定规则,则在对所述语音数据进行语音识别后,不再对所述当前待检测语音片段进行异常语音检测,而是直接将所述当前待检测语音片段作为异常语音。
优选地,所述对所述识别文本中对应所述异常语音的部分进行标记包括以下任意一种或多种:
对所述异常语音的识别文本添加下划线、或删除线;
将所述异常语音的识别文本调整为与其它识别文本不同的颜色和/或字体;
将所述异常语音的识别文本调整为渐变色;
使用多侯选的方式显示异常语音的识别文本。
优选地,所述方法还包括:
在用户点击有标记的识别文本时,弹出带有提示信息的消息框、或气泡、或包含提示信息的图片。
优选地,所述方法还包括:
将所述提示信息合成语音,并播放所述语音给用户。
一种语音识别文本处理系统,包括:
接收模块,用于获取待识别语音数据;
语音识别模块,用于对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;
异常语音检测模块,用于对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;
标记模块,用于对所述识别文本中对应所述异常语音的部分进行标记;
文本提供模块,用于将标记后的识别文本提供给用户。
优选地,所述异常语音检测模块包括:语音片段提取单元、判断单元、以及后验概率计算单元和/或置信度计算单元;
所述语音片段提取单元,用于依次获取所述语音数据中的待检测语音片段;
所述后验概率计算单元,用于根据语音识别结果计算所述待检测语音片段的后验概率;
所述置信度计算单元,用于根据语音识别结果计算所述待检测语音片段的置信度;
所述判断单元,用于基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音。
优选地,所述后验概率计算单元包括:
语法单元确定子单元,用于根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元;
第一计算子单元,用于计算各语法单元每帧语音数据的后验概率;
第一融合单元,用于将当前待检测语音片段对应的所有语法单元每帧语音数据的后验概率进行融合处理,得到当前待检测语音片段的后验概率;
所述置信度计算单元包括:
特征提取子单元,用于提取所述待检测语音片段的检测特征,所述检测特征包括:所述待检测语音片段的识别特征;或者所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;或者所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率;
第二计算子单元,用于根据所述检测特征计算所述待检测语音数据的置信度;
所述判断单元,具体用于在当前待检测语音片段的后验概率和/或置信度小于设定的阈值时,确定当前待检测语音片段为异常语音。
优选地,所述系统还包括:
预检测模块,用于在所述语音识别模块对所述语音数据进行语音识别之前,依次获取所述语音数据中的待检测语音片段,并且在当前待检测语音片段满足设定的异常语音确定规则时,将所述当前待检测语音片段作为异常语音。
优选地,所述标记模块,具体用于采用以下任意一种或多种方式对所述识别文本中对应所述异常语音的部分进行标记:
对所述异常语音的识别文本添加下划线、或删除线;
将所述异常语音的识别文本调整为与其它识别文本不同的颜色和/或字体;
将所述异常语音的识别文本调整为渐变色;
使用多侯选的方式显示异常语音的识别文本。
优选地,所述系统还包括:
提示模块,用于在用户点击有标记的识别文本时,弹出带有提示信息的消息框、或气泡、或包含提示信息的图片。
优选地,所述系统还包括:
合成模块,用于将所述提示信息合成语音;
播放模块,用于播放所述语音给用户。
本发明实施例提供的语音识别文本处理方法及系统,根据语音识别结果自动对语音数据进行异常语音检测,检测出语音数据中的异常语音,然后对得到的识别文本中对应异常语音的部分进行标记,将标记后的识别文本提供给用户,从而可以达到提示用户的作用,降低异常识别文本对用户的误导。由于异常语音的检测及异常语音的识别文本标记均由系统自动完成,因此,在处理的数据量较大时,可以明显提高效率及准确度。
进一步地,本发明提供了多种异常语音检测及文本标记方式,相应地,系统采用模块化的设计,在实际应用中可以根据应用环境及需要,灵活、方便地进行选用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例语音识别文本处理方法的流程图;
图2是本发明实施例中基于状态后验概率进行异常语音检测的流程图;
图3是本发明实施例中基于属性后验概率进行异常语音检测的流程图;
图4是本发明实施例中基于置信度进行异常语音检测的流程图;
图5是本发明实施例语音识别文本处理系统的一种结构示意图;
图6是本发明实施例中异常语音检测模块的一种结构示意图;
图7是本发明实施例中异常语音检测模块的另一种结构示意图;
图8是本发明实施例语音识别文本处理系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例提供一种语音识别文本处理方法及系统,根据语音识别结果自动对语音数据进行异常语音检测,检测出语音数据中的异常语音,然后对得到的识别文本中对应异常语音的部分进行标记,将标记后的识别文本提供给用户,从而可以达到提示用户的作用,降低异常文本对用户的误导。
如图1所示,是本发明实施例语音识别文本处理方法的流程图,包括以下步骤:
步骤101,获取待识别语音数据。
所述语音数据可以是根据实际应用需求录音得到的数据,如会议录音、通话录音等。
步骤102,对语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本。
所述语音识别的过程可以采用现有的一些语音识别技术,主要包括:对语音数据进行特征提取,利用提取的特征数据及预先训练的声学模型和语言模型进行解码,在解码的时候可以确定语音数据对应的语法单元,语法单元如音素或音节,根据解码结果得到当前语音数据对应的语法单元及识别文本。
需要说明的是,在进行语音识别之前,还可以通过VAD(Voice ActivityDetection,语音活动检测)的方法,检测出部分噪声语音数据,直接将所述语音数据中的噪声语音数据去除后,再对其进行语音识别。
步骤103,对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音。
为了在语音识别文本中检测出异常语音数据识别文本的位置,可以根据语音识别过程中得到的各种中间结果,检测出异常语音数据在所述语音数据中的位置,并在相应识别文本中将异常语音识别对应的识别文本标记出来。在实际应用中,可以采用多种方式对所述语音数据进行异常语音检测,比如,基于置信度的异常语音检测、基于后验概率的异常语音检测、基于规则的异常语音检测等。而且,不同的检测方法还可以相互结合使用,比如,在语音识别之前,根据基于规则的异常语音检测先检测出部分异常语音数据;在语音识别之后,再使用基于置信度的检测方法和/或基于后验概率的检测方法进行异常语音检测。对不同方式的异常语音检测的具体过程将在后面详细说明。
步骤104,对所述识别文本中对应所述异常语音的部分进行标记。
具体地,可以采用多种标记方式,比如:
(1)根据异常语音的识别置信度,以识别文本字体颜色渐变的形式进行标记,提示用户,如果置信度较低,则颜色较深,反之颜色较淡;或将识别置信度得分按照0到100进行规整后,将规整后得分划分为多个区间,每个区间使用一种颜色显示,如将0到100划分为三个区间[0,50],[50,80],[80,100],使用红色、黄色、绿色分别显示识别置信度落在每个区间内的识别文本。
(2)直接对异常语音的识别文本添加下划线、删除线等标记。
(3)直接将异常语音的识别文本使用统一的特殊颜色显示,如灰色、红色等或统一使用粗体或斜体显示。
(4)使用多侯选的方式显示异常语音的识别文本,即可以根据识别置信度依次显示侯选识别文本,具体侯选识别文本的显示数量可以预先设定。
当然,还可以采用其它标记方式,对此本发明实施例不做限定。
需要说明的是,为了进一步保证标记的准确性,在将异常语音识别文本标记完成后,还可以通过人工检查标记的准确性,或由人工对异常语音的识别文本进行修正,将修正后的结果反馈给用户,如在检测异常语音时,记录异常语音识别文本对应待处理数据的开始和结束时间,在用户点击有标记的识别文本时,将对应待检查语音数据的开始和结束时间显示出来,方便人工修正时,找到有标记的识别文本对应的待检查语音数据。
步骤105,将标记后的识别文本提供给用户。
比如,可以向用户直接展现标记后的识别文本,或者将标记后的识别文本保存为一定格式的文件,然后将该文件发送给用户等。
在将标记后的识别文本提供给用户时,还可进一步采用其它方式对用户进行提示,比如:在用户点击有标记的识别文本时,在当前标记的识别文本的上方或下方弹出带有提示信息的消息框、或气泡、或包含提示信息的图片,或增加其它显示区域进行提示,如在当前界面的上方或下方增加固定的显示区域,提示用户该段语音存在的问题或识别文本的可信度,具体提示内容如“该段识别文本的对应的语音数据噪声过大,识别文本的可信度为40”。
除了上述视觉方式提示之外,还可以进一步通过听觉方式对用户进行相应提示,比如:当用户点击有标记的识别文本时,使用语音合成方法将该段识别文本存在的问题或识别文本的可信度合成语音播放给用户,所述提示的播放内容如“该段文本为带有背景音的语音数据的识别文本,识别文本的可信度为35”。
下面对本发明方法中不同方式的异常语音检测分别进行详细说明。
一、基于规则的异常语音检测
具体地,在进行语音识别之前,设定一些异常语音确定规则,将符合规则的语音数据作为异常语音数据标记出来,例如可以设定待处理语音数据的音量高、低阈值,如果一段语音数据的音量超过高阈值或低于低阈值,即声音过大或过小,则标记该段语音数据为异常语音,后续不进行语音识别,或者在后续进行语音识别时,也可以对在语音识别之前检测到的异常语音数据进行语音识别。相应地,在得到的识别文本中所述异常语音数据对应的位置处加入异常信息提示,比如“此处识别可信度较低”等信息,以提示用户。
二、基于后验概率的异常语音检测
在实际应用中,可以采用基于状态后验概率进行异常语音检测,也可以采用基于属性后验概率进行异常语音检测。
所述状态后验概率主要指当前待处理语音的每帧数据属于每个状态的概率。每帧语音数据的状态后验概率可以通过构建识别的DNN(Deep Neural Network,深度神经网络)模型得到。
如图2所示,是本发明实施例中基于状态后验概率进行异常语音检测的流程图,包括以下步骤:
步骤201,依次获取语音数据中的待检测语音片段。
步骤202,根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元,所述语法单元可以是音素或音节。
步骤203,计算各语法单元每帧语音数据的状态后验概率。
具体地,可以通过预先构建的DNN模型计算各语法单元每帧语音数据的状态后验概率,DNN模型的输入为当前帧语音数据的特征,如MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数),输出为当前帧语音数据的后验概率,从而得到当前语法单元每帧语音数据的状态后验概率。
步骤204,将当前待检测语音片段对应的所有语法单元每帧语音数据的状态后验概率进行融合处理,得到当前待检测语音片段的状态后验概率。
所述融合处理可以是取所有语法单元每帧语音数据的状态后验概率的平均值或加权值。
步骤205,如果当前待检测语音片段的状态后验概率低于预先设定的状态后验概率阈值,则确定当前待检测语音片段为异常语音。
所述属性后验概率主要指当前语法单元对应语音数据属于该语法单元对应属性的概率,该概率从发音原理上描述当前语音数据的发音与识别结果的可信度,可以有效检测出发音不准确的异常语音数据。
如图3所示,是本发明实施例中基于属性后验概率进行异常语音检测的流程图,包括以下步骤:
步骤301,依次获取语音数据中的待检测语音片段。
步骤302,根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元。
步骤303,计算各语法单元中每帧语音数据的属性后验概率。
具体地,可以根据预先训练的发音属性模型计算各语法单元中每帧语音数据的属性后验概率,所述发音属性模型可以采用DNN模型,其输入为当前帧语音数据的特征,输出为当前帧语音数据的属性后验概率。
步骤304,将当前待检测语音片段对应的所有语法单元每帧语音数据的属性后验概率进行融合处理,得到当前待检测语音片段的属性后验概率。
所述融合处理可以是取所有语法单元每帧语音数据的属性后验概率的平均值或加权值。
步骤305,如果当前待检测语音片段的属性后验概率低于预先设定的属性后验概率阈值,则确定当前待检测语音片段为异常语音。
需要说明的是,在实际应用中,也可以直接基于状态后验概率和/或属性后验概率进行异常语音检测。
比如,分别计算待检测语音片段的状态后验概率及属性后验概率,在得到的待检测语音片段的状态后验概率及属性后验概率两者中有任一项低于设定的相应阈值时,确定待检测语音片段为异常语音。
再比如,分别计算待检测语音片段的状态后验概率及属性后验概率,然后将这两者进行加权融合后,得到待检测语音片段的后验概率,如果该后验概率小于预先设定的阈值,则确定待检测语音片段为异常语音。
三、基于置信度的异常语音检测
如图4所示,是本发明实施例中基于置信度进行异常语音检测的流程图,包括以下步骤:
步骤401,依次获取语音数据中的待检测语音片段。
步骤402,提取当前待检测语音片段的检测特征。
所述检测特征可以包含一种或多种特征,比如:
(1)所述检测特征包括:所述待检测语音片段的识别特征;
(2)所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;
(3)所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率。
所述识别特征主要根据语音识别过程中得到的各种中间结果得到,比如,语音识别过程中计算解码路径时,可以得到待检测语音片段中的每个词单元的后验概率,当前检测语音片段声学模型得分;根据混淆网络上相邻节点间的词数目,可以得到当前待检测语音片段包含的竞争词数目等特征。
所述语义特征是分析识别文本的语义得到的特征,具体可以通过句法分析得到,如使用依存句法分析识别文本的语义,根据分析结果提取语义特征。所述依存句法分析主要是通过对当前检测语音片段的识别文本构建依存句法树,根据依存句法树来得到当前检测语音片段的语义特征。所述依存句法树中的节点表示词组,树中的边表示词组之间的依存关系,提取的语义特征一般与依存句法树相关,如当前节点的高度、当前节点与其父节点间的依存距离等,所述依存距离可以是当前节点与其父节点在识别文本中的距离。
所述待检测语音片段的后验概率可以是状态后验概率和/或属性后验概率,其计算过程可以参照前面所述。
步骤403,根据所述检测特征计算当前待检测语音片段的置信度。
具体地,所述置信度可以使用条件概率P(Y|X)表示,其中,Y∈[0,1],如P(Y=1|X)为当前待检测语音片段是异常语音数据的概率,X表示当前待检测语音片段的检测特征,所述检测特征可以单独为识别特征,或者为识别特征与语义特征的组合,或者为识别特征、语义特征及后验概率的组合。
所述置信度可以根据提取的待检测语音片段的相关特征通过统计建模方法计算得到,统计模型预先根据大量数据训练得到,如支持向量机模型、决策树模型、深度神经网络模型等。
以支持向量机模型为例,使用大量数据预先进行模型训练,估计得到模型参数W和b的取值,待检测语音片段的置信度C的计算方法如式(1)所示:
C=WX+b (1)
其中,W是权重系数向量,b是偏移向量,W和b可以通过预先收集大量数据进行训练得到,X为待检测语音片段的相关特征。
步骤404,如果当前待检测语音片段的置信度小于设定的置信度阈值,则确定当前待检测语音片段为异常语音。反之,为正常语音数据。如式3所示:
其中,I为异常语音检测结果,I=1表示当前语音数据为异常语音数据;I=0表示当前语音数据为正常语音数据;Ts为置信度阈值。
可见,本发明实施例提供的语音识别文本处理方法,根据语音识别结果自动对语音数据进行异常语音检测,检测出语音数据中的异常语音,然后对得到的识别文本中对应异常语音的部分进行标记,将标记后的识别文本提供给用户,从而可以达到提示用户的作用,降低异常文本对用户的误导。由于异常语音的检测及异常语音的文本标记均由系统自动完成,因此,在处理的数据量较大时,可以明显提高效率及准确度。
进一步地,提供了多种异常语音检测及文本标记方式,相应地,系统采用模块化的设计,在实际应用中可以根据应用环境及需要,灵活、方便地进行选用。
相应地,本发明实施例还提供一种语音识别文本处理系统,如图5所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块501,用于获取待识别语音数据;
语音识别模块502,用于对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;
异常语音检测模块503,用于对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;
标记模块504,用于对所述识别文本中对应所述异常语音的部分进行标记;
文本提供模块505,用于将标记后的识别文本提供给用户。比如,可以向用户直接展现标记后的识别文本,或者将标记后的识别文本保存为一定格式的文件,然后将该文件发送给用户等。
上述语音识别模块502可以采用现有的一些语音识别技术对所述语音数据进行语音识别。
上述标记模块504具体可以采用多种方式对所述识别文本中对应所述异常语音的部分进行标记,比如以下任意一种或多种方式的组合:
对所述异常语音的识别文本添加下划线、或删除线;
将所述异常语音的识别文本调整为与其它识别文本不同的颜色和/或字体;
将所述异常语音的识别文本调整为渐变色;
使用多侯选的方式显示异常语音的识别文本。
上述异常语音检测模块503具体可以采用基于置信度的异常语音检测和/或基于后验概率的异常语音检测对所述语音数据进行异常语音检测。
如图6所示,是本发明系统中异常语音检测模块的一种结构示意图。
在该实施例中,所述异常语音检测模块包括:语音片段提取单元611、后验概率计算单元612、以及判断单元613。其中:
所述语音片段提取单元611用于依次获取所述语音数据中的待检测语音片段;
所述后验概率计算单元612用于根据语音识别结果计算所述待检测语音片段的后验概率;
所述判断单元613用于基于所述后验概率确定所述待检测语音片段是否为异常语音。具体地,如果当前待检测语音片段的后验概率低于预先设定的后验概率阈值,则确定当前待检测语音片段为异常语音。
上述后验概率计算单元612具体可以包括以下各子单元:
语法单元确定子单元,用于根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元;
第一计算子单元,用于计算各语法单元每帧语音数据的后验概率;
第一融合单元,用于将当前待检测语音片段对应的所有语法单元每帧语音数据的后验概率进行融合处理,得到当前待检测语音片段的后验概率;
需要说明的是,所述后验概率可以是状态后验概率,也可以是属性后验概率,也可以是这两者的组合。
如图7所示,是本发明系统中异常语音检测模块的另一种结构示意图。
与图6所示实施例不同的是,在该实施例中,由置信度计算单元622代替了图6中的后验概率计算单元612。所述置信度计算单元622用于根据语音识别结果计算所述待检测语音片段的置信度。
相应地,在该实施例中,判断单元613用于基于所述置信度确定所述待检测语音片段是否为异常语音。具体地,如果当前待检测语音片段的置信度低于预先设定的置信度阈值,则确定当前待检测语音片段为异常语音。
所述置信度计算单元622具体可以包括以下各子单元:
特征提取子单元,用于提取所述待检测语音片段的检测特征,所述检测特征包括:所述待检测语音片段的识别特征;或者所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;或者所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率;
第二计算子单元,用于根据所述检测特征计算所述待检测语音数据的置信度。
需要说明的是,在异常语音检测模块的另一实施例中,还可以同时包括上述后验概率计算单元612及置信度计算单元622。相应地,判断单元613可以同时基于后验概率计算单元612计算得到的后验概率及置信度计算单元622计算得到的置信度确定待检测语音片段是否为异常语音。比如,两者中有任一项低于设定的相应阈值时,确定待检测语音片段为异常语音;或者将这两者进行加权融合,如果得到的加权值小于预先设定的阈值,则确定待检测语音片段为异常语音。
如图8所示,是本发明实施例语音识别文本处理系统的另一种结构示意图。
与图5所示实施例不同的是,在该实施例中,所述系统还包括预检测模块506,用于在所述语音识别模块502对语音数据进行语音识别之前,依次获取所述语音数据中的待检测语音片段,并且在当前待检测语音片段满足设定的异常语音确定规则时,将当前待检测语音片段作为异常语音。相应地,在语音识别模块502对语音数据进行语音识别后,异常语音检测模块503获取预检测模块506的检测结果,无需再对预检测模块506检测到的异常语音片段进行异常语音检测。
需要说明的是,在本发明语音识别文本处理系统的另一实施例中,所述系统还可进一步包括:提示模块,用于在用户点击有标记的识别文本时,弹出带有提示信息的消息框、或气泡、或包含提示信息的图片。所述提示信息可以是该段语音存在的问题或识别文本的可信度等内容。通过该提示模块,可以进一步对用户进行相应提示。
另外,所述系统还可通过听觉方式对用户进行相应提示,比如,在另一实施例中,所述系统还可包括:合成模块及播放模块。其中,所述合成模块用于将所述提示信息合成语音;所述播放模块用于播放所述语音给用户。
本发明实施例提供的语音识别文本处理系统,根据语音识别结果自动对语音数据进行异常语音检测,检测出语音数据中的异常语音,然后对得到的识别文本中对应异常语音的部分进行标记,将标记后的识别文本提供给用户,从而可以达到提示用户的作用,降低异常文本对用户的误导。由于异常语音的检测及异常语音的文本标记均由系统自动完成,因此,在处理的数据量较大时,可以明显提高效率及准确度。
进一步地,提供了多种异常语音检测及文本标记方式,相应地,系统采用模块化的设计,在实际应用中可以根据应用环境及需要,灵活、方便地进行选用。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种语音识别文本处理方法,其特征在于,包括:
获取待识别语音数据;
对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;
或者在对所述语音数据进行语音识别之前,判断所述语音数据是否满足设定的异常语音确定规则,以确定所述语音数据中的异常语音;
对所述识别文本中对应所述异常语音的部分进行标记;
将标记后的识别文本提供给用户。
2.根据权利要求1所述的方法,其特征在于,所述根据语音识别结果对所述语音数据进行异常语音检测,得到异常语音检测结果包括:
依次获取所述语音数据中的待检测语音片段;
根据语音识别结果计算所述待检测语音片段的后验概率和/或置信度;
基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音。
3.根据权利要求2所述的方法,其特征在于,
所述根据语音识别结果计算所述待检测语音片段的后验概率包括:
根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元;
计算各语法单元每帧语音数据的后验概率;
将当前待检测语音片段对应的所有语法单元每帧语音数据的后验概率进行融合处理,得到当前待检测语音片段的后验概率;
所述根据语音识别结果计算所述待检测语音片段的置信度包括:
提取所述待检测语音片段的检测特征,所述检测特征包括:所述待检测语音片段的识别特征;或者所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;或者所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率;
根据所述检测特征计算所述待检测语音数据的置信度;
所述基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音包括:
如果当前待检测语音片段的后验概率和/或置信度小于设定的阈值,则确定当前待检测语音片段为异常语音。
4.根据权利要求3所述的方法,其特征在于,所述后验概率包括:状态后验概率、和/或属性后验概率。
5.根据权利要求2所述的方法,其特征在于,所述在对所述语音数据进行语音识别之前,判断所述语音数据是否满足设定的异常语音确定规则,以确定所述语音数据中的异常语音具体包括:
在对所述语音数据进行语音识别之前,依次获取所述语音数据中的待检测语音片段;
如果当前待检测语音片段满足设定的异常语音确定规则,则在对所述语音数据进行语音识别后,不再对所述当前待检测语音片段进行异常语音检测,而是直接将所述当前待检测语音片段作为异常语音。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述识别文本中对应所述异常语音的部分进行标记包括以下任意一种或多种:
对所述异常语音的识别文本添加下划线、或删除线;
将所述异常语音的识别文本调整为与其它识别文本不同的颜色和/或字体;
将所述异常语音的识别文本调整为渐变色;
使用多侯选的方式显示异常语音的识别文本。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在用户点击有标记的识别文本时,弹出带有提示信息的消息框、或气泡、或包含提示信息的图片。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述提示信息合成语音,并播放所述语音给用户。
9.一种语音识别文本处理系统,其特征在于,包括:
接收模块,用于获取待识别语音数据;
语音识别模块,用于对所述语音数据进行语音识别,得到所述语音数据对应的语音识别结果,所述语音识别结果为语音数据对应的识别文本;
异常语音检测模块,用于对所述语音数据进行异常语音检测,以确定所述语音数据中的异常语音;
预检测模块,用于在对所述语音数据进行语音识别之前,判断所述语音数据是否满足设定的异常语音确定规则,以确定所述语音数据中的异常语音;
标记模块,用于对所述识别文本中对应所述异常语音的部分进行标记;
文本提供模块,用于将标记后的识别文本提供给用户。
10.根据权利要求9所述的系统,其特征在于,所述异常语音检测模块包括:语音片段提取单元、判断单元、以及后验概率计算单元和/或置信度计算单元;
所述语音片段提取单元,用于依次获取所述语音数据中的待检测语音片段;
所述后验概率计算单元,用于根据语音识别结果计算所述待检测语音片段的后验概率;
所述置信度计算单元,用于根据语音识别结果计算所述待检测语音片段的置信度;
所述判断单元,用于基于所述后验概率和/或置信度确定所述待检测语音片段是否为异常语音。
11.根据权利要求10所述的系统,其特征在于,
所述后验概率计算单元包括:
语法单元确定子单元,用于根据语音识别时的解码路径,确定当前待检测语音片段对应的各语法单元;
第一计算子单元,用于计算各语法单元每帧语音数据的后验概率;
第一融合单元,用于将当前待检测语音片段对应的所有语法单元每帧语音数据的后验概率进行融合处理,得到当前待检测语音片段的后验概率;
所述置信度计算单元包括:
特征提取子单元,用于提取所述待检测语音片段的检测特征,所述检测特征包括:所述待检测语音片段的识别特征;或者所述检测特征包括:待检测语音片段的识别特征、以及所述待检测语音片段对应的识别文本的语义特征;或者所述检测特征包括:待检测语音片段的识别特征、所述待检测语音片段对应的识别文本的语义特征、以及所述待检测语音片段的后验概率;
第二计算子单元,用于根据所述检测特征计算所述待检测语音数据的置信度;
所述判断单元,具体用于在当前待检测语音片段的后验概率和/或置信度小于设定的阈值时,确定当前待检测语音片段为异常语音。
12.根据权利要求10所述的系统,其特征在于,所述
预检测模块具体用于在所述语音识别模块对所述语音数据进行语音识别之前,依次获取所述语音数据中的待检测语音片段,并且在当前待检测语音片段满足设定的异常语音确定规则时,将所述当前待检测语音片段作为异常语音。
13.根据权利要求9至12任一项所述的系统,其特征在于,
所述标记模块,具体用于采用以下任意一种或多种方式对所述识别文本中对应所述异常语音的部分进行标记:
对所述异常语音的识别文本添加下划线、或删除线;
将所述异常语音的识别文本调整为与其它识别文本不同的颜色和/或字体;
将所述异常语音的识别文本调整为渐变色;
使用多侯选的方式显示异常语音的识别文本。
14.根据权利要求9至12任一项所述的系统,其特征在于,所述系统还包括:
提示模块,用于在用户点击有标记的识别文本时,弹出带有提示信息的消息框、或气泡、或包含提示信息的图片。
15.根据权利要求14所述的系统,其特征在于,所述系统还包括:
合成模块,用于将所述提示信息合成语音;
播放模块,用于播放所述语音给用户。
CN201510450586.6A 2015-07-24 2015-07-24 语音识别文本处理方法及系统 Active CN106373558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510450586.6A CN106373558B (zh) 2015-07-24 2015-07-24 语音识别文本处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510450586.6A CN106373558B (zh) 2015-07-24 2015-07-24 语音识别文本处理方法及系统

Publications (2)

Publication Number Publication Date
CN106373558A CN106373558A (zh) 2017-02-01
CN106373558B true CN106373558B (zh) 2019-10-18

Family

ID=57880917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510450586.6A Active CN106373558B (zh) 2015-07-24 2015-07-24 语音识别文本处理方法及系统

Country Status (1)

Country Link
CN (1) CN106373558B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446388A (zh) * 2018-03-22 2018-08-24 平安科技(深圳)有限公司 文本数据质检方法、装置、设备及计算机可读存储介质
CN109192222A (zh) * 2018-07-23 2019-01-11 浙江大学 一种基于深度学习的声音异常检测系统
CN110138654B (zh) 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
CN110995921A (zh) * 2019-11-19 2020-04-10 维沃移动通信有限公司 通话处理方法、电子设备及计算机可读存储介质
CN111263009B (zh) * 2020-01-17 2022-03-18 北京三快在线科技有限公司 电话录音的质检方法、装置、设备及介质
CN111179939B (zh) * 2020-04-13 2020-07-28 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN112036119A (zh) * 2020-10-16 2020-12-04 深圳市欢太科技有限公司 一种文本显示方法、装置及计算机可读存储介质
CN112562676B (zh) * 2020-11-13 2023-12-29 北京捷通华声科技股份有限公司 一种语音解码方法、装置、设备及存储介质
CN112863493A (zh) * 2021-01-14 2021-05-28 北京天行汇通信息技术有限公司 语音数据标注方法和装置,电子设备
CN113205815B (zh) * 2021-04-28 2023-02-28 维沃移动通信有限公司 语音处理方法和电子设备
CN113470652A (zh) * 2021-06-30 2021-10-01 山东恒远智能科技有限公司 一种基于工业互联网的语音识别及处理方法
CN113571048B (zh) * 2021-07-21 2023-06-23 腾讯科技(深圳)有限公司 一种音频数据检测方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2012155301A (ja) * 2011-01-21 2012-08-16 Wrk Solution Co Ltd 状況認知型音声認識方法
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104464755A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 语音评测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272992A (ja) * 2000-03-27 2001-10-05 Ricoh Co Ltd 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
JP2012155301A (ja) * 2011-01-21 2012-08-16 Wrk Solution Co Ltd 状況認知型音声認識方法
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104464755A (zh) * 2014-12-02 2015-03-25 科大讯飞股份有限公司 语音评测方法和装置

Also Published As

Publication number Publication date
CN106373558A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN106373558B (zh) 语音识别文本处理方法及系统
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN108074576B (zh) 审讯场景下的说话人角色分离方法及系统
CN104756182B (zh) 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
CN106782603B (zh) 智能语音评测方法及系统
CN107305541A (zh) 语音识别文本分段方法及装置
CN107958673B (zh) 一种口语评分方法及装置
CN106448288A (zh) 一种交互式英语学习系统及方法
US11282511B2 (en) System and method for automatic speech analysis
CN109461441B (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Gao et al. A study on robust detection of pronunciation erroneous tendency based on deep neural network.
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN103810996A (zh) 待测试语音的处理方法、装置及系统
US20140195239A1 (en) Systems and Methods for an Automated Pronunciation Assessment System for Similar Vowel Pairs
CN108320732A (zh) 生成目标说话人语音识别计算模型的方法和装置
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
Lee et al. Personalized mispronunciation detection and diagnosis based on unsupervised error pattern discovery
Duan et al. A Preliminary study on ASR-based detection of Chinese mispronunciation by Japanese learners
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
US8219386B2 (en) Arabic poetry meter identification system and method
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
JP2020160425A (ja) 評価システム、評価方法、及びコンピュータプログラム。

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant