CN107578770A

CN107578770A - 网络电话语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN107578770A
Application number: CN201710769327.9A
Authority: CN
Inventors: 岑敏强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2018-01-12
Anticipated expiration: 2037-08-31
Also published as: CN107578770B

Abstract

本发明实施例公开了一种网络电话语音识别方法、装置、计算机设备和存储介质，所述方法包括：确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点；确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率；依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率；基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。解决了传统的能量断句方法语音断句的准确率低而导致语音识别正确率不高的问题，实现了网络电话语音的准确语音断句的效果。

Description

网络电话语音识别方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及语音识别和语音处理技术，尤其涉及一种网络电话语音识别方法、装置、计算机设备和存储介质。

背景技术

随着通信行业的快速发展，IP电话(Voice Over Internet Protocol，网络电话)成为一种大众普遍使用的交流方式，IP电话过程中的语音识别技术也变得十分重要，尤其是语音断句识别技术。

当前的语音识别过程为：语音信号预处理→语音断句→语音识别，语音预处理包括语音解码和去噪等，语音断句将连续的语音拆分为句子片段，语音识别采用特征提取、声学模型、语言模型和解码器等。其中，语音断句采用传统的基于能量的检测的方法进行判定。

但是在上述现有的技术方案中，基于能量的语音断句的缺点包括：无法过滤噪音和无效的语音，且对说话人的要求较高，中间不能有停顿。但是通常情况下IP电话过程中的语音质量时好时坏，导致语音断断续续。

发明内容

本发明实施例提供一种网络电话语音识别方法、装置、计算机设备和存储介质，以实现对IP电话语音的准确语音断句。

第一方面，本发明实施例提供了一种网络电话语音识别方法，该方法包括：

确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点；

确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率；

依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率；

基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。

第二方面，本发明实施例还提供了一种网络电话语音识别装置，该装置包括：

候选断句点获取模块，用于确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点；

语音归属检测模块，用于确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率；

语音断句概率确定模块，用于依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率；

语音断句处理模块，基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。

第三方面，本发明实施例还提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的网络电话语音识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述的网络电话语音识别方法。

本发明实施例通过能量断句概率确定网络电话语音中的候选断句点，根据候选断句点的能量断句概率和不同说话人概率进一步确定该候选断句点的语音断句概率，并根据该候选断句点的语音断句概率对网络电话语音进行断句处理，解决了传统的能量断句方法无法过滤噪音和无效的语音，且对说话人的要求较高中间不能有停顿而导致的语音断句的准确率低，进而导致语音识别的正确率不高的问题，实现了网络电话语音的准确语音断句的效果。

附图说明

图1是采用传统基于能量的断句的方法对网络电话语音断句的示意图；

图2是本发明实施例一中的网络电话语音识别方法的流程图；

图3是本发明实施例二中的网络电话语音识别方法的流程图；

图4是本发明实施例三中的网络电话语音识别装置的结构示意图；

图5是本发明实施例四中的网络电话语音识别装置的计算机设备的结构示意图。

具体实施方式

现有技术中，传统基于能量的语音断句方法主要有两个缺点，一个是无法过滤语音信号中的噪音和无效的语音，另外一个就是对说话人的语音要求较高，语音中间不能有停顿。而在实际的网络电话语音中，语音质量时好时坏，导致音频断断续续，如图1所示，白色部分为一段网络电话的语音信号示意图，其中，A、B、C、D、E、F和G为语音信号的能量最小处的语言断句处。但实际上A、B、C、E和F为网络电话的语音信号差导致的通话中断或者延时，该语音信号正常的断句为D和G。从上述可以看出网络电话偶尔会受到网络信号影响导致语音不连贯，给传统基于能量的方法进行语音断句带来了干扰，导致语音断句不正确，从而使得后续的语音识别的输入不正确的句子，最后导致语音识别的正确率较低。针对上述存在的技术问题，本发明实施例提供了一种网络电话语音识别方法、装置、计算机设备和存储介质

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图2为本发明实施例一提供的网络电话语音识别方法的流程图，本实施例可适用于网络电话语音中语音断句的情况，该方法可以由网络电话语音识别装置来执行，该装置可以采用软件和/或硬件的方式实现。如图2所示，该网络电话语音识别方法，包括：

步骤110、确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点。

具体的，获取IP电话语音后，可以确定IP电话语音各位置对应的能量断句概率，并根据IP电话语音各位置对应的能量断句概率获取该IP电话语音中包含的候选断句点。其中，断句概率可以是IP语音信号中任一位置能够对该IP语音进行断句并拆分成句子片段的概率，即任一位置可以作为断句点的概率。能量断句点概率可以为采用能量方式计算的IP电话语音任一位置可以进行断句的概率。IP电话语音可以包括多个句子片段，而将IP电话语音中多个句子片段分隔开任一位置对应的位置点可以作为一个断句点，IP电话语音中可以包括多个断句点。

在本实施例的一种可选的实施方式中，由于语音信号比较复杂且一般情况下无规律可寻，而只有在短时间内才具有一定的规律性，因此为了便于对语音信号处理分析，可以对语音信号进行分割处理，将IP电话语音分割成较小的语音片段，对分割后的较小语音片段进行能量分析，计算各较小语音片段内的语音信号能量或语音幅度，并根据计算结果确定各语音片段对应位置的能量断句概率。根据确定的IP电话语音中分割后各语音片段的断句点，确定IP电话语音中可能作为语音断句的断句点作为候选断句点。其中，由于分割后的各语音片段对应位置是一个位置区间，因此在确定分割后的某一语音片段对应位置可以对IP语音进行语音断句时，优选的可以选取该语音片段对应位置区间的中点作为断句点，当然精确对应断句点时还可以选择该语音片段的起点或终点，只要在该语音片段内的位置点均可。为了从语音片段中更准确的寻找各语音片段对应的断句点实际位置，可以增加IP电话语音分割的语音片段数量。例如，将1s的IP电话语音分割为200个语音片段相比于分割成60个语音片段，由于语音片段的位置区间变小，因此更能准确对应到该语音片段内断句点实际的位置。

示例性的，假设获取的IP电话语音信号的时间为1s，可以先将该1s的语音信号分割成长度相同的60个语音片段，并将分割后的60个语音片段进行标记为：1、2、3、……、i、……、59、60，计算每一个语音片段的语音能量或语音幅度，并进一步计算各语音片段的能量断句概率。

需要说明的是，上述对IP电话语音进行分割成小的语音片段仅仅是一种示例，除了上述分割方法，还可以将IP电话语音按按时间片进行数据帧分割，例如按照时间为2ms/帧进行分割，这样在采样率为8KHz时，每帧可以采集到16个样本，而在采样率为168KHz时，每帧可以采集到32个样本，然后计算每一帧的语音能量或幅度，计算各语音片段的能量断句概率。

在上述实施实施例的基础上提供了一种可选实施方式，在计算各语音片段的能量断句概率时，可以具体包括：根据确定的各语音片段的语音能量或语音幅度设置一个语音能量等级表，并对语音能量的每一个等级设置一个概率值；当计算得到某一个语音片段的语音能量或语音幅度后，可以根据设置的等级表找到对应的概率值，就可以确定该语音片段为断句点的断句概率。示例性的，假设IP电话语音被分割成60个语音片段，各语音片段的能量最大的为30，最小的为1，此时可以设置6个等级0-5为第一等级、5-10为第二等级、10-15为第三等级、15-20为第四等级、20-25为第五等级、25-30为第六等级，对应的第一等级概率值为0.1、第二等级概率值为0.3、第三等级概率值为0.5、第四等级概率值为0.7、第五等级概率值为0.9、第六等级概率值为1，当设置概率值小于0.3时认为该语音片段对应位置存在一个断句点，如果计算得到一个语音片段的语音能量为2，等级表中的概率值为0.1，则该语音片段对应的位置点为IP电话语音中的一个候选断句点。

步骤120、确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率。

声纹识别(Voiceprint Recognition，VPR)，也称为说话人识别，主要分为两类，即说话人辨认和说话人确认。说话人辨认用以判断某段语音是若干人中的哪一个所说的，是"多边一"问题；说话人确认用以确认某段语音是否是指定的某个人所说的，是"一对一判别"问题。具体的，可以提取IP电话语音中确定的候选断句点前后时刻符合人声频率的人声语音部分，并对提取的人声语音的特征信息进行分析，判断提取的各候选断句点前后时刻的语音属于不同说话人的概率。示例性的，通过步骤120可以确定IP电话语音中的候选断句点，采用声纹识别技术和音频比对技术，确定IP电话语音中各候选断句点前后时刻的语音属于相同人的单人概率，并依据单人概率得到各候选断句点前后时刻的语音属于不同说话人的概率。其中，该相同人的单人概率的设置可以借鉴步骤110中能量断句概率的设置方式进行设定计算，这里不再具体阐述。

步骤130、依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率。

具体的，通过步骤110和步骤120获取网络电话语音中的各候选断句点的能量断句概率和各候选断句点的前后时刻的语音属于不同说话人的概率，并根据各候选断句点的能量断句概率和不同说话人的概率进行计算，确定各候选断句点的语音断句概率。

在本实施例的一种可选实施方式中，可以将所述候选断句点的能量断句概率和所述不同说话人的概率相乘得到所述候选断句点的语音断句概率，可以更直观地确定候选断句点的语音断句情况，实现IP电话语音断句。示例性的，根据语音断句模型P_t(speech_signal_segmentation)∝P_t(energy_gap)*P_t(different_person)，获取IP电话语音断句概率，其中，P_t(speech_signal_segmentation)为IP电话语音断句的概率，P_t(energy_gap)为基于能量模型的语音断句的概率，P_t(different_person)为断句点前后时刻是否为不同人的概率，t表示时间轴时刻。

如图1所示，在A点处，假设P_A(energy_gap)＝0.8，P_A(different_person)＝0.1，其中，P_A(energy_gap)可以由基于能量的断句模型计算得到，P_A(different_person)为A点前后时刻是否为不同人的概率，则通过模型可以获取IP电话语音中在A点断句点的语音断句概率，计算过程如下：

P_A(speech_signal_segmentation)∝P_A(energy_gap)*P_A(different_person)＝0.8*0.1＝0.08

根据上述计算结果可以看出，当设定概率阈值为0.5时，A点概率远小于给定阈值，因此不作为语音断句的断句点输出。同理，在IP电话语音中的点B、C处由于都是同一说话人，即P(different_person)很低，利用语音断句模型计算可以看出P_t(speech_signal_segmentation)的输出都是小概率，因此也不作为语音断句的断句点输出。

对于点D，P_D(energy_gap)＝0.9,P_D(different_person)＝0.9，利用语音断句模型计算得P_D(speech_signal_segmentation)∝P_D(energy_gap)*P_D(different_person)＝0.9*0.9＝0.81，D处概率远大于给定阈值，因此作为语音断句点输出。同理G点也会作为语音断句点输出。

需要说明的是，上述提供的实施方式仅是一种优选的实施方式，也可以根据实际情况进行选择，采用其他的计算方式得到，例如非线性计算或其他线性计算方式等。

步骤140、基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。

具体的，根据计算得到的各候选断句点的语音断句概率，对各候选断句点进行筛选，得到满足语音断句条件的候选断句点。其中，满足语音断句条件的候选断句点可以是预先设置概率阈值，当候选断句点的语音断句概率达到预先设置的概率阈值时，比如大于预设概率阈值，则确定该满足语音断句条件的候选断句点为筛选得到的结果。然后根据候选断句点的筛选结果对IP电话语音进行断句处理，将该IP电话语音分割成网络电话语音中包含的语音分句，实现语音断句。

示例性的，根据候选断句点的筛选结果对IP电话语音进行断句处理，可以将该IP电话语音分割成网络电话语音中包含的语音分句，对断句处理后得到的语音分句的首尾点坐标信息和语音分句的句子数目进行记录，并根据断句处理后的语音分句的首尾点坐标信息记录结果对每一个语音分句的结束位置增加一个标识信息，通过标识信息就可以实现IP电话语音的准确断句显示。

本发明实施例通过确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点，以及确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率，并依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率，最后基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。解决了传统的能量断句方法无法过滤噪音和无效的语音，且对说话人的要求较高，中间不能有停顿导致语音断句的准确率低，而导致语音识别的正确率不高的问题，实现了网络电话语音的准确语音断句的效果。

实施例二

图3为本发明实施例二提供的网络电话语音识别方法的流程图，本发明实施例在上述实施例一的基础上，在依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句之后增加了步骤：依据预设的语音单句长度阈值从所述语音分句中筛选出单人长分句；依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理。如图3所示，该网络电话语音识别方法，包括：

步骤210、确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点。

步骤220、确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率。

步骤230、依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率。

在本实施例的一种可选实施方式中，可以将所述候选断句点的能量断句概率和所述不同说话人的概率相乘得到所述候选断句点的语音断句概率。

步骤240、基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。

步骤250、依据预设的语音单句长度阈值从所述语音分句中筛选出单人长分句。

具体的，由于语音分句可以包括多个单人分句，比如单人长分句和单人短分句，一般情况下单人长分句包含的文字或单词数量比较多且语句较长，因此还可以继续对单人长分句进一步语音断句处理。根据上述步骤240得到的IP电话语音中包含的语音分句，可以预先设置该语音分句中包含的单人长分句的选取阈值，即可以设置语音单句长度阈值作为选取阈值，具体步骤可以为：计算各语音分句的包含的文字或单词数量以及句子长度，当一个语音句子所包含的文字或单词数量超过预先设置的阈值时，则该语音分句为一个单人长分句，否则为单人短分句。

步骤260、依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理。

具体的，根据单人长分句的选取结果可以对各语音分句的单人长分句中包含的文字或单词数量以及句子长度设置一个阈值，当一个语音分句的单人长分句中的文字或单词数量以及句子长度大于该设置的阈值，则在该IP电话的语音分句的单人长分句中寻找是否包含步骤210中确定候选断句点，并按照单人长分句中查询到的候选断句点对该单人长分句进行语音断句修正处理。

示例性的，虽然IP电话语音多为短句问答，但是考虑到偶尔出现的单人长句，在此可以引入语言统计模型进行长句修正。具体可以通过如下方式识别单人长分句：

其中，在上述公式里P_t(final_segmentation)表示单人长分句的概率，Len(speech_signal_segmentation)表示切割的断句长度，Max_words_one_sentence表示单人长分句的最小长度，以中文为例可以是12。

在本实施例的一种可选实施方式中,所述依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理，包括：

A1、根据所述候选断句点对所述单人长分句进行断句处理得到候选分句。

A2、顺序遍历所述单人长分句中包含的候选分句，若任一候选分句的长度与所述语音单句长度阈值之间差值大于预设值，则将所述任一候选分句与位于所述任一候选分句之后的相邻候选分句融合得到新的候选分句。

具体的，通过顺序遍历的方式对单人长分句中断句处理后包含的候选分句进行句子长度统计，如果某一个候选分句的句子长度与预先设置的语音单句长度阈值的差值大于预先设置的差值阈值，则将该候选分句与位于该候选分句之后的相邻候选分句融合得到新的候选分句。

A3、重新执行候选分句遍历操作，直至存在候选分句的长度与所述语音单句长度阈值之间差值小于或等于预设值。

重新对包含新的候选分句的单人长分句执行遍历操作，直至存在候选分句的长度与所述语音单句长度阈值之间差值小于或等于预设值。

本发明实施例通过能量断句概率确定网络电话语音候选断句点，根据候选断句点的能量断句概率和不同说话人概率进一步确定该候选断句点的语音断句概率，并根据该候选断句点的语音断句概率对网络电话语音进行断句处理后，还继续对断句处理后语音分句中包含的单人长分句进行进一步的修正断句处理，解决了传统的能量断句方法无法过滤噪音和无效的语音，且对说话人的要求较高，中间不能有停顿导致语音断句的准确率低，进而导致语音识别的正确率不高的问题，实现了对IP电话语音的中每一语音分句的准确断句。

在上述实施例的基础上，针对依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理步骤进一步优化，具体包括：

B1、针对所述单人长分句中包含的每一候选断句点，将该候选断句点前后的候选分句融合得到新的候选分句。

具体的，根据步骤260确定单人长分句中包含的每一个候选断句点，并将单人长分句划分为多个候选分句，然后将每一个候选断句点前后的候选分句进行融合得到新的候选分句。示例性的，假设“1、2、|3|、4、5、6、7、8、9、10、11、12、|13|、14、15、16、17”为一个单人长分句，其中数字“1”至“17”为字符，字符与字符之间的“、”忽略不计，仅起到将字符隔开显示的效果，|3|和|13|为候选断句点。以候选断句点|3|为中心向后融合，可以得到“1、2、|3|”和“4,5,6,7,8,9,10,11,12,|13|,14，15,16,17”的新的候选分句；以候选断句点|13|为中心向前融合，可以得到“1、2、|3|、4、5、6、7、8、9、10、11、12”和“|13|、14、15、16、17”的新候选分句。

B2、选择长度最接近所述语音单句长度阈值的新的候选分句，并依据选择的新的候选分句对所述单人长分句作断句处理。

具体的，从得到的候选分句中选择长度最接近预先设置的语音单句长度阈值的新的候选分句，并依据选择的新的候选分句对IP电话语音分句的单人长分句作断句处理。

实施例三

图4是本发明实施例三提供的网络电话语音识别装置的结构示意图，该装置执行上述任一实施例提供的网络电话语音识别方法，该装置可以采用软件和/或硬件的方式实现。如图4所示，该网络电话语音识别装置，包括：

候选断句点获取模块310，用于确定网络电话语音的能量断句概率，并基于所述能量断句概率确定所述网络电话语音中的候选断句点。

语音归属检测模块320，用于确定所述候选断句点前后时刻的网络电话语音属于不同说话人的概率。

语音断句概率确定模块330，用于依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率。

其中，所述语音断句概率确定模块，具体用于：将所述候选断句点的能量断句概率和所述不同说话人的概率相乘得到所述候选断句点的语音断句概率。

语音断句处理模块340，基于所述候选断句点的语音断句概率对所述候选断句点进行筛选，并依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句。

在上述实施例的基础上，该网络电话语音识别装置，还包括：

语音单人长分句获取模块350，用于依据预设的语音单句长度阈值从所述语音分句中筛选出单人长分句。

语音单人长分句断句修正模块360，用于依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理。

在本实施例的一种可选的实施方式中，所述语音单人长分句断句修正模块360，具体包括：

候选分句获取单元，用于根据所述候选断句点对所述单人长分句进行断句处理得到候选分句；

候选分句融合单元，用于顺序遍历所述单人长分句中包含的候选分句，若任一候选分句的长度与所述语音单句长度阈值之间差值大于预设值，则将所述任一候选分句与位于所述任一候选分句之后的相邻候选分句融合得到新的候选分句；

融合判断循环单元，用于重新执行候选分句遍历操作，直至存在候选分句的长度与所述语音单句长度阈值之间差值小于或等于预设值。

在本实施例的另外一种可选的实施方式中，所述语音单人长分句断句修正模块360，具体包括：

候选分句组合单元，用于针对所述单人长分句中包含的每一候选断句点，将该候选断句点前后的候选分句融合得到新的候选分句；

候选分句筛选单元，用于选择长度最接近所述语音单句长度阈值的新的候选分句，并依据选择的新的候选分句对所述单人长分句作断句处理。

本发明实施例所提供的网络电话语音识别装置可执行上述本发明任意实施例所提供的网络电话语音识别方法，具备执行该网络电话语音识别方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备412的框图。图5显示的计算机设备412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备412以通用计算设备的形式表现。计算机设备412的组件可以包括但不限于：一个或者多个处理器416，系统存储器428，连接不同系统组件(包括系统存储器428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)430和/或高速缓存存储器432。计算机设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与计算机设备412交互的设备通信，和/或与使得该计算机设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机设备412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在系统存储器428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的网络电话语音识别方法，该方法包括：

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的网络电话语音识别方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种网络电话语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在依据筛选结果对所述网络电话语音进行断句处理得到所述网络电话语音中包含的语音分句之后，还包括：

依据预设的语音单句长度阈值从所述语音分句中筛选出单人长分句；

依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理。

3.根据权利要求2所述的方法，其特征在于，所述依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理，包括：

根据所述候选断句点对所述单人长分句进行断句处理得到候选分句；

顺序遍历所述单人长分句中包含的候选分句，若任一候选分句的长度与所述语音单句长度阈值之间差值大于预设值，则将所述任一候选分句与位于所述任一候选分句之后的相邻候选分句融合得到新的候选分句；

重新执行候选分句遍历操作，直至存在候选分句的长度与所述语音单句长度阈值之间差值小于或等于预设值。

4.根据权利要求2所述的方法，其特征在于，所述依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理，包括：

针对所述单人长分句中包含的每一候选断句点，将该候选断句点前后的候选分句融合得到新的候选分句；

选择长度最接近所述语音单句长度阈值的新的候选分句，并依据选择的新的候选分句对所述单人长分句作断句处理。

5.根据权利要求1所述的方法，其特征在于，所述依据所述候选断句点的能量断句概率和所述不同说话人的概率确定所述候选断句点的语音断句概率，包括：

将所述候选断句点的能量断句概率和所述不同说话人的概率相乘得到所述候选断句点的语音断句概率。

6.一种网络电话语音识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

语音单人长分句获取模块，用于依据预设的语音单句长度阈值从所述语音分句中筛选出单人长分句；

语音单人长分句断句修正模块，用于依据所述单人长分句中包含的候选断句点对所述单人长分句进行断句修正处理。

8.根据权利要求7所述的装置，其特征在于，所述语音单人长分句断句修正模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述语音单人长分句断句修正模块，包括：

10.根据权利要求6所述的装置，其特征在于，所述语音断句概率确定模块，具体用于：

11.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的网络电话语音识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的网络电话语音识别方法。