CN105427858B - 实现语音自动分类的方法及系统 - Google Patents

实现语音自动分类的方法及系统 Download PDF

Info

Publication number
CN105427858B
CN105427858B CN201510752871.3A CN201510752871A CN105427858B CN 105427858 B CN105427858 B CN 105427858B CN 201510752871 A CN201510752871 A CN 201510752871A CN 105427858 B CN105427858 B CN 105427858B
Authority
CN
China
Prior art keywords
voice data
sorted
division
characteristic
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510752871.3A
Other languages
English (en)
Other versions
CN105427858A (zh
Inventor
胡尹
潘青华
高建清
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510752871.3A priority Critical patent/CN105427858B/zh
Publication of CN105427858A publication Critical patent/CN105427858A/zh
Application granted granted Critical
Publication of CN105427858B publication Critical patent/CN105427858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种实现语音自动分类的方法及系统,该方法包括:接收待分类语音数据;对待分类语音数据进行语音识别,得到识别文本;对所述待分类语音数据进行声学分析,得到声学上的分类特征;对所述识别文本进行内容分析,得到内容上的分类特征;利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行分类,得到所述待分类语音数据所属类型。利用本发明,可以减少人工工作量,并提高语音数据分类的准确率。

Description

实现语音自动分类的方法及系统
技术领域
本发明涉及语音信号处理领域,具体涉及一种实现语音自动分类的方法及系统。
背景技术
随着语音技术的发展,自动语音识别技术已经被广泛地应用于生活的各个领域,出现了各种实用的语音识别系统,如语音转写系统,然而由于应用需求的不同,用于语音识别的语音数据的类型也是多种多样,如多人发言的会议录音、采访录音等。对于不同类型的语音数据,识别文本的内容差异较大,识别文本的展示形式也有多种,如对话类型的语音数据识别结果为“今天中午吃什么,牛肉面怎么样?要排很久的队吧,可以提前去排队了”。如果以这种形式展示给用户,会对用户的理解造成很大的困扰。但是,如果预先知道待识别语音数据的类型为对话类型,则可以将识别文本按照对话的形式展示给用户,如展示结果为:
说话人A:“今天中午吃什么,牛肉面怎么样?”
说话人B“要排很久的队吧,可以提前去排除了”。
这样可以方便用户清晰地阅读识别文本,提高识别文本的可懂度。
现有的语音分类方法一般是通过人工听语音数据给出相应的语音数据类型,当语音数据较多时,人工的工作量较大,同时给出的结果也存在主观性。因此,如何准确地得到语音数据的类型,对于语音识别的应用具有较重意义。
发明内容
本发明提供一种实现语音自动分类的方法及系统,以减少人工工作量,并提高语音数据分类的准确率。
为此,本发明提供如下技术方案:
一种实现语音自动分类的方法,包括:
接收待分类语音数据;
对所述待分类语音数据进行语音识别,得到识别文本;
对所述待分类语音数据进行声学分析,得到声学上的分类特征;
对所述识别文本进行内容分析,得到内容上的分类特征;
利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行分类,得到所述待分类语音数据所属类型。
优选地,对所述待分类语音数据进行声学分析包括:
利用所述待分类语音数据本身对所述待分类语音数据进行声学分析;和/或
利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析。
优选地,所述利用所述待分类语音数据本身对所述待分类语音数据进行声学分析包括:
根据所有有效语音的长度与待分类语音数据长度的比值,得到所述待分类语音数据的有效语音占比;和/或
对所述待分类语音数据进行说话人分离,得到所述待分类语音数据的说话人总数。
优选地,所述利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析包括:
根据语音识别过程中解码得到的词后验概率和音素后验概率,计算得到所述待分类语音数据的置信度。
优选地,所述对所述识别文本进行内容分析,得到内容上的分类特征包括:
对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;
计算预处理后的识别文本中各语句的置信度;
提取置信度大于设定阈值的各语句的内容上的分类特征,所述内容上的分类特征包括:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。
优选地,所述方法还包括,按以下方式构建所述语音分类模型:
收集多种类型的语音数据,并标注各语音数据的类型;
提取各语音数据的分类特征及标注特征,所述分类特征包括:声学上的分类特征和内容上的分类特征;
根据提取的各语音数据的分类特征及标注特征训练语音分类模型。
优选地,所述方法还包括:
按照所述待分类语音数据所属类型对所述识别文本进行展示。
一种实现语音自动分类的系统,包括:
接收模块,用于接收待分类语音数据;
语音识别模块,用于对待分类语音数据进行语音识别,得到识别文本;
声学分析模块,用于对所述待分类语音数据进行声学分析,得到声学上的分类特征;
内容分析模块,用于对所述识别文本进行内容分析,得到内容上的分类特征;
分类模块,用于利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行分类,得到所述待分类语音数据所属类型。
优选地,所述声学分析模块包括:
第一声学分析模块,用于利用所述待分类语音数据本身对所述待分类语音数据进行声学分析;和/或
第二声学分析模块,用于利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析。
优选地,所述第一声学分析模块包括:
有效语音占比计算单元,用于根据所有有效语音的长度与待分类语音数据长度的比值,得到所述待分类语音数据的有效语音占比;和/或
说话人分离单元,用于对所述待分类语音数据进行说话人分离,得到所述待分类语音数据的说话人总数。
优选地,所述第二声学分析模块,具体用于根据语音识别过程中解码得到的词后验概率和音素后验概率,计算得到所述待分类语音数据的置信度。
优选地,所述内容分析模块包括:
预处理单元,用于对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;
置信度计算单元,用于计算预处理后的识别文本中各语句的置信度;
特征提取单元,用于提取置信度大于设定阈值的各语句的内容上的分类特征,所述内容上的分类特征包括:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。
优选地,所述系统还包括模型训练模块,所述模型训练模块包括:
数据收集单元,用于收集多种类型的语音数据;
提取单元,用于提取各语音数据的分类特征及标注特征,所述分类特征包括:声学上的分类特征和内容上的分类特征,所述标注特征用于指示各语音数据的类型;
训练单元,用于根据提取的各语音数据的分类特征及标注特征训练语音分类模型。
优选地,所述系统还包括:
展示模块,用于按照所述待分类语音数据所属类型对所述识别文本进行展示。
本发明实施例提供的实现语音自动分类的方法及系统,对接收的待分类语音数据进行语音识别,得到识别文本;然后分别从待分类语音数据的声学上及内容上提取分类特征;最后利用提取的分类特征及预先构建的语音分类模型对待分类语音数据进行分类,得到待分类语音数据的类别。本发明方案不仅实现了语音数据的自动分类,大大减少了人工工作量;而且,由于分别从待分类语音数据的声学上及内容上描述待分类语音数据,从而可以全面且准确地提取语音数据包含的信息,有效提高了语音数据分类的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例实现语音自动分类的方法的流程图;
图2是本发明实施例中构建语音分类模型的流程图;
图3是本发明实施例实现语音自动分类的系统的一种结构示意图;
图4是本发明实施例实现语音自动分类的系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例实现语音自动分类的方法的流程图,包括以下步骤:
步骤101,接收待分类语音数据。
所述语音数据可以是录音得到的,如会议录音、采访录音等。
步骤102,对所述待分类语音数据进行语音识别,得到识别文本。
具体识别方法如下:首先对所述语音数据进行端点检测,得到有效语音段的起始点和结束点;然后对端点检测得到的有效语音段进行特征提取;随后利用提取的特征数据及预先训练的声学模型和语言模型进行解码操作,得到语音数据中的词后验概率及音素后验概率;最后根据解码结果得到当前语音数据对应的识别文本,具体过程与现有技术相同,在此不再详述。
步骤103,对所述待分类语音数据进行声学分析,得到声学上的分类特征。
从声学上分析语音数据主要指分析语音数据本身,和/或根据语音识别时得到的声学相关数据来分析语音数据,提取分类特征。所述声学相关数据如语音数据的词后验概率及音素后验概率。利用所述待分类语音数据本身对所述待分类语音数据进行声学分析可以得到的分类特征主要有:有效语音占比、说话人总数,利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析可以得到的分类特征主要有:置信度。
下面分别详细说明上述声学上的各分类特征的具体提取方法,具体如下:
1)有效语音占比
语音识别时,根据有效语音检测(Voice Activity Detection,VAD)结果,可以得到语音数据中的所有有效语音段,计算所有效语音段的总长度与语音数据总长度的比值作为语音数据的有效语音占比。
2)说话人总数
所述说话人总数是指通过对语音数据进行说话人分离后,得到的说话人个数。所述说话人分离技术可以采用现有技术,如首先对语音数据进行说话人变化点检测,所述说话人变化点即同一个说话人说话结束,另一个说话人开始的地方,具体检测方法与现有技术相同;然后根据所述说话人变化点将语音数据分成多个语音段;最后对所述语音段进行聚类,具体聚类算法如K-means算法,将同一个说话人的语音数据聚到一类中,最终聚类数即为语音数据中的说话人总数。
3)置信度
所述置信度为待分类语音数据的置信度,具体可以根据解码结果得到的每个语音段的词后验概率和音素后验概率计算得到,如式(1)和式(2)所示:
CMsent(i)=α*WPPsent(i)+(1-α)PPPsent(i) (1)
其中,CMsent(i)为第i个语音段的置信度,WPPsent(i)为第i个语音段中词的后验概率,PPPsent(i)为第i个语音段对应的音素后验概率,所述音素后验概率即为当前语音段应该识别为每个音素的后验概率,具体计算时,首先训练音素分类模型,具体训练时,收集大量语音数据,将语音数据的频谱特征作为模型的输入,将每个音素作为语音数据的分类特征进行模型训练;然后,提取当前语音段的频谱特征作为音素分类模型的输入,对当前语音段识别成每个音素进行预测,即可得到当前语音段识别为每个音素的后验概率;α为权重系数,根据实验结果或实际应用取值,α的取值范围为0到1之间,α值越大,置信度越偏向词后验概率;当α=1时,所述置信度直接为语音数据的词后验概率,当α=0时,所述置信度直接为语音数据的音素后验概率;所述词后验概率和音素后验概率可以根据语音识别时的解码结果得到,具体计算方法与现有技术相同,在此不再详述。
待分类语音数据的置信度即为所有语音段的置信度的平均值,如式(2)所示:
其中,CMaudio为待分类语音数据的置信度,n为语音数据的语音段总数。
步骤104,对所述识别文本进行内容分析,得到内容上的分类特征。
对识别文本进行内容分析,主要指根据语音数据的识别文本分析语音数据,提取内容上的分类特征。具体地,首先对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;然后计算预处理后的识别文本中各句识别文本的置信度;提取置信度大于设定阈值的各句识别文本的分类特征(即内容上的分类特征),所述分类特征可以是:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。对于识别文本中置信度较低的句子,可以直接忽略掉。
上面所述的预处理中各具体预处理方法与现有技术相同,说明如下:
所述文本过滤主要是将识别文本中的错词过滤掉,如根据词后验概率和句法分析结果过滤错词。
所述文本顺滑主要是把语无伦次的句子捋顺,无实际意义的重复词只保留一个,如“非常非常好”,只保留“非常好”,无实际意义的语气词直接忽略,如“呃这个问题”,将“呃”顺滑掉。
所述数字规整主要是将识别文本中数字使用的格式规整为用户习惯的格式,如有些文本用户习惯使用阿拉伯数字表示数字,如21.5元,39摄氏度等;有些文本用户习惯使用中文字符表示,如一个人,五个百分点等,可以根据用户习惯将识别文本中的数字规整为符合用户习惯的表示形式,如将二零一五年十一月十一日,规整为2015年11月11日。
所述添加标点即对识别文本添加相应的标点符号,如基于条件随机场模型对识别文本添加标点。为了使添加的标点更准确,可以设置VAD段间与段中添加标点的阈值,如VAD段间可以多添加标点,VAD段中少添加标点。
在本发明实施例中,可以提取的内容上的分类特征可以是以下任意一种或多种:
1)词面特征,即词本身,如“语音合成”,分词后得到的词面特征为“语音”、“合成”。
2)词性特征,即词语的词性,如名词、动词、形容词、副词等。
3)标点特征,即为添加标点操作中添加的标点,如逗号、句号、问号、感叹号等,添加标点后的识别文本每句的划分以逗号、句号、问号、感叹号结尾,即以逗号、句号、问号、感叹号结尾的文本作为一句识别文本。
4)语气词总数
所述语气词指表达语气的虚词,常用在句尾或句中停顿处,表示说话人的语气,常见的语气词如“啊、嗯、啦、嘛”等。可以通过预先构建语气词表或语气词词典的形式,查找识别文本中的语气词,并统计语气词数,从而得到识别文本中的语气词总数。一般不同类型的语音数据,包含的语气词总数差异较大,如自由对话类型、自由讨论的会议类型语音数据包含的语气词往往较多,而比较正式的朗读类型、演讲类型的语音数据包含的语气词相对较少。
5)情感极性特征
所述情感极性是指通过分析识别文本,得到语音数据所表达的情感信息,可以将情感极性分为三种,即正向、中性、负向,可以分别使用不同的表示方式,如使用数字1、0、-1表示三种情感极性,计算方法如下:
首先根据预先确定的情感词词典、程度副词词典、否定副词词典提取识别文本中的情感词特征,主要提取情感词、情感词词性、程度副词、否定副词四种特征,例如:当前句识别文本为“今天天气非常好”,提取的情感词特征如“好,形容词,非常,null”,其中“null”表示无。然后利用预先构建的情感极性分类模型,对每句识别文本进行情感极性的预测,得到每句识别文本的情感极性,如正向、中性、负向。
根据识别文本中每句话的情感极性结合每句话的置信度计算得到语音数据的情感极性。具体计算时,首先计算每句话的情感极性与每句话的置信度的乘积,得到第一计算值,然后计算所有置信度超过阈值的句子计算得到的第一计算值的平均值,将所述平均值作为待分类语音数据的情感极性,具体计算方法如式(3)所示:
其中,S为待分类语音数据的情感极性,SCj为第j句识别文本的置信度,SSj为第j句识别文本的情感极性,N为识别文本中置信度超过阈值的句子数,具体可以使用不同的数字表示每句话的情感极性,如使用1、0、-1表示。
步骤105,利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行分类,得到分类结果。
所述语音分类模型可以离线构建,具体构建流程如图2所示,包括以下步骤:
步骤201,收集多种类型的大量语音数据。
所述语音数据的类型如朗读式、演讲式、脱口秀、自由表达、表演等。
步骤202,标注各语音数据的类型。
具体地,可以根据语音数据的来源自动标注其类型,也可以由人工标出相应类型,得到语音数据的标注特征,所述语音数据的标注特征具体可以包括以下任意一种或多种:朗读式、演讲式、脱口秀式、自由表达式、会议式、采访式、表演式(如相声、小品等)。其中,演讲式、脱口秀式、自由表达式一般包含单个说话人;会议式、采访式、表演式一般包含多个说话人。当然,也可以有其它标注特征,本发明实施例不做限定。
步骤203,提取所述语音数据的分类特征及标注特征。
所述分类特征包括:声学上的分类特征和内容上的分类特征,具体提取方法与前面介绍的相同,在此不再赘述。
步骤204,根据大量语音数据的分类特征及标注特征训练语音分类模型。
所述语音分类模型可以采用模式识别中的常用模型,如支持向量机模型、神经网络模型等,具体训练方法与现有技术相同,在此不再详述。
在利用所述语音分类模型对待分类语音数据进行分类时,将待分类语音数据的分类特征作为所述语音分类模型的输入,对待分类语音数据的类型进行预测,从而得到语音数据的类型。
需要说明的是,语音数据的类型除了前面提到的如:朗读式、演讲式、脱口秀式、自由表达式、会议式、采访式、表演式之外,还可以有其它类型,而且语音数据类型的划分可以根据应用需要来设定,对此本发明实施例不做限定。
本发明实施例提供的实现语音自动分类的方法,对接收的待分类语音数据进行语音识别,得到识别文本;然后分别从待分类语音数据的声学上及内容上提取分类特征;最后利用提取的分类特征及预先构建的语音分类模型对待分类语音数据进行分类,得到待分类语音数据的类别。本发明方案不仅实现了语音数据的自动分类,大大减少了人工工作量;而且,由于分别从待分类语音数据的声学上及内容上描述待分类语音数据,从而可以全面且准确地提取语音数据包含的信息,有效提高了语音数据的分类准确率。
本发明实施例实现语音自动分类的方法,在语音信号处理领域具有广泛的应用,比如,语音识别后对识别文本的展示中,可以根据得到的语音数据所属类型对识别文本进行展示,比如对不同类型设置不同的展示模板,利用相应的模板来展示识别文本,可以使用户更容易理解文本内容,提高展示效果及用户视觉感受。
相应地,本发明实施例还提供一种实现语音自动分类的系统,如图3所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
接收模块301,用于接收待分类语音数据;
语音识别模块302,用于对所述待分类语音数据进行语音识别,得到识别文本;
声学分析模块303,用于对所述待分类语音数据进行声学分析,得到声学上的分类特征;
内容分析模块304,用于对所述识别文本进行内容分析,得到内容上的分类特征;
分类模块305,用于利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行分类,得到所述待分类语音数据所属类型。
上述声学分析模块303具体可以包括第一声学分析模块和/或第二声学分析模块。其中,第一声学分析模块用于利用所述待分类语音数据本身对所述待分类语音数据进行声学分析;第二声学分析模块用于利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析。
所述第一声学分析模块可以包括:有效语音占比计算单元和/或说话人分离单元。其中,有效语音占比计算单元用于根据所有有效语音的长度与待分类语音数据长度的比值,得到所述待分类语音数据的有效语音占比;说话人分离单元用于对所述待分类语音数据进行说话人分离,得到所述待分类语音数据的说话人总数。
需要说明的是,上述有效语音占比计算单元可以直接利用语音识别模块302在进行语音识别时端点检测的结果来计算所述待分类语音数据的有效语音占比。
所述第二声学分析模块具体可以根据语音识别过程中解码得到的词后验概率和音素后验概率,计算得到所述待分类语音数据的置信度,具体计算过程可参照前面本发明方法实施例中的描述,在此不再赘述。
上述内容分析模块304具体可以包括以下各单元:
预处理单元,用于对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;
置信度计算单元,用于计算预处理后的识别文本中各语句的置信度;
特征提取单元,用于提取置信度大于设定阈值的各语句的内容上的分类特征,所述内容上的分类特征包括:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。
需要说明的是,图3所示实施例中仅示意了声学分析模块303利用所述待分类语音数据本身对所述待分类语音数据进行声学分析的一种情况,如果声学分析模块303还需要利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析,则声学分析模块303还需要与语音识别模块302相关联。
如图4所示,是本发明实现语音自动分类的系统的另一种结构示意图。
在该实施例中,所述系统还包括:模型训练模块400,该模型训练模块400具体包括以下各单元:
数据收集单元401,用于收集多种类型的语音数据;
提取单元402,用于提取各语音数据的分类特征及标注特征,所述分类特征包括:声学上的分类特征和内容上的分类特征,所述标注特征用于指示各语音数据的类型;
训练单元403,用于根据提取的各语音数据的分类特征及标注特征训练语音分类模型。
需要说明的是,在实际应用中,所述语音分类模型可以预先离线训练,相应地,上述模型训练模块400可以独立于本发明系统,也可以作为本发明系统的一部分,对此本申请不做限定。
本发明实施例提供的实现语音自动分类的系统,对接收的待分类语音数据进行语音识别,得到识别文本;然后分别从待分类语音数据的声学上及内容上提取分类特征;最后利用提取的分类特征及预先构建的语音分类模型对待分类语音数据进行分类,得到待分类语音数据的类别。本发明方案不仅实现了语音数据的自动分类,大大减少了人工工作量;而且,由于分别从待分类语音数据的声学上及内容上描述待分类语音数据,从而可以全面且准确地提取语音数据包含的信息,有效提高了语音数据的分类准确率。
本发明实施例提供的实现语音自动分类的系统,可以应用于对语音识别结果的展示。比如,在本发明系统的一种应用示例中,还可以包括:展示模块(未图示),用于按照所述待分类语音数据所属类型对所述识别文本进行展示。比如对不同类型设置不同的展示模板,利用相应的模板来展示识别文本,可以使用户更容易理解文本内容,提高展示效果及用户视觉感受。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种实现语音自动分类的方法,其特征在于,包括:
接收待分类语音数据;
对所述待分类语音数据进行语音识别,得到识别文本;
对所述待分类语音数据进行声学分析,得到声学上的分类特征;
对所述识别文本进行内容分析,得到内容上的分类特征;
利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行表现形式的分类,得到所述待分类语音数据所属表现形式类型。
2.根据权利要求1所述的方法,其特征在于,对所述待分类语音数据进行声学分析包括:
利用所述待分类语音数据本身对所述待分类语音数据进行声学分析;和/或
利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析。
3.根据权利要求2所述的方法,其特征在于,所述利用所述待分类语音数据本身对所述待分类语音数据进行声学分析包括:
根据所有有效语音的长度与待分类语音数据长度的比值,得到所述待分类语音数据的有效语音占比;和/或
对所述待分类语音数据进行说话人分离,得到所述待分类语音数据的说话人总数。
4.根据权利要求2所述的方法,其特征在于,所述利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析包括:
根据语音识别过程中解码得到的词后验概率和音素后验概率,计算得到所述待分类语音数据的置信度。
5.根据权利要求1所述的方法,其特征在于,所述对所述识别文本进行内容分析,得到内容上的分类特征包括:
对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;
计算预处理后的识别文本中各语句的置信度;
提取置信度大于设定阈值的各语句的内容上的分类特征,所述内容上的分类特征包括:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括,按以下方式构建所述语音分类模型:
收集多种类型的语音数据,并标注各语音数据的类型;
提取各语音数据的分类特征及标注特征,所述分类特征包括:声学上的分类特征和内容上的分类特征;
根据提取的各语音数据的分类特征及标注特征训练语音分类模型。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
按照所述待分类语音数据所属类型对所述识别文本进行展示。
8.一种实现语音自动分类的系统,其特征在于,包括:
接收模块,用于接收待分类语音数据;
语音识别模块,用于对待分类语音数据进行语音识别,得到识别文本;
声学分析模块,用于对所述待分类语音数据进行声学分析,得到声学上的分类特征;
内容分析模块,用于对所述识别文本进行内容分析,得到内容上的分类特征;
分类模块,用于利用所述声学上的分类特征、内容上的分类特征、以及预先构建的语音分类模型对所述待分类语音数据进行表现形式的分类,得到所述待分类语音数据所属表现形式类型。
9.根据权利要求8所述的系统,其特征在于,所述声学分析模块包括:
第一声学分析模块,用于利用所述待分类语音数据本身对所述待分类语音数据进行声学分析;和/或
第二声学分析模块,用于利用语音识别过程中得到的声学相关数据对所述待分类语音数据进行声学分析。
10.根据权利要求9所述的系统,其特征在于,所述第一声学分析模块包括:
有效语音占比计算单元,用于根据所有有效语音的长度与待分类语音数据长度的比值,得到所述待分类语音数据的有效语音占比;和/或
说话人分离单元,用于对所述待分类语音数据进行说话人分离,得到所述待分类语音数据的说话人总数。
11.根据权利要求9所述的系统,其特征在于,
所述第二声学分析模块,具体用于根据语音识别过程中解码得到的词后验概率和音素后验概率,计算得到所述待分类语音数据的置信度。
12.根据权利要求8所述的系统,其特征在于,所述内容分析模块包括:
预处理单元,用于对所述识别文本进行预处理,所述预处理包括:文本过滤、文本顺滑、数字规整、添加标点;
置信度计算单元,用于计算预处理后的识别文本中各语句的置信度;
特征提取单元,用于提取置信度大于设定阈值的各语句的内容上的分类特征,所述内容上的分类特征包括:情感极性以及以下任意一种或多种特征:词面特征、词性特征、标点特征、语气词总数。
13.根据权利要求8至12任一项所述的系统,其特征在于,所述系统还包括模型训练模块,所述模型训练模块包括:
数据收集单元,用于收集多种类型的语音数据;
提取单元,用于提取各语音数据的分类特征及标注特征,所述分类特征包括:声学上的分类特征和内容上的分类特征,所述标注特征用于指示各语音数据的类型;
训练单元,用于根据提取的各语音数据的分类特征及标注特征训练语音分类模型。
14.根据权利要求8至12任一项所述的系统,其特征在于,所述系统还包括:
展示模块,用于按照所述待分类语音数据所属类型对所述识别文本进行展示。
CN201510752871.3A 2015-11-06 2015-11-06 实现语音自动分类的方法及系统 Active CN105427858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510752871.3A CN105427858B (zh) 2015-11-06 2015-11-06 实现语音自动分类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510752871.3A CN105427858B (zh) 2015-11-06 2015-11-06 实现语音自动分类的方法及系统

Publications (2)

Publication Number Publication Date
CN105427858A CN105427858A (zh) 2016-03-23
CN105427858B true CN105427858B (zh) 2019-09-03

Family

ID=55506013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510752871.3A Active CN105427858B (zh) 2015-11-06 2015-11-06 实现语音自动分类的方法及系统

Country Status (1)

Country Link
CN (1) CN105427858B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305541B (zh) * 2016-04-20 2021-05-04 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN105957531B (zh) * 2016-04-25 2019-12-31 上海交通大学 基于云平台的演讲内容提取方法及装置
CN105869643A (zh) * 2016-06-06 2016-08-17 青岛海信移动通信技术股份有限公司 基于语音的终端控制方法及语音控制装置
CN107783958B (zh) * 2016-08-31 2021-07-02 科大讯飞股份有限公司 一种目标语句识别方法及装置
CN107886951B (zh) * 2016-09-29 2021-07-23 百度在线网络技术(北京)有限公司 一种语音检测方法、装置及设备
CN106847263B (zh) * 2017-01-13 2020-09-11 科大讯飞股份有限公司 演讲水平评价方法和装置及系统
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
CN107133216A (zh) * 2017-05-24 2017-09-05 上海与德科技有限公司 一种消息处理方法及装置
CN110019931B (zh) * 2017-12-05 2023-01-24 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN108416052A (zh) * 2018-03-20 2018-08-17 杭州声讯网络科技有限公司 一种针对语义分析行业数据分类方法
CN108536654B (zh) * 2018-04-13 2022-05-17 科大讯飞股份有限公司 识别文本展示方法及装置
DE102018108867A1 (de) * 2018-04-13 2019-10-17 Dewertokin Gmbh Steuereinrichtung für einen Möbelantrieb und Verfahren zum Steuern eines Möbelantriebs
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
CN110782886A (zh) * 2018-07-30 2020-02-11 阿里巴巴集团控股有限公司 语音处理的系统、方法、电视、设备和介质
CN109147780B (zh) * 2018-08-15 2023-03-03 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109215636B (zh) * 2018-11-08 2020-10-30 广东小天才科技有限公司 一种语音信息的分类方法及系统
CN110297901B (zh) * 2019-05-14 2023-11-17 广州数说故事信息科技有限公司 基于距离参数的大规模文本聚类方法
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN110444223B (zh) * 2019-06-26 2023-05-23 平安科技(深圳)有限公司 基于循环神经网络和声学特征的说话人分离方法及装置
CN110473566A (zh) * 2019-07-25 2019-11-19 深圳壹账通智能科技有限公司 音频分离方法、装置、电子设备及计算机可读存储介质
CN110970030A (zh) * 2019-12-10 2020-04-07 苏州思必驰信息科技有限公司 一种语音识别转换方法及系统
CN111128223B (zh) * 2019-12-30 2022-08-05 科大讯飞股份有限公司 一种基于文本信息的辅助说话人分离方法及相关装置
CN111223496A (zh) * 2020-01-03 2020-06-02 广东电网有限责任公司 一种语音信息分类方法和装置
CN112399019A (zh) * 2020-09-16 2021-02-23 中国农业银行股份有限公司河北省分行 智能外呼方法、终端设备及可读存储介质
CN112735383A (zh) * 2020-12-23 2021-04-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN113314123A (zh) * 2021-04-12 2021-08-27 科大讯飞股份有限公司 语音处理方法、电子设备及存储装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727487A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种面向网络评论的观点主题识别方法和系统
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102419975B (zh) * 2010-09-27 2015-11-25 深圳市腾讯计算机系统有限公司 一种基于语音识别的数据挖掘方法和系统
CN102231278B (zh) * 2011-06-10 2013-08-21 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
US8571859B1 (en) * 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
CN102999485A (zh) * 2012-11-02 2013-03-27 北京邮电大学 一种基于公众汉语网络文本的现实情感分析方法
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法

Also Published As

Publication number Publication date
CN105427858A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN105427858B (zh) 实现语音自动分类的方法及系统
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
Bertero et al. A first look into a convolutional neural network for speech emotion detection
Lukic et al. Speaker identification and clustering using convolutional neural networks
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN105845134B (zh) 自由朗读题型的口语评测方法及系统
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN106297773B (zh) 一种神经网络声学模型训练方法
CN105702250B (zh) 语音识别方法和装置
CN102194454B (zh) 用于检测连续语音中的关键词的设备和方法
CN108090038B (zh) 文本断句方法及系统
CN107972028B (zh) 人机交互方法、装置及电子设备
CN107305541A (zh) 语音识别文本分段方法及装置
CN107945805A (zh) 一种智能化跨语言语音识别转化方法
CN105632501A (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN105931635B (zh) 一种音频分割方法及装置
CN105261246A (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN108877769B (zh) 识别方言种类的方法和装置
CN111192659A (zh) 用于抑郁检测的预训练方法和抑郁检测方法及装置
CN110119443A (zh) 一种面向推荐服务的情感分析方法
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
CN105869622B (zh) 中文热词检测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant