CN102231278B - 实现语音识别中自动添加标点符号的方法及系统 - Google Patents

实现语音识别中自动添加标点符号的方法及系统 Download PDF

Info

Publication number
CN102231278B
CN102231278B CN2011101562093A CN201110156209A CN102231278B CN 102231278 B CN102231278 B CN 102231278B CN 2011101562093 A CN2011101562093 A CN 2011101562093A CN 201110156209 A CN201110156209 A CN 201110156209A CN 102231278 B CN102231278 B CN 102231278B
Authority
CN
China
Prior art keywords
text
tone
statement
sorter
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011101562093A
Other languages
English (en)
Other versions
CN102231278A (zh
Inventor
陈志刚
蒋成林
俞健
魏思
胡郁
胡国平
王智国
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2011101562093A priority Critical patent/CN102231278B/zh
Publication of CN102231278A publication Critical patent/CN102231278A/zh
Application granted granted Critical
Publication of CN102231278B publication Critical patent/CN102231278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及语音识别技术领域,公开了一种实现语音识别中自动添加标点符号的方法及系统,该方法包括:采集用户语音信号;对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;依次计算所述文字序列中语句间的停顿位置的时长;如果所述时长小于预设的门限值,则在该停顿位置添加逗号;如果所述时长大于或等于所述门限值,则利用预先生成的分类器,确定所述停顿位置前的语句的语气类型,并根据所述类型在所述停顿位置添加标点符号。利用本发明,可以简单方便地实现标点符号的自动添加,并提高标点符号添加的准确性和灵活性。

Description

实现语音识别中自动添加标点符号的方法及系统
技术领域
本发明涉及语音识别技术领域,具体涉及一种实现语音识别中自动添加标点符号的方法及系统。
背景技术
目前,语音识别系统大多采用基于统计模式识别的方法,首先将语音输入的时域声波转化为一种数字化的矢量特征来描述区分不同的发音,基于该声音特征对所有的发音建立一个声学模型;同时,对于大词表连续语音识别系统来说,需要一个语言模型,该模型中包括所识别语言中的常用文字的使用方法。一般连续语音识别系统的工作过程可以描述为,在巨大的字、词、短语或句子的空间中,找出与给定输入声音特征序列相匹配具有最大概率的字、词、短语或句子,作为识别结果,同时可采用上下文产生装置利用上述识别结果修改当前上下文,便于下一个语音采样所用。
由于语音可以通过语气的强弱、语音的停顿以及语调的升降变换来变现平稳、感叹、疑问、喜悦等多种情感,而将语音识别为文字时,就失去了发音的辅助信息,无法将这些情感像运用语言一样表达得那样生动。同时讲话人采用不一样的情感语气进行发音,会使得短语或句子具有不同的意思。例如,“你还没听懂我的意思。”和“你还没听懂我的意思?”这两句话由于语气不同,句意也发生改变,前者是陈述一个事实,后者则为表示疑问的反问句,并包含感到意外的意思,而这两句话从文字上的区别仅是标点符号的不同。可见标点符号在句子中起的作用至关重要,在语音识别中添加标点符号是十分必要的。然而在当前的连续语音识别系统中,对于自动添加标点符号的研究并不多,大多是当语音识别时,中间有停顿的地方识别为逗号,结束时自动添加句号,整个句子都被视为陈述语气,这种方式在某些情形下并不能正确传达出讲话者语义和情感。
为此,现有技术中提出了一种利用人在发音过程中产生的噪声,将这些噪声与标点符号相对应,实现在连续语音识别中自动添加标点符号的方案。但是该方案在实际应用中依然存在一定的问题,因为用户的差异性及标点符号的多样性,并不是所有用户都会在讲话中产生足够的噪声,因此这种方案中标点符号的添加缺乏准确性和灵活性。
发明内容
本发明实施例针对上述现有技术存在的问题,提供一种实现语音识别中自动添加标点符号的方法及系统,以简单方便地实现标点符号的自动添加,并提高标点符号添加的准确性和灵活性。
为此,本发明实施例提供如下技术方案:
一种实现语音识别中自动添加标点符号的方法,包括:
采集用户语音信号;
对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;
依次计算所述文字序列中语句间的停顿位置的时长;
如果所述时长小于预设的门限值,则在所述停顿位置添加逗号;
如果所述时长大于或等于所述门限值,则利用预先生成的分类器,确定所述停顿位置前的语句的语气类型,并根据所述类型在所述停顿位置添加标点符号。
一种实现语音识别中自动添加标点符号的系统,包括:
信号采集单元,用于采集用户语音信号;
语音识别单元,用于对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;
计算单元,用于依次计算所述文字序列中语句间的停顿位置的时长;
判断单元,用于判断所述时长是否小于预设的门限值;
第一标点符号添加单元,用于在所述判断单元判断所述时长小于预设的门限值,在所述停顿位置添加逗号;
语句类型确定单元,用于在所述判断单元判断所述时长大于或等于所述门限值,利用预先生成的分类器,确定所述停顿位置前的语句的语气类型;
第二标点符号添加单元,用于根据所述语句类型确定单元确定的语句类型在所述停顿位置添加标点符号。
本发明实施例提供的实现语音识别中自动添加标点符号的方法及系统,通过对采集的用户语音信号进行语音识别,生成包含多个语句的文字序列;依次计算该文字序列中语句间的停顿位置的时长;如果该时长小于预设的门限值,则在该停顿位置添加逗号;如果该时长大于或等于所述门限值,则确定该停顿位置前的语句的语气类型,并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加,并保证了标点符号添加的准确性和灵活性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例实现语音识别中自动添加标点符号的方法的流程图;
图2是本发明实施例中训练分类器的流程图;
图3是本发明实施例中根据已训练的分类器确定语句的语气类型的流程图;
图4是本发明实施例实现语音识别中自动添加标点符号的系统的一种结构示意图;
图5是本发明实施例实现语音识别中自动添加标点符号的系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本发明实施例实现语音识别中自动添加标点符号的方法及系统,通过对采集的用户语音信号进行语音识别,生成包含多个语句的文字序列;依次计算该文字序列中语句间的停顿位置的时长;如果该时长小于预设的门限值,则在该停顿位置添加逗号;如果该时长大于或等于所述门限值,则确定该停顿位置前的语句的语气类型,并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加,并保证了标点符号添加的准确性和灵活性。
如图1所示,是本发明实施例实现语音识别中自动添加标点符号的方法的流程图,包括以下步骤:
步骤101,采集用户语音信号。
可以利用现有的一些语音信号采集工具进行采集,将用户语音信号表示为语音采样。例如,利用Windows语音采集工具采集语音信号,将采集的数据保存WAV(Wave Audio Files,波形声音文件)格式。当然,还可以采用其他采样格式,比如,PCM(Pulse Code Modulation,脉冲编码调制)、RAW格式、SND格式、以及MP3(Moving Picture Experts Group Audio Layer III)格式等。
步骤102,对所述用户语音信号进行语音识别,生成包含多个语句的文字序列。
在具体应用中,可以根据应用需要,采用不同的语音识别方法,比如,可以采用以下任意一种方法:
(1)DTW(Dynamic Time Warping,动态时间规整)方法:说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。DTW将识别模板与参考模板进行时间对比,按照某种距离测度得出两模板间的相似程度。
(2)VQ(Vector Quantization,矢量量化)方法:将每个人的特定文本训练成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。
(3)HMM(Hidden Markov Model,马尔可夫模型)方法:是一种基于转移概率和输出概率的随机模型,它将语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用隐马尔可夫模型识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。对于与文本无关的说话人识别一般采用各态历经型HMM;对于与文本有关的说话人识别一般采用从左到右型HMM。HMM不需要时间规整,可节约判决时的计算时间和存储量,在目前被广泛应用。其缺点是训练时计算量较大。
(4)ANN(Artificial Neural Networks,人工神经网络方法):它在某种程度上模拟了生物的感知特性,是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。
当然,还可以采用其他方法,具体采用哪种语音识别方法本发明实施例不做限定。而且具体的语音识别过程与现有技术类似,在此不再赘述。
经过语音识别处理,可以将采集的用户语音信号生成一个文字序列,在该文字序列中包含了一个或多个语句,如果有多个语句,则在前、后语句间有一定时长的停顿,不同停顿位置的时长可能相同,也可能不同。
步骤103,依次计算所述文字序列中语句间的停顿位置的时长。
步骤104,判断所述时长是否小于预设的门限值;如果是,则执行步骤105;否则,执行步骤106。
上述门限值可以根据不同的语速来确定,比如在正常的语速下设为0.2s,如果语速较慢,则设为0.3s,对此本发明实施例不做限定。
步骤105,在所述停顿位置添加逗号。
人在讲话时,为使讲话层次分明,突出重点,吸引听话人的注意力,会根据讲话内容的标点有意识的停顿。通常,在一句话结束时会停顿时间较长,而在一句话之间的停顿时间会较短。因此,如果停顿位置的时长很短,小于设定的门限值,则表明句子没有结束,可以直接进行标点符号的添加,即在该停顿位置添加逗号。
步骤106,利用预先生成的分类器,确定所述停顿位置前的语句的语气类型。
如果停顿位置的时长较长,超过了预设的门限值,则确定句子结束。而不管是对汉语还是其他语言,比如英语、日语等语言中,一句话的结束可以有多种不同的标点符号来标识,而且,标点符号具有的含义与人的情感之间有直接的联系,比如,当人在讲话时采用感叹语气时,一般句子结尾为感叹号;讲话人采用疑问语气时,句子结尾为问号;讲话人采用陈述语气时,句子结尾为句号。
因此,在本发明实施例中,可以在确定句子结束后,根据停顿位置前的语句的语气类型来添加相应的标点符号,从而保证其正确性。
步骤107,根据所述类型在所述停顿位置添加标点符号。
在本发明实施例中,可以将语句的语气类型划分为三种,分别是:陈述句、疑问句和感叹句。相应地,在所述停顿位置添加标点符号时根据该类型添加相应的标点符号,即:如果所述类型为陈述句,则在所述停顿位置添加句号;如果所述类型为疑问句,则在所述停顿位置添加问号;如果所述类型为感叹句,则在所述停顿位置添加感叹号。
可见,本发明实施例实现语音识别中自动添加标点符号的方法,通过对采集的用户语音信号进行语音识别,生成包含多个语句的文字序列;依次计算该文字序列中语句间的停顿位置的时长;如果该时长小于预设的门限值,则在该停顿位置添加逗号;如果该时长大于或等于所述门限值,则利用预先生成的分类器,确定该停顿位置前的语句的语气类型,并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加,并保证了标点符号添加的准确性和灵活性。
前面提到,在本发明实施例中,如果确定了语句结束,则需要根据语句的语气类型来添加相应的标点符号,具体地,可以利用预先生成的分类器(包括文本分类器和/或声学分类器),确定所述语句的语气类型。下面对其原理及具体实现过程进行详细说明。
一般地,文字文本之所以能表达一定的情感和语义,除了与文字本身具有的含义有关,更与文本中采用的语气词和标点符号具有直接的联系。
另外,语音信号之所以能够传递情感信息,语气不同能表达不同的含义,是因为其中包含了能反映情感差异的特征,而声学特征在情感信息传递中起到关键作用,语音情感变化主要通过声学特征的差异得到体现。
因此,在本发明实施例中,可以采用分别训练文本分类器和声学分类器的方式,当然,也可以采用同时训练文本分类器和声学分类器的方式,利用所述文本分类器和声学分类器对用户语音进行文本辨析和语音特性辨析,准确地判断出语音语气,提高添加标点符号的准确性。
如图2所示,是本发明实施例中训练分类器的流程图,该分类器的训练过程,采用同时训练文本分类器和声学分类器的方式,充分保证分类的准确性。
该流程包括以下步骤:
步骤201,收集文本语料。
在具体应用中,可以由人工从网络或书籍上收集各种文本语料,也可以由应用软件从网络上收集各种文本语料,每条语料不仅包含文字内容,而且还包含相应的标点符号。所述文本语料主要以逗号、感叹号、问号和句号为标志,划分为句子单元。所述文本语料包括不同的语气句子类型,如陈述句、感叹句、疑问句等,各句子的长度及声调可以相同或不同。
步骤202,从所述文本语料中提取关键词。
具体地,可以针对句子标点符号为句号、问号、感叹号的语句,分别统计其中出现频率较高、而在其他标点对应的文本中出现较少的词语,例如疑问语气中的“为什么”、“吗”、“谁”、“哪个”等,统计出现频率较高的若干个词,构成一维向量空间。
其中关键词的挑选准则为:对于三类标点符号C1(句号)、C2(问号)、C3(叹号)对应的语料,挑选其中每类语料中出现的后验概率最大的若干前N个词,公式如下:
Q i = arg [ max w : topN p ( C i | w ) ] = arg [ max w : topN p ( w | C i ) p ( C i ) Σ i = 1 3 p ( w | C i ) p ( C i ) ] - - - ( 1 )
W表示文本语料的个数,Ci表示不同语气的语料的个数。
其中,i=1,2,3,p(Ci|w)为一句语料中找到的关键词属于第i类的概率。对于N的选取可以根据语料的多少以及识别率的好坏进行不同选择,比如,N取20。
步骤203,根据提取的关键词训练生成文本分类器。
具体地,可以将提取的关键词以类型为句号、感叹号、问号结尾的文本中出现的关键词组成一个矢量,每种语气仅保留前N个最有区分性的词语,例如,从感叹句中挑选的关键词为:啊、吧、唉、哎呀、哦、天哪...;从问句中挑选的关键词为:为什么、谁、哪里、哪一个、什么、怎么样、多少、星期几...;从陈述句中挑选的关键词为:知道了、是的吧、很好的...,共组成长度为M的矢量(M、N为正整数)。
在前面得到的M个元素的基础上,对于测试训练集中的所有文本语料,分析每个句子中各个关键词是否出现,如果出现,则在上述M维矢量中对应的位置填上1,其余的位置设为0。然后利用以这些矢量和对应的标点符号为类别,以最大熵为准则,训练出文本分类器。
步骤204,获取不同的录音人对所述文本语料录音生成的语音文件。
比如,对收集的文本语料,选取5名男性和5名女性录音人,每个人按照日常说话的方式读出所述文本语料的内容,并且根据不同的句型采用不同的语气朗读。同时,保证录音人对于每种语气需要读大体相当数量的文本。对录音后的文件按照16KHz采样率、16bit量化进行A/D变换,以WAV格式保存该文件。
步骤205,确定所述语音文件中的发音语气。
具体地,可以通过对所述语音文件进行语气分析,确定所述语音文件中的发音语气。所述语气分析包括:包括韵律分析和频谱分析。
上述韵律分析包括基频提取和规整、一阶、二阶基频差分。其中,基频提取和规整可以采用Praat基频提取算法,计算每一帧位置对应的基频值以及计算该句的基频平均值(基频值为0的位置不参与计算),然后将所有基频值减去整体的均值。
上述频谱分析包括计算平均频率幅度、共振峰参数提取。其中,计算平均频率幅度即对于每一帧数据,采用离散傅里叶变换(DFT),计算出每一帧数据平均幅度,即公式:
F = Σ i = 1 N A i F i Σ i = 1 N A i - - - ( 2 )
其中,Fi为离散傅里叶变换时各个谐波频率,Ai为与各个谐波对应的幅度。提取第一共振峰参数,对于每帧数据,采用线性预测法(LPC)求出N阶预测系数,然后计算第一共振峰的频率,最后计算频率幅度和共振峰的一阶差分和二阶差分。
对于上述韵律和频谱参数,可以按照时长平分成5份,对于每一份韵律和频谱参数,对上述每种特征(即前面提到的韵律分析中涉及的参数:一阶二阶基频差分、以及频谱分析中涉及的参数:平均频率幅度和共振峰参数)计算特征的平均值,形成一个30维的观察矢量。
对于每份录音数据的文本,采用上述步骤203生成的文本分类器,计算出该句文本属于各类语气的条件概率,和前面的频谱、韵律参数拼接在一起形成一个33维分类特征。
步骤206,以所述发音语气为分类目标训练生成声学分类器。
对于每一条语句,对于除静寂段以外每一个音节计算平均频谱幅度、基频,加上各维特征的一阶、二阶差分,组成一个矢量。以各语音文件中的发音语气(包括陈述句、疑问句、感叹句)为分类目标训练隐支持向量机(SVM)分类器,作为声学分类器。
需要说明的是,上述步骤202至步骤203表示的是训练文本分类器的过程,步骤204至步骤206表示的是声学分类器的过程。在实际应用中,可以根据需要选用,以生成文本分类器或声学分类器。当然,也可以同时生成文本分类器和声学分类器。
通过上述过程,可以完成分类器的训练。利用已训练的分类器,可以检测语句的语音及其文本,从而确定该语句的语气类型。
如图3所示,是本发明实施例中根据已训练的分类器确定语句的语气类型的一种流程图,包括以下步骤:
步骤301,对当前需要识别的语句提取关键词。
步骤302,利用文本分类器计算上述语句属于每个类别的条件概率,同时根据声学分类器对上述语句进行语气分析,包括韵律分析和频谱分析。
步骤303,根据计算得到的条件概率及语气分析结果,确定当前语句的语气类型。
相应地,本发明实施例还提供一种实现语音识别中自动添加标点符号的系统,如图4所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
信号采集单元401,用于采集用户语音信号;
语音识别单元402,用于对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;
计算单元403,用于依次计算所述文字序列中语句间的停顿位置的时长;
判断单元404,用于判断所述时长是否小于预设的门限值;
第一标点符号添加单元405,用于在所述判断单元404判断所述时长小于预设的门限值,在所述停顿位置添加逗号;
语句类型确定单元406,用于在所述判断单元404判断所述时长大于或等于所述门限值,利用预先生成的分类器,确定所述停顿位置前的语句的语气类型;
第二标点符号添加单元407,用于根据所述语句类型确定单元406确定的语句类型在所述停顿位置添加标点符号。
上述门限值可以根据不同的语速来确定,比如在正常的语速下设为0.2s,如果语速较慢,则设为0.3s,对此本发明实施例不做限定。
在本发明实施例中,语句类型可以包括:陈述句、疑问句和感叹句。相应地,上述第二标点符号添加单元407具体可以在所述语句类型确定单元406确定的语句类型为陈述句时,在所述停顿位置添加句号;为疑问句时,在所述停顿位置添加问号;为感叹句时,在所述停顿位置添加感叹号。
本发明实施例实现语音识别中自动添加标点符号的系统,通过对采集的用户语音信号进行语音识别,生成包含多个语句的文字序列;依次计算该文字序列中语句间的停顿位置的时长;如果该时长小于预设的门限值,则在该停顿位置添加逗号;如果该时长大于或等于所述门限值,则确定该停顿位置前的语句的语气类型,并根据确定的语句类型在该停顿位置添加标点符号。从而简单高效地实现标点符号的自动添加,并保证了标点符号添加的准确性和灵活性。
在实际应用中,上述语句类型确定单元406可以采用多种方式确定所述停顿位置前的语句的语气类型,比如,通过预先训练生成的分类器确定所述停顿位置前的语句的语气类型。该分类器可以由本发明实施例的系统生成,也可以由其他系统生成,对此本发明实施例不做限定。
如图5所示,是本发明实施例实现语音识别中自动添加标点符号的系统的另一种结构示意图。
与图4所示实施例不同的是,在该实施例中,所述实现语音识别中自动添加标点符号的系统还包括:语料收集单元501和分类器生成单元502,其中:
语料收集单元501用于收集文本语料;
分类器生成单元502用于根据所述文本语料通过训练方式生成分类器,所述分类器包括:文本分类器和/或声学分类器。
相应地,在该实施例中,语句类型确定单元406利用所述分类器生成单元502预先生成的分类器,确定所述停顿位置前的语句的语气类型。
需要说明的是,在实际应用中,语料收集单元501可以自动从网络上收集各种文本语料,每条语料不仅包含文字内容,而且还包含相应的标点符号。所述文本语料主要以逗号、感叹号、问号和句号为标志,划分为句子单元。所述文本语料包括不同的语气句子类型,如陈述句、感叹句、疑问句等,各句子的长度及声调可以相同或不同。当然,上述语料收集单元501是可选的,比如,也可以由人工从网络或书籍上收集所需的各种文本语料并提供给本发明实施例的系统。
在本发明实施例中,上述分类器生成单元502可以包括:文本分类器训练单元和/或声学分类器训练单元(未图示),其中:所述文本分类器训练单元,用于根据所述文本语料通过训练方式生成文本分类器;所述声学分类器训练单元,用于根据所述文本语料通过训练方式生成声学分类器。
在具体实现中,所述文本分类器训练单元可以包括:关键词提取子单元和第一训练子单元,其中:
上述关键词提取子单元用于从上述语料收集单元501收集的文本语料中提取关键词;
上述第一训练子单元用于根据所述关键词提取子单元501提取的关键词训练生成文本分类器。
所述声学分类器训练单元可以包括:语音文件获取子单元、语气确定子单元和第二训练子单元,其中:
上述语音文件获取子单元,用于获取不同的录音人对所述语料收集单元收集的文本语料录音生成的语音文件;
上述语气确定子单元,用于确定所述语音文件中的发音语气;
上述第二训练子单元,用于以所述语气确定子单元确定的发音语气为分类目标训练生成声学分类器。
利用上述分类器生成单元502生成文本分类器和/或声学分类器的详细过程可参照前面本发明实施例实现语音识别中自动添加标点符号的方法中的描述,在此不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种实现语音识别中自动添加标点符号的方法,其特征在于,包括:
采集用户语音信号;
对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;
依次计算所述文字序列中语句间的停顿位置的时长;
如果所述时长小于预设的门限值,则在所述停顿位置添加逗号;
如果所述时长大于或等于所述门限值,则利用预先生成的分类器,确定所述停顿位置前的语句的语气类型,并根据所述类型在所述停顿位置添加标点符号,其中,预先收集文本语料,根据所述文本语料通过训练方式生成文本分类器和/或声学分类器;
所述利用预先生成的分类器,确定所述停顿位置前的语句的语气类型包括:对当前需要识别的语句提取关键词,利用文本分类器计算需要识别的语句属于每个类别的条件概率,和/或根据声学分类器对上述语句进行语气分析,包括韵律分析和频谱分析,根据计算得到的条件概率和/或语气分析结果,确定需要识别的语句的语气类型;
所述根据所述文本语料通过训练方式生成文本分类器包括:从所述文本语料中提取关键词,根据提取的关键词训练生成文本分类器;其中,从所述文本语料中提取关键词具体为:针对句子标点符号为句号、问号、感叹号的语句,分别统计其中出现频率较高、而在其它标点对应的文本中出现较少的词语;根据提取的关键词训练生成文本分类器具体为:将提取的关键词以类型为句号、感叹号、问号结尾的文本中出现的关键词组成一个矢量,每种语气仅保留前N个最有区分性的词语,共组成长度为M的矢量,在前面得到的M个元素的基础上,对于测试训练集中的所有文本语料,分析每个句子中各个关键词是否出现,如果出现,在上述M维矢量中对应的位置填1,其余的位置设为0,然后利用以这些矢量和对应的标点符号为类别,以最大熵为准则,训练出文本分类器;
所述根据所述文本语料通过训练方式生成声学分类器包括:获取不同的录音人对所述文本语料录音生成的语音文件,确定所述语音文件中的发音语气,以所述发音语气为分类目标训练生成声学分类器;其中,确定所述语音文件中的发音语气具体为:通过对所述语音文件进行语气分析,确定所述语音文件中的发音语气,所述语气分析包括韵律分析和频谱分析,韵律分析包括基频提取和规整、一阶、二阶基频差分,频谱分析包括计算平均频率幅度、共振峰参数提取;以所述发音语气为分类目标训练生成声学分类器具体为:对于每一条语句,对于初静寂段以外每一个音节计算平均频谱幅度、基频,加上各维特征的一阶、二阶差分,组成一个矢量,以各语音文件中的发音语气为分类目标训练隐支持向量机分类器,作为声学分类器。
2.根据权利要求1所述的方法,其特征在于,所述类型包括:陈述句、疑问句和感叹句;
所述根据所述类型在所述停顿位置添加标点符号包括:
如果所述类型为陈述句,则在所述停顿位置添加句号;
如果所述类型为疑问句,则在所述停顿位置添加问号;
如果所述类型为感叹句,则在所述停顿位置添加感叹号。
3.一种实现语音识别中自动添加标点符号的系统,其特征在于,包括:语料收集单元,用于收集文本语料;
分类器生成单元,用于根据所述文本语料通过训练方式生成文本分类器和/或声学分类器,
其中,从所述文本语料中提取关键词,根据提取的关键词训练生成文本分类器,其中,从所述文本语料中提取关键词为:针对句子标点符号为句号、问号、感叹号的语句,分别统计其中出现频率较高、而在其它标点对应的文本中出现较少的词语,根据提取的关键词训练生成文本分类器为:将提取的关键词以类型为句号、感叹号、问号结尾的文本中出现的关键词组成一个矢量,每种语气仅保留前N个最有区分性的词语,共组成长度为M的矢量,在前面得到的M个元素的基础上,对于测试训练集中的所有文本语料,分析每个句子中各个关键词是否出现,如果出现,在上述M维矢量中对应的位置填1,其余的位置设为0,然后利用以这些矢量和对应的标点符号为类别,以最大熵为准则,训练出文本分类器;
获取不同的录音人对所述文本语料录音生成的语音文件,确定所述语音文件中的发音语气,以所述发音语气为分类目标训练生成声学分类器,其中,确定所述语音文件中的发音语气为:通过对所述语音文件进行语气分析,确定所述语音文件中的发音语气,所述语气分析包括韵律分析和频谱分析,韵律分析包括基频提取和规整、一阶、二阶基频差分,频谱分析包括计算平均频率幅度、共振峰参数提取,以所述发音语气为分类目标训练生成声学分类器为:对于每一条语句,对于初静寂段以外每一个音节计算平均频谱幅度、基频,加上各维特征的一阶、二阶差分,组成一个矢量,以各语音文件中的发音语气为分类目标训练隐支持向量机分类器,作为声学分类器;
信号采集单元,用于采集用户语音信号;
语音识别单元,用于对所述用户语音信号进行语音识别,生成包含多个语句的文字序列;
计算单元,用于依次计算所述文字序列中语句间的停顿位置的时长;
判断单元,用于判断所述时长是否小于预设的门限值;
第一标点符号添加单元,用于在所述判断单元判断所述时长小于预设的门限值,在所述停顿位置添加逗号;
语句类型确定单元,用于在所述判断单元判断所述时长大于或等于所述门限值,利用预先生成的文本分类器和/或声学分类器,确定所述停顿位置前的语句的语气类型,其中,所述利用预先生成的文本分类器和/或声学分类器,确定所述停顿位置前的语句的语气类型包括:对当前需要识别的语句提取关键词,利用文本分类器计算需要识别的语句属于每个类别的条件概率,和/或根据声学分类器对上述语句进行语气分析,包括韵律分析和频谱分析,根据计算得到的条件概率和/或语气分析结果,确定需要识别的语句的语气类型;
第二标点符号添加单元,用于根据所述语句类型确定单元确定的语句类型在所述停顿位置添加标点符号。
4.根据权利要求3所述的系统,其特征在于,所述类型包括:陈述句、疑问句和感叹句;
所述第二标点符号添加单元,具体用于在所述语句类型确定单元确定的语句类型为陈述句时,在所述停顿位置添加句号;为疑问句时,在所述停顿位置添加问号;为感叹句时,在所述停顿位置添加感叹号。
CN2011101562093A 2011-06-10 2011-06-10 实现语音识别中自动添加标点符号的方法及系统 Active CN102231278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101562093A CN102231278B (zh) 2011-06-10 2011-06-10 实现语音识别中自动添加标点符号的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101562093A CN102231278B (zh) 2011-06-10 2011-06-10 实现语音识别中自动添加标点符号的方法及系统

Publications (2)

Publication Number Publication Date
CN102231278A CN102231278A (zh) 2011-11-02
CN102231278B true CN102231278B (zh) 2013-08-21

Family

ID=44843838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101562093A Active CN102231278B (zh) 2011-06-10 2011-06-10 实现语音识别中自动添加标点符号的方法及系统

Country Status (1)

Country Link
CN (1) CN102231278B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI635483B (zh) * 2017-07-20 2018-09-11 中華電信股份有限公司 Method and system for generating prosody by using linguistic features inspired by punctuation

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI484475B (zh) * 2012-06-05 2015-05-11 Quanta Comp Inc 文字顯示方法與語音轉文字裝置以及電腦程式產品
CN103543929B (zh) * 2012-07-12 2016-12-21 百度在线网络技术(北京)有限公司 一种语音识别及输入方法和装置
CN103680500B (zh) * 2012-08-29 2018-10-16 北京百度网讯科技有限公司 一种语音识别的方法和装置
CN103971684B (zh) * 2013-01-29 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法、系统及其语言模型建立方法、装置
US9811517B2 (en) 2013-01-29 2017-11-07 Tencent Technology (Shenzhen) Company Limited Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text
CN103150371B (zh) * 2013-03-08 2016-06-29 北京理工大学 正反向训练去混淆文本检索方法
CN104064188A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种语音文字化的云笔记实现方法及装置
CN104143331B (zh) * 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915B (zh) 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN103646654B (zh) * 2013-12-12 2017-03-15 深圳市金立通信设备有限公司 一种录音数据分享方法及终端
CN103761064A (zh) * 2013-12-27 2014-04-30 圆展科技股份有限公司 自动语音输入系统及其方法
CN103943109A (zh) * 2014-04-28 2014-07-23 深圳如果技术有限公司 一种将语音转换为文字的方法及装置
CN104078076B (zh) * 2014-06-13 2017-04-05 科大讯飞股份有限公司 一种语音录入方法及系统
CN104298664A (zh) * 2014-10-12 2015-01-21 王美金 一种将面谈实时记录并转化陈述句的方法和系统
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
CN105139849B (zh) * 2015-07-22 2017-05-10 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105023571A (zh) * 2015-07-28 2015-11-04 苏州宏展信息科技有限公司 一种用于录音笔的语音特征提取控制方法
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
CN105427858B (zh) * 2015-11-06 2019-09-03 科大讯飞股份有限公司 实现语音自动分类的方法及系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN107039034B (zh) * 2016-02-04 2020-05-01 科大讯飞股份有限公司 一种韵律预测方法及系统
CN105632484B (zh) * 2016-02-19 2019-04-09 云知声(上海)智能科技有限公司 语音合成数据库停顿信息自动标注方法及系统
DE102016204315A1 (de) * 2016-03-16 2017-09-21 Bayerische Motoren Werke Aktiengesellschaft Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe
CN108010513B (zh) * 2016-10-28 2021-05-14 北京回龙观医院 语音处理方法及设备
CN106710588B (zh) * 2016-12-20 2020-06-02 科大讯飞股份有限公司 语音数据句类识别方法和装置及系统
CN108241612B (zh) * 2016-12-27 2021-11-05 北京国双科技有限公司 标点符号处理方法和装置
CN106886364A (zh) * 2017-02-14 2017-06-23 深圳市金立通信设备有限公司 一种基于语音识别的文本处理方法及终端
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统的接收模块
CN107221330B (zh) * 2017-05-26 2020-11-27 北京搜狗科技发展有限公司 标点添加方法和装置、用于标点添加的装置
CN107291676B (zh) * 2017-06-20 2021-11-19 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN107608953B (zh) * 2017-07-25 2020-08-14 同济大学 一种基于不定长上下文的词向量生成方法
CN107767870B (zh) * 2017-09-29 2021-03-23 百度在线网络技术(北京)有限公司 标点符号的添加方法、装置和计算机设备
CN108091324B (zh) * 2017-12-22 2021-08-17 北京百度网讯科技有限公司 语气识别方法、装置、电子设备和计算机可读存储介质
CN109979435B (zh) * 2017-12-28 2021-10-22 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN108564953B (zh) * 2018-04-20 2020-11-17 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN108845979A (zh) * 2018-05-25 2018-11-20 科大讯飞股份有限公司 一种语音转写方法、装置、设备及可读存储介质
CN108831481A (zh) * 2018-08-01 2018-11-16 平安科技(深圳)有限公司 语音识别中符号添加方法、装置、计算机设备及存储介质
CN109448704A (zh) * 2018-11-20 2019-03-08 北京智能管家科技有限公司 语音解码图的构建方法、装置、服务器和存储介质
CN109887492B (zh) * 2018-12-07 2021-02-12 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN109947947B (zh) * 2019-03-29 2021-11-23 北京泰迪熊移动科技有限公司 一种文本分类方法、装置及计算机可读存储介质
CN110826301B (zh) * 2019-09-19 2023-12-26 厦门快商通科技股份有限公司 标点符号添加方法、系统、移动终端及存储介质
CN110782871B (zh) 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备
CN110827825A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音识别文本的标点预测方法、系统、终端及存储介质
CN112837688B (zh) * 2019-11-22 2024-04-02 阿里巴巴集团控股有限公司 语音转写方法、装置、相关系统及设备
CN111143595A (zh) * 2019-12-27 2020-05-12 上海擎感智能科技有限公司 基于语音识别的图片管理方法、系统、介质及设备
CN111261162B (zh) * 2020-03-09 2023-04-18 北京达佳互联信息技术有限公司 语音识别方法、语音识别装置及存储介质
CN111753553B (zh) 2020-07-06 2022-07-05 北京世纪好未来教育科技有限公司 语句类型识别方法、装置、电子设备和存储介质
CN111754979A (zh) * 2020-07-21 2020-10-09 南京智金科技创新服务中心 智能语音识别方法及装置
CN111883137A (zh) * 2020-07-31 2020-11-03 龙马智芯(珠海横琴)科技有限公司 基于语音识别的文本处理方法及装置
CN111985208B (zh) * 2020-08-18 2024-03-26 沈阳东软智能医疗科技研究院有限公司 一种实现标点符号填充的方法、装置及设备
CN112686018A (zh) * 2020-12-23 2021-04-20 科大讯飞股份有限公司 一种文本分割方法、装置、设备及存储介质
CN112735383A (zh) * 2020-12-23 2021-04-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN112530440B (zh) * 2021-02-08 2021-05-07 浙江浙达能源科技有限公司 一种基于端到端模型的配电网调度任务智能语音识别系统
CN113658587B (zh) * 2021-09-22 2023-12-05 杭州捷途慧声科技有限公司 一种基于深度学习的高识别率的智能语音识别方法和系统
CN113782010B (zh) * 2021-11-10 2022-02-15 北京沃丰时代数据科技有限公司 机器人响应方法、装置、电子设备及存储介质
CN114120975A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 用于语音识别标点恢复的方法、设备和存储介质
CN117392985A (zh) * 2023-12-11 2024-01-12 飞狐信息技术(天津)有限公司 语音处理方法、装置、终端和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86101508A (zh) * 1986-06-28 1988-01-06 施国梁 语言计算机
CN1235312A (zh) * 1998-05-13 1999-11-17 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580838B2 (en) * 2002-11-22 2009-08-25 Scansoft, Inc. Automatic insertion of non-verbalized punctuation
US8719004B2 (en) * 2009-03-19 2014-05-06 Ditech Networks, Inc. Systems and methods for punctuating voicemail transcriptions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86101508A (zh) * 1986-06-28 1988-01-06 施国梁 语言计算机
CN1235312A (zh) * 1998-05-13 1999-11-17 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆洋海等.基于知识的语音识别与理解.《中国科学技术大学学报》.1990,第20卷(第1期),43-48. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI635483B (zh) * 2017-07-20 2018-09-11 中華電信股份有限公司 Method and system for generating prosody by using linguistic features inspired by punctuation

Also Published As

Publication number Publication date
CN102231278A (zh) 2011-11-02

Similar Documents

Publication Publication Date Title
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN103928023B (zh) 一种语音评分方法及系统
CN101346758B (zh) 感情识别装置
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
CN111243569B (zh) 基于生成式对抗网络的情感语音自动生成方法及装置
CN104081453A (zh) 用于声学变换的系统和方法
CN102655003B (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN104123934A (zh) 一种构音识别方法及其系统
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
CN101290766A (zh) 安多藏语语音音节切分的方法
CN100543840C (zh) 基于情感迁移规则及语音修正的说话人识别方法
Al-Zabibi An acoustic-phonetic approach in automatic Arabic speech recognition
Nanavare et al. Recognition of human emotions from speech processing
Kim Singing voice analysis/synthesis
Lugger et al. Psychological motivated multi-stage emotion classification exploiting voice quality features
Grewal et al. Isolated word recognition system for English language
Mishra et al. An Overview of Hindi Speech Recognition
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Razak et al. Towards automatic recognition of emotion in speech
Koolagudi et al. Spectral features for emotion classification
Wenjing et al. A hybrid speech emotion perception method of VQ-based feature processing and ANN recognition
Heo et al. Classification based on speech rhythm via a temporal alignment of spoken sentences
Csapó et al. A novel irregular voice model for HMM-based speech synthesis.
Sethu Automatic emotion recognition: an investigation of acoustic and prosodic parameters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.