CN109448704A - 语音解码图的构建方法、装置、服务器和存储介质 - Google Patents
语音解码图的构建方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN109448704A CN109448704A CN201811381481.XA CN201811381481A CN109448704A CN 109448704 A CN109448704 A CN 109448704A CN 201811381481 A CN201811381481 A CN 201811381481A CN 109448704 A CN109448704 A CN 109448704A
- Authority
- CN
- China
- Prior art keywords
- mute
- punctuation mark
- word
- voice
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 230000008451 emotion Effects 0.000 abstract description 8
- 230000011218 segmentation Effects 0.000 description 15
- 238000005457 optimization Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音解码图的构建方法、装置、服务器和存储介质。该方法包括:提取样本语料中包括的词语和标点符号;依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。本发明实施例通过基于带有规范性标点符号的样本语料进行解码图的构建,获得能够识别语音中标点符号的解码图,实现了在语音识别中为语音识别文本添加标点符号,提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
Description
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音解码图的构建方法、装置、服务器和存储介质。
背景技术
随着语音识别技术的快速发展,生活中的各个领域逐渐采用语音识别技术进行事务的快速处理,例如会议的记录或人机交互等。为了避免语音信息的理解产生歧义,因此对语音识别结果中添加标点符号对于语音信息的理解以及识别文本的呈现起着至关重要的作用。
现有技术中,为了对语音识别结果中添加标点符号,通常需要用户在口授期间讲出相应的标点符号,通过语音识别词语中的标点符号并转换为文本的标点符号,以此增强识别文本的识别效果和语音信息的理解效果。但是在某些场景中并不能要求用户口授标点符号,因此现有技术通常还会只在语音停顿或结尾的位置添加逗号或句号。
然而,现有技术在语音识别结果中添加标点符号的方式单一,准确度较低,难以真实传递语音信息和所表达的情感。
发明内容
本发明实施例提供了一种语音解码图的构建方法、装置、服务器和存储介质,能够构建识别语音中标点符号的解码图,提高语音识别中标点符号的识别准确度。
第一方面,本发明实施例提供了一种语音解码图的构建方法,包括:
提取样本语料中包括的词语和标点符号;
依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
第二方面,本发明实施例提供了一种语音解码图的构建装置,包括:
语料处理模块,用于提取样本语料中包括的词语和标点符号;
标点特征确定模块,用于依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
解码图构建模块,用于依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的语音解码图的构建方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的语音解码图的构建方法。
本发明实施例通过选择带有规范性标点符号的样本语料进行采集,提取样本语料中包括的词语和标点符号,并依据样本语料关联的样本语音,确定标点符号的静音特征,从而依据样本语料中包括的词语和标点符号以及各标点符号的静音特征,确定用于语音和标点符号识别的解码图。本发明实施例通过基于带有规范性标点符号的样本语料进行解码图的构建,获得能够识别语音中标点符号的解码图,实现了在语音识别中为语音识别文本添加标点符号,提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
附图说明
图1为本发明实施例一提供的一种语音解码图的构建方法的流程图;
图2为本发明实施例二提供的一种语音解码图的构建方法的流程图;
图3为本发明实施例三提供的在语音识别中添加标点符号的流程图;
图4为本发明实施例四提供的一种语音解码图的构建装置的结构示意图;
图5为本发明实施例五提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种语音解码图的构建方法的流程图,本实施例可适用于识别语音中标点符号的情况,该方法可由一种语音解码图的构建装置来执行。该方法具体包括如下步骤:
步骤110、提取样本语料中包括的词语和标点符号。
在本发明具体实施例中,样本语料是指用于训练或优化语音识别模型的语言材料,样本语料可以为包括至少一个样本文本的语料库,其中样本文本不仅包括语言文本即词语,而且还包括规范性的标点符号。为了提高样本语料中标点符号的规范性,提高模型的训练或优化效果,样本语料可以选取来自报纸、期刊等对符号有严格规范要求的文本资源,或者也可以请专业人士对样本语料进行符号的规范化标注。
本实施中,对带有规范化符号的样本语料进行预处理,其中预处理至少可以包括特殊符号处理和分词处理。具体的,标点符号是指书面语中用来表示停顿、语气以及词语性质的符号,例如逗号、句号或感叹号等。由于样本语料中可以存在除标点符号以外的特殊符号,例如星号或运算符等,因此本实施例首先对样本语料进行特殊符号处理,通过对样本语料进行符号的识别,清除样本语料中的特殊符号,以此保留常规标点符号。
相应的,对清理后的样本语料进行分词处理,即将样本语料中连续的字序列按照一定的规范重新组合成词序列,每个词序列作为独立的分词结果存在。同时,将样本语料中的标点符号也作为独立的分词结果,保留在分词处理后的结果中。进而通过对样本语料的清理和分词处理,获得样本语料中包括的词语和标点符号。
示例性的,假设样本语料中包括如下文本内容:“注意!同学们请认真阅读课文,并用星号*标注中心论点。”特殊符号处理后,得到清理后的语料文本可以为:“注意!同学们请认真阅读课文,并用星号标注中心论点。”分词处理后,得到分词结果可以为,包括词语:“注意”、“同学们”、“请”、“认真”、“阅读”、“课文”、“并”、“用”、“星号”、“标注”、“中心”和“论点”,以及标点符号:“!”、“,”和“。”。
步骤120、依据样本语料关联的样本语音,确定各类标点符号的静音特征。
在本发明具体实施例中,由于标点符号可以用来表示停顿或语气等,因此为了将标点符号特征添加至语音识别模型中,可以凭借人为经验或者获取样本语料关联的样本语音,来确定各标点符号的静音特征。其中,样本语音是指依据样本语料文本内容并按照常规发音模式,发声读出的能够传达样本语料情感的语音文件;静音特征用于表示标点符号在样本语音中的静音时长或表达语气,其中表达语气可以根据该标点符号关联的上一个字的发音语调来确定。
具体的,获取样本语料关联的样本语音,依据样本语料文本对样本语音进行分析,确定样本语料文本中各个标点符号的静音时长以及该标点符号关联的上一个字的发音语调,从而以标点符号类别为单位,统计各类标点符号的静音时长范围以及可发音语调范围,作为各类标点符号的静音特征。
示例性的,问号可以表示一句话完了之后的停顿,通常用于疑问句、设问句和反问句结尾。假设依据样本语音中句子之间的停顿时长以及句子的语气,确定问号的静音时长范围可以为1-3秒,发音语调范围可以为升调或平调。
值得注意的是,上述示例只是对样本语料的预处理以及标点符号静音特征确定的举例性说明,而不限定样本语料预处理和静音特征确定的具体实施方式,任何能够有效提取词语和标点符号的提取方式,以及任何能够确定标点符号的静音特征的方式都可以应用于本实施例中。
步骤130、依据样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
在本发明具体实施例中,解码图是指用于语音识别和标点符号添加的识别网络,可以由声学模型、发音词典和语言模型共同构建。其中,声学模型的输入是由特征提取模块从语音信号中提取的特征,用于将声学特征转换为发音;发音词典包含系统所能处理的语言的词语集及其对应的发音,用于将发音转换为词语;语言模型对系统所针对的语言进行建模,用于衡量词语的出现概率。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。因此,本实施例从三个模型的构建或优化着手,依据样本语料中包括的词语和标点符号以及各标点符号的静音特征,将标点符号的静音特征添加至模型中,从而获得能够同时进行语音识别和标点符号识别的解码图。
具体的,依据各类标点符号的静音特征,将标点符号关联的识别规则标注在包括声学特征与发音音素的映射关系的声学模型中,以及包括发音音素与词语的映射关系的发音词典中;依据样本语料中包括的词语和标点符号训练用于确定词语和标点符号出现概率的语言模型;依据上述声学模型、发音词典和语言模型构建解码图。
本实施例的技术方案,通过选择带有规范性标点符号的样本语料进行采集,提取样本语料中包括的词语和标点符号,并依据样本语料关联的样本语音,确定标点符号的静音特征,从而依据样本语料中包括的词语和标点符号以及各标点符号的静音特征,确定用于语音和标点符号识别的解码图。本发明实施例通过基于带有规范性标点符号的样本语料进行解码图的构建,获得能够识别语音中标点符号的解码图,实现了在语音识别中为语音识别文本添加标点符号,提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
实施例二
本实施例在上述实施例一的基础上,提供了语音解码图的构建方法的一个优选实施方式,能够分别对声学模型、发音词典以及语言模型进行标点符号有效标注或训练。图2为本发明实施例二提供的一种语音解码图的构建方法的流程图,如图2所示,该方法包括以下具体步骤:
步骤210、提取样本语料中包括的词语和标点符号。
在本发明具体实施例中,对带有规范化符号的样本语料进行预处理,其中预处理至少可以包括特殊符号处理和分词处理。具体的,首先对样本语料进行特殊符号处理,通过对样本语料进行符号的识别,清除样本语料中的特殊符号,以此保留常规标点符号。相应的,对清理后的样本语料进行分词处理,即将样本语料中连续的字序列按照一定的规范重新组合成词序列,每个词序列作为独立的分词结果存在。同时,将样本语料中的标点符号也作为独立的分词结果,保留在分词处理后的结果中。进而通过对样本语料的清理和分词处理,获得样本语料中包括的词语和标点符号。
步骤220、依据样本语料关联的样本语音,确定各类标点符号的静音特征。
在本发明具体实施例中,获取样本语料关联的样本语音,依据样本语料文本对样本语音进行分析,确定样本语料文本中各个标点符号的静音时长以及该标点符号关联的上一个字的发音语调,以确定各个标点符号的静音特征,从而以标点符号类别为单位,统计各类标点符号的静音时长范围以及可发音语调范围,作为各类标点符号的静音特征。
步骤230、依据各类标点符号的静音特征,将标点符号关联的识别规则标注在声学模型和发音词典中。
在本发明具体实施例中,鉴于声学模型用于构建特征与音素之间的映射关系,发音词典用于构建音素与词语之间的映射关系,因此本实施例为标点符号的识别确定识别规则,将标点符号的静音特征与标识符添加至声学模型中,并将标点符号的标识符与对应的标点符号添加至发音词典中,以供标点符号的识别使用。
可选的,依据各类标点符号的静音特征,归纳静音特征类型;确定用于标识各类静音特征的静音音素;将静音特征与静音音素的映射关系标注在声学模型中。
在本发明具体实施例中,静音特征用于表示标点符号在语音文本中静音时长或表达语气,可以由静音时长范围和发音语调范围来表示。可以理解的是,不同标点符号的静音特征可能相同,可能不同,也可能存在重叠的部分。因此可以依据静音特征中包括的静音时长范围和发音语调范围,将静音特征进行归类。
声学模型包括声学特征与发音音素的映射关系。其中,声学特征用于表示语音信号的声音波形,可以用多维向量来表示;发音音素用于表示对应文字的发音标识符,可以用拼音和声调来表示。类比于声学特征与发音音素的映射关系,本实施例可以对各类静音特征进行标识符的确定。由于在语音中标点符号由句中的停顿或语气来表示,而无真正的声音发出,因此为各类静音特征确定标识符,并称之为静音音素。从而将静音特征与静音音素的映射关系标注在声学模型中。
示例性的,依据声学特征与发音音素的映射关系,文字发音为“好”的声学特征一致,其发音音素可以为“hao3”。即利用拼音和声调同时标识该类声学特征,“hao3”即为该类声学特征的标识符。对静音特征进行归类,假设某类静音特征中静音时长范围为2-3秒,语调范围为升调或平调。为该类静音特征确定标识符即静音音素为“SIL”,进而将包括静音时长范围为2-3秒以及语调范围为升调或平调的静音特征,与静音音素为“SIL”之间的映射关系添加至声学特征中。
可选的,确定各类静音特征关联的至少一个标点符号;依据静音特征与静音音素的映射关系,将静音音素与至少一个标点符号的映射关系标注在发音词典中。
在本发明具体实施例中,不同标点符号的静音特征可能相同,可能不同,也可能存在重叠的部分。可以依据静音特征中包括的静音时长范围和发音语调范围,将静音特征进行归类。因此对于静音特征相同或者存在重叠静音特征的某一类静音特征,该类静音特征下关联有至少一个标点符号。相应的,确定各类静音特征关联的至少一个标点符号。从而以静音特征为桥梁,依据静音特征与静音音素的映射关系,将静音特征关联的静音音素与静音特征关联的至少一个标点符号的映射关系标注在发音词典中。
示例性的,假设顿号的静音特征中的静音时长范围为0.1-2秒,逗号的静音特征中的静音时长范围为1-3秒。因此静音时长范围为2-3秒的静音特征关联有顿号和逗号。假设静音时长范围为2-3秒的静音特征的静音音素为“SIL”,则将“SIL”与顿号及逗号之间的映射关系添加至发音词典中。
步骤240、依据样本语料中包括的词语和标点符号训练用于确定词语和标点符号出现概率的语言模型。
在本发明具体实施例中,语言模型对系统所针对的语言进行建模,用于衡量词语的出现概率。本实施例依据带有标点符号的分词结果对语言模型进行重新训练,以此衡量各词语和各标点符号在相应语境中的出现概率。
可选的,依据各词语和各标点符号在样本语料中的出现次数,以及样本语料中的词语总数和标点符号总数,确定各词语的出现概率和各标点符号的出现概率;依据各词语的出现概率和各标点符号的出现概率,训练语言模型。
在本发明具体实施例中,对特殊符号清理后的样本语料进行分词处理,依据分词结果中的各个词语和标点符号,统计各词语和各标点符号在样本语料中的出现次数。依据各词语和各标点符号在样本语料中的出现次数,以及样本语料中的词语总数和标点符号总数,确定各词语的出现概率和各标点符号的出现概率。同时可以结合词语之间的上下文关系,依据各词语的出现概率和各标点符号的出现概率,训练语言模型。
步骤250、依据声学模型、发音词典和语言模型构建解码图。
在本发明具体实施例中,声学模型中可以包括声学特征与发音音素的映射关系,以及静音特征与静音音素的映射关系。发音词典可以包括发音音素与词语的映射关系,以及静音音素与标点符号的映射关系。语言模型可以用来衡量词语或标点符号的出现概率。因此通过发音词典可以得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,由声学模型、发音词典以及语言模型依次连接构建用于识别语音及语音中标点符号的识别网络,即解码图。
步骤260、采用解码图对获取的待识别语音进行语音识别和标点符号添加。
在本发明具体实施例中,借助特征提取模块,对待识别语音进行静音特征和声学特征的提取,并将提取的特征输入至解码图中。从而解码图的声学模型依据数据的静音特征和声学特征确定关联的发音音素和静音音素,然后解码图的发音词典依据发音音素和静音音素确定关联的候选词语和候选标点符号,最后解码图中的语言模型依据各候选词语和候选标点符号的上下文关系以及出现的概率,确定语音识别文本以及添加至语音文本中的标点符号。
本实施例的技术方案,通过选择带有规范性标点符号的样本语料进行采集,提取样本语料中包括的词语和标点符号,并依据样本语料关联的样本语音,确定标点符号的静音特征。从而依据各类标点符号的静音特征确定用于识别语音中标点符号的识别规则,将静音特征与静音音素的映射关系标注在声学模型中,将静音音素与标点符号的映射关系标注在发音词典中,并依据样本语料中包括的词语和标点符号训练语言模型。最终依据上述声学模型、发音词典和语言模型构建解码图,并利用解码图对待识别语音进行语音识别和标点符号的添加。
本发明实施例通过基于带有规范性标点符号的样本语料对声学模型、发音词典和语言模型的优化或训练,使得解码图在原有语音识别模型的基础上得到了优化,获得能够识别语音中标点符号的解码图,不增加系统流程,减轻系统负担,实现了在语音识别中为语音识别文本添加标点符号。且解码图的扩展性强,模型可向多种语言进行扩展。提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
实施例三
本实施例在上述实施例二的基础上,提供了采用解码图对获取的待识别语音进行语音识别和标点符号添加的一个优选实施方式,能够获得添加有标点符号的语音识别文本。图3为本发明实施例三提供的在语音识别中添加标点符号的流程图,如图3所示,该方法包括以下具体步骤:
步骤310、提取待识别语音的目标声学特征和目标静音特征。
在本发明具体实施例中,可以采取任何方法对待识别语音的声学特征进行提取,例如可以对待识别语音的波形或频谱图进行分析,确定待识别语音的目标声学特征。同时,还可以对待识别语音中词语之间或句子之间的停顿时长进行测量,并对停顿之前的最后一个或多个文字发音的语调进行采集,确定待识别语音的目标静音特征。
示例性的,假设待识别语音为“初中队战败了高中队,得了冠军”。则通过特征提取可以获得各个分词词语的声学特征,以及句中词语之前的停顿作为静音特征。可以理解的是,若在语音识别中没有标点符号的识别过程,则该示例中的语句极易产生歧义,难以确定语音所表达的是初中队得了冠军还是高中队得了冠军。
步骤320、依据解码图的声学模型中声学特征与发音音素的映射关系以及静音特征与静音音素的映射关系,确定目标声学特征关联的至少一个发音音素,以及目标静音特征关联的至少一个静音音素。
在本发明具体实施例中,目标特征作为声学模型的输入,通过声学模型来确定音素。其中,每一种映射关系都可以由一种条件概率来表示,即P(特征,音素)。可以理解的是,选择条件概率最高时对应的至少一个静音音素作为静音特征的识别结果,同理选择条件概率最高时对应的至少一个发音音素作为声学特征的识别结果。
示例性的,在上述示例中,结合上下文关系,依据解码图的声学模型中静音特征与静音音素的映射关系,假设条件概率P(目标静音特征,SIL)的数值最大,进而确定目标静音特征关联的静音音素为“SIL”。同理依据解码图的声学模型中声学特征与发音音素的映射关系,假设条件概率P(队,dui4)的数值最大,进而确定文字“对”的目标静音特征关联的静音音素为“dui4”。
步骤330、依据解码图的发音词典中发音音素与词语的映射关系以及静音音素与标点符号的映射关系,确定至少一个发音音素关联的至少一个候选词语,以及至少一个静音音素关联的至少一个候选标点符号。
在本发明具体实施例中,音素作为发音词典的输入,通过发音词典来确定候选词语或候选标点符号。其中,每一种映射关系都可以由一种条件概率来表示,即P(音素,词语或标点符号)。可以理解的是,选择条件概率最高时对应的至少一个候选标点符号作为静音音素的识别结果,同理选择条件概率最高时对应的至少一个候选词语作为发音音素的识别结果。
示例性的,在上述示例中,结合上下文关系,依据解码图的发音词典中静音音素与标点符号的映射关系,假设条件概率P(静音音素,逗号)的数值与P(静音音素,句号)的数值相同且最大,进而确定静音音素关联的标点符号为逗号和句号。同理依据解码图的发音词典中发音音素与词语的映射关系,假设条件概率P(dui4,队)的数值与P(dui4,对)的数值相同且最大,进而确定发音音素关联的词语为队和对。
步骤340、依据解码图的语言模型中至少一个候选词语的出现概率,以及至少一个候选标点符号的出现概率,确定添加有目标标点符号的语音识别文本。
在本发明具体实施例中,候选词语或候选标点符号作为语言模型的输入,通过语言模型来确定识别文本和标点符号。其中,每个词语或标点符号,都可以依据其上下文关系,来确定其当前的出现概率P(候选词语或候选标点符号)。从而确定出现概率最大的候选项为最终的识别结果。
示例性的,在上述示例中,结合上下文关系,假设P(队)的数字大于P(对),则确定语音的识别文本为文字“队”。假设P(逗号)的数字大于P(句号),则确定语音中添加的标点符号为逗号。因此依据标点符号的识别,明确了标点符号及其添加位置,提高语音信息和情感的真实传达效果。
本实施例的技术方案,利用能够识别语音中标点符号的解码图对语音进行识别,通过解码图的声学模型、发音词典以及语言模型,对特征的逐层递进识别,依次能够确定语音中标点符号对应的静音特征、静音音素、候选标点符号以及标点符号识别结果,实现了在语音识别中为语音识别文本添加标点符号,提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
实施例四
图4为本发明实施例四提供的一种语音解码图的构建装置的结构示意图,本实施例可适用于识别语音中标点符号的情况,该装置可实现本发明任意实施例所述的语音解码图的构建方法。该装置具体包括:
语料处理模块410,用于提取样本语料中包括的词语和标点符号;
标点特征确定模块420,用于依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
解码图构建模块430,用于依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
可选的,所述解码图构建模块430包括:
模型优化单元4301,用于依据各类标点符号的静音特征,将标点符号关联的识别规则标注在包括声学特征与发音音素的映射关系的声学模型中,以及包括发音音素与词语的映射关系的发音词典中;
语言模型训练单元4302,用于依据所述样本语料中包括的词语和标点符号训练用于确定词语和标点符号出现概率的语言模型;
解码图构建单元4303,用于依据所述声学模型、所述发音词典和所述语言模型构建所述解码图。
可选的,所述模型优化单元4301包括声学模型优化子单元;所述声学模型优化子单元具体用于:
依据各类标点符号的静音特征,归纳静音特征类型;
确定用于标识各类静音特征的静音音素;
将所述静音特征与所述静音音素的映射关系标注在所述声学模型中。
可选的,所述模型优化单元4301包括发音词典优化子单元;所述发音词典优化子单元具体用于:
确定各类静音特征关联的至少一个标点符号;
依据静音特征与静音音素的映射关系,将静音音素与所述至少一个标点符号的映射关系标注在所述发音词典中。
可选的,所述语言模型训练单元4302具体用于:
依据各词语和各标点符号在样本语料中的出现次数,以及样本语料中的词语总数和标点符号总数,确定各词语的出现概率和各标点符号的出现概率;
依据各词语的出现概率和各标点符号的出现概率,训练所述语言模型。
进一步的,所述装置还包括语音及标点识别模块440;所述语音及标点识别模块440具体用于:
在所述确定用于语音和标点符号识别的解码图之后,采用所述解码图对获取的待识别语音进行语音识别和标点符号添加。
可选的,所述语音及标点识别模块440包括:
特征提取单元4401,用于提取待识别语音的目标静音特征;
声学解码单元4402,用于依据解码图的声学模型中静音特征与静音音素的映射关系,确定所述目标静音特征关联的至少一个静音音素;
音素解码单元4403,用于依据解码图的发音词典中静音音素与标点符号的映射关系,确定所述至少一个静音音素关联的至少一个候选标点符号;
标点解码单元4404,用于依据解码图的语言模型中所述至少一个候选标点符号的出现概率,确定添加至语音识别文本中的目标标点符号。
本实施例的技术方案,通过各个功能模块之间的相互配合,实现了带标点语料的获取、特殊符号的处理、样本语料的分词、标点特征的提取、声学模型的优化、发音词典的优化、语言模型的训练、解码图的构建、语音的识别以及标点符号的添加等功能。本发明实施例通过基于带有规范性标点符号的样本语料进行解码图的构建,获得能够识别语音中标点符号的解码图,实现了在语音识别中为语音识别文本添加标点符号,提高标点符号添加的准确度,从而提高了语音信息和情感的真实传达效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。如图5所示,该服务器具体包括:一个或多个处理器510,图5中以一个处理器510为例;存储器520,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器510执行,使得一个或多个处理器510实现本发明任意实施例所述的语音解码图的构建方法。处理器510与存储器520可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520,作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音解码图的构建方法对应的程序指令(例如,标点符号特征的提取与模型的训练以及语音的识别与标点符号的添加)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的语音解码图的构建方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行一种语音解码图的构建方法,该方法包括:
提取样本语料中包括的词语和标点符号;
依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音解码图的构建方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明实施例可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音解码图的构建方法,其特征在于,包括:
提取样本语料中包括的词语和标点符号;
依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
2.根据权利要求1所述的方法,其特征在于,所述依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图,包括:
依据各类标点符号的静音特征,将标点符号关联的识别规则标注在包括声学特征与发音音素的映射关系的声学模型中,以及包括发音音素与词语的映射关系的发音词典中;
依据所述样本语料中包括的词语和标点符号训练用于确定词语和标点符号出现概率的语言模型;
依据所述声学模型、所述发音词典和所述语言模型构建所述解码图。
3.根据权利要求2所述的方法,其特征在于,依据各类标点符号的静音特征,将标点符号关联的识别规则标注在声学模型中,包括:
依据各类标点符号的静音特征,归纳静音特征类型;
确定用于标识各类静音特征的静音音素;
将所述静音特征与所述静音音素的映射关系标注在所述声学模型中。
4.根据权利要求3所述的方法,其特征在于,依据各类标点符号的静音特征,将标点符号关联的识别规则标注在发音词典中,包括:
确定各类静音特征关联的至少一个标点符号;
依据静音特征与静音音素的映射关系,将静音音素与所述至少一个标点符号的映射关系标注在所述发音词典中。
5.根据权利要求2所述的方法,其特征在于,依据所述样本语料中包括的词语和标点符号训练语言模型,包括:
依据各词语和各标点符号在样本语料中的出现次数,以及样本语料中的词语总数和标点符号总数,确定各词语的出现概率和各标点符号的出现概率;
依据各词语的出现概率和各标点符号的出现概率,训练所述语言模型。
6.根据权利要求1所述的方法,其特征在于,在所述确定用于语音和标点符号识别的解码图之后,还包括:
采用所述解码图对获取的待识别语音进行语音识别和标点符号添加。
7.根据权利要求6所述的方法,其特征在于,采用所述解码图对获取的待识别语音进行标点符号添加,包括:
提取待识别语音的目标静音特征;
依据解码图的声学模型中静音特征与静音音素的映射关系,确定所述目标静音特征关联的至少一个静音音素;
依据解码图的发音词典中静音音素与标点符号的映射关系,确定所述至少一个静音音素关联的至少一个候选标点符号;
依据解码图的语言模型中所述至少一个候选标点符号的出现概率,确定添加至语音识别文本中的目标标点符号。
8.一种语音解码图的构建装置,其特征在于,包括:
语料处理模块,用于提取样本语料中包括的词语和标点符号;
标点特征确定模块,用于依据所述样本语料关联的样本语音,确定各类标点符号的静音特征;其中,所述静音特征至少包括各类标点符号在样本语音中的静音时长或表达语气;
解码图构建模块,用于依据所述样本语料中包括的词语和标点符号,以及各类标点符号的静音特征,确定用于语音和标点符号识别的解码图。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的语音解码图的构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的语音解码图的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811381481.XA CN109448704A (zh) | 2018-11-20 | 2018-11-20 | 语音解码图的构建方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811381481.XA CN109448704A (zh) | 2018-11-20 | 2018-11-20 | 语音解码图的构建方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109448704A true CN109448704A (zh) | 2019-03-08 |
Family
ID=65553333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811381481.XA Pending CN109448704A (zh) | 2018-11-20 | 2018-11-20 | 语音解码图的构建方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448704A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827825A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 语音识别文本的标点预测方法、系统、终端及存储介质 |
CN110852075A (zh) * | 2019-10-08 | 2020-02-28 | 厦门快商通科技股份有限公司 | 自动添加标点符号的语音转写方法、装置及可读存储介质 |
CN112466293A (zh) * | 2020-11-13 | 2021-03-09 | 广州视源电子科技股份有限公司 | 解码图优化方法、装置及存储介质 |
CN112837688A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN112927679A (zh) * | 2021-02-07 | 2021-06-08 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
CN113012683A (zh) * | 2021-02-02 | 2021-06-22 | 虫洞创新平台(深圳)有限公司 | 语音识别方法及装置、设备、计算机可读存储介质 |
CN113053390A (zh) * | 2021-03-22 | 2021-06-29 | 北京儒博科技有限公司 | 基于语音识别的文本处理方法、装置、电子设备及介质 |
CN113658587A (zh) * | 2021-09-22 | 2021-11-16 | 杭州捷途慧声科技有限公司 | 一种基于深度学习的高识别率的智能语音识别方法和系统 |
CN113838458A (zh) * | 2021-09-30 | 2021-12-24 | 联想(北京)有限公司 | 一种参数调整方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060277032A1 (en) * | 2005-05-20 | 2006-12-07 | Sony Computer Entertainment Inc. | Structure for grammar and dictionary representation in voice recognition and method for simplifying link and node-generated grammars |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
-
2018
- 2018-11-20 CN CN201811381481.XA patent/CN109448704A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060277032A1 (en) * | 2005-05-20 | 2006-12-07 | Sony Computer Entertainment Inc. | Structure for grammar and dictionary representation in voice recognition and method for simplifying link and node-generated grammars |
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN103680500A (zh) * | 2012-08-29 | 2014-03-26 | 北京百度网讯科技有限公司 | 一种语音识别的方法和装置 |
CN107910021A (zh) * | 2017-11-08 | 2018-04-13 | 天脉聚源(北京)传媒科技有限公司 | 一种符号插入方法及装置 |
Non-Patent Citations (2)
Title |
---|
C.JULIAN CHEN: "Speech recognition with automatic punctuation", 《EUROPEAN CONFERENCE ON SPEECH COMMUNICATION &TECHNOLOGY》 * |
LUJIAN1989: "语音识别之发音字典", 《中国专业IT社区CSDN》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852075B (zh) * | 2019-10-08 | 2023-12-26 | 厦门快商通科技股份有限公司 | 自动添加标点符号的语音转写方法、装置及可读存储介质 |
CN110852075A (zh) * | 2019-10-08 | 2020-02-28 | 厦门快商通科技股份有限公司 | 自动添加标点符号的语音转写方法、装置及可读存储介质 |
CN110827825A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 语音识别文本的标点预测方法、系统、终端及存储介质 |
CN112837688A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
WO2021098637A1 (zh) * | 2019-11-22 | 2021-05-27 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN112837688B (zh) * | 2019-11-22 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN112466293A (zh) * | 2020-11-13 | 2021-03-09 | 广州视源电子科技股份有限公司 | 解码图优化方法、装置及存储介质 |
CN113012683A (zh) * | 2021-02-02 | 2021-06-22 | 虫洞创新平台(深圳)有限公司 | 语音识别方法及装置、设备、计算机可读存储介质 |
CN112927679B (zh) * | 2021-02-07 | 2023-08-15 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
CN112927679A (zh) * | 2021-02-07 | 2021-06-08 | 虫洞创新平台(深圳)有限公司 | 一种语音识别中添加标点符号的方法及语音识别装置 |
CN113053390A (zh) * | 2021-03-22 | 2021-06-29 | 北京儒博科技有限公司 | 基于语音识别的文本处理方法、装置、电子设备及介质 |
CN113658587A (zh) * | 2021-09-22 | 2021-11-16 | 杭州捷途慧声科技有限公司 | 一种基于深度学习的高识别率的智能语音识别方法和系统 |
CN113658587B (zh) * | 2021-09-22 | 2023-12-05 | 杭州捷途慧声科技有限公司 | 一种基于深度学习的高识别率的智能语音识别方法和系统 |
CN113838458A (zh) * | 2021-09-30 | 2021-12-24 | 联想(北京)有限公司 | 一种参数调整方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN101030368B (zh) | 在保持情感的同时跨通道进行通信的方法和系统 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
Van Heuven | Making sense of strange sounds:(Mutual) intelligibility of related language varieties. A review | |
CN109616096A (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
RU2692051C1 (ru) | Способ и система для синтеза речи из текста | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
KR101988165B1 (ko) | 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN110111778A (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
Alrumiah et al. | Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues | |
KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
CN115512692A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
Cho | Leveraging Prosody for Punctuation Prediction of Spontaneous Speech | |
Kruspe et al. | A GMM approach to singing language identification | |
Kafle et al. | Modeling Acoustic-Prosodic Cues for Word Importance Prediction in Spoken Dialogues | |
Ronzhin et al. | PARAD-R: Speech analysis software for meeting support |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |