CN110853621A - 语音顺滑方法、装置、电子设备及计算机存储介质 - Google Patents
语音顺滑方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN110853621A CN110853621A CN201910954698.3A CN201910954698A CN110853621A CN 110853621 A CN110853621 A CN 110853621A CN 201910954698 A CN201910954698 A CN 201910954698A CN 110853621 A CN110853621 A CN 110853621A
- Authority
- CN
- China
- Prior art keywords
- smoothed
- smooth
- text data
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009499 grossing Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 241000345998 Calamus manan Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 235000012950 rattan cane Nutrition 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Abstract
本申请提供了一种语音顺滑方法、装置、电子设备以及计算机存储介质,通过获取待顺滑的语音数据;根据所述待顺滑的语音数据确定待顺滑的文本数据;根据所述待顺滑的文本数据确定顺滑后的文本数据;根据所述顺滑后的文本数据确定顺滑后的语音数据。可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
Description
技术领域
本申请涉及语音识别领域,特别是一种语音顺滑方法、装置、电子设备及计算机存储介质。
背景技术
随着社会的发展,网上聊天方式也越来越多样化,语音输入以其方便快捷的特性受到了人们的青睐,在日常使用中,以微信为例,用户一般是在聊天窗口长按语音输入按钮开始说话,说完后松开按钮即可自动将语音条发送给当前的聊天对象。但当语音条中的无意义的内容较多时,如语气词、感叹词等,会大大增加用户将语音条听完的时长,双方交流会出现明显的延迟,大大降低了交流效率。
发明内容
基于上述问题,本申请提出了一种语音顺滑方法、装置、服务器及计算机存储介质,可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
本申请实施例第一方面提供了一种语音顺滑方法,所述方法包括:
获取待顺滑的语音数据;
根据所述待顺滑的语音数据确定待顺滑的文本数据;
根据所述待顺滑的文本数据确定顺滑后的文本数据;
根据所述顺滑后的文本数据确定顺滑后的语音数据。
本申请实施例第二方面提供了一种语音顺滑装置,所述装置包括处理单元和通信单元,所述处理单元用于:获取待顺滑的语音数据;根据所述待顺滑的语音数据确定待顺滑的文本数据;对所述待顺滑的文本数据进行书面语识别确定顺滑后的文本数据;根据所述顺滑后的文本数据确定顺滑后的语音数据。
本申请实施例第三方面提供了一种电子设备,包括应用处理器、通信接口和存储器,所述应用处理器、通信接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行本申请实施例第一方面任一项所述的方法。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行本申请实施例第一方面任一项所述的方法。
本申请实施例第五方面提供了一种计算机产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
通过实施上述申请实施例,可以得到以下有益效果:
上述语音顺滑方法、装置、电子设备以及计算机存储介质,通过获取待顺滑的语音数据;根据所述待顺滑的语音数据确定待顺滑的文本数据;根据所述待顺滑的文本数据确定顺滑后的文本数据;根据所述顺滑后的文本数据确定顺滑后的语音数据。可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音顺滑方法的系统架构图;
图2为本申请实施例提供的一种语音顺滑方法的流程示意图;
图3为本申请实施例提供的一种待顺滑的文本数据的示意图;
图4为本申请实施例提供的另一种语音顺滑方法的流程示意图;
图5为本申请实施例提供的一种电子设备的结构示意图;
图6为本申请实施例提供的一种语音顺滑装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备,该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
下面结合图1对本申请实施例中语音顺滑方法的系统构架作详细说明,图1为本申请实施例提供的一种语音顺滑方法的系统构架图,包括语音采集装置110、服务器120以及顺滑输出装置130,其中,上述语音采集装置110可以包括多个麦克风阵列以采集到清晰准确的原始语音数据,并与服务器进行有线或无线连接,上述服务器120可以对上述原始语音数据进行顺滑处理,并输出顺滑后的语音数据至上述顺滑输出装置130,上述顺滑输出装置130可以包括音频输出单元和文字显示单元,用于输出顺滑后的语音数据以及对应的文字数据,上述顺滑输出装置130可以与上述服务器120有限或无线连接。
其中,上述语音采集装置110可以集成在当前发送语音的用户所使用的电子设备上,上述顺滑输出装置130可以集成在当前接收语音的用户所使用的电子设备上,服务器120可以将顺滑后的语音数据同步发送至上述两个用户的电子设备上,举例来说,用户A通过微信向用户B发送语音“那个我在嗯…学校大门口”,上述语音采集装置110可以采集到原始的语音数据,并发送至服务器120,服务器120可以对上述原始语音数据进行顺滑处理得到顺滑后的语音数据,并发送至用户A所使用的手机和用户B所使用的手机上,用户A和用户B都可以直接听到“我在学校大门口”这段顺滑后的语音数据。需要说明的是,本申请中的“语音顺滑”概念可以理解为将原始语音中的无意义片段删除,得到一段时间更短且保留正确的原始语义的语音。
通过上述系统架构,可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
下面结合图2对本申请实施例提供的一种语音顺滑方法作详细说明,图2为本申请实施例提供的一种语音顺滑方法的流程示意图,具体包括以下步骤:
步骤201,获取待顺滑的语音数据。
其中,可以通过语音获取装置,如若干声学传感器组成的麦克风阵列等来获取待顺滑的语音数据,上述待顺滑的语音数据可以为一段具备完整语义的语音数据;
可选的,上述待顺滑的语音数据可以为经过预处理的音频数据,上述预处理可以实现声源定位、去混响、语音增强、盲源分离等功能。
通过获取待顺滑的语音数据,可以为后续步骤做铺垫,减少顺滑错误的概率。
步骤202,根据所述待顺滑的语音数据确定待顺滑的文本数据。
其中,将上述待顺滑的语音数据转化为文本数据之后,该文本数据的每一种可能的顺滑路径都会形成一条对应的待顺滑的文本数据,上述待顺滑的文本数据可以是多条文本数据,上述顺滑路径可以用于表示对上述文本数据进行标记,被标记的部分可以表示应当删去的片段。举例来说,上述待顺滑的语音数据转化为的文本数据为“嗯我在那个黄鹤楼不对滕王阁”,此时可以存在两条顺滑路径,待顺滑的文本数据可以为“我在黄鹤楼”或“我在滕王阁”,上述两种删除文字的方法用于表示可能的顺滑路径,此时可以得到两条待顺滑的文本数据,上述两条待顺滑的文本数据的语义不同,第一种顺滑路径得到的待顺滑文本数据的语义为“我在黄鹤楼”,而第二种顺滑路径得到的待顺滑文本数据的语义为“我在滕王阁”,很明显语义完全不同,需要在后续步骤进行筛选。在此先对步骤202进行详细说明,具体如下:
其中,首先可以根据上述待顺滑的语音数据提取出语音特征;之后,将上述语音特征输入预先训练好的音频顺滑模型,根据该音频顺滑模型的输出得到待顺滑的文本数据。其中,上述语音特征可以包括感知线性预测(Perceptual Linear Prediction,PLP)、梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)、滤波器组特征(FilterBank,FBank)等中的任意一项特征,可以通过对上述待顺滑的语音数据进行预处理得到上述语音特征,上述预处理可以包括分帧、加窗、傅里叶变换等,在此不再赘述。上述预先训练好的音频顺滑模型可以为神经网络模型,并且具备语义识别和文本顺滑的功能,上述训练好的音频顺滑模型的具体实现方式可以包括以下步骤:
首先,可以通过上述预先训练好的音频顺滑模型计算上述语音特征的识别概率分数,根据上述识别概率分数确定识别文本数据,上述识别概率分数用于表示上述语音数据的语义和上述基础文本内容的语义的匹配度;
计算上述识别文本数据的顺滑概率分数,根据上述顺滑概率分数确定上述识别文本数据的至少一条候选顺滑路径,上述顺滑概率分数用于表示上述文本内容中上述候选顺滑路径的准确度;
根据上述识别文本数据和上述至少一条候选顺滑路径确定上述待顺滑的文本数据。
具体的,上述预先训练好的音频顺滑模型可以包括识别模块和顺滑模块,上述识别模块可以识别多种形式的语音特征,并基于训练数据的不同进行调整,但一次只能识别一种语音特征,上述音频顺滑模型的识别模块可以获取每帧语音特征的识别概率分数,可以先通过计算后验概率分布数据,之后对后验概率分布数据进行维特比解码得到上述识别概率分数,并根据上述识别概率分数确定识别文本数据,上述识别文本数据为上述待顺滑的语音数据的文本识别结果;接着,上述顺滑模块可以根据上述识别文本数据计算后验概率分布数据,同样进行维特比解码确定顺滑概率分数,再通过顺滑概率分数确定上述识别文本数据的至少一条候选顺滑路径,最后根据上述候选顺滑路径和上述识别文本数据确定待顺滑的文本数据。
举例来说,语音为“那个明天再正心楼不对在诚意楼见面”,此时可以识别得到识别文本数据、候选顺滑路径以及待顺滑的文本数据等信息,如图3所示,图3为本申请实施例提供的一种待顺滑的文本数据的示意图:
上述顺滑模块根据顺滑概率分数得到了上述识别文本数据的三条候选顺滑路径,每条候选顺滑路径具有不同的顺滑标签,上述顺滑标签指对文字的三种分类,分别为可过滤词(Filler Word)、可编辑词(Edit Word)、其他词(Other Word)。上述可过滤词指字串中无意义的停顿词、语气词等,上述可编辑词指字串中无意义的重复词、被说错然后又被纠正的词等,上述其他词指除“可过滤词”和“可编辑词”之外所有的有意义词。其中“可过滤词”与“可编辑词”均属于可以被删除的文字,“其他词”则属于不可删除的文字。
具体的,候选顺滑路径1中将识别文本数据中的“那个”标记为“可过滤词F”,将“在正心楼不对”标记为“可编辑词E”,将“明天在诚意楼见面”标记为“其他词O”;候选顺滑路径2中将识别文本数据中的“那个明天”标记为“可过滤词F”,将“在正心楼不对”标记为“可过滤词E”,将“明天在诚意楼见面”标记为“其他词O”;候选顺滑路径3中将识别文本数据中的“在正信楼不对”标记为“可过滤词E”,将“那个明天在诚意楼见面”标记为“其他词O”。上述其他词O的部分即为三条待顺滑的文本数据。
可选的,存在另一种方法确定待顺滑的文本数据,可以转换所述待顺滑的语音数据,得到所述待顺滑的语音数据的识别文本数据;对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果;根据所述顺滑程度分析结果,确定所述识别文本数据中待顺滑的文本数据,上述顺滑程度分析结果可以是字与字之间的连贯性信息,完整的语句应当每个字之间都是连贯的,通过分析字与字之间的连贯性可以得到上述顺滑程度分析结果。
具体的,可以先确定所述识别文本数据的至少一个文本单元;之后,确定所述至少一个文本单元中每个文本单元与相邻文本单元的语义连续性,根据所述语义连续性确定所述每个文本单元的顺滑程度,所述至少一个文本单元的至少一个顺滑程度组成所述识别文本数据的顺滑程度分析结果。
通过根据所述待顺滑的语音数据确定待顺滑的文本数据,可以在文字层面先进行顺滑,提高音频顺滑的准确性。
步骤203,根据所述待顺滑的文本数据确定顺滑后的文本数据。
其中,可以根据所述待顺滑的文本数据确定至少一条书面语文本;接着,将上述至少一条书面语文本输入预先训练好的书面语模型,根据上述书面语模型的输出确定一条顺滑后的文本数据。
其中,上述待顺滑的文本数据的数量与上述书面语文本的数量相同,上述书面语模型可以包括基于统计方法的N-Gram语言模型,或者基于深度学习的循环神经网络语言模型等,用于确定书面语文本的书面化程度和通顺程度,上述书面化程度和通顺程度可以根据无意义的重复词、语气词、停顿词以及说错的内容等在整个文本数据中的占比来判断。
具体的,可以通过上述预先训练好的书面语模型计算上述至少一条书面语文本的书面语分数,上述书面语分数用于表示上述至少一条书面语文本的书面化程度和通顺程度;
接着,可以根据上述书面语分数、上述识别概率分数和上述顺滑概率分数之和对上述至少一条书面语文本进行排序,选取分数之和最大的作为顺滑后的文本数据,分数之和最大则说明该文本数据识别最准确、顺滑最准确、书面化程度最高,上述分数之和可以用顺滑输出分数来表示。
举例来说,此处依然以图3中的示意图为例,根据三条待顺滑的文本数据,将顺滑标签为“E”、“F”的字删去,只保留顺滑标签为“O”的字,可以得到三条书面语文本分别为“明天在诚意楼见面”、“在诚意楼见面”和“那个明天再诚意楼见面”,之后通过上述训练好的书面语模型计算上述三条书面语文本的书面语分数,并根据上述识别概率分数、上述顺滑概率分数和上述书面语分数之后确定顺滑后的文本数据,候选顺滑路径1的顺滑后的文本数据“明天在诚意楼见面”与上述识别文本数据的真实语义相同;候选顺滑路径2的顺滑后的文本数据“在诚意楼见面”缺少了“明天”的关键时间信息,其语义与上述识别文本数据不同;候选顺滑路径3的顺滑后的文本数据“那个明天再诚意楼见面”虽然语义与上述识别文本数据相同,但多余的“那个”为口语化内容,整体书面化程度显然低于候选顺滑路径1中顺滑后的文本数据的书面化程度,综上,可以计算得到顺滑路径1的顺滑输出分数最大,顺滑路径1的顺滑后的文本数据即为最终的顺滑后的文本数据。
可见,在候选顺滑路径3和候选顺滑路径1的得分比较过程中,凸显了删除可删除词之后再计算书面语分数的重要性,表明本申请提出的书面语模型确实能够提升文本的顺滑效果。
通过根据所述待顺滑的文本数据确定顺滑后的文本数据,可以得到更加简洁且语义完整的文本数据,便于执行后续步骤。
步骤204,根据所述顺滑后的文本数据确定顺滑后的语音数据。
其中,首先,根据上述识别文本数据和上述待顺滑的语音数据确定文本-音频时间信息,上述文本-音频时间信息用于表示上述待顺滑的语音数据与上述待顺滑的文本数据的时间对应关系;接着,根据上述文本-音频时间信息和上述顺滑后的文本数据确定上述待顺滑的语音数据的音频顺滑路径,上述音频顺滑路径包括音频帧删除标签;最后,根据上述音频帧删除标签将上述语音数据组合,得到上述顺滑后的语音数据。
具体的,可以确定上述待顺滑的语音数据中每个字的起始时间戳和中止时间戳,并将每个字的起始时间戳和中止时间戳对应到待顺滑的文本数据中,如此可以确定顺滑后的文本数据的每个字的起始时间戳和中止时间戳,将顺滑后的每个字的文本-音频时间信息对应到待顺滑的语音数据上,可以得到音频顺滑路径,上述音频顺滑路径可以包括音频帧删除标签,该音频帧删除标签是顺滑标签“E”和顺滑标签“F”对应到音频数据中的表现形式,即将每个被标记为“E”和“F”的字的起始时间戳和中止时间戳对应到音频数据的时间戳中,如此可以通过上述音频帧删除标签可以确定待顺滑的语音数据中哪些位置是需要删除的,删除待顺滑的语音数据中被标记为“删除”状态的音频片段,并将剩余的音频片段重新连接得到顺滑后的语音数据。
需要说明的是,此处将剩余的音频片段重新连接的做法可以为直接将音频片段拼接,由于未对不同音频片段间的连接处做平滑处理,这种做法会使得拼接后的音频听起来不自然。所述平滑处理指通过某些技术手段将原本并不连接的音频片段拼接后听起来更顺畅,更自然。为了使顺滑后的音频听起来更自然,可以使用经典的拼接语音合成技术进行拼接处理,拼接语音合成技术为已有技术,此处不再赘述。当然,也可以拼接后再对拼接点周围的音频进行平滑处理,具体本申请不作限定。
通过根据所述顺滑后的文本数据确定顺滑后的语音数据,可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
下面结合图4对本申请实施例中另一种语音顺滑方法作详细说明,图4为本申请实施例提供的另一种语音顺滑方法的流程示意图,具体包括以下步骤:
步骤401,获取训练好的书面语模型和训练好的音频顺滑模型。
其中,本申请可以通过对N-Gram语言模型进行大量的书面语数据训练获取到训练好的书面语模型,大量的书面语数据可以为已经进行了书面语部分标注的文本数据,通过书面语模型输出的书面语分数与书面语数据的标注进行对比得到对比结果,根据对比结果来进行训练直到对比结果的差值小于一定阈值为止;
关于获取训练好的音频顺滑模型,可以先收集大量获取训练用语音数据,该训练用语音数据可以为用户日常口语化交流的音频数据,如用户使用语音输入法APP产生的音频数据,上述训练用语音数据包括顺滑标注信息,上述顺滑标注信息可以表示该训练用语音数据正确的顺滑路径,可以通过人工进行预先标注;另外,为保护用户隐私,需要对获得的数据进行匿名处理,抹除掉用户信息。
之后通过将所述训练用语音数据输入预设顺滑模型,根据所述预设顺滑模型的输出得到训练识别文本数据和训练音频顺滑数据;此处的训练用语音数据包括训练用语音特征,上述预设顺滑模型只是一个基础模型,可以包括识别模块和顺滑模块,上述识别模块可以为神经网络-隐马尔可夫(NN-HMM)语音识别模型,上述识别模块可以输出上述训练用语音数据的训练识别文本数据。
上述NN-HMM语音识别模型为已有技术,此处不再赘述。
上述顺滑模块可以为深层双向长短时记忆(Long-short term memory,LSTM)循环神经网络,可以输出训练音频顺滑数据,上述预设顺滑模型的输出层分别对应上述识别模块的输出和上述顺滑模块的输出。
提取上述训练语音特征、识别文本数据和顺滑文本数据的特征序列,抽象表示为:
语音特征序列:X=[x1,x2,...,x500]
其中X为上述训练用语音数据对应的语音特征序列,X中的每个元素对应一帧语音帧特征;T1为上述训练音频顺滑数据对应的顺滑特征序列,T1中的每个元素对应每帧语音特征对应的音频顺滑标签,其数值范围为(0~2),0表示可编辑词、1表示可过滤词、2表示其他词,数值为0、1的都应当删去,只保留数值为2的部分作为最终的顺滑结果;T2为训练识别文本数据对应的识别特征序列,T2中的每个元素表示每帧语音特征对应的训练文本类别,数值范围为[0-N-1],N为识别模块的建模单元个数。另外,可以用和分别表示音频顺滑模型输出的语音特征序列X中xi的顺滑概率分布和识别概率分布。
将所述顺滑标注信息、所述训练识别文本数据和所述训练音频顺滑数据进行对比确定损失函数Loss,所述损失函数Loss包括顺滑损失函数和识别损失函数;
根据所述顺滑损失函数和所述识别损失函数对所述预设顺滑模型进行处理,具体计算公式为:
最后使用随机梯度下降算法即可优化上述预设顺滑模型的损失函数,重复上述训练步骤直到其损失函数小于预设阈值为止,可以得到训练好的音频顺滑模型。
通过获取训练好的书面语模型和训练好的音频顺滑模型,可以自动完成音频顺滑的步骤,大大提升了方便性和用户体验。
步骤402,获取待顺滑的语音数据。
步骤403,根据所述待顺滑的语音数据确定待顺滑的文本数据。
步骤404,根据所述待顺滑的文本数据确定顺滑后的文本数据。
步骤405,根据所述顺滑后的文本数据确定顺滑后的语音数据。
通过上述方法步骤,。可以删去语音中的冗余部分,在不影响语义的基础上减少语音条的时长,提高用户语音聊天的效率。
下面结合图5对本申请实施例中一种电子设备进行说明,图5为本申请实施例提供的一种电子设备的结构示意图,包括应用处理器501、通信接口502和存储器503,所述应用处理器501、通信接口502和存储器503通过总线504相互连接,总线504可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,所述存储器503用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器501被配置用于调用所述程序指令,执行以下步骤的方法:
获取待顺滑的语音数据;
根据所述待顺滑的语音数据确定待顺滑的文本数据;
根据所述待顺滑的文本数据确定顺滑后的文本数据;
根据所述顺滑后的文本数据确定顺滑后的语音数据。
在一个可能的示例中,在所述根据所述待顺滑的语音数据确定待顺滑的文本数据方面,所述程序中的指令具体用于执行以下操作:根据所述待顺滑的语音数据确定语音特征;
将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到待顺滑的文本数据。
在一个可能的示例中,在所述通过将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到所述待顺滑的文本数据方面,所述程序中的指令具体用于执行以下操作:通过所述预先训练好的音频顺滑模型计算所述语音特征的识别概率分数,根据所述识别概率分数确定识别文本数据,所述识别概率分数用于表示所述语音数据的语义和所述基础文本内容的语义的匹配度;
计算所述识别文本数据的顺滑概率分数,根据所述顺滑概率分数确定所述识别文本数据的至少一条候选顺滑路径,所述顺滑概率分数用于表示所述文本内容中所述候选顺滑路径的准确度;
根据所述识别文本数据和所述至少一条候选顺滑路径确定所述待顺滑的文本数据。
在一个可能的示例中,在所述根据所述待顺滑的文本数据确定顺滑后的文本数据方面,所述程序中的指令具体用于执行以下操作:根据所述待顺滑的文本数据确定至少一条书面语文本;
将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据。
在一个可能的示例中,在所述将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据方面,所述程序中的指令具体用于执行以下操作:通过所述预先训练好的书面语模型计算所述至少一条书面语文本的书面语分数,所述书面语分数用于表示所述至少一条书面语文本的书面化程度和通顺程度;
根据所述书面语分数、所述识别概率分数和所述顺滑概率分数对所述至少一条书面语文本进行排序,根据排序后的所述至少一条书面语文本确定顺滑后的文本数据,所述顺滑后的文本数据包括所述至少一条书面语文本中顺滑输出分数最大的书面语文本,所述顺滑输出分数是指所述书面语分数、所述识别概率分数和所述顺滑概率分数的和。
在一个可能的示例中,在所述根据所述顺滑后的文本数据确定顺滑后的语音数据方面,所述程序中的指令具体用于执行以下操作:根据所述识别文本数据和所述待顺滑的语音数据确定文本-音频时间信息,所述文本-音频时间信息用于表示所述待顺滑的语音数据与所述待顺滑的文本数据的时间对应关系;
根据所述文本-音频时间信息和所述顺滑后的文本数据确定所述待顺滑的语音数据的音频顺滑路径,所述音频顺滑路径包括音频帧删除标签;
根据所述音频帧删除标签将所述待顺滑的语音数据组合,得到所述顺滑后的语音数据。
在一个可能的示例中,在所述根据所述待顺滑的语音数据确定待顺滑的文本数据方面,所述程序中的指令具体还用于执行以下操作:转换所述待顺滑的语音数据,得到所述待顺滑的语音数据的识别文本数据;
对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果;
根据所述顺滑程度分析结果,确定所述识别文本数据中待顺滑的文本数据。
在一个可能的示例中,在所述对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果方面,所述程序中的指令具体还用于执行以下操作:确定所述识别文本数据的至少一个文本单元;
确定所述至少一个文本单元中每个文本单元与相邻文本单元的语义连续性,根据所述语义连续性确定所述每个文本单元的顺滑程度,所述至少一个文本单元的至少一个顺滑程度组成所述识别文本数据的顺滑程度分析结果。
在一个可能的示例中,在所述获取待顺滑的语音数据之前方面,所述程序中的指令具体还用于执行以下操作:获取训练用语音数据,所述训练用语音数据包括顺滑标注信息;
通过将所述训练用语音数据输入预设顺滑模型,根据所述预设顺滑模型的输出得到训练识别文本数据和训练音频顺滑数据;
将所述顺滑标注信息、所述训练识别文本数据和所述训练音频顺滑数据进行对比确定损失函数,所述损失函数包括顺滑损失函数和识别损失函数;
根据所述顺滑损失函数和所述识别损失函数对所述预设顺滑模型进行处理,得到训练好的音频顺滑模型。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图6是本申请实施例中所涉及的语音顺滑装置600的功能单元组成框图。该语音顺滑装置600应用于电子设备,所述装置包括处理单元601、通信单元602和存储单元603,其中,所述处理单元601,用于执行如上述方法实施例中的任一步骤,且在执行诸如发送等数据传输时,可选择的调用所述通信单元602来完成相应操作。下面进行详细说明。
所述处理单元601,用于获取待顺滑的语音数据;
根据所述待顺滑的语音数据确定待顺滑的文本数据;
根据所述待顺滑的文本数据确定顺滑后的文本数据;
根据所述顺滑后的文本数据确定顺滑后的语音数据。
在一个可能的示例中,在所述根据所述待顺滑的语音数据确定待顺滑的文本数据方面,所述处理单元601具体用于:根据所述待顺滑的语音数据确定语音特征;
将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到待顺滑的文本数据。
在一个可能的示例中,在所述通过将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到所述待顺滑的文本数据方面,所述处理单元601具体用于:通过所述预先训练好的音频顺滑模型计算所述语音特征的识别概率分数,根据所述识别概率分数确定识别文本数据,所述识别概率分数用于表示所述语音数据的语义和所述基础文本内容的语义的匹配度;
计算所述识别文本数据的顺滑概率分数,根据所述顺滑概率分数确定所述识别文本数据的至少一条候选顺滑路径,所述顺滑概率分数用于表示所述文本内容中所述候选顺滑路径的准确度;
根据所述识别文本数据和所述至少一条候选顺滑路径确定所述待顺滑的文本数据。
在一个可能的示例中,在所述根据所述待顺滑的文本数据确定顺滑后的文本数据方面,所述处理单元601具体用于:根据所述待顺滑的文本数据确定至少一条书面语文本;
将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据。
在一个可能的示例中,在所述将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据方面,所述处理单元601具体用于:通过所述预先训练好的书面语模型计算所述至少一条书面语文本的书面语分数,所述书面语分数用于表示所述至少一条书面语文本的书面化程度和通顺程度;
根据所述书面语分数、所述识别概率分数和所述顺滑概率分数对所述至少一条书面语文本进行排序,根据排序后的所述至少一条书面语文本确定顺滑后的文本数据,所述顺滑后的文本数据包括所述至少一条书面语文本中顺滑输出分数最大的书面语文本,所述顺滑输出分数是指所述书面语分数、所述识别概率分数和所述顺滑概率分数的和。
在一个可能的示例中,在所述根据所述顺滑后的文本数据确定顺滑后的语音数据方面,所述处理单元601具体用于:根据所述识别文本数据和所述待顺滑的语音数据确定文本-音频时间信息,所述文本-音频时间信息用于表示所述待顺滑的语音数据与所述待顺滑的文本数据的时间对应关系;
根据所述文本-音频时间信息和所述顺滑后的文本数据确定所述待顺滑的语音数据的音频顺滑路径,所述音频顺滑路径包括音频帧删除标签;
根据所述音频帧删除标签将所述待顺滑的语音数据组合,得到所述顺滑后的语音数据。
在一个可能的示例中,在所述根据所述待顺滑的语音数据确定待顺滑的文本数据方面,所述处理单元601具体用于:转换所述待顺滑的语音数据,得到所述待顺滑的语音数据的识别文本数据;
对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果;
根据所述顺滑程度分析结果,确定所述识别文本数据中待顺滑的文本数据。
在一个可能的示例中,在所述对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果方面,所述处理单元601具体用于:确定所述识别文本数据的至少一个文本单元;
确定所述至少一个文本单元中每个文本单元与相邻文本单元的语义连续性,根据所述语义连续性确定所述每个文本单元的顺滑程度,所述至少一个文本单元的至少一个顺滑程度组成所述识别文本数据的顺滑程度分析结果。
在一个可能的示例中,在所述获取待顺滑的语音数据之前方面,所述处理单元601具体用于:获取训练用语音数据,所述训练用语音数据包括顺滑标注信息;
通过将所述训练用语音数据输入预设顺滑模型,根据所述预设顺滑模型的输出得到训练识别文本数据和训练音频顺滑数据;
将所述顺滑标注信息、所述训练识别文本数据和所述训练音频顺滑数据进行对比确定损失函数,所述损失函数包括顺滑损失函数和识别损失函数;
根据所述顺滑损失函数和所述识别损失函数对所述预设顺滑模型进行处理,得到训练好的音频顺滑模型。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种语音顺滑方法,其特征在于,所述方法包括:
获取待顺滑的语音数据;
根据所述待顺滑的语音数据确定待顺滑的文本数据;
根据所述待顺滑的文本数据确定顺滑后的文本数据;
根据所述顺滑后的文本数据确定顺滑后的语音数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待顺滑的语音数据确定待顺滑的文本数据,包括:
根据所述待顺滑的语音数据确定语音特征;
将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到待顺滑的文本数据。
3.根据权利要求2所述的方法,其特征在于,所述通过将所述语音特征输入预先训练好的音频顺滑模型,根据所述音频顺滑模型的输出得到所述待顺滑的文本数据,包括:
通过所述预先训练好的音频顺滑模型计算所述语音特征的识别概率分数,根据所述识别概率分数确定识别文本数据;
计算所述识别文本数据的顺滑概率分数,根据所述顺滑概率分数确定所述识别文本数据的至少一条候选顺滑路径;
根据所述识别文本数据和所述至少一条候选顺滑路径确定所述待顺滑的文本数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待顺滑的文本数据确定顺滑后的文本数据,包括:
根据所述待顺滑的文本数据确定至少一条书面语文本;
将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少一条书面语文本输入预先训练好的书面语模型,根据所述书面语模型的输出得到所述顺滑后的文本数据,包括:
通过所述预先训练好的书面语模型计算所述至少一条书面语文本的书面语分数;
根据所述书面语分数、所述识别概率分数和所述顺滑概率分数对所述至少一条书面语文本进行排序,根据排序后的所述至少一条书面语文本确定顺滑后的文本数据,所述顺滑后的文本数据包括所述至少一条书面语文本中顺滑输出分数最大的书面语文本,所述顺滑输出分数是指所述书面语分数、所述识别概率分数和所述顺滑概率分数的和。
6.根据权利要求5所述的方法,其特征在于,所述根据所述顺滑后的文本数据确定顺滑后的语音数据,包括:
根据所述识别文本数据和所述待顺滑的语音数据确定文本-音频时间信息,所述文本-音频时间信息用于表示所述待顺滑的语音数据与所述待顺滑的文本数据的时间对应关系;
根据所述文本-音频时间信息和所述顺滑后的文本数据确定所述待顺滑的语音数据的音频顺滑路径,所述音频顺滑路径包括音频帧删除标签;
根据所述音频帧删除标签将所述待顺滑的语音数据组合,得到所述顺滑后的语音数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述待顺滑的语音数据确定待顺滑的文本数据,包括:
转换所述待顺滑的语音数据,得到所述待顺滑的语音数据的识别文本数据;
对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果;
根据所述顺滑程度分析结果,确定所述识别文本数据中待顺滑的文本数据。
8.根据权利要求7所述的方法,其特征在于,所述对所述识别文本数据进行语义的顺滑程度分析,得到所述识别文本数据的顺滑程度分析结果,包括:
确定所述识别文本数据的至少一个文本单元;
确定所述至少一个文本单元中每个文本单元与相邻文本单元的语义连续性,根据所述语义连续性确定所述每个文本单元的顺滑程度,所述至少一个文本单元的至少一个顺滑程度组成所述识别文本数据的顺滑程度分析结果。
9.根据权利要求1~8任一项所述的方法,其特征在于,所述获取待顺滑的语音数据之前,所述方法还包括:
获取训练用语音数据,所述训练用语音数据包括顺滑标注信息;
通过将所述训练用语音数据输入预设顺滑模型,根据所述预设顺滑模型的输出得到训练识别文本数据和训练音频顺滑数据;
将所述顺滑标注信息、所述训练识别文本数据和所述训练音频顺滑数据进行对比确定损失函数,所述损失函数包括顺滑损失函数和识别损失函数;
根据所述顺滑损失函数和所述识别损失函数对所述预设顺滑模型进行处理,得到训练好的音频顺滑模型。
10.一种语音顺滑装置,其特征在于,所述装置包括处理单元和通信单元,所述处理单元用于:获取待顺滑的语音数据;根据所述待顺滑的语音数据确定待顺滑的文本数据;对所述待顺滑的文本数据进行书面语识别确定顺滑后的文本数据;根据所述顺滑后的文本数据确定顺滑后的语音数据。
11.一种电子设备,其特征在于,包括应用处理器、通信接口和存储器,所述应用处理器、通信接口和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述应用处理器被配置用于调用所述程序指令,执行如权利要求1~9任一项所述的方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954698.3A CN110853621B (zh) | 2019-10-09 | 2019-10-09 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910954698.3A CN110853621B (zh) | 2019-10-09 | 2019-10-09 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110853621A true CN110853621A (zh) | 2020-02-28 |
CN110853621B CN110853621B (zh) | 2024-02-13 |
Family
ID=69597494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910954698.3A Active CN110853621B (zh) | 2019-10-09 | 2019-10-09 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110853621B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509578A (zh) * | 2020-12-10 | 2021-03-16 | 北京有竹居网络技术有限公司 | 一种语音信息的识别方法、装置、电子设备和存储介质 |
CN112651231A (zh) * | 2020-12-08 | 2021-04-13 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
CN112735423A (zh) * | 2020-12-14 | 2021-04-30 | 美的集团股份有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN116434753A (zh) * | 2023-06-09 | 2023-07-14 | 荣耀终端有限公司 | 一种文本顺滑方法、设备及存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297299A1 (en) * | 2012-05-07 | 2013-11-07 | Board Of Trustees Of Michigan State University | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
CN105827504A (zh) * | 2015-11-30 | 2016-08-03 | 维沃移动通信有限公司 | 一种语音信息的传输方法、移动终端和系统 |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
CN107025046A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 终端应用语音操作方法及系统 |
CN107797663A (zh) * | 2017-10-26 | 2018-03-13 | 北京光年无限科技有限公司 | 基于虚拟人的多模态交互处理方法及系统 |
CN107945804A (zh) * | 2017-12-07 | 2018-04-20 | 杭州测质成科技有限公司 | 基于语音识别的任务管理与量具数据提取系统及其方法 |
CN108364638A (zh) * | 2018-01-12 | 2018-08-03 | 咪咕音乐有限公司 | 一种语音数据处理方法、装置、电子设备和存储介质 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和系统、移动终端 |
CN109256133A (zh) * | 2018-11-21 | 2019-01-22 | 上海玮舟微电子科技有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN109637542A (zh) * | 2018-12-25 | 2019-04-16 | 圆通速递有限公司 | 一种语音外呼系统 |
CN109686360A (zh) * | 2019-01-08 | 2019-04-26 | 哈尔滨理工大学 | 一种语音订餐机器人 |
CN109903770A (zh) * | 2017-12-07 | 2019-06-18 | 现代自动车株式会社 | 用于校正用户的话语错误的装置及其方法 |
CN110192247A (zh) * | 2017-01-18 | 2019-08-30 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN110263322A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 用于语音识别的音频语料筛选方法、装置及计算机设备 |
-
2019
- 2019-10-09 CN CN201910954698.3A patent/CN110853621B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297299A1 (en) * | 2012-05-07 | 2013-11-07 | Board Of Trustees Of Michigan State University | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition |
CN105448292A (zh) * | 2014-08-19 | 2016-03-30 | 北京羽扇智信息科技有限公司 | 一种基于场景的实时语音识别系统和方法 |
CN105070288A (zh) * | 2015-07-02 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 车载语音指令识别方法和装置 |
CN105827504A (zh) * | 2015-11-30 | 2016-08-03 | 维沃移动通信有限公司 | 一种语音信息的传输方法、移动终端和系统 |
CN107025046A (zh) * | 2016-01-29 | 2017-08-08 | 阿里巴巴集团控股有限公司 | 终端应用语音操作方法及系统 |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
CN110192247A (zh) * | 2017-01-18 | 2019-08-30 | 索尼公司 | 信息处理装置、信息处理方法和程序 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和系统、移动终端 |
CN107797663A (zh) * | 2017-10-26 | 2018-03-13 | 北京光年无限科技有限公司 | 基于虚拟人的多模态交互处理方法及系统 |
CN109903770A (zh) * | 2017-12-07 | 2019-06-18 | 现代自动车株式会社 | 用于校正用户的话语错误的装置及其方法 |
CN107945804A (zh) * | 2017-12-07 | 2018-04-20 | 杭州测质成科技有限公司 | 基于语音识别的任务管理与量具数据提取系统及其方法 |
CN108364638A (zh) * | 2018-01-12 | 2018-08-03 | 咪咕音乐有限公司 | 一种语音数据处理方法、装置、电子设备和存储介质 |
CN109256133A (zh) * | 2018-11-21 | 2019-01-22 | 上海玮舟微电子科技有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN109637542A (zh) * | 2018-12-25 | 2019-04-16 | 圆通速递有限公司 | 一种语音外呼系统 |
CN109686360A (zh) * | 2019-01-08 | 2019-04-26 | 哈尔滨理工大学 | 一种语音订餐机器人 |
CN110263322A (zh) * | 2019-05-06 | 2019-09-20 | 平安科技(深圳)有限公司 | 用于语音识别的音频语料筛选方法、装置及计算机设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651231A (zh) * | 2020-12-08 | 2021-04-13 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
WO2022121859A1 (zh) * | 2020-12-08 | 2022-06-16 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
CN112651231B (zh) * | 2020-12-08 | 2023-10-27 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
CN112509578A (zh) * | 2020-12-10 | 2021-03-16 | 北京有竹居网络技术有限公司 | 一种语音信息的识别方法、装置、电子设备和存储介质 |
CN112735423A (zh) * | 2020-12-14 | 2021-04-30 | 美的集团股份有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN112735423B (zh) * | 2020-12-14 | 2024-04-05 | 美的集团股份有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN116434753A (zh) * | 2023-06-09 | 2023-07-14 | 荣耀终端有限公司 | 一种文本顺滑方法、设备及存储介质 |
CN116434753B (zh) * | 2023-06-09 | 2023-10-24 | 荣耀终端有限公司 | 一种文本顺滑方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110853621B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN110853621B (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
CN107679033A (zh) | 文本断句位置识别方法和装置 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN109545197B (zh) | 语音指令的识别方法、装置和智能终端 | |
CN108682420A (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
CN108922521A (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN112233646A (zh) | 基于神经网络的语音克隆方法、系统、设备及存储介质 | |
CN107274903A (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN109003600B (zh) | 消息处理方法及装置 | |
CN110335608A (zh) | 声纹验证方法、装置、设备及存储介质 | |
Kostuchenko et al. | The evaluation process automation of phrase and word intelligibility using speech recognition systems | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
CN114171002A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN111400489B (zh) | 对话文本摘要生成方法、装置、电子设备和存储介质 | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
Johar | Paralinguistic profiling using speech recognition | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN113689633B (zh) | 一种景区人机交互方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |