CN114613357A - 语音处理方法、系统、电子设备和存储介质 - Google Patents
语音处理方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114613357A CN114613357A CN202011407843.5A CN202011407843A CN114613357A CN 114613357 A CN114613357 A CN 114613357A CN 202011407843 A CN202011407843 A CN 202011407843A CN 114613357 A CN114613357 A CN 114613357A
- Authority
- CN
- China
- Prior art keywords
- target
- recognition result
- text
- sub
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000036651 mood Effects 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音处理方法、系统、电子设备和存储介质。所述方法包括:接收一段语音信息;对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;接收对各子文本序列添加的预设标点后得到的候选识别结果集合;对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;确定所述目标识别结果中各目标子文本序列的语气类型,基于所述语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。以实现在复杂环境下对语音进行识别,并对其添加符合其语气的标点的效果。
Description
技术领域
本发明实施例涉及语音识别技术,尤其涉及一种语音处理方法、系统、电子设备和存储介质。
背景技术
随着人工智能技术的快速发展,作为智能技术之一的语音识别技术不断取得突破、日趋成熟,在通信、银行、教育、物业等领域得到广泛的应用。
目前的语音识别任务,主要是大规模非特定人的连续语音识别,其目的就是把输入的语音转化成文字,一般输出结果为一连串的无标点的未分割文本。标点用于将文本分成句子、子句等,以消除意义上的歧义,它们只出现在书面语言中,在口语中不发音,而传统的语音识别系统仅能对发音进行识别及语义解析,因此无法输出标点符号。为使语音识别的结果具备可阅读性,需要对识别结果进行准确的断句并添加恰当的标点符号。而在语音识别识别领域,关于标点预测方面的研究较少,复杂环境下,如建造、餐厅等场所的语音识别标点预测研究就相对更少。
标点符号预测的常用的方法是基于停顿检测,一般情况下,如果沉默时间长于某个预先设置的阈值,则设置句子边界,然后根据停顿的时长来确定标点的类型。即在句中有停顿的地方加逗号,而在末尾处用句号来结束。这种方法存在三个问题:一、在复杂环境下,如噪声环境,基于沉默时长的停顿检测会失效;二、语音停顿的地方并非都是语义完整处,比如句中停顿,断然添加标点符号会影响语义完整性,甚至产生歧义;三、句子都认为是陈述句,并未根据说话人的语气及语义进行合理的标点添加,无法准确地传递出说话人所要表达的语义与情绪。
发明内容
本发明实施例提供一种语音处理方法、系统、电子设备和存储介质,以实现在复杂环境下对语音进行识别,并对其添加符合其语气的标点的效果。
第一方面,本发明实施例提供了一种语音处理方法,该方法包括:
接收一段语音信息;
对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;
接收对各子文本序列添加的预设标点后得到的候选识别结果集合;
对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;
确定所述目标识别结果中各目标子文本序列的语气类型,基于所述语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。
第二方面,本发明实施例还提供了一种语音处理系统,该系统包括:
所述语音识别模型,用于接收一段语音信息,对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;
所述N元组语言模型,用于接收添加标点后的各子文本序列所组成的候选识别结果集合,对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;
所述语气识别模型,用于接收所述目标识别结果,确定目标识别结果中各目标子文本序列的语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的语音处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例中任一所述的语音处理方法。
本发明实施例的技术方案,通过接收一段语音信息,对语音信息进行断句,得到语音信息的至少一个子文本序列,以实现在复杂环境下的语音信息可有效断句的效果。然后接收对各子文本序列添加预设标点后得到的候选识别结果集合,对候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果,最后,确定目标识别结果中各目标子文本序列的语气类型,基于语气类型,对目标子文件序列中的预设标点进行更新替换,纠正与语气不匹配的标点符号,得到语音信息所对应的目标信息,实现了在复杂环境下对语音进行识别,并对其添加符合其语气的标点的效果。
附图说明
图1是本发明实施例一中的语音处理方法的流程图;
图2是本发明实施例一中的目标识别结果确定示意图;
图3是本发明实施例一中的目标信息确定示意图;
图4是本发明实施例二中的语音处理方法的流程图;
图5是本发明实施例二中的空白字符信息确定示意图,;
图6是本发明实施例三中的语音处理系统的结构示意图;
图7是本发明实施例四中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的语音处理方法的流程图,本实施例可适用于对语音进行识别,并对识别后的语音添加符合语音语气的标点的情况,该方法可以由语音处理装置来执行,该语音处理装置可以由软件和/或硬件来实现,该语音处理装置可以配置在电子计算设备上,具体包括如下步骤:
S110、接收一段语音信息。
示例性的,语音信息可以是用户说的一段语音,例如,可以是用户的这样的一段语音“今天天气真好,我们去跑步吧,怎么样”。
需要说明的是,由于该段语音有三个句子“今天天气真好”、“我们去跑步吧”和“怎么样”,因此,用户在说这段语音时,会在每个句子之间进行停顿。这样以便后续可对语音信息进行断句。此外,用户在说这一段语音的时候,也可能会由于周围环境的噪音等因素的影响,导致在每个句子中也可能存在停顿,形成诸如“今天天”、“气真好”、“我们去跑步吧”和“怎么样”这样的句子。或者,该段语音的停顿将两个句子进行连接在一起,例如,形成“今天天气”、“真好我们”、“去跑步吧”和“怎么样”这样的句子,等等。
S120、对语音信息进行断句,得到语音信息的至少一个子文本序列。
示例性的,子文本序列可以是对语音信息进行断句后,形成的句子。
需要说明的是,各子文本序列中只有语音信息对应的文本部分,以及在各文本部分之间的停顿部分。
获取语音信息后,对获取的语音信息进行断句,即可得到语音信息的至少一个子文本序列。
继续上述例子,语音信息为“今天天气真好,我们去跑步吧,怎么样”,对该语音信息进行断句后,形成的至少一个子文本序列,可以是“今天天气真好”、“我们去跑步吧”和“怎么样”,这里的“今天天气真好”、“我们去跑步吧”和“怎么样”均为一个子文本序列。
需要说明的是,对上述的语音信息“今天天气真好,我们去跑步吧,怎么样”进行断句后,形成的至少一个子文本序列还可以是“今天天”、“气真好”、“我们去跑步吧”和“怎么样”,这里的“今天天”、“气真好”、“我们去跑步吧”和“怎么样”也均为一个子文本序列;还可以形成的至少一个子文本序列为“今天天气”、“真好我们”、“去跑步吧”和“怎么样”,这里的“今天天气”、“真好我们”、“去跑步吧”和“怎么样”也同样均为一个子文本序列。具体的形成的至少一个子本文序列具体是哪种情况,需根据用户提供的语音信息的实际环境而定。
需要说明的是,在训练语音识别模型时,在原始音频中加入不同的已知背景噪声,同时使用混响算法等进行数据增广,以提升语音识别模型的鲁棒性,使得语音识别模型在各种复杂环境中依然能够有效区分有效语音段(文本字符字段)与非语音段(空白字符字段),从而能够更准确的实现语音停顿检测,对输入的长语音进行准确断句。
这样实现了在复杂环境下的语音信息可有效断句的效果。
S130、接收对各子文本序列添加的预设标点后得到的候选识别结果集合。
示例性的,预设标点可以是预先设置的至少一个文本标点和/或一个空白标点,这里的文本标点可以是,例如,逗号、顿号、感叹号等这种在文本字符中出现的标点。这里的空白标点可以是,例如空格。
可选的,对各子文本序列添加的预设标点,得到候选识别结果集合,具体可以是:基于至少一个文本标点和/或至少一个空白标点,对各子文本序列添加标点,得到至少一个由各子文本序列组成的带有文本标点和/或空白标点的文本信息,至少一个文本信息组成候选识别结果集合。
示例性的,候选识别结果集合可以是候选识别结果的集合,这里的候选识别结果可以是将断句后的各子文本序列进行添加预设标点后所形成的一整句话。
利用至少一个文本标点和/或至少一个空白标点,对各子文本序列进行添加标点,这样就可得到至少一个分别由各子文本序列组成的带有文本标点和/或空白标点的文本信息,即可形成至少一个分别由各子文本序列组成的带有文本标点和/或空白标点的一句话。例如,若语音信息为“今天天气真好,我们去跑步吧,怎么样”,对其断句后,形成的至少一个子文本序列是“今天天”、“气真好”、“我们去跑步吧”和“怎么样”,预设标点为逗号、句号和问号,以及空白标点,则对各子文本序列添加预设标点,通过排列组合可形成由各子文本序列组成的带有文本标点和/或空白标点的文本信息,各文本信息组成如下候选识别结果集合:
这里的添加空白标点的好处在于,可对语音信息停顿不合理的地方进行平滑处理,即将停顿不合理的地方进行停顿消除。
具体的,若在原本不该停顿的地方进行了停顿,且在此处添加的是空白标点,在可将该不该停顿的地方连接起来。例如,语音信息为“今天天气真好,我们去跑步吧,怎么样”,对该语音信息进行断句后,形成的至少一个子文本序列为“今天天”、“气真好”、“我们去跑步吧”和“怎么样”,其实对于子文本序列“今天天”和子文本序列“气真好”来说,这两个子文本序列中间不应该断句,若在这两个子文本序列之间添加空白标点,则后续选择添加预设标点后的候选识别结果中,评分最高的候选识别结果时,有可能将子文本序列“今天天”和子文本序列“气真好”连接起来。这样就将停顿不合理的地方进行了停顿消除。
需要说明的是,上述的对各子文本序列进行添加预设标点,可以是通过预先设置的算法来实现的。当然,可以是通过人为的进行去添加,这里不做限定,只要可对各子文本序列添加上预设标点即可。
S140、对候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果。
示例性的,目标识别结果可以是对候选识别结果集合中的各候选识别结果进行评估后,选取出来的最后的结果。
这里的对候选识别结果集合中的各候选识别结果进行评估,可以是基于神经网络模型来实现的,例如,可以是基于N元组语言模型实现的。具体可以是:将候选识别结果集合输入至N元组语言模型中,基于N元组语言模型对候选识别结果集合中的各候选识别结果进行评分,将评分结果按从高到低的顺序进行排序,将排序的靠前的至少一个候选识别结果作为目标识别结果;其中,在目标识别结果中的各子文本序列作为目标子文本序列,在各目标子文本序列中的具有预设标点。
当N元组模型输出的至少一个候选识别结果时,可根据用户需求,自行从至少一个候选识别结果中,选取出一个该客户认为添加标点最为合理的候选识别结果,将其作为目标识别结果。
这样可根据N元组模型输出的至少一个候选识别结果,选取出目标识别结果,实现基于各候选识别结果的评估,选出结果最好的带有预设标点的候选识别结果。
N元组模型(也称N-gram模型)是基于统计学实现的,作为语言模型,被广泛应用到语音识别系统中。该模型训练简单、训练速度快;另一方面,基于海量文本语料训练的N元组模型,能够最大限度量化文字与文字之间以及文字与标点符号之间的依赖关系,即先验概率。
结合断句结果,利用算法在断句位置加入常用的标点符号或者不加入任何标点符号(即空白标点),构造出候选识别结果集合;参考图2所述的目标识别结果确定示意图,将上述的候选识别结果集合输入至N元组模型中,使用N元组模型对候选识别结果集合中的各候选识别结果进行评分,输出得分最高的候选识别结果作为目标识别结果,即消除不合理停顿。
S150、确定目标识别结果中各目标子文本序列的语气类型,基于语气类型,对目标子文件序列中的预设标点进行更新替换,得到语音信息所对应的目标信息。
示例性的,目标子文本序列可以是在目标识别结果中的各子文本序列,将目标识别结果中的各子文本序列作为目标子文本序列,在各目标子文本序列中的具有预设标点。
语气类型可以是各目标子文本序列的语气,例如,语气类型可以是疑问句、感叹句和陈述句等。
目标信息可以是最后得到的与语音信息对应的断句正确且标点正确的文本信息。
当基于N元组模型输出目标识别结果后,确定目标识别结果中各目标子文本序列的语气类型,基于确定的各目标子文本序列的语气类型,对各目标子文本序列中的预设标点进行判断,判断各目标子文本序列中的预设标点是否与其对应的语气类型对应,若不对应,则对其进行更新替换,若对应,则保留,最后得到最开始接收的语音信息对应的断句正确且标点正确的目标信息。
需要说明的是,上述确定目标识别结果中各目标子文本序列的语气类型,基于语气类型,对目标子文件序列中的预设标点进行更新替换,得到语音信息所对应的目标信息,可以是基于语气识别模型所实现的。
具体的可以是,参考图3所述的目标信息确定示意图,以目标识别结果为“今天天气真好,我们去跑步吧,怎么样。”为例,这里的目标子文本序列分别为“今天天气真好,”、“我们去跑步吧,”和“怎么样。”。
将目标识别结果输入至语气识别模型中,基于语气识别模型识别目标识别结果中各目标子文本序列的语气类型,然后根据识别出的各目标子文本序列的语气类型,判断各目标子文本序列的预设标点是否正确,若不正确,则进行更新替换,若正确,则保留。最后,将各目标子文本序列所对应的正确的标点添加至各目标子文本序列中,得到语音信息所对应的目标信息。
这样实现了纠正与语气不匹配的标点符号,得到最终的准确标点的结果。
本发明实施例的技术方案,通过接收一段语音信息,对语音信息进行断句,得到语音信息的至少一个子文本序列,以实现在复杂环境下的语音信息可有效断句的效果。然后接收对各子文本序列添加预设标点后得到的候选识别结果集合,对候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果,最后,确定目标识别结果中各目标子文本序列的语气类型,基于语气类型,对目标子文件序列中的预设标点进行更新替换,纠正与语气不匹配的标点符号,得到语音信息所对应的目标信息,实现了在复杂环境下对语音进行识别,并对其添加符合其语气的标点的效果。
实施例二
图4为本发明实施例二提供的语音处理方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选的,所述对语音信息进行断句,得到语音信息的至少一个子文本序列,包括:将语音信息输入至语音识别模型进行预解码,得到语音信息中所包括的空白字符信息;基于连续空白字符信息的第一长度和预设长度阈值,对语音信息进行断句;将断句后的语音信息输入语音识别模型中进行二次解码,确定断句后的语音信息中各段文本语音所对应的文本字符信息,确定语音信息的至少一个子文本序列。
如图4所示,本发明实施例的方法具体包括如下步骤:
S210、接收一段语音信息。
S220、将语音信息输入至语音识别模型进行预解码,得到语音信息中所包括的空白字符信息。
示例性的,空白字符信息可以是在语音信息中停顿地方所对应的信息。
得到语音信息后,将该语音信息输入至语音识别模型中,理由语音识别模型对其进行预解码,得到语音信息中所包括的空白字符信息。
参考图5所述的空白字符信息确定示意图,输入语音识别模型中一段语音“今天天气真好S我们去跑步吧N怎么样”,(其中,S指静音,即用户自行停顿;N指噪声),语音识别模型对其进行预解码,解码出文字字符部分和非文字字符部分,如图5所示,解码结果为“C……CB……B C……CB……B C……C”,(其中,C为文字字符部分,即对应语音信息中有字的部分,B为非文字字符部分,即空白字符部分)。
根据上述的识别结果,可得到语音信息中的空白字符信息。
S230、基于连续空白字符信息的第一长度和预设长度阈值,对语音信息进行断句。
示例性的,连续空白字符信息可以是将输入的语音信息进行解码后,得到的该语音信息的空白字符和非空白字符,在空白字符中,可能存在连续的空白字符,则为连续空白字符信息。例如,输入的语音信息为“今天天气真好S我们去跑步吧N怎么样”其中,S为停顿,则在“今天天气真好”与“我们去跑步吧”中间存在停顿,例如,其停顿的时间为5秒,现规定每停顿一秒,为一个空白字符,这里停顿了5秒,则为5个空白字符,这5个空白字符是连续的,则这5个空白字符为连续空白字符信息。
第一长度可以是连续空白字符信息的长度。
预设长度阈值可以是预先设置点的长度阈值。
根据上述图5中的预解码的结果,计算连续空白字符信息的第一长度(如图5中的n1的长度以及n2的长度),与预设长度阈值进行比较,根据比较结果,对语音信息进行断句。
可选的,所述基于第一长度和预设长度阈值,对语音信息进行断句,具体可以是:比对第一长度和预设长度阈值,若第一长度大于预设长度阈值,则在连续空白字符信息的起始位置处进行断句。
示例性的,根据计算的第一长度,将其与预设长度阈值进行比对,若第一长度大于预设长度阈值,则证明在该处需要进行停顿,则在连续空白字符信息的起始位置处进行断句。
具体的,如图5所示,若比较n1和n2均比预设长度阈值大,则分别在n1所对应的连续空白字符信息的第一个空白字符信息处进行断句,在n2所对应的连续空白字符信息的第一个空白字符信息处进行断句。形成图5中的断句结果。
需要说明的是,基于连续空白字符信息的第一长度和预设长度阈值,对语音信息进行断句,可以是基于算法实现的。
这样实现了对长语音信息进行准确断句的效果。
S240、将断句后的语音信息输入语音识别模型中进行二次解码,确定断句后的语音信息中各段文本语音所对应的文本字符信息,确定语音信息的至少一个子文本序列。
示例性的,文本语音可以是断句后的语音信息的文本信息。例如,输入的语音信息为“今天天气真好S我们去跑步吧N怎么样”,对其进行翻译,得到该语音信息读音的文本信息,将该文本信息进行断句后,形成“今天天气真好”、“我们去跑步吧”和“怎么样”这三段,则该“今天天气真好”、“我们去跑步吧”和“怎么样”分别一段文本语音。
文本字符信息可以是输入的语音信息所对应的正确的文字信息。例如,输入的语音信息为“今天天气真好S我们去跑步吧N怎么样”,要将其翻译为正确的文字,因为,在翻译的时候,可能将“今”翻译为“金”,也可能将“天”翻译为“添”,所以需对断句后的语音信息进行二次解码,以得到正确的文字信息。
根据得到的正确的文字信息,以及空白字符信息,可得到语音信息的至少一个子文本序列。这样实现了得到准确断句,且正确文字信息的子文本序列。
S250、接收对各子文本序列添加的预设标点后得到的候选识别结果集合。
S260、对候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果。
S270、确定目标识别结果中各目标子文本序列的语气类型,基于语气类型,对目标子文件序列中的预设标点进行更新替换,得到语音信息所对应的目标信息。
本发明实施例的技术方案,通过将语音信息输入至语音识别模型进行预解码,得到语音信息中所包括的空白字符信息,基于连续空白字符信息的第一长度和预设长度阈值,对语音信息进行断句,这样实现了对长语音信息进行准确断句的效果,将断句后的语音信息输入语音识别模型中进行二次解码,确定断句后的语音信息中各段文本语音所对应的文本字符信息,确定语音信息的至少一个子文本序列,这样实现了得到准确断句,且正确文字信息的子文本序列。
实施例三
图6为本发明实施例三提供的语音处理系统的结构示意图,如图6所示,该系统包括:语音识别模型31、标点确定模型32和N元组语言模型33。
其中,语音识别模型31,用于接收一段语音信息,对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;
N元组语言模型32,用于接收添加标点后的各子文本序列所组成的候选识别结果集合,对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;
语气识别模型33,用于接收所述目标识别结果,确定目标识别结果中各目标子文本序列的语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。
在上述实施例的技术方案的基础上,语音识别模型31包括:
空白字符信息确定单元,用于对所述语音信息进行预解码,得到所述语音信息中所包括的空白字符信息;
至少一个子文本序列确定单元,用于对断句后的语音信息进行二次解码,确定断句后的语音信息中各段文本语音所对应的文本字符信息,确定所述语音信息的至少一个子文本序列。
在上述实施例的技术方案的基础上,该系统还包括:
断句模块,用于基于连续空白字符信息的第一长度和预设长度阈值,对所述语音信息进行断句,并将断句后的语音信息输入至语音识别模型31中,以使语音识别模型31对其进行二次解码。
在上述实施例的技术方案的基础上,断句模块具体用于:
比对第一长度和所述预设长度阈值,若所述第一长度大于所述预设长度阈值,则在所述连续空白字符信息的起始位置处进行断句。
可选的,所述预设标点包括文本标点和/或空白标点。
在上述实施例的技术方案的基础上,该系统还包括:
预设标点添加模块,用于基于至少一个文本标点和/或至少一个空白标点,对各子文本序列添加标点,得到至少一个由各子文本序列组成的带有文本标点和/或空白标点的文本信息,所述至少一个文本信息组成候选识别结果集合。
在上述实施例的技术方案的基础上,N元组语言模型32包括:
目标识别结果确定单元,用于对所述候选识别结果集合中的各候选识别结果进行评分,将评分结果按从高到低的顺序进行排序,将排序的靠前的至少一个候选识别结果作为目标识别结果;
其中,在所述目标识别结果中的各子文本序列作为所述目标子文本序列,在各目标子文本序列中的具有预设标点。
在上述实施例的技术方案的基础上,语气识别模型33包括:
语气类型确定单元,用于提取所述目标识别结果中的各目标子文本序列,并确定各目标子文本序列的语气类型;
判断单元,用于基于各目标子文本序列的语气类型,判断各目标子文本序列中的预设标点是否正确,若不正确,则利用正确的标点对目标子文本序列中的预设标点进行更新替换。
在上述实施例的技术方案的基础上,语气识别模型33还包括:
目标信息确定单元,用于将各所述目标子文本序列所对应的正确的标点添加至各所述目标子文本序列中,得到所述语音信息所对应的目标信息。
本发明实施例所提供的语音处理系统可执行本发明任意实施例所提供的语音处理方法,具备执行方法相应的功能模块和有益效果。
实施例四
图7为本发明实施例四提供的一种电子设备的结构示意图,如图7所示,该电子设备包括处理器70、存储器71、输入装置72和输出装置73;电子设备中处理器70的数量可以是一个或多个,图7中以一个处理器70为例;电子设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音处理方法对应的程序指令/模块(例如,语音识别模型31、标点确定模型32和N元组语言模型33)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的语音处理方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音处理方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音处理方法系统的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音处理方法,其特征在于,包括:
接收一段语音信息;
对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;
接收对各子文本序列添加的预设标点后得到的候选识别结果集合;
对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;
确定所述目标识别结果中各目标子文本序列的语气类型,基于所述语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列,包括:
将所述语音信息输入至语音识别模型进行预解码,得到所述语音信息中所包括的空白字符信息;
基于连续空白字符信息的第一长度和预设长度阈值,对所述语音信息进行断句;
将断句后的语音信息输入语音识别模型中进行二次解码,确定断句后的语音信息中各段文本语音所对应的文本字符信息,确定所述语音信息的至少一个子文本序列。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一长度和预设长度阈值,对所述语音信息进行断句,包括:
比对第一长度和所述预设长度阈值,若所述第一长度大于所述预设长度阈值,则在所述连续空白字符信息的起始位置处进行断句。
4.根据权利要求1所述的方法,其特征在于,所述预设标点包括文本标点和/或空白标点;
所述对各子文本序列添加的预设标点,得到候选识别结果集合,包括:
基于至少一个文本标点和/或至少一个空白标点,对各子文本序列添加标点,得到至少一个由各子文本序列组成的带有文本标点和/或空白标点的文本信息,所述至少一个文本信息组成候选识别结果集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果,包括:
将所述候选识别结果集合输入至N元组语言模型中,对所述候选识别结果集合中的各候选识别结果进行评分,将评分结果按从高到低的顺序进行排序,将排序的靠前的至少一个候选识别结果作为目标识别结果;
其中,在所述目标识别结果中的各子文本序列作为所述目标子文本序列,在各目标子文本序列中的具有预设标点。
6.根据权利要求5所述的方法,其特征在于,所述确定所述目标识别结果中各目标子文本序列的语气类型,基于所述语气类型,对所述目标子文件序列中的预设标点进行更新替换,包括:
基于语气识别模型提取所述目标识别结果中的各目标子文本序列,并确定各目标子文本序列的语气类型;
基于各目标子文本序列的语气类型,判断各目标子文本序列中的预设标点是否正确,若不正确,则利用正确的标点对目标子文本序列中的预设标点进行更新替换。
7.根据权利要求6所述的方法,其特征在于,所述得到所述语音信息所对应的目标信息,包括:
将各所述目标子文本序列所对应的正确的标点添加至各所述目标子文本序列中,得到所述语音信息所对应的目标信息。
8.一种语音处理系统,其特征在于,包括:语音识别模型、N元组语言模型和语气识别模型;
所述语音识别模型,用于接收一段语音信息,对所述语音信息进行断句,得到所述语音信息的至少一个子文本序列;
所述N元组语言模型,用于接收添加标点后的各子文本序列所组成的候选识别结果集合,对所述候选识别结果集合中的各候选识别结果进行评估,基于评估结果,确定目标识别结果;
所述语气识别模型,用于接收所述目标识别结果,确定目标识别结果中各目标子文本序列的语气类型,对所述目标子文件序列中的预设标点进行更新替换,得到所述语音信息所对应的目标信息。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的语音处理方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407843.5A CN114613357A (zh) | 2020-12-04 | 2020-12-04 | 语音处理方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407843.5A CN114613357A (zh) | 2020-12-04 | 2020-12-04 | 语音处理方法、系统、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114613357A true CN114613357A (zh) | 2022-06-10 |
Family
ID=81856228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011407843.5A Withdrawn CN114613357A (zh) | 2020-12-04 | 2020-12-04 | 语音处理方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613357A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN106373598A (zh) * | 2016-08-23 | 2017-02-01 | 珠海市魅族科技有限公司 | 音频重播的控制方法和装置 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN112002328A (zh) * | 2020-08-10 | 2020-11-27 | 中央广播电视总台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
-
2020
- 2020-12-04 CN CN202011407843.5A patent/CN114613357A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN106373598A (zh) * | 2016-08-23 | 2017-02-01 | 珠海市魅族科技有限公司 | 音频重播的控制方法和装置 |
CN107247706A (zh) * | 2017-06-16 | 2017-10-13 | 中国电子技术标准化研究院 | 文本断句模型建立方法、断句方法、装置及计算机设备 |
CN108831481A (zh) * | 2018-08-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 语音识别中符号添加方法、装置、计算机设备及存储介质 |
CN112002328A (zh) * | 2020-08-10 | 2020-11-27 | 中央广播电视总台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635270B (zh) | 双向概率性的自然语言重写和选择 | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
US8719021B2 (en) | Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program | |
CN112017645B (zh) | 一种语音识别方法及装置 | |
KR100825690B1 (ko) | 음성 인식 시스템에서의 인식 오류 수정 방법 | |
CN109741734B (zh) | 一种语音评测方法、装置和可读介质 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN111797632A (zh) | 信息处理方法、装置及电子设备 | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
Carvalho et al. | A critical survey on the use of fuzzy sets in speech and natural language processing | |
US20240135089A1 (en) | Text error correction method, system, device, and storage medium | |
CN112562640A (zh) | 多语言语音识别方法、装置、系统及计算机可读存储介质 | |
JP2002014693A (ja) | 音声認識システム用辞書提供方法、および音声認識インタフェース | |
TW202032534A (zh) | 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品 | |
JP6299563B2 (ja) | 応答生成方法、応答生成装置及び応答生成プログラム | |
CN113053414B (zh) | 一种发音评测方法及装置 | |
Mekki et al. | COTA 2.0: An automatic corrector of Tunisian Arabic social media texts | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN114613357A (zh) | 语音处理方法、系统、电子设备和存储介质 | |
CN113436616B (zh) | 一种多领域自适应的端到端语音识别方法、系统及电子装置 | |
US20180261210A1 (en) | Speech recognition device, speech recognition method, and computer program product | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220610 |