CN114420102B - 语音断句方法、装置、电子设备及存储介质 - Google Patents

语音断句方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114420102B
CN114420102B CN202210001104.9A CN202210001104A CN114420102B CN 114420102 B CN114420102 B CN 114420102B CN 202210001104 A CN202210001104 A CN 202210001104A CN 114420102 B CN114420102 B CN 114420102B
Authority
CN
China
Prior art keywords
text
sentence
type
breaking
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210001104.9A
Other languages
English (en)
Other versions
CN114420102A (zh
Inventor
李嘉辉
肖畅
翁志伟
孙仿逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202210001104.9A priority Critical patent/CN114420102B/zh
Publication of CN114420102A publication Critical patent/CN114420102A/zh
Application granted granted Critical
Publication of CN114420102B publication Critical patent/CN114420102B/zh
Priority to PCT/CN2022/140275 priority patent/WO2023130951A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开一种语音断句方法、装置、电子设备及存储介质,其中,语音断句方法包括:根据预设断句类型的分类规则,为第一目标语音文本构造连续断句,连续断句包括的多个测试断句是从第一目标语音文本中截取出来,且与不同的预设断句类型分别对应的文本片段;通过训练完成的分类模型获取连续断句的预测分类结果;预测分类结果包括各个测试断句在预设断句类型中对应的预测概率;根据预测分类结果确定与各个测试断句分别对应的预测断句类型;根据各个测试断句分别对应的预测断句类型对第一目标语音文本进行断句。该方法能够简化自然语言处理模型的复杂度,提高语音断句的准确率。

Description

语音断句方法、装置、电子设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种语音断句方法、装置、电子设备及存储介质。
背景技术
现有的语音断句方法主要通过人工智能领域的自然语言处理技术,应用于多个应用场景下的智能对话系统。比如在车载应用场景下的智能对话系统中,利用语音断句方法可以识别用户语音命令中包含的多个独立指令,从而对语音命令进行断句,以便合理地执行各个独立指令。但是,在实践中发现,现有的自然语言处理常用模型在语音断句时需要预测用户语音命令中每一个字的类别,存在模型任务繁重的问题。
发明内容
本申请实施例公开了一种语音断句方法、装置、电子设备及存储介质,简化了自然语言处理模型的复杂度,提高了语音断句的准确率。
本申请实施例公开一种语音断句方法,其特征在于,所述方法包括:
根据预设断句类型的分类规则,为第一目标语音文本构造连续断句,所述连续断句包括的多个测试断句是从第一目标语音文本中截取出来,且与不同的预设断句类型分别对应的文本片段;
通过训练完成的分类模型获取所述连续断句的预测分类结果;所述预测分类结果包括各个所述测试断句在所述预设断句类型中对应的预测概率;
根据所述预测分类结果确定与各个所述测试断句分别对应的预测断句类型;
根据各个所述测试断句分别对应的预测断句类型对所述第一目标语音文本进行断句。
作为一种可选的实施方式,所述根据所述预测分类结果确定与各个所述测试断句分别对应的预测断句类型,包括:
根据所述预测分类结果包括的各个测试断句分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定所述各个测试断句中每个测试断句对应的预测断句类型。
作为一种可选的实施方式,所述预设断句类型至少包括第一类断句,第二类断句,第三类断句,第四类断句;所述第一类断句包括非完整指令的文本,所述第二类断句包括完整指令的文本,所述第三类断句包括完整指令文本以及除了完整指令的文本以外的N个字的增量文本,所述第四类断句包括完整指令文本以及除了完整指令的文本以外的M个字的增量文本;所述N和所述M为正整数,所述M大于所述N;所述连续断句包括的多个测试断句至少与第一类断句,第二类断句,第三类断句和第四类断句分别对应。
作为一种可选的实施方式,所述根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句,包括:
若在所述连续断句包括的各个测试断句中连续出现预测断句类型为第二类断句、第三类断句、第四类断句的所述测试断句,则将所述预测断句类型为第二类断句的所述测试断句确定为第一断句文本;
根据所述第一断句文本对所述第一目标语音文本进行断句。
作为一种可选的实施方式,所述根据所述第一断句文本对所述第一目标语音文本进行断句,包括:
若所述第一断句文本符合业务逻辑规则,则将所述第一断句文本确定为对所述第一目标语音文本进行断句的断句结果;
若所述第一断句文本不符合所述业务逻辑规则,则忽略所述第一断句文本,不对所述第一目标语音文本进行断句。
作为一种可选的实施方式,在所述根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句之后,所述方法还包括:
获取对所述第一目标语音文本进行断句后对应的断点标记,并将滑动窗口滑动到所述断点标记之后,将所述滑动窗口内的文本确定为第二目标语音文本;
利用所述训练完成的分类模型获取所述第二目标语音文本的预测分类结果,并利用所述第二目标语音文本的预测分类结果对所述第二目标语音文本进行断句。
作为一种可选的实施方式,在所述根据预设断句类型的分类规则,对第一目标语音文本构造连续断句之前,所述方法还包括:
获取初始语音文本;
将所述初始语音文本中与常用语音模板一致的初始断句文本从所述初始语音文本中删除,将删除了所述初始断句文本之后的所述初始语音文本确定为所述第一目标语音文本。
作为一种可选的实施方式,在所述通过训练完成的分类模型获取所述测试断句的预测分类结果之前,所述方法包括:
获取样本数据;所述样本数据包括的多个训练断句文本是根据预设断句类型的分类规则生成的;
从所述样本数据中选取出训练断句文本;
将所述训练断句文本输入到待训练的分类模型中,得到所述训练断句文本的训练分类结果;所述训练分类结果包括所述训练断句文本中的每个样本断句文本在预设断句类型中对应的预测概率;
根据所述训练断句文本的训练分类结果确定所述训练断句文本的训练断句类型;
根据所述训练断句文本的训练断句类型与所述训练断句文本对应的真实断句类型计算训练损失,并根据所述训练损失对所述待训练的分类模型中的参数进行调整,以得到训练完成的分类模型。
本申请实施例公开一种语音断句装置,所述装置包括:
构造模块,用于根据预设断句类型的分类规则,对第一目标语音文本构造连续断句,所述连续断句包括的多个测试断句是从第一目标语音文本中截取出来的与不同的预设断句类型分别对应的文本片段;
获取模块,用于通过训练完成的分类模型获取所述测试断句的预测分类结果;所述预测分类结果包括所述测试断句在所述预设断句类型中对应的预测概率;
确定模块,用于根据所述预测分类结果确定与所述测试断句对应的预测断句类型;
断句模块,用于根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句。
本申请实施例公开一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现本申请实施例公开的任意一种语音断句方法。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本申请实施例公开的任意一种语音断句方法。
与相关技术相比,本申请实施例具有以下有益效果:
根据预设断句类型的分类规则,从第一目标语音文本中截取出与不同的预设断句类型分别对应的多个文本片段,将多个文本片段作为多个测试断句;将多个测试断句输入到训练完成的分类模型中,从训练完成的分类模型中输出测试断句在各个预设断句类型中对应的预测概率;根据测试断句在各个预设断句类型中对应的预测概率,在确定与测试断句对应的预测断句类型之后,对第一目标语音文本进行断句。
本申请实施例中的语音断句方法能够将用户语音命令分类成多个语音断句,并确认当前语音断句的句子类型是否是个完整的独立断句,无需将训练模型用于检测用户语音命令中每个字的类别,简化了模型结构,提高了语音断句的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例公开的一种语音断句方法的流程示意图;
图2是本申请实施例公开的另一种语音断句方法的流程示意图;
图3是本申请实施例公开的另一种语音断句方法的流程示意图;
图4是本申请实施例公开的一种语音断句装置的结构示意图;
图5是本申请实施例公开的一种模型训练装置的结构示意图;
图6是本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例公开了一种语音断句方法、装置、电子设备及存储介质,提高了语音断句的准确率,以下分别进行详细说明。
请参阅图1,图1是本申请实施例公开的一种语音断句方法的流程示意图。该方法可应用于各种智能终端,如智能手机、智能家居、可穿戴设备、车载终端等电子设备,具体不做限定。该方法的使用场景可以是智能家居、车载语音、智能客服、医疗场景、工业场景等行业和场景。
例如,在车载语音场景中,当用户需要通过车载智能对话系统发出语音命令来操控系统时,当语音命令中包含多个独立指令时,比如“打开空调关闭车窗氛围灯打开播放音乐”,需要对语音命令进行断句,从而合理地执行用户语音命令中包含的各个独立指令。
如图1所示,该方法包括以下步骤:
110、根据预设断句类型的分类规则,为第一目标语音文本构造连续断句。
连续断句包括的多个测试断句是从第一目标语音文本中截取出来,且与不同的预设断句类型分别对应的文本片段。
第一目标语音文本是通过识别和理解过程把用户话语命令中的音频信号转变为对应的文本数据后,进行文本预处理生成的。
其中,第一目标语音文本针对不同的应用场景,具有相应应用场景的特点,例如,针对车载语音场景,得到的第一目标语音文本可以包括:打开车窗打开音乐打开灯光等;针对智能家居场景,比如在智能音响的使用场景下,得到的第一目标语音文本可以包括:搜索热门歌曲调高音量切换下一首等。
预设断句类型至少包括第一类断句,第二类断句,第三类断句,第四类断句;第一类断句包括非完整指令的文本,第二类断句包括完整指令的文本,第三类断句包括完整指令文本以及除了完整指令的文本以外的N个字的增量文本,第四类断句包括完整指令文本以及除了完整指令的文本以外的M个字的增量文本;N和M为正整数,M大于N。
其中,对于第一类断句,完整指令的文本可以是语义上完整的文本,比如“打开空调”;对于第二类断句,非完整指令的文本可以是语义上不完整的文本,比如“打开空”;对于第三类断句,增量文本可以是一个句子中除了语义上完整的文本外还包括的多余的文本,N可以取1,比如“打开空调关”;对于第四类断句,M可以取2,比如“打开空调关闭”。
预设断句类型的分类规则包括将第一目标语音文本至少分成第一类断句,第二类断句,第三类断句,第四类断句。
例如,当第一目标语音文本为“打开车窗关闭空调”时,可根据预设断句类型的分类规则对第一目标语音文本构造连续断句。连续断句可以包括预设断句类型为第一类断句、第二类断句、第三类断句、第四类断句的多个测试断句;第一类断句是“打开车”,第二类断句是“打开车窗”,第三类断句是“打开车窗关”,第四类断句是“打开车窗关闭”。
120、通过训练完成的分类模型获取连续断句的预测分类结果。
预测分类结果包括各个测试断句在预设断句类型中对应的预测概率。
分类模型,可以是自然语言处理领域中的预训练语言模型,即BERT(Bidirectional Encoder Representations from Transformers)模型,ELMo(Embeddingfrom Language Models)模型,或者ALBERT(A LITE BERT)模型中的任一项。其中,ALBERT是BERT模型的改进版本,参数量远远少于传统的BERT模型结构,提升了训练速度和模型性能。ALBERT的改进主要在于嵌入层参数因式分解、跨层参数共享机制、句间连续性损失函数。
训练完成的分类模型是利用大量的训练断句文本进行训练后得到的,向训练完成的分类模型输入连续断句,可以输出连续断句中各个测试断句在预设断句类型中对应的预测概率。
130、根据预测分类结果确定与各个测试断句分别对应的预测断句类型。
根据预测分类结果包括的各个测试断句分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定各个测试断句中每个测试断句对应的预测断句类型。
例如,给定一个连续的三个测试断句,“打开车窗”、“打开车窗关”、“打开车窗关闭”,获得每个测试断句在预设断句类型中对应的预测概率,如果模型预测效果准确的话,则第一个测试断句属于第二类断句的预测概率最大,第二个测试断句属于第三类断句的预测概率最大,第三个测试断句属于第四类断句的预测概率最大。通过设置阈值可以确定预测分类结果是否可信。对于不同的预设断句类型,可以设置不同的阈值。例如,针对测试断句对应的预设断句类型是第二类断句的情况,若测试断句属于第二类断句的预测概率大于阈值时,就确认该测试断句为第二类断句。若三个测试断句属于第二类断句的预测概率分别是0.8、0.5、0.4,当阈值设置为0.6时,则预测概率为0.8的测试断句属于第二类断句。
140、根据各个测试断句分别对应的预测断句类型对第一目标语音文本进行断句。
根据预设断句类型的分类规则对第一目标语音文本构造多个测试断句,使得分类模型能够对测试断句执行分类任务,可以以多个字组成的句子作为预测的单元,而不是以单独一个字作为预测的单元,很大程度上简化了模型的结构,减轻了模型的预测任务。
请参阅图2,图2是本申请实施例公开的另一种语音断句方法的流程示意图,该方法可应用于前述的任意一种电子设备。如图2所示,该方法包括以下步骤:
201、获取初始语音文本。
初始语音文本是从用户话语命令中采集的未经预处理的文本数据。即,可以是直接从采集到的音频信号转变为对应的文本数据后得到的文本数据。
202、将初始语音文本中与常用语音模板一致的初始断句文本从初始语音文本中删除,将删除了初始断句文本之后的初始语音文本确定为第一目标语音文本。
常用语音模板可以是与当前应用场景相匹配的多个常用语音命令,例如,在车载场景下,可以是“关闭车窗”、“打开空调”等,或者用户话语命令中的前缀词,比如“请”、“我要”等。基于常用语音模板,可以对用户的话语命令进行前缀以及部分动作词的适配,达到初步的语义理解,实现对初始语音文本的数据预处理。例如,常用语音模板是“关闭车窗”、“打开空调”,如果初始语音文本的前缀词或者部分动作词包括“关闭车窗”,正好与常用语音模板相同,则直接执行“关闭车窗”,并从初始语音文本中删除“关闭车窗”这四个字,将删除了这四个字之后的初始语音文本确定为第一目标语音文本。
基于模板对用户话语命令的前缀以及部分动作词进行适配,可以减少对模型的扰动。本申请实施例的语音断句方法可以将话语断句任务拆解成两个子任务,第一个任务是预测初始语音文本中前若干个字是否能组成一个语义完整的句子,第二个任务是根据第一目标语音文本中的连续断句的预测分类结果,来判断连续断句中是否存在语义完整的句子,如果存在,就可进行断句。
203、根据预设断句类型的分类规则,为第一目标语音文本构造连续断句。
204、通过训练完成的分类模型获取连续断句的预测分类结果。
205、根据预测分类结果包括的各个测试断句分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定各个测试断句中每个测试断句对应的预测断句类型。
步骤203-步骤205的实施方式可参见前述的实施例中的步骤110-步骤130,以下内容不再赘述。
206、若在连续断句包括的各个测试断句中连续出现预测断句类型为第二类断句、第三类断句、第四类断句的测试断句,则将预测断句类型为第二类断句的测试断句确定为第一断句文本。
例如,若在测试断句中连续出现“打开车窗”,“打开车窗关”,“打开车窗关闭”三个预测断句类型为第二类断句。第三类断句、第四类断句的情况,则可以确定预测断句类型为第二类断句的“打开车窗”为第一断句文本。
示例性的,若在连续断句中连续出现预测断句类型分别为第一类断句、第二类断句、第三类断句的测试断句时,则忽略该连续的测试断句,重新检测是否存在连续出现预测断句类型为第二类断句、第三类断句、第四类断句的测试断句。
207、若第一断句文本符合业务逻辑规则,则将第一断句文本确定为对所述第一目标语音文本进行断句的断句结果。
208、若第一断句文本不符合业务逻辑规则,则忽略第一断句文本,不对第一目标语音文本进行断句。
在得出第一断句文本后,可以根据业务逻辑规则确认当前断句是否合理。示例性的,业务逻辑规则可以是当第一断句文本的最后一个字位于第一目标语音文本中的“和”字之前,不执行断开操作。例如,对于“打开车窗和空调”,如果第一断句文本是“打开车窗”,也就是说第一目标语音文本在“打开车窗”和“和空调”之间断开,则忽略第一断句文本,不对第一目标语音文本进行断句。
209、获取对第一目标语音文本进行断句后对应的断点标记,并将滑动窗口滑动到断点标记之后,将滑动窗口内的文本确定为第二目标语音文本。
滑动窗口是滑动窗口算法中的逻辑窗口,一般作用在字符串或者数组上。通过不断地滑动窗口,可以在特定大小的窗口内运行算法。窗口在每一次滑动前后,中间元素内容没有改变,仅仅改变的是开头和结尾元素。也就是说,下一窗口内元素之和=上一窗口元素和-离开窗口元素值+新加入窗口元素值。窗口滑动过程中,需要删除滑出窗口的元素以及新增滑入窗口的元素。
第二目标语音文本是从第一目标语音文本中删除了第一断句文本后剩下的文本内容。在对第一目标语音文本进行断句后,将滑动窗口滑动到对应的断点标记后,第一断句文本离开了滑动窗口,滑动窗口的起点从第二目标语音文本开始。
由于第一目标语音文本可以包含多个用户指令,而第一断句文本只是对应其中一个用户指令,因此对于第一目标语音文本中第一断句文本以外的其他文本内容要继续执行步骤120~140的过程,直到将第一目标语音文本中包含的所有用户指令都执行完。
210、利用训练完成的分类模型获取第二目标语音文本的预测分类结果,并利用第二目标语音文本的预测分类结果对第二目标语音文本进行断句。
步骤210的实施方式与前述的步骤203-步骤209类似,以下内容不再赘述。
滑动窗口基于分类模型的效果,充分利用了分类模型的分类结果,可以排除第一断句文本对于后续断句过程的干扰,专注于对第二目标语音文本进行断句。例如,第一目标语音文本是“关闭车窗打开空调氛围灯打开”,确定的第一断句文本是“关闭车窗”,则第二目标语音文本为“打开空调氛围灯打开”。
传统序列标注的语音断句方法是通过一个模型预测一个短句中每个字的类别是开头、中间、结尾、无关中的一种。不足在于,单个模型任务太重,需要预测每一个字的类别。
本申请实施例的语音断句方法无需通过模型确定第一目标语音文本中的每个字的类别,而是根据第一目标语音文本中各个测试断句对应的预测断句类型,对第一目标语音文本进行断句。同时,使用滑动窗口可以实现更优化的断点选择,获得了更高的容错性,达到了更高的精确率、召回率和句子准确率。
如下表1示例了序列标注语音断句方法和滑动窗口语音断句方法的精确率、召回率和句子准确率的对比情况。
精确率 召回率 句子准确率
滑动窗口语音断句 97.83% 93.65% 87.8%
序列标注语音断句2 91.5% 89.1% 84%
序列标注语音断句1 89.5% 90% 78%
表1滑动窗口语音断句方法和序列标注语音断句方法测试结果示例
请参阅图3,图3是本申请实施例公开的另一种语音断句方法的流程示意图。
310、获取样本数据。
样本数据包括的多个训练断句文本是根据预设断句类型的分类规则生成的。
多个训练断句文本可以是根据不同应用场景的特点,人工挑选出来的一定数量的用户常用的指令,能够用于描述用户在该应用场景的需求。
可选的,若预设断句类型至少包括第一类断句,第二类断句,第三类断句,第四类断句,则多个训练断句文本中也可包括与第一类断句、第二类断句、第三类断句和第四类断句分别对应的训练断句文本。
此外,样本数据包括的每个训练断句文本可对应有真实断句类型,真实断句类型可以是人工标记的,也可以是基于其它分类方法识别出的准确的断句类型,具体不做限定。
320、从样本数据中选取出训练断句文本。
从样本数据中选取训练断句文本的方式可以是随机选取,可以是根据预设断句类型的分类规则选取出的连续断句,具体不作限定。
330、将训练断句文本输入到待训练的分类模型中,得到训练断句文本的训练分类结果。
训练分类结果包括训练断句文本在预设断句类型中对应的预测概率。
340、根据所述训练断句文本的训练分类结果确定训练断句文本的训练断句类型。
根据训练分类结果包括的各个训练断句文本分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定各个训练断句文本对应的预测断句类型。
350、根据训练断句文本的训练断句类型与训练断句文本对应的真实断句类型计算训练损失,并根据训练损失对待训练的分类模型中的参数进行调整,以得到训练完成的分类模型。
计算的损失可以是L1损失、L2损失、交叉熵损失等,但不限于此。
对模型参数的调整方法可以是梯度下降法、网格搜索法、随机搜索法、贝叶斯优化法等,但不限于此。
前述的步骤310-步骤350可以是对分类模型进行训练的过程。训练后得到的分类模型输出的预测概率较为准确,可应用于如车载语音识别等场景中,执行如下述步骤360-步骤390,对语音指令进行断句。
360、根据预设断句类型的分类规则,为第一目标语音文本构造连续断句。
370、通过训练完成的分类模型获取连续断句的预测分类结果。
380、根据预测分类结果确定与各个测试断句分别对应的预测断句类型。
390、根据各个测试断句分别对应的预测断句类型对第一目标语音文本进行断句。
请参阅图4,图4是本申请实施例公开的一种语音断句装置的结构示意图。该装置可应用于车载终端等电子设备,具体不做限定。如图4所示,语音断句装置400可包括:构造模块410、获取模块420、确定模块430、断句模块640。
构造模块410,用于根据预设断句类型的分类规则,为第一目标语音文本构造连续断句,连续断句包括的多个测试断句是从第一目标语音文本中截取出来,且与不同的预设断句类型分别对应的文本片段;
获取模块420,用于通过训练完成的分类模型获取连续断句的预测分类结果;预测分类结果包括各个测试断句在预设断句类型中对应的预测概率;
确定模块430,用于根据预测分类结果确定与各个测试断句分别对应的预测断句类型;
断句模块440,用于根据各个测试断句分别对应的预测断句类型对第一目标语音文本进行断句。
在一个实施例中,确定模块430,可用于根据预测分类结果包括的各个测试断句分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定各个测试断句中每个测试断句对应的预测断句类型。
在一个实施例中,预设断句类型至少包括第一类断句,第二类断句,第三类断句,第四类断句;第一类断句包括非完整指令的文本,第二类断句包括完整指令的文本,第三类断句包括完整指令文本以及除了完整指令的文本以外的N个字的增量文本,第四类断句包括完整指令文本以及除了完整指令的文本以外的M个字的增量文本;N和M为正整数,M大于N;
所述连续断句包括的多个测试断句至少与第一类断句,第二类断句,第三类断句和第四类断句分别对应。
在一个实施例中,断句模块440,还包括确定单元和断句单元。
确定单元,可用于若在所述连续断句包括的各个测试断句中连续出现预测断句类型为第二类断句、第三类断句、第四类断句的所述测试断句,则将所述预测断句类型为第二类断句的所述测试断句确定为第一断句文本。
断句单元,可用于根据所述第一断句文本对所述第一目标语音文本进行断句。
在一个实施例中,断句单元,还可用于若所述第一断句文本符合业务逻辑规则,则将所述第一断句文本确定为对所述第一目标语音文本进行断句的断句结果;若所述第一断句文本不符合所述业务逻辑规则,则忽略所述第一断句文本,不对所述第一目标语音文本进行断句。
在一个实施例中,该语音断句装置,还包括滑动模块,用于获取对所述第一目标语音文本进行断句后对应的断点标记,并将滑动窗口滑动到所述断点标记之后,将所述滑动窗口内的文本确定为第二目标语音文本;利用所述训练完成的分类模型获取所述第二目标语音文本的预测分类结果,并利用所述第二目标语音文本的预测分类结果对所述第二目标语音文本进行断句。
在一个实施例中,该语音断句装置,还包括预处理模块,用于获取初始语音文本;将所述初始语音文本中与常用语音模板一致的初始断句文本从所述初始语音文本中删除,将删除了所述初始断句文本之后的所述初始语音文本确定为所述第一目标语音文本。
在一个实施例中,该语音断句装置,还可用于模型训练装置500。请参阅图5,图5是本申请实施例公开的一种模型训练装置的结构示意图。该模型训练装置可应用于服务器、计算机等运算能力较强的电子设备;或者,该模型训练装置也可应用于车载终端等运算能力较弱的终端设备,具体不做限定。模型训练装置500可包括:获取模块510,选取模块520,训练模块530,确定模块540,调整模块550。
获取模块510,用于获取样本数据;样本数据包括的多个训练断句文本是根据预设断句类型的分类规则生成的;
选取模块520,用于从样本数据中选取出训练断句文本;
训练模块530,用于将训练断句文本输入到待训练的分类模型中,得到训练断句文本的训练分类结果;训练分类结果包括训练断句文本中的每个样本断句文本在预设断句类型中对应的预测概率;
确定模块540,根据所述训练断句文本的训练分类结果用于确定所述训练断句文本的训练断句类型;
调整模块550,用于根据所述训练断句文本的训练断句类型与所述训练断句文本对应的真实断句类型计算训练损失,并根据所述训练损失对所述待训练的分类模型中的参数进行调整,以得到训练完成的分类模型。
请参阅图6,图6是本申请实施例公开的一种电子设备的结构示意图。
如图6所示,该电子设备600可以包括:
存储有可执行程序代码的存储器610;
与存储器610耦合的处理器620;
其中,处理器620调用存储器610中存储的可执行程序代码,执行本申请实施例公开的任一种语音断句方法。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,计算机程序被所述处理器执行时,使得所述处理器实现本申请实施例公开的任意一种语音断句方法。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本申请实施例公开的一种语音断句方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种语音断句方法,其特征在于,所述方法包括:
根据预设断句类型的分类规则,为第一目标语音文本构造连续断句,所述第一目标语音文本由用户话语命令中的音频信号转变而来的文本数据所生成,所述连续断句包括的多个测试断句是从第一目标语音文本中截取出来,且与不同的预设断句类型分别对应的文本片段;
通过训练完成的分类模型获取所述连续断句的预测分类结果;所述预测分类结果包括各个所述测试断句在所述预设断句类型中对应的预测概率;
根据所述预测分类结果确定与各个所述测试断句分别对应的预测断句类型;
根据各个所述测试断句分别对应的预测断句类型对所述第一目标语音文本进行断句。
2.根据权利要求1所述的方法,其特征在于,所述根据所述预测分类结果确定与各个所述测试断句分别对应的预测断句类型,包括:
根据所述预测分类结果包括的各个测试断句分别对应的预测概率,以及各个预设断句类型分别对应的概率阈值,确定所述各个测试断句中每个测试断句对应的预测断句类型。
3.根据权利要求1所述的方法,其特征在于,所述预设断句类型至少包括第一类断句,第二类断句,第三类断句,第四类断句;所述第一类断句包括非完整指令的文本,所述第二类断句包括完整指令的文本,所述第三类断句包括完整指令文本以及除了完整指令的文本以外的N个字的增量文本,所述第四类断句包括完整指令文本以及除了完整指令的文本以外的M个字的增量文本;所述N和所述M为正整数,所述M大于所述N;
所述连续断句包括的多个测试断句至少与第一类断句,第二类断句,第三类断句和第四类断句分别对应。
4.根据权利要求1所述的方法,其特征在于,所述根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句,包括:
若在所述连续断句包括的各个测试断句中连续出现预测断句类型为第二类断句、第三类断句、第四类断句的所述测试断句,则将所述预测断句类型为第二类断句的所述测试断句确定为第一断句文本;
根据所述第一断句文本对所述第一目标语音文本进行断句。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一断句文本对所述第一目标语音文本进行断句,包括:
若所述第一断句文本符合业务逻辑规则,则将所述第一断句文本确定为对所述第一目标语音文本进行断句的断句结果;
若所述第一断句文本不符合所述业务逻辑规则,则忽略所述第一断句文本,不对所述第一目标语音文本进行断句。
6.根据权利要求1-5任一项所述的方法,其特征在于,在根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句之后,所述方法还包括:
获取对所述第一目标语音文本进行断句后对应的断点标记,并将滑动窗口滑动到所述断点标记之后,将所述滑动窗口内的文本确定为第二目标语音文本;
利用所述训练完成的分类模型获取所述第二目标语音文本的预测分类结果,并利用所述第二目标语音文本的预测分类结果对所述第二目标语音文本进行断句。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述通过训练完成的分类模型对第一目标语音文本进行分类预测之前,所述方法还包括:
获取初始语音文本;
将所述初始语音文本中与常用语音模板一致的初始断句文本从所述初始语音文本中删除,将删除了所述初始断句文本之后的所述初始语音文本确定为所述第一目标语音文本。
8.根据权利要求1所述的方法,其特征在于,在所述根据预设断句类型的分类规则,对第一目标语音文本构造连续断句之前,所述方法包括:
获取样本数据;所述样本数据包括的多个训练断句文本是根据预设断句类型的分类规则生成的;
从所述样本数据中选取出训练断句文本;
将所述训练断句文本输入到待训练的分类模型中,得到所述训练断句文本的训练分类结果;所述训练分类结果包括所述训练断句文本中的每个样本断句文本在预设断句类型中对应的预测概率;
根据所述训练断句文本的训练分类结果确定所述训练断句文本的训练断句类型;
根据所述训练断句文本的训练断句类型与所述训练断句文本对应的真实断句类型计算训练损失,并根据所述训练损失对所述待训练的分类模型中的参数进行调整,以得到训练完成的分类模型。
9.一种语音断句装置,其特征在于,所述装置包括:
构造模块,用于根据预设断句类型的分类规则,对第一目标语音文本构造连续断句,所述第一目标语音文本由用户话语命令中的音频信号转变而来的文本数据所生成,所述连续断句包括的多个测试断句是从第一目标语音文本中截取出来的与不同的预设断句类型分别对应的文本片段;
获取模块,用于通过训练完成的分类模型获取所述测试断句的预测分类结果;所述预测分类结果包括所述测试断句在所述预设断句类型中对应的预测概率;
确定模块,用于根据所述预测分类结果确定与所述测试断句对应的预测断句类型;
断句模块,用于根据各个所述测试断句对应的预测断句类型对所述第一目标语音文本进行断句。
10.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1-7或8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7或8任一项所述的方法。
CN202210001104.9A 2022-01-04 2022-01-04 语音断句方法、装置、电子设备及存储介质 Active CN114420102B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210001104.9A CN114420102B (zh) 2022-01-04 2022-01-04 语音断句方法、装置、电子设备及存储介质
PCT/CN2022/140275 WO2023130951A1 (zh) 2022-01-04 2022-12-20 语音断句方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210001104.9A CN114420102B (zh) 2022-01-04 2022-01-04 语音断句方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114420102A CN114420102A (zh) 2022-04-29
CN114420102B true CN114420102B (zh) 2022-10-14

Family

ID=81271294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210001104.9A Active CN114420102B (zh) 2022-01-04 2022-01-04 语音断句方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN114420102B (zh)
WO (1) WO2023130951A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420102B (zh) * 2022-01-04 2022-10-14 广州小鹏汽车科技有限公司 语音断句方法、装置、电子设备及存储介质
CN115579009B (zh) * 2022-12-06 2023-04-07 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549628A (zh) * 2018-03-16 2018-09-18 北京云知声信息技术有限公司 流式自然语言信息的断句装置及方法
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN109325237A (zh) * 2018-10-22 2019-02-12 传神语联网网络科技股份有限公司 用于机器翻译的完整句识别方法与系统
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置
CN111161711A (zh) * 2020-04-01 2020-05-15 支付宝(杭州)信息技术有限公司 对流式语音识别文本进行断句的方法及装置
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
WO2021208703A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 问题解析方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111547B2 (en) * 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
CN110705254B (zh) * 2019-09-27 2023-04-07 科大讯飞股份有限公司 文本断句方法、装置、电子设备和存储介质
CN112711939A (zh) * 2020-12-23 2021-04-27 深圳壹账通智能科技有限公司 基于自然语言的断句方法、装置、设备及存储介质
CN114420102B (zh) * 2022-01-04 2022-10-14 广州小鹏汽车科技有限公司 语音断句方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108549628A (zh) * 2018-03-16 2018-09-18 北京云知声信息技术有限公司 流式自然语言信息的断句装置及方法
CN109325237A (zh) * 2018-10-22 2019-02-12 传神语联网网络科技股份有限公司 用于机器翻译的完整句识别方法与系统
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置
CN110264997A (zh) * 2019-05-30 2019-09-20 北京百度网讯科技有限公司 语音断句的方法、装置和存储介质
CN111161711A (zh) * 2020-04-01 2020-05-15 支付宝(杭州)信息技术有限公司 对流式语音识别文本进行断句的方法及装置
CN111950256A (zh) * 2020-06-23 2020-11-17 北京百度网讯科技有限公司 断句处理方法、装置、电子设备和计算机存储介质
WO2021208703A1 (zh) * 2020-11-19 2021-10-21 平安科技(深圳)有限公司 问题解析方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于层叠CRF的古文断句与句读标记方法;张合等;《计算机应用研究》;20090915(第09期);全文 *

Also Published As

Publication number Publication date
WO2023130951A1 (zh) 2023-07-13
CN114420102A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108509619B (zh) 一种语音交互方法及设备
CN108305634B (zh) 解码方法、解码器及存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106297800B (zh) 一种自适应的语音识别的方法和设备
CN109754809B (zh) 语音识别方法、装置、电子设备及存储介质
CN112100349A (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
CN114420102B (zh) 语音断句方法、装置、电子设备及存储介质
CN111797632B (zh) 信息处理方法、装置及电子设备
JP7213943B2 (ja) 車載機器の音声処理方法、装置、機器及び記憶媒体
JP6677419B2 (ja) 音声対話方法及び装置
CN111177186B (zh) 基于问题检索的单句意图识别方法、装置和系统
CN111710337B (zh) 语音数据的处理方法、装置、计算机可读介质及电子设备
CN112634867A (zh) 模型训练方法、方言识别方法、装置、服务器及存储介质
CN112885336B (zh) 语音识别系统的训练、识别方法、装置、电子设备
CN110415679A (zh) 语音纠错方法、装置、设备和存储介质
CN109976702A (zh) 一种语音识别方法、装置及终端
CN110473527B (zh) 一种语音识别的方法和系统
CN112466289A (zh) 语音指令的识别方法、装置、语音设备和存储介质
CN112818096A (zh) 对话生成方法及其装置
CN111161730A (zh) 语音指令匹配方法、装置、设备及存储介质
CN115132170A (zh) 语种分类方法、装置及计算机可读存储介质
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN111883126A (zh) 数据处理方式的选择方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant