CN113035175B - 一种语音文本重写模型构建方法、语音识别方法 - Google Patents
一种语音文本重写模型构建方法、语音识别方法 Download PDFInfo
- Publication number
- CN113035175B CN113035175B CN202110229318.7A CN202110229318A CN113035175B CN 113035175 B CN113035175 B CN 113035175B CN 202110229318 A CN202110229318 A CN 202110229318A CN 113035175 B CN113035175 B CN 113035175B
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- recognition
- processed
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 262
- 238000010276 construction Methods 0.000 title claims description 13
- 238000012549 training Methods 0.000 claims abstract description 111
- 230000007246 mechanism Effects 0.000 claims description 141
- 230000008569 process Effects 0.000 claims description 130
- 230000000873 masking effect Effects 0.000 claims description 55
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 32
- 230000003993 interaction Effects 0.000 description 13
- 230000006798 recombination Effects 0.000 description 13
- 238000005215 recombination Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 230000010076 replication Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008521 reorganization Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音文本重写模型构建方法、语音识别方法,先利用样本语音的至少一个样本基础识别文本、样本标准识别文本、样本上文信息以及重写分类实际结果对待训练文本重写模型进行两阶段训练,得到语音文本重写模型,以使该语音文本重写模型具有较好地预测性能,以便在对目标用户输入的待识别语音进行语音识别得到至少一个待校正识别文本之后,可以由该语音文本重写模型根据该至少一个待校正识别文本以及该待识别语音的上文信息进行语音识别文本重写,得到并输出该待识别语音的目标语音识别文本,以使该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音文本重写模型构建方法、语音识别方法。
背景技术
随着人工智能技术的发展,作为人工智能技术中重要研究方向的语音识别技术逐渐应用于越来越多应用领域(例如,金融、运营商、政务、医疗、电商、餐饮酒店、教育培训、房地产以及汽车等应用领域)。其中,语音识别技术用于识别用户语音。
例如,对于人机交互设备来说,在人机交互设备输出提示信息(例如,“你今天心情如何”等)之后,该人机交互设备可以先接收目标用户针对该提示信息输入的用户语音(例如,携带有“我今天很开心”的用户语音),再利用语音识别技术对该用户语音进行分析,得到语音识别文本,以便后续能够基于该语音识别文本进行后续操作(例如,进行语义理解或者生成新的提示信息等)。
然而,因语音识别技术的相关实现方法存在缺陷,导致利用该相关实现方法无法准确地识别出用户语音中携带的语音信息,如此使得如何提高语音识别准确性成为一项亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种语音文本重写模型构建方法、语音识别方法,能够提高语音识别准确性。
本申请实施例提供了一种语音文本重写模型构建方法,所述方法包括:获取样本语音的至少一个样本基础识别文本、所述样本语音的样本标准识别文本、所述样本语音的样本上文信息和所述样本语音的重写分类实际结果;根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型;根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型。
本申请实施例还提供了一种语音识别方法,所述方法包括:获取目标用户针对待使用上文信息输入的待识别语音;对所述待识别语音进行语音识别,得到至少一个待校正识别文本;根据所述至少一个待校正识别文本、所述待使用上文信息和预先构建的语音文本重写模型,得到所述待识别语音的目标语音识别文本;其中,所述语音文本重写模型是利用本申请实施例提供的语音文本重写模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种语音文本重写模型构建装置,包括:第一获取单元,用于获取样本语音的至少一个样本基础识别文本、所述样本语音的样本标准识别文本、所述样本语音的样本上文信息和所述样本语音的重写分类实际结果;第一训练单元,用于根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型;第二训练单元,用于根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型。
本申请实施例还提供了一种语音识别装置,包括:第二获取单元,用于获取目标用户针对待使用上文信息输入的待识别语音;语音识别单元,用于对所述待识别语音进行语音识别,得到至少一个待校正识别文本;文本确定单元,用于根据所述至少一个待校正识别文本、所述待使用上文信息和预先构建的语音文本重写模型,得到所述待识别语音的目标语音识别文本;其中,所述语音文本重写模型是利用本申请实施例提供的语音文本重写模型构建方法的任一实施方式进行构建的。
本申请实施例还提供了一种设备,所述设备包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行本申请实施例提供的的语音文本重写模型构建方法的任一实施方式,或者执行本申请实施例提供的的语音识别方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行本申请实施例提供的的语音文本重写模型构建方法的任一实施方式,或者执行本申请实施例提供的的语音识别方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的的语音文本重写模型构建方法的任一实施方式,或者执行本申请实施例提供的的语音识别方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的语音文本重写模型构建方法和语音识别方法中,利用样本语音的至少一个样本基础识别文本、样本标准识别文本、样本上文信息以及重写分类实际结果对待训练文本重写模型进行两阶段训练,得到语音文本重写模型,以使该语音文本重写模型具有较好地预测性能,以便在对目标用户输入的待识别语音进行语音识别得到至少一个待校正识别文本之后,可以由该语音文本重写模型根据该至少一个待校正识别文本以及该待识别语音的上文信息进行语音识别文本重写,得到并输出该待识别语音的目标语音识别文本,以使该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
其中,因语音文本重写模型具有较好地预测性能,使得该语音文本重写模型能够根据待识别语音的至少一个待校正识别文本以及该待识别语音的上文信息进行准确地语音识别文本重写,从而使得重写得到的目标语音识别文本能够克服上述至少一个待校正识别文本中存在的识别错误(尤其是,与待使用上文信息中相同内容的识别错误),进而使得该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音文本重写模型构建方法的流程图;
图2为本申请实施例提供的一种语音识别方法的流程图;
图3为本申请实施例提供的一种语音文本重写模型构建装置的结构示意图;
图4为本申请实施例提供的一种语音识别装置的结构示意图。
具体实施方式
发明人在针对语音识别的研究中发现,在人机交互过程中,目标用户向人机交互设备输入的待识别语音通常携带的部分信息通常与该待识别语音的上文信息中部分内容相同。例如,在人机交互设备输出问题“你喜欢歌手是谁呀”之后,目标用户可以针对该问题以语音形式输入答复“我喜欢的歌手比较多,例如,我比较喜欢周杰伦、张学友、任贤齐……”。基于上述交互过程可知,该目标用户输入的待识别语音携带有信息“我喜欢的歌手比较多,例如,我比较喜欢周杰伦、张学友、任贤齐……”,而且该待识别语音的上文信息可以包括“你喜欢歌手是谁呀”,如此使得上述待识别语音携带的部分信息(例如,“喜欢”和“歌手”)与该待识别语音的上文信息中部分内容相同。然而,因语音识别技术的相关实现方法仍存在缺陷,使得这些相关实现方法仍无法对待识别语音进行准确地识别,导致基于这些相关实现方法确定的得分最高的识别文本仍然可能存在一些识别错误,尤其可能存在与该待识别语音的上文信息中相同内容的识别错误(例如,将“喜欢”识别为“西环”或者“西幻”等),如此导致语音识别准确率较低。
为了解决背景技术部分的技术问题以及上述相关实现方法存在的缺陷,本申请实施例提供了一种语音文本重写模型构建方法和语音识别方法,其具体包括:利用样本语音的至少一个样本基础识别文本、样本标准识别文本、样本上文信息以及重写分类实际结果对待训练文本重写模型进行两阶段训练,得到语音文本重写模型,以使该语音文本重写模型具有较好地预测性能,以便在对目标用户输入的待识别语音进行语音识别得到至少一个待校正识别文本之后,可以由该语音文本重写模型根据该至少一个待校正识别文本及其上文信息进行语音识别文本重写,得到并输出该待识别语音的目标语音识别文本,以使该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
其中,因语音文本重写模型具有较好地预测性能,使得该语音文本重写模型能够根据待识别语音的至少一个待校正识别文本及其上文信息进行准确地语音识别文本重写,从而使得重写得到的目标语音识别文本能够克服上述该至少一个待校正识别文本中存在的识别错误(尤其是,与该待识别语音的上文信息中相同内容的识别错误),进而使得该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
另外,本申请实施例不限定语音文本重写模型构建方法的执行主体,例如,本申请实施例提供的语音文本重写模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
此外,本申请实施例也不限定语音识别方法的执行主体,例如,本申请实施例提供的语音识别方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例提供的技术方案,下面先介绍语音文本重写模型的构建过程(也就是,语音文本重写模型构建方法),再介绍语音文本重写模型的应用过程(也就是,语音识别方法)。
方法实施例一
参见图1,该图为本申请实施例提供的一种语音文本重写模型构建方法的流程图。
本申请实施例提供的语音文本重写模型构建方法,包括S101-S103:
S101:获取样本语音的至少一个样本基础识别文本、该样本语音的样本标准识别文本、该样本语音的样本上文信息和该样本语音的重写分类实际结果。
样本语音是用于构建语音文本重写模型的语音。另外,本申请实施例不限定样本语音的获取方式,例如,可以将人机交互设备的历史交互过程中涉及的用户语音均确定为样本语音。此外,本申请实施例也不限定样本语音的个数。
样本语音的至少一个样本基础识别文本是指通过对该样本语音进行语音识别得到的至少一个语音识别文本。其中,本申请实施例不限定语音识别的实施方式,可以采用现有的或者未来出现的任一种语音识别方法(例如,利用预先构建的语音识别模型进行语音识别)进行实施。另外,本申请实施例不限定样本基础识别文本的个数,例如,一个样本语音可以对应于Q个样本基础识别文本;Q为正整数。
另外,本申请实施例不限定至少一个样本基础识别文本的获取过程,例如,样本语音对应的至少一个样本基础识别文本的获取过程具体可以包括步骤11-步骤12:
步骤11:对样本语音进行语音识别,得到该样本语音的至少一个语音识别文本及其推荐得分。其中,语音识别文本的推荐得分用于表征利用该语音识别文本表示样本语音携带的语音信息的概率。
作为示例,若步骤11采用预先设定的语音识别模型进行实施,则步骤11具体可以为:利用预先设定的语音识别模型对样本语音进行语音识别,得到该样本语音的D个语音识别文本和该D个语音识别文本的推荐得分。其中,第d个语音识别文本的推荐得分用于表征利用第d个语音识别文本表示该样本语音携带的语音信息的概率;d为正整数,d≤D,D为正整数。
步骤12:根据各个语音识别文本的推荐得分,从样本语音的至少一个语音识别文本中筛选出该样本语音的至少一个样本基础识别文本。
本申请实施例不限定步骤12的实施方式,例如,在一种可能的实施方式中,可以将样本语音的所有语音识别文本中推荐得分满足预设得分条件的各个语音识别文本,均确定为该样本语音的样本基础识别文本。
其中,预设得分条件可以预先设定,例如,该预设得分条件可以为高于第一阈值(如,60)。又如,若将样本语音的所有语音识别文本按照推荐得分从高到低进行排序,则该预设得分条件可以为排序位置低于第二阈值(如,6);若将样本语音的所有语音识别文本按照推荐得分从低到高进行排序,则该预设得分条件可以为排序位置高于第三阈值(如,D-5,且D表示样本语音的语音识别文本的个数)。
基于上述步骤11至步骤12的相关内容可知,在获取到样本语音之后,可以先对该样本语音进行语音识别,得到该样本语音的多个语音识别文本及其推荐得分;再将推荐得分比较高的至少一个语音识别文本均确定为该样本语音的样本基础识别文本,以便后续能够利用该样本语音的所有样本基础识别文本构建语音文本重写模型。
样本语音的样本标准识别文本用于表征该样本语音携带的实际信息;而且本申请实施例不限定该样本标准识别文本的生成过程,例如,该样本标准识别文本可以通过对样本语音进行人工识别得到。
样本语音的样本上文信息用于表示该样本语音的上文内容。例如,对于人机交互设备来说,在人机交互设备输出问题“你最喜欢的歌手是谁”之后,若样本用户针对该问题以语音方式向该人机交互设备输入答复“我最喜欢周杰伦呀”,则携带有“我最喜欢周杰伦呀”的用户语音的上文内容可以包括“你最喜欢的歌手是谁”,故在将该携带有“我最喜欢周杰伦呀”的用户语音确定为样本语音时,可以确定该样本语音的样本上文信息包括“你最喜欢的歌手是谁”。
样本语音的重写分类实际结果用于表征是否需要对该样本语音进行语音识别文本重写的实际标注结果;而且,若样本语音的重写分类实际结果为第一结果(如,“1”),则表示该样本语音的至少一个样本基础识别文本存在识别错误,故为了提高语音识别准确性,可以依据该样本语音的至少一个样本基础识别文本及其样本上文信息进行语音识别文本重写;若样本语音的重写分类实际结果为第一结果(如,“0”),则表示该样本语音的至少一个样本基础识别文本不存在识别错误,故可以直接从该至少一个样本基础识别文本中筛选出该样本语音对应的推荐语音识别文本(例如,将推荐得分最高的样本基础识别文本,确定为该样本语音对应的推荐语音识别文本)。需要说明的是,本申请实施例不限定样本语音的重写分类实际结果的生成方式,例如,可以通过人工标注的方式进行实施。
S102:根据样本语音的至少一个样本基础识别文本、该样本语音的样本标准识别文本和该样本语音的样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型。
其中,待训练文本重写模型是指需要进行训练的重写模型;而且本申请实施例不限定待训练文本重写模型的模型结构,例如,待训练文本重写模型可以采用Transformer模型的模型结构进行实施。
另外,本申请实施例不限定待训练文本重写模型的训练过程,可以采用现有的或者未来出现的任一种模型训练方法进行实施。例如,在一种可能的实施方式下,若样本语音的样本基础识别文本的个数为Q,则待训练文本重写模型的训练过程(也就是S102)具体可以包括步骤21-步骤27:
步骤21:对样本语音的第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本。其中,q为正整数,q≤Q,Q为正整数。
其中,掩码处理用于对样本基础识别文本中部分内容进行遮挡;而且本申请实施例不限定掩码处理的实施方式,可以采用现有的或者未来实现的任一种能够实现掩码处理的方法进行实施。
第q个样本掩码后文本是指将样本语音的第q个样本基础识别文本中一部分内容进行遮挡之后得到的文本,以使该第q个样本掩码后文本包括该第q个样本基础识别文本中另一部分内容(也就是,该第q个样本基础识别文本中未遮挡的内容)。
基于上述步骤21的相关内容可知,在获取到样本语音的Q个样本基础识别文本之后,可以对该样本语音的第q个样本基础识别文本进行掩码处理,得到该样本语音对应的第q个样本掩码后文本,以使该第q个样本掩码后文本携带有该第q个样本基础识别文本的部分内容。其中,q为正整数,q≤Q,Q为正整数。
步骤22:生成第q个样本掩码后文本的文本特征。其中,q为正整数,q≤Q,Q为正整数。
第q个样本掩码后文本的文本特征用于表征该第q个样本掩码后文本携带的信息。另外,本申请实施例不限定第q个样本掩码后文本的文本特征的生成方式(也就是步骤22),可以采用现有的或者未来出现的任一种文本特征提取方法进行实施。例如,步骤22具体可以为:对第q个样本掩码后文本进行向量化处理(例如,word2vec等),得到该第q个样本掩码后文本的文本特征。
实际上,每个样本掩码后文本通常包括至少一个待处理对象(例如,字和/或词),故可以基于一个样本掩码后文本中各个待处理对象携带的信息,生成该样本掩码后文本的文本特征。基于此,本申请实施例还提供了步骤22的一种可能的实施方式,在该实施方式中,若第q个样本掩码后文本包括Yq个待处理对象,则该步骤22,具体可以包括步骤221-步骤222:
步骤221:生成第q个样本掩码后文本中第y个待处理对象的对象特征;其中,y为正整数,y≤Yq;Yq为正整数。
其中,第y个待处理对象的对象特征用于表征该第y个待处理对象携带的信息。
另外,本申请实施例不限定步骤221的实施方式,例如,在一种可能的实施方式下,步骤221具体可以包括:将第q个样本掩码后文本中第y个待处理对象进行向量化处理,得到该第y个待处理对象的对象特征。
实际上,因第q个样本掩码后文本是一个待处理对象序列,使得该第q个样本掩码后文本中第y个待处理对象不仅携带有其自身表示的信息,还携带有其所处文本位置表示的信息,故为了提高第y个待处理对象的对象特征的准确性,本申请实施例还提供了步骤221的一种可能的实施方式,其具体可以包括步骤2211-步骤2213:
步骤2211:对第q个样本掩码后文本中第y个待处理对象进行文本编码,得到该第y个待处理对象的文本编码结果。
其中,第y个待处理对象的文本编码结果用于表征该第y个待处理对象自身表示的信息。
另外,本申请实施例不限定步骤2211中“文本编码”的实施方式,可以采用现有的或者未来出现的任一种文本编码方法(例如,word2vec等)进行实施。
步骤2212:对第q个样本掩码后文本中第y个待处理对象进行位置编码,得到该第y个待处理对象的位置编码结果。
其中,第y个待处理对象的位置编码结果用于表征该第y个待处理对象在第q个样本掩码后文本中所处位置表示的信息。
另外,本申请实施例不限定步骤2212中“位置编码”的实施方式,可以采用现有的或者未来出现的任一种位置编码方法进行实施。
步骤2213:根据第q个样本掩码后文本中第y个待处理对象的文本编码结果和该第y个待处理对象的位置编码结果,确定该第y个待处理对象的对象特征。
本申请实施例不限定步骤2213的实施方式,例如,在一种可能的实施方式中,步骤2213具体可以为:将第q个样本掩码后文本中第y个待处理对象的文本编码结果和该第y个待处理对象的位置编码结果进行加和,得到该第y个待处理对象的对象特征。
另外,为了进一步提高第y个待处理对象的对象特征的准确性,可以进一步依据该第y个待处理对象对应的易混淆对象,生成该第y个待处理对象的对象特征。基于此,本申请实施例还提供了步骤2213的另一种可能的实施方式,其具体可以包括步骤22131-步骤22134:
步骤22131:从预先构建的易混淆对象信息库中查询第y个待处理对象对应的Ky个第一易混淆对象。其中,Ky为正整数。
易混淆对象信息库用于记录各个字和/或词对应的至少一个易混淆对象;而且,本申请实施例不限定易混淆对象信息库的构建方式,可以采用现有的或者未来出现的任一种易混淆对象信息库的构建方法进行实施。
第一易混淆对象是指在易混淆对象信息库中记录的易与第y个待处理对象发生混淆使用的字和/或词。
步骤22132:对第y个待处理对象对应的第k个第一易混淆对象进行文本编码,得到该第y个待处理对象对应的第k个第一易混淆对象特征。其中,k为正整数,且k≤Ky。
第y个待处理对象对应的第k个第一易混淆对象特征用于表征该第y个待处理对象对应的第k个第一易混淆对象携带的信息。
可见,本申请实施例中,在获取到第y个待处理对象对应的Ky个第一易混淆对象之后,可以对该第y个待处理对象对应的各个第一易混淆对象分别进行文本编码,得到该第y个待处理对象对应的各个第一易混淆对象特征。
步骤22133:将第y个待处理对象对应的第1个第一易混淆对象特征至第Ky个第一易混淆对象特征进行加权求和,得到该第y个待处理对象的易混淆特征。
其中,第k个第一易混淆对象特征的加权权重可以根据第y个待处理对象与其对应的第k个第一易混淆对象之间的易混淆度确定(例如,可以将第y个待处理对象与该第y个待处理对象对应的第k个第一易混淆对象之间的易混淆度,直接确定为第k个第一易混淆对象特征的加权权重)。k为正整数,且k≤Ky。
可见,在获取到第y个待处理对象对应的Ky个第一易混淆对象特征之后,可以按照公式(1),对该Ky个第一易混淆对象特征进行加权求和,得到该第y个待处理对象的易混淆特征。
式中,表示第q个样本掩码后文本中第y个待处理对象的易混淆特征;/>表示第q个样本掩码后文本中第y个待处理对象;/>表示第q个样本掩码后文本中第y个待处理对象与其对应的第k个第一易混淆对象之间的易混淆度;/>表示第q个样本掩码后文本中第y个待处理对象对应的第k个第一易混淆对象;/>表示第y个待处理对象对应的第k个第一易混淆对象特征;Ky表示第y个待处理对象对应的第一易混淆对象的个数。
步骤22134:将第y个待处理对象的文本编码结果、该第y个待处理对象的位置编码结果和该第y个待处理对象的易混淆特征进行加和,得到该第y个待处理对象的对象特征。
本申请实施例中,在获取到第y个待处理对象的文本编码结果、位置编码结果以及易混淆特征之后,可以将第y个待处理对象的文本编码结果、位置编码结果以及易混淆特征进行加和(如公式(2)所示),得到第y个待处理对象的对象特征。
式中,表示第q个样本掩码后文本中第y个待处理对象的对象特征;/>表示第q个样本掩码后文本中第y个待处理对象的文本编码结果;/>表示第q个样本掩码后文本中第y个待处理对象的易混淆特征;/>表示第q个样本掩码后文本中第y个待处理对象的位置编码结果。
基于上述步骤2211至步骤2213的相关内容可知,对于第q个样本掩码后文本中第y个待处理对象来说,可以先对该第y个待处理对象分别进行文本编码、位置编码以及易混淆特征提取,得到该第y个待处理对象的文本编码结果、位置编码结果以及易混淆特征;再将该第y个待处理对象的文本编码结果、位置编码结果以及易混淆特征进行加和(如公式(2)所示),得到该第y个待处理对象的对象特征,以使该第y个待处理对象的对象特征能够更准确地表示出第q个样本掩码后文本中第y个待处理对象携带的信息。
步骤222:将第q个样本掩码后文本中第1个待处理对象的对象特征至第Yq个待处理对象的对象特征的集合,确定为该第q个样本掩码后文本的文本特征。
本申请实施例中,在获取到第q个样本掩码后文本中第1个待处理对象的对象特征/>第2个待处理对象/>的对象特征/>第Yq个待处理对象/>的对象特征之后,可以将/>的集合,确定为第q个样本掩码后文本的文本特征/>
基于上述步骤221至步骤222的相关内容可知,对于样本语音对应的第q个样本掩码后文本来说,可以先生成该第q个样本掩码后文本中各个待处理对象的对象特征;再将该第q个样本掩码后文本中所有待处理对象的对象特征的集合,确定为该第q个样本掩码后文本的文本特征,以使该第q个样本掩码后文本的文本特征能够更准确地表示出该第q个样本掩码后文本携带的信息。
步骤23:生成样本上文信息的文本特征。
其中,样本上文信息的文本特征用于表征该样本上文信息携带的信息。
另外,本申请实施例不限定步骤23的实施方式,可以采用现有的或者未来出现的任一种文本特征抽取方法进行实施。例如,在一种可能的实施方式中,步骤23具体可以为:对样本上文信息进行向量化处理(例如,word2vec等),得到该样本上文信息的文本特征。
实际上,样本上文信息的语义信息可以利用该样本上文信息中的至少一个关键词进行表示,故为了避免样本上文信息中无意义内容的干扰,本申请实施例还提供了步骤23的另一种可能的实施方式,其具体可以包括步骤231-步骤232:
步骤231:对样本上文信息进行关键词提取,得到该样本上文信息的关键词。
本申请实施例不限定步骤231中“关键词提取”的实施方式,可以采用现有的或者未来出现的任一种关键词提取方法进行实施。
另外,为了进一步提高样本上文信息的关键词的准确性,可以依据样本语音对样本上文信息进行关键词提取,得到该样本上文信息的关键词,以使该样本上文信息的关键词与该样本语音之间具有较高的关联性。
此外,本申请实施例不限定样本上文信息的关键词的个数。
步骤232:根据样本上文信息的关键词,生成该样本上文信息的文本特征。
本申请实施例不限定步骤232的实施方式,例如,在一种可能的实施方式下,步骤232具体可以为:对样本上文信息的关键词进行向量化处理(例如,word2vec等),得到该样本上文信息的文本特征,以使该样本上文信息的文本特征包括该样本上文信息的关键词向量化表示。
另外,为了进一步提高样本上文信息的文本特征的准确性,本申请实施例还提供了步骤232的另一种可能的实施方式,在该实施方式中,若样本上文信息的关键词包括N1个待处理对象(例如,字和/或词),则步骤232具体可以包括步骤2321-步骤2322:
步骤2321:生成样本上文信息的关键词中第d个待处理对象的对象特征;其中,第d个待处理对象的对象特征用于表征该第d个待处理对象携带的信息;d为正整数,d≤N1,N1为正整数。
本申请实施例不限定步骤2321的实施方式,例如,在一种可能的实施方式下,步骤2321具体可以包括:将该样本上文信息的关键词中第d个待处理对象进行向量化处理(例如,word2vec等),得到该第d个待处理对象的对象特征。
另外,为了进一步提高第d个待处理对象的对象特征的准确性,本申请实施例还提供了步骤2321的另一种可能的实施方式,其具体可以包括:先对样本上文信息的关键词中第d个待处理对象进行文本编码,得到该第d个待处理对象的文本编码结果;并对该第d个待处理对象进行位置编码,得到该第d个待处理对象的位置编码结果。然后,将该第d个待处理对象的文本编码结果和该第d个待处理对象的位置编码结果进行加和(如公式(3)所示),得到该第d个待处理对象的对象特征。
式中,表示样本上文信息的关键词中第d个待处理对象的对象特征;表示样本上文信息的关键词中第d个待处理对象的文本编码结果;表示样本上文信息的关键词中第d个待处理对象的位置编码结果。
步骤2322:将样本上文信息的关键词中第1个待处理对象的对象特征至第N1个待处理对象的对象特征的集合,确定为该样本上文信息的文本特征。
本申请实施例中,在获取到样本上文信息的关键词中各个待处理对象的对象特征之后,可以将该样本上文信息的关键词中第1个待处理对象的对象特征第2个待处理对象/>的对象特征/>(以此类推)、以及第N1个待处理对象/>的对象特征/>的集合,确定为该样本上文信息的文本特征/>
基于上述步骤231至步骤232的相关内容可知,对于样本语音对应的样本上文信息来说,可以先从该样本上文信息中提取出该样本上文信息的至少一个关键词(尤其是与样本语音相关的关键词);再依据该样本上文信息的至少一个关键词,生成该样本上文信息的文本特征,以使该样本上文信息的文本特征能够更准确地表示出该样本上文信息携带的信息(尤其是与样本语音相关的信息)。
步骤24:将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型,得到该待训练文本重写模型输出的样本语音的第一预测识别文本。
其中,第一预测识别文本是由待训练文本重写模型重写得到的,而且该第一预测识别文本用于表征样本语音携带的预测语音信息。另外,本申请实施例不限定步骤24的实施方式,例如,待训练文本重写模型可以利用下文公式(1)-(9)以及(12)-(41)进行实施。
步骤25:判断是否达到第一停止条件,若是,则执行步骤27;若否,则执行步骤26。
其中,第一停止条件可以预先设定,例如,第一停止条件可以是样本语音的第一预测识别文本和该样本语音的样本标准识别文本之间的差距达到第一阈值,也可以是样本语音的第一预测识别文本的变化率低于第二阈值,还可以为待训练文本重写模型的更新次数达到第三阈值。
本申请实施例中,判断当前轮的待训练文本重写模型是否达到第一停止条件,若达到,则表示当前轮的待训练文本重写模型具有较好的预测性能,故可以直接对当前轮的待训练文本重写模型进行保存和/或使用;若未达到,则表示当前轮的待训练文本重写模型具有较差的预测性能,需要依据样本语音的第一预测识别文本与该样本语音的样本标准识别文本之间的差距,更新该待训练文本重写模型,以使更新后的待训练文本重写模型具有更好的预测性能。
步骤26:根据样本语音的第一预测识别文本和该样本语音的样本标准识别文本,更新待训练文本重写模型,并返回执行上文步骤24。
本申请实施例中,在确定当前轮的待训练文本重写模型没有达到第一停止条件之后,可以依据样本语音的第一预测识别文本和该样本语音对应的样本标准识别文本,更新待训练文本重写模型,并利用更新后的待训练文本重写模型返回执行上文步骤24及其后续步骤。
步骤27:根据待训练文本重写模型,确定待优化文本重写模型。
本申请实施例中,在确定当前轮的待训练文本重写模型达到第一停止条件之后,可以依据该待训练文本重写模型构建待优化文本重写模型(例如,可以直接将该待训练文本重写模型确定为待优化文本重写模型),以使该待优化文本重写模型的预测性能能够达到该训练好的待训练文本重写模型所能达到的水平。
基于上述步骤21至步骤27的相关内容可知,在获取到样本语音的Q个样本基础识别文本以及样本上文信息之后,可以先对各个样本基础识别文本分别进行掩码处理,得到各个样本基础识别文本对应的样本掩码后文本;再利用各个样本基础识别文本对应的样本掩码后文本以及该样本上文信息训练待训练文本重写模型,以使训练好的待训练文本重写模型能够依据各个样本掩码后文本以及样本上文信息对该样本语音的语音识别文本进行重写,以使重写得到的语音识别文本十分接近于该样本语音的样本标准识别文本(甚至就是该样本语音的样本标准识别文本);最后,依据训练好的待训练文本重写模型,构建待优化文本重写模型,以使该待优化文本重写模型也具有较好的预测性能。
在一些情况下,为了进一步提高待训练文本重写模型的预测性能,可以在待训练文本重写模型的不同批次训练过程中采用不同的注意力机制进行文本预测,如此能够有效地避免模型训练过拟合的发生,从而能够有效地提高训练好的待训练文本重写模型的普适性。为了便于理解该训练过程,下面将以待训练文本重写模型的第r批次训练过程为例进行说明。其中,第r批次训练过程是指利用第r批次训练集训练待训练文本重写模型的训练过程;r为正整数,r≤R,R表示待训练文本重写模型的训练过程批次数。
对于待训练文本重写模型的第r批次训练过程来说,该第r批次训练过程可以采用该待训练文本重写模型的第r批次训练集进行训练;而且若该第r批次训练集可以包括上文样本语音,则该待训练文本重写模型的第r批次训练过程具体可以包括步骤31-步骤39:
步骤31:从至少一个候选注意力机制中随机选择待训练文本重写模型在第r批次训练过程中使用的注意力机制,确定为第r批次注意力机制。
候选注意力机制是指在待训练文本重写模型的训练过程中该待训练文本重写模型可以选用的注意力机制;而且本申请实施例不限定候选注意力机制的个数,例如,至少一个候选注意力机制可以包括单向注意力机制、双向注意力机制和序列注意力机制。
其中,单向注意力机制是利用单侧文本信息进行注意力计算的;而且该单向注意力机制可以是单向语言模型所使用的注意力机制。双向注意力机制是利用双侧文本信息进行注意力计算的;而且该双向注意力机制可以是双向语言模型所使用的注意力机制。序列注意力机制可以是序列到序列(seq-to-seq)语音模型所使用的注意力机制。
第r批次注意力机制用于表示在待训练文本重写模型的第r批次训练过程中该待训练文本重写模型所使用的注意力机制。例如,当待训练文本重写模型采用Transformer模型的模型结构进行实施时,则在待训练文本重写模型的第r批次训练过程中该待训练文本重写模型中多头注意力层可以采用该第r批次注意力机制进行实施。
基于上述步骤31的相关内容可知,对于需要利用R批次训练集进行训练的待训练文本重写模型来说,在利用第r批次训练集训练该待训练文本重写模型时,可以先从至少一个候选注意力机制(例如,单向注意力机制、双向注意力机制和序列注意力机制)中随机选择一个候选注意力机制,作为第r批次注意力机制,以便后续能够由待训练文本重写模型在第r批次训练过程中始终利用该第r批次注意力机制进行预测。其中,r为正整数,且r≤R,R为正整数。
需要说明的是,本申请实施例不限定各个候选注意力机制的被选择概率,例如,若至少一个候选注意力机制包括单向注意力机制、双向注意力机制和序列注意力机制,则该单向注意力机制的被选择概率为1/3、双向注意力机制的被选择概率为1/3和序列注意力机制的被选择概率为1/3。
步骤32:从预设映射表中查询第r批次注意力机制对应的掩码比例,确定为第r批次掩码比例。其中,预设映射表包括第r批次注意力机制和该第r批次注意力机制对应的掩码比例之间的对应关系。
预设映射表用于记录各个候选注意力机制对应的掩码比例。例如,预设映射表可以包括单向注意力机制与第一掩码比例(例如,15%)之间的对应关系、双向注意力机制与第二掩码比例(例如,15%)之间的对应关系、以及序列注意力机制与第三掩码比例(例如,50%)之间的对应关系。
第r批次掩码比例是指针对待训练文本重写模型的第r批次训练集中样本语音的各个样本基础识别文本进行掩码处理时所使用的掩码比例。例如,若第r批次掩码比例为15%,则表示在对第r批次训练集中样本语音的第q个样本基础识别文本进行掩码处理时,可以从该第q个样本基础识别文本中选择15%的内容进行遮挡。其中,q为正整数,q≤Q,Q为正整数。
基于上述步骤32的相关内容可知,对于待训练文本重写模型的第r批次训练过程来说,在获取到第r批次注意力机制之后,可以从预设映射表中查询对应于该第r批次注意力机制的掩码比例,作为第r批次掩码比例,以便后续能够利用该第r批次掩码比例对第r批次训练集中样本语音的各个样本基础识别文本进行掩码处理。
步骤33:按照第r批次掩码比例对第r批次训练集中样本语音的第q个样本基础识别文本进行掩码处理,得到该样本语音对应的第q个样本掩码后文本。其中,q为正整数,q≤Q,Q为正整数。
实际上,使用不同的注意力机制进行预测的待训练文本重写模型可以具有不同的学习任务,其具体为:若待训练文本重写模型使用单向注意力机制或者双向注意力机制进行预测,则该待训练文本重写模型的学习任务可以包括学习实际被掩码对象(也就是,掩码后文本中实际被遮挡内容)和学习样本标准识别文本;若待训练文本重写模型使用序列注意力机制进行预测,则该待训练文本重写模型的学习任务可以包括学习样本标准识别文本。
基于此,为了能够实现上述学习需求,本申请实施例提供了步骤33的一种可能的实施方式,其具体可以包括步骤331-步骤332:
步骤331;若第r批次注意力机制为单向注意力机制或者双向注意力机制,则按照第r批次掩码比例对第r批次训练集中样本语音的第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本和该第q个样本掩码后文本的实际被掩码对象。
其中,第q个样本掩码后文本的实际被掩码对象是指第q个样本掩码后文本中实际被遮挡的内容。可见,若将第q个样本掩码后文本的实际被掩码对象填充至该第q个样本掩码后文本的内容遮挡位置上,能够得到第q个样本基础识别文本。
步骤332:若第r批次注意力机制为序列注意力机制,则按照第r批次掩码比例对第r批次训练集中样本语音的第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本。
基于上述步骤331至步骤332的相关内容可知,对于待训练文本重写模型的第r批次训练过程来说,在获取到第r批次注意力机制和第r批次掩码比例之后,可以依据该第r批次注意力机制和第r批次掩码比例对第r批次训练集中样本语音的各个样本基础识别文本进行掩码处理,得到该样本语音对应的掩码处理数据(例如,样本掩码后文本和/或该样本掩码后文本的实际被掩码对象),以便后续能够利用该样本语音对应的掩码处理数据辅助待训练文本重写模型在第r批次训练过程中完成相应的学习任务,其具体为:若第r批次注意力机制为单向注意力机制或者双向注意力机制,则后续能够利用第r批次训练集中样本语音对应Q个样本掩码后文本及其实际被掩码对象,辅助待训练文本重写模型在第r批次训练过程中完成学习实际被遮挡内容和学习样本标准识别文本的两项学习任务;若第r批次注意力机制为序列注意力机制,则后续能够利用第r批次训练集中样本语音对应Q个样本掩码后文本,辅助待训练文本重写模型在第r批次训练过程中完成学习样本标准识别文本的一项学习任务。
步骤34:生成第q个样本掩码后文本的文本特征。其中,q为正整数,q≤Q,Q为正整数。
需要说明的是,步骤34的相关内容请参见上文步骤22。
步骤35:生成样本上文信息的文本特征。
需要说明的是,步骤35的相关内容请参见上文步骤23。
步骤36:将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型,得到该待训练文本重写模型输出的样本语音的第一预测识别文本。
实际上,因使用不同的注意力机制进行预测的待训练文本重写模型可以具有不同的学习任务,使得使用不同注意力机制进行预测的待训练文本重写模型可以采用不同的训练方式,从而使得该待训练文本重写模型可以对应于不同的预测任务。基于此,本申请实施例还提供了步骤36的一种可能的实施方式,其具体可以包括步骤361-步骤362:
步骤361:若第r批次注意力机制为单向注意力机制或者双向注意力机制,则将样本Q个掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型,得到该待训练文本重写模型输出的样本语音的第一预测识别文本和该Q个样本基础识别文本的预测被掩码对象。
其中,第q个样本基础识别文本的预测被掩码对象是指第q个样本掩码后文本中预测被遮挡内容。其中,q为正整数,q≤Q,Q为正整数。
另外,本申请实施例不限定第一预测识别文本以及Q个样本基础识别文本的预测被掩码对象的确定过程,例如,在一种可能的实施方式中,若待训练文本重写模型包括第一编码层和第一解码层,则第一预测识别文本以及Q个样本基础识别文本的预测被掩码对象的确定过程,具体可以包括步骤41-步骤42:
步骤41:将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入第一编码层,得到第一编码层输出的该Q个样本掩码后文本的特征编码和该Q个样本掩码后文本的预测被掩码对象。
其中,第一编码层用于对该第一编码层的输入数据进行编码处理以及被掩码对象预测处理,得到并输出该输入数据的编码结果以及预测被掩码对象。
另外,本申请实施例不限定第一编码层的结构,例如,第一编码层可以包括L个堆叠块、特征重组层、特征拼接层和编码输出层。其中,第l个堆叠块的输入数据包括第l-1个堆叠块的输出数据,l-1为正整数,l≤L,L为正整数;特征重组层的输入数据包括第L个堆叠块的输出数据;特征拼接层的输入数据包括特征重组层的输出数据和第L个堆叠块的部分输出数据。
本申请实施例不限定L个堆叠块的结构,例如,各个堆叠块均可以包括一个多头自注意力层(MultiHead)和前馈网络连接层(FNN);而且第l个堆叠块的输入数据为第l-1个堆叠块的输出数据。此时,第l个堆叠块可以利用公式(4)和(5)进行编码处理。
式中,表示针对目标编码对象(例如,上文的/>或者/>)的第l次编码结果;/>表示表示针对目标编码对象的第l-1次编码结果;/>表示第l个堆叠块中多头自注意力层的Query输入值;/>表示第l个堆叠块中多头自注意力层的Key输入值;/>表示第l个堆叠块中多头自注意力层的Value输入值;/>表示第1个堆叠块的输入数据;/>表示第1个堆叠块中多头自注意力层的Query输入值;/>表示第1个堆叠块中多头自注意力层的Key输入值;/>表示第1个堆叠块中多头自注意力层的Value输入值。其中,l-1为正整数,l≤L,L为正整数。
还需要说明的是,本申请实施例不限定多头自注意力层和前馈网络连接层,可以采用现有的或者未来出现的任一种多头自注意力层和前馈网络连接层进行实施。例如,每个堆叠块中的前向神经网络层和多头自注意力层都带有残差连接结构和层归一化结构。
为了便于理解上述第一编码层的工作原理,下面结合Q个样本掩码后文本的特征编码及其预测被掩码对象进行说明。
作为示例,利用第一编码层确定Q个样本掩码后文本的特征编码及其预测被掩码对象的过程,具体可以包括步骤411-步骤415:
步骤411:利用L个堆叠块对样本上文信息的文本特征进行编码处理,得到样本上文信息的编码表示。
其中,第l个堆叠块用于对该第l个堆叠块的输入数据进行编码处理,得到该输入数据的编码结果。
可见,若第一编码层中L个堆叠块可以利用上文公式(4)-(5)进行编码处理,则在将样本上文信息的文本特征输入第1个堆叠块之后,先由该第1个堆叠块利用上文公式(5)进行编码处理,得到并输出样本上文信息对应的第1次编码结果/>再将样本上文信息对应的第1次编码结果/>输入第2个堆叠块,以使该第2个堆叠块利用上文公式(4)进行编码处理,得到并输出样本上文信息对应的第2次编码结果/>(依次类推);最后,将样本上文信息对应的第L-1次编码结果/>输入第L个堆叠块,以使该第L个堆叠块利用上文公式(4)进行编码处理,得到并输出样本上文信息对应的第L次编码结果/>并将样本上文信息对应的第L次编码结果/>确定为样本上文信息的编码表示/>其中,TMessage为样本上文信息中待处理对象个数;/>为样本上文信息中第tMessage个待处理对象的编码表示,tMessage为正整数,tMessage≤TMessage。
步骤412:利用L个堆叠块对第q个样本掩码后文本的文本特征进行编码处理,得到该第q个样本掩码后文本的编码表示。其中,q为正整数,q≤Q,Q为正整数。
作为示例,若第一编码层中L个堆叠块可以利用上文公式(4)-(5)进行编码处理,则步骤412具体可以包括:在将第q个样本掩码后文本的文本特征输入第1个堆叠块之后,先由该第1个堆叠块利用上文公式(5)进行编码处理,得到并输出该第q个样本掩码后文本对应的第1次编码结果/>再将该第q个样本掩码后文本对应的第1次编码结果/>输入第2个堆叠块,以使该第2个堆叠块利用上文公式(4)进行编码处理,得到并输出该第q个样本掩码后文本对应的第2次编码结果/>(依次类推);最后,将该第q个样本掩码后文本对应的第L-1次编码结果/>输入第L个堆叠块,以使该第L个堆叠块利用上文公式(4)进行编码处理,得到并输出该第q个样本掩码后文本对应的第L次编码结果/>并将该第q个样本掩码后文本对应的第L次编码结果/>确定为该第q个样本掩码后文本的编码表示/>其中,Tq为第q个样本掩码后文本中待处理对象个数;/>为第q个样本掩码后文本中第tq个待处理对象的编码表示,tq为正整数,tq≤Tq。
步骤412:利用特征重组层和样本上文信息的编码表示对第q个样本掩码后文本的编码表示进行重组处理,得到该第q个样本掩码后文本的重组编码。其中,q为正整数,q≤Q,Q为正整数。
其中,特征重组层用于对该特征重组层的输入数据进行重组处理;而且本申请实施例不限定特征重组层的工作原理,为了便于理解,下面以获取第q个样本掩码后文本的重组编码为例进行说明。
作为示例,对于特征重组层来说,在获取到第q个样本掩码后文本的编码表示Hq和样本上文信息的编码表示HMessage之后,可以先对第q个样本掩码后文本的编码表示Hq和样本上文信息的编码表示HMessage进行交叉注意处理(如公式(6)-(7)所示),得到第q个样本掩码后文本对应的注意力权重;再将第q个样本掩码后文本对应的注意力权重和样本上文信息的编码表示HMessage进行加权处理(如公式(8)所示),得到第q个样本掩码后文本对应的重组特征;最后,将第q个样本掩码后文本对应的重组特征进行最大池化(如公式(9)所示),得到该第q个样本掩码后文本的重组编码。
式中,为第q个样本掩码后文本的重组编码;/>表示第q个样本掩码后文本中第tq个待处理对象的重组编码表示;/>为第q个样本掩码后文本中第tq个待处理对象的编码表示,tq为正整数,tq≤Tq;/>为样本上文信息中第tMessage个待处理对象的编码表示,tMessage为正整数,tMessage≤TMessage;Vc、Uc和Wc均为可训练的特征重组层参数。
步骤413:利用特征拼接层对第q个样本掩码后文本的文本特征、该第q个样本掩码后文本的编码表示和该第q个样本掩码后文本的重组编码进行拼接,得到该第q个样本掩码后文本的特征编码。其中,q为正整数,q≤Q,Q为正整数。
其中,特征拼接层用于对该特征拼接层的输入数据进行拼接,得到该输入数据的拼接结果。例如,若将第q个样本掩码后文本的文本特征该第q个样本掩码后文本的编码表示Hq、以及该第q个样本掩码后文本的重组编码/>输入特征拼接层之后,该特征拼接层可以将/>Hq以及/>进行拼接,得到该第q个样本掩码后文本的特征编码/> 其中,/>为第q个样本掩码后文本中第tq个待处理对象的拼接编码表示,而且该/>可以由第q个样本掩码后文本中第tq个待处理对象/>的对象特征/>该第q个样本掩码后文本中第tq个待处理对象/>的编码表示/>和该第q个样本掩码后文本中第tq个待处理对象/>的重组编码表示/>(或者该第q个样本掩码后文本中第tq个待处理对象的加权编码表示/>)进行拼接得到(例如,/>或者/> )。
步骤414:利用编码输出层对第q个样本掩码后文本的特征编码进行被掩码对象预测,得到该第q个样本掩码后文本的预测被掩码对象。其中,q为正整数,q≤Q,Q为正整数。
其中,编码输出层可以用于对该编码输出层的输入数据进行预设输出处理,得到该编码输出层的输出结果。另外,本申请实施例不限定预设输出处理,例如,为了提高语音文本重写模型的预测性能,可以在针对待训练文本重写模型的训练过程中,预先设定待训练文本重写模型中编码输出层的预设输出处理包括预测被掩码对象处理。
可见,对于待训练文本重写模型的训练过程来说,在将第q个样本掩码后文本的特征编码Hq′输入该编码输出层之后,该编码输出层可以利用公式(10)-(11)预测该第q个样本掩码后文本中被掩码对象,得到该第q个样本掩码后文本的预测被掩码对象。
式中,表示第q个样本基础识别文本中第tq个待处理对象对应的预测输出结果;表示第q个样本基础识别文本中第tq个待处理对象是预设对象表(例如,字表或者词表)中第v个候选对象(例如,字或者词)wv的概率;[w1,w2,…,wV]表示预设对象表;V为正整数。
基于上述步骤41的相关内容可知,对于待训练文本重写模型来说,在将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入该待训练文本重写模型之后,该待训练文本重写模型中第一编码层可以依据样本上文信息的文本特征对该Q个样本掩码后文本的文本特征进行编码处理以及被掩码对象预测处理,得到并输出Q个样本掩码后文本的特征编码以及该Q个样本掩码后文本的预测被掩码对象。
步骤42:将Q个样本掩码后文本的特征编码输入第一解码层,得到该第一解码层输出的样本语音的第一预测识别文本。
第一解码层用于对第一编码层输出的编码结果进行解码处理以及文本重写处理。其中,本申请实施例不限定第一解码层中的解码处理过程,例如,第一解码层可以采用长短记忆(Long Short-Term Memory,LSTM)网络或者门控循环单元(GRU)网络进行解码。另外,本申请实施例也不限定第一解码层中的文本重写处理,例如,可以采用指针生成网络进行实施,也可以采用复制(Copy)机制和覆盖(Coverage)机制进行实施。
为了便于理解,下面以样本语音的第一预测识别文本的生成过程为例进行说明。
作为示例,若第一解码层利用GRU网络+Copy机制+Coverage机制进行实施,则样本语音的第一预测识别文本的生成过程,具体可以包括步骤421-步骤422:
步骤421:利用GRU网络对Q个样本掩码后文本的特征编码进行解码处理,得到Q个样本掩码后文本对应的每个时间步的解码状态。
其中,GRU网络用于对第一解码层的输入数据进行解码处理。下面以步骤421的一种可能的实施方式为例进行说明。
作为示例,步骤421具体可以包括:先对Q个样本掩码后文本的特征编码进行最大池化处理(如公式(12)所示),得到Q个样本掩码后文本对应的整体池化结果HJ;再对Q个样本掩码后文本对应的整体池化结果HJ进行非线性变换,得到Q个样本掩码后文本对应的初始解码状态s0;最后,利用GRU网络计算Q个样本掩码后文本对应的每个时间步的解码状态(如公式(14)所示)。
s0=ReLu(WsHJ+bs) (13)
st=GRU(st-1,yt-1,ct-1) (14)
式中,HJ为Q个样本掩码后文本对应的整体池化结果;为第q个样本掩码后文本的特征编码,q为正整数,q≤Q,Q为正整数,Q表示样本掩码后文本的个数;st表示第t时刻下Q个样本掩码后文本的GRU解码状态表示;st-1表示第t-1时刻下Q个样本掩码后文本的GRU解码状态表示;yt-1表示第一解码层在第t-1时刻下针对Q个样本掩码后文本的预测输出;ct-1表示在第t-1时刻下Q个样本掩码后文本的上下文向量。
步骤422:根据样本上文信息的编码表示、Q个样本掩码后文本的重组编码、Q个样本掩码后文本对应的解码状态表示、Copy机制和Coverage机制,确定样本语音的第一预测识别文本。
作为示例,步骤422具体可以采用下文(A)-(C)所示的过程进行实施。
(A)利用Copy机制和Coverage机制对样本上文信息的重组编码进行重组,得到该样本上文信息中待处理对象的复制概率和生成概率。
首先,利用公式(15)将Q个样本掩码后文本的重组编码与第t时刻下Q个样本掩码后文本的GRU解码状态表示进行拼接并进行线性变换,得到融入Q个样本掩码后文本的第t时刻解码状态其中,t为正整数。
其中,表示融入Q个样本掩码后文本的第t时刻解码状态;/>为第q个样本掩码后文本的重组编码;st表示第t时刻下Q个样本掩码后文本的GRU解码状态表示;U1→Q和b1→Q均为可训练的第一解码层参数。
其次,基于交叉注意力机制、Copy机制和Coverage机制,计算Q个样本掩码后文本的第t时刻解码状态与样本上文信息的编码表示之间的注意力权重(如公式(16)-(18)所示)。
式中,表示样本上文信息中第tMessage个待处理对象与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重;/>表示融入Q个样本掩码后文本的第t时刻解码状态;/>表示样本上文信息中第tMessage个待处理对象的编码表示;vε、Uε、Wε和wg均为可训练的第一解码层参数。
然后,依据样本上文信息中各个待处理对象与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重,将样本上文信息中各个待处理对象的编码表示进行加权求和,得到第t时刻下样本上文信息对应的上下文向量(如公式(19)所示)。
式中,表示第t时刻下样本上文信息对应的上下文向量;/>表示样本上文信息中第tMessage个待处理对象与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重;/>表示样本上文信息中第tMessage个待处理对象的编码表示;tMessage为正整数,tMessage≤TMessage。
另外,基于Copy机制和Coverage机制,计算第t时刻下样本上文信息对应的复制概率和生成概率(如公式(20)-(21)所示)。
式中,表示第t时刻下样本上文信息对应的复制概率;/>表示第t时刻下样本上文信息对应的生成概率;/>表示样本上文信息中第tMessage个待处理对象;wv为预设对象表中第v个候选对象;/>和/>均为可训练的第一解码层参数。
(B)同理利用Copy机制、Coverage机制、以及第t时刻下Q个样本掩码后文本的GRU解码状态表示对Q个样本掩码后文本的重组编码进行重组,得到该Q个样本掩码后文本中待处理对象的复制概率和生成概率。
首先,先对样本上文信息的编码表示进行最大池化处理(如公式(22)),得到样本上文信息的整体编码表示再利用公式(23)将样本上文信息的编码表示与第t时刻下Q个样本掩码后文本的GRU解码状态表示进行拼接并进行线性变换,得到融入样本上文信息的第t时刻解码状态/>
其中,表示融入样本上文信息的第t时刻解码状态/>st表示第t时刻下Q个样本掩码后文本的GRU解码状态表示;/>表示样本上文信息的整体编码表示;表示样本上文信息中第tMessage个待处理对象的编码表示;UMessage和bMessage均为可训练的第一解码层参数。
然后,基于交叉注意力机制、Copy机制和Coverage机制,计算Q个样本掩码后文本的第t时刻解码状态与各个样本掩码后文本的特征编码之间的注意力权重(如公式(24)-(26)所示)。
式中,表示第q个样本掩码后文本中第tq个待处理对象/>的特征编码与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重;/>表示融入样本上文信息的第t时刻解码状态;/>表示第q个样本掩码后文本中第tq个待处理对象/>的特征编码;vb、Wb和/>均为可训练的第一解码层参数。
其次,利用预先构建的易混淆对象库,确定Q个样本掩码后文本对应的易混淆对象权重(如公式(27)-(28)所示)。
式中,表示复制第q个样本掩码后文本中第tq个待处理对象/>时融入预设对象表中候选对象wr的混淆对象权重;st表示第t时刻下Q个样本掩码后文本的GRU解码状态表示;/>表示样本上文信息的整体编码表示;HJ为Q个样本掩码后文本对应的整体池化结果;Uf、bf和Wf均为可训练的第一解码层参数。
然后,依据第q个样本掩码后文本中各个待处理对象与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重、以及第q个样本掩码后文本对应的混淆对象权重,将第q个样本掩码后文本中各个待处理对象的编码表示进行加权求和,得到第t时刻下第q个样本掩码后文本对应的上下文向量(如公式(29)所示)。
式中,表示第t时刻下第q个样本掩码后文本对应的上下文向量;/>表示第q个样本掩码后文本中第tq个待处理对象/>与Q个样本掩码后文本的第t时刻解码状态之间的注意力权重;/>表示复制第q个样本掩码后文本中第tq个待处理对象/>时融入预设对象表中候选对象wr的混淆对象权重;/>表示第q个样本掩码后文本中第tq个待处理对象的拼接编码表示。
另外,基于Copy机制和Coverage机制,计算第t时刻下第q个样本掩码后文本对应的复制概率和生成概率(如公式(30)-(31)所示)。
式中,表示第t时刻下第q个样本掩码后文本对应的复制概率;表示第t时刻下第q个样本掩码后文本对应的生成概率;/>表示第q个样本掩码后文本中第tq个待处理对象;wv为预设对象表中第v个候选对象;/>和/>均为可训练的第一解码层参数。/>
接下来,将第t时刻下样本上文信息对应的上下文向量与第t时刻下Q个样本掩码后文本的GRU解码状态表示st进行拼接并进行线性变换,得到变换后的第t时刻下的解码状态表示st change(如公式(32)所示)。
式中,st change表示变换后的第t时刻下的解码状态表示;st表示第t时刻下Q个样本掩码后文本的GRU解码状态表示;表示第t时刻下样本上文信息对应的上下文向量;Uchange和bchange均为可训练的第一解码层参数。
然后,基于交叉注意力机制、Copy机制和Coverage机制,计算变换后的第t时刻下的解码状态表示与各个样本掩码后文本的特征编码之间的注意力权重(如公式(33)-(34)所示),并计算第t时刻下Q个样本掩码后文本的整体上下文向量(如公式(35)所示)。
式中,表示第q个样本掩码后文本中第tq个待处理对象/>与变换后的第t时刻下的解码状态表示之间的注意力权重;st change表示变换后的第t时刻下的解码状态表示;表示第q个样本掩码后文本中第tq个待处理对象/>的特征编码;/>表示第t时刻下Q个样本掩码后文本的整体上下文向量;/>表示第t时刻下第q个样本掩码后文本对应的上下文向量;vn和Wn均是可训练的第一解码层参数。
最后,利用公式(36)-(37)计算t时刻下Q个样本掩码后文本的复制概率和重写概率。
式中,表示第t时刻下Q个样本掩码后文本的复制概率;/>表示第t时刻下Q个样本掩码后文本的重写概率;/>表示第t时刻下第q个样本掩码后文本对应的复制概率;/>表示第q个样本掩码后文本对应的生成概率;/>表示第q个样本掩码后文本中第tq个待处理对象/>与变换后的第t时刻下的解码状态表示之间的注意力权重。
(C)通过门限阈值将Q个样本掩码后文本中待处理对象的复制概率以及生成概率分别与样本上文信息中待处理对象的复制概率以及生成概率进行融合(如公式(38)-(39)所示),从而得到在每个时间步对应的词表中字的预测分布概率(如公式(40)所示),选取概率值最大的字作为该时间步输出的重写结果(如公式(41)所示)。通过不断迭代,得到每一个时间步对应的输出,当解码端预测为停止符时,则得到用户回答语音的全部重写结果,解码过程结束。
式中,Pcopy(wv)表示融合后复制概率;λcopy表示从Q个样本掩码后文本和样本上文信息中进行复制的门限阈值,且Wcopy为可训练的第一解码层参数。
式中,Pgen(wv)表示融合后生成概率;λgen表示生成门限阈值,且 Wgen为可训练的第一解码层参数。
Pt(wv)=λ0Pgen(wv)+(1-λ0)Pcopy(wv) (40)
式中,Pt(wv)表示第t时刻下预设对象表中候选对象的预测分布概率;概率门限阈值W0为可训练的第一解码层参数。
式中,Ot表示第一解码端在第t时刻下输出的预测结果;[w1,w2,…,wV]表示预设对象表。
基于上述步骤42的相关内容可知,对于待训练文本重写模型来说,在将Q个样本掩码后文本的特征编码输入该待训练文本重写模型中第一解码层之后,可以由该第一解码层对该Q个样本掩码后文本的特征编码进行解码处理以及文本重写处理,得到并输出该样本语音的第一预测识别文本。
基于上述步骤361的相关内容可知,对于待训练文本重写模型的第r批次训练过程来说,若待训练文本重写模型包括第一编码层和第一解码层,则在确定第r批次注意力机制为单向注意力机制或者双向注意力机制之后,可以将第r批次训练集中样本语音对应的Q个样本掩码后文本的文本特征及其样本上文信息的文本特征输入待训练文本重写模型,以使该待训练文本重写模型中第一编码层输出该Q个样本掩码后文本的预测被掩码对象,以及第一解码层输出该样本语音的第一预测识别文本,以便后续能够基于该Q个样本掩码后文本的预测被掩码对象以及第一预测识别文本确定该待训练文本重写模型的预测性能。
步骤362:若第r批次注意力机制为序列注意力机制,则将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型,得到该待训练文本重写模型输出的样本语音的第一预测识别文本。
需要说明的是,步骤362可以采用步骤361中确定样本语音的第一预测识别文本的相关步骤进行实施,而且无需执行确定Q个样本基础识别文本的预测被掩码对象的相关步骤。
基于上述步骤361至步骤362的相关内容可知,对于待训练文本重写模型的第r批次训练过程来说,若确定待训练文本重写模型使用单向注意力机制或者双向注意力机制进行预测,则在将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型之后,该待训练文本重写模型可以依据该Q个样本掩码后文本的文本特征和样本上文信息的文本特征进行样本语音的第一预测识别文本和Q个样本掩码后文本的预测被掩码对象的两项预测任务,以便后续能够依据该样本语音的第一预测识别文本和Q个样本掩码后文本的预测被掩码对象来完成该待训练文本重写模型的学习实际被掩码对象和学习样本标准识别文本的两项学习任务;然而,若确定待训练文本重写模型使用序列注意力机制进行预测,则在将Q个样本掩码后文本的文本特征和样本上文信息的文本特征输入待训练文本重写模型之后,该待训练文本重写模型可以依据该Q个样本掩码后文本的文本特征和样本上文信息的文本特征进行样本语音的第一预测识别文本这一项预测任务,以便后续能够依据该样本语音的第一预测识别文本来完成该待训练文本重写模型的学习样本标准识别文本任务。
步骤37:判断是否达到第一停止条件,若是,则执行步骤39;若否,则执行步骤38。
其中,第一停止条件可以预先设定,例如,第一停止条件可以是预测内容与实际内容之间的差距(例如,样本语音的第一预测识别文本和该样本语音的样本标准识别文本之间的差距,和/或,Q个样本掩码后文本的预测被掩码对象与该Q个样本掩码后文本的实际被掩码对象之间的差距)达到第四阈值,也可以是预测内容(例如,样本语音的第一预测识别文本和/或Q个样本掩码后文本的预测被掩码对象)的变化率低于第五阈值,还可以为待训练文本重写模型的更新次数达到第六阈值。
可见,对于待训练文本重写模型的第r批次训练过程来说,判断当前轮的待训练文本重写模型是否达到第一停止条件,若达到,则表示当前轮的待训练文本重写模型具有较好的预测性能,故可以直接对当前轮的待训练文本重写模型进行保存和/或使用(例如,基于该当前轮的待训练文本重写模型开始进行待训练文本重写模型的第r+1批次训练过程);若未达到,则表示当前轮的待训练文本重写模型具有较差的预测性能,需要依据预测内容与实际内容之间的差距(例如,样本语音的第一预测识别文本和该样本语音的样本标准识别文本之间的差距,和/或,Q个样本掩码后文本的预测被掩码对象与Q个样本掩码后文本的实际被掩码对象之间的差距),更新该待训练文本重写模型,以使更新后的待训练文本重写模型具有更好的预测性能。
步骤38:根据样本语音的第一预测识别文本和该样本语音的样本标准识别文本,更新待训练文本重写模型,并返回执行步骤36。
实际上,因使用不同的注意力机制进行预测的待训练文本重写模型可以具有不同的学习任务,使得待训练文本重写模型可以采用不同的模型更新过程。基于此,本申请实施例还提供了步骤38的一种可能的实施方式,其具体包括步骤381-步骤382:
步骤381:若第r批次注意力机制为单向注意力机制或者双向注意力机制,则根据样本语音的样本标准识别文本、该样本语音的第一预测识别文本、Q个样本掩码后文本的实际被掩码对象和该Q个样本掩码后文本的预测被掩码对象,更新待训练文本重写模型,并返回执行步骤36。
本申请实施例中,对于待训练文本重写模型的第r批次训练过程来说,若待训练文本重写模型使用单向注意力机制或者双向注意力机制进行预测,则在利用待训练文本重写模型预测得到样本语音的第一预测识别文本和Q个样本掩码后文本的预测被掩码对象之后,可以利用样本语音的第一预测识别文本和该样本语音的样本标准识别文本之间的差距,以及Q个样本掩码后文本的预测被掩码对象与Q个样本掩码后文本的实际被掩码对象之间的差距,更新该待训练文本重写模型,以使更新后的待训练文本重写模型具有更好的预测性能。
步骤382:若第r批次注意力机制为序列注意力机制,则根据样本语音的第一预测识别文本和该样本语音的样本标准识别文本,更新待训练文本重写模型,并返回执行步骤36。
本申请实施例中,对于待训练文本重写模型的第r批次训练过程来说,若待训练文本重写模型使用序列注意力机制,则在利用待训练文本重写模型预测得到样本语音的第一预测识别文本之后,可以利用样本语音的第一预测识别文本和该样本语音的样本标准识别文本之间的差距,更新该待训练文本重写模型,以使更新后的待训练文本重写模型具有更好的预测性能。
步骤39:若r<R,则依据在第r批次训练过程中训练好的待训练文本重写模型开始进行第r+1批次训练过程;若r=R,则根据待训练文本重写模型,确定待优化文本重写模型。
本申请实施例中,对于待训练文本重写模型的第r批次训练过程来说,在确定当前轮的待训练文本重写模型达到第一停止条件之后,可以确定该待训练文本重写模型完成第r批次训练过程,此时,如果r<R,则表示该待训练文本重写模型还未完成R批次训练过程,故可以依据在第r批次训练过程中训练好的待训练文本重写模型继续执行第r+1批次训练过程;然而,如果r=R,则表示该待训练文本重写模型已完成R批次训练过程,故可以依据在第R批次训练过程中训练好的待训练文本重写模型,确定待优化文本重写模型。
另外,本申请实施例不限定待优化文本重写模型的确定过程,例如,可以采用上文步骤27的任一实施方式进行实施。
实际上,为了提高语音文本重写模型,可以对待优化文本重写模型继续进行训练(也就是第二阶段训练,详情请参见下文S103),而且该待优化文本重写模型的学习任务不同于该上文“待训练文本重写模型”的学习任务,故为了保证待优化文本重写模型能够完成该待优化文本重写模型的学习任务,可以对第一阶段训练好的待训练文本重写模型进行一些微调,以使微调后的待训练文本重写模型能够适于完成该待优化文本重写模型的学习任务,并将该微调后的待训练文本重写模型确定为待优化文本重写模型。
需要说明的是,本申请实施例不限定上述微调过程,例如,若待训练文本重写模型利用公式(10)-(11)进行被掩码对象预测,则可以在微调过程中将公式(10)-(11)替换为下文公式(12);若待训练文本重写模型使用从至少一个候选注意力机制中随机选择的注意力机制进行实施,则可以在微调过程中将待训练文本重写模型固定为一个注意力机制(例如,双向注意力机制),以使在第二阶段训练中待优化文本重写模型始终使用该固定的注意力机制进行预测。
基于上述步骤31至步骤39的相关内容可知,若采用R批次训练集对待训练文本重写模型进行训练,则对于利用第r批次训练集训练待训练文本重写模型的过程来说,先从至少一个候选注意力机制(例如,单向注意力机制、双向注意力机制和序列注意力机制)中随机选择出待训练文本重写模型在第r批次训练过程中使用的注意力机制,再依据被选注意力机制对应的学习任务对该待训练文本重写模型进行第r批次训练,以使利用第r批次训练集训练得到的待训练文本重写模型能够完成该待使用注意力机制在第r批次训练过程中应该完成的学习任务。其中,r为正整数,r≤R,R为正整数。可见,经过R批次训练过程的待训练文本重写模型具有更好的预测性能。
S103:根据样本语音的至少一个样本基础识别文本、该样本语音的样本标准识别文本、该样本语音的样本上文信息和该样本语音的重写分类实际结果对待优化文本重写模型进行训练,得到语音文本重写模型。
实际上,为了提高语音文本重写模型的预测准确性,在通过第一阶段训练(也就是S102)构建出待优化文本重写模型之后,可以对该待优化文本重写模型进行第二阶段训练(也就是S103),以使该待优化文本重写模型能够在第二阶段训练中学习到如何分辨样本语音对应的语音识别文本(也就是,“至少一个样本基础识别文本”)是否需要重写以及如何进行语音识别文本重写的两项学习任务,从而使得经历过第二阶段训练的待优化文本重写模型能够具有准确的重写判断能力以及重写能力,进而使得基于该待优化文本重写模型构建的语音文本重写模型也能够具有准确的重写判断能力以及重写能力。
另外,本申请实施例不限定待优化文本重写模型在第二阶段训练中使用的注意力机制,例如,该待优化文本重写模型在第二阶段训练中可以始终只使用双向注意力机制进行实施。
此外,本申请实施例S103中训练过程与上文S102中训练过程类似,为了便于理解,下面结合示例进行说明。
作为示例,若样本语音的样本基础识别文本的个数为Q,则S103具体可以包括S1031-S1036:
S1031:生成样本语音的第q个样本基础识别文本的文本特征。其中,q为正整数,q≤Q,Q为正整数。
其中,第q个样本基础识别文本的文本特征用于表征该第q个样本基础识别文本携带的信息。
另外,“第q个样本基础识别文本的文本特征”的生成过程可以采用上文步骤22中“第q个样本掩码后文本的文本特征”的生成过程的任一实施方式进行实施,只需将上文步骤22中“第q个样本掩码后文本的文本特征”的生成过程中涉及的“第q个样本掩码后文本”替换为“第q个样本基础识别文本”即可。为了便于理解,下面结合示例进行说明。
例如,若样本语音的第q个样本基础识别文本包括Zq个待处理对象,则S1031具体可以包括S10311-S10312:
S10311:生成第q个样本基础识别文本中第z个待处理对象的对象特征。其中,z为正整数,z≤Zq,Zq为正整数。
其中,第z个待处理对象的对象特征用于表征该第z个待处理对象携带的信息。
另外,本申请实施例不限定“第z个待处理对象的对象特征”的生成过程,例如,“第z个待处理对象的对象特征”的生成过程可以采用上文步骤31中“第y个待处理对象的对象特征”的生成过程的任一实施方式进行实施。为了便于理解,下面结合S10311的一种可能的实施方式进行说明。
在一种可能的实施方式中,S10311具体可以包括S103111-S103113:
S103111:对第q个样本基础识别文本中第z个待处理对象进行文本编码,得到第z个待处理对象的文本编码结果。
需要说明的是,S103111的内容与上文步骤2211的内容类似,只需将上文步骤2211中“第y个待处理对象”替换为“第z个待处理对象”即可。
S103112:对第z个待处理对象进行位置编码,得到第z个待处理对象的位置编码结果。
需要说明的是,S103112的内容与上文步骤2212的内容类似,只需将上文步骤2212中“第y个待处理对象”替换为“第z个待处理对象”即可。
S103113:根据第z个待处理对象的文本编码结果和第z个待处理对象的位置编码结果,确定第z个待处理对象的对象特征。
需要说明的是,S103113的内容与上文步骤2213的内容类似,只需将上文步骤2213中“第y个待处理对象”替换为“第z个待处理对象”、以及“第q个样本掩码后文本”替换为“第q个样本基础识别文本”即可。
例如,S103113具体可以包括:将第z个待处理对象的文本编码结果和第z个待处理对象的位置编码结果进行加和,得到第z个待处理对象的对象特征。
又如,S103113具体可以包括以下内容:
从预先构建的易混淆对象信息库中查询第z个待处理对象对应的Gz第二易混淆对象;
对第z个待处理对象对应的第g个第二易混淆对象进行文本编码,得到第z个待处理对象对应的第g个第二易混淆对象特征;其中,g为正整数,且g≤Gz,Gz为正整数;
将第z个待处理对象对应的第1个第二易混淆对象特征至第Gz个第二易混淆对象特征进行加权求和,得到第z个待处理对象的易混淆特征;其中,第g个第二易混淆对象特征的加权权重是根据第z个待处理对象与第g个第二易混淆对象之间的易混淆度确定的;g为正整数,且g≤Gz;
将第z个待处理对象的文本编码结果、第z个待处理对象的位置编码结果和第z个待处理对象的易混淆特征进行加和,得到第z个待处理对象的对象特征。
基于上述S10311的相关内容可知,在获取到第q个样本基础识别文本之后,可以先计算该第q个样本基础识别文本中各个待处理对象的对象特征,以便后续能够基于该第q个样本基础识别文本中各个待处理对象的对象特征,确定该第q个样本基础识别文本的文本特征。
S10312:将第q个样本基础识别文本中第1个待处理对象的对象特征至第Zq个待处理对象的对象特征的集合,确定为该第q个样本基础识别文本的文本特征。
需要说明的是,S10312的内容与上文步骤222的内容类似,只需将上文步骤222中“第q个样本掩码后文本”替换为“第q个样本基础识别文本”、以及“Yq”替换为“Zq”即可。
基于S1031的相关内容可知,在获取到Q个样本基础识别文本之后,可以分别生成各个样本基础识别文本的文本特征,以便后续能够基于该Q个样本基础识别文本的文本特征,针对待优化文本重写模型进行第二阶段训练。
S1032:生成样本提示信息的文本特征。
需要说明的是,S1032的内容请参见上文步骤23的内容。
S1033:将Q个样本基础识别文本的文本特征和样本上文信息的文本特征输入待优化文本重写模型,得到该待优化文本重写模型输出的样本语音的第二预测识别文本和该样本语音的重写分类预测结果。
其中,第二预测识别文本是由待优化文本重写模型重写得到的,而且该第二预测识别文本用于表征样本语音携带的预测语音信息。
样本语音的重写分类预测结果是指用于表征是否需要对该样本语音进行语音识别文本重写的预测结果。
另外,本申请实施例不限定样本语音的第二预测识别文本以及重写分类预测结果的确定过程,例如,在一种可能的实施方式中,若待优化文本重写模型包括第二编码层和第二解码层,则样本语音的第二预测识别文本以及重写分类预测结果的确定过程,具体可以包括步骤51-步骤52:
步骤51:将Q个样本基础识别文本的文本特征和样本上文信息的文本特征输入第二编码层,得到该第二编码层输出的该Q个样本基础识别文本的特征编码和样本语音的重写分类预测结果。
其中,第二编码层用于对该第二编码层的输入数据进行编码处理以及进行重写分类结果预测,得到并输出该输入数据的编码结果以及重写分类预测结果。
另外,“第二编码层”的工作原理与上文步骤61中“第一编码层”的工作原理基本相同,唯一不同之处就是“第二编码层”需要利用公式(12)以及预设重写条件预测样本语音的重写分类预测结果,无需利用上文公式(10)-(11)预测被掩码对象。
式中,表示第q个样本基础识别文本的重写概率;/>表示第q个样本基础识别文本的特征编码;Ur是第二编码层的层参数。需要说明的是,本申请实施例不限定“第q个样本基础识别文本的特征编码”的计算过程,例如,“第q个样本基础识别文本的特征编码”的计算过程可以与上文步骤41中“第q个样本掩码后文本的特征编码”的计算过程相同。
“预设重写条件”可以预先设定,例如,该预设重写条件可以为Q个样本基础识别文本的重写概率均高于第一概率阈值。又如,该预设重写条件可以为Q个样本基础识别文本中存在重写概率高于第二概率阈值的样本基础识别文本。还如,该预设重写条件可以为推荐得分最高的样本基础识别文本的重写概率高于第三概率阈值。其中,“推荐得分”的相关内容请参见上文步骤11的相关内容。
基于此可知,样本语音的重写分类预测结果的确定过程具体可以包括:若Q个样本基础识别文本的重写概率满足预设重写条件,则确定该样本语音的重写分类预测结果为第一结果;若Q个样本基础识别文本的重写概率不满足预设重写条件,则确定该样本语音的重写分类预测结果为第二结果。其中,第一结果表示需要对样本语音进行语音识别文本重写;而且第二结果表示不需要对样本语音进行语音识别文本重写。
基于上述步骤51的相关内容可知,对于待优化文本重写模型来说,在将Q个样本基础识别文本的文本特征和样本上文信息的文本特征输入该待优化文本重写模型之后,该待优化文本重写模型中第二编码层能够依据该Q个样本基础识别文本的文本特征和样本上文信息的文本特征,对各个样本基础识别文本以及样本上文信息进行特征编码,并基于这些特征编码预测是否对样本语音进行语音识别文本重写,以便在确定需要对样本语音进行语音识别文本重写之后,由该待优化文本重写模型中第二解码层依据Q个样本基础识别文本的特征编码以及样本上文信息的特征编码进行语音识别文本重写。
步骤52:若样本语音的重写分类预测结果满足预设重写触发条件,则将Q个样本基础识别文本的特征编码输入第二解码层,得到该第二解码层输出的样本语音的第二预测识别文本。其中,预设重写触发条件可以预先设定,例如,预设重写触发条件可以为样本语音的重写分类预测结果表示需要对该样本语音进行语音识别文本重写。
因“第二解码层”是由上文“第一解码层”经过第一阶段训练得到的,使得“第二解码层”的工作原理与上文“第一解码层”的工作原理相同,从而步骤52的内容与上文步骤42的内容类似,只需将步骤42中“样本掩码后文本”替换为“样本基础识别文本”即可。
基于上述步骤51至步骤52的相关内容可知,对于包括第二编码层和第二解码层的待优化文本重写模型来说,在将Q个样本基础识别文本的文本特征和样本上文信息的文本特征输入该待优化文本重写模型之后,可以由第二编码层生成Q个样本基础识别文本的特征编码以及样本上文信息的特征编码,并预测是否需要对对样本语音进行语音识别文本重写,以便在确定需要对对样本语音进行语音识别文本重写之后,由第二解码层依据Q个样本基础识别文本的特征编码以及样本上文信息的特征编码进行语音识别文本重写,并将重写得到的文本确定为样本语音的第二预测识别文本。
S1034:判断是否达到第二停止条件,若是,则执行S1036;若否,则执行S1035。
其中,第二停止条件可以预先设定,例如,第二停止条件可以是预测内容与实际内容之间的差距(例如,样本语音的第二预测识别文本和该样本语音的样本标准识别文本之间的差距,以及样本语音的重写分类预测结果与该样本语音的重写分类实际结果之间的差距)达到第七阈值,也可以是预测内容(例如,样本语音的第二预测识别文本和该样本语音的重写分类预测结果)的变化率低于第八阈值,还可以为待优化文本重写模型的更新次数达到第九阈值。
本申请实施例中,判断当前轮的待优化文本重写模型是否达到第二停止条件,若达到,则表示当前轮的待优化文本重写模型具有较好的预测性能,故可以直接对当前轮的待优化文本重写模型进行保存和/或使用;若未达到,则表示当前轮的待优化文本重写模型具有较差的预测性能,需要依据样本语音的第二预测识别文本和该样本语音的样本标准识别文本之间的差距,以及样本语音的重写分类预测结果与该样本语音的重写分类实际结果之间的差距,更新该待优化文本重写模型,以使更新后的待优化文本重写模型具有更好的预测性能。
S1035:根据样本语音的样本标准识别文本、该样本语音的第二预测识别文本、该样本语音的重写分类实际结果和该样本语音的重写分类预测结果,更新待优化文本重写模型,并返回执行S1033。
本申请实施例中,在确定当前轮的待优化文本重写模型未达到第二停止条件之后,可以利用样本语音的第二预测识别文本和该样本语音的样本标准识别文本之间的差距,以及样本语音的重写分类预测结果与该样本语音的重写分类实际结果之间的差距,更新该待优化文本重写模型,以使由更新后的待优化文本重写模型预测得到的样本语音的重写分类预测结果更接近于该样本语音的重写分类实际结果,以及样本语音的第二预测识别文本更接近于该样本语音的样本标准识别文本,从而使得更新后的待优化文本重写模型具有更好的预测性能。
S1036:根据待优化文本重写模型,确定语音文本重写模型。
本申请实施例中,在确定当前轮的待优化文本重写模型达到第二停止条件之后,则表示该待优化文本重写模型具有较好的预测性能,故可以根据该待优化文本重写模型,确定语音文本重写模型(例如,可以直接将待优化文本重写模型,确定为语音文本重写模型)。
基于上述S101至S103的相关内容可知,对于本申请实施例提供的语音文本重写模型构建方法来说,在获取到样本语音对应的样本基础识别文本、样本标准识别文本、样本上文信息以及重写分类实际结果之后,先利用该样本基础识别文本、该样本标准识别文本以及该样本上文信息对待训练文本重写模型进行训练(也就是第一阶段训练),得到待优化文本重写模型;再利用该样本基础识别文本、该样本标准识别文本、该样本上文信息以及该重写分类实际结果对待优化文本重写模型进行训练(也就是第二阶段训练),得到语音文本重写模型。可见,因语音文本重写模型是通过对待训练文本重写模型进行两阶段训练得到的,使得该语音文本重写模型具有较好的预测性能,从而使得该语音文本重写模型能够依据语音识别文本对应的上文信息对该语音识别文本进行准确地重写,如此有利于提高语音识别准确性。
方法实施例二
参见图2,该图为本申请实施例提供的一种语音识别方法的流程图。
本申请实施例提供的语音识别方法,包括S201-S203:
S201:获取目标用户针对待使用上文信息输入的待识别语音。
其中,目标用户是指向人机交互设备输入待识别语音的用户;而且该待识别语音是指需要利用本申请实施例提供的语音识别方法进行语音识别的用户语音。
待使用上文信息用于表示待识别语音的上文内容。另外,待使用上文信息的获取过程可以采用上文S101中“样本上文信息”的获取过程的任一实施方式进行实施,只需将上文S101中“样本上文信息”的获取过程的任一实施方式涉及的“样本上文信息”替换为“待使用上文信息”,以及“样本语音”替换为“待识别语音”即可。
S202:对待识别语音进行语音识别,得到至少一个待校正识别文本。
需要说明的是,“至少一个待校正识别文本”的获取过程可以采用上文S101中“至少一个样本基础识别文本”的获取过程的任一实施方式进行实施,只需将上文S101中“至少一个样本基础识别文本”的获取过程的任一实施方式涉及的“样本基础识别文本”替换为“待校正识别文本”,以及“样本语音”替换为“待识别语音”即可。
S203:根据至少一个待校正识别文本、待使用上文信息和预先构建的语音文本重写模型,得到待识别语音的目标语音识别文本。
其中,语音文本重写模型可以利用本申请实施例提供的语音文本重写模型构建方法的任一实施方式进行构建。
目标语音识别文本用于描述待识别语音携带的语音信息。另外,本申请实施例不限定目标语音识别文本的生成过程,例如,若待校正识别文本的个数为M,则目标语音识别文本的生成过程具体可以包括步骤61-步骤62:
步骤61:生成第m个待校正识别文本的文本特征。其中,m为正整数,m≤M,M为正整数。
其中,第m个待校正识别文本的文本特征用于表征第m个待校正识别文本携带的信息。
另外,“第m个待校正识别文本的文本特征”的生成过程可以采用上文步骤22中“第q个样本掩码后文本的文本特征”的生成过程的任一实施方式进行实施,只需将上文步骤22中“第q个样本掩码后文本的文本特征”的生成过程中涉及的“第q个样本掩码后文本”替换为“第m个待校正识别文本”即可。为了便于理解,下面结合示例进行说明。
例如,若第m个待校正识别文本包括Jm个待处理对象,则步骤61具体可以包括步骤611-步骤612:
步骤611:生成第m个待校正识别文本中第j个待处理对象的对象特征;其中,j为正整数,j≤Jm,Jm为正整数。
其中,第j个待处理对象的对象特征用于表征该第j个待处理对象携带的信息。
另外,本申请实施例不限定“第j个待处理对象的对象特征”的生成过程,例如,“第j个待处理对象的对象特征”的生成过程可以采用上文步骤31中“第y个待处理对象的对象特征”的生成过程的任一实施方式进行实施。为了便于理解,下面结合步骤611的一种可能的实施方式进行说明。
在一种可能的实施方式中,步骤611具体可以包括步骤6111-步骤6113:
步骤6111:对第m个待校正识别文本中第j个待处理对象进行文本编码,得到该第j个待处理对象的文本编码结果。
需要说明的是,步骤6111的内容与上文步骤2211的内容类似,只需将上文步骤2211中“第y个待处理对象”替换为“第j个待处理对象”、以及“第q个样本掩码后文本”替换为“第m个待校正识别文本”即可。
步骤6112:对第m个待校正识别文本中第j个待处理对象进行位置编码,得到该第j个待处理对象的位置编码结果。
需要说明的是,步骤6112的内容与上文步骤2212的内容类似,只需将上文步骤2212中“第y个待处理对象”替换为“第j个待处理对象”、以及“第q个样本掩码后文本”替换为“第m个待校正识别文本”即可即可。
步骤6113:根据第j个待处理对象的文本编码结果和该第j个待处理对象的位置编码结果,确定该第j个待处理对象的对象特征。
需要说明的是,步骤6113的内容与上文步骤2213的内容类似,只需将上文步骤2213中“第y个待处理对象”替换为“第j个待处理对象”、以及“第q个样本掩码后文本”替换为“第m个待校正识别文本”即可。
例如,步骤6113具体可以包括:将第j个待处理对象的文本编码结果和该第j个待处理对象的位置编码结果进行加和,得到该第j个待处理对象的对象特征。
又如,步骤6113具体可以包括步骤61131-步骤61134:
步骤61131:从预先构建的易混淆对象信息库中查询第j个待处理对象对应的Vj个第三易混淆对象;其中,Vj为正整数。
步骤61132:对第j个待处理对象对应的第v个第三易混淆对象进行文本编码,得到第j个待处理对象对应的第v个第三易混淆对象特征;其中,v为正整数,且v≤Vj。
步骤61133:将第j个待处理对象对应的第1个第三易混淆对象特征至第Vj个第三易混淆对象特征进行加权求和,得到第j个待处理对象的易混淆特征。其中,第v个第三易混淆对象特征的加权权重是根据第j个待处理对象与第v个第三易混淆对象之间的易混淆度确定的;v为正整数,且v≤Vj。
步骤61134:将第j个待处理对象的文本编码结果、第j个待处理对象的位置编码结果和第j个待处理对象的易混淆特征进行加和,得到第j个待处理对象的对象特征
基于上述步骤611的相关内容可知,在获取到第m个待校正识别文本之后,可以先计算该第m个待校正识别文本中各个待处理对象的对象特征,以便后续能够基于该第m个待校正识别文本中各个待处理对象的对象特征,确定该第m个待校正识别文本的文本特征。
步骤612:将第m个待校正识别文本中第1个待处理对象的对象特征至第Jm个待处理对象的对象特征的集合,确定为该第m个待校正识别文本的文本特征。
需要说明的是,步骤612的内容与上文步骤222的内容类似,只需将上文步骤222中“第q个样本掩码后文本”替换为“第m个待校正识别文本”、以及“Yq”替换为“Jm”即可。
基于步骤61的相关内容可知,在获取到M个待校正识别文本之后,可以分别生成各个待校正识别文本的文本特征,以便后续能够基于该M个待校正识别文本的文本特征,确定是否对该M个待校正识别文本进行重写。
步骤62:生成待使用上文信息的文本特征。
其中,待使用上文信息的文本特征用于表征该待使用上文信息携带的信息。另外,本申请实施例不限定待使用上文信息的文本特征的生成过程,例如,待使用上文信息的文本特征的生成过程(也就是,步骤62)可以采用上文步骤23中“样本上文信息的文本特征”的生成过程的任一实施方式进行实施,只需将上文步骤23中“样本提示信息”替换为“待使用上文信息”即可。
例如,步骤62具体可以包括步骤621-步骤622:
步骤621:对待使用上文信息进行关键词提取,得到待使用上文信息的关键词。
需要说明的是,步骤621的内容与上文步骤231的内容类似,只需将上文步骤231中“样本提示信息”替换为“待使用上文信息”即可。
步骤622:根据待使用上文信息的关键词,生成待使用上文信息的文本特征。
需要说明的是,步骤622可以采用上文步骤232的任一实施方式进行实施,只需将上文步骤232的任一实施方式涉及的“样本提示信息”替换为“待使用上文信息”,“N1”替换为“N2”,“d”替换为“i”即可。
例如,步骤622具体可以包括:对待使用上文信息的关键词进行向量化处理,得到该待使用上文信息的文本特征。
又如,若待使用上文信息的关键词包括N2个待处理对象,则步骤622具体可以包括步骤6221-步骤6222:
步骤6221:生成待使用上文信息的关键词中第i个待处理对象的对象特征;其中,i为正整数,i≤N2,N2为正整数。
其中,第i个待处理对象的对象特征用于表征第i个待处理对象携带的信息。
另外,本申请实施例不限定步骤6221的实施方式,例如,可以采用上文步骤2321的任一实施方式进行实施,只需将上文步骤2321的任一实施方式涉及的“样本提示信息”替换为“待使用上文信息”,“N1”替换为“N2”,“d”替换为“i”即可。
例如,步骤6221具体可以包括:先对待使用上文信息的关键词中第i个待处理对象进行文本编码,得到该第i个待处理对象的文本编码结果,并对该第i个待处理对象进行位置编码,得到第i个待处理对象的位置编码结果;然后,将该第i个待处理对象的文本编码结果和该第i个待处理对象的位置编码结果进行加和,得到第i个待处理对象的对象特征。
步骤6222:将待使用上文信息的关键词中第1个待处理对象的对象特征至第N2个待处理对象的对象特征的集合,确定为待使用上文信息的文本特征。
另外,本申请实施例不限定步骤6222的实施方式,例如,可以采用上文步骤2322的任一实施方式进行实施,只需将上文步骤2322的任一实施方式涉及的“样本提示信息”替换为“待使用上文信息”,“N1”替换为“N2”,“d”替换为“i”即可。
基于上述步骤621至步骤622的相关内容可知,对于待识别语音对应的待使用上文信息来说,先从该待使用上文信息中提取出该待使用上文信息的至少一个关键词(尤其是与样本语音相关的关键词);再依据该待使用上文信息的至少一个关键词,生成该待使用上文信息的文本特征,以使该待使用上文信息的文本特征能够更准确地表示出该待使用上文信息携带的信息(尤其是与待识别语音相关的信息)。
步骤63:将待使用上文信息的文本特征和M个待校正识别文本的文本特征输入语音文本重写模型,得到待识别语音的目标语音识别文本。
需要说明的是,步骤63可以采用上文S1033的任一实施方式进行实施,只需将上文S1033的任一实施方式涉及的“样本基础识别文本”替换为“待校正识别文本”、“样本上文信息”替换为“待使用上文信息”、“Q”替换为“M”、“待优化文本重写模型”替换为“语音文本重写模型”、“样本语音”替换为“待识别语音”即可。
例如,若语音文本重写模型包括第三编码层和第三解码层,则步骤63具体可以包括步骤631-步骤632:
步骤631:将待使用上文信息的文本特征和M个待校正识别文本的文本特征输入第三编码层,得到该第三编码层输出的该M个待校正识别文本的特征编码和该待识别语音的重写分类预测结果。
需要说明的是,步骤631的内容与上文步骤51的内容类似,只需将上文步骤51涉及的“样本基础识别文本”替换为“待校正识别文本”、“样本上文信息”替换为“待使用上文信息”、“Q”替换为“M”、“第二编码层”替换为“第三编码层”、“样本语音”替换为“待识别语音”即可。
步骤632:若待识别语音的重写分类预测结果满足预设重写触发条件,则将该M个待校正识别文本的特征编码输入第三解码层,得到该第三解码层输出的待识别语音的目标语音识别文本。
需要说明的是,步骤632的内容与上文步骤52的内容类似,只需将上文步骤51涉及的“样本基础识别文本”替换为“待校正识别文本”、“样本上文信息”替换为“待使用上文信息”、“Q”替换为“M”、“第二解码层”替换为“第三解码层”、“样本语音”替换为“待识别语音”即可。
基于上述S201至S202的相关内容可知,在获取目标用户针对待使用上文信息输入的待识别语音之后,可以先对该待识别语音进行待识别语音进行语音识别,得到至少一个待校正识别文本;再由预先构建的语音文本重写模型依据该至少一个待校正识别文本以及该待使用上文信息判断是否对该待识别语音进行语音识别文本重写,以便在确定需要该待识别语音进行语音识别文本重写后,可以参考该至少一个待校正识别文本以及该待使用上文信息进行语音识别文本重写,并将重写得到的文本确定为该待识别语音的目标语音识别文本,以使该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
其中,因语音文本重写模型具有较好地预测性能,使得该语音文本重写模型能够根据待识别语音的至少一个待校正识别文本以及该待识别语音的上文信息进行准确地语音识别文本重写,从而使得重写得到的目标语音识别文本能够克服上述至少一个待校正识别文本中存在的识别错误(尤其是,与待使用上文信息中相同内容的识别错误),进而使得该目标语音识别文本能够更准确地表示出待识别语音携带的语音信息,如此能够提高语音识别准确性。
基于上述方法实施例提供的语音文本重写模型构建方法,本申请实施例还提供了一种语音文本重写模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例对语音文本重写模型构建装置进行介绍,相关内容请参见上述方法实施例。
参见图3,该图为本申请实施例提供的一种语音文本重写模型构建装置的结构示意图。
本申请实施例提供的语音文本重写模型构建装置300,包括:
第一获取单元301,用于获取样本语音的至少一个样本基础识别文本、所述样本语音的样本标准识别文本、所述样本语音的样本上文信息和所述样本语音的重写分类实际结果;
第一训练单元302,用于根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型;
第二训练单元303,用于根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型。
在一种可能的实施方式中,所述样本基础识别文本的个数为Q;所述第一训练单元302,包括:
文本掩码子单元,用于对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,并生成所述第q个样本掩码后文本的文本特征;其中,q为正整数,q≤Q,Q为正整数;
第一生成子单元,用于生成所述样本上文信息的文本特征;
第一预测子单元,用于将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本;
第一更新子单元,用于根据所述样本语音的第一预测识别文本和所述样本语音的样本标准识别文本,更新所述待训练文本重写模型,并返回所述第一预测子单元执行所述将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,直至在达到第一停止条件时,根据所述待训练文本重写模型,确定所述待优化文本重写模型。
在一种可能的实施方式中,所述第一生成子单元,包括:
第一提取子单元,用于对所述样本上文信息进行关键词提取,得到所述样本上文信息的关键词;
第二生成子单元,用于根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征。
在一种可能的实施方式中,所述第二生成子单元,具体用于:对所述样本上文信息的关键词进行向量化处理,得到所述样本上文信息的文本特征;
在一种可能的实施方式中,所述第二生成子单元,具体用于:若所述样本上文信息的关键词包括N1个待处理对象,则对所述样本上文信息的关键词中第d个待处理对象进行文本编码,得到所述第d个待处理对象的文本编码结果;对所述第d个待处理对象进行位置编码,得到所述第d个待处理对象的位置编码结果;将所述第d个待处理对象的文本编码结果和所述第d个待处理对象的位置编码结果进行加和,得到所述第d个待处理对象的对象特征;其中,d为正整数,d≤N1,N1为正整数;将所述样本上文信息的关键词中第1个待处理对象的对象特征至第N1个待处理对象的对象特征的集合,确定为所述样本上文信息的文本特征。
在一种可能的实施方式中,所述文本掩码子单元,包括:第三生成子单元,用于若所述第q个样本掩码后文本包括Yq个待处理对象,则对所述第q个样本掩码后文本中第y个待处理对象进行文本编码,得到所述第y个待处理对象的文本编码结果;对所述第y个待处理对象进行位置编码,得到所述第y个待处理对象的位置编码结果;根据所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果,确定所述第y个待处理对象的对象特征;其中,y为正整数,y≤Yq,Yq为正整数;将所述第q个样本掩码后文本中第1个待处理对象的对象特征至第Yq个待处理对象的对象特征的集合,确定为所述第q个样本掩码后文本的文本特征。
在一种可能的实施方式中,所述第y个待处理对象的对象特征的确定过程包括:将所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果进行加和,得到所述第y个待处理对象的对象特征;
在一种可能的实施方式中,所述第y个待处理对象的对象特征的确定过程包括:从预先构建的易混淆对象信息库中查询所述第y个待处理对象对应的Ky个第一易混淆对象;其中,Ky为正整数;对所述第y个待处理对象对应的第k个第一易混淆对象进行文本编码,得到所述第y个待处理对象对应的第k个第一易混淆对象特征;其中,k为正整数,且k≤Ky;将所述第y个待处理对象对应的第1个第一易混淆对象特征至第Ky个第一易混淆对象特征进行加权求和,得到所述第y个待处理对象的易混淆特征;其中,所述第k个第一易混淆对象特征的加权权重是根据所述第y个待处理对象与所述第k个第一易混淆对象之间的易混淆度确定的;k为正整数,且k≤Ky;将所述第y个待处理对象的文本编码结果、所述第y个待处理对象的位置编码结果和所述第y个待处理对象的易混淆特征进行加和,得到所述第y个待处理对象的对象特征。
在一种可能的实施方式中,所述语音文本重写模型构建装置300还包括:
参数选择子单元,用于当所述待训练文本重写模型的训练过程批次数为R,所述待训练文本重写模型的第r批次训练集包括所述样本语音,且r为正整数,r≤R,R为正整数时,从至少一个候选注意力机制中随机选择所述待训练文本重写模型在第r批次训练过程中使用的注意力机制,确定为第r批次注意力机制;从预设映射表中查询所述第r批次注意力机制对应的掩码比例,确定为第r批次掩码比例;其中,所述预设映射表包括所述第r批次注意力机制和所述第r批次注意力机制对应的掩码比例之间的对应关系;
所述文本掩码子单元,包括:掩码处理子单元,用于按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本。
在一种可能的实施方式中,所述掩码处理子单元,具体用于:若所述第r批次掩码比例为单向注意力机制或者双向注意力机制,则按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本和所述第q个样本掩码后文本的实际被掩码对象;
所述第一预测子单元,具体用于:将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本和所述Q个样本掩码后文本的预测被掩码对象;
所述第一更新子单元,包括:模型更新子单元,用于根据所述样本语音的样本标准识别文本、所述样本语音的第一预测识别文本、所述Q个样本掩码后文本的实际被掩码对象和所述Q个样本掩码后文本的预测被掩码对象,更新所述待训练文本重写模型。
在一种可能的实施方式中,所述待训练文本重写模型包括第一编码层和第一解码层;
所述第一预测子单元,具体用于:将所述Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述第一编码层,得到所述第一编码层输出的所述Q个样本掩码后文本的特征编码和所述Q个样本掩码后文本的预测被掩码对象;将所述Q个样本掩码后文本的特征编码输入所述第一解码层,得到所述第一解码层输出的所述样本语音的第一预测识别文本。
在一种可能的实施方式中,所述第二训练单元303,包括:
第四生成子单元,用于生成所述至少一个样本基础识别文本的文本特征和所述样本提示信息的文本特征;
第二预测子单元,用于将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述待优化文本重写模型,得到所述待优化文本重写模型输出的所述样本语音的第二预测识别文本和所述样本语音的重写分类预测结果;
第二更新子单元,用于根据所述样本语音的样本标准识别文本、所述样本语音的第二预测识别文本、所述样本语音的重写分类实际结果和所述样本语音的重写分类预测结果,更新所述待优化文本重写模型,并返回所述第二预测子单元执行将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述待优化文本重写模型,直至在达到第二停止条件时,根据所述待优化文本重写模型,确定所述语音文本重写模型。
在一种可能的实施方式中,所述第四生成子单元,包括:
第五生成子单元,用于当所述样本基础识别文本的个数为Q,所述第q个样本基础识别文本包括Zq个待处理对象,且Zq为正整数,q为正整数,q≤Q,Q为正整数时,对所述第q个样本基础识别文本中第z个待处理对象进行文本编码,得到所述第z个待处理对象的文本编码结果;对所述第z个待处理对象进行位置编码,得到所述第z个待处理对象的位置编码结果;根据所述第z个待处理对象的文本编码结果和所述第z个待处理对象的位置编码结果,确定所述第z个待处理对象的对象特征;其中,z为正整数,z≤Zq;将所述第q个样本基础识别文本中第1个待处理对象的对象特征至第Zq个待处理对象的对象特征的集合,确定为所述第q个样本基础识别文本的文本特征。
在一种可能的实施方式中,所述第z个待处理对象的对象特征的确定过程包括:将所述第z个待处理对象的文本编码结果和所述第z个待处理对象的位置编码结果进行加和,得到所述第z个待处理对象的对象特征;
在一种可能的实施方式中,所述第z个待处理对象的对象特征的确定过程包括:从预先构建的易混淆对象信息库中查询所述第z个待处理对象对应的Gz第二易混淆对象;其中,Gz为正整数;对所述第z个待处理对象对应的第g个第二易混淆对象进行文本编码,得到所述第z个待处理对象对应的第g个第二易混淆对象特征;其中,g为正整数,且g≤Gz;将所述第z个待处理对象对应的第1个第二易混淆对象特征至第Gz个第二易混淆对象特征进行加权求和,得到所述第z个待处理对象的易混淆特征;其中,所述第g个第二易混淆对象特征的加权权重是根据所述第z个待处理对象与所述第g个第二易混淆对象之间的易混淆度确定的;g为正整数,且g≤Gz;将所述第z个待处理对象的文本编码结果、所述第z个待处理对象的位置编码结果和所述第z个待处理对象的易混淆特征进行加和,得到所述第z个待处理对象的对象特征。
在一种可能的实施方式中,所述待优化文本重写模型包括第二编码层和第二解码层;
所述第二预测子单元,具体用于:将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述第二编码层,得到所述第二编码层输出的所述至少一个样本基础识别文本的特征编码和所述样本语音的重写分类预测结果;若所述样本语音的重写分类预测结果满足预设重写触发条件,则将所述至少一个样本基础识别文本的特征编码输入所述第二解码层,得到所述第二解码层输出的所述样本语音的第二预测识别文本。
基于上述方法实施例提供的语音识别方法,本申请实施例还提供了一种语音识别装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例对语音识别装置进行介绍,相关内容请参见上述方法实施例。
参见图4,该图为本申请实施例提供的一种语音识别装置的结构示意图。
本申请实施例提供的语音识别装置400,包括:
第二获取单元401,用于获取目标用户针对待使用上文信息输入的待识别语音;
语音识别单元402,用于对所述待识别语音进行语音识别,得到至少一个待校正识别文本;
文本确定单元403,用于根据所述至少一个待校正识别文本、所述待使用上文信息和预先构建的语音文本重写模型,得到所述待识别语音的目标语音识别文本;其中,所述语音文本重写模型是利用本申请实施例提供的语音文本重写模型构建方法任一实施方式进行构建的。
在一种可能的实施方式中,所述文本确定单元403包括:
第六生成子单元,用于生成所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征;
第三预测子单元,用于将所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征输入所述语音文本重写模型,得到所述语音文本重写模型输出的所述待识别语音的目标语音识别文本。
在一种可能的实施方式中,所述第六生成子单元包括:
第二提取子单元,用于对所述待使用上文信息进行关键词提取,得到所述待使用上文信息的关键词;
第七生成子单元,用于根据所述待使用上文信息的关键词,生成所述待使用上文信息的文本特征。
在一种可能的实施方式中,所述第七生成子单元,具体用于:对所述待使用上文信息的关键词进行向量化处理,得到所述待使用上文信息的文本特征。
在一种可能的实施方式中,所述第七生成子单元,具体用于:若所述待使用上文信息的关键词包括N2个待处理对象,则对所述待使用上文信息的关键词中第i个待处理对象进行文本编码,得到所述第i个待处理对象的文本编码结果;对所述第i个待处理对象进行位置编码,得到所述第i个待处理对象的位置编码结果;将所述第i个待处理对象的文本编码结果和所述第i个待处理对象的位置编码结果进行加和,得到所述第i个待处理对象的对象特征;其中,i为正整数,i≤N2,N2为正整数;将所述待使用上文信息的关键词中第1个待处理对象的对象特征至第N2个待处理对象的对象特征的集合,确定为所述待使用上文信息的文本特征。
在一种可能的实施方式中,所述第六生成子单元,包括:第八生成子单元,用于当待校正识别文本的个数为M,第m个待校正识别文本包括Jm个待处理对象,且Jm为正整数,m为正整数,m≤M,M为正整数时,对所述第m个待校正识别文本中第j个待处理对象进行文本编码,得到所述第j个待处理对象的文本编码结果;对所述第j个待处理对象进行位置编码,得到所述第j个待处理对象的位置编码结果;根据所述第j个待处理对象的文本编码结果和所述第j个待处理对象的位置编码结果,确定所述第j个待处理对象的对象特征;其中,j为正整数,j≤Jm;将所述第m个待校正识别文本中第1个待处理对象的对象特征至第Jm个待处理对象的对象特征的集合,确定为第m个待校正识别文本的文本特征。
在一种可能的实施方式中,所述第j个待处理对象的对象特征的确定过程包括:将所述第j个待处理对象的文本编码结果和所述第j个待处理对象的位置编码结果进行加和,得到所述第j个待处理对象的对象特征。
在一种可能的实施方式中,所述第j个待处理对象的对象特征的确定过程包括:从预先构建的易混淆对象信息库中查询所述第j个待处理对象对应的Vj个第三易混淆对象;其中,Vj为正整数;对所述第j个待处理对象对应的第v个第三易混淆对象进行文本编码,得到所述第j个待处理对象对应的第v个第三易混淆对象特征;其中,v为正整数,且v≤Vj;将所述第j个待处理对象对应的第1个第三易混淆对象特征至第Vj个第三易混淆对象特征进行加权求和,得到所述第j个待处理对象的易混淆特征;其中,所述第v个第三易混淆对象特征的加权权重是根据所述第j个待处理对象与所述第v个第三易混淆对象之间的易混淆度确定的;v为正整数,且v≤Vj;将所述第j个待处理对象的文本编码结果、所述第j个待处理对象的位置编码结果和所述第j个待处理对象的易混淆特征进行加和,得到所述第j个待处理对象的对象特征。
在一种可能的实施方式中,所述语音文本重写模型包括第三编码层和第三解码层;
所述第三预测子单元,具体用于:将所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征输入所述第三编码层,得到所述第三编码层输出的所述至少一个待校正识别文本的特征编码和所述至少一个待校正识别文本对应的重写分类预测结果;若所述至少一个待校正识别文本对应的重写分类预测结果满足预设重写触发条件,则将所述至少一个待校正识别文本的特征编码输入第三解码层,得到所述第三解码层输出的所述待识别语音的目标语音识别文本。
进一步地,本申请实施例还提供了一种设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音文本重写模型构建方法的任一种实现方法,或者,执行上述语音识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音文本重写模型构建方法的任一种实现方法,或者,执行上述语音识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语音文本重写模型构建方法的任一种实现方法,或者,执行上述语音识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种语音文本重写模型构建方法,其特征在于,所述方法包括:
获取样本语音的至少一个样本基础识别文本、所述样本语音的样本标准识别文本、所述样本语音的样本上文信息和所述样本语音的重写分类实际结果;所述样本基础识别文本表征对所述样本语音进行语音识别得到的语音识别文本;所述样本标准识别文本表征所述样本语音携带的实际信息;所述重写分类实际结果表征是否需要对所述样本语音进行语音识别文本重写的实际标注结果;
根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型;
根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型。
2.根据权利要求1所述的方法,其特征在于,若所述样本基础识别文本的个数为Q,则所述根据所述至少一个样本基础识别文本、所述样本标准识别文本和所述样本上文信息对待训练文本重写模型进行训练,得到待优化文本重写模型,包括:
对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,并生成所述第q个样本掩码后文本的文本特征;其中,q为正整数,q≤Q,Q为正整数;
生成所述样本上文信息的文本特征;
将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本;
根据所述样本语音的第一预测识别文本和所述样本语音的样本标准识别文本,更新所述待训练文本重写模型,并继续执行所述将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型的步骤,直至在达到第一停止条件时,根据所述待训练文本重写模型,确定所述待优化文本重写模型。
3.根据权利要求2所述的方法,其特征在于,所述生成所述样本上文信息的文本特征,包括:
对所述样本上文信息进行关键词提取,得到所述样本上文信息的关键词;
根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征,包括:
对所述样本上文信息的关键词进行向量化处理,得到所述样本上文信息的文本特征;
或者,
若所述样本上文信息的关键词包括N1个待处理对象,则所述根据所述样本上文信息的关键词,生成所述样本上文信息的文本特征,包括:
对所述样本上文信息的关键词中第d个待处理对象进行文本编码,得到所述第d个待处理对象的文本编码结果;对所述第d个待处理对象进行位置编码,得到所述第d个待处理对象的位置编码结果;将所述第d个待处理对象的文本编码结果和所述第d个待处理对象的位置编码结果进行加和,得到所述第d个待处理对象的对象特征;其中,d为正整数,d≤N1,N1为正整数;
将所述样本上文信息的关键词中第1个待处理对象的对象特征至第N1个待处理对象的对象特征的集合,确定为所述样本上文信息的文本特征。
5.根据权利要求2所述的方法,其特征在于,若所述第q个样本掩码后文本包括Yq个待处理对象,则所述生成所述第q个样本掩码后文本的文本特征,包括:
对所述第q个样本掩码后文本中第y个待处理对象进行文本编码,得到所述第y个待处理对象的文本编码结果;对所述第y个待处理对象进行位置编码,得到所述第y个待处理对象的位置编码结果;根据所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果,确定所述第y个待处理对象的对象特征;其中,y为正整数,y≤Yq,Yq为正整数;
将所述第q个样本掩码后文本中第1个待处理对象的对象特征至第Yq个待处理对象的对象特征的集合,确定为所述第q个样本掩码后文本的文本特征。
6.根据权利要求5所述的方法,其特征在于,所述第y个待处理对象的对象特征的确定过程包括:
将所述第y个待处理对象的文本编码结果和所述第y个待处理对象的位置编码结果进行加和,得到所述第y个待处理对象的对象特征;
或者,
所述第y个待处理对象的对象特征的确定过程包括:
从预先构建的易混淆对象信息库中查询所述第y个待处理对象对应的Ky个第一易混淆对象;其中,Ky为正整数;
对所述第y个待处理对象对应的第k个第一易混淆对象进行文本编码,得到所述第y个待处理对象对应的第k个第一易混淆对象特征;其中,k为正整数,且k≤Ky;
将所述第y个待处理对象对应的第1个第一易混淆对象特征至第Ky个第一易混淆对象特征进行加权求和,得到所述第y个待处理对象的易混淆特征;其中,所述第k个第一易混淆对象特征的加权权重是根据所述第y个待处理对象与所述第k个第一易混淆对象之间的易混淆度确定的;k为正整数,且k≤Ky;
将所述第y个待处理对象的文本编码结果、所述第y个待处理对象的位置编码结果和所述第y个待处理对象的易混淆特征进行加和,得到所述第y个待处理对象的对象特征。
7.根据权利要求2所述的方法,其特征在于,当所述待训练文本重写模型的训练过程批次数为R,所述待训练文本重写模型的第r批次训练集包括所述样本语音,且r为正整数,r≤R,R为正整数时,所述方法还包括:
从至少一个候选注意力机制中随机选择所述待训练文本重写模型在第r批次训练过程中使用的注意力机制,确定为第r批次注意力机制;
从预设映射表中查询所述第r批次注意力机制对应的掩码比例,确定为第r批次掩码比例;其中,所述预设映射表包括所述第r批次注意力机制和所述第r批次注意力机制对应的掩码比例之间的对应关系;
所述对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,包括:
按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本。
8.根据权利要求7所述的方法,其特征在于,若所述第r批次注意力机制为单向注意力机制或者双向注意力机制,则所述按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本,包括:
按照所述第r批次掩码比例对第q个样本基础识别文本进行掩码处理,得到第q个样本掩码后文本和所述第q个样本掩码后文本的实际被掩码对象;
所述将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本,包括:
将Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述待训练文本重写模型,得到所述待训练文本重写模型输出的所述样本语音的第一预测识别文本和所述Q个样本掩码后文本的预测被掩码对象;
所述根据所述样本语音的第一预测识别文本和所述样本语音的样本标准识别文本,更新所述待训练文本重写模型,包括:
根据所述样本语音的样本标准识别文本、所述样本语音的第一预测识别文本、所述Q个样本掩码后文本的实际被掩码对象和所述Q个样本掩码后文本的预测被掩码对象,更新所述待训练文本重写模型。
9.根据权利要求8所述的方法,其特征在于,所述待训练文本重写模型包括第一编码层和第一解码层;
所述样本语音的第一预测识别文本和所述Q个样本掩码后文本的预测被掩码对象的确定过程包括:
将所述Q个样本掩码后文本的文本特征和所述样本上文信息的文本特征输入所述第一编码层,得到所述第一编码层输出的所述Q个样本掩码后文本的特征编码和所述Q个样本掩码后文本的预测被掩码对象;
将所述Q个样本掩码后文本的特征编码输入所述第一解码层,得到所述第一解码层输出的所述样本语音的第一预测识别文本。
10.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个样本基础识别文本、所述样本标准识别文本、所述样本上文信息和所述样本语音的重写分类实际结果对所述待优化文本重写模型进行训练,得到语音文本重写模型,包括:
生成所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征;
将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述待优化文本重写模型,得到所述待优化文本重写模型输出的所述样本语音的第二预测识别文本和所述样本语音的重写分类预测结果;其中,所述样本语音的重写分类预测结果通过所述至少一个样本基础识别文本的文本特征的特征编码和所述样本上文信息的文本特征的特征编码确定;
根据所述样本语音的样本标准识别文本、所述样本语音的第二预测识别文本、所述样本语音的重写分类实际结果和所述样本语音的重写分类预测结果,更新所述待优化文本重写模型,并继续执行将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述待优化文本重写模型的步骤,直至在达到第二停止条件时,根据所述待优化文本重写模型,确定所述语音文本重写模型。
11.根据权利要求10所述的方法,其特征在于,所述待优化文本重写模型包括第二编码层和第二解码层;
所述样本语音的第二预测识别文本和所述样本语音的重写分类预测结果的确定过程包括:
将所述至少一个样本基础识别文本的文本特征和所述样本上文信息的文本特征输入所述第二编码层,得到所述第二编码层输出的所述至少一个样本基础识别文本的特征编码和所述样本语音的重写分类预测结果;
若所述样本语音的重写分类预测结果满足预设重写触发条件,则将所述至少一个样本基础识别文本的特征编码输入所述第二解码层,得到所述第二解码层输出的所述样本语音的第二预测识别文本。
12.一种语音识别方法,其特征在于,所述方法包括:
获取目标用户针对待使用上文信息输入的待识别语音;
对所述待识别语音进行语音识别,得到至少一个待校正识别文本;
根据所述至少一个待校正识别文本、所述待使用上文信息和预先构建的语音文本重写模型,得到所述待识别语音的目标语音识别文本;其中,所述语音文本重写模型是利用权利要求1至11任一项所述的语音文本重写模型构建方法进行构建的。
13.根据权利要求12所述的方法,其特征在于,所述目标语音识别文本的生成过程包括:
生成所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征;
将所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征输入所述语音文本重写模型,得到所述语音文本重写模型输出的所述待识别语音的目标语音识别文本。
14.根据权利要求13所述的方法,其特征在于,所述语音文本重写模型包括第三编码层和第三解码层;
所述目标语音识别文本的确定过程包括:
将所述待使用上文信息的文本特征和所述至少一个待校正识别文本的文本特征输入所述第三编码层,得到所述第三编码层输出的所述至少一个待校正识别文本的特征编码和所述待识别语音的重写分类预测结果;
若所述至少一个待校正识别文本对应的重写分类预测结果满足预设重写触发条件,则将所述至少一个待校正识别文本的特征编码输入第三解码层,得到所述第三解码层输出的所述待识别语音的目标语音识别文本。
15.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至11任一项所述的语音文本重写模型构建方法,或者执行权利要求12至14任一项所述的语音识别方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至11任一项所述的语音文本重写模型构建方法,或者执行权利要求12至14任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110229318.7A CN113035175B (zh) | 2021-03-02 | 2021-03-02 | 一种语音文本重写模型构建方法、语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110229318.7A CN113035175B (zh) | 2021-03-02 | 2021-03-02 | 一种语音文本重写模型构建方法、语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035175A CN113035175A (zh) | 2021-06-25 |
CN113035175B true CN113035175B (zh) | 2024-04-12 |
Family
ID=76465410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110229318.7A Active CN113035175B (zh) | 2021-03-02 | 2021-03-02 | 一种语音文本重写模型构建方法、语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035175B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255332B (zh) * | 2021-07-15 | 2021-12-24 | 北京百度网讯科技有限公司 | 文本纠错模型的训练与文本纠错方法、装置 |
CN118350905A (zh) * | 2024-06-17 | 2024-07-16 | 北京未来链技术有限公司 | 元宇宙电商平台商品智能推荐和多维校验付款方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN110211565A (zh) * | 2019-05-06 | 2019-09-06 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111523305A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN111985213A (zh) * | 2020-09-07 | 2020-11-24 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
CN112257437A (zh) * | 2020-10-20 | 2021-01-22 | 科大讯飞股份有限公司 | 语音识别纠错方法、装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110327A1 (en) * | 2014-10-20 | 2016-04-21 | Lenovo (Singapore) Pte. Ltd. | Text correction based on context |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
-
2021
- 2021-03-02 CN CN202110229318.7A patent/CN113035175B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244029A (zh) * | 2015-08-28 | 2016-01-13 | 科大讯飞股份有限公司 | 语音识别后处理方法及系统 |
CN111523305A (zh) * | 2019-01-17 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN110211565A (zh) * | 2019-05-06 | 2019-09-06 | 平安科技(深圳)有限公司 | 方言识别方法、装置及计算机可读存储介质 |
CN110442870A (zh) * | 2019-08-02 | 2019-11-12 | 深圳市珍爱捷云信息技术有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN110956959A (zh) * | 2019-11-25 | 2020-04-03 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN111985213A (zh) * | 2020-09-07 | 2020-11-24 | 科大讯飞华南人工智能研究院(广州)有限公司 | 一种语音客服文本纠错的方法和装置 |
CN112257437A (zh) * | 2020-10-20 | 2021-01-22 | 科大讯飞股份有限公司 | 语音识别纠错方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
一种具有前向纠错功能的语音数字编码系统;王德强, 范仲毅, 曹叶文;山东工业大学学报(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113035175A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914067B (zh) | 中文文本匹配方法及系统 | |
CN113704476B (zh) | 目标事件抽取数据处理系统 | |
CN110704588A (zh) | 基于长短期记忆网络的多轮对话语义分析方法和系统 | |
KR102133825B1 (ko) | 단어자질을 강화한 음성 대화 방법 및 시스템 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN113035175B (zh) | 一种语音文本重写模型构建方法、语音识别方法 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN113468433A (zh) | 目标事件抽取数据处理系统 | |
JPWO2007069762A1 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
CN113722461A (zh) | 目标事件抽取数据处理系统 | |
CN111597401B (zh) | 基于图关系网络的数据处理方法、装置、设备及介质 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
US20240037335A1 (en) | Methods, systems, and media for bi-modal generation of natural languages and neural architectures | |
CN113886531A (zh) | 智能问答话术确定方法、装置、计算机设备和存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN115186071A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN113722462B (zh) | 目标论元信息抽取数据处理系统 | |
CN118377909B (zh) | 基于通话内容的客户标签确定方法、装置及存储介质 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
CN116821691B (zh) | 基于任务融合的训练情感识别模型的方法和装置 | |
CN117875424B (zh) | 一种基于实体描述和对称关系的知识图谱补全方法及系统 | |
CN114896368A (zh) | 大规模候选集中的语义代码搜索模型构建方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |