CN116432658A - 语音数据的处理方法和装置、存储介质及电子装置 - Google Patents
语音数据的处理方法和装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN116432658A CN116432658A CN202310108053.4A CN202310108053A CN116432658A CN 116432658 A CN116432658 A CN 116432658A CN 202310108053 A CN202310108053 A CN 202310108053A CN 116432658 A CN116432658 A CN 116432658A
- Authority
- CN
- China
- Prior art keywords
- sentence
- current
- interactive
- interactive sentence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 18
- 230000002452 interceptive effect Effects 0.000 claims abstract description 389
- 239000011159 matrix material Substances 0.000 claims abstract description 150
- 238000013518 transcription Methods 0.000 claims abstract description 104
- 230000035897 transcription Effects 0.000 claims abstract description 104
- 230000003993 interaction Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 79
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 147
- 238000012546 transfer Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000010009 beating Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音数据的处理方法和装置、存储介质及电子装置,涉及智能家居/智慧家庭技术领域,其中,上述方法包括:从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句;在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句。
Description
技术领域
本申请涉及智能家居/智慧家庭领域,具体而言,涉及一种语音数据的处理方法和装置、存储介质及电子装置。
背景技术
目前,可以在智能设备上配置语音交互功能,例如,运行语音交互助手,以通过语音指令对智能设备或者智能设备的关联设备进行语音控制,对应地,配置有语音交互功能的智能设备为语音设备。由于不同用户的说话习惯不同,在用户与语音设备进行语音交互的过程中,通常会有大量的指代词和省略词,需要依靠上下文来理解其完整语义。
相关技术中,可以在语音设备上增加多轮语音交互能力,采用端到端的方式进行语音交互,将上下文和当前语句直接使用某种算法或模型推断出回复语。然而,采用上述语音数据的处理方式,由于回复语和业务关联性较强,会将自然语言与业务做强耦合,业务变动(比如,回复语需要改动)时,其模型需要重新训练,导致业务变动的成本较高。
由此可见,相关技术中语音数据的处理方法,存在由于回复语与业务的关联性强导致的业务变动成本高的问题。
发明内容
本申请实施例提供了一种语音数据的处理方法和装置、存储介质及电子装置,以至少解决相关技术中语音数据的处理方法存在由于回复语与业务的关联性强导致的业务变动成本高的问题。
根据本申请实施例的一个方面,提供了一种语音数据的处理方法,应用于智能设备,包括:从当前语音数据中提取出当前交互语句,其中,所述当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;在所述当前交互语句存在上一个交互语句的情况下,将所述当前交互语句和所述上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,所述上一个交互语句是从所述语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,所述第一编辑矩阵用于指示所述上一个交互语句中待转写的文本单元,所述第一预测结果为所述当前交互语句的语义完整性的预测结果;在所述第一预测结果用于指示所述当前交互语句的语义不完整的情况下,将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中,得到第一交互语句。
根据本申请实施例的另一个方面,还提供了一种语音数据的处理装置,应用于智能设备,包括:第一提取单元,用于从当前语音数据中提取出当前交互语句,其中,所述当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;第一输入单元,用于在所述当前交互语句存在上一个交互语句的情况下,将所述当前交互语句和所述上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,所述上一个交互语句是从所述语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,所述第一编辑矩阵用于指示所述上一个交互语句中待转写的文本单元,所述第一预测结果为所述当前交互语句的语义完整性的预测结果;第一转写单元,用于在所述第一预测结果用于指示所述当前交互语句的语义不完整的情况下,将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中,得到第一交互语句。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音数据的处理方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音数据的处理方法。
在本申请实施例中,采用根据当前交互语句的语义完整性校验结果,对当前交互语句进行改写的方式,通过从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句,由于对当前交互语句的语义完整性进行校验,在当前交互语句意义不完整的情况下,对当前交互语句进行改写,可以避免对语义完整的语句进行改写而改变语句语义,可以提高语句改写的准确性的目的,达到降低业务变动的成本的技术效果,进而解决了相关技术中语音数据的处理方法存在由于回复语与业务的关联性强导致的业务变动成本高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种语音数据的处理方法的硬件环境示意图;
图2是根据本申请实施例的一种可选的语音数据的处理方法的流程示意图;
图3是根据本申请实施例的另一种可选的语音数据的处理方法的流程示意图;
图4是根据本申请实施例的一种可选的语音数据的处理装置的结构框图;
图5是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种语音数据的处理方法。该语音数据的处理方法广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述语音数据的处理方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
本申请实施例的语音数据的处理方法可以由服务器104来执行,也可以由终端设备102来执行,还可以是由服务器104和终端设备102共同执行。其中,终端设备102执行本申请实施例的语音数据的处理方法也可以是由安装在其上的客户端来执行。
以由语音设备(终端设备102的一种)来执行本实施例中的语音数据的处理方法为例,图2是根据本申请实施例的一种可选的语音数据的处理方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据。
本实施例中的语音数据的处理方法可以应用在对语音设备采集的语音数据进行处理的场景中,语音设备可以是智能语音设备,可以在和用户的语音交互过程中采集语音数据,并通过识别用户的意图执行相应的设备操作或者对用户的交互语音做出回复,语音设备的设备类型可以是智能家居设备,例如,智能洗衣机、智能音箱、智能空调等设备。
用户在和语音设备进行语音交互的过程中,其语音中通常会包含大量的指代词和省略词,语音设备需要根据上下文来理解完整的语义。例如,在多轮语音交互中,用户说出“我想听个歌”,语音设备询问用户“听什么歌”,用户回答“A歌手的”。用户的完整意图是“我想听A歌手的歌”,而用户的当前语句“A歌手的”中省略了主语、谓语和宾语。如果用户在之后的语音交互中,说出“播放他的歌曲B”,其完整语义是“播放A歌手的歌曲B”,这里的指示代词“他”指代“A歌手”。在对话中,人脑可以自动根据上下文来理解当前语句,但语音设备在语音交互的过程中只能根据当前语句理解语义,会导致语义缺失,无法正确识别用户意图,进而无法执行相应的设备操作或者对用户做出正确的回复。
为了解决上述技术问题,语音设备可以配置多轮语音交互的功能,即,可以结合多轮语音交互中的上下文来识别用户的意图。多轮语音交互的方案可以是:根据上下文和当前语句,使用端到端的算法或模型推断出回复语。根据上下文和当前语句推断出的回复语和业务关联性较强,自然语言与业务之间具有强耦合关系,当业务变动(例如,回复语需要改动)时,模型需要重新训练。另外,方式一无法解决不同语音设备对相同的上下文可能需要做出不同回复的问题。
对此,也可以采用对话改写的方式,根据上文语句对当前语句进行改写,消解指代词,补全省略成分,使当前语句变为语义完整的语句,然后再对当前语句进行语义解析,生成回复语。这里,对话改写可以包括指代消解和省略补全。对话改写的方式可以分两步进行,先进行指代消解,再进行省略补全,然后将两个结果整合。但是,上述方式的处理流程较长,并且可能两个结果无法很好的融合。
为了缩短处理流程,提高对话改写的准确性,也可以采用如下的对话改写方式:将上下文和当前语句进行拼接,即,将上下文与当前语句拼接到一起,通过模型直接生成改写后的句子。对于上述对话改写的方式可以分为以下两种方案:
方案一,使用纯生成式的模型直接拼接上文和当前语句,生成改写后的句子,纯生成式的模型可以是BertForMLM(Bert(Bidirectional Encoder Representations,语言表征模型)from Transformer For Masked Language Model,掩盖了部分信息的语言表征模型)或GPT(Generative Pre-Training,生成式预训练模型)。然而,由于纯生成式的模型生成的字是随机的,随机生成的句子效果不佳,可能与当前对话不相关,并不适用于家电控制领域等指向性较强的领域。
方案二,通过模型(转写模型)对上文和当前语句进行拼接,生成一个编辑矩阵,在编辑矩阵中标识出上文中需插入到当前语句的字以及当前语句需插入或者替换的字中,以将上文的字插入或替换到当前语句中。通过上述方式改写的语句和当前对话具有强相关性,适用于家电控制领域。
例如,在多轮语音交互过程中,采集到的交互语句依次为“打开空调”、“设为24度”,则生成的编辑矩阵为:
打 | 0 | 0 | 0 | 0 |
开 | 0 | 0 | 0 | 0 |
空 | 1 | 0 | 0 | 0 |
调 | 1 | 0 | 0 | 0 |
设 | 为 | 24 | 度 |
其中,0代表无操作,1代表插入到当前位置前面。上面的编辑矩阵表示将“空”和“调”插入到“设”前面,其他字不动。
然而,当前的转写模型会对上下文中的所有字直接进行计算,得到一个编辑矩阵,如果上文中包含了比较常用的词,那么很可能会被补全到下文中。如果当前语句的语义是完整的,模型可能还会对当前语句进行改写,导致当前语句中的关键词过召回,即,改写后的当前语句出现相同的关键词,影响对当前语句的语义解析。
例如,多轮语音交互过程中,采集到的交互语句依次为“打开空调”、“空调设为24度”,则模型可能把“空调”转写,生成的编辑矩阵为:
打 | 0 | 0 | 0 | 0 | 0 | 0 |
开 | 0 | 0 | 0 | 0 | 0 | 0 |
空 | 1 | 0 | 0 | 0 | 0 | 0 |
调 | 1 | 0 | 0 | 0 | 0 | 0 |
空 | 调 | 设 | 为 | 24 | 度 |
基于编辑矩阵,改写后的交互语句为“空调空调设为24度”。而对改写后的交互语句进行语义解析,则可能会发生语义解析错误的情况。
为了至少解决部分上述问题,在本实施例中,在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到转写模型中,得到编辑矩阵和当前交互语句的语义完整性预测结果,在语义完整性预测结果指示当前交互语句语义不完整的情况下,根据编辑矩阵对当前交互语句进行转写,可以避免对语义完整的交互语句进行转写,提高语句转写的准确性。
在需要与语音设备进行交互时,用户可以向语音设备发出交互语音。语音设备上可以设置有语音采集部件,例如,麦克风、麦克风阵列、拾音部件等。语音设备可以获取其上的语音采集部件所采集到的当前语音数据。语音设备(例如,其上的处理器)可以从当前语音数据中提取出当前交互语句,这里,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据。当前轮语音交互可以是第一轮语音交互,也可以是第N轮语音交互,N为大于或者等于2的正整数。
步骤S204,在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果。
当前交互语句可能存在上一个交互语句,也可能不存在上一个交互语句。上一个交互语句可以是语义完整的交互语句,也可能不存在语义完整的交互语句,这里,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,或者,将在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句与从其他轮语音交互的过程中采集到的语音数据中提取出的交互语句进行融合所得到的交互语句。
如果当前交互语句存在上一个交互语句,则可以将当前交互语句和上一个交互语句输入到目标转写模型,目标转写模型除了可以用于获取两个交互语句之间的编辑矩阵以外,还可以用于对当前交互语句进行语义完整性校验。对应地,目标转写模型可以输出第一编辑矩阵和第一预测结果,这里,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果。第一编辑矩阵可以用于对当前交互语句进行改写,而第一预测结果则用于判断是否需要对当前交互语句进行改写。
这里,编辑矩阵可以是用于指示上一个交互语句中需要转写到当前交互语句的文本单元,以及当前交互语句中待转写的文本单元的插入位置,文本单元可以是上一个交互语句中的字、词语、短语等,第一预测结果可以是当前交互语句的语义完整性的预测结果,可选地,可以用数字1表示当前交互语句语义完整,不需要对当前交互语句进行改写,用数字0表示当前交互语句语义不完整,需要进行改写。
可选地,目标转写模型可以是基于RUN(Rewritten U-shaped Network,重写U型网络)的转写模型,也可以是其他类型的转写模型,其中,RUN模型可包括BERT、LSTM(LongShort Term Memory,具有长短期记忆的神经网络)、CNN(Convolutional NeuralNetworks,卷积神经网络)、FC(Full Connect,全连接层)网络结构,在本实施例的部分示例中,目标转写模型以基于RUN的转写模型为例进行说明。这里,转写模型与其他转写模型相比,其即具有生成编辑矩阵的能力,又具备语义完整性预测的能力。
步骤S206,在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句。
第一预测结果所指示的当前交互语句的语义完整性有两种情况,一种为语义不完整,如果第一预测结果用于指示当前交互语句的语义完整,则可以直接对当前交互语句进行语义解析和意图识别,从而可以控制语音设备执行和当前交互语句匹配的设备操作,而不需要对当前交互语句进行语句改写。
此外,也可以首先通过语义完整性预测模型对当前交互语句的语义完整性进行预测,如果当前交互语句语义完整,则直接对当前交互语句进行语音解析,而如果当前交互语句语义不完整,则将当前交互语句和上一个交互语句输入到转写模型,得到转写模型输出的编辑矩阵,并基于编辑矩阵将上一个交互语句中所需转写的文本单元转写到当前交互语句,从而得到改写后的当前交互语句。
可选地,如果第一预测结果用于指示当前交互语句的语义不完整,则确定需要对当前交互语句进行改写,可以根据第一编辑矩阵,将上一个交互语句中的待转写文本单元转写至当前交互语句,即,将上一个交互语句中待转写的文本单元插入到当前交互语句中指定的位置,得到第一交互语句。这里,语句转写可以是由目标转写模型执行的,也可以是由除了目标转写模型以外的其他程序模块执行的,本实施例中对此不做限定。
例如,如果上一个语句为“打开空调”,当前语句为“设为24度”,通过RUN模型输出的编辑矩阵如前述,而语义完整性预测结果为当前语句语义不完整,则可以使用编辑矩阵对当前语句进行改写,将上一个语句中的“空调”转写到当前语句,得到的转写结果为“空调设为24度”。
通过上述步骤S202至步骤S206,通过从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句,解决了相关技术中语音数据的处理方法存在由于回复语与业务的关联性强导致的业务变动成本高的问题,降低了业务变动的成本。
在一个示例性实施例中,上述方法还包括:
S11,获取一组训练语句对,其中,一组训练语句对中的每个训练语句对包含目标训练语句和参考训练语句,参考训练语句是对目标训练语句进行语句转写所使用的语句,每个训练语句对标注有对应的编辑矩阵、以及目标训练语句的语义完整性标签;
S12,使用标注有对应的编辑矩阵、以及目标训练语句的语义完整性标签的一组训练语句对对初始转写模型进行模型训练,得到目标转写模型。
在本实施例中,为了提高转写模型的转写准确率,可以通过训练语句对对初始转写模型进行模型训练,这里的训练语句对可以包括目标训练语句和参考训练语句,其中,目标训练语句是需要进行语句改写的语句,参考训练语句是对目标训练语句进行语句改写所使用的语句(即,待转写到目标训练语句中的语句),可以根据目标训练语句的语义是否完整为目标训练语句设置语义完整性标签,并且根据参考训练语句和目标训练语句之间的转写关系标注编辑矩阵。
将一组训练语句对作为训练数据集,使用每个训练语句对对应的编辑矩阵以及将目标训练语句的语义完整性标签对初始转写模型进行模型训练,即,将语义完整性标签作为二分类任务同时进行训练,预测时也输出语义完整性的分类结果,从而得到目标转写模型。
例如,在训练转写模型时,将语义完整性标签作为二分类任务同时进行训练,预测时也输出语义完整性的分类结果。在使用训练好的转写模型进行语句转写时,如果转写模型当前语句进行语义完整性预测所得到的分类结果为1代表当前语句语义完整,不需要转写,直接输出当前语句作为结果;如果分类为0就代表需要转写,再根据计算出的编辑矩阵得到转写后的句子。
通过本实施例,通过使用标注有对应的编辑矩阵、以及义完整性标签的训练语句对对初始转写模型进行模型训练,得到所需的转写模型,可以提高转写模型进行语句转写和语义完整性预测的准确性和效率。
在一个示例性实施例中,使用标注有对应的编辑矩阵、以及目标训练语句的语义完整性标签的每个训练语句对对初始转写模型进行模型训练,得到目标转写模型,包括:
S21,使用一组训练语句对对初始转写模型进行多轮模型训练,直到满足预设结束条件,模型训练后的初始转写模型为目标转写模型;
其中,在进行一轮模型训练时,将每个训练语句对依次作为当前训练语句对执行以下模型训练操作,其中,当前训练语句中的目标训练语句为当前目标训练语句,当前训练语句对标注的编辑矩阵为标注编辑矩阵,当前目标训练语句标注的语义完整性标签为标注语义完整性标签:
将当前训练语句对输入到初始转写模型,得到初始转写模型输出的当前编辑矩阵和当前语句完整性标签;
基于当前编辑矩阵和标注编辑矩阵之间的矩阵差异,调整初始转写模型的模型参数,以降低初始转写模型输出的、与当前训练语句对所对应的编辑矩阵和标注编辑矩阵之间的矩阵差异;
在当前语句完整性标签与标注语义完整性标签不一致的情况下,调整初始转写模型的模型参数,以使初始转写模型输出的、与当前目标训练语句对应的语句完整性标签与标注语义完整性标签一致。
在本实施例中,在对初始转写模型进行模型训练时,可以使用一组训练语句对对初始转写模型进行多轮模型训练,直到满足预先设定的、与训练结束对应的条件,即,预设条件,这里的预设条件可以包括一种或多种,例如,模型训练轮数达到预设轮数,初始转写模型的损失函数的函数值小于或者等于预设阈值,只要满足任一种预设条件,即可认为模型训练结束。初始转写模型的模型参数在模型训练的过程中得到调整,经过多轮训练之后的初始转写模型即为目标转写模型。上述损失函数是用于衡量模型所作出的预测值离真实值之间的偏离程度,其可以是融合了与编辑矩阵对应的损失函数和与语义完整性标签对应的损失函数之后得到的损失函数,与编辑矩阵对应的损失函数和与语义完整性标签对应的损失函数可以参考相关技术,融合两种损失函数的方式可以是加权求和,也可以是其他的融合方式,本实施例中对此不做限定。
在进行每轮模型训练时,可以依次使用每个训练语句对对初始转写模型,每次模型训练之后可以基于标注信息(标注的编辑矩阵以及语义完整性标签)调整初始转写模型,得到调整后的初始转写模型,下一次模型训练是在上一次模型训练得到的初始转写模型的基础上执行的。
在每次进行模型训练时,可以将当前使用的训练语句对作为当前训练语句对执行以下的模型训练操作,这里,当前训练语句中的目标训练语句为当前目标训练语句,当前训练语句对标注的编辑矩阵为标注编辑矩阵,当前目标训练语句标注的语义完整性标签为标注语义完整性标签:
将当前训练语句对输入到初始转写模型(当前的初始撰写模型,可以是上一次模型训练之后得到的初始撰写模型)中,得到初始转写模型输出的当前编辑矩阵和当前语句完整性标签;
比较当前编辑矩阵和标注编辑矩阵、以及比较当前语句完整性标签和标注语句完整性标签,基于当前编辑矩阵和标注编辑矩阵之间的矩阵差异、以及当前语句完整性标签和标注语句完整性标签之间的差异进行模型参数的调整,从而得到此次模型训练之后的初始转写模型。
可选地,在当前编辑矩阵和标注编辑矩阵相同、且当前语句完整性标签和标注语义完整性标签相同的情况下,可以保持初始转写模型的模型参数;在当前编辑矩阵和标注编辑矩阵存在矩阵差异的情况下,为了降低初始转写模型输出的当前训练语句对的当前编辑矩阵与当前训练语句的标注编辑矩阵之间的矩阵差异,可以基于当前编辑矩阵和标注编辑矩阵之间的矩阵差异,对初始转写模型的模型参数进行调整;在当前训练语句对的当前语句完整性标签和标注语义完整性标签不一致的情况下,为了使初始转写模型输出的当前目标训练语句对应的语句完整性标签与标注语义完整性标签一致,提高初始转写模型的语义完整性预测的准确性,也可以对初始转写模型的模型参数进行调整。
通过本实施例,通过使用多个训练语句对对初始转写模型进行模型训练,可以对初始模型的模型参数进行调整,进而提高转写模型进行语句转写和语义完整性预测的准确性。
在一个示例性实施例中,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句,包括:
S31,根据第一编辑矩阵,确定上一个交互语句中待转写的文本单元、以及当前交互语句中的待插入位置,其中,待插入位置为当前交互语句中,上一个交互语句中待转写的文本单元待插入到的位置;
S32,将上一个交互语句中待转写的文本单元插入到当前交互语句中的待插入位置,得到第一交互语句。
在编辑矩阵中,可以通过不同的标记来标识待转写的文本单元和无需转写的文本单元,例如,通过第一标识(例如,数字1)来标识待转写的文本单元,通过第二标识来标识无需转写的文本单元,同时,通过将编辑矩阵中,待转写的文本单元与当前交互语句中待转写的文本单元待插入到的位置所对应的文本单元(例如,待转写的文本单元待插入到此文本单元之前、或者此文本单元之后)匹配的矩阵位置上置为第一标识,其他矩阵位置均置为第二标识。编辑矩阵的示例如前述,这里,在前述编辑矩阵中,文本单元为字,也可以采用词语等作为文本单元。
对于上一个交互语句和当前交互语句,可以基于第一编辑矩阵,确定上一个交互语句中待转写的文本单元、以及当前交互语句中的待插入位置,这里,待插入位置为当前交互语句中,上一个交互语句中待转写的文本单元待插入到的位置,可以通过指定插入位置之前的文本单元或者指定插入位置之后的文本单元进行表示。将上一个交互语句中待转写的文本单元插入到当前交互语句中的待插入位置,得到第一交互语句。这里,如果是连续的文本单元转写到当前交互语句,则转写后的顺序与在上一个交互语句中的顺序一致。
可选地,根据第一编辑矩阵,确定上一个交互语句中待转写的文本单元、以及当前交互语句中的待插入位置,包括:遍历第一编辑矩阵,确定第一编辑矩阵中元素值为预设值(例如,上述第一标识)的一组目标元素;将上一个交互语句中与一组目标元素对应的文本单元,确定为上一个交互语句中待转写的文本单元,将当前交互语句中与一组目标元素对应的文本单元之前的位置、或者之后的位置,确定为当前交互语句中的待插入位置。
通过本实施例,基于编辑矩阵确定待转写的文本单元以及待转写的文本单元当前交互语句中待转写的文本单元待插入到的位置,可以提高语句改写的便捷性和效率,提高交互语句响应的时效性。
在一个示例性实施例中,在将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中之后,上述方法还包括:
S41,对第一交互语句进行语义完整性预测,得到第一交互语句的第二预测结果;
S42,在第二预测结果用于指示第一交互语句的语义完整的情况下,控制语音设备执行与第一交互语句匹配的设备操作。
在将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中之后,可以直接对转写得到的第一交互语句进行语义解析和意图识别。由于转写得到的交互语句的语义不一定完整,那么,直接对第一交互语句进行语义解析和意图识别,则容易出现语义解析错误,意图识别失败的情况。
在本实施例中,为了提高语义解析的可靠性,在得到第一交互语句之后,可以对第一交互语句进行语义完整性预测,得到第一交互语句的第二预测结果,进行语义完整性预测可以是使用语义完整性预测模型执行的,该语义完整性预测模型可以是使用具有语义完整性标注结果的训练语句对初始的语义完整性预测模型进行训练得到的,也可以采用其他方式进行语义完整性预测,本实施例中对此不做限定。
如果第二预测结果用于指示第一交互语句的语义完整,则可以对第一交互语句进行语义解析,得到与第一交互语句匹配的设备操作,并控制语音设备执行与第一交互语句匹配的设备操作。而如果第二预测结果用于指示第一交互语句的语义不完整,则可以继续等待下一轮语音交互的过程,直到获取到语义完整的交互语句,或者,用户不再进行语音交互。
这里,执行语音数据识别操作、将交互语句输入到目标转写模型、语句完整性预测等操作的可以是语音设备,也可以是服务器,即,语音设备将语音数据传输给服务器、从语音数据识别到的交互语句传输给服务器,由服务器执行后的处理操作,或者,语音数据和服务器分别执行部分操作,本实施例中对此不做限定。
通过本实施例,通过改写后的交互语句进行语义完整性预测,并在确定改写后的交互语句语义完整时执行匹配的设备操作,可以提高语音交互的效率。
在一个示例性实施例中,上述方法还包括:
S51,在第二预测结果用于指示第一交互语句的语义不完整的情况下,为第一交互语句添加待转写标签,其中,待转写标签用于标识第一交互语句为待转写的交互语句;
S52,从语音设备在下一轮语音交互的过程中采集到的语音数据中提取出下一个交互语句;
S53,将第一交互语句和下一个交互语句输入到目标转写模型,得到第二编辑矩阵和第三预测结果,其中,第二编辑矩阵用于指示第一交互语句中待转写的文本单元,第三预测结果为下一个交互语句的语义完整性的预测结果;
S54,在第三预测结果用于指示下一个交互语句的语义不完整的情况下,将第二编辑矩阵所指示的第一交互语句中待转写的文本单元转写至下一个交互语句中,得到第二交互语句。
如果第二预测结果用于指示第一交互语句的语义不完整,可以不对第一交互语句进行语义解析,而是为第一交互语句添加待转写标签,以标识第一交互语句为待转写的交互语句,即,在第二预测结果用于指示第一交互语句的语义不完整的情况下,为第一交互语句添加待转写标签。此外,即使第二预测结果用于指示第一交互语句的语义完整,也可以为第一交互语句添加待转写标签,以便于对之后的交互语句进行语句改写;或者,也可以将当前交互语句标记为待转写语句。
对于标记为待转写的交互语句,可以将其作为下一个交互语句的上一个交互语句按照与前述类似的方式对下一个交互语句进行语句改写,已经进行过说明的,在此不做赘述。如果在采集到当前语音数据之后的预设时间内未采集到新的有效语音数据,则可以直接退出多轮语音交互。
可选地,在为第一交互语句添加待转写标签之后,可以从语音设备在下一轮语音交互的过程中采集到的语音数据中提取出下一个交互语句,通过第一交互语句对下一个交互语句进行语句改写。可选地,为当前交互语句添加待转写标签之后的流程与此类似,在此不做赘述。
将第一交互语句和下一个交互语句输入到目标转写模型中,可以得到目标转写模型输出的编辑矩阵(即,第二编辑矩阵)和下一个交互语句的语义完整性预测结果(即,第三预测结果)。如果第三预测结果指示下一个交互语句语义不完整,可以基于第二编辑矩阵,通过第一交互语句对下一个交互语句进行转写,得到第二交互语句。对第二交互语句进行改写的方式和前述类似,在此不做赘述。
通过本实施例,通过在下一轮语音交互的过程中所获取到的交互语句语义不完整时,使用改写后的交互语句对其进行语句改写,由于融合了多轮交互过程中所获取到的信息,可以提高对话转写的准确性。
在一个示例性实施例中,在从当前语音数据中提取出当前交互语句之后,上述方法还包括:
S61,在当前交互语句不存在上一个交互语句的情况下,对当前交互语句进行语义完整性预测,得到当前交互语句的第四预测结果;
S62,在第四预测结果用于指示当前交互语句的语义不完整的情况下,为当前交互语句添加待转写标签,其中,待转写标签用于标识当前交互语句为待转写的交互语句。
在从当前语音数据中提取出当前交互语句之后,当前交互语句可能不存在上一个交互语句,比如,当前交互语句为在语音设备的首轮语音交互过程中提取的交互语句,无法根据上一个交互语句对当前交互语句进行语句改写,可以对当前交互语句进行语义完整性预测,基于当前交互语句的语义是否完整,对当前交互语句进行对应处理。
如果预测结果指示当前交互语句的语义完整,可以直接识别当前交互语句中的用户意图,控制语音设备执行和当前交互语句匹配的设备操作,如果预测结果指示当前交互语句的语义不完整,则可以不对当前交互语句进行语义解析。为了避免用户进行多轮语音交互,可以为当前交互语句添加待转写标签,在获取到语义不完整的下一轮交互语句之后,对语义不完整的下一轮交互语句进行语句改写。
通过本实施例,通过在当前交互语句没有上一个交互语句时,先对当前交互语句进行语义完整性预测,可以减少资源消耗(对于语义不完整的交互语句不进行语义解析),提高资源的利用率。
下面结合可选示例对本申请实施例中的语音数据的处理方法方法进行解释说明。在本可选示例中,当前交互语句为当前语句,上一轮交互语句为上文,目标训练模型为RUN模型,其中,RUN模型是包括BERT、LSTM、CNN、FC的网络结构。
本可选示例中提供了一种带语义完整性校验的对话转写方案,在使用RUN模型做对话转写时,加入了对当前语句语义完整性的校验,如果当前语句语义完整不需要改写,直接输出当前语句;如果语义不完整需要改写,再使用模型的编辑矩阵还原出完整语句。结合图3所示,本可选示例中的语音数据的处理方法的流程可以包括以下步骤:
步骤1,获取上文和当前语句。
步骤2,将上文和当前语句输入到RUN模型中,得到当前语句的语义完整性预测值以及当前语句和上文的编辑矩阵。
步骤3,判断当前语句的语义完整性预测值是否为1,若是,执行步骤4,否则执行步骤5。
若当前语句语义完整性预测值为1,表示当前语句语义完整,不需要进行改写,当前语句语义完整性预测值为0,表示当前语句语义不完整,需要进行改写。
步骤4,将当前语句原句输出。
步骤5,根据编辑矩阵,对当前语句进行改写,还原出完整句子作为输出。
通过本可选示例,通过先对当前句进行语义完整性的判断,如果是语义完整的语句不进行转写,如果是语义不完整的语句则进行转写,可以减少过召回的情况,提高语句改写的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述语音数据的处理方法的语音数据的处理装置,该语音数据的处理装置可以应用于智能设备上。图4是根据本申请实施例的一种可选的语音数据的处理装置的结构框图,如图4所示,该装置可以包括:
第一提取单元402,用于从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;
第一输入单元404,与第一提取单元402相连,用于在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;
第一转写单元406,与第一输入单元404相连,用于在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句。
需要说明的是,该实施例中的第一提取单元402可以用于执行上述步骤S202,该实施例中的第一输入单元404可以用于执行上述步骤S204,该实施例中的第一转写单元406可以用于执行上述步骤S206。
通过上述模块,从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句,解决了相关技术中语音数据的处理方法存在由于回复语与业务的关联性强导致的业务变动成本高的问题,降低了业务变动的成本。
在一个示例性实施例中,上述装置还包括:
获取单元,用于获取一组训练语句对,其中,一组训练语句对中的每个训练语句对包含目标训练语句和参考训练语句,参考训练语句是对目标训练语句进行语句转写所使用的语句,每个训练语句对标注有对应的编辑矩阵、以及目标训练语句的语义完整性标签;
训练单元,用于使用标注有对应的编辑矩阵、以及目标训练语句的语义完整性标签的一组训练语句对对初始转写模型进行模型训练,得到目标转写模型。
在一个示例性实施例中,训练单元包括:
训练模块,用于使用一组训练语句对对初始转写模型进行多轮模型训练,直到满足预设结束条件,模型训练后的初始转写模型为目标转写模型,其中,预设结束条件包括以下至少之一:模型训练的轮数达到预设轮数,初始转写模型的损失函数的函数值小于或者等于预设阈值;
其中,在进行一轮模型训练时,将每个训练语句对依次作为当前训练语句对执行以下模型训练操作,其中,当前训练语句中的目标训练语句为当前目标训练语句,当前训练语句对标注的编辑矩阵为标注编辑矩阵,当前目标训练语句标注的语义完整性标签为标注语义完整性标签:
将当前训练语句对输入到初始转写模型,得到初始转写模型输出的当前编辑矩阵和当前语句完整性标签;
基于当前编辑矩阵和标注编辑矩阵之间的矩阵差异,调整初始转写模型的模型参数,以降低初始转写模型输出的、与当前训练语句对所对应的编辑矩阵和标注编辑矩阵之间的矩阵差异;
在当前语句完整性标签与标注语义完整性标签不一致的情况下,调整初始转写模型的模型参数,以使初始转写模型输出的、与当前目标训练语句对应的语句完整性标签与标注语义完整性标签一致。
在一个示例性实施例中,第一转写单元包括:
确定模块,用于根据第一编辑矩阵,确定上一个交互语句中待转写的文本单元、以及当前交互语句中的待插入位置,其中,待插入位置为当前交互语句中,上一个交互语句中待转写的文本单元待插入到的位置;
插入模块,用于将上一个交互语句中待转写的文本单元插入到当前交互语句中的待插入位置,得到第一交互语句。
在一个示例性实施例中,上述装置还包括:
第一预测单元,用于在将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中之后,对第一交互语句进行语义完整性预测,得到第一交互语句的第二预测结果;
控制单元,用于在第二预测结果用于指示第一交互语句的语义完整的情况下,控制语音设备执行与第一交互语句匹配的设备操作。
在一个示例性实施例中,上述装置还包括:
第一添加单元,用于在第二预测结果用于指示第一交互语句的语义不完整的情况下,为第一交互语句添加待转写标签,其中,待转写标签用于标识第一交互语句为待转写的交互语句;
第二提取单元,用于从语音设备在下一轮语音交互的过程中采集到的语音数据中提取出下一个交互语句;
第二输入单元,用于将第一交互语句和下一个交互语句输入到目标转写模型,得到第二编辑矩阵和第三预测结果,其中,第二编辑矩阵用于指示第一交互语句中待转写的文本单元,第三预测结果为下一个交互语句的语义完整性的预测结果;
第二转写单元,用于在第三预测结果用于指示下一个交互语句的语义不完整的情况下,将第二编辑矩阵所指示的第一交互语句中待转写的文本单元转写至下一个交互语句中,得到第二交互语句。
在一个示例性实施例中,上述装置还包括:
第二预测单元,用于在从当前语音数据中提取出当前交互语句之后,在当前交互语句不存在上一个交互语句的情况下,对当前交互语句进行语义完整性预测,得到当前交互语句的第四预测结果;
第二添加单元,用于在第四预测结果用于指示当前交互语句的语义不完整的情况下,为当前交互语句添加待转写标签,其中,待转写标签用于标识当前交互语句为待转写的交互语句。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质,该存储介质可以位于智能设备上。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项语音数据的处理方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;
S2,在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;
S3,在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述语音数据的处理方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子装置的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
S1,从当前语音数据中提取出当前交互语句,其中,当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;
S2,在当前交互语句存在上一个交互语句的情况下,将当前交互语句和上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,上一个交互语句是从语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,第一编辑矩阵用于指示上一个交互语句中待转写的文本单元,第一预测结果为当前交互语句的语义完整性的预测结果;
S3,在第一预测结果用于指示当前交互语句的语义不完整的情况下,将第一编辑矩阵所指示的上一个交互语句中待转写的文本单元转写至当前交互语句中,得到第一交互语句。
可选地,通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器506中可以但不限于包括上述语音数据的处理装置中的第一提取单元402、第一输入单元404、第一转写单元406。此外,还可以包括但不限于上述语音数据的处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述语音数据的处理方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
从当前语音数据中提取出当前交互语句,其中,所述当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;
在所述当前交互语句存在上一个交互语句的情况下,将所述当前交互语句和所述上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,所述上一个交互语句是从所述语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,所述第一编辑矩阵用于指示所述上一个交互语句中待转写的文本单元,所述第一预测结果为所述当前交互语句的语义完整性的预测结果;
在所述第一预测结果用于指示所述当前交互语句的语义不完整的情况下,将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中,得到第一交互语句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取一组训练语句对,其中,所述一组训练语句对中的每个训练语句对包含目标训练语句和参考训练语句,所述参考训练语句是对所述目标训练语句进行语句转写所使用的语句,所述每个训练语句对标注有对应的编辑矩阵、以及所述目标训练语句的语义完整性标签;
使用标注有对应的编辑矩阵、以及所述目标训练语句的语义完整性标签的所述一组训练语句对对初始转写模型进行模型训练,得到所述目标转写模型。
3.根据权利要求2所述的方法,其特征在于,所述使用标注有对应的编辑矩阵、以及所述目标训练语句的语义完整性标签的所述每个训练语句对对初始转写模型进行模型训练,得到所述目标转写模型,包括:
使用所述一组训练语句对对初始转写模型进行多轮模型训练,直到满足预设结束条件,模型训练后的所述初始转写模型为所述目标转写模型,其中,所述预设结束条件包括以下至少之一:模型训练的轮数达到预设轮数,所述初始转写模型的损失函数的函数值小于或者等于预设阈值;
其中,在进行一轮模型训练时,将所述每个训练语句对依次作为当前训练语句对执行以下模型训练操作,其中,所述当前训练语句中的目标训练语句为当前目标训练语句,所述当前训练语句对标注的编辑矩阵为标注编辑矩阵,所述当前目标训练语句标注的语义完整性标签为标注语义完整性标签:
将所述当前训练语句对输入到所述初始转写模型,得到所述初始转写模型输出的当前编辑矩阵和当前语句完整性标签;
基于所述当前编辑矩阵和所述标注编辑矩阵之间的矩阵差异,调整所述初始转写模型的模型参数,以降低所述初始转写模型输出的、与所述当前训练语句对所对应的编辑矩阵和所述标注编辑矩阵之间的矩阵差异;
在所述当前语句完整性标签与所述标注语义完整性标签不一致的情况下,调整所述初始转写模型的模型参数,以使所述初始转写模型输出的、与所述当前目标训练语句对应的语句完整性标签与所述标注语义完整性标签一致。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中,得到第一交互语句,包括:
根据所述第一编辑矩阵,确定所述上一个交互语句中待转写的文本单元、以及所述当前交互语句中的待插入位置,其中,所述待插入位置为所述当前交互语句中,所述上一个交互语句中待转写的文本单元待插入到的位置;
将所述上一个交互语句中待转写的文本单元插入到所述当前交互语句中的所述待插入位置,得到所述第一交互语句。
5.根据权利要求1所述的方法,其特征在于,在所述将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中之后,所述方法还包括:
对所述第一交互语句进行语义完整性预测,得到所述第一交互语句的第二预测结果;
在所述第二预测结果用于指示所述第一交互语句的语义完整的情况下,控制所述语音设备执行与所述第一交互语句匹配的设备操作。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述第二预测结果用于指示所述第一交互语句的语义不完整的情况下,为所述第一交互语句添加待转写标签,其中,所述待转写标签用于标识所述第一交互语句为待转写的交互语句;
从所述语音设备在下一轮语音交互的过程中采集到的语音数据中提取出下一个交互语句;
将所述第一交互语句和所述下一个交互语句输入到所述目标转写模型,得到第二编辑矩阵和第三预测结果,其中,所述第二编辑矩阵用于指示所述第一交互语句中待转写的文本单元,所述第三预测结果为所述下一个交互语句的语义完整性的预测结果;
在所述第三预测结果用于指示所述下一个交互语句的语义不完整的情况下,将所述第二编辑矩阵所指示的所述第一交互语句中待转写的文本单元转写至所述下一个交互语句中,得到第二交互语句。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在所述从当前语音数据中提取出当前交互语句之后,所述方法还包括:
在所述当前交互语句不存在上一个交互语句的情况下,对所述当前交互语句进行语义完整性预测,得到所述当前交互语句的第四预测结果;
在所述第四预测结果用于指示所述当前交互语句的语义不完整的情况下,为所述当前交互语句添加待转写标签,其中,所述待转写标签用于标识所述当前交互语句为待转写的交互语句。
8.一种语音数据的处理装置,其特征在于,包括:
第一提取单元,用于从当前语音数据中提取出当前交互语句,其中,所述当前语音数据是语音设备在当前轮语音交互的过程中采集到的语音数据;
第一输入单元,用于在所述当前交互语句存在上一个交互语句的情况下,将所述当前交互语句和所述上一个交互语句输入到目标转写模型,得到第一编辑矩阵和第一预测结果,其中,所述上一个交互语句是从所述语音设备在上一轮语音交互的过程中采集到的语音数据中提取出的交互语句,所述第一编辑矩阵用于指示所述上一个交互语句中待转写的文本单元,所述第一预测结果为所述当前交互语句的语义完整性的预测结果;
第一转写单元,用于在所述第一预测结果用于指示所述当前交互语句的语义不完整的情况下,将所述第一编辑矩阵所指示的所述上一个交互语句中待转写的文本单元转写至所述当前交互语句中,得到第一交互语句。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108053.4A CN116432658A (zh) | 2023-01-31 | 2023-01-31 | 语音数据的处理方法和装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310108053.4A CN116432658A (zh) | 2023-01-31 | 2023-01-31 | 语音数据的处理方法和装置、存储介质及电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432658A true CN116432658A (zh) | 2023-07-14 |
Family
ID=87087933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310108053.4A Pending CN116432658A (zh) | 2023-01-31 | 2023-01-31 | 语音数据的处理方法和装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432658A (zh) |
-
2023
- 2023-01-31 CN CN202310108053.4A patent/CN116432658A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7150770B2 (ja) | 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
CN110428809B (zh) | 语音音素识别方法和装置、存储介质及电子装置 | |
US20220108080A1 (en) | Reinforcement Learning Techniques for Dialogue Management | |
CN107909998A (zh) | 语音指令处理方法、装置、计算机设备和存储介质 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN114676689A (zh) | 语句文本的识别方法和装置、存储介质及电子装置 | |
CN112116910A (zh) | 语音指令的识别方法和装置、存储介质、电子装置 | |
CN112151034B (zh) | 设备的语音控制方法、装置、电子设备及存储介质 | |
CN115269774A (zh) | 文本意图的识别方法和装置、存储介质和电子装置 | |
CN113160854A (zh) | 语音交互系统、相关方法、装置及设备 | |
CN111312230B (zh) | 一种用于语音对话平台的语音交互监测方法及装置 | |
KR20200063886A (ko) | 자연어 처리 기반 콜센터 지원 시스템 및 방법 | |
CN114911535A (zh) | 应用程序组件配置方法、存储介质及电子装置 | |
CN113962213A (zh) | 一种多轮对话生成方法、终端及计算机可读存储介质 | |
CN116432658A (zh) | 语音数据的处理方法和装置、存储介质及电子装置 | |
CN116996632A (zh) | 一种视频字幕生成方法、电子设备、存储介质 | |
WO2023173596A1 (zh) | 语句文本的意图识别方法和装置、存储介质及电子装置 | |
CN113286008B (zh) | 一种边缘计算智能网关业务处理方法及智能网关系统 | |
CN117009193A (zh) | 日志的处理方法和装置、存储介质及电子装置 | |
CN116108861A (zh) | 语音数据的处理方法和装置、存储介质及电子装置 | |
CN113593531B (zh) | 语音识别模型训练方法及系统 | |
CN111027667A (zh) | 意图类别的识别方法和装置 | |
WO2024217469A1 (zh) | 基于目标生成式预训练gpt模型的交互语句的处理方法 | |
US20230342642A1 (en) | System and method for managing a user-controllable device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |