CN113327591B - 一种语音处理方法及装置 - Google Patents
一种语音处理方法及装置 Download PDFInfo
- Publication number
- CN113327591B CN113327591B CN202110668719.2A CN202110668719A CN113327591B CN 113327591 B CN113327591 B CN 113327591B CN 202110668719 A CN202110668719 A CN 202110668719A CN 113327591 B CN113327591 B CN 113327591B
- Authority
- CN
- China
- Prior art keywords
- semantic
- truth value
- voice
- recognition result
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000012634 fragment Substances 0.000 claims abstract description 66
- 238000012790 confirmation Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 119
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000586 desensitisation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3247—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving digital signatures
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种语音处理方法及装置,其中,该方法首先获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;然后,展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;最后,基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。本公开实施例通过向用户展示语音片段的语义识别结果,并基于用户反馈的语义识别结果的确认结果,确定语音片段的语义真值,从而简化语义真值确定的步骤,实现语义真值确定的自动化。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种语音处理方法及装置。
背景技术
随着科技的快速进步,语音识别得到了广泛的应用。通常,可以利用训练好的语音识别模型对用户输入的语音片段进行语义分析,从而执行语义对应的功能。训练语音识别模型需要大量的训练样本,训练样本包括语音片段和语音片段对应的语义真值,通常,训练样本中的语义真值通常需要工作人员逐个人工确认,耗时费力。
发明内容
本公开实施例至少提供一种语音处理方法及装置。
第一方面,本公开实施例提供了一种语音识别方法,包括:
获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。
一种可选的实施方式中,所述方法还包括:
基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;
在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
一种可选的实施方式中,所述基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求,包括:
将所述标识信息与所述语义真值拼接,得到标识字符串;
确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;
在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中。
一种可选的实施方式中,所述将所述签名信息存储至所述需求数据库中,包括:
将所述签名信息存储至所述需求数据库中,并为存储的签名信息设置过期时间;
所述方法还包括:
在经过所述签名信息对应的过期时间时,将所述签名信息从所述需求数据库中删除。
一种可选的实施方式中,所述基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本,包括:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
一种可选的实施方式中,生成所述语音片段对应的模型训练样本之后,所述方法还包括:
将所述模型训练样本存储至预设的训练样本消费队列中;
响应训练样本获取请求,从所述训练样本消费队列中按照队列顺序获取至少一个模型训练样本。
一种可选的实施方式中,所述基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值,包括:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
第二方面,本公开实施例还提供一种语音处理装置,包括:
获取模块,用于获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示模块,用于展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
确定模块,用于基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。
一种可选的实施方式中,所述装置还包括生成模块,用于:
基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;
在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
一种可选的实施方式中,所述生成模块在基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求时,用于:
将所述标识信息与所述语义真值拼接,得到标识字符串;
确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;
在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中。
一种可选的实施方式中,所述生成模块在将所述签名信息存储至所述需求数据库中时,用于:
将所述签名信息存储至所述需求数据库中,并为存储的签名信息设置过期时间;
所述生成模块还用于:
在经过所述签名信息对应的过期时间时,将所述签名信息从所述需求数据库中删除。
一种可选的实施方式中,所述生成模块在基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本时,用于:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
一种可选的实施方式中,所述装置还包括队列模块,用于:
将所述模型训练样本存储至预设的训练样本消费队列中;
响应训练样本获取请求,从所述训练样本消费队列中按照队列顺序获取至少一个模型训练样本。
一种可选的实施方式中,所述确定模块在基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值时,具体用于:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的语音处理方法及装置,首先获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;然后,展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;最后,基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。本公开实施例通过向用户展示语音片段的语义识别结果,并基于用户反馈的语义识别结果的确认结果,确定语音片段的语义真值,从而简化语义真值确定的步骤,实现语义真值确定的自动化。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种语音处理方法的流程图;
图2示出了本公开实施例所提供的另一种语音处理方法的流程图;
图3示出了本公开实施例所提供的一种语音处理装置的示意图;
图4示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,训练语音识别模型需要大量的训练样本,这些训练样本通常通过应用程序的日常使用收集,比如,在教育软件使用过程中,获取用户针对题目的语音回答片段,或智能家居中获取用户的语音控制指令等,在获取到语音片段后,可以确定其对应的语义真值,根据语义真值与语音片段生成模型训练样本,然而,在采集训练样本的过程中,训练样本中的语义真值通常需要工作人员逐个人工确认,耗时费力。
基于上述研究,本公开提供了一种语音处理方法及装置,能够通过向用户展示语音片段的语义识别结果,并基于用户反馈的语义识别结果的确认结果,确定语音片段的语义真值,从而简化语义真值确定的步骤,实现语义真值确定的自动化。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种语音处理方法进行详细介绍,本公开实施例所提供的语音处理方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该语音处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的语音处理方法的流程图,所述方法包括步骤S101~S103,其中:
S101、获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果。
该方法可以应用于在线教育软件的场景,在应用运行时,在用户授权的基础上,可以通过部署的录音设备获取到目标用户的语音片段,示例性的,终端设备可以展示题目,并采集目标用户针对展示的题目的答复语音,将答复语音作为需要进行处理的语音片段。
语音片段可以是在应用运行时实时采集的,可以在采集之后确定语音片段对应的语义识别结果,示例性的,可以利用语音识别模型确定上述语音片段对应的语义识别结果。
S102、展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果。
该步骤中,可以将语义识别结果展示给目标用户,然后获取目标用户针对语义识别结果的确认结果,其中,确认结果可以用于表示语义识别结果是否正确。
示例性的,在确定语义识别结果后,可以通过客户端将语义识别结果展示给用户,并提供确认结果对应的选项,选项可以包括是、否两个选项,用户可以判断语义真值是否与语义识别结果一致,然后选择对应的确认结果。
S103、基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。
具体的,可以通过以下步骤确定语音片段对应的语义真值:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
具体的,终端设备可以调用应用的语音识别软件开发包(Software DevelopmentKit,SDK)来确定语义识别结果,语音识别SDK可以作为集成至应用中的一个功能模块。
这里,在获取到语音片段及语义真值后,可以先将其加载至内存中,不影响后续其他语音片段及语义真值的获取。
一种可能的实施方式中,该方法还可以包括步骤1)及步骤2),其中:
1)、基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求。
这里,由于采集的语音片段可能存在重复或无效的情况,可以在获取到语音片段及语义真值后,根据目标用户的标识信息及语义真值确定是否存在利用语音片段训练目标语音识别模型的需求。
这里,即使两段语音片段的语义真值不同,不同用户的语音片段可能存在许多差异,因此,对于不同的用户,需要分别进行训练,而同一用户的语音片段若语义真值相同,则可能高度相似,这样的训练样本对模型训练的帮助较小,利用其训练的效率较低,可以将其从训练样本中剔除。通过确定已存在的训练样本中,是否存在语义真值且用户的标识信息相同的样本,即可确定是否存在利用语音片段训练的需求。
具体的,可以将所述标识信息与所述语义真值拼接,得到标识字符串;之后,确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息,标识字符串的签名信息能够表征目标用户及语义真值;在所述需求数据库中不存在所述签名信息的情况下,可以说明没有获取到目标用户针对上述语义真值的语音片段,因此有需求利用上述语音片段对目标语音识别模型进行训练,则确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中,这样,当再次获取到目标用户针对上述语义真值的语音片段时,则可以判断不存在上述需求,当不存在上述需求时,可以将获取到的语音片段遗弃,不作为模型训练样本。
示例性的,若目标用户的标识信息为“123”,语义真值为“ABC”,则标识字符串可以为“123ABC”。
在得到标识字符串后,可以确定标识字符串的签名信息,签名信息可以通过预设的签名规则确定,比如,可以将MD5值作为签名信息。在得到签名信息后,可以将签名信息作为key,并判断key是否存在于需求数据库中,这里,需求数据库可以为Redis,其中可以存储有多个key,每个key可以是一个签名信息,存储的签名信息是与模型训练样本相对应的,可以利用Redis的setnx(SET if Not Exists)命令来判断key是否存储于需求数据库中,若不存在,则可以将该key存储于需求数据库中,并确定存在利用该语音片段训练目标语音识别模型的需求。
进一步的,可以为存储至需求数据库中的签名信息添加一个过期时间,在被存储至需求数据库中超过该过期时间时,该签名信息可以自动销毁,或将该签名信息从需求数据库中删除,这样,若超过过期时间,也视为存在针对该语音片段的训练需求。
2)、在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
该步骤中,可以在确定存在上述需求的情况下,对语音片段及语义真值进行处理,生成语音片段对应的模型训练样本。这里,可以对语音片段进行加密处理,对语义真值进行脱敏处理,并将加密处理后的语音片段及脱敏处理后的语义真值作为模型训练样本。
具体的,步骤2)可以包括:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
该步骤中,可以先确定上述标识信息的MD5值,然后利用确定的MD5值对语音片段及语义真值进行签名处理,这样,语音片段及语义真值即可携带有目标用户的特征信息,在签名处理后,可以对签名后的语义真值进行脱敏处理,具体的,可以根据预设的替换规则,将语义真值中的敏感信息替换为预设的字符。同时,还可以对签名后的语音片段进行加密处理,示例性的,可以进行高级加密标准(Advanced Encryption Standard,AES)处理,AES又称Rijndael加密法。
这样,通过脱敏及加密处理,可以令目标语音识别模型在进行训练时,学习加密及脱敏后的数据关系,而不涉及语音及语义本身,保护用户安全。
进一步的,在生成语音片段对应的模型训练样本后,可以将生成的模型训练样本存储至预设的训练样本消费队列中,并在检测到训练样本获取请求时,响应训练样本获取请求,从训练样本消费队列中按照队列顺序获取至少一个模型训练样本,利用获取的模型训练样本进行目标语音识别模型的训练。
其中,训练样本消费队列的类型可以为消息队列queue,若存放模型训练样本失败,则可以以预设时间间隔为周期,重新将其存储至训练样本消费队列中,直至存储成功或失败次数超过或等于预设次数,若失败次数超过或等于预设次数,则可以将模型训练样本遗弃。
参见图2所示,为本公开实施例所提供的另一种语音处理方法的流程图。该方法中,用户user语音回答在线教育应用程序(application,app)上展示的问题,然后,在线教育app通过终端设备上的逻辑获取语音片段,并确定语音片段对应的语义真值,然后,向后端服务的后端接口发送请求,将语音片段及语义真值发送至后端服务,后端服务生成签名信息key,并向需求数据库redis中确认是否存在key,在不存在的情况下通过生产逻辑将语音片段及语义真值转换为模型训练样本,并将模型训练样本存储至训练样本消费队列,训练样本消费队列可以为Kafka数据库的消息队列,然后,语音机器学习平台可以向Kafka请求训练样本,并利用请求到的模型训练样本对目标语音识别模型进行训练。
本公开实施例提供的语音处理方法,首先获取目标用户的语音片段,以及所述语音片段对应的语义真值;然后,基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;最后,在存在所述需求的情况下,基于所述语音片段,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。本公开实施例通过利用语音片段对应的目标用户的标识信息,以及语音片段的语义真值,确定是否存在利用语音片段训练目标语音识别模型的需求,从而实现对训练样本的筛选,进而提高训练效率。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与语音处理方法对应的语音处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述语音处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本公开实施例提供的一种语音处理装置的示意图,所述装置包括:
获取模块310,用于获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示模块320,用于展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
确定模块330,用于基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。
一种可选的实施方式中,所述装置还包括生成模块,用于:
基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;
在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
一种可选的实施方式中,所述生成模块在基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求时,用于:
将所述标识信息与所述语义真值拼接,得到标识字符串;
确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;
在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中。
一种可选的实施方式中,所述生成模块在将所述签名信息存储至所述需求数据库中时,用于:
将所述签名信息存储至所述需求数据库中,并为存储的签名信息设置过期时间;
所述生成模块还用于:
在经过所述签名信息对应的过期时间时,将所述签名信息从所述需求数据库中删除。
一种可选的实施方式中,所述生成模块在基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本时,用于:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
一种可选的实施方式中,所述装置还包括队列模块,用于:
将所述模型训练样本存储至预设的训练样本消费队列中;
响应训练样本获取请求,从所述训练样本消费队列中按照队列顺序获取至少一个模型训练样本。
一种可选的实施方式中,所述确定模块230在基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值时,具体用于:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的语音处理方法,本公开实施例还提供了一种电子设备400,如图4所示,为本公开实施例提供的电子设备400结构示意图,包括:
处理器41、存储器42、和总线43;存储器42用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当所述电子设备400运行时,所述处理器41与所述存储器42之间通过总线43通信,使得所述处理器41执行以下指令:
获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值。
一种可选的实施方式中,处理器41还用于执行:
基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;
在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
一种可选的实施方式中,处理器41执行的指令中,所述基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求,包括:
将所述标识信息与所述语义真值拼接,得到标识字符串;
确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;
在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中。
一种可选的实施方式中,处理器41执行的指令中,所述将所述签名信息存储至所述需求数据库中,包括:
将所述签名信息存储至所述需求数据库中,并为存储的签名信息设置过期时间;
处理器41还用于执行:
在经过所述签名信息对应的过期时间时,将所述签名信息从所述需求数据库中删除。
一种可选的实施方式中,处理器41执行的指令中,所述基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本,包括:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
一种可选的实施方式中,处理器41还用于执行:
将所述模型训练样本存储至预设的训练样本消费队列中;
响应训练样本获取请求,从所述训练样本消费队列中按照队列顺序获取至少一个模型训练样本。
一种可选的实施方式中,处理器41执行的指令中,所述基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值,包括:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的语音处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的语音处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种语音处理方法,其特征在于,包括:
获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值;
基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求;
在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型;
所述基于所述目标用户的标识信息及所述语义真值,确定是否存在利用所述语音片段训练目标语音识别模型的需求,包括:
将所述标识信息与所述语义真值拼接,得到标识字符串;
确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;
在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中。
2.根据权利要求1所述的方法,其特征在于,所述将所述签名信息存储至所述需求数据库中,包括:
将所述签名信息存储至所述需求数据库中,并为存储的签名信息设置过期时间;
所述方法还包括:
在经过所述签名信息对应的过期时间时,将所述签名信息从所述需求数据库中删除。
3.根据权利要求1所述的方法,其特征在于,所述基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本,包括:
基于所述标识信息,对所述语音片段及所述语义真值进行签名处理;
按照预设的替换规则,将签名后的所述语义真值中的待替换数据替换为目标数据;
基于预设的加密规则,对签名后的所述语音片段进行加密处理;
将加密后的语音片段及替换后的语义真值作为所述模型训练样本。
4.根据权利要求1所述的方法,其特征在于,生成所述语音片段对应的模型训练样本之后,所述方法还包括:
将所述模型训练样本存储至预设的训练样本消费队列中;
响应训练样本获取请求,从所述训练样本消费队列中按照队列顺序获取至少一个模型训练样本。
5.根据权利要求1所述的方法,其特征在于,所述基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值,包括:
在所述确认结果为所述语义识别结果与所述语义真值一致的情况下,将所述语义识别结果作为所述语义真值;和/或,
在所述确认结果为所述语义识别结果与所述语义真值不一致的情况下,获取所述目标用户输入的所述语音片段对应的语义真值。
6.一种语音处理装置,其特征在于,包括:
获取模块,用于获取目标用户的语音片段,并确定所述语音片段对应的语义识别结果;
展示模块,用于展示所述语义识别结果,并获取所述目标用户针对所述语义识别结果的确认结果;
确定模块,用于基于所述语义识别结果及所述目标用户针对所述语义识别结果的确认结果,确定所述语音片段对应的语义真值;
生成模块,用于将标识信息与所述语义真值拼接,得到标识字符串;确定所述标识字符串的签名信息,并从需求数据库中查找所述签名信息;在所述需求数据库中不存在所述签名信息的情况下,确定存在利用所述语音片段训练目标语音识别模型的需求,并将所述签名信息存储至所述需求数据库中;在存在所述需求的情况下,基于所述语音片段及所述语义真值,生成所述语音片段对应的模型训练样本;所述模型训练样本用于训练所述目标语音识别模型。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的语音处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任意一项所述的语音处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110668719.2A CN113327591B (zh) | 2021-06-16 | 2021-06-16 | 一种语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110668719.2A CN113327591B (zh) | 2021-06-16 | 2021-06-16 | 一种语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113327591A CN113327591A (zh) | 2021-08-31 |
CN113327591B true CN113327591B (zh) | 2023-01-17 |
Family
ID=77423257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110668719.2A Active CN113327591B (zh) | 2021-06-16 | 2021-06-16 | 一种语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327591B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110473528A (zh) * | 2019-08-22 | 2019-11-19 | 北京明略软件系统有限公司 | 语音识别方法和装置、存储介质及电子装置 |
WO2020019252A1 (zh) * | 2018-07-26 | 2020-01-30 | 深圳前海达闼云端智能科技有限公司 | 训练人工智能模型的方法、装置、存储介质及机器人 |
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
CN112151022A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 语音识别的优化方法、装置、设备以及存储介质 |
CN112466295A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型训练方法、应用方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109949797B (zh) * | 2019-03-11 | 2021-11-12 | 北京百度网讯科技有限公司 | 一种训练语料的生成方法、装置、设备及存储介质 |
-
2021
- 2021-06-16 CN CN202110668719.2A patent/CN113327591B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020019252A1 (zh) * | 2018-07-26 | 2020-01-30 | 深圳前海达闼云端智能科技有限公司 | 训练人工智能模型的方法、装置、存储介质及机器人 |
CN110473528A (zh) * | 2019-08-22 | 2019-11-19 | 北京明略软件系统有限公司 | 语音识别方法和装置、存储介质及电子装置 |
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
CN112151022A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 语音识别的优化方法、装置、设备以及存储介质 |
CN112466295A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型训练方法、应用方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于语义可理解的信息过滤算法;张波等;《电子与信息学报》;20101015(第10期);第42-48页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113327591A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109509021B (zh) | 基于行为轨迹的异常识别方法、装置、服务器及存储介质 | |
CN110727954A (zh) | 数据授权脱敏自动化方法、装置及存储介质 | |
CN108875404B (zh) | 基于机器学习的数据脱敏方法、装置及存储介质 | |
US11520556B2 (en) | Application replication platform | |
CN109194689B (zh) | 异常行为识别方法、装置、服务器及存储介质 | |
CN112583799B (zh) | 注册账号的处理方法、相关装置、设备及介质 | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN111767565A (zh) | 一种数据脱敏的处理方法、处理装置和存储介质 | |
KR102552111B1 (ko) | 데이터 보안 시스템 및 그 방법 | |
CN114418398A (zh) | 场景任务开发方法、装置、设备及存储介质 | |
CN113938408A (zh) | 一种数据流量测试方法、装置、服务器及存储介质 | |
CN113327591B (zh) | 一种语音处理方法及装置 | |
CN115858049B (zh) | Rpa流程组件化编排方法、装置、设备和介质 | |
CN115964997A (zh) | 选择题的混淆选项生成方法及装置、电子设备、存储介质 | |
CN111786991B (zh) | 基于区块链的平台认证登录方法及相关装置 | |
CN115016775A (zh) | 接口模拟方法及装置、存储介质及电子设备 | |
CN114004206A (zh) | 一种表单生成方法、装置、计算机设备和存储介质 | |
CN114255134A (zh) | 一种帐号拆解方法、装置和存储介质 | |
CN111080444B (zh) | 信息审核方法及装置 | |
CN114282940A (zh) | 用于意图识别的方法及装置、存储介质及电子设备 | |
CN114064574A (zh) | 结合rpa和ai的商标监察方法、装置、电子设备和存储介质 | |
CN106713666A (zh) | 验证信息的识别显示方法、装置 | |
CN112579944A (zh) | 一种页面跳转处理方法、装置以及电子设备 | |
CN110019270B (zh) | 信息更新方法及其装置、终端、服务器、可读存储介质 | |
CN111679862A (zh) | 云主机关机方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |