CN116384342A - 语义转换方法、装置、设备、存储介质及计算机程序 - Google Patents

语义转换方法、装置、设备、存储介质及计算机程序 Download PDF

Info

Publication number
CN116384342A
CN116384342A CN202211739707.5A CN202211739707A CN116384342A CN 116384342 A CN116384342 A CN 116384342A CN 202211739707 A CN202211739707 A CN 202211739707A CN 116384342 A CN116384342 A CN 116384342A
Authority
CN
China
Prior art keywords
semantic
semantic data
target
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211739707.5A
Other languages
English (en)
Inventor
张离阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wutong Chelian Technology Co Ltd
Original Assignee
Beijing Wutong Chelian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wutong Chelian Technology Co Ltd filed Critical Beijing Wutong Chelian Technology Co Ltd
Priority to CN202211739707.5A priority Critical patent/CN116384342A/zh
Publication of CN116384342A publication Critical patent/CN116384342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种语义转换方法、装置、设备、存储介质及计算机程序,属于音频处理领域。所述方法包括:基于目标语义数据确定目标语义数据的来源标识,基于目标语义数据的来源标识,将目标语义数据转换为标准格式的对话管理DM指令,将该DM指令发送给业务侧,业务侧用于按照该DM指令实现相应的业务。由于业务侧接收到的指令是标准格式的DM指令,并不是各个语音引擎生成的语义数据,所以业务侧可以直接通过该DM指令调用相应的业务能力执行相关操作。即通过标准格式的DM指令融合各个语音引擎生成的不同格式的语义数据,使得业务侧只需要对接一种格式的DM指令。在各个语音引擎进行升级或者调整语音处理协议时,业务侧无需进行相应的调整。

Description

语义转换方法、装置、设备、存储介质及计算机程序
技术领域
本申请涉及音频处理领域,特别涉及一种语义转换方法、装置、设备、存储介质及计算机程序。
背景技术
随着人工智能时代的到来,用户可以通过语音引擎与业务侧进行语音交互。即,语音引擎识别用户的语音指令,基于用户的语音指令生成文字信息,并将文字信息转换为语义数据,也称为NLU(Natural Language Understanding,自然语言理解)数据。然后,语音引擎将该语义数据发送给业务侧,业务侧对接收到的语义数据进行解析,从而实现相应的业务。
然而,不同的语音引擎对应不同的语音处理协议,所以各个语音引擎生成的语义数据的格式也各不相同。这样,在业务侧接入多个语音引擎的情况下,业务侧需要分别解析各个语音引擎发送的语义数据。随着业务侧接入的语音引擎的数量逐渐增多,业务侧解析语义数据的灵活性逐渐降低。而且,在该多个语音引擎中的任一语音引擎进行升级,或者调整语音处理协议时,业务侧也需要进行相应的调整。
发明内容
本申请提供了一种语义转换方法、装置、设备、存储介质及计算机程序,可以提高业务侧执行业务的效率。所述技术方案如下:
一方面,提供了一种语义转换方法,所述方法包括:
基于目标语义数据确定所述目标语义数据的来源标识,所述目标语义数据是指基于用户输入的语音指令生成的语义数据,所述目标语义数据的来源标识指示生成所述目标语义数据的目标语音引擎;
基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令;
将所述DM指令发送给业务侧,所述业务侧用于按照所述DM指令实现相应的业务。
可选地,所述基于目标语义数据确定所述目标语义数据的来源标识,包括:
将所述目标语义数据输入至语义特征判别模型,以得到所述语义特征判别模型输出的来源标识。
可选地,所述基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令,包括:
基于所述目标语义数据的来源标识,确定目标语义转换模型;
将所述目标语义数据输入至所述目标语义转换模型,以得到所述目标语义转换模型输出的DM指令。
可选地,所述基于所述目标语义数据的来源标识,确定目标语义转换模型之前,所述方法还包括:
获取第一训练样本集,所述第一训练样本集包括多条样本语义数据,所述多条样本语义数据均来源于所述目标语音引擎;
基于所述多条样本语义数据,确定与所述多条样本语义数据一一对应的多组实体关系对,一组实体关系对表征对应的一条样本语义数据中多个实体关键词的关联关系;
获取所述多组实体关系对分别对应的样本DM指令;
基于所述多组实体关系对和所述多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到所述目标语义转换模型。
可选地,所述基于所述多条样本语义数据,确定与所述多条样本语义数据一一对应的多组实体关系对,包括:
从所述多条样本语义数据中选择一条样本语义数据作为第一样本语义数据,按照如下操作确定所述第一样本语义数据对应的实体关系对,直至确定出每条样本语义数据对应的实体关系对为止:
从所述第一样本语义数据中提取实体关键词,以得到多个实体关键词;
将所述多个实体关键词进行组合,以得到所述第一样本语义数据对应的一组实体关系对。
可选地,所述将所述目标语义数据输入至语义特征判别模型之前,所述方法还包括:
获取第二训练样本集,所述第二训练样本集包括多条样本语义数据,所述多条样本语义数据来源于不同的语音引擎;
分别从所述多条样本语义数据中提取语义特征,以得到多个语义特征;
获取所述多个语义特征分别对应的样本来源标识;
基于所述多个语义特征,以及所述多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到所述语义特征判别模型。
另一方面,提供了一种语义转换装置,所述装置包括:
第一确定模块,用于基于目标语义数据确定所述目标语义数据的来源标识,所述目标语义数据是指基于用户输入的语音指令生成的语义数据,所述目标语义数据的来源标识指示生成所述目标语义数据的目标语音引擎;
转换模块,用于基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令;
发送模块,用于将所述DM指令发送给业务侧,所述业务侧用于按照所述DM指令实现相应的业务。
可选地,所述第一确定模块具体用于:
将所述目标语义数据输入至语义特征判别模型,以得到所述语义特征判别模型输出的来源标识。
可选地,所述转换模块具体用于:
基于所述目标语义数据的来源标识,确定目标语义转换模型;
将所述目标语义数据输入至所述目标语义转换模型,以得到所述目标语义转换模型输出的DM指令。
可选地,所述装置还包括:
第一获取模块,用于获取第一训练样本集,所述第一训练样本集包括多条样本语义数据,所述多条样本语义数据均来源于所述目标语音引擎;
第二确定模块,用于基于所述多条样本语义数据,确定与所述多条样本语义数据一一对应的多组实体关系对,一组实体关系对表征对应的一条样本语义数据中多个实体关键词的关联关系;
第二获取模块,用于获取所述多组实体关系对分别对应的样本DM指令;
第一训练模块,用于基于所述多组实体关系对和所述多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到所述目标语义转换模型。
可选地,所述第二确定模块具体用于:
从所述多条样本语义数据中选择一条样本语义数据作为第一样本语义数据,按照如下操作确定所述第一样本语义数据对应的实体关系对,直至确定出每条样本语义数据对应的实体关系对为止:
从所述第一样本语义数据中提取实体关键词,以得到多个实体关键词;
将所述多个实体关键词进行组合,以得到所述第一样本语义数据对应的一组实体关系对。
可选地,所述装置还包括:
第三获取模块,用于获取第二训练样本集,所述第二训练样本集包括多条样本语义数据,所述多条样本语义数据来源于不同的语音引擎;
提取模块,用于分别从所述多条样本语义数据中提取语义特征,以得到多个语义特征;
第四获取模块,用于获取所述多个语义特征分别对应的样本来源标识;
第二训练模块,用于基于所述多个语义特征,以及所述多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到所述语义特征判别模型。
另一方面,提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述所述的语义转换方法的步骤。
另一方面,提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述所述语义转换方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得计算机执行上述所述的语义转换方法的步骤。
本申请提供的技术方案至少可以带来以下有益效果:
由于业务侧接收到的指令是标准格式的DM指令,并不是各个语音引擎生成的语义数据,所以,业务侧可以直接通过该DM指令调用相应的业务能力执行相关操作,从而提高了业务侧执行业务的效率。也即是,通过标准格式的DM指令融合各个语音引擎生成的不同格式的语义数据,使得业务侧只需要对接一种格式的DM指令。此外,各个语音引擎生成的语义数据并不是直接发送给业务侧,即解耦各个语音引擎与业务侧之间的关系。这样,在各个语音引擎进行升级或者调整语音处理协议时,业务侧无需进行相应的调整。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种车载终端的示意图;
图2是本申请实施例提供的一种语义转换方法的流程图;
图3是本申请实施例提供的一种语义特征判别模型训练的示意图;
图4是本申请实施例提供的一种目标语义转换模型训练的示意图;
图5是本申请实施例提供的一种语义转换流程的示意图;
图6是本申请实施例提供的一种语义转换装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的语义转换方法进行详细地解释说明之前,先对本申请实施例涉及的术语和系统架构进行介绍。
为了便于理解,首先对本申请实施例涉及的术语进行解释。
语义转换:是指将不同语音引擎生成的不同格式的语义数据转换为标准格式的DM指令。
DM指令:是指将用户的一个操作请求封装为一个指令,不同的指令对应不同的业务接口标识,通过不同的业务接口标识来区分不同的指令,即通过Command Method(命令模式)区分不同的指令。
实体关键词:是指语义数据中的关键词,如操作领域和操作意图等。
实体关系对:是指语义数据所指示的某个领域的某个操作,用于表征多个实体关键词的关联关系。
其次对本申请实施例涉及的系统架构进行介绍。
本申请实施例提供的语义转换方法可以通过车载终端来执行。请参考图1,图1是根据一示例性实施例示出的一种车载终端的示意图。该车载终端包括多个语音引擎101(图1中以四个语音引擎示意性说明)和语义转换器102,语音引擎101可以与语义转换器102进行通信连接。用户与车载终端通过语音交互的方式控制业务侧执行相应的操作。
语音引擎101用于接收用户输入的语音指令,并将用户输入的语音指令转换为某种格式的语义数据。语义转换器102用于将某种格式的语义数据转换为标准格式的DM指令,并将该DM指令发送给业务侧,以便于业务侧按照该DM指令实现相应的业务。
其中,语音引擎101是一种软件程序,用于将用户输入的语音指令转换为语义数据。语义转换器102是一种由软件程序和硬件设备组合而成,位于语音引擎与业务侧之间的语义转换通道,用于将语义数据转换为业务侧可以识别的DM指令。
本领域技术人员应能理解上述语音引擎101和语义转换器102仅为举例,其他现有的或今后可能出现的语音引擎或语义转换器如可适用于本申请实施例,也应包含在本申请实施例保护范围以内,并在此以引用方式包含于此。
需要说明的是,本申请实施例描述的系统架构是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
接下来对本申请实施例提供的语义转换方法进行详细地解释说明。
图2是本申请实施例提供的一种语义转换方法的流程图,请参考图2,该方法包括如下步骤。
步骤201:基于目标语义数据确定目标语义数据的来源标识,目标语义数据是指基于用户输入的语音指令生成的语义数据,目标语义数据的来源标识指示生成目标语义数据的目标语音引擎。
将目标语义数据输入至语义特征判别模型,以得到语义特征判别模型输出的来源标识。即,语义转换器接收到目标语义数据之后,通过语义特征判别模型确定目标语义数据的来源标识。
其中,目标语义数据的来源标识用于唯一标识生成目标语义数据的目标语音引擎,该来源标识可以是目标语音引擎的编号、名称、生产厂家、品牌以及型号等等,或者通过这些信息进行组合得到。
在一些实施例中,将目标语义数据输入至语义特征判别模型之前,还需要对待训练的语义特征判别模型进行训练,以得到语义特征判别模型。示例地,获取第二训练样本集,第二训练样本集包括多条样本语义数据,该多条样本语义数据来源于不同的语音引擎。分别从该多条样本语义数据中提取语义特征,以得到多个语义特征,进而获取该多个语义特征分别对应的样本来源标识。然后,基于该多个语义特征,以及该多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到语义特征判别模型。
也即是,按照相关算法分别提取第二训练样本集中每条样本语义数据所对应的语义特征,以得到多个语义特征。由于不同语音引擎生成的语义数据的语义特征各不相同,所以人工标注该多个语义特征分别对应的样本来源标识。然后,将该多个语义特征输入至待训练的语义特征判别模型,以得到语义特征判别模型输出的多个来源标识。基于该多个来源标识,以及该多个语义特征分别对应的样本来源标识按照相关算法计算损失函数,基于该损失函数对语义特征判别模型进行训练。
其中,第二训练样本集具体包括哪些语音引擎生成的样本语义数据与语义转换器所接入的语音引擎相关。例如,语义转换器所接入的语音引擎包括第一语音引擎、第二语音引擎和第三语音引擎。此时,第二训练样本集包括第一语音引擎生成的多条样本语义数据、第二语音引擎生成的多条样本语义数据,以及第三语音引擎生成的多条样本语义数据。
示例地,请参考图3,图3是本申请实施例提供的一种语义特征判别模型训练的示意图。在图3中,获取第二训练样本集,第二训练样本集包括来源于不同语音引擎的多条样本语义数据,分别从该多条样本语义数据中提取语义特征,以得到多个语义特征。然后,获取该多个语义特征分别对应的样本来源标识,进而基于该多个语义特征,以及该多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到语义特征判别模型。
步骤202:基于目标语义数据的来源标识,将目标语义数据转换为标准格式的DM指令。
基于目标语义数据的来源标识,确定目标语义转换模型,将目标语义数据输入至目标语义转换模型,以得到目标语义转换模型输出的DM指令。
在一些实施例中,语义转换器存储有来源标识与语义转换模型之间的对应关系,所以,语义转换器按照上述步骤201确定出目标语义数据的来源标识之后,基于该来源标识,从存储的来源标识与语义转换模型之间的对应关系中,获取该来源标识所对应的语义转换模型,以得到目标语义转换模型,进而通过目标语义转换模型输出DM指令。
也即是,语义转换器包括多个语义转换模型,该多个语义转换模型与语义转换器所接入的多个语音引擎一一对应。这样,语义转换器按照上述步骤201确定出生成目标语义数据的目标语音引擎之后,就可以通过目标语音引擎所对应的目标语义转换模型将目标语义数据转换为标准格式的DM指令。
基于目标语义数据的来源标识,确定目标语义转换模型之前,还需要对待训练的语义转换模型进行训练,以得到目标语义转换模型。示例地,获取第一训练样本集,第一训练样本集包括多条样本语义数据,该多条样本语义数据均来源于目标语音引擎。基于该多条样本语义数据,确定与该多条样本语义数据一一对应的多组实体关系对,一组实体关系对表征对应的一条样本语义数据中多个实体关键词的关联关系。然后,获取该多组实体关系对分别对应的样本DM指令,基于该多组实体关系对和该多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到目标语义转换模型。
第一训练样本集包括来源于目标语音引擎的多条样本语义数据,该多条样本语义数据中的每条样本语义数据均对应一组实体关系对。由于确定该多条样本语义数据中每条样本语义数据对应的实体关系对的过程相同,因此,从该多条样本语义数据中选择一条样本语义数据作为第一样本语义数据,对第一样本语义数据对应的实体关系对的确定过程进行介绍。第一训练样本集中其他样本语义数据对应的实体关系对的确定过程可以参考第一样本语义数据对应的实体关系对的确定过程。
从第一样本语义数据中提取实体关键词,以得到多个实体关键词。将该多个实体关键词进行组合,以得到第一样本语义数据对应的一组实体关系对。
通常情况下,第一样本语义数据包括实体关键词和其他干扰内容,为了后续可以通过第一样本语义数据更好地训练语义转换模型,使得目标语义转换模型具备更高的精确度,所以需要按照相关算法从第一样本语义数据中提取实体关键词,以得到多个实体关键词,进而将该多个实体关键词组合为一组实体关系对。
其中,实体关键词包括操作领域和操作意图等。当然,在实际应用中,实体关键词还可以包括其他的内容,本申请实施例对此不做限定。例如,从第一样本语义数据中提取出的实体关键词为:操作领域“电话”,操作意图“打”,则第一样本语义数据对应的一组实体关系对为“打电话”。
由于不同的实体关系对所对应的DM指令各不相同,所以人工标注该多组实体关系对分别对应的样本DM指令。然后,将该多组实体关系对输入至待训练的语义转换模型,以得到语义转换模型输出的多个DM指令。基于该多个DM指令,以及该多组实体关系对分别对应的样本DM指令按照相关算法计算损失函数,基于该损失函数对语义转换模型进行训练。
示例地,请参考图4,图4是本申请实施例提供的一种目标语义转换模型训练的示意图。在图4中,获取第一训练样本集,第一训练样本集包括来源于目标语音引擎的多条样本语义数据,依次对该多条样本语义数据中的每条样本语义数据执行如下处理:从该样本语义数据中提取实体关键词,以得到多个实体关键词;将该多个实体关键词进行组合,以得到该样本语义数据对应的一组实体关系对。然后,获取该多组实体关系对分别对应的样本DM指令,进而基于该多组实体关系对和该多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到目标语义转换模型。
需要说明的是,语义转换器包括多个语义转换模型仅为一种示例。在另一些实施例中,语义转换器还可能仅包括一个语义转换模型,该语义转换模型将上述多个语义转换模型的功能集成在一起。也就是说,仅通过一个语义转换模型就可以将来源于不同语音引擎的语义数据转换为标准格式的DM指令。示例地,语义转换器按照上述步骤201确定出目标语义数据的来源标识之后,将该来源标识和目标语义数据共同输入至该语义转换模型,该语义转换模型基于该来源标识,按照上述目标语义转换模型所对应的算法,将目标语义转换为DM指令。
步骤203:将该DM指令发送给业务侧,业务侧用于按照该DM指令实现相应的业务。
基于上文描述,语义转换器将用户的一个操作请求封装为一个DM指令。由于该DM指令对应一个业务接口标识,且该业务接口标识用于描述业务侧的某种业务能力。所以,业务侧接收到语义转换器发送的该DM指令之后,基于该DM指令所对应的业务接口标识,直接调用相应的业务能力执行用户输入的语音指令。
也即是,业务侧通过业务接口定义自身所能提供的各种业务能力。语义转换器获取到目标语义数据之后,按照上述步骤201-202将目标语义数据转换为DM指令。这样,业务侧接收到语义转换器发送的该DM指令之后,直接通过该DM指令调用相应的业务能力执行相关操作,并不需要对该DM指令进行解析。
例如,业务侧的业务能力包括打开车窗、打开车门、暂停播放和开始播放等。当然,在实际应用中,业务侧还可以包括其他的业务能力,本申请实施例对此不做限定。
在一些实施例中,DM指令包括多个字段,该多个字段中每个字段代表不同的含义。示例地,DM指令包括的多个字段,以及该多个字段分别代表的含义如表1所示。
表1
Figure BDA0004028961220000101
Figure BDA0004028961220000111
例如,在用户输入的语音指令为“打电话给XXX”的情况下,语义转换器生成的DM指令如下所示:
{
"dm":{
"domain":"telephone",
"intent":"dail"
"input":"打电话给XXX",
"nlg":"即将拨通XXX的电话号码YYY",
"command":{
"method":"call",
"params":{
"name":"XXX",
"phone code":"YYY"
},
"version code":1
},
"runSequence":1,
"isOnline":0,
"error":{
"errMsg":"get personal res text fail"
},
"uuid":"cida1603d37@dx00011503d207010007",
"version code":1
}
}
从该DM指令中可以看出,操作领域为“电话”;操作意图为“打”;实体关系对为“打电话”;业务侧返回给用户的回复语为“即将拨通XXX的电话号码YYY”;业务接口标识为“call”;业务接口参数包括"name":"XXX"和"phone code":"YYY"。业务接口版本号为“1”;业务侧此次先执行操作后向用户返回回复语。但是,业务侧没有成功获取到XXX的电话号码YYY。
其中,在业务侧所能提供的业务能力更新的情况下,业务接口版本号从1开始整数递增。在业务侧所接入的语音引擎的数量逐渐增多,或者任一语音引擎进行升级的情况下,语义转换器也随之更新,即DM指令版本号从1开始整数递增。
需要说明的是,表1所示的DM指令包括的多个字段,以及该多个字段分别代表的含义仅为一种示例。在实际应用中,DM指令还可以包括其他的字段,每个字段也可以代表其他的含义,本申请实施例对此不作限定。例如,DM指令还包括唤醒方位字段,该唤醒方位字段代表用户输入语音指令时所处的方位,或者语义数据标识字段,该语义数据标识字段代表目标语义数据的来源标识。
接下来以图5为例,对本申请实施例提供的语义转换流程进行完整说明。在图5中,语义转换器获取目标语义数据,并调用语义特征判别模型来识别目标语义数据的来源。即,将目标语义数据输入至语义特征判别模型,以得到语义特征判别模型输出的来源标识。然后,基于目标语义数据的来源标识,调用目标语义转换模型将目标语义数据动态地转换为DM指令。即,将目标语义数据输入至目标语义转换模型,以得到目标语义转换模型输出的DM指令。最后,语义转换器将该DM指令发送给业务侧,使得业务侧按照该DM指令实现相应的业务。
在本申请实施例中,由于业务侧接收到的指令是标准格式的DM指令,并不是各个语音引擎生成的语义数据,所以,业务侧可以直接通过该DM指令调用相应的业务能力执行相关操作,从而提高了业务侧执行业务的效率。也即是,通过标准格式的DM指令融合各个语音引擎生成的不同格式的语义数据,使得业务侧只需要对接一种格式的DM指令。此外,各个语音引擎生成的语义数据并不是直接发送给业务侧,即解耦各个语音引擎与业务侧之间的关系。这样,在各个语音引擎进行升级或者调整语音处理协议时,业务侧无需进行相应的调整。也就是说,通过语义转换器融合各个语音引擎对应的语音处理协议,输出标准格式的DM指令,使得业务侧只需要对接一种格式的DM指令,下层语音引擎的增加或调整并不会对上层业务侧产生影响,简化了语音引擎与业务侧之间的交互。
图6是本申请实施例提供的一种语义转换装置的结构示意图,该语义转换装置可以由软件、硬件或者两者的结合实现成为计算机设备的部分或者全部。请参考图6,该装置包括:第一确定模块601、转换模块602和发送模块603。
第一确定模块601,用于基于目标语义数据确定目标语义数据的来源标识,目标语义数据是指基于用户输入的语音指令生成的语义数据,目标语义数据的来源标识指示生成目标语义数据的目标语音引擎。详细实现过程参考上述各个实施例中对应的内容,此处不再赘述。
转换模块602,用于基于目标语义数据的来源标识,将目标语义数据转换为标准格式的对话管理DM指令。详细实现过程参考上述各个实施例中对应的内容,此处不再赘述。
发送模块603,用于将该DM指令发送给业务侧,业务侧用于按照该DM指令实现相应的业务。详细实现过程参考上述各个实施例中对应的内容,此处不再赘述。
可选地,第一确定模块601具体用于:
将目标语义数据输入至语义特征判别模型,以得到语义特征判别模型输出的来源标识。
可选地,转换模块602具体用于:
基于目标语义数据的来源标识,确定目标语义转换模型;
将目标语义数据输入至目标语义转换模型,以得到目标语义转换模型输出的DM指令。
可选地,该装置还包括:
第一获取模块,用于获取第一训练样本集,第一训练样本集包括多条样本语义数据,该多条样本语义数据均来源于目标语音引擎;
第二确定模块,用于基于该多条样本语义数据,确定与该多条样本语义数据一一对应的多组实体关系对,一组实体关系对表征对应的一条样本语义数据中多个实体关键词的关联关系;
第二获取模块,用于获取该多组实体关系对分别对应的样本DM指令;
第一训练模块,用于基于该多组实体关系对和该多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到目标语义转换模型。
可选地,第二确定模块具体用于:
从该多条样本语义数据中选择一条样本语义数据作为第一样本语义数据,按照如下操作确定第一样本语义数据对应的实体关系对,直至确定出每条样本语义数据对应的实体关系对为止:
从第一样本语义数据中提取实体关键词,以得到多个实体关键词;
将该多个实体关键词进行组合,以得到第一样本语义数据对应的一组实体关系对。
可选地,该装置还包括:
第三获取模块,用于获取第二训练样本集,第二训练样本集包括多条样本语义数据,该多条样本语义数据来源于不同的语音引擎;
提取模块,用于分别从该多条样本语义数据中提取语义特征,以得到多个语义特征;
第四获取模块,用于获取该多个语义特征分别对应的样本来源标识;
第二训练模块,用于基于该多个语义特征,以及该多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到语义特征判别模型。
在本申请实施例中,由于业务侧接收到的指令是标准格式的DM指令,并不是各个语音引擎生成的语义数据,所以,业务侧可以直接通过该DM指令调用相应的业务能力执行相关操作,从而提高了业务侧执行业务的效率。也即是,通过标准格式的DM指令融合各个语音引擎生成的不同格式的语义数据,使得业务侧只需要对接一种格式的DM指令。此外,各个语音引擎生成的语义数据并不是直接发送给业务侧,即解耦各个语音引擎与业务侧之间的关系。这样,在各个语音引擎进行升级或者调整语音处理协议时,业务侧无需进行相应的调整。也就是说,通过语义转换器融合各个语音引擎对应的语音处理协议,输出标准格式的DM指令,使得业务侧只需要对接一种格式的DM指令,下层语音引擎的增加或调整并不会对上层业务侧产生影响,简化了语音引擎与业务侧之间的交互。
需要说明的是:上述实施例提供的语义转换装置在进行语义转换时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语义转换装置与语义转换方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请实施例提供的一种计算机设备700的结构框图。该计算机设备700可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。计算机设备700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,计算机设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的语义转换方法。
在一些实施例中,计算机设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它计算机设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请实施例对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置计算机设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在计算机设备700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在计算机设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在计算机设备的前面板,后置摄像头设置在计算机设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位计算机设备700的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为计算机设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中语义转换方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请实施例提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的语义转换方法的步骤。
应当理解的是,本文提及的“至少一个”是指一个或多个,“多个”是指两个或两个以上。在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请实施例中涉及到的目标语义数据是在充分授权的情况下获取的。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语义转换方法,其特征在于,所述方法包括:
基于目标语义数据确定所述目标语义数据的来源标识,所述目标语义数据是指基于用户输入的语音指令生成的语义数据,所述目标语义数据的来源标识指示生成所述目标语义数据的目标语音引擎;
基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令;
将所述DM指令发送给业务侧,所述业务侧用于按照所述DM指令实现相应的业务。
2.如权利要求1所述的方法,其特征在于,所述基于目标语义数据确定所述目标语义数据的来源标识,包括:
将所述目标语义数据输入至语义特征判别模型,以得到所述语义特征判别模型输出的来源标识。
3.如权利要求1所述的方法,其特征在于,所述基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令,包括:
基于所述目标语义数据的来源标识,确定目标语义转换模型;
将所述目标语义数据输入至所述目标语义转换模型,以得到所述目标语义转换模型输出的DM指令。
4.如权利要求3所述的方法,其特征在于,所述基于所述目标语义数据的来源标识,确定目标语义转换模型之前,所述方法还包括:
获取第一训练样本集,所述第一训练样本集包括多条样本语义数据,所述多条样本语义数据均来源于所述目标语音引擎;
基于所述多条样本语义数据,确定与所述多条样本语义数据一一对应的多组实体关系对,一组实体关系对表征对应的一条样本语义数据中多个实体关键词的关联关系;
获取所述多组实体关系对分别对应的样本DM指令;
基于所述多组实体关系对和所述多组实体关系对分别对应的样本DM指令,对待训练的语义转换模型进行训练,以得到所述目标语义转换模型。
5.如权利要求4所述的方法,其特征在于,所述基于所述多条样本语义数据,确定与所述多条样本语义数据一一对应的多组实体关系对,包括:
从所述多条样本语义数据中选择一条样本语义数据作为第一样本语义数据,按照如下操作确定所述第一样本语义数据对应的实体关系对,直至确定出每条样本语义数据对应的实体关系对为止:
从所述第一样本语义数据中提取实体关键词,以得到多个实体关键词;
将所述多个实体关键词进行组合,以得到所述第一样本语义数据对应的一组实体关系对。
6.如权利要求2所述的方法,其特征在于,所述将所述目标语义数据输入至语义特征判别模型之前,所述方法还包括:
获取第二训练样本集,所述第二训练样本集包括多条样本语义数据,所述多条样本语义数据来源于不同的语音引擎;
分别从所述多条样本语义数据中提取语义特征,以得到多个语义特征;
获取所述多个语义特征分别对应的样本来源标识;
基于所述多个语义特征,以及所述多个语义特征分别对应的样本来源标识,对待训练的语义特征判别模型进行训练,以得到所述语义特征判别模型。
7.一种语义转换装置,其特征在于,所述装置包括:
第一确定模块,用于基于目标语义数据确定所述目标语义数据的来源标识,所述目标语义数据是指基于用户输入的语音指令生成的语义数据,所述目标语义数据的来源标识指示生成所述目标语义数据的目标语音引擎;
转换模块,用于基于所述目标语义数据的来源标识,将所述目标语义数据转换为标准格式的对话管理DM指令;
发送模块,用于将所述DM指令发送给业务侧,所述业务侧用于按照所述DM指令实现相应的业务。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器用于存放计算机程序,所述处理器用于执行所述存储器上所存放的计算机程序,以实现上述权利要求1-6任一所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法的步骤。
10.一种计算机程序,其特征在于,所述计算机程序包括指令,当所述指令在所述计算机上运行时,使得所述计算机执行权利要求1-6任一项所述的方法。
CN202211739707.5A 2022-12-30 2022-12-30 语义转换方法、装置、设备、存储介质及计算机程序 Pending CN116384342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211739707.5A CN116384342A (zh) 2022-12-30 2022-12-30 语义转换方法、装置、设备、存储介质及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211739707.5A CN116384342A (zh) 2022-12-30 2022-12-30 语义转换方法、装置、设备、存储介质及计算机程序

Publications (1)

Publication Number Publication Date
CN116384342A true CN116384342A (zh) 2023-07-04

Family

ID=86979392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211739707.5A Pending CN116384342A (zh) 2022-12-30 2022-12-30 语义转换方法、装置、设备、存储介质及计算机程序

Country Status (1)

Country Link
CN (1) CN116384342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198292A (zh) * 2023-11-08 2023-12-08 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198292A (zh) * 2023-11-08 2023-12-08 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质
CN117198292B (zh) * 2023-11-08 2024-02-02 太平金融科技服务(上海)有限公司 一种语音融合处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
WO2020244495A1 (zh) 一种投屏显示方法及电子设备
WO2020221072A1 (zh) 一种语义解析方法及服务器
CN111724775B (zh) 一种语音交互方法及电子设备
WO2022052776A1 (zh) 一种人机交互的方法、电子设备及系统
CN114115770B (zh) 显示控制的方法及相关装置
CN113488042B (zh) 一种语音控制方法及电子设备
CN117014859A (zh) 基于通讯录的设备发现方法、音视频通信方法及电子设备
CN111399819B (zh) 数据生成方法、装置、电子设备及存储介质
CN114996168A (zh) 一种多设备协同测试方法、测试设备及可读存储介质
CN110955452B (zh) 一种非侵入式交互方法及电子设备
WO2022143258A1 (zh) 一种语音交互处理方法及相关装置
CN116384342A (zh) 语义转换方法、装置、设备、存储介质及计算机程序
CN112416984B (zh) 一种数据处理方法及其装置
WO2023005711A1 (zh) 一种服务的推荐方法及电子设备
CN113380240B (zh) 语音交互方法和电子设备
WO2022007757A1 (zh) 跨设备声纹注册方法、电子设备及存储介质
CN115220699A (zh) 一种基于模型开发的软件架构生成方法、装置、终端及存储介质
CN113572798B (zh) 设备控制方法、系统、设备和存储介质
CN116524919A (zh) 设备唤醒方法、相关装置及通信系统
CN113407076A (zh) 启动应用的方法及电子设备
CN116414500A (zh) 电子设备操作引导信息录制方法、获取方法和终端设备
CN114817521B (zh) 搜索方法和电子设备
WO2022143048A1 (zh) 对话任务管理方法、装置及电子设备
CN117012194A (zh) 一种提高车端网联应用的可见即可说识别率的方法
CN117010165A (zh) 一种发动机气门室罩盖强度cae仿真文件的编写方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination