CN110705267B - 语义解析方法、装置及存储介质 - Google Patents
语义解析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110705267B CN110705267B CN201910936998.9A CN201910936998A CN110705267B CN 110705267 B CN110705267 B CN 110705267B CN 201910936998 A CN201910936998 A CN 201910936998A CN 110705267 B CN110705267 B CN 110705267B
- Authority
- CN
- China
- Prior art keywords
- template
- slot
- spelling
- error correction
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种语义解析方法、装置及存储介质,涉及语音技术领域。具体实现方案为:终端设备通过获取语音信号对应的文本信息,在对文本信息进行预处理后确定语音信号对应的第一拼读信息,该第一拼读信息指示的是用户真实的文本含义,通过对第一拼读信息进行槽位模板匹配过程,生成语义解析结果,该语义解析结果指示了用户在当前场景的真实意图。本申请采用槽位模板匹配方案,适用于终端离线场景,该方案的语义泛化程度高,终端的资源消耗小,扩展性强。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及语音技术中的语义解析方法、装置及存储介质。
背景技术
人工智能(Artificial Intelligence,简称AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等,其主要目标是使机器能够胜任一些需要人类智慧才能完成的复杂工作。
语音识别技术就是人工智能领域的一个研究方向,它是让机器通过识别和理解过程把语音信号转变为相应的本文或者命令的技术。因此,对语音信号的语义解析十分关键。目前语义解析方案包括两大类,一类是在线语义解析,可采用泛化程度较高的深度学习模型,由于其占用的内存空间较大,通常设置在云端,终端设备可以通过与云端服务器交互,理解语音信号并执行相应的操作。当然上述模型也可以应用于离线状态,但由于模型占用空间较大,对终端设备的性能影响较大。另一类是离线语义解析,通常采用文本匹配的方案,终端设备预存可识别的文本数据,但由于文本数据需要逐一配置,该方案的泛化程度较低,往往无法满足离线用户的实际需求。
因此,亟需设计一种离线语义解析方案,提升语义解析的泛化程度。
发明内容
本申请提供一种语义解析方法、装置及存储介质,提升了离线语义解析的泛化程度。
本申请第一方面提供一种语义解析方法,包括:
获取语音信号对应的文本信息;
根据所述文本信息确定所述语音信号对应的第一拼读信息,所述第一拼读信息是所述文本信息中的文本对应的拼读信息;
对所述第一拼读信息进行槽位模板匹配,生成语义解析结果。
在本方案中,终端设备通过获取语音信号对应的文本信息,根据文本信息确定语音信号对应的第一拼读信息,该第一拼读信息指示的是用户真实的文本含义,通过对第一拼读信息进行槽位模板匹配过程,生成语义解析结果,该语义解析结果指示了用户在当前场景的真实意图。本方案采用槽位模板匹配方案,语义泛化程度高,终端的资源消耗小,扩展性强。
在一种可能的实现方式中,所述根据所述文本信息确定所述语音信号对应的第一拼读信息,包括:
将所述文本信息转换为第二拼读信息;
通过查询预存的纠错字典,对所述第二拼读信息进行纠错处理,得到所述语音信号对应的第一拼读信息;其中,所述纠错字典包括当前场景对应的常用术语,以及所述常用术语对应的正确拼读信息和错误拼读信息。
可选的,所述纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。
上述的实现方式纠正了文本信息,提高了语音识别的准确率。
在一种可能的实现方式中,所述对所述第一拼读信息进行槽位模板匹配,生成语义解析结果,包括:
基于预存的槽位字典对所述第一拼读信息进行槽位解析,得到槽位列表;其中,所述槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,所述槽位列表包括名词槽位、动词槽位;
根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果。
上述的实现方式将拼读信息转换为终端设备可识别的程序化语言,处理速度快,便于终端设备根据语义解析结果发送控制指令。
在一种可能的实现方式中,所述根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果,包括:
对所述槽位列表中的各个槽位按照词性进行排序;
根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成所述语义解析结果;所述模板字典包括当前场景对应的至少一个模板。
上述的实现方式将槽位列表中的槽位进行重新排序,提高了终端设备进行模板分析(或者说语义理解)的速度。
可选的,所述语义解析结果包括应用领域字段、意图字段以及目标对象字段。
可选的,所述语义解析结果还包括语义解析结果的评分,所述评分用于指示所述语义解析结果的可信程度。
本申请第二方面提供一种语义解析装置,包括:
获取模块,用于获取语音信号对应的文本信息;
确定模块,用于根据所述文本信息确定所述语音信号对应的第一拼读信息,所述第一拼读信息是所述文本信息中的文本对应的拼读信息;
生成模块,用于对所述第一拼读信息进行槽位模板匹配,生成语义解析结果。
在一种可能的实现方式中,所述确定模块具体用于:
将所述文本信息转换为第二拼读信息;
通过查询预存的纠错字典,对所述第二拼读信息进行纠错处理,得到所述语音信号对应的第一拼读信息;其中,所述纠错字典包括当前场景对应的常用术语,以及所述常用术语对应的正确拼读信息和错误拼读信息。
可选的,所述纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。
在一种可能的实现方式中,所述生成模块具体用于:
基于预存的槽位字典对所述第一拼读信息进行槽位解析,得到槽位列表;其中,所述槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,所述槽位列表包括名词槽位、动词槽位;
根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果。
在一种可能的实现方式中,所述生成模块具体用于:
对所述槽位列表中的各个槽位按照词性进行排序;
根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成所述语义解析结果;所述模板字典包括当前场景对应的至少一个模板。
可选的,所述语义解析结果包括应用领域字段、意图字段以及目标对象字段。
可选的,所述语义解析结果还包括语义解析结果的评分,所述评分用于指示所述语义解析结果的可信程度。
本申请第三方面提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面中任一项所述的方法。
本申请第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面中任一项所述的方法。
本申请第五方面提供一种语义解析方法,包括:
获取语音信号对应的文本信息;
对所述文本信息进行槽位模板匹配,生成语义解析结果。
上述申请中的一个实施例具有如下优点或有益效果:通过获取语音信号对应的文本信息,在对文本信息进行预处理后确定语音信号对应的第一拼读信息,该第一拼读信息指示的是用户真实的文本含义,采用槽位模板匹配过程,生成最终的语义解析结果。该方法尤其适用于终端离线场景,语义泛化程度高,终端的资源消耗小,扩展性强。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的语义解析方法的应用场景架构图;
图2为本申请一实施例提供的语义解析方法的流程示意图;
图3为本申请另一实施例提供的语义解析方法的流程示意图;
图4为本申请一实施例提供的语义解析方法的信息处理的流向图;
图5为本申请一实施例提供的语义解析装置的结构示意图;
图6为本申请一实施例提供的电子设备的硬件结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请针对现有的离线语义解析方案泛化程度低,无法满足用户实际需求的问题,提出了一种基于槽位模板匹配的语义解析方案,大大减少了指令的解析时长,更快地响应用户需求,大幅提升用户的语音交互体验。
在介绍本申请提供的语义解析方法之前,首先结合附图1对本申请实施例的应用场景进行介绍。图1为本申请实施例提供的语义解析方法的应用场景架构图。如图1所示,本申请实施例提供的语义解析方法应用于无线通信系统,该系统包括终端设备(图1示出了三种类型的终端设备11、12、13)以及云端服务器14,其中终端设备11、12、13与云端服务器14通信连接。
其中,云端服务器上发布不同应用场景下的计算机程序,终端设备可以预先从云端服务器下载不同应用场景下的计算机程序,以便终端设备处于离线状态下可以继续为用户提供很好的语音控制服务。本申请应用场景包括但不限于车控、地图、音乐、电话等领域。
需要说明的是,终端设备从云端服务器上下载的计算机程序用于实现本申请提供的语义解析方法,与现有加载在终端设备中的文本匹配数据相比,由于采用槽位模板匹配,支持的语音识别的文本数量大幅提升,泛化程度较高,且资源消耗小。具体可参见下述实施例,此处不具体展开。
在本实施例中,终端设备可以为包含无线收发功能、且可以与网络设备配合为用户提供通讯服务的设备。具体地,终端设备可以指用户设备(User Equipment,UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。例如,终端设备可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol,SIP)电话、无线本地环路(Wireless Local Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备,未来5G网络或5G之后的网络中的终端设备等,本申请实施例对此不作限定。
上述终端设备还可以是作为一个或多个部件或者单元而内置于车辆的车载模块、车载模组、车载部件、车载芯片或者车载单元(on board unit,简称OBU),车辆通过内置的所述车载模块、车载模组、车载部件、车载芯片或者车载单元可以实施本申请的方法。
在本实施例中,云端服务器可以设置在核心网(Core Network,CN)设备侧。CN设备在不同的无线通信系统中对应不同的设备,例如,在3G系统中对应服务GPRS支持节点(Serving GPRS Support Node,SGSN)或网关GPRS支持节点(Gateway GPRS Support Node,GGSN),在4G系统中对应移动管理实体(Mobility Management Entity,MME)或服务网关(Serving GateWay,S-GW),在5G系统中对应5G系统的核心网相关设备(例如NG-Core)。本申请实施例对此不作限定。
应理解,本申请实施例的技术方案可以应用于长期演进(Long Term Evolution,LTE)架构,还可以应用于通用移动通信系统(Universal Mobile TelecommunicationsSystem,UMTS)陆地无线接入网(UMTS Terrestrial Radio Access Network,UTRAN)架构,或者全球移动通信系统(Global System for Mobile Communication,GSM)/增强型数据速率GSM演进(Enhanced Data Rate for GSM Evolution,EDGE)系统的无线接入网(GSM EDGERadio Access Network,GERAN)架构。本申请实施例的技术方案还可以应用于其他通信系统,例如公共陆地移动网络(Public Land Mobile Network,PLMN)系统,甚至未来的5G通信系统或5G之后的通信系统等,本申请实施例对此不作限定。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。为了方便理解,下面实施例中的具体实例以车控领域为例进行说明,但并不限于该应用场景。
图2为本申请一实施例提供的语义解析方法的流程示意图,图3为本申请另一实施例提供的语义解析方法的流程示意图。
如图2所示,本实施例提供的方法,包括以下步骤:
S101、获取语音信号对应的文本信息。
在本实施例中,终端设备根据获取到的语音信号,进行语音识别,将语音信号转换为语音信号对应的文本信息。以车控领域为例,用户通过终端设备中的语音获取设备,例如语音通话麦克风等,发出语音查询或控制语句,如“查询天气”、“打开车窗”,终端设备通过语音识别技术(Automatic Speech Recognition,简称ASR)将语音信号转换为文本信息。
S102、根据文本信息确定语音信号对应的第一拼读信息,第一拼读信息是文本信息中的文本对应的拼读信息。
在本实施例中,基于S101获取的文本信息,终端设备将其转换为语音信号对应的第一拼读信息。例如,上述实例中“查询天气”转换为对应的第一拼读信息“cha2 xun2tian1 qi4”,“打开车窗”对应的第一拼读信息转换为“da3 kai1 che1 chuang1”。可见,第一拼读信息包括拼音字母以及音调标识,音调标识中1、2、3、4分别代表一声、二声、三声、四声。
需要说明的是,由于不同地区用户的口音存在差异,S101中经过语音识别的文本信息可能存在偏差,例如将“打开车窗”识别为“打开车床”,对应的第一拼读信息为“da3kai1 che1 chuang2”,将导致后续语义理解错误。为了提升语音识别的准确率,可以对拼读信息进行纠错处理(也可称为预处理)。
如图3所示,在一种可能的实现方式中,S102可以包括:
S1021、将文本信息转换为第二拼读信息。
S1022、通过查询预存的纠错字典,对第二拼读信息进行纠错处理,得到语音信号对应的第一拼读信息。
其中,纠错字典包括当前场景对应的常用术语,以及常用术语对应的正确拼读信息和错误拼读信息。
上述的实现方式提供了ASR结果纠正和指令拦截功能,其中指令拦截包括自定义指令拦截和默认指令拦截。自定义指令拦截即用户根据自身需求设定自定义指令拦截,例如用户可以设置使用某方言时,将识别的文本信息转换为对应的第一拼读信息。默认指令拦截即系统预先配置的通用或者常见错误的指令拦截,例如终端设备根据当前应用场景,确定识别的文本信息不是该场景的常用术语或词汇时,进行指令拦截,并从纠错字典中确定匹配度高的术语或词汇对应的拼读信息。
示例性的,以车控领域为例,常用术语或词汇包括车灯、车窗、车门、座椅、后视镜、打开、关闭、调高、调低等,预存的纠错字典包括上述常用术语或者词汇对应的正确拼读信息以及错误拼读信息。
在本实施例中,纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。其中,同音纠错用于解决同音字类型的错误,音调不同语义理解存在偏差,例如“打开车床”会被纠正为“打开车窗”。近音纠错和缺音纠错,是在全拼匹配失败时,使用声母韵母进行近似匹配,例如“打开车撞”会被纠正为“打开车窗”。
需要说明的是,为了防止过度纠正,可以限制纠错比例不超过拼读信息长度的预设比例,例如50%。
S103、对第一拼读信息进行槽位模板匹配,生成语义解析结果。
在本实施例中,经过纠错处理得到第一拼读信息后,终端设备基于预存的槽位字典对第一拼读信息进行槽位分析,得到槽位列表;再根据预设的模板字典的规则对槽位列表进行模板分析,生成语义解析结果。
其中,槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系。槽位列表包括名词槽位、动词槽位。模板字典包括当前场景对应的至少一个模板。
本实施例的语义解析方案包括槽位匹配和模板匹配。其中,
槽位匹配是指在特定场景下,抽取对应的目标实体以便进行后续语义解析。以车控领域为例,槽位列表可以包括“车辆部件”等名词槽位,以及“操作类型”等动词槽位。以地图领域为例,槽位列表可以包括“城市名称”、“道路名称”、“店铺名称”等名词槽位,以及“路况查询”、“导航”等动词槽位。
应理解,槽位匹配过程是将拼读信息中的关键信息进行提取,例如从“请把车窗打开”的拼读信息中提取关键信息“车窗”和“打开”。可见该过程仅包括有用信息,用于意图分析和判断。但是,可能存在如下问题,例如用户输入语句为“要打开车窗吗”,经过关键信息提取,可能将“要”和“吗”剔除,导致意图理解错误。也就是说,用户输入语句如果为疑问句时,终端设备无法获知。为了避免上述问题,本实施例还可以通过在槽位列表增加“句子类型”等名词槽位,提升意图理解的准确性。
模板匹配是指根据用户的意图匹配相应的模板,不同场景或者不同意图的模板存在差异,但通常包括以下三个字段:应用领域字段、意图字段以及目标对象字段。将槽位列表中的信息匹配到相应的模板中,生成最终的语义解析结果,对应的,语义解析结果包括应用领域字段、意图字段以及目标对象字段。
在一种可能的实现方式中,上述根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果,可以包括:
对槽位列表中的各个槽位按照词性进行排序;根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成语义解析结果。上述排序过程可以将用户输入的多种相同含义的语句泛化成同一意图,即生成同一语义解析结果。例如将“帮我把后窗打开”、“请打开一下后窗”、“请将后窗打开吧”理解为“车控领域、打开、车窗”,对应到语义解析结果具体可以表示为“card type:codriver(应用领域字段),intent:open(意图字段),item:vehicle window(目标对象字段)”。
在一些实施例中,可选的,语义解析结果还包括语义解析结果的评分,评分用于指示语义解析结果的可信程度,评分的数值区间为0-1。这里的评分可以理解为语义解析过程中各个步骤的综合评分,例如纠错处理对应的第一评分,槽位分析对应的第二评分,模板分析对应的第三评分。根据各个步骤对应的评分计算出综合评分,具体的计算规则可以根据实际需求进行设定,本实施例不做具体限定。示例性的,计算规则可以是各个步骤评分的乘积,或者,各个步骤加权求和。
终端设备根据语义解析结果的评分,确定是否发送相应的控制指令。具体的,判断评分是否超出预设评分阈值,若超出,则发送相应的控制指令,否则提示用户重新输入查询或控制语句。
示例性的,假设用户发出“请打开后排左侧的车门”控制语句,由于车控领域对车门控制的安全等级较高,因此,车门项对应的预设评分阈值设置为1,如果语义解析结果的评分小于1,例如0.9,则控制设备不会发送打开车门的控制指令。
由此可见,上述增加评分的方案可以确保语义解析的准确率,避免了意外事故的发生。
本申请实施例提供的语义解析方法,通过获取语音信号对应的文本信息,在对文本信息进行预处理后确定语音信号对应的第一拼读信息,该第一拼读信息指示的是用户真实的文本含义,通过对第一拼读信息进行槽位模板匹配过程,生成语义解析结果,该语义解析结果指示了用户在当前场景的真实意图。本申请采用槽位模板匹配方案,适用于终端离线场景,该方案的语义泛化程度高,终端的资源消耗小,扩展性强。
基于上述实施例,下面通过一个具体的实例对本申请提供的离线语义解析方案进行展示。图4为本申请一实施例提供的语义解析方法的信息处理的流向图。如图4所示,本实施例提供的语义解析方法主要应用于车控领域,主要包括以下信息处理过程:
1、文本纠错:文本纠错的主要目的在于提升语音识别的准确率。由于不同用户存在口音差异,语音识别的准确率并不能达到100%,因此终端设备获取的语音信号的文本信息可能是图4第一列中的“打开车床”或“打开车船”等。通过文本纠错将“打开车床”或者“打开车船”纠正为“打开车窗”,如图4第二列所示。
需要说明的是,终端设备在进行纠错处理时,可以通过文本信息对应的拼读信息(即拼音信息)进行纠错,具体可参见上述实施例,此处不再赘述。
2、槽位匹配:根据纠正后的文本信息以及槽位字典,确定文本信息对应的程序化语言。具体的,槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,例如“da3kai1”对应“v_open”,“che1chuang1”对应“n_window”,如图4第三列所示。
3、槽位排序:按照词性对槽位列表进行排序。由于槽位匹配后得到的槽位列表是根据用户输入语句的顺序排列,为了方便后续语义理解,这里将槽位列表中的槽位进行重新排序,调整各槽位的顺序。图4第四列示出的槽位顺序为:名词槽位,动词槽位。
4、模板匹配:根据排序后的槽位列表以及模板字典,生成当前场景对应的模板,将该模板作为语义解析结果输出。图4第五列示出了一种语义解析结果包括三个字段,分别是“card type:codriver”、“intent:open”、“item:vehicle window”。
需要说明的是,上述实施例的纠错字典、槽位字典、模板字典统称为数据字典,开发人员可以根据不同应用场景预设相应的数据字典,并通过对数据字典的扩展,进一步提升方案的语义泛化程度,维护成本低,可随时进行扩展。目前本实施例提供的方案可以支持千万量级的语音信号,随着对数据字典的扩展,支持的语音信号数量将呈指数提升。另外,本实施例提供的方案对终端设备的内存消耗小于10MB,终端设备的CPU占用小于2%,与现有的离线语义解析方案相比,处理速度以及语义解析的准确率都大大提升。
图5为本申请一实施例提供的语义解析装置的结构示意图。如图5所示,本实施例提供的语义解析装置,包括:
获取模块501,用于获取语音信号对应的文本信息;
确定模块502,用于根据所述文本信息确定所述语音信号对应的第一拼读信息,所述第一拼读信息是所述文本信息中的文本对应的拼读信息;
生成模块503,用于对所述第一拼读信息进行槽位模板匹配,生成语义解析结果。
可选的,所述确定模块502具体用于:
将所述文本信息转换为第二拼读信息;
通过查询预存的纠错字典,对所述第二拼读信息进行纠错处理,得到所述语音信号对应的第一拼读信息;其中,所述纠错字典包括当前场景对应的常用术语,以及所述常用术语对应的正确拼读信息和错误拼读信息。
可选的,所述纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。
可选的,所述生成模块503具体用于:
基于预存的槽位字典对所述第一拼读信息进行槽位解析,得到槽位列表;其中,所述槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,所述槽位列表包括名词槽位、动词槽位;
根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果。
可选的,所述生成模块503具体用于:
对所述槽位列表中的各个槽位按照词性进行排序;
根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成所述语义解析结果;所述模板字典包括当前场景对应的至少一个模板。
可选的,所述语义解析结果包括应用领域字段、意图字段以及目标对象字段。
可选的,所述语义解析结果还包括语义解析结果的评分,所述评分用于指示所述语义解析结果的可信程度。
本申请实施例提供的语义解析装置,可以执行上述方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
图6为本申请一实施例提供的电子设备的硬件结构示意图。如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语义解析方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语义解析方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语义解析方法对应的程序指令/模块(例如,附图5所示的获取模块501、确定模块502和生成模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语义解析方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述电子设备还可以包括:输入装置603和输出装置604。处理器Y01、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例还提供一种语义解析方法,包括如下步骤:
获取语音信号对应的文本信息;
对所述文本信息进行槽位模板匹配,生成语义解析结果。
该实施例的具体实现原理可以参见上述图2至图4所示实施例的记载,此处不再赘述。
综上所述,本申请实施例提供的技术方案具有以下技术效果:
1)语义泛化程度高;2)资源消耗小;3)扩展性强;4)基于数据字典提供针对语音识别结果的纠正机制,提升语音识别结果的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种语义解析方法,其特征在于,包括:
获取语音信号对应的文本信息;
根据所述文本信息确定所述语音信号对应的第一拼读信息,所述第一拼读信息是所述文本信息中的文本对应的拼读信息;
基于预存的槽位字典对所述第一拼读信息进行槽位匹配,得到槽位列表;其中,所述槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,所述槽位列表中的槽位是所述当前场景对应的常用术语的程序化语言;
根据预设的模板字典的规则对所述槽位列表进行模板匹配,生成所述当前场景对应的模板,将该模板作为语义解析结果;其中,所述当前场景对应的模板包括所述当前场景对应的格式化数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本信息确定所述语音信号对应的第一拼读信息,包括:
将所述文本信息转换为第二拼读信息;
通过查询预存的纠错字典,对所述第二拼读信息进行纠错处理,得到所述语音信号对应的第一拼读信息;其中,所述纠错字典包括当前场景对应的常用术语,以及所述常用术语对应的正确拼读信息和错误拼读信息。
3.根据权利要求2所述的方法,其特征在于,所述纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述槽位列表包括名词槽位、动词槽位。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果,包括:
对所述槽位列表中的各个槽位按照词性进行排序;
根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成所述语义解析结果;所述模板字典包括当前场景对应的至少一个模板。
6.根据权利要求4或5所述的方法,其特征在于,所述语义解析结果包括应用领域字段、意图字段以及目标对象字段。
7.根据权利要求6所述的方法,其特征在于,所述语义解析结果还包括语义解析结果的评分,所述评分用于指示所述语义解析结果的可信程度。
8.一种语义解析装置,其特征在于,包括:
获取模块,用于获取语音信号对应的文本信息;
确定模块,用于根据所述文本信息确定所述语音信号对应的第一拼读信息,所述第一拼读信息是所述文本信息中的文本对应的拼读信息;
生成模块,用于对所述第一拼读信息进行槽位模板匹配,生成语义解析结果。
9.根据权利要求8所述的装置,其特征在于,所述确定模块具体用于:
将所述文本信息转换为第二拼读信息;
通过查询预存的纠错字典,对所述第二拼读信息进行纠错处理,得到所述语音信号对应的第一拼读信息;其中,所述纠错字典包括当前场景对应的常用术语,以及所述常用术语对应的正确拼读信息和错误拼读信息。
10.根据权利要求9所述的装置,其特征在于,所述纠错处理包括同音纠错、近音纠错、缺音纠错的至少一项。
11.根据权利要求8所述的装置,其特征在于,所述生成模块具体用于:
基于预存的槽位字典对所述第一拼读信息进行槽位解析,得到槽位列表;其中,所述槽位字典包括当前场景对应的常用术语的拼读信息与程序化语言的对应关系,所述槽位列表包括名词槽位、动词槽位;
根据预设的模板字典的规则对所述槽位列表进行模板分析,生成语义解析结果。
12.根据权利要求11所述的装置,其特征在于,所述生成模块具体用于:
对所述槽位列表中的各个槽位按照词性进行排序;
根据预设的模板字典的规则对排序后的槽位列表进行模板分析,生成所述语义解析结果;所述模板字典包括当前场景对应的至少一个模板。
13.根据权利要求11或12所述的装置,其特征在于,所述语义解析结果包括应用领域字段、意图字段以及目标对象字段。
14.根据权利要求13所述的装置,其特征在于,所述语义解析结果还包括语义解析结果的评分,所述评分用于指示所述语义解析结果的可信程度。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936998.9A CN110705267B (zh) | 2019-09-29 | 2019-09-29 | 语义解析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936998.9A CN110705267B (zh) | 2019-09-29 | 2019-09-29 | 语义解析方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705267A CN110705267A (zh) | 2020-01-17 |
CN110705267B true CN110705267B (zh) | 2023-03-21 |
Family
ID=69197091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936998.9A Active CN110705267B (zh) | 2019-09-29 | 2019-09-29 | 语义解析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705267B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310434B (zh) * | 2020-02-28 | 2024-01-19 | 北京金堤科技有限公司 | 文本生成方法和装置、电子设备和存储介质 |
CN111429903B (zh) * | 2020-03-19 | 2021-02-05 | 百度在线网络技术(北京)有限公司 | 音频信号识别方法、装置、系统、设备和可读介质 |
CN113495489A (zh) * | 2020-04-07 | 2021-10-12 | 深圳爱根斯通科技有限公司 | 自动化配置方法、装置、电子设备及存储介质 |
CN111597808B (zh) * | 2020-04-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 仪表盘绘制处理方法、装置、电子设备和存储介质 |
CN111813903B (zh) * | 2020-05-25 | 2023-10-20 | 车智互联(北京)科技有限公司 | 一种问句匹配方法和计算设备 |
CN111694919B (zh) * | 2020-06-12 | 2023-07-25 | 北京百度网讯科技有限公司 | 生成信息的方法、装置、电子设备及计算机可读存储介质 |
CN111783454B (zh) * | 2020-06-30 | 2024-03-15 | 北京百度网讯科技有限公司 | 地理信息的识别与录入方法及设备、电子设备和介质 |
CN111797636B (zh) * | 2020-07-21 | 2023-06-16 | 思必驰科技股份有限公司 | 离线语义解析方法及系统 |
CN112185374A (zh) * | 2020-09-07 | 2021-01-05 | 北京如影智能科技有限公司 | 一种确定语音意图的方法及装置 |
CN114186563A (zh) * | 2020-09-15 | 2022-03-15 | 华为技术有限公司 | 电子设备及其语义解析方法、介质和人机对话系统 |
CN112562668A (zh) * | 2020-11-30 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种语义信息纠偏方法和装置 |
CN112669840A (zh) * | 2020-12-17 | 2021-04-16 | 北京梧桐车联科技有限责任公司 | 一种语音处理方法、装置、设备及存储介质 |
CN112559689A (zh) * | 2020-12-21 | 2021-03-26 | 广州橙行智动汽车科技有限公司 | 一种基于车载问答的数据处理方法和装置 |
EP4250286A4 (en) * | 2020-12-26 | 2023-12-27 | Huawei Technologies Co., Ltd. | METHOD AND DEVICE FOR SPEECH UNDERSTANDING |
CN112667798A (zh) * | 2021-01-12 | 2021-04-16 | 杭州云嘉云计算有限公司 | 一种基于ai的呼叫中心语言处理方法及系统 |
CN113326702B (zh) * | 2021-06-11 | 2024-02-20 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019005772A1 (en) * | 2017-06-29 | 2019-01-03 | Amazon Technologies, Inc. | ELECTRONIC DEVICE WITH TWO-PHASE DETECTION OF A WORD OF AWAKENING |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4451435B2 (ja) * | 2006-12-06 | 2010-04-14 | 本田技研工業株式会社 | 言語理解装置、言語理解方法、及び、コンピュータプログラム |
CN106557461B (zh) * | 2016-10-31 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析处理方法和装置 |
CN107193973B (zh) * | 2017-05-25 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 语义解析信息的领域识别方法及装置、设备及可读介质 |
CN109800407B (zh) * | 2017-11-15 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN108871370A (zh) * | 2018-07-03 | 2018-11-23 | 北京百度网讯科技有限公司 | 导航方法、装置、设备和介质 |
CN108962233B (zh) * | 2018-07-26 | 2020-11-17 | 苏州思必驰信息科技有限公司 | 用于语音对话平台的语音对话处理方法及系统 |
CN109241524B (zh) * | 2018-08-13 | 2022-12-20 | 腾讯科技(深圳)有限公司 | 语义解析方法及装置、计算机可读存储介质、电子设备 |
CN109522550B (zh) * | 2018-11-08 | 2023-04-07 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109522397B (zh) * | 2018-11-15 | 2023-06-27 | 平安科技(深圳)有限公司 | 信息处理方法及装置 |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN110111787B (zh) * | 2019-04-30 | 2021-07-09 | 华为技术有限公司 | 一种语义解析方法及服务器 |
-
2019
- 2019-09-29 CN CN201910936998.9A patent/CN110705267B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
WO2019005772A1 (en) * | 2017-06-29 | 2019-01-03 | Amazon Technologies, Inc. | ELECTRONIC DEVICE WITH TWO-PHASE DETECTION OF A WORD OF AWAKENING |
CN109918680A (zh) * | 2019-03-28 | 2019-06-21 | 腾讯科技(上海)有限公司 | 实体识别方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110705267A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705267B (zh) | 语义解析方法、装置及存储介质 | |
CN111667816B (zh) | 模型训练方法、语音合成方法、装置、设备和存储介质 | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
KR102541306B1 (ko) | 텍스트 생성 모델의 트레이닝 방법, 장치 및 전자기기 | |
KR102413692B1 (ko) | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 | |
US7788098B2 (en) | Predicting tone pattern information for textual information used in telecommunication systems | |
CN110838289A (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN111402861B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN112365880A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112509552B (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN110930980B (zh) | 一种中英文混合语音的声学识别方法及系统 | |
CN111261144A (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
KR20210154705A (ko) | 시맨틱 매칭 방법, 장치, 기기 및 저장 매체 | |
CN109256125B (zh) | 语音的离线识别方法、装置与存储介质 | |
CN111008309B (zh) | 查询方法及装置 | |
KR102630243B1 (ko) | 구두점 예측 방법 및 장치 | |
CN111144108A (zh) | 情感倾向性分析模型的建模方法、装置和电子设备 | |
CN112466289A (zh) | 语音指令的识别方法、装置、语音设备和存储介质 | |
CN111883121A (zh) | 唤醒方法、装置及电子设备 | |
KR20190074508A (ko) | 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법 | |
CN110781657A (zh) | 导航播报的管理方法、装置及设备 | |
KR20230026242A (ko) | 음성 합성 방법, 장치, 기기 및 컴퓨터 기록 매체 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN111353035B (zh) | 人机对话方法、装置、可读存储介质及电子设备 | |
CN114490967A (zh) | 对话模型的训练方法、对话机器人的对话方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211026 Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |