CN117217212A - 语料识别方法、装置、设备及存储介质 - Google Patents

语料识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117217212A
CN117217212A CN202210602805.8A CN202210602805A CN117217212A CN 117217212 A CN117217212 A CN 117217212A CN 202210602805 A CN202210602805 A CN 202210602805A CN 117217212 A CN117217212 A CN 117217212A
Authority
CN
China
Prior art keywords
template
preset
matched
corpus
templates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210602805.8A
Other languages
English (en)
Inventor
温兴超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202210602805.8A priority Critical patent/CN117217212A/zh
Priority to PCT/CN2022/128050 priority patent/WO2023231285A1/zh
Publication of CN117217212A publication Critical patent/CN117217212A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语料识别方法、装置、设备及存储介质。该方法包括:获取待识别语料,并确定待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应的意图信息及匹配的预先配置的模板对应的槽位信息;根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果通过。本申请,预先配置模板及槽位信息,通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。

Description

语料识别方法、装置、设备及存储介质
技术领域
本申请涉及自然语言理解技术领域,尤其涉及一种语料识别方法、装置、设备及存储介质。
背景技术
自然语言理解(Natural Language Understanding,NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模板。
目前的NLU的意图识别通常采用深度学习的方式进行识别,例如,提前构建神经网络,并对构建的神经网络模型进行训练,将语句输入到神经网络模型中,从而输出意图。
但是,目前通过神经网络模型进行意图识别的方式需要对模型进行训练调优需要花费大量的时间,而且训练调优步骤较为复杂。
发明内容
本申请提供语料识别方法、装置、设备及存储介质,用以解决现有的通过神经网络模型进行意图识别的方式因涉及训练等步骤使得识别过程较为复杂的问题。
第一方面,本申请提供一种语料识别方法,包括:
获取待识别语料,并确定所述待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;
若所述待识别语料与所述预先配置的模板匹配,则获取匹配的所述预先配置的模板对应的意图信息及匹配的所述预先配置的模板对应的槽位信息;
根据匹配的所述预先配置的模板对应的意图信息及所述对应的槽位信息确定语料识别结果。
第二方面,本申请提供一种语料识别装置,包括:
获取单元,用于获取待识别语料;
确定单元,用于确定所述待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;
获取单元,还用于若所述待识别语料与所述预先配置的模板匹配,则获取匹配的所述预先配置的模板对应的意图信息及匹配的所述预先配置的模板对应的槽位信息;
确定单元,还用于根据匹配的所述预先配置的模板对应的意图信息及所述对应的槽位信息确定语料识别结果。
第三方面,本发明提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
本申请提供的一种语料识别方法、装置、设备及存储介质,获取待识别语料,并确定所述待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;若所述待识别语料与所述预先配置的模板匹配,则获取匹配的所述预先配置的模板对应的意图信息及匹配的所述预先配置的模板对应的槽位信息;根据匹配的所述预先配置的模板对应的意图信息及所述对应的槽位信息确定语料识别结果通过。通过预先配置的模板即可确定意图及槽位,相比现有技术使用神经网络进行意图识别的方式不需要借助模型,只需要预先配置模板及槽位信息,不采用神经网络进行识别,因此不需要花费大量的时间对神经网络模型进行训练调优,通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本发明提供的语料识别方法的网络架构示意图;
图2是本发明实施例一提供的语料识别方法的流程示意图;
图3是本发明实施例六提供的语料识别方法的流程示意图;
图4是本发明实施例八提供的语料识别方法的流程示意图;
图5是本发明实施例九提供的语料识别方法的流程示意图;
图6是本发明一实施例提供的语料识别装置的结构示意图;
图7是用来实现本发明实施例的语料识别方法的电子设备的框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或智能设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或智能设备固有的其它步骤或单元。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介绍。
自然语言理解(Natural Language Understanding,NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模板。目前的NLU的意图识别通常采用深度学习的方式进行识别,提前构建神经网络,例如,构建卷积神经网络模型CNN,并对构建的构建卷积神经网络模型进行训练,将语句输入到构建的构建卷积神经网络模型的输入层,通过构建卷积神经网络模型中的全连接层输出特征向量,并依据特征向量确定意图然后通过输出层输出意图。
目前通过神经网络模型进行意图识别的方式需要对模型进行训练调优需要花费大量的时间,而且训练调优步骤较为复杂。
所以针对现有技术中通过神经网络模型进行意图识别的方式因涉及训练等步骤使得识别过程较为复杂的问题,发明人在研究中发现,预先配置多种模板,例如,预先配置关键词模板、拼音模板及联合模板,为意图识别提供多种模板,具体地,获取待识别语料,并确定待识别语料与预先配置的模板是否匹配,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,预设联合模板包括设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应的意图信息及匹配的预先配置的模板对应的槽位信息;根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果。通过预先配置的模板即可确定意图及槽位,相比现有技术使用神经网络进行意图识别的方式不需要借助模型,只需要预先配置模板及槽位信息,不采用神经网络进行识别,因此不需要花费大量的时间对神经网络模型进行训练调优,通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
所以发明人基于上述的创造性发现,提出了本发明实施例的技术方案。下面对本发明实施例提供的语料识别方法的网络架构及应用场景进行介绍。
如图1所示,本发明实施例提供的语料识别方法对应的网络架构中包括:智能设备1及服务器2。智能设备1与服务器2进行通信连接。用户发出语音,智能设备1采集用户的音频数据,智能设备1根据采集的音频数据得到待识别语料。服务器2待识别语料,并确定待识别语料与预先配置的模板是否匹配,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应的意图信息及匹配的预先配置的模板对应的槽位信息;服务器2根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果。服务器2将语料识别结果发送至智能设备2,智能设备2根据语料识别结果进行应答处理。通过预先配置的模板即可确定意图及槽位,相比现有技术使用神经网络进行意图识别的方式不需要借助模型,只需要预先配置模板及槽位信息,不采用神经网络进行识别,因此不需要花费大量的时间对神经网络模型进行训练调优,通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
以下将参照附图来具体描述本发明的实施例。
实施例一
图2是本发明实施例一提供的语料识别方法的流程示意图,如图2所示,本实施例提供的语料识别方法的执行主体为语料识别装置,该语料识别装置位于电子设备中,则本实施例提供的语料识别方法包括以下步骤:
步骤101,获取待识别语料,并确定待识别语料与预先配置的模板是否匹配,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板。
本实施例中,获取待识别语料,进一步确定待识别语料与预设先配置的模板是否匹配,其中,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,其中,预设联合模板包括设置有松弛度的预设关键词模板、与对应的预设关键词模板中的关键词关联的预设拼音模板。确定待识别语料与三个模板中的哪一个匹配。
可选地,预先配置关键词模板,自定义多个关键词。预先配置拼音模板,其中,包括有声调模板和无声调模板,设置无声调模板目的是因为某些用户普通话不是很标准,所以为了能够识别得更加准确,所以设置有声调模板及无声调模板。预先配置联合模板,具体地,为预设关键词设置松弛度,并为关键词关联预设拼音模板。
可选地,预先为每个模板配置对应的意图信息及槽位信息,其中,意图信息用于表明语料所指示的意图;槽位信息包括槽位名称、槽位说明、槽位引用、槽位是否必须、槽位是否单个、缺槽追问次数、槽位类型及是否抽槽。其中,槽位名称可以用英文表示;槽位说明是对槽位的中文说明注释;槽位引用是槽位是否引用了词典;槽位是否单个是槽位是否单个出现;缺槽追问次数是能够追问的次数;槽位类型为槽位的数据类型;是否抽槽为槽位是否需要填充相关参数。
步骤102,若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应的意图信息及匹配的预先配置的模板对应的槽位信息。
本实施例中,若待识别语料与预先配置的模板匹配,获取与语料匹配的预先配置的模板对应的意图信息以及与语料匹配的预先配置的模板对应的槽位信息,其中,与语料匹配的预先配置的模板对应的意图信息为语料所对应的意图,即用户的意图。
步骤103,根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果。
本实施例中,根据与语料匹配的预先配置的模板对应的意图信息以及与语料匹配的预先配置的模板对应槽位信息确定语料识别结果。
本实施例中,获取待识别语料,并确定待识别语料与预先配置的模板是否匹配,其中,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应意图信息及匹配的预先配置的模板对应的槽位信息,根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果,通过预先配置的模板即可确定意图及槽位,相比现有技术使用神经网络进行意图识别的方式不需要借助模型,只需要预先配置模板及槽位信息,不采用神经网络进行识别,因此不需要花费大量的时间对神经网络模型进行训练调优,通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
实施例二
在本发明实施例一提供的语料识别方法的基础上,对步骤101中的确定待识别语料与预先配置的模板是否匹配进行了进一步细化,具体包括以下步骤:
步骤1011,将待识别语料与全部预设关键词模板进行匹配。
本实施例中,若预先配置的模板为预设关键词模板,将待识别语料与全部预设关键词模板进行匹配,从而确定与待识别语料匹配的预设关键词模板。
步骤1012,若任意预设关键词模板中的关键词与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。
本实施例中,将待识别语料进行分词处理,使用分词工具进行分词处理,例如使用jieba分词工具进程分词处理,获取待识别语料对应的词语。若任意预设关键词模板中的关键词与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。
其中,各预设关键词模板中至少设置一个关键词,对关键词匹配数量进行预先设置,可以是预设关键词模板至少一个关键词匹配则认为模板匹配,或者是预设关键词模板全部关键词匹配则认为模板匹配。具体地,若任意预设关键词模板中的全部关键词与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。若任意预设关键词模板中的至少一个关键词与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。
步骤1013,若全部预设关键词模板中的关键词与待识别语料中的词语均不匹配,则确定待识别语料与预先配置的模板不匹配。
本实施例中,若全部预设关键词模板中的关键词与待识别语料中的词语都不匹配,说明没有与待识别语料中的词语匹配的关键词,确定待识别语料与预先配置的模板不匹配。待识别语料中的词语为未登录词,所以没有匹配到模板,进一步将包括待识别语料的提示信息发送至用户终端,用户可根据待识别语料中的词语配置预设关键词模板,并为该预设关键词模板配置对应的意图信息及对应的槽位信息。
其中,可以是预设关键词模板至少一个关键词不匹配则认为模板不匹配,或者是预设关键词模板全部关键词均不匹配则认为模板不匹配。具体地,若任意预设关键词模板中的全部关键词与待识别语料中的词语均不匹配,则确定待识别语料与预先配置的模板不匹配。若任意预设关键词模板中的至少一个关键词与待识别语料中的词语不匹配,则确定待识别语料与预先配置的模板不匹配。
本实施例中,通过匹配关键词的方式为语料匹配模板,从而通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
实施例三
在本发明实施例一提供的语料识别方法的基础上,对步骤101中的确定待识别语料与预先配置的模板是否匹配进行了进一步细化,具体包括以下步骤:
步骤1014,将待识别语料与全部预设拼音模板进行匹配。
本实施例中,若预先配置的模板为预设拼音模板,将待识别语料与全部预设拼音模板进行匹配,从而确定与待识别语料匹配的预设拼音模板。
步骤1015,若任意预设拼音模板中的拼音与待识别语料中的拼音匹配,则确定待识别语料与预先配置的模板匹配。
本实施例中,将待识别语料进行拼音识别,获取待识别语料对应的拼音。若任意预设拼音模板中的拼音与待识别语料中的拼音匹配,则确定待识别语料与预先配置的模板匹配。其中,预设拼音模板包括有声调拼音模板及无声调拼音模板。
其中,各预设拼音模板中至少设置一个拼音,对拼音匹配数量进行预先设置,可以是预设拼音模板至少一个拼音匹配则认为模板匹配,或者是预设拼音模板全部拼音匹配则认为模板匹配。具体地,若任意预设拼音模板中的全部拼音与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。若任意预设拼音模板中的至少一个拼音与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配。
步骤1016,若全部预设拼音模板中的拼音与待识别语料中的拼音均不匹配,则确定待识别语料与预先配置的模板不匹配。
本实施例中,若全部预设拼音模板中的拼音与待识别语料中的拼音全都不匹配,没有匹配到相应的拼音模板,进一步将包括待识别语料的提示信息发送至用户终端,用户可根据待识别语料中的拼音配置预设拼音模板,并为该预设拼音模板配置对应的意图信息及对应的槽位信息。
其中,可以是预设拼音模板至少一个拼音不匹配则认为模板不匹配,或者是预设拼音模板全部拼音均不匹配则认为模板不匹配。具体地,若任意预设拼音模板中的全部拼音与待识别语料中的词语均不匹配,则确定待识别语料与预先配置的模板不匹配。若任意预设拼音模板中的至少一个拼音与待识别语料中的词语不匹配,则确定待识别语料与预先配置的模板不匹配。
本实施例中,通过匹配拼音的方式为语料匹配模板,从而通过匹配到的模板能够确定用户意图,提供一种更为简单的意图识别方法。
实施例四
在本发明实施例一提供的语料识别方法的基础上,对步骤101中的确定待识别语料与预先配置的模板是否匹配进行了进一步细化,具体包括以下步骤:
步骤1017,将待识别语料与全部设置有松弛度的预设关键词模板进行匹配。
本实施例中,若预先配置的模板为预设联合模板,将待识别语料与全部设置有松弛度的预设关键词模板进行匹配,从而确定与待识别语料匹配的设置有松弛度的预设关键词模板。其中,松弛度包括三种类型,一种是设置松弛字数、一种是设置语义识别、一种是设置停用词。其中,松弛字数为预设关键词模板设置相应的松弛字数,例如,预先配置的关键词模板为“打开冰箱”,将该模板的松弛字数设置为3,若待识别语料为“我想打开冰箱了”,待识别语料中包含“打开冰箱”,还包含“我想,了”,预先配置的关键词模板相应的松弛字数为3,可以忽略待识别语料除去打开冰箱之外的3个字,“我想打开冰箱了”与“打开冰箱”匹配,确定待识别语料与设置有松弛度的预设关键词模板匹配;又例如,预先配置的关键词模板为“打开冰箱”,将该模板的松弛字数设置为0,若若待识别语料为“我想打开冰箱了”,待识别语料中包含“打开冰箱”,还包含“我想,了”,预先配置的关键词模板相应的松弛字数为0,松弛字数为0代表必须与预先配置的关键词模板完全匹配且没有可以忽略的字,“我想打开冰箱了”与“打开冰箱”不匹配,确定待识别语料与设置有松弛度的预设关键词模板不匹配。
其中,若松弛度类型为语义识别,则对待识别语料的语义识别,为预设关键词模板设置对应的语义相似度阈值,若待识别语料的词语与设置有松弛的预设关键词模板之间的语义相似度大于语义相似度阈值,则确定待识别语料与设置有松弛度的预设关键词模板匹配;若待识别语料的词语与设置有松弛的预设关键词模板之间的语义相似度小于或等于语义相似度阈值,则确定待识别语料与设置有松弛度的预设关键词模板不匹配。
其中,若松弛度类型为停用词,为预设关键词模板设置对应的停用词,停用词处理是指去除在中文文本中出现的频率较高但用于不大的词句,包括中文用于中的副词、虚词以及语气词等,例如,预先将‘吗,呢,嘛’设置为停用词,而规范化处理是指用于处理由于中文语法及各地口音的区别,导致中文文本中的一个意思有多种表达方式的问题,进而有效的提高了该自然语言处理系统的识别精度和速度。
步骤1018,若设置有松弛度的预设关键词模板中的关键词与待识别语料中的词语匹配,则确定匹配的预设关键词模板中的关键词关联的预设拼音模板中的拼音是否与待识别语料中的拼音匹配。
本实施例中,若设置有松弛度的预设关键词模板中的关键词与待识别语料中的词语匹配,进一步确定匹配的关键词关联的预设拼音模板中的拼音是否与待识别语料中的拼音匹配。
步骤1019,若是,则确定待识别语料与预先配置的模板匹配。
本实施例中,若匹配的预设关键词模板中的关键词关联的预设拼音模板中的拼音与待识别语料中的拼音匹配,说明不仅关键词匹配而且拼音也匹配,确定待识别语料与预先配置的模板匹配。
步骤1020,若否,则确定待识别语料与预先配置的模板不匹配。
本实施例中,若匹配的预设关键词模板中的关键词关联的预设拼音模板中的拼音与待识别语料中的拼音不匹配,说明仅关键词匹配而且拼音不匹配,确定待识别语料与预先配置的模板不匹配。
本实施例中,通过匹配关键词及拼音的方式为语料匹配模板,从而通过匹配到的模板能够确定用户意图,不仅可以匹配拼音、关键词,还可以将两者结合起来,能够得到较为准确的匹配结果。
实施例五
在本发明实施例一提供的语料识别方法的基础上,对步骤103进行了进一步细化,具体包括以下步骤:
步骤1031,确定匹配的预先配置的模板是否为预设联合模板且预设联合模板是否为多个。
本实施例中,确定匹配的预先配置的模板是否为预设联合模板,若匹配的预先配置的模板为预设联合模板,则确定预设联合模板是否为多个预设联合模板,根据模板数量确定是否对预设联合模板进行筛选。
步骤1032,若匹配的预先配置的模板为预设联合模板且预设联合模板为一个,则将匹配的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若匹配的预先配置的模板为预设联合模板且预设联合模板数量为一个,说明不需要对预设联合模板进行筛选,直接将匹配的预设联合模板对应的意图信息及匹配的预设联合模板对应的槽位信息确定为语料识别结果。
步骤1033,若匹配的预先配置的模板为预设联合模板且预设联合模板为多个,则确定多个匹配的预设联合模板对应的意图信息中是否存在相同意图信息。
本实施例中,若匹配的预先配置的模板为预设联合模板且预设联合模板为多个,说明可能需要对多个预设联合模板进行筛选,进一步根据意图信息确定是否需要对多个预设联合模板进行筛选,具体地,获取多个预设联合模板对应的多个意图信息,确定多个匹配的预设联合模板对应的多个意图信息中是否存在相同意图信息。
步骤1034,若不存在相同意图信息,则将多个匹配的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若不存在相同意图信息,不需要对预设联合模板进行筛选,进一步将多个匹配的预设联合模板对应的意图信息以及多个匹配的预设联合模板对应的槽位信息确定为语料识别结果。
步骤1035,若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设联合模板进行筛选,将筛选后的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图信息,需要对预设联合模板进行筛选,以进行消歧处理,最终使得同一个意图信息对应一个模板,具体地,根据预设联合模板对应的预设优先级策略对相同意图信息对应的多个匹配的预设联合模板进行筛选,将筛选后的预设联合模板对应的意图信息以及筛选后的预设联合模板对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图的多个匹配的预设联合模板,采用优先级策略从相同意图信息对应的多个预设联合模板选择一个预设联合模板,从而消除歧义,能够为待识别语料选择更加匹配的预设联合模板。
实施例六
图3是本发明实施例六提供的语料识别方法的流程示意图,如图3所示,在本发明实施例五提供的语料识别方法的基础上,对步骤1035进行了进一步细化,具体包括以下步骤:
步骤A1035a,比较多个匹配的预设联合模板对应的松弛字数数量。
本实施例中,优先级策略包括第一优先级策略、第二优先级策略及第三优先级策略,首先采用预设联合模板对应的第一优先级策略进行筛选,比较多个匹配的预设联合模板对应的松弛字数数量,根据松弛字数数量多少确定筛选后的预设联合模板,其中,松弛字数是设置有松弛度的预设关键词模板中所指的松弛度。
步骤A1035b,若多个匹配的预设联合模板对应的松弛字数数量不一致,则将松弛字数数量最少的匹配的预设联合模板确定为筛选后的预设联合模板。
本实施例中,若多个匹配的预设联合模板对应的松弛字数数量不同,松弛字数为0代表必须与预先配置的关键词模板完全匹配且没有可以忽略的字,匹配起来较为严格,而松弛字数数量越多,说明可以忽略的字就越多,可以被认为是宽松的匹配,所以将松弛字数数量最少的匹配的预设联合模板确定为筛选后的预设联合模板。
步骤A1035c,若多个匹配的预设联合模板对应的松弛字数数量一致,则基于通配符对相同意图信息且松弛字数数量一致的多个匹配的预设联合模板进行筛选,以确定筛选后的预设联合模板。
本实施例中,若多个匹配的预设联合模板对应的松弛字数数量一致,进一步采用预设联合模板对应的第二优先级策略进行筛选,使用通配符进行筛选,通配符是一种特殊语句,主要有星号(*)和问号(?),用来模糊搜索文件。当查找文件夹时,可以使用它来代替一个或多个真正字符;当不知道真正字符或者懒得输入完整名字时,常常使用通配符代替一个或多个真正的字符。基于通配符对相同意图信息且松弛字数数量一致的多个匹配的预设联合模板进行筛选,以确定筛选后的预设联合模板。
本实施例中,采用预设联合模板对应的第一优先级策略从相同意图信息对应的多个预设联合模板选择一个预设联合模板,从而消除歧义,能够为待识别语料选择较为匹配的预设联合模板。
实施例七
在本发明实施例六提供的语料识别方法的基础上,对步骤A1035c进行了进一步细化,具体包括以下步骤:
步骤1035c,若多个匹配的预设联合模板均不包含通配符,则基于槽位信息数量对相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板进行筛选。
本实施例中,采用预设联合模板对应的第二优先级策略,以确定多个匹配的预设联合模板中是否包含通配符,若多个匹配的预设联合模板不包含通配符,采用预设联合模板对应的第三优先级策略进行筛选,具体地,基于槽位信息数量对相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板进行筛选,以确定筛选后的预设联合模板。
步骤1035d,若多个匹配的预设联合模板中至少一个预设联合模板不包含通配符,则将不包含通配符的匹配的预设联合模板确定为筛选后的预设联合模板。
本实施例中,若多个匹配的预设联合模板中至少一个预设联合模板不包含通配符,说明至少有一个匹配的预设联合模板不包含了星号(*)或问号(?),该匹配的预设联合模板相对于包含通配符的匹配的预设联合模板来说不属于较为模糊的匹配,所以将不包含通配符的匹配的预设联合模板确定为筛选后的预设联合模板。
本实施例中,相比第一优先级策略而言,采用第二优先级策略选择一个预设联合模板,能够为待识别语料选择更为匹配的预设联合模板,从而得到较为准确的意图。
实施例八
图4是本发明实施例八提供的语料识别方法的流程示意图,如图4所示,在本发明实施例七提供的语料识别方法的基础上,对步骤1035c进行了进一步细化,具体包括以下步骤:
步骤1035A,比较相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板对应的槽位信息数量。
本实施例中,采用第三优先级策略进行筛选,比较相同意图信息、松弛字数数量一致且不包含通配符的说个匹配的预设联合模板对应的槽位信息数量,如果某模板槽位信息数量越多,说明该模板匹配精度越高。
步骤1035B,若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设联合模板确定为筛选后的预设联合模板。
本实施例中,若相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板对应的槽位信息数量不一致,为了获取更真实的意图,以及得到较为匹配的模板,将槽位信息数量较多的匹配的预设联合模板确定为筛选后的预设联合模板。
本实施例中,采用优先级策略层层筛选,确保筛选后的预设联合模板是与待识别语料最为匹配的模板,从而使得到的意图信息与槽位信息也是最匹配,能够得到最真实的意图。
本实施例中,相比第二优先级策略而言,采用第三优先级策略选择一个预设联合模板,能够为待识别语料选择最为匹配的预设联合模板,从而得到更准确的意图。
实施例九
在本发明实施例一提供的语料识别方法的基础上,对步骤103进行了进一步细化,具体包括以下步骤:
步骤103a,确定匹配的预先配置的模板是否为预设关键词模板且预设关键词模板是否为多个。
本实施例中,若匹配的预先配置的模板为预设关键词模板,则确定预设关键词模板是否为多个预设关键词模板,根据模板数量确定是否对预设关键词模板进行筛选。
步骤103b,若匹配的预先配置的模板为预设关键词模板且预设关键词模板为一个,则将匹配的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若匹配的预先配置的模板为预设关键词模板且预设关键词模板数量为一个,说明不需要对预设关键词模板进行筛选,直接将匹配的预设关键词模板对应的意图信息及匹配的预设关键词模板对应的槽位信息确定为语料识别结果。
步骤103c,若匹配的预先配置的模板为预设关键词模板且预设关键词模板为多个,则确定多个匹配的预设关键词模板对应的意图信息中是否存在相同意图信息。
本实施例中,若匹配的预先配置的模板为预设关键词模板且预设关键词模板为多个,说明可能需要对多个预设关键词模板进行筛选,进一步根据意图信息确定是否需要对多个预设关键词模板进行筛选,具体地,获取多个预设关键词模板对应的多个意图信息,确定多个匹配的预设关键词模板对应的多个意图信息中是否存在相同意图信息。
步骤103d,若不存在相同意图信息,则将多个匹配的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若不存在相同意图信息,不需要对预设关键词模板进行筛选,进一步将多个匹配的预设关键词模板对应的意图信息以及多个匹配的预设关键词模板对应的槽位信息确定为语料识别结果。
步骤103e,若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设关键词模板进行筛选,将筛选后的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图信息,需要对预设关键词模板进行筛选,以进行消歧处理,最终使得同一个意图信息对应一个模板,具体地,根据预设关键词模板对应的预设优先级策略对相同意图信息对应的多个匹配的预设关键词模板进行筛选,将筛选后的预设关键词模板对应的意图信息以及筛选后的预设关键词模板对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图的多个匹配的预设关键词模板,采用优先级策略从相同意图信息对应的多个预设关键词模板选择一个预设关键词模板,从而消除歧义,能够为待识别语料选择更加匹配的预设关键词模板。
可选地,对步骤103e中的根据预设优先级策略对相同意图信息对应的多个匹配的预设关键词模板进行筛选进行了进一步细化,具体包括以下步骤:
步骤103e1,若多个匹配的预设关键词模板均不包含通配符,则基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设关键词模板进行筛选。
本实施例中,采用预设关键词模板对应的第一优先级策略,以确定多个匹配的预设关键词模板中是否包含通配符,若多个匹配的预设关键词模板不包含通配符,采用预设关键词模板对应的第二优先级策略进行筛选,具体地,基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设关键词模板进行筛选,以确定筛选后的预设关键词模板。
步骤103e2,若多个匹配的预设关键词模板中至少一个预设关键词模板不包含通配符,则将不包含通配符的匹配的预设关键词模板确定为筛选后的预设关键词模板。
本实施例中,若多个匹配的预设关键词模板中至少一个预设关键词模板不包含通配符,说明至少有一个匹配的预设关键词模板不包含了星号(*)或问号(?),该匹配的预设关键词模板相对于包含通配符的匹配的预设关键词模板来说不属于较为模糊的匹配,所以将不包含通配符的匹配的预设关键词模板确定为筛选后的预设关键词模板。
本实施例中,通过优先级策略能够为待识别语料选择更为匹配的预设关键词模板,从而得到较为准确的意图。
可选地,对步骤103e1进行了进一步细化,具体包括以下步骤:
步骤103e11,比较相同意图信息且不包含通配符的多个匹配的预设关键词模板对应的槽位信息数量。
本实施例中,采用预设关键词模板对应的第二优先级策略,比较相同意图信息且不包含通配符的说个匹配的预设关键词模板对应的槽位信息数量,如果某模板槽位信息数量越多,说明该模板匹配精度越高。
步骤103e11,若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设关键词模板确定为筛选后的预设关键词模板。
本实施例中,若相同意图信息且不包含通配符的多个匹配的预设关键词模板对应的槽位信息数量不一致,为了获取更真实的意图,以及得到较为匹配的模板,将槽位信息数量较多的匹配的预设关键词模板确定为筛选后的预设关键词模板。
本实施例中,采用优先级策略层层筛选,确保筛选后的预设关键词模板是与待识别语料最为匹配的模板,从而使得到的意图信息与槽位信息也是最匹配,能够得到最真实的意图。
实施例十
在本发明实施例一提供的语料识别方法的基础上,对步骤103进行了进一步细化,具体包括以下步骤:
步骤A103a,确定匹配的预先配置的模板是否为预设拼音模板且预设拼音模板是否为多个。
本实施例中,若匹配的预先配置的模板为预设拼音模板,则确定预设拼音模板是否为多个预设拼音模板,根据模板数量确定是否对预设拼音模板进行筛选。
步骤A103b,若匹配的预先配置的模板为预设拼音模板且预设拼音模板为一个,则将匹配的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若匹配的预先配置的模板为预设拼音模板且预设拼音模板数量为一个,说明不需要对预设拼音模板进行筛选,直接将匹配的预设拼音模板对应的意图信息及匹配的预设拼音模板对应的槽位信息确定为语料识别结果。
步骤A103c,若匹配的预先配置的模板为预设拼音模板且预设拼音模板为多个,则确定多个匹配的预设拼音模板对应的意图信息中是否存在相同意图信息。
本实施例中,若匹配的预先配置的模板为预设拼音模板且预设拼音模板为多个,说明可能需要对多个预设拼音模板进行筛选,进一步根据意图信息确定是否需要对多个预设拼音模板进行筛选,具体地,获取多个预设拼音模板对应的多个意图信息,确定多个匹配的预设拼音模板对应的多个意图信息中是否存在相同意图信息。
步骤A103d,若不存在相同意图信息,则将多个匹配的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若不存在相同意图信息,不需要对预设拼音模板进行筛选,进一步将多个匹配的预设拼音模板对应的意图信息以及多个匹配的预设拼音模板对应的槽位信息确定为语料识别结果。
步骤A103e,若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设拼音模板进行筛选,将筛选后的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图信息,需要对预设拼音模板进行筛选,以进行消歧处理,最终使得同一个意图信息对应一个模板,具体地,根据预设拼音模板对应的预设优先级策略对相同意图信息对应的多个匹配的预设拼音模板进行筛选,将筛选后的预设拼音模板对应的意图信息以及筛选后的预设拼音模板对应的槽位信息确定为语料识别结果。
本实施例中,若存在相同意图的多个匹配的预设拼音模板,采用优先级策略从相同意图信息对应的多个预设拼音模板选择一个预设拼音模板,从而消除歧义,能够为待识别语料选择更加匹配的预设拼音模板。
可选地,对步骤A103e中的根据预设优先级策略对相同意图信息对应的多个匹配的预设拼音模板进行筛选进行了进一步细化,具体包括以下步骤:
步骤A103e1,若多个匹配的预设拼音模板均不包含通配符,则基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设拼音模板进行筛选。
本实施例中,采用预设拼音模板对应的第一优先级策略,以确定多个匹配的预设拼音模板中是否包含通配符,若多个匹配的预设拼音模板不包含通配符,采用预设拼音模板对应的第二优先级策略进行筛选,具体地,基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设拼音模板进行筛选,以确定筛选后的预设拼音模板。
步骤A103e2,若多个匹配的预设拼音模板中至少一个预设拼音模板不包含通配符,则将不包含通配符的匹配的预设拼音模板确定为筛选后的预设拼音模板。
本实施例中,若多个匹配的预设拼音模板中至少一个预设拼音模板不包含通配符,说明至少有一个匹配的预设拼音模板不包含了星号(*)或问号(?),该匹配的预设拼音模板相对于包含通配符的匹配的预设拼音模板来说不属于较为模糊的匹配,所以将不包含通配符的匹配的预设拼音模板确定为筛选后的预设拼音模板。
本实施例中,通过优先级策略能够为待识别语料选择更为匹配的预设拼音模板,从而得到较为准确的意图。
可选地,对步骤A103e1进行了进一步细化,具体包括以下步骤:
步骤A103e11,比较相同意图信息且不包含通配符的多个匹配的预设拼音模板对应的槽位信息数量。
本实施例中,采用预设拼音模板对应的第二优先级策略,比较相同意图信息且不包含通配符的说个匹配的预设拼音模板对应的槽位信息数量,如果某模板槽位信息数量越多,说明该模板匹配精度越高。
步骤A103e11,若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设拼音模板确定为筛选后的预设拼音模板。
本实施例中,若相同意图信息且不包含通配符的多个匹配的预设拼音模板对应的槽位信息数量不一致,为了获取更真实的意图,以及得到较为匹配的模板,将槽位信息数量较多的匹配的预设拼音模板确定为筛选后的预设拼音模板。
本实施例中,采用优先级策略层层筛选,确保筛选后的预设拼音模板是与待识别语料最为匹配的模板,从而使得到的意图信息与槽位信息也是最匹配,能够得到最真实的意图。
实施例十一
图5是本发明实施例十一提供的语料识别方法的流程示意图,如图5所示,在本发明实施例一提供的语料识别方法的基础上,步骤101之前,还包括以下步骤:
步骤101a,接收用户终端发送的识别类型。
本实施例中,可根据实际情况选择模板,接收用户终端发送的识别类型,其中,识别类型包括识别关键词、识别拼音、识别关键词和拼音。
步骤101b,根据用户终端发送的识别类型确定预先配置的模板。
本实施例中,根据用户终端发送的识别类型确定预先配置的模板,其中,预先配置的模板包括预先关键词模板、预设拼音模板及预设联合模板。对待识别语料进行分词,获取对应的词语,将词语与预设关键词模板中的关键词进行匹配,确定与词语匹配的关键词对应的预设关键词模板。或者,对待识别语料进行拼音识别,获取对应的拼音,将对应的拼音与预设拼音模板中的拼音进行匹配,确定与待识别的拼音匹配的预设拼音模板。或者,对待识别进行分词及拼音识别,获取对应的词语及对应的拼音,将对应的词语与预设联合模板中设置有松弛度的预设关键词模板进行匹配,并与关键词关联的预设拼音模板进行匹配,确定与待识别的语料匹配的预设联合模板。
本实施例中,基于用户的选择,从预先配置的多种模板中确定所需模板,能够提供多种模板。
实施例十二
在本发明实施例十一提供的语料识别方法的基础上,对步骤101b进行了进一步细化,具体包括以下步骤:
步骤101b1,若识别类型为识别关键词,则将预设关键词模板确定为预先配置的模板。
本实施例中,识别类型包括识别关键词、识别拼音及识别关键词及拼音,若识别类型为识别关键词,将预设关键词模板确定为预先配置的模板,对待识别语料的词语进行识别,以确定与待识别语料匹配的预先配置的模板。
步骤101b2,若识别类型为识别拼音,则将预设拼音模板确定为预先配置的模板。
本实施例中,若识别类型为识别拼音,将预设拼音模板确定为预先配置的模板,对待识别语料的拼音进行识别,以确定与待识别语料匹配的预先配置的模板。
步骤101b3,若识别类型为识别关键词和拼音,则将预设联合模板确定为预先配置的模板。
本实施例中,若识别类型为识别关键词和拼音,将预设联合模板确定为预先配置的模板,其中,预设联合模板包括设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板,对待识别语料的词语及拼音进行识别,以确定与待识别语料匹配的预先配置的模板。预先配置多种模板,能够提供多种匹配方式,为待识别语料找到匹配的模板。
图6是本发明一实施例提语料识别装置的结构示意图,如图6所示,本实施例提供的语料识别装置200包括获取单元201,确定单元202。
其中,获取单元201,用于获取待识别语料。确定单元202,用于确定待识别语料与预先配置的模板是否匹配,预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板。获取单元201,还用于若待识别语料与预先配置的模板匹配,则获取匹配的预先配置的模板对应的意图信息及匹配的预先配置的模板对应的槽位信息。确定单元202,还用于根据匹配的预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果。
可选地,确定单元,还用于将待识别语料与全部预设关键词模板进行匹配;若任意预设关键词模板中的关键词与待识别语料中的词语匹配,则确定待识别语料与预先配置的模板匹配;若全部预设关键词模板中的关键词与待识别语料中的词语均不匹配,则确定待识别语料与预先配置的模板不匹配。
可选地,确定单元,还用于将待识别语料与全部预设拼音模板进行匹配;若任意预设拼音模板中的拼音与待识别语料中的拼音匹配,则确定待识别语料与预先配置的模板匹配;若全部预设拼音模板中的拼音与待识别语料中的拼音均不匹配,则确定待识别语料与预先配置的模板不匹配。
可选地,确定单元,还用于将待识别语料与全部设置有松弛度的预设关键词模板进行匹配;若设置有松弛度的预设关键词模板中的关键词与待识别语料中的词语匹配,则确定匹配的关键词关联的预设拼音模板中的拼音是否与待识别语料中的拼音匹配;若是,则确定待识别语料与预先配置的模板匹配;若否,则确定待识别语料与预先配置的模板不匹配。
可选地,确定单元,还用于确定匹配的预先配置的模板是否为预设联合模板且预设联合模板是否为多个;若匹配的预先配置的模板为预设联合模板且预设联合模板为一个,则将匹配的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果;若匹配的预先配置的模板为预设联合模板且预设联合模板为多个,则确定多个匹配的预设联合模板对应的意图信息中是否存在相同意图信息;若不存在相同意图信息,则将多个匹配的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果;若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设联合模板进行筛选,将筛选后的预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果。
可选地,确定单元,还用于比较多个匹配的预设联合模板对应的松弛字数数量;若多个匹配的预设联合模板对应的松弛字数数量不一致,则将松弛字数数量最少的匹配的预设联合模板确定为筛选后的预设联合模板;若多个匹配的预设联合模板对应的松弛字数数量一致,则基于通配符对相同意图信息且松弛字数数量一致的多个匹配的预设联合模板进行筛选,以确定筛选后的预设联合模板。
可选地,确定单元,还用于若多个匹配的预设联合模板均不包含通配符,则基于槽位信息数量对相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板进行筛选;若任意匹配的预设联合模板包含通配符,则将不包含通配符的匹配的预设联合模板确定为筛选后的预设联合模板。
可选地,确定单元,还用于比较相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的预设联合模板对应的槽位信息数量;若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设联合模板确定为筛选后的预设联合模板。
可选地,确定单元,还用于确定匹配的预先配置的模板是否为预设关键词模板且预设关键词模板是否为多个;若匹配的预先配置的模板为预设关键词模板且预设关键词模板为一个,则将匹配的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果;若匹配的预先配置的模板为预设关键词模板且预设关键词模板为多个,则确定多个匹配的预设关键词模板对应的意图信息中是否存在相同意图信息;若不存在相同意图信息,则将多个匹配的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果;若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设关键词模板进行筛选,将筛选后的预设关键词模板对应的意图信息及对应的槽位信息确定为语料识别结果。
可选地,确定单元,还用于若多个匹配的预设关键词模板均不包含通配符,则基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设关键词模板进行筛选;若多个匹配的预设关键词模板中至少一个预设关键词模板不包含通配符,则将不包含通配符的匹配的预设关键词模板确定为筛选后的预设关键词模板。
可选地,确定单元,还用于比较相同意图信息且不包含通配符的多个匹配的预设关键词模板对应的槽位信息数量;若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设关键词模板确定为筛选后的预设关键词模板。
可选地,确定单元,还用于确定匹配的预先配置的模板是否为预设拼音模板且预设拼音模板是否为多个;若匹配的预先配置的模板为预设拼音模板且预设拼音模板为一个,则将匹配的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果;若匹配的预先配置的模板为预设拼音模板且预设拼音模板为多个,则确定多个匹配的预设拼音模板对应的意图信息中是否存在相同意图信息;若不存在相同意图信息,则将多个匹配的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果;若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的预设拼音模板进行筛选,将筛选后的预设拼音模板对应的意图信息及对应的槽位信息确定为语料识别结果。
可选地,确定单元,还用于若多个匹配的预设拼音模板均不包含通配符,则基于槽位信息数量对相同意图信息且不包含通配符的多个匹配的预设拼音模板进行筛选;若多个匹配的预设拼音模板中至少一个预设拼音模板不包含通配符,则将不包含通配符的匹配的预设拼音模板确定为筛选后的预设拼音模板。
可选地,确定单元,还用于比较相同意图信息且不包含通配符的多个匹配的预设拼音模板对应的槽位信息数量;若槽位信息数量不一致,则将槽位信息数量最多的匹配的预设拼音模板确定为筛选后的预设拼音模板。
可选地,语料识别装置还包括:接收单元。
接收单元,用于接收用户终端发送的识别类型。确定单元,还用于根据用户终端发送的识别类型确定预先配置的模板。
可选地,确定单元,还用于若识别类型为识别关键词,则将预设关键词模板确定为预先配置的模板;若识别类型为识别拼音,则将预设拼音模板确定为预先配置的模板;若识别类型为识别关键词和拼音,则将预设联合模板确定为预先配置的模板。
图7是用来实现本发明实施例的语料识别方法的电子设备的框图,如图7所示,该电子设备300包括:存储器301,处理器302。
存储器301存储计算机执行指令;
处理器执行302存储器存储的计算机执行指令,使得处理器执行上述任意一个实施例提供的方法。
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行上述任意一个实施例中的方法。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述任意一个实施例中的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种语料识别方法,其特征在于,所述方法包括:
获取待识别语料,并确定所述待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;
若所述待识别语料与所述预先配置的模板匹配,则获取匹配的所述预先配置的模板对应的意图信息及匹配的所述预先配置的模板对应的槽位信息;
根据匹配的所述预先配置的模板对应的意图信息及所述对应的槽位信息确定语料识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待识别语料与预先配置的模板是否匹配,包括:
将所述待识别语料与全部预设关键词模板进行匹配;
若任意预设关键词模板中的关键词与所述待识别语料中的词语匹配,则确定所述待识别语料与所述预先配置的模板匹配;
若全部预设关键词模板中的关键词与所述待识别语料中的词语均不匹配,则确定所述待识别语料与所述预先配置的模板不匹配。
3.根据权利要求1所述的方法,其特征在于,所述确定所述待识别语料与预先配置的模板是否匹配,包括:
将所述待识别语料与全部预设拼音模板进行匹配;
若任意预设拼音模板中的拼音与所述待识别语料中的拼音匹配,则确定所述待识别语料与所述预先配置的模板匹配;
若全部预设拼音模板中的拼音与待识别语料中的拼音均不匹配,则确定所述待识别语料与所述预先配置的模板不匹配。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别语料与预先配置的模板是否匹配,包括:
将所述待识别语料与全部设置有松弛度的预设关键词模板进行匹配;
若设置有松弛度的预设关键词模板中的关键词与所述待识别语料中的词语匹配,则确定匹配的关键词关联的预设拼音模板中的拼音是否与所述待识别语料中的拼音匹配;
若是,则确定所述待识别语料与所述预先配置的模板匹配;
若否,则确定所述待识别语料与所述预先配置的模板不匹配。
5.根据权利要求1所述的方法,其特征在于,所述根据匹配的所述预先配置的模板对应的意图信息及对应的槽位信息确定语料识别结果,包括:
确定匹配的所述预先配置的模板是否为所述预设联合模板且所述预设联合模板是否为多个;
若匹配的所述预先配置的模板为所述预设联合模板且所述预设联合模板为一个,则将匹配的所述预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果;
若匹配的所述预先配置的模板为所述预设联合模板且所述预设联合模板为多个,则确定多个匹配的所述预设联合模板对应的意图信息中是否存在相同意图信息;
若不存在相同意图信息,则将多个匹配的所述预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果;
若存在相同意图信息,则根据预设优先级策略对相同意图信息对应的多个匹配的所述预设联合模板进行筛选,将筛选后的所述预设联合模板对应的意图信息及对应的槽位信息确定为语料识别结果。
6.根据权利要求5所述的方法,其特征在于,所述根据预设优先级策略对相同意图信息对应的多个匹配的所述预设联合模板进行筛选,包括:
比较多个匹配的所述预设联合模板对应的松弛字数数量;
若多个匹配的所述预设联合模板对应的松弛字数数量不一致,则将松弛字数数量最少的匹配的所述预设联合模板确定为筛选后的预设联合模板;
若多个匹配的所述预设联合模板对应的松弛字数数量一致,则基于通配符对相同意图信息且松弛字数数量一致的多个匹配的所述预设联合模板进行筛选,以确定筛选后的预设联合模板。
7.根据权利要求6所述的方法,其特征在于,所述基于通配符对相同意图信息且松弛字数数量一致的多个匹配的所述预设联合模板进行筛选,包括:
若多个匹配的所述预设联合模板均不包含通配符,则基于槽位信息数量对相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的所述预设联合模板进行筛选;
若多个匹配的所述预设联合模板中至少一个所述预设联合模板不包含通配符,则将不包含通配符的匹配的所述预设联合模板确定为筛选后的预设联合模板。
8.根据权利要求7所述的方法,其特征在于,所述基于槽位信息数量对相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的所述预设联合模板进行筛选,包括:
比较相同意图信息、松弛字数数量一致且不包含通配符的多个匹配的所述预设联合模板对应的槽位信息数量;
若所述槽位信息数量不一致,则将所述槽位信息数量最多的匹配的所述预设联合模板确定为筛选后的预设联合模板。
9.根据权利要求1所述的方法,其特征在于,所述确定所述待识别语料与预先配置的模板是否匹配之前,还包括:
接收用户终端发送的识别类型;
根据用户终端发送的识别类型确定所述预先配置的模板。
10.根据权利要求9所述的方法,其特征在于,所述根据用户终端发送的识别类型确定所述预先配置的模板,包括:
若识别类型为识别关键词,则将所述预设关键词模板确定为所述预先配置的模板;
若识别类型为识别拼音,则将所述预设拼音模板确定为所述预先配置的模板;
若识别类型为识别关键词和拼音,则将所述预设联合模板确定为所述预先配置的模板。
11.一种语料识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别语料;
确定单元,用于确定所述待识别语料与预先配置的模板是否匹配,所述预先配置的模板为预设关键词模板、预设拼音模板及预设联合模板中的任意一种,所述预设联合模板包括:设置有松弛度的预设关键词模板、与关键词关联的预设拼音模板;
获取单元,还用于若所述待识别语料与所述预先配置的模板匹配,则获取匹配的所述预先配置的模板对应的意图信息及匹配的所述预先配置的模板对应的槽位信息;
确定单元,还用于根据匹配的所述预先配置的模板对应的意图信息及所述对应的槽位信息确定语料识别结果。
12.一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的方法。
CN202210602805.8A 2022-05-30 2022-05-30 语料识别方法、装置、设备及存储介质 Pending CN117217212A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210602805.8A CN117217212A (zh) 2022-05-30 2022-05-30 语料识别方法、装置、设备及存储介质
PCT/CN2022/128050 WO2023231285A1 (zh) 2022-05-30 2022-10-27 语料识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210602805.8A CN117217212A (zh) 2022-05-30 2022-05-30 语料识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117217212A true CN117217212A (zh) 2023-12-12

Family

ID=89026848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210602805.8A Pending CN117217212A (zh) 2022-05-30 2022-05-30 语料识别方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN117217212A (zh)
WO (1) WO2023231285A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100489854C (zh) * 2006-08-01 2009-05-20 华为技术有限公司 一种自然语言的搜索方法及系统
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN106294582B (zh) * 2016-07-28 2019-10-29 上海未来伙伴机器人有限公司 基于自然语言的人机交互方法及系统
CN111274797A (zh) * 2020-01-13 2020-06-12 平安国际智慧城市科技股份有限公司 用于终端的意图识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2023231285A1 (zh) 2023-12-07

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN108536654B (zh) 识别文本展示方法及装置
EP1800294B1 (en) System and methods for improving accuracy of speech recognition
CN106776564B (zh) 一种基于知识图谱的语义识别方法及系统
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN109800414A (zh) 语病修正推荐方法及系统
CN111310440B (zh) 文本的纠错方法、装置和系统
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN109949799B (zh) 一种语义解析方法及系统
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
CN117828057A (zh) 知识问答方法、装置、设备和存储介质
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN117292688A (zh) 一种基于智能语音鼠标的控制方法及智能语音鼠标
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN111126201A (zh) 剧本中人物识别方法及装置
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN117217212A (zh) 语料识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination