CN112632987A

CN112632987A - 词槽的识别方法、装置及电子设备

Info

Publication number: CN112632987A
Application number: CN202011563106.4A
Authority: CN
Inventors: 陈雷; 孙辉丰; 孙叔琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-09
Anticipated expiration: 2040-12-25
Also published as: US20220005461A1; CN112632987B; JP7308910B2; JP2022031863A

Abstract

本申请公开了一种词槽的识别方法、装置及电子设备，涉及自然语言处理、深度学习等人工智能技术领域。实现方案为：确定输入语句中包含的各个第一分词及每个第一分词对应的词性；根据每个第一分词对应的词性，将输入语句中各个第一分词进行合并，以获取输入语句中包含的候选词槽片段；确定候选词槽片段中的第一分词与词槽库的每个参考词槽中的第二分词间的匹配度；根据匹配度，确定候选词槽片段中包含的目标词槽及目标词槽的词槽名。由此，根据输入语句中候选词槽片段的分词，与词槽库中的分词之间的匹配度，进行候选词槽片段中的词槽的识别，不仅保证了词槽识别的准确度，而且无需配置大量的词槽，能够效降低配置词槽的成本，降低开发者工作量。

Description

词槽的识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，具体涉及自然语言处理、深度学习等人工智能技术领域，尤其涉及一种词槽的识别方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术和理念的兴起，很多产品都希望采用对话式的人机交互方式，来提升产品体验。配置一个人机对话系统，首先需要定义对话意图和词槽。对话意图是对话系统要理解的用户需求，词槽是满足用户对话意图时的关键信息或限定条件，可以理解为需要为用户提供的筛选条件。其中，对于各种词槽的泛化识别技术，是当前研究的关键。

发明内容

本申请提供一种用于词槽的识别方法、装置及电子设备。

根据本申请的第一方面，提供了一种词槽的识别方法，包括：

响应于获取到的输入语句，确定所述输入语句中包含的各个第一分词及每个第一分词对应的词性；

根据所述每个第一分词对应的词性，将所述输入语句中各个第一分词进行合并，以获取所述输入语句中包含的候选词槽片段；

查询预设的词槽库，以确定所述候选词槽片段中的第一分词与所述词槽库的每个参考词槽中的第二分词间的匹配度；

根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

根据本申请的第二方面，提供了一种词槽的识别装置，包括：

第一确定模块，用于响应于获取到的输入语句，确定所述输入语句中包含的各个第一分词及每个第一分词对应的词性；

第一获取模块，用于根据所述每个第一分词对应的词性，将所述输入语句中各个第一分词进行合并，以获取所述输入语句中包含的候选词槽片段；

第二确定模块，查询预设的词槽库，以确定所述候选词槽片段中的第一分词与所述词槽库的每个参考词槽中的第二分词间的匹配度；

第三确定模块，根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

根据本申请的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的词槽的识别方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的词槽的识别方法。

根据本申请的第五方面，提供了一种计算机程序产品，所述计算机程序被处理器执行时，实现上述一方面实施例所述的词槽的识别方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种词槽的识别方法的流程示意图；

图2为本申请实施例提供的一种构建预设的词槽库的流程示意图；

图3为本申请实施例提供的一种确定目标词槽及目标词槽的词槽名的流程示意图；

图4为本申请实施例提供的一种富集预设的词槽库的流程示意图；

图5为本申请实施例提供的一种训练同义词模型的流程示意图；

图6为本申请实施例提供的一种词槽的识别装置的结构示意图；

图7为用来实现本申请实施例的词槽的识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

AI(Artificial Intelligence，人工智能)人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能，随着人工智能技术的发展，利用NLP(Natural LanguageProcessing，自然语言处理)技术、深度学习技术进行文本纠错的方式越来越广泛，NLP是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助，它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

随着AI技术和理念的兴起，很多产品都希望采用对话式的人机交互方式，来提升产品体验。配置一个人机对话系统，首先需要定义对话意图和词槽。对话意图是对话系统要理解的用户需求，词槽是满足用户对话意图时的关键信息或限定条件，可以理解为需要为用户提供的筛选条件。以查天气为例，用户问“北京天气”，那么对话意图是“查天气”，对话词槽是“北京”，需要给用户提供“北京”的天气；用户问“明天气温”，那么意图是“查温度”，对话词槽是“明天”，需要提供“明天”的气温。其中，对于各种词槽的泛化识别是当前研究的关键。

相关技术中，开发者在定义好词槽后，需要配置大量词槽名。对话词槽的识别，依赖于开发者配置的词槽名，配置词槽名的主要方法是通过人工富集，不断更词槽库。以查天气为例，开发者需要收集所有的地名和时间以及它们的各类说法或者表达。如想将“北京市海淀区”及其同义说法识别为同一个地名，开发者需要枚举“北京市海淀”、“北京海淀区”、“北京海淀”等同义词，才能准确识别。这一步骤对开发者来说工作量很大，且容易遗漏某些说法或者表达，导致对话能力降低。

为此，本申请实施例提出了一种词槽的识别方法、装置及电子设备。本申请实施例，根据输入语句中的每个分词对应的词性，将输入语句中的各个分词进行合并，从而得到输入语句中包含的候选词槽片段，进而确定候选词槽片段中的第一分词与词槽库的每个参考词槽中的第二分词间的匹配度，根据该匹配度确定候选词槽片段中包含的目标词槽及目标词槽的词槽名，不仅保证了词槽识别的准确度，而且无需配置大量的词槽，能够效降低配置词槽的成本，降低开发者工作量。

下面参考附图描述本申请实施例的词槽的识别方法、装置及电子设备。

图1为本申请实施例提供的一种词槽的识别方法的流程示意图。

需要说明的是，本申请实施例的词槽的识别方法执行主体可以为电子设备，具体的，电子设备可以是但不限于服务器、终端，终端可以是但不限于个人电脑、智能手机、IPAD等。

如图1所示，该词槽的识别方法包括以下步骤：

S101，响应于获取到的输入语句，确定输入语句中包含的各个第一分词及每个第一分词对应的词性。

本申请实施例中，输入语句可以是用户输入的文本信息，也可以是将用户输入的语音信息进行转换得到的文本信息，该输入语句可以是一段话，对于输入语句的长短、类型不做限定。其中，将输入语句中的每个分词定义为第一分词。

具体地，在获取到用户的输入语句后，可通过分词、词性标注等预处理，确定其中的每个第一分词及每个分词对应的词性。可以理解，词性包括实词(例如名词、动词、形容词、数量词、代词)和虚词(例如介词、连词、助词、叹词、拟声词)。

例如，输入语句“请查询北京海淀的气温”中，第一分词包括“查询”、“北京”、“海淀”及“气温”，“查询”的词性为动词、“北京”、“海淀”的词性为名词、“气温”的词性也为名词。

S102，根据每个第一分词对应的词性，将输入语句中各个第一分词进行合并，以获取输入语句中包含的候选词槽片段。

具体地，在确定出输入语句中包含的各个第一分词及每个第一分词对应的词性之后，为了便于对输入语句中的词槽进行识别，根据每个第一分词对应的词性，将输入语句中的各个第一分词进行合并，以得到候选词槽片段。

例如，根据名词词性将第一分词“北京”及“海淀”，进行合并得到的候选词槽片段为“北京海淀”。需要说明的是，之所以将名词“气温”不进行合并是由于“气温”表示用户的意图，而且对话词槽。

本申请实施例中，候选词槽片段的确定方式有多种，不同的确定方式可能对应不同的候选词槽片段，也即候选词槽片段可能是一个，也可能是多个。

在候选词槽片段为一个时，该候选词槽片段即为目标词槽，该候选词槽片段的词槽名即为词槽名；在在候选词槽片段为多个时，需要根据以下步骤S103及S104从多个候选词槽片段中确定出一个目标词槽及其对应的词槽名。

S103，查询预设的词槽库，以确定候选词槽片段中的第一分词与词槽库的每个参考词槽中的第二分词间的匹配度。

本申请实施例中，如图2所示，开发者事先配置少量词槽，在服务器获取到开发者配置的词槽后，将每个词槽经过分词、词性标注等预处理之后，导入词槽库中，从而实现词槽库的构建，作为后续词槽识别的基础。

其中，参考词槽是指预设的词槽库中的词槽，第二分词是指该词槽中包含的分词。预设的词槽库中包括多个参考词槽、每个参考词槽中包含至少一个第二分词及每个第二分词的词性。

具体地，在确定出以第一分词构成的候选词槽片段之后，根据对候选词槽片段的词义理解，查询预设的词槽库，以利用启发是规则，确定候选词槽片段中的第一分词与词槽库的每个参考词槽中的第二分词间的匹配度。也就是说，假设词槽库中有n个参考词槽，那么确定每个第一分词与第一个参考词槽中的每个第二分词间的匹配度、确定每个第一分词与第二个参考词槽中的每个第二分词间的匹配度、……、以及确定每个第一分词与第n个参考词槽中的每个第二分词间的匹配度。

可以理解，匹配度越高，表示第一分词与第二分词之间的相似度越高。匹配度为0，表示第一分词与第二分词之间完全不相似，两者不匹配；匹配度为1，表示第一分词与第二分词之间匹配。

例如，第一分词“北京”与第二分词“北京市”之间的相似度较高，进而两者匹配；第一分词“北京”与第二分词“上海”之间不匹配。

S104，根据每个候选词槽片段中的第一分词与每个参考词槽中的第二分词间的匹配度，确定候选词槽片段中包含的目标词槽及目标词槽的词槽名。

其中，目标词槽是指需要识别的输入语句中的词槽，词槽名可以表征指词槽所在的领域、词槽的目的地或者词槽的类型等的名称。例如，当目标词槽是“北京海淀”时，目标词槽的词槽名是地点；当目标词槽是“明天”时，目标词槽的词槽名是时间；当目标词槽是“张三”时，目标词槽的词槽名是人名。

具体地，在确定出每个候选词槽片段中的第一分词与每个参考词槽中的第二分词间的匹配度之后，可根据该匹配度，获取与第一分词匹配的第二分词及第二分词所在的参考词槽，该候选词槽片段即为目标词槽。

本申请实施例中，预设的词槽库中可能包含每个参考词槽的词槽名，此种情况下，可根据参考词槽的词槽名确定目标词槽的词槽名；预设的词槽库中也可能不包含每个参考词槽的词槽名，此时，可通过对确定出的目标词槽进行分析确定目标词槽的词槽名。

举例而言，当用户输入“查询北京海淀天气”这一语句时，根据“北京”、“海淀”的名词词性，将其组合在一起作为候选词槽片段“北京海淀”，然后根据候选词槽片段在预设的词槽库中查询，得到与“北京海淀”匹配度最高的“北京市海淀区”这个参考词槽，进而确定出目标词槽为“北京海淀”，该目标词槽的词槽名为地名。

通过执行上述步骤，可以在开发者仅配置词槽“北京市海淀区”的情况下，识别出“北京海淀”、“海淀”等“海淀区”的各种词槽说法，避免某些词槽被遗漏，从而提高了识别能力。

本申请实施例的词槽的识别方法，根据输入语句中候选词槽片段的分词，与词槽库中的分词之间的匹配度，进行候选词槽片段中的词槽的识别，不仅保证了词槽识别的准确度，而且无需配置大量的词槽，能够效降低配置词槽的成本，降低开发者工作量，帮助开发者提升词槽的识别能力，进而提升对话系统的体验。

上述步骤S102中根据每个第一分词对应的词性确定候选词槽片段时，可将词性为名词的第一分词进行合并，也可根据词性为名词的各个分词的重要性进行合并，即将重要性较高、且词性为名词的第一分词进行合并，或者，还可将通过连词连接的两个第一分词进行合并，从而得到合并后的候选词槽片段。

即在本申请的一个实施例中，上述步骤S102，可包括：将输入语句中词性为名词、且相邻的至少两个第一分词进行合并，以生成输入语句中的一个候选词槽片段；或者，将输入语句中与词性为连词的第一分词相邻的两个第一分词进行合并，以生成输入语句中的一个候选词槽片段。

具体地，在确定出输入语句中包含的各个第一分词及每个第一分词对应的词性之后，可获取词性为名词的所有第一分词，并获取其中相邻的至少两个第一分词，将该相邻的至少两个第一分词进行合并，以生成一个候选词槽片段。

例如，当用户输入“查询北京市海淀区的天气”这一语句时，获取其中的名词“北京”、“海淀”、且该两个名词相邻，于是将其合并在一起作为一个候选词槽片段“北京海淀”。

或者，在确定出输入语句中包含的各个第一分词及每个第一分词对应的词性之后，可获取词性为名词的第一分词B，并获取与连词B相邻的两个第一分词A、C，将两个第一分词A、C进行合并，以生成一个候选词槽片段。

例如，当用户输入“查询北京市和上海市的天气”这一语句时，获取其中的连词“和”，并获取与该连词相邻的两个第一分词“北京”、“上海”，将其合并在一起作为一个候选词槽片段“北京上海”。

需要说明的是，本申请实施例在确定候选词槽片段时，可通过任何方式确定，只要能确定出可靠的候选词槽即可，可以但不限于本申请实施例的上述确定方式。

由此，根据每个第一分词对应的词性确定候选词槽片段，能够保证获取候选词槽片段的可靠性，提高词槽的识别效率。

在确定出候选词槽片段之后，确定每个候选词槽片段中的第一分词与词槽库的每个参考词槽中的第二分词间的匹配度，以根据该匹配度确定候选词槽片段中包含的目标词槽及目标词槽的词槽名。

下面通过三个实施例描述如何根据匹配度确定目标词槽及目标词槽的词槽名：

在本申请的一个实施例中，上述步骤S104，可包括：在任一候选词槽片段中的每个第一分词，分别与任一参考词槽中的第二分词匹配的情况下，确定任一候选词槽片段为目标词槽、且对应的词槽名为任一参考词槽的词槽名。

本申请实施例中，“任一”表示“其中一个”的意思，而不是“每个”的意思。

具体而言，在确定出每个候选词槽片段中的每个第一分词分别与每个参考词槽中的第二分词间的匹配度之后，如果判断出其中一个候选词槽片段中的每个第一分词，分别与词槽库中的其中一个参考词槽中的第二分词匹配，那么确定该候选词槽片段为目标词槽、且对应的词槽名为该参考词槽的词槽名。

例如，如果判断出候选词槽片段M“北京海淀”中的每个第一分词，分别与词槽库中的参考词槽N“北京市海淀区”中的第二分词匹配(北京与北京市匹配，海淀与海淀区匹配)，那么确定候选词槽片段M为目标词槽、且对应的词槽名为地名。

由此，根据匹配度确定候选词槽片段中包含的目标词槽及目标词槽的词槽名，使开发者仅需配置少量词槽，即可识别用户的各类口语化说法，提升对话系统的体验。

在本申请的另一个实施例中，上述步骤S104，可包括：获取每个第二分词在对应的参考词槽中的权重值；在任一参考词槽中包含任一候选词槽片段中的每个第一分词、且在任一参考词槽中而未在任一候选词槽的第二分词的权重值小于第一阈值的情况下，确定任一候选词槽片段为目标词槽、且对应的词槽名为任一参考词槽的词槽名。

其中，第二分词在对应的参考词槽中的权重值表征该第二分词在对应的参考词槽中的重要程度(也即所起的作用大小)，可以是开发者根据实际情况设定的，也可以是执行主体将参考词槽中的所有分词进行分析处理后得出的。可以理解，参考词槽中的各个第二分词的权重值之间的和值为1。

需要说明的是，当权重值小于第一阈值时，表明该权重值对应的第二分词在参考词槽中的重要程度较低，可以忽略；当权重值大于或者等于第一阈值时，表明该权重值对应的第二分词在参考词槽中的重要程度较高，不予忽略。

具体而言，在确定出每个候选词槽片段中的每个第一分词与每个参考词槽中的第二分词间的匹配度之后，获取每个第二分词在对应的参考词槽中的权重值，以得到每个第二分词在对应的参考词槽中的重要程度，如果判断出其中一个参考词槽E中包含任一候选词槽片段F中的每个第一分词时，获取其中一参考词槽E中、且未在任一候选词槽片段F中的第二分词，如果该第二分词的权重值小于第一阈值，那么确定该候选词槽片段F为目标词槽、且对应的词槽名为该参考词槽E的词槽名。

例如，参考词槽E为“北京市海淀区中心路”，候选词槽片段F为“北京海淀”，即参考词槽E中包含候选词槽片段F中的每个第一分词“北京”及“海淀”，于是获取参考词槽E中的未在候选词槽片段F中的第二分词“中心路”，并获取该“中心路”在参考词槽E中的权重值，如果该权重值小于第一阈值(0.2)，那么确定候选词槽片段F为目标词槽、且对应的词槽名为地名。

由此，在进行目标词槽识别时，将参考词槽中的第二分词的权重值予以考虑，避免在参考词槽包括候选词槽中的所有分词的情况下，无法进行词槽的匹配，进而导致的无法准确识别词槽的现象，从而提高了词槽识别的准确率。

在本申请的又一个实施例中，如图3所示，上述步骤S104，可包括以下步骤：

S301，根据每个候选词槽片段中的第一分词与每个参考词槽中的第二分词间的匹配度，确定候选词槽片段对应的至少一个关联参考词槽。

具体而言，当任一个第一分词与任一个第二分词匹配时，确定任一个第二分词所在的参考词槽为候选词槽片段的一个关联参考词槽，该关联参考词槽与候选词槽片段的匹配度大于0、且小于或者等于1。可以理解，当匹配度等于1时，关联参考词槽与候选词槽片段匹配(其中的分词及其词性也匹配)。

需要说明的是，由于参考词槽有多个、每个参考词槽中包含多个第二分词，因此可确定出候选词槽片段的至少一个关联参考词槽。

S302，确定候选词槽片段与每个关联参考词槽间未匹配的第一分词或第二分词，分别在候选词槽片段及关联参考词槽中的权重值。

具体而言，确定候选词槽片段中的，与关联参考词槽中的第二分词未匹配的第一分词，并确定该第一分词在候选词槽片段中的权重值；或者，确定关联参考词槽中的，与候选词槽片段中的第一分词未匹配的第二分词，并确定该第二分词在关联参考词槽中的权重值。

S303，根据每个关联参考词槽对应的权重值，对候选词槽片段及关联参考词槽进行过滤，以确定候选词槽片段中包含的目标词槽及目标词槽的词槽名。

具体而言，可将权重值较低的关联参考词槽过滤掉，从而确定出候选词槽片段中包含的目标词槽及目标词槽的词槽名。

例如，候选词槽片段中的第一分词包括：“北京海淀”和“海淀”，根据“北京海淀”检索到的关联参考词槽有“北京市海淀区”和“北京市”，根据“海淀”，检索到的关联参考词槽是“北京市海淀区”，而“北京”一词的权重值又比较高，所以，候选词槽片段中的“海淀”就可以被过滤掉，“海淀”一词权重值也比较高，所以关联参考词槽中的“北京市”也就可以过滤掉了，从而得到候选词槽片段中包含的目标词槽为“北京市海淀区”。

由此，根据权重值对候选词槽片段及关联参考词槽进行过滤，得到目标词槽，进一步提高了词槽识别的准确性。

如上描述了在预设的词槽库的基础上如何对用户的输入语句中的词槽进行识别，该部分方法可由执行主体在线实现，而为了保证词槽库中的准确性，对于词槽库的富集与扩充，可以线下进行，所以可以人工参与，从而既节省了资源，又保证了准确性。下面描述如何进行词槽库的构建或者扩充：

如图4所示，在本申请的一个实施例中，词槽的识别方法，还包括以下步骤：

S401，获取预设的词槽库中的第一参考词槽、第一参考词槽中包含的各第三分词及每个第三分词的词性。

本申请实施例中，将预设的词槽库中的所有参考词槽定义为第一参考词槽，将第一词槽库中的素所有分词定义为第三分词。预设的词槽库中包含少量(至少一个)的第一参考词槽。

具体而言，在需要对词槽进行识别时，获取预设的词槽库中的第一参考词槽、第一参考词槽中包含的各第三分词及每个第三分词的词性，以供后续使用。

S402，将第一参考词槽输入同义词模型，以生成第二参考词槽及第二参考词槽中每个第四分词的词性。

本申请实施例中，同义词模型是开发者事先训练好的，如图5所示，其训练方式为：首先，将历史积累同义词数据进行清洗，过滤掉语料中的非中文语料，并对齐数据，保证同义词对中，输入的词长度大于等于预测的词长度。其次，将清洗的语料通过长短期记忆网络和注意力机制算法，进行训练。在模型收敛后，得到同义词模型。同义词模型以词槽为输入，以词槽的缩写同义词为输出。

具体而言，在获取到训练好同义词模型、且获取到词槽库中的第一参考词槽、第一参考词槽中包含的各第三分词及每个第三分词的词性之后，将所有第一参考词槽作为模型输入，输入到同义词模型中，进而同义词模型输出与第一参考词槽同义的第二参考词槽，获取第二参考词槽及第二参考词槽中每个第四分词的词性。

需要说明的是，由于第一参考词槽有至少一个，因此，与其同义的第二参考词槽也有至少一个。至少一个第二参考词槽即为第一参考词槽的同义词候选。

S403，根据每个第三分词与每个第四分词间的匹配度、每个第三分词的词性与对应的每个第四分词的词性间的匹配度，确定第二参考词槽的置信度。

具体而言，在获取到第一参考词槽中包含的各第三分词及每个第三分词的词性、及第二参考词槽中每个第四分词的词性之后，确定每个第三分词与每个第四分词间的匹配度，同时，确定每个第三分词的词性与对应的每个第四分词的词性间的匹配度。根据匹配度，确定第二参考词槽的置信度。

其中，置信度是指可靠程度，也可称为可信度。匹配度越高，置信度越高，当匹配度为1(即匹配)时，置信度为1。

S404，在第二参考词槽的置信度大于第二阈值的情况下，将第二参考词槽、第四分词及每个第四分词的词性加入预设的词槽库中。

具体而言，在获取到第二参考词槽的置信度之后，判断置信度的大小，如果置信度大于第二阈值，则说明模型输出的第二参考词槽可靠，于是将第二参考词槽、第四分词及每个分词的词性加入预设的词槽库中，实现词槽库的富集。

应当理解，如果第二参考词槽的置信度小于或者等于第二阈值，说明输入的第一参考词槽中的重要成分在输出结果中丢失，即第二参考词槽不可靠，于是将该第二参考词槽过滤掉。

也就是说，开发者配置少量词槽后，将这些词槽作为模型输入，输入到同义词模型中，获取模型输出，模型输出结果即为同义词候选，再将候选进行过滤，就可得到开发者配置的词槽的同义词，再将该同义词加入到预设的词槽库中，实现次槽库的富集。

例如，开发者配置了“北京市海淀区”，将其输入同义词模型，同义词模型就可能输出“北京海淀”、“北京海淀区”，也可能输出“北京中关村”，开发者可以按需选取需要的词槽加入到词槽库，减少富集的成本。

由此，通过模型推荐，可有效节省开发者富集参考词槽的成本，提高对话系统识别能力，且进一步提高模型的准确率，减少富集的成本。

本申请实施例还提出了一种词槽的识别装置，图6为本申请实施例提供的一种词槽的识别装置的结构示意图。

如图6所示，该词槽的识别装置600包括：第一确定模块610、第一获取模块620、第二确定模块630及第三确定模块640。

其中，第一确定模块610，用于响应于获取到的输入语句，确定所述输入语句中包含的各个第一分词及每个第一分词对应的词性；第一获取模块620，用于根据所述每个第一分词对应的词性，将所述输入语句中各个第一分词进行合并，以获取所述输入语句中包含的候选词槽片段；第二确定模块630，用于查询预设的词槽库，以确定所述候选词槽片段中的第一分词与所述词槽库的每个参考词槽中的第二分词间的匹配度；第三确定模块640，用于根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

在本申请的一个实施例中，所述第三确定模块640，可包括：第一确定单元，用于在任一候选词槽片段中的每个第一分词，分别与任一参考词槽中的第二分词匹配的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

在本申请的一个实施例中，所述第三确定模块640，可包括：第一获取单元，用于获取每个第二分词在对应的参考词槽中的权重值；第二确定单元，用于在任一参考词槽中包含任一候选词槽片段中的每个第一分词、且在所述任一参考词槽中而未在所述任一候选词槽片段的第二分词的权重值小于第一阈值的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

在本申请的一个实施例中，所述第三确定模块640，可包括：第三确定单元，根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段对应的至少一个关联参考词槽；第四确定单元，用于确定所述候选词槽片段与每个所述关联参考词槽间未匹配的第一分词或第二分词，分别在所述候选词槽片段及所述关联参考词槽中的权重值；第五确定单元，用于根据每个所述关联参考词槽对应的所述权重值，对所述候选词槽片段及所述关联参考词槽进行过滤，以确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

在本申请的一个实施例中，词槽的识别装置，还包括：第二获取模块，用于获取所述预设的词槽库中的第一参考词槽、所述第一参考词槽中包含的各第三分词及每个第三分词的词性；第一生成模块，用于将所述第一参考词槽输入同义词模型，以生成第二参考词槽及所述第二参考词槽中每个第四分词的词性；

第四确定模块，用于根据每个所述第三分词与每个所述第四分词间的匹配度、所述每个第三分词的词性与对应的所述每个第四分词的词性间的匹配度，确定所述第二参考词槽的置信度；第一加入模块，用于在所述第二参考词槽的置信度大于第二阈值的情况下，将所述第二参考词槽、所述第四分词及每个所述第四分词的词性加入所述预设的词槽库中。

需要说明的是，本申请实施例的词槽的识别装置的其他具体实施方式可参见前述词槽的识别方法的具体实施方式，为避免冗余，此处不再赘述。

本申请实施例的词槽的识别装置，根据输入语句中候选词槽片段的分词，与词槽库中的分词之间的匹配度，进行候选词槽片段中的词槽的识别，不仅保证了词槽识别的准确度，而且无需配置大量的词槽，能够效降低配置词槽的成本，降低开发者工作量。

根据本申请的实施例，本申请还提供了一种词槽的识别方法的电子设备、可读存储介质和计算机程序产品。下面结合图7进行说明。

如图7所示，是根据本申请实施例的词槽的识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如词槽的识别方法。例如，在一些实施例中，词槽的识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的词槽的识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行词槽的识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS(VirtualPrivate Server，虚拟专用服务器)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，根据输入语句中候选词槽片段的分词，与词槽库中的分词之间的匹配度，进行候选词槽片段中的词槽的识别，不仅保证了词槽识别的准确度，而且无需配置大量的词槽，能够效降低配置词槽的成本，降低开发者工作量。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种词槽的识别方法，包括：

2.如权利要求1所述的方法，其中，所述根据所述每个第一分词对应的词性，将所述输入语句中各个第一分词进行合并，以获取所述输入语句中包含的候选词槽片段，包括：

将所述输入语句中词性为名词、且相邻的至少两个第一分词进行合并，以生成所述输入语句中的一个候选词槽片段；

或者，

将所述输入语句中与词性为连词的第一分词相邻的两个第一分词进行合并，以生成所述输入语句中的一个候选词槽片段。

3.如权利要求1所述的方法，其中，所述根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名，包括：

在任一候选词槽片段中的每个第一分词，分别与任一参考词槽中的第二分词匹配的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

4.如权利要求1所述的方法，其中，所述根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名，包括：

获取每个第二分词在对应的参考词槽中的权重值；

在任一参考词槽中包含任一候选词槽片段中的每个第一分词、且在所述任一参考词槽中而未在所述任一候选词槽片段的第二分词的权重值小于第一阈值的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

5.如权利要求1所述的方法，其中，所述根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名，包括：

根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段对应的至少一个关联参考词槽；

确定所述候选词槽片段与每个所述关联参考词槽间未匹配的第一分词或第二分词，分别在所述候选词槽片段及所述关联参考词槽中的权重值；

根据每个所述关联参考词槽对应的所述权重值，对所述候选词槽片段及所述关联参考词槽进行过滤，以确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

6.根据权利要求1-5任一所述的方法，其中，还包括：

获取所述预设的词槽库中的第一参考词槽、所述第一参考词槽中包含的各第三分词及每个第三分词的词性；

将所述第一参考词槽输入同义词模型，以生成第二参考词槽及所述第二参考词槽中每个第四分词的词性；

根据每个所述第三分词与每个所述第四分词间的匹配度、所述每个第三分词的词性与对应的所述每个第四分词的词性间的匹配度，确定所述第二参考词槽的置信度；

在所述第二参考词槽的置信度大于第二阈值的情况下，将所述第二参考词槽、所述第四分词及每个所述第四分词的词性加入所述预设的词槽库中。

7.一种词槽的识别装置，包括：

第二确定模块，用于查询预设的词槽库，以确定所述候选词槽片段中的第一分词与所述词槽库的每个参考词槽中的第二分词间的匹配度；

第三确定模块，用于根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

8.如权利要求7所述的装置，所述第一获取模块，包括：

第一合并单元，用于将所述输入语句中词性为名词、且相邻的至少两个第一分词进行合并，以生成所述输入语句中的一个候选词槽片段；

或者，

第二合并单元，用于将所述输入语句中与词性为连词的第一分词相邻的两个第一分词进行合并，以生成所述输入语句中的一个候选词槽片段。

9.如权利要求7所述的装置，所述第三确定模块，包括：

第一确定单元，用于在任一候选词槽片段中的每个第一分词，分别与任一参考词槽中的第二分词匹配的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

10.如权利要求7所述的装置，所述第三确定模块，包括：

第一获取单元，用于获取每个第二分词在对应的参考词槽中的权重值；

第二确定单元，用于在任一参考词槽中包含任一候选词槽片段中的每个第一分词、且在所述任一参考词槽中而未在所述任一候选词槽片段的第二分词的权重值小于第一阈值的情况下，确定所述任一候选词槽片段为目标词槽、且对应的词槽名为所述任一参考词槽的词槽名。

11.如权利要求7所述的装置，所述第三确定模块，包括：

第三确定单元，根据每个所述候选词槽片段中的第一分词与每个所述参考词槽中的第二分词间的匹配度，确定所述候选词槽片段对应的至少一个关联参考词槽；

第四确定单元，用于确定所述候选词槽片段与每个所述关联参考词槽间未匹配的第一分词或第二分词，分别在所述候选词槽片段及所述关联参考词槽中的权重值；

第五确定单元，用于根据每个所述关联参考词槽对应的所述权重值，对所述候选词槽片段及所述关联参考词槽进行过滤，以确定所述候选词槽片段中包含的目标词槽及所述目标词槽的词槽名。

12.根据权利要求6-11任一所述的装置，还包括：

第二获取模块，用于获取所述预设的词槽库中的第一参考词槽、所述第一参考词槽中包含的各第三分词及每个第三分词的词性；

第一生成模块，用于将所述第一参考词槽输入同义词模型，以生成第二参考词槽及所述第二参考词槽中每个第四分词的词性；

第四确定模块，用于根据每个所述第三分词与每个所述第四分词间的匹配度、所述每个第三分词的词性与对应的所述每个第四分词的词性间的匹配度，确定所述第二参考词槽的置信度；

第一加入模块，用于在所述第二参考词槽的置信度大于第二阈值的情况下，将所述第二参考词槽、所述第四分词及每个所述第四分词的词性加入所述预设的词槽库中。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的词槽的识别方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的词槽的识别方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的词槽的识别方法。