CN111538814B

CN111538814B - 一种语义理解中协议支持自定义标准化的方法

Info

Publication number: CN111538814B
Application number: CN202010340254.3A
Authority: CN
Inventors: 王燕
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2024-03-08
Anticipated expiration: 2040-04-26
Also published as: CN111538814A

Abstract

本发明实施例公开了一种语义理解中协议支持自定义标准化的方法，包括以下步骤：步骤一、根据用户输入内容确定文本内容；步骤二、基于NLP技术对文本内容进行语义分析并获取分析结果；步骤三、将获取的分析结果进行相似度匹配，获取JSON数据；步骤四、将获取的JSON数据生成Intent对象，之后生成应答返回。本发明提供的语义理解中协议支持自定义标准化的方法，基于自然语言处理(NLP)中的命名实体识别(NER)基础上，在经过NER分析处理打上特殊的标签，可以抽取用户的说话文本，在输入协议的基础上对语义字段进行自定义处理，例如time标签，根据自定义函数进行处理，从而使得抽取出来的文本就更加灵活和有效。

Description

一种语义理解中协议支持自定义标准化的方法

技术领域

本发明涉及信息搜索技术领域，具体涉及一种语义理解中协议支持自定义标准化的方法。

背景技术

在外呼的多轮交互场景中，由于业务的需要提取用户在某一轮交互中时间的信息，例如:催收场景中需要提取用户具体的还款时间，以便业务判断是否有逾期的风险。通过对时间的词典的进行模型训练，利用命名实体识别NER对于时间文本打上time的标签就认为是抽取时间是业务所需要的时间，然后协议中定义对time标签进行标准化的函数【func_format_date(％time％)或func_format_time(％time％)】，func_format_date这个函数的作用是将时间描述标准化处理为一个固定格式的日期表示，格式"yyyy-MM-dd"，示例：func_format_date(明天)＝2019-09-11，func_format_time这个函数的作用是将时间描述标准化处理为一个固定格式的时间表示，格式"yyyy-MM-dd HH:mm:ss"，示例：func_format_time(明天下午三点)＝2019-09-11 15:00:00。

目前，通过NLP中的命名实体识别(NER)打上time标签，然后对于用户中的对话中文本提取时间的文本，这样抽取的时间信息进行标准化处理后不能有效的处理成正确的时间，会严重影响协议输出的正确性，可能导致业务不能正常进行,甚至引起用户的投诉。

发明内容

为此，本发明实施例提供一种语义理解中协议支持自定义标准化的方法，以解决现有技术中抽取的信息进行标准化处理后不能有效的处理成正确的数据，从而严重影响协议输出的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面，提供一种语义理解中协议支持自定义标准化的方法，包括以下步骤：

步骤一、根据用户输入内容确定文本内容；

步骤二、基于NLP技术对文本内容进行语义分析并获取分析结果；

步骤三、将获取的分析结果进行相似度匹配，获取JSON数据；

步骤四、将获取的JSON数据生成Intent对象，之后生成应答返回。

进一步的，所述用户输入内容为语音输入内容、文字输入内容和图片输入内容中的任意一种或两种以上的组合。

进一步的，当用户输入内容为语音输入内容时，所述步骤一包括将所述语音输入内容输入至语音识别模型以得到相应的文本内容。

进一步的，当用户输入内容为图片输入内容时，所述步骤一包括将图片输入内容输入至图片识别模型以得到相应的文本内容。

进一步的，所述步骤四包括根据获取的JSON数据判断是否存在func函数。

进一步的，当存在func函数时，通过反射调用自定义类方法返回标准化的值，之后填充JSON数据到Intent对象；当不存在func函数时，直接填充JSON数据到Intent对象。

进一步的，所述步骤三包括将获取的分析结果通过意图语料语义相似度模型进行相似度匹配。

根据本发明实施例的第二方面，提供一种多轮交互并行语义理解系统，包括：

输入模块，用于用户输入内容；

文本内容确定模块，用于根据用户输入内容确定文本内容；

意图确定程序模块，基于NLP技术对文本内容进行语义分析并获取分析结果，将获取的分析结果进行相似度匹配，获取JSON数据；

应答模块，用于将获取的JSON数据生成Intent对象，之后生成应答。

根据本发明实施例的第三方面，提供一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够所述方法的步骤。

根据本发明实施例的第四方面，提供一种存储有计算机程序的介质，所述计算机程序被处理器执行时实现所述方法的步骤。

本发明实施例具有如下优点：本发明实施例提供一种语义理解中协议支持自定义标准化的方法，基于自然语言处理(NLP)中的命名实体识别(NER)基础上，在经过NER分析处理打上特殊的标签，可以抽取用户的说话文本，在输入协议的基础上对语义字段进行自定义处理，例如time标签，根据自定义函数进行处理，从而使得抽取出来的文本就更加灵活和有效，克服现有技术中抽取的信息进行标准化处理后不能有效的处理成正确的数据，从而严重影响协议输出的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种语义理解中协议支持自定义标准化的方法的流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义，下述实施例中的实验材料，若无特别说明，均是来源于商业途径，所述的实验方法，若无特别说明，均为通用实验方法。

针对现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案，如下将对该技术方案、其实施过程及原理等作进一步的解释说明。

自然语言处理(Nature Language processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

实施例1

本实施例提供一种语义理解中协议支持自定义标准化的方法，包括以下步骤：

步骤一、根据用户输入内容确定文本内容，所述用户输入内容为语音输入内容、文字输入内容和图片输入内容中的任意一种或两种以上的组合；当用户输入内容为语音输入内容时，所述步骤一包括将所述语音输入内容输入至语音识别模型以得到相应的文本内容；当用户输入内容为图片输入内容时，所述步骤一包括将图片输入内容输入至图片识别模型以得到相应的文本内容。

步骤三、将获取的分析结果通过意图语料语义相似度模型进行相似度匹配，获取JSON数据；

步骤四、根据获取的JSON数据判断是否存在func函数，当存在func函数时，通过反射调用自定义类方法返回标准化的值，之后填充JSON数据到Intent对象；当不存在func函数时，直接填充JSON数据到Intent对象，之后生成应答返回。

实施例2

本实施例提供一种多轮交互并行语义理解系统，包括：

输入模块，用于用户输入内容；

文本内容确定模块，用于根据用户输入内容确定文本内容；

实施例3

本实施例提供一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够所述方法的步骤。其中，存储器可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random AccessMemory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

此外，还提供一种存储有计算机程序的介质，所述计算机程序被处理器执行时实现所述方法的步骤。

以下通过若干实施例进一步详细说明本发明的技术方案。然而，所选的实施例仅用于说明本发明，而不限制本发明的范围。

本实施例以上门服务为例:用户说“我今天有空”；

第一步：NLP对用户输入的文本分析处理，打上NER标签后的句子是“我今天/time有空”；

第二步：通过/time标签为分隔符，将文本分成二段，分别是”我”，”有空”；然后通过意图语料语义相似度模型的计算匹配成功，％time％就是业务所需要的准确时间信息。

第三步：获取语义理解的Json数据，判断是否存在func函数；如果存在将调用自定义的标准化时间函数进行处理。示例：”bookingTime”:”func(‘com.unisound.nlp.time.chunker.TimeChunker’,’getDateTimeAnyway’,’％time％’)”

Note：Func函数第一个参数为类全路径名，第二个参数为方法名，第三个参数为要自定义输出的字段值。

第四步：将处理后的JSON数据生成Intent对象，然后生成应答返回。

在外呼的多轮对话场景中，通过NLP中NER对用户的说话的文本打上标签，然后通过语义相似度模型匹配用户表达的意图，再通过对协议中的字段进行自定义处理，就可以更灵活的返回用户所需要的信息，提升产品的交互体验。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种语义理解中协议支持自定义标准化的方法，其特征在于，包括以下步骤：

步骤一、根据用户输入内容确定文本内容；

步骤三、将获取的分析结果进行相似度匹配，获取JSON数据；

步骤四、将获取的JSON数据生成Intent对象，之后生成应答返回；

其中，所述步骤四包括根据获取的JSON数据判断是否存在func函数；

当存在func函数时，通过反射调用自定义类方法返回标准化的值，之后填充JSON数据到Intent对象；当不存在func函数时，直接填充JSON数据到Intent对象。

2.根据权利要求1所述语义理解中协议支持自定义标准化的方法，其特征在于：所述用户输入内容为语音输入内容、文字输入内容和图片输入内容中的任意一种或两种以上的组合。

3.根据权利要求2所述语义理解中协议支持自定义标准化的方法，其特征在于：当用户输入内容为语音输入内容时，所述步骤一包括将所述语音输入内容输入至语音识别模型以得到相应的文本内容。

4.根据权利要求2所述语义理解中协议支持自定义标准化的方法，其特征在于：当用户输入内容为图片输入内容时，所述步骤一包括将图片输入内容输入至图片识别模型以得到相应的文本内容。

5.根据权利要求1所述语义理解中协议支持自定义标准化的方法，其特征在于：所述步骤三包括将获取的分析结果通过意图语料语义相似度模型进行相似度匹配。

6.一种多轮交互并行语义理解系统，其特征在于，包括：

输入模块，用于用户输入内容；

文本内容确定模块，用于根据用户输入内容确定文本内容；

应答模块，用于将获取的JSON数据生成Intent对象，之后生成应答；

所述应答模块，还用于根据获取的JSON数据判断是否存在func函数；

7.一种电子设备，其特征在于：包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1—5中任意一项所述方法的步骤。

8.一种存储有计算机程序的介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1—5中任意一项所述方法的步骤。