CN113254595B

CN113254595B - 闲聊识别方法、装置、电子设备及存储介质

Info

Publication number: CN113254595B
Application number: CN202110688766.3A
Authority: CN
Inventors: 吕向楠
Original assignee: Beijing Wofeng Times Data Technology Co ltd
Current assignee: Beijing Wofeng Times Data Technology Co ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2021-10-22
Anticipated expiration: 2041-06-22
Also published as: CN113254595A

Abstract

本发明提供一种闲聊识别方法、装置、电子设备及存储介质。所述方法包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的，本发明的识别速度快，占用资源少，而且准确率较高。

Description

闲聊识别方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种闲聊识别方法、装置、电子设备及存储介质。

背景技术

目前，人机对话，是人工智能领域的子方向，通俗的讲就是让人可以通过人类的语言即自然语言与计算机进行交互，随着技术的不断发展，越来越多的商家开始使用智能客服，来缓解客户服务的压力。

但是在实际的交互过程中，可能会收到很多来自用户的闲聊语句，而闲聊问答具有非常强的发散性与无目的性，难以构建有效且全面的知识库。且闲聊与业务场景无关，无需人工构建知识库，因此这些闲聊语句会影响最终智能客服的回复准确率，而识别出闲聊文本并剔除，就能很好的解决的这个问题。

因此如何从用户的文本中识别出闲聊文本，已经成为业界亟待解决的问题。

发明内容

本发明提供一种闲聊识别方法、装置、电子设备及存储介质，用以解决识别出闲聊文本的技术问题。

第一方面，本发明提供一种闲聊识别方法，包括：

基于客服领域关键词信息，对待识别文本进行预识别；

在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

在一个实施例中，所述基于客服领域关键词信息，对待识别文本进行预识别，包括：

在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

或，在所述待识别文本中包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为非闲聊文本。

在一个实施例中，所述基于文本特征提取模型，对所述待识别文本进行特征提取之前，所述方法还包括：

去除所述待识别文本中的句号、表情符号和虚词。

在一个实施例中，所述基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量，包括：

对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

在一个实施例中，所述将所述字向量和所述词向量输入训练好的分类模型之前，还包括：

获取多个样本字向量和每个样本字向量对应的闲聊类别标识，并获取多个样本词向量和每个样本词向量对应的闲聊类别标识；

将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本，获取多个训练样本；

基于所述多个训练样本，对预设神经网络进行训练，当满足预设训练条件时，停止训练，得到训练好的分类模型。

第二方面，本发明提供一种闲聊识别装置，包括：

预识别模块，用于基于客服领域关键词信息，对待识别文本进行预识别；

提取模块，用于在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

识别模块，用于将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

在一个实施例中，所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

在一个实施例中，所述提取模块具体用于对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述闲聊识别方法的步骤。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面所述闲聊识别方法的步骤。

本发明提供的一种闲聊识别方法、装置、电子设备及存储介质，通过在对待识别文本进行预识别之前，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率，同时，本发明中使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征，本发明中的闲聊识别方法，识别速度快，占用资源少，而且准确率较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的闲聊识别方法的流程示意图；

图2为本发明实施例提供的闲聊文本识别流程图；

图3为本发明实施例所描述的闲聊识别装置结构示意图；

图4示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的闲聊识别方法的流程示意图，如图1所示，包括：

步骤110，基于客服领域关键词信息，对待识别文本进行预识别；

具体地，由于本发明中的闲聊识别方法，主要是针对于客户服务领域的应用，因为本发明中通过设定客服领域关键词信息，来简单识别该文本识别为闲聊文本。

本发明实施例中所描述的客服领域关键词信息，具体可以是指客户服务领域的专业词语或者符号，例如常见的客服领域关键词信息可以包括“帮助”、“服务”等等。可以预先设定一个相关的关键词词库。

具体地，首先采用通用分词工具对所有待识别数据进行分词。通过引入客户服务领域的专业词语或者符号作为是否是闲聊文本的判断要素，如果待识别文本包含了客户服务领域的专业词语或者符号，则判定该文本为非闲聊文本，否则认为该文本为闲聊文本。

步骤120，在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

具体地，在本发明实施例中，若待识别文本的预识别结果为闲聊文本时，则说明此时待识别文本很有可能确实为闲聊文本，但是仅仅依靠预识，仍然不足够准确，所以本发明在预识别的基础上，还需要对其进行二次识别。

因此，本发明中还会通过文本特征提取模型，对所述待识别文本进行特征提取，具体的，本发明中的文本特征提取模型可以是Word2Vec，并且对于每个闲聊文本使用了使用字与词的向量对来进行表示，更全面的对文本进行特征表示。

步骤130，将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

具体地，由于在智能客服场景中，用户问句一般为小于20个字的短文本，且在闲聊场景中词的相对顺序对识别准确率影响较小，所以选择模型结构简单且可快速训练的TextCNN模型。

将所述字向量和所述词向量输入训练好的分类模型，模型会输出待识别文本是否为闲聊文本的最终的闲聊识别结果。

在本发明实施例中，通过在对待识别文本进行预识别之前，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率，同时，本发明中使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征，本发明中的闲聊识别方法，识别速度快，占用资源少，而且准确率较高。

可选地，所述基于客服领域关键词信息，对待识别文本进行预识别，包括：

具体地，在判定所述待识别文本的预识别结果为闲聊文本，在本发明实施例中，需要进一步通过其它方式判别该闲聊文本。

在判定所述待识别文本的预识别结果为非闲聊文本的情况下，则说明不需要对该文本进一步进行判别。

在本发明实施例中，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率。

可选地，所述基于文本特征提取模型，对所述待识别文本进行特征提取之前，所述方法还包括：

去除所述待识别文本中的句号、表情符号和虚词。

具体地，在文本特征提取之前，通常均需要对待识别文本中的标点，以避免符号的影响。

但是在本发明的方案中预处理时需要去除句号，其余标点不需去除，这与闲聊结束时一般不打句号，若是疑问句则会打问号有关，因此本发明中认为其它符号也会影响到判别结果。

在本发明实施例中，通过与常规标点去除方式不同的去除方案，可以有效的保留有利于判断闲聊文本的特征，保证后续判别的准确性。

可选地，所述基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量，包括：

具体地，本发明中所描述的词向量，是指待识别文本中的特征词向量，因此需要首先对待识别文本进行关键词提取。

本发明中进行特征词提取的方式，可以是常见的关键词抽取算法，本发明中对此不作限定。

本发明中会将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

在本发明实施例中，使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征。

可选地，获取多个样本字向量和每个样本字向量对应的闲聊类别标识，并获取多个样本词向量和每个样本词向量对应的闲聊类别标识；

具体地，本发明中所描述的闲聊类别标识用于标识其属于闲聊类别还是非闲聊类别。

本发明中所描述的预设神经网络可以是TextCNN模型，这是由于在智能客服场景中，用户问句一般为小于20个字的短文本，且在闲聊场景中词的相对顺序对识别准确率影响较小。

本发明中所描述的预设训练条件，可以是满足预设训练时间，或者满足预设训练此时。

本发明中训练好的分类模型能够，能够有效的识别输入的字向量和词向量是否属于闲聊文本。

图2为本发明实施例提供的闲聊文本识别流程图，如图2所示，包括：首先对文本进行预处理，然后抽取文本关键词，将关键词和文本同时进行特征抽取，得到文本的字符的表示和词的表示，然后将字符的表示和词的表示同时输入分类算法，最终得到文本的分类结果。

图3为本发明实施例所描述的闲聊识别装置结构示意图，如图3所示，包括：预识别模块310、提取模块320和识别模块330；其中，预识别模块310用于基于客服领域关键词信息，对待识别文本进行预识别；其中，提取模块320用于在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；其中，识别模块330用于将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communication Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序，以执行闲聊识别方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的闲聊识别方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

另一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（MO）等）、光学存储器（例如CD、DVD、BD、HVD等）、以及半导体存储器（例如ROM、EPROM、EEPROM、非易失性存储器（NANDFLASH）、固态硬盘（SSD））等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种闲聊识别方法，其特征在于，包括:

基于客服领域关键词信息，对待识别文本进行预识别；

将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的；

其中，所述基于客服领域关键词信息，对待识别文本进行预识别，包括：

2.根据权利要求1所述的闲聊识别方法，其特征在于，所述基于文本特征提取模型，对所述待识别文本进行特征提取之前，所述方法还包括：

去除所述待识别文本中的句号、表情符号和虚词。

3.根据权利要求1所述的闲聊识别方法，其特征在于，所述基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量，包括：

4.根据权利要求1所述的闲聊识别方法，其特征在于，所述将所述字向量和所述词向量输入训练好的分类模型之前，还包括：

5.一种闲聊识别装置，其特征在于，包括:

识别模块，用于将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的；

其中，所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

6.根据权利要求5所述的闲聊识别装置，其特征在于，所述提取模块具体用于对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

7.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的闲聊识别方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的闲聊识别方法的步骤。