CN116911313B - 一种语义漂移文本的识别方法及装置 - Google Patents

一种语义漂移文本的识别方法及装置 Download PDF

Info

Publication number
CN116911313B
CN116911313B CN202311168681.8A CN202311168681A CN116911313B CN 116911313 B CN116911313 B CN 116911313B CN 202311168681 A CN202311168681 A CN 202311168681A CN 116911313 B CN116911313 B CN 116911313B
Authority
CN
China
Prior art keywords
text
interception rate
determining
question text
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311168681.8A
Other languages
English (en)
Other versions
CN116911313A (zh
Inventor
武文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xumi Yuntu Space Technology Co Ltd
Original Assignee
Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xumi Yuntu Space Technology Co Ltd filed Critical Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority to CN202311168681.8A priority Critical patent/CN116911313B/zh
Publication of CN116911313A publication Critical patent/CN116911313A/zh
Application granted granted Critical
Publication of CN116911313B publication Critical patent/CN116911313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语义漂移文本的识别方法及装置。该方法包括:确定知识库中智能客服服务时未转人工的第一问题文本;确定第一问题文本的参考时段内的参考拦截率;输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;确定第一问题文本在当日的实际拦截率;根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。本申请能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。

Description

一种语义漂移文本的识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语义漂移文本的识别方法及装置。
背景技术
用户的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好,采用一问一答的形式实现客服机器人智能回复客户问题。但是在智能客服场景中,随着时间推移,知识库中的文本数据会产生漂移现象,这种漂移现象产生的原因有两种:一是相同的一个问句,在不同的时间可能会对应到不同的意图;二是同样一个意图,随着时间变化答案可能会发生变化。如果这些异常的具有漂移现象的文本不加以识别处理,会使知识库中的数据质量下降,进而会造成业务指标下降。
现有技术中,通常需要依赖领域知识或者上下文信息来识别语义漂移文本,但是实际情况中,语义漂移文本往往可能处于同一领域中,且没有上下文的情况,在这种情况下,很难对语义漂移文本进行识别。
发明内容
有鉴于此,本申请实施例提供了一种语义漂移文本的识别方法及装置,以解决现有技术中对语义漂移文本难以识别的问题。
本申请实施例的第一方面,提供了一种语义漂移文本的识别方法,该方法包括:
确定知识库中智能客服服务时未转人工的第一问题文本;
确定第一问题文本的参考时段内的参考拦截率;
输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
确定第一问题文本在当日的实际拦截率;
根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。
本申请实施例的第二方面,提供了一种语义漂移文本的识别装置,包括:
第一问题文本确定模块,用于确定知识库中智能客服服务时未转人工的第一问题文本;
参考拦截率确定模块,用于确定第一问题文本在参考时段内的参考拦截率;
预测拦截率输出模块,用于输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
实际拦截率确定模块,用于确定第一问题文本在当日的实际拦截率;
语义漂移文本确定模块,用于根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将该第一问题文本对应的意图文本确定为语义漂移文本。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例通过利用拦截率预测模型确定第一问题文本的预测拦截率,并结合实际拦截率来筛选第一问题文本对应的语义漂移的意图文本;并且利用聚类的方式从人工服务的第二问题文本结合知识库中的第一问题文本进而确定语义漂移的意图文本。通过两种方式的结合互补,能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的应用场景的场景示意图;
图2是本申请实施例提供的一种语义漂移文本的识别方法的流程示意图;
图3是本申请实施例提供的一种语义漂移文本的识别装置的示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
用户的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好,采用一问一答的形式实现客服机器人智能回复客户问题,通常一个问题会对应有一个意图或者答案。但是在智能客服场景中,随着时间推移,知识库中的文本数据会产生漂移现象,这种漂移现象产生的原因有两种:一是相同的一个问句,在不同的时间可能会对应到不同的意图;二是同样一个意图,随着时间变化答案可能会发生变化。如果这些异常的具有漂移现象的文本不加以识别处理,会使知识库中的数据质量下降,进而会造成业务指标下降。
现有技术中,通常需要依赖领域知识或者上下文信息来识别语义漂移文本,但是实际情况中,语义漂移文本往往可能处于同一领域中,且没有上下文的情况,在这种情况下,很难对语义漂移文本进行识别。
鉴于以上现有技术中的问题,本申请实施例提供一种全新的语义漂移文本的识别方法,通过利用拦截率预测模型确定第一问题文本的预测拦截率,并结合实际拦截率来筛选第一问题文本对应的语义漂移的意图文本;并且利用聚类的方式从人工服务的第二问题文本结合知识库中的第一问题文本进而确定语义漂移的意图文本。通过两种方式的结合互补,能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。
下面将结合附图详细说明根据本申请实施例的一种语义漂移文本的识别方法及装置。
图1是本申请实施例的一种应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104、网络105。
终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、及时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块,也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接,以接收或发送信息等。具体地,服务器104确定知识库中智能客服服务时未转人工的第一问题文本;服务器104确定第一问题文本在参考时段内的参考拦截率;输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;服务器104确定第一问题文本在当日的实际拦截率;根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。
需要说明的是,终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
图2是本申请实施例提供的一种语义漂移文本的识别方法的流程示意图。图2的语义漂移文本的识别方法可以由图1的终端设备或者服务器执行。如图2所示,该语义漂移文本的识别方法包括:
S201,确定知识库中智能客服服务时未转人工的第一问题文本;
S202,确定第一问题文本在参考时段内的参考拦截率;
S203,输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
S204,确定第一问题文本在当日的实际拦截率;
S205,根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。
具体地,本实施例中的语义漂移文本是指随着时间推移,产生漂移现象的意图文本。通常知识库中一个问题对应有一个答案,也就是说一个问题文本对应有一个意图文本,但是相同的一个问题文本,在不同的时间可能会对应到不同的意图文本。比如“放假规定是什么?”这样一个问题文本,四月三号询问时,对应的意图文本是“清明节放假规定”,等到四月二十号询问时,对应的意图文本就变成了“五一劳动节放假规定”,在其它时间中对应的意图文本可以为“公司个人年休假规定”,因此,这种随着时间推移,产生漂移现象的意图文本被称为语义漂移文本,语义漂移文本由于这种意图冲突,影响智能客服的回复准确度,因此需要本实施例采用的方法对其进行识别。
进一步地,本实施例中的智能客服是基于知识库的一种自动问答系统,其可以应用于多种场景,智能客服服务时一般采用两种方式,即转人工和未转人工,顾名思义,转人工即采用人工客服,未转人工就是还是采用智能客服方式进行服务,一般来说,智能客服能够回复一些相对简单的问题,智能客服回复不了的问题由人工来回复,人工客服更具灵活性以应对复杂的问题。本实施例以未转人工的方式着手去识别语义漂移文本。具体地,首先需确定知识库中智能客服服务时未转人工的第一问题文本,第一问题文本是知识库中的文本数据,也是根据客户在智能客服服务时所提问题能够匹配到的文本数据。
进一步地,确定第一问题文本在参考时段内的参考拦截率,拦截率也可以称之为解决率,拦截率指的是智能客服代替人工解决的用户咨询比例,拦截率能够代表智能客服的接待能力,和对客户所提问题的解决程度。对于智能客服来说拦截率越高越好,参考拦截率是指对第一问题文本在参考时段内的拦截率,参考时段可以为以当前时间为基准的前n(n≥1)天,参考拦截率作为后续得到预测拦截率的一个输入指标,用于对当前时间第一问题文本的拦截率的预测。
进一步地,输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率。拦截率预测模型是一种时间预测模型,通过对某些时间状态的串联后,后面产生的结果,受到前面结果的影响。也就是说,输入当前时间前的拦截率能过输出当前时间的拦截率。因此将参考拦截率输入至拦截率预测模型,可以输出第一问题文本在当日的预测拦截率。
进一步地,确定第一问题文本在当日的实际拦截率,实际拦截率对应的是用户提问由智能客服解答之后,用户没有进一步要求人工服务,而直接结束了本次会话的情况。比如,当用户所提问题与第一问题文本所匹配,如果智能客服在当日针对第一问题文本的总会话量为10000,要求转人工的为2000,那么实际拦截率可以为1-2000/10000=80%,当然,在一些情况下,实际拦截率还可以与会话的具体场景和方式有关,比如没有和智能客服产生交互的会话量和进入智能客服就要求转人工的会话量等,这些场景还需要更为精准的计算,这里不再赘述。
进一步地,确定了实际拦截率和预测拦截率,根据两者的差值能够确定拦截率偏差,若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。偏差阈值可以作为对第一问题文本对应的意图文本是否出现问题的一个评判标准,偏差阈值可以根据经验值设定,其代表了意图文本语义漂移程度的大小,当第一问题文本的拦截率偏差大于预先设定的偏差阈值,说明用户在和智能客服会话的过程中对智能客服所给出的答案或者意图文本不够认可而转人工服务,那么此时的第一问题文本对应的意图文本可能出现问题,因此被确定为语义漂移文本。
根据本申请实施例提供的技术方案,本申请实施例通过利用拦截率预测模型确定第一问题文本的预测拦截率,并结合实际拦截率来筛选第一问题文本对应的语义漂移的意图文本,能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。
在一些实施例中,还包括:
基于对第一问题文本每天的拦截率建立拦截率预测模型。
具体地,本实施例中的拦截率预测模型是一种时间预测模型,通过对某些时间状态的串联,后面产生的结果,受到前面结果的影响,其可以基于循环神经网络(RNN)、长短时记忆网络(LSTM)、BERT等初始模型来建立。为了提升拦截率模型的预测精准度,需要对初始模型训练,而训练所用的数据就是对第一问题文本每天的拦截率,一般来说,训练的数据范围越大对模型训练的效果越好,因此,可以选用对第一问题文本过去一年或者两年的每天的拦截率对模型进行训练,从而建立拦截率预测模型,以使输入第一问题文本前几天的参考拦截率可以输出当日的预测拦截率。
在一些实施例中,确定第一问题文本的当日的实际拦截率包括:
确定第一问题文本的当日的命中次数;
若命中次数大于预先设定的命中阈值;则根据命中次数确定实际拦截率。
具体地,确定第一问题文本当日的实际拦截率有个前提,就是第一问题文本对应的答案或者意图有可能出现问题,那么,如何辨别这种可能出现的情况,需要命中次数来体现。命中次数也就是用户提问,智能客服识别问题并匹配到第一问题文本后,由智能客服解答之后,用户没有进一步要求人工服务,而直接结束了本次会话的会话次数。第一问题文本的当日的命中次数代表了用户对第一问题文本的关注度,如果命中次数过高,可能说明用户对智能客服做出对第一问题文本的答案或者意图产生质疑,需要多次求证,因此,根据经验值设定一个命中阈值,命中次数超过这个命中阈值,有可能出现语义漂移文本,此时再根据命中次数来确定实际拦截率。具体计算过程如下:当用户所提问题与第一问题文本所匹配,如果智能客服在当日针对第一问题文本的总会话量为10000,要求转人工的为2000,那么实际的命中次数就是8000。那么实际拦截率可以为:命中次数/总会话量=8000/10000=80%。
在一些实施例中,还包括:
确定当前智能客服服务时客户选择转人工的第二问题文本;
将第二问题文本与第一问题文本进行聚类处理,以确定第二问题文本的目标类别;
确定目标类别下第三问题文本的数量;
若第三问题文本的数量大于预先设定的数量阈值,则确定第三文本所对应的意图文本为语义漂移文本。
具体地,在智能客服服务的场景中还包括转人工的场景,转人工有可能是因为客服对智能客服提供的意图或者答案不够满意,通过转人工求得更加精准的答案。不满意的原因很可能是因为答案发生语义漂移或者缺失的状况,因此,本实施例从另一角度来确定语义漂移文本,因为智能客服服务原本就包括这两种场景,转人工和未转人工,所以本实施例中的转人工场景结合上述实施例中未转人工的场景,从两个维度更加全面的对知识库中的意图文本进行验证和识别,从而提高对语义漂移文本的检测能力。
为了实现上述目的,本实施例具体采用如下方案。
将当前智能客服服务时客户选择转人工的问题作为第二问题文本,将第二问题文本与第一问题文本进行聚类处理,因为第一问题文本是知识库原有的已经分好类别并打上标签的问题文本,第二问题文本有可能智能客服匹配不到合适的意图,因此转人工,所以没有对第二问题文本划分相应的类别。根据聚类算法第一问题文本能够根据语义的相近程度划分为不同的簇类也就是不同的类别,确定第二问题文本所接近的簇类,也就确定了第二问题文本的目标类别。目标类别下的所有问题文本可以相当于是彼此的相似问题,将目标类别下的所有问题文本定义为第三问题文本。如果第三问题文本数量过多,则说明该类别下的第三问题文本是高频出现的问题,有可能第三问题文本所对应的意图文本出现错误所以导致客户总是问这种问题。因此,通过预先设定的数量阈值来作为评判第三问题文本对应的意图文本可能出现错误的程度大小的标准,若第三问题文本的数量大于预先设定的数量阈值,则确定第三文本所对应的意图文本为语义漂移文本。
在一些实施例中,将第二问题文本与第一问题文本进行聚类处理,以确定第二问题文本的目标类别包括:
将第二问题文本与第一问题文本进行聚类处理;以确定第二问题文本与第一问题文本每一类别的余弦相似度;
根据余弦相似度确定第二问题文本的目标类别。
具体地,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,余弦值越接近1,就表明夹角越接近0°,也就是两个向量越相似,余弦相似度越高。将余弦相似度最大的第二问题文本与第一问题文本划分为同一类,说明第二问题文本与该第一问题文本的簇类最为接近,可以将该第一问题文本的类别作为第二问题文本的目标类别。
在一些实施例中,根据余弦相似度确定第二问题文本的目标类别包括:
确定第二问题文本与第一问题文本对应类别之间的向量夹角;
根据向量夹角确定余弦相似度;
根据余弦相似度确定目标类别。
具体地,每个问题文本在向量空间中由于其语义不同,因此形成的文本向量的方向也不同,两个文本向量之间的夹角就是向量夹角。通过聚类处理,能够将第二问题文本的文本向量与每一类别的第一问题文本的文本向量在向量空间中形成的向量夹角进行比较,向量夹角最小的,可以说明该第二问题文本与该类别的第一问题文本最为接近,余弦相似度最大,因此将余弦相似度最大的第二问题文本与第一问题文本划分为同一类,这样就确定了第二问题文本的目标类别。
在一些实施例中,还包括:
对语义漂移文本进行意图识别并确定识别结果;
根据识别结果确定处理方式;
该处理方式包括人工干预和重新标注。
具体地,在识别出语义漂移文本后还应该对该语义漂移文本进行处理,以彻底解决语义漂移的问题。处理之前首先要对语义漂移文本进行意图识别以确定文本中蕴含的主题和意图,从而确定识别结果。意图识别可以基于神经网络模型进行识别。不同主题和意图的语义漂移文本对应有不同的处理方式,该处理方式可以包括人工干预和重新标注。有可能识别到的语义漂移文本是空的,此时需要进行人工干预,重新根据相对应的问题文本添加新的主题和意图;有可能识别到的语义漂移文本不具有客观描述性、唯一性,比如与其他意图文本之间存在交叉、包含等关系,此时需要对该语义漂移文本进行重新标注,使其具有独立性,比如性别(男、女),新闻报道的主题性质(体育、经济、政治、军事)等。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种语义漂移文本的识别装置的示意图。如图3所示,该语义漂移文本的识别装置包括:
第一问题文本确定模块301,被配置为用于确定知识库中智能客服服务时未转人工的第一问题文本;
参考拦截率确定模块302,被配置为用于确定第一问题文本在参考时段内的参考拦截率;
预测拦截率输出模块303,被配置为用于输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
实际拦截率确定模块304,被配置为用于确定第一问题文本在当日的实际拦截率;
语义漂移文本确定模块305,被配置为用于根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将该第一问题文本对应的意图文本确定为语义漂移文本。
在一些实施例中,图3的预测拦截率输出模块303还包括:
基于对第一问题文本每天的拦截率建立拦截率预测模型。
在一些实施例中,图3的实际拦截率确定模块304包括:
确定第一问题文本的当日的命中次数;
若命中次数大于预先设定的命中阈值;则根据命中次数确定实际拦截率。
在一些实施例中,图3语义漂移文本确定模块305还包括:
确定当前智能客服服务时客户选择转人工的第二问题文本;
将第二问题文本与第一问题文本进行聚类处理,以确定第二问题文本的目标类别;
确定目标类别下第三问题文本的数量;
若第三问题文本的数量大于预先设定的数量阈值,则确定第三文本所对应的意图文本为语义漂移文本。
在一些实施例中,图3语义漂移文本确定模块305包括:
将第二问题文本与第一问题文本进行聚类处理;以确定第二问题文本与第一问题文本每一类别的余弦相似度;
根据余弦相似度确定第二问题文本的目标类别。
在一些实施例中,图3语义漂移文本确定模块305包括:
确定第二问题文本与第一问题文本对应类别之间的向量夹角;
根据向量夹角确定余弦相似度;
根据余弦相似度确定目标类别。
在一些实施例中,图3语义漂移文本确定模块305还包括:
对语义漂移文本进行意图识别并确定识别结果;
根据识别结果确定处理方式;
该处理方式包括人工干预和重新标注。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (9)

1.一种语义漂移文本的识别方法,其特征在于,所述方法包括:
确定知识库中智能客服服务时未转人工的第一问题文本;
确定所述第一问题文本在参考时段内的参考拦截率,所述参考拦截率是指对所述第一问题文本在参考时段内的拦截率,所述参考时段为以当前时间为基准的前n天,n≥1;所述拦截率是指智能客服代替人工解决的用户咨询比例;
输入所述参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
确定所述第一问题文本在当日的实际拦截率,所述实际拦截率对应的是用户咨询由智能客服解答之后,用户没有进一步要求人工服务,而直接结束了本次会话的情况;所述确定所述第一问题文本的当日的实际拦截率包括:确定所述第一问题文本的当日的命中次数;若所述命中次数大于预先设定的命中阈值;则根据所述命中次数确定所述实际拦截率;
根据所述实际拦截率与所述预测拦截率确定拦截率偏差;若所述第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将所述第一问题文本对应的意图文本确定为语义漂移文本。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于对所述第一问题文本每天的拦截率建立拦截率预测模型。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定当前智能客服服务时客户选择转人工的第二问题文本;
将所述第二问题文本与所述第一问题文本进行聚类处理,以确定所述第二问题文本的目标类别;
确定所述目标类别下第三问题文本的数量;
若所述第三问题文本的数量大于预先设定的数量阈值,则确定所述第三问题文本所对应的意图文本为语义漂移文本。
4.根据权利要求3所述的方法,其特征在于,将所述第二问题文本与所述第一问题文本进行聚类处理,以确定所述第二问题文本的目标类别包括:
将所述第二问题文本与所述第一问题文本进行聚类处理;以确定所述第二问题文本与所述第一问题文本每一类别的余弦相似度;
根据所述余弦相似度确定所述第二问题文本的目标类别。
5.根据权利要求4所述的方法,其特征在于,根据所述余弦相似度确定所述第二问题文本的目标类别包括:
确定所述第二问题文本与第一问题文本对应类别之间的向量夹角;
根据所述向量夹角确定所述余弦相似度;
根据所述余弦相似度确定所述目标类别。
6.根据权利要求1至5任意一项所述的方法,其特征在于,还包括:
对所述语义漂移文本进行意图识别并确定识别结果;
根据所述识别结果确定处理方式;
所述处理方式包括人工干预和重新标注。
7.一种语义漂移文本的识别装置,其特征在于,包括:
第一问题文本确定模块,用于确定知识库中智能客服服务时未转人工的第一问题文本;
参考拦截率确定模块,用于确定所述第一问题文本在参考时段内的参考拦截率,所述参考拦截率是指对所述第一问题文本在参考时段内的拦截率,所述参考时段为以当前时间为基准的前n天,n≥1;
预测拦截率输出模块,用于输入所述参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;
实际拦截率确定模块,用于确定所述第一问题文本在当日的实际拦截率,所述实际拦截率对应的是用户提问由智能客服解答之后,用户没有进一步要求人工服务,而直接结束了本次会话的情况,所述确定所述第一问题文本的当日的实际拦截率包括:确定所述第一问题文本的当日的命中次数;若所述命中次数大于预先设定的命中阈值;则根据所述命中次数确定所述实际拦截率;
语义漂移文本确定模块,用于根据所述实际拦截率与所述预测拦截率确定拦截率偏差;若所述第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将所述第一问题文本对应的意图文本确定为语义漂移文本。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
CN202311168681.8A 2023-09-12 2023-09-12 一种语义漂移文本的识别方法及装置 Active CN116911313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311168681.8A CN116911313B (zh) 2023-09-12 2023-09-12 一种语义漂移文本的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311168681.8A CN116911313B (zh) 2023-09-12 2023-09-12 一种语义漂移文本的识别方法及装置

Publications (2)

Publication Number Publication Date
CN116911313A CN116911313A (zh) 2023-10-20
CN116911313B true CN116911313B (zh) 2024-02-20

Family

ID=88356916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311168681.8A Active CN116911313B (zh) 2023-09-12 2023-09-12 一种语义漂移文本的识别方法及装置

Country Status (1)

Country Link
CN (1) CN116911313B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579894B1 (en) * 2019-07-17 2020-03-03 Capital One Service, LLC Method and system for detecting drift in text streams
CN111309889A (zh) * 2020-02-27 2020-06-19 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN112365894A (zh) * 2020-11-09 2021-02-12 平安普惠企业管理有限公司 基于ai的复合语音交互方法、装置及计算机设备
CN113033643A (zh) * 2021-03-17 2021-06-25 上海交通大学 基于带权重采样的概念漂移检测方法、系统及电子设备
CN113094474A (zh) * 2021-06-08 2021-07-09 深圳追一科技有限公司 智能问答方法和装置、服务器、计算机可读存储介质
CN113282737A (zh) * 2021-07-21 2021-08-20 中信建投证券股份有限公司 人机协作的智能客服对话方法及装置
CN114265921A (zh) * 2021-12-29 2022-04-01 广州华多网络科技有限公司 问答知识库构建方法及其装置、设备、介质、产品
CN115665325A (zh) * 2022-09-14 2023-01-31 中信建投证券股份有限公司 一种智能外呼的方法、装置、电子设备及存储介质
CN116414964A (zh) * 2023-05-05 2023-07-11 广州商研网络科技有限公司 智能客服问答知识库构建方法、装置、设备及介质
CN116502646A (zh) * 2023-03-09 2023-07-28 国家电网有限公司大数据中心 一种语义漂移检测方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10579894B1 (en) * 2019-07-17 2020-03-03 Capital One Service, LLC Method and system for detecting drift in text streams
CN111309889A (zh) * 2020-02-27 2020-06-19 支付宝(杭州)信息技术有限公司 用于文本处理的方法和装置
CN112365894A (zh) * 2020-11-09 2021-02-12 平安普惠企业管理有限公司 基于ai的复合语音交互方法、装置及计算机设备
CN113033643A (zh) * 2021-03-17 2021-06-25 上海交通大学 基于带权重采样的概念漂移检测方法、系统及电子设备
CN113094474A (zh) * 2021-06-08 2021-07-09 深圳追一科技有限公司 智能问答方法和装置、服务器、计算机可读存储介质
CN113282737A (zh) * 2021-07-21 2021-08-20 中信建投证券股份有限公司 人机协作的智能客服对话方法及装置
CN114265921A (zh) * 2021-12-29 2022-04-01 广州华多网络科技有限公司 问答知识库构建方法及其装置、设备、介质、产品
CN115665325A (zh) * 2022-09-14 2023-01-31 中信建投证券股份有限公司 一种智能外呼的方法、装置、电子设备及存储介质
CN116502646A (zh) * 2023-03-09 2023-07-28 国家电网有限公司大数据中心 一种语义漂移检测方法、装置、电子设备及存储介质
CN116414964A (zh) * 2023-05-05 2023-07-11 广州商研网络科技有限公司 智能客服问答知识库构建方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于VSM和LDA模型相结合的微博话题漂移检测;胡秀丽;;兰州理工大学学报(第05期);第110-115页 *

Also Published As

Publication number Publication date
CN116911313A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
US10777207B2 (en) Method and apparatus for verifying information
CN108197652B (zh) 用于生成信息的方法和装置
CN109514586B (zh) 实现智能客服机器人的方法及系统
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
CN109976997B (zh) 测试方法和装置
CN111428010B (zh) 人机智能问答的方法和装置
US20230237502A1 (en) Dynamic claims submission system
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN108681871B (zh) 一种提示信息的方法、终端设备及计算机可读存储介质
CN111915086A (zh) 异常用户预测方法和设备
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
CN111723180A (zh) 一种面试方法和装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN110738056B (zh) 用于生成信息的方法和装置
CN116911313B (zh) 一种语义漂移文本的识别方法及装置
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN115563281A (zh) 基于文本数据增强的文本分类方法及装置
CN115841144A (zh) 一种文本检索模型的训练方法及装置
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN114943590A (zh) 基于双塔模型的对象推荐方法及装置
CN114861064A (zh) 基于双塔模型的对象推荐方法及装置
CN114020896A (zh) 一种智能问答方法、系统、电子设备及存储介质
CN116933800B (zh) 一种基于模版的生成式意图识别方法及装置
CN113761183A (zh) 意图识别方法和意图识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant