CN109325234B

CN109325234B - 语句处理方法、设备及计算机可读存储介质

Info

Publication number: CN109325234B
Application number: CN201811176303.3A
Authority: CN
Inventors: 郝鹏辉; 郑德荣; 杨海军; 徐倩; 杨强
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2023-06-20
Anticipated expiration: 2038-10-10
Also published as: CN109325234A

Abstract

本发明公开了一种语句处理方法，包括：当接收到原始语句时，对所述原始语句执行特征提取操作，以获取第一特征，并将所述第一特征输入至条件随机场模型；确定候选先行语集，并对所述候选先行语集和所述原始语句执行特征提取操作，以获取第二特征，且将所述第二特征输入至预设分类器；依据所述条件随机场模型的输出结果，确定所述原始语句的目标缺失位，并依据预设分类器的输出结果，确定目标先行语，且在所述原始语句的目标缺失位中填充所述目标先行语。本发明还公开了一种语句处理设备及计算机可读存储介质。本发明能够有效提高缺失位和先行语的准确率和灵活性。

Description

语句处理方法、设备及计算机可读存储介质

技术领域

本发明涉及客服对话的技术领域，尤其涉及一种语句处理方法、设备及计算机可读存储介质。

背景技术

随着网络技术的快速发展，越来越多的企业逐渐采用线上咨询的方式为客户提供咨询服务，而为减少人力成本，可通过客服对话系统为客户提供咨询服务，即通过客服机器人为客户提供咨询服务，而当客服机器人无法识别客户问题的情况下，可以提醒客户转人工客服。

目前，现有客服对话系统中的客服机器人只能回答指定的问题，而客户输入的原始问句因个性化存在差异，导致客服机器人无法识别，为解决上述问题，需要对客户输入的原始问句进行处理，即当接收到客户输入的原始问句时，加载词库和语音分析工具，对原始问句进行缺失位识别和先行语选择。

然而，现有的缺失位识别和先行语选择存在缺失位和先行语准确率低和灵活性低的问题，因此，如何提高缺失位和先行语的准确率和灵活性是目前亟待解决的问题。

发明内容

本发明的主要目的在于提供一种语句处理方法、设备及计算机可读存储介质，旨在提高缺失位和先行语的准确率和灵活性。

为实现上述目的，本发明提供一种语句处理方法，所述语句处理方法包括以下步骤：

当接收到原始语句时，对所述原始语句执行特征提取操作，以获取第一特征，并将所述第一特征输入至条件随机场模型；

确定候选先行语集，并对所述候选先行语集和所述原始语句执行特征提取操作，以获取第二特征，且将所述第二特征输入至预设分类器；

依据所述条件随机场模型的输出结果，确定所述原始语句的目标缺失位，并依据预设分类器的输出结果，确定目标先行语，且在所述原始语句的目标缺失位中填充所述目标先行语。

进一步地，对所述原始语句执行特征提取操作，以获取第一特征的步骤包括：

对所述原始语句进行词性分析，并依据词性分析结果，将所述原始语句顺序拆分为若干词语；

在所述若干词语中标注对应数量的候选缺失位，并将位于每个候选缺失位前后的第一预设数量的词语确定为第一特征。

进一步地，所述将位于每个候选缺失位前后的第一预设数量的词语确定为第一特征的步骤替换为以下步骤：

将位于每个候选缺失位前后的第一预设数量的词语和所述词语的词性确定为第一特征。

进一步地，所述确定候选先行语集的步骤包括：

获取所述原始语句所属客服对话的若干历史语句，并对所述若干历史语句进行词性分析；

依据词性分析结果，将所述若干历史语句中的各历史语句拆分为若干词语，并将所述若干词语中的各名词词语确定为候选先行语集。

进一步地，对所述候选先行语集和所述原始语句执行特征提取操作，以获取第二特征的步骤包括：

对所述原始语句进行词性分析，并依据词性分析结果，从所述原始语句中获取全部动词词语；

将所述候选先行语集中每个候选先行语的词向量，以及所述全部动词词语中各动词词语的词向量和确定为第二特征。

获取所述候选先行语集中各候选先行语所属的历史语句，并对所述原始语句进行词性分析，以从所述原始语句中获取全部动词词语；

将所述候选先行语集中每个候选先行语的词向量，各候选先行语所属的历史语句中位于对应候选先行语前后的第二预设数量的词语的词向量和，以及所述全部动词词语中各动词词语的词向量和确定为第二特征。

进一步地，所述依据预设分类器的输出结果，确定目标先行语的步骤包括：

从所述预设分类器的输出结果中读取所述候选先行语集中各候选先行语为目标先行语的概率值；

依据各候选先行语为目标先行语的概率值，确定目标先行语。

进一步地，所述依据各候选先行语为目标候选语的概率值，确定目标先行语的步骤包括：

判断各候选先行语为目标先行语的概率值中的最大概率值是否大于或等于预设阈值；

若各候选先行语为目标先行语的概率值中的最大概率值大于或等于预设阈值，则将最大概率值对应的候选先行语，确定为目标先行语。

此外，为实现上述目的，本发明还提供一种语句处理设备，所述语句处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语句处理程序，所述语句处理程序被所述处理器执行时实现如上所述的语句处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语句处理程序，所述语句处理程序被处理器执行时实现如上所述的语句处理方法的步骤。

本发明提供一种语句处理方法、设备及计算机可读存储介质，本发明对接收到的原始语句执行特征提取操作，并将提取到的第一特征输入至条件随机场模型，然后确定候选先行语集，并对候选先行语集和原始语句执行特征提取操作，且将提取到的第二特征输入至预设分类器，最后依据条件随机场模型的输出结果，确定原始语句的缺失位，并依据预设分类器的输出结果，确定目标先行语，且在原始语句的缺失位中填充该目标先行语，通过上述方式，将从原始语句提取到的特征输入至条件随机场模型，从而确定缺失位，可以有效的提高缺失位的准确率和灵活性，而将先行语的确定看作是分类问题，并通过预设分类器确定目标先行语，可以有效的提高先行语的准确率和灵活性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明语句处理方法第一实施例的流程示意图；

图3为本发明第二实施例中步骤S102的细化流程示意图；

图4为本发明第三实施例中步骤S103的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例语句处理设备可以是PC，也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该语句处理设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的语句处理设备结构并不构成对语句处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语句处理程序。

在图1所示的语句处理设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语句处理程序，并执行以下步骤：

进一步地，处理器1001可以用于调用存储器1005中存储的语句处理程序，还执行以下步骤：

本发明语句处理设备的具体实施例与下述语句处理方法的各具体实施例基本相同，在此不作赘述。

参照图2，图2为本发明语句处理方法第一实施例的流程示意图。

步骤S101，当接收到原始语句时，对原始语句执行特征提取操作，以获取第一特征，并将第一特征输入至条件随机场模型；

本实施例中，在客服对话过程中，需要对客户输入的原始问句进行处理，以使得客服机器人基于处理后的原始语句获取对话语句。当接收到原始语句时，设备对原始语句执行特征提取操作，以获取第一特征，并将第一特征输入条件随机场模型，即CRF(Conditional Random Field，条件随机场)模型。其中，特征提取操作包括词性分析子操作、候选缺失位标注子操作和第一特征确定子操作，词性分析子操作为对原始语句进行词性分析，并依据词性分析结果，将原始语句顺序拆分为若干词语，候选缺失位标注子操作为在若干词语中标注对应数量的候选缺失位，即在每个词语的前后标注一个候选缺失位，且每个词语之间仅存在一个候选缺失位，第一特征确定子操作为将位于每个候选缺失位前后的第一预设数量的词语确定为第一特征。需要说明的是，上述第一预设数量可由本领域技术人员基于实际情进行设置，本实施例对此不作具体限定，可选地，该第一预设数量为3。

具体地，设备对原始语句进行词性分析，并依据词性分析结果，将原始语句顺序拆分为若干词语，然后在若干词语中标注对应数量的候选缺失位，即在每个词语的前后标注一个候选缺失位，且每个词语之间仅存在一个候选缺失位，并将位于每个候选缺失位前后的第一预设数量的词语确定为第一特征。需要说明的是，候选缺失位的标注数量为若干词语的数量加一，候选缺失位前后的词语未达到第一预设数量时，则将候选缺失位前后的全部词语确定为第一特征。其中，词性包括但不限于名词、动词、形容词、数词、量词、代词、副词、介词连词、助词和拟声词，词语包括但不限于单词和词组。

例如，原始语句为“我怎么才可以申请呢”，则对“我怎么才可以申请呢”进行词性分析之后，将“我怎么才可以申请呢”拆分为若干词语，即“我(人称代词)”、“怎么(副词)”、“才(副词)”、“可以(副词)”、“申请(动词)”和“呢(叹词)”，在若干词语中标注候选缺失位，标注情况如下所示：候选缺失位1“我”候选缺失位2“怎么”候选缺失位3“才”候选缺失位4“可以”候选缺失位5“申请”候选缺失位6“呢”候选缺失位7，且第一预设数量为3，则第一特征包括候选缺失位1的特征，即(“我”、“怎么”和“才”)、候选缺失位2的特征，即(“我”、“怎么”、“才”和“可以”)、候选缺失位3的特征，即(“我”、“怎么”、“才”、“可以”和“申请”)、候选缺失位4的特征，即(“我”、“怎么”、“才”、“可以”、“申请”和“呢”)、候选缺失位5的特征，即(“怎么”、“才”、“可以”、“申请”和“呢”)、候选缺失位6的特征，即(“才”、“可以”、“申请”和“呢”)和候选缺失位7的特征，即(“可以”、“申请”和“呢”)。

进一步地，为进一步提高缺失位的准确率，还可以将位于每个候选缺失位前后的第一预设数量的词语和该词语的词性确定为第一特征，例如，拆分后的若干词语的候选缺失位标注情况为：候选缺失位1“我(人称代词)”候选缺失位2“怎么(副词)”候选缺失位3“才(副词)”候选缺失位4“可以(副词)”候选缺失位5“申请(动词)”候选缺失位6“呢(叹词)”候选缺失位7，且第一数量为3，则第一特征包括候选缺失位1的特征，即[词语(“我”、“怎么”和“才”)，词性(人称代词、副词和副词)]、候选缺失位2的特征，即[词语(“我”、“怎么”、“才”和“可以”)，词性(人称代词、副词、副词和副词)]、候选缺失位3的特征，即[词语(“我”、“怎么”、“才”、“可以”和“申请”)，词性(人称代词、副词、副词、副词和动词)]、候选缺失位4的特征，即[词语(“我”、“怎么”、“才”、“可以”、“申请”和“呢”)，词性(人称代词、副词、副词、副词、动词和叹词)]、候选缺失位5的特征，即[词语(“怎么”、“才”、“可以”、“申请”和“呢”)，词性(副词、副词、副词、动词和叹词)]、候选缺失位6的特征，即[词语(“才”、“可以”、“申请”和“呢”)，词性(副词、副词、动词和叹词)]和候选缺失位7的特征，即[词语(“可以”、“申请”和“呢”)，词性(副词、动词和叹词)]。具体实施中，还可以将原始语句的长度也确定为第一特征。

步骤S102，确定候选先行语集，并对候选先行语集和原始语句执行特征提取操作，以获取第二特征，且将第二特征输入至预设分类器；

本实施例中，设备确定候选先行语集，即判断原始语句所属客服对话中是否存在位于原始语句之前的语句，如果原始语句所属客服对话中存在位于原始语句之前的语句，则获取位于原始语句之前的若干语句，并将若干语句中的各名词词语确定为候选先行语集；然后对该候选先行语集和原始语句执行特征提取操作，以获取第二特征，并将该第二特征输入至预设分类器。需要说明的是，上述预设分类器可由本领域技术人员基于实际情况进行设置，本实施例对此不作具体限定，可选为XGBOOST分类器。具体地，获取原始语句所属客服对话的若干历史语句，并对该若干历史语句进行词性分析，然后依据词性分析结果，将若干历史语句中的各历史语句拆分为若干词语，并将若干词语中的各名词词语确定为候选先行语集。

具体地，对原始语句进行词性分析，并依据该词性分析结果，从原始语句中获取若干动词词语，即依据词性分析结果，将原始语句顺序拆分为若干词语，并从若干词语中提取全部动词词语，然后将候选先行语集中每个候选先行语的词向量，以及全部动词词语中各动词词语的词向量和确定为第二特征。例如，原始语句为“我怎么才可以申请呢，申请需要填写什么资料”，候选先行语集为[公司，贷款，身份]，则从原始语句获取的动词词语包含“申请”和“填写”，则将“公司”的词向量、“贷款”的词向量、“身份”的词向量和“申请”与“填写”的词向量和确定为第二特征。进一步地，为进一步提高先行语的准确率，则将候选先行语集中每个候选先行语的词向量，以及若干动词词语中各动词词语的词向量和，以及每个候选先行语所属语句与原始语句之间的间隔语句数确定为第二特征。

步骤S103，依据条件随机场模型的输出结果，确定原始语句的目标缺失位，并依据预设分类器的输出结果，确定目标先行语，且在原始语句的缺失位中填充目标先行语。

本实施例中，获取条件随机场模型的输出结果，并获取预设分类器的输出结果，然后依据条件随机场模型的输出结果，确定原始语句的缺失位，即对原始语句进行词性分析，并依据词性分析结果，将原始语句顺序拆分为若干词语，且在若干词语中标注对应数量的候选缺失位，然后从条件随机场模型的输出结果中提取各候选缺失位为目标缺失位的概率值，并将为目标缺失位的概率值最大的候选缺失位确定为目标缺失位；然后依据预设分类器的输出结果，确定目标先行语，即从预设分类器的输出结果中读取候选先行语集中各候选先行语为目标先行语的概率值，并将为目标先行语的概率值最大的候选先行语确定为目标先行语，且将在原始语句的目标缺失位中填充目标先行语。

本实施例中，本发明对接收到的原始语句执行特征提取操作，并将提取到的第一特征输入至条件随机场模型，然后确定候选先行语集，并对候选先行语集和原始语句执行特征提取操作，且将提取到的第二特征输入至预设分类器，最后依据条件随机场模型的输出结果，确定原始语句的缺失位，并依据预设分类器的输出结果，确定目标先行语，且在原始语句的缺失位中填充该目标先行语，通过上述方式，将从原始语句提取到的特征输入至条件随机场模型，从而确定缺失位，可以有效的提高缺失位的准确率和灵活性，而将先行语的确定看作是分类问题，并通过预设分类器确定目标先行语，可以有效的提高先行语的准确率和灵活性。

进一步地，参照图3，基于上述第一实施，提出了本发明语句处理方法的第二实施例，与前述实施例的区别在于，步骤S102包括：

步骤S1021，获取候选先行语集中各候选先行语所属的历史语句，并对原始语句进行词性分析，以从原始语句中获取全部动词词语；

本实施例中，在确定候选先行语集之后，获取候选先行语集中各候选先行语所属的历史语句，并对原始语句进行词性分析，以从原始语句中获取若干动词词语，即依据词性分析结果，将原始语句顺序拆分为若干单个词语，并从若干单个词语中获取全部动词词语。例如，原始语句为“我怎么才可以申请呢，申请需要填写什么资料”，则获取到的全部动词词语为“申请”和“填写”。

步骤S1022，将候选先行语集中每个候选先行语的词向量，各候选先行语所属的历史语句中位于对应候选先行语前后的第二预设数量的词语的词向量和，以及全部动词词语中各动词词语的词向量和确定为第二特征。

本实施例中，将候选先行语集中每个候选先行语的词向量，各候选先行语所属的历史语句中位于对应候选先行语前后的第二预设数量的词语的词向量和，以及全部动词词语中各动词词语的词向量和确定为第二特征。需要说明的是，上述第二预设数量可由本领域技术人员基于实际情况进行设置，本实施例对此不作具体限定，第二预设数量可选为1。

例如，原始语句为“我怎么才可以申请呢，申请需要填写什么资料”，候选先行语集为[公司，贷款，资料]，“公司”、“贷款”和“资料”词语所属历史语句均为“公司申请贷款需要提供的资料包括哪些呢”，第二预设数量为1，则从原始语句获取的动词词语包含“申请”和“填写”，历史语句中位于“公司”前后的各一词语的词向量和为“申请”的词向量，历史语句中位于“贷款”前后的各一词语的词向量和为“申请”与“需要”的词向量和，历史语句中位于“资料”前后的各一词语的词向量和为“的”与“包括”的词向量和，全部动词词语中各动词词语的词向量和为“申请”与“填写”的词向量和，因此第二特征包含“公司”的词向量、“贷款”的词向量、“资料”的词向量、“申请”的词向量、“申请”与“需要”的词向量和、的”与“包括”的词向量和以及“申请”与“填写”的词向量和。

本实施例中，本发明将候选先行语本身的词向量、候选先行语在历史语句中的前后词的词向量和以及原始问句中的动词词向量和作为特征输入至分类器，可以进一步地提高先行语的准确率。

进一步地，参照图4，基于上述第一或第二实施例，提出了本发明语句处理方法的第三实施例，与前述实施例的区别在于，步骤S103包括：

步骤S1031，从预设分类器的输出结果中读取候选先行语集中各候选先行语为目标先行语的概率值；

步骤S1032，依据各候选先行语为目标先行语的概率值，确定目标先行语。

本实施例中，从预设分类器的输出结果中读取候选先行语集中各候选先行语为目标先行语的概率值，并依据各候选先行语为目标先行语的概率值，确定目标先行语，具体地，判断各候选先行语为目标先行语的概率值中的最大概率值是否大于或等于预设阈值，如果各候选先行语为目标先行语的概率值中的最大概率值大于或等于预设阈值，则将最大概率值对应的候选先行语，确定为目标先行语，如果各候选先行语为目标先行语的概率值中的最大概率值小于预设阈值，则目标先行语为空。例如，候选先行语集为[公司，贷款，资料]，且“公司”为目标先行语的概率值为65％，“贷款”为目标先行语的概率值为90％，“资料”为目标先行语的概率值为80％，且预设阈值为85％，则最大概率值为90％，且大于预设阈值85％，因此将“贷款”确定为目标先行语。需要说明的是，上述预设阈值可由本领域技术人员基于实际情况进行设置，本实施例对此不作具体限定。

进一步地，目标缺失位的具体确定方式与目标先行语的具体确定方式类似，即从条件随机场中读取各候选缺失位为目标缺失位的概率值，并依据各候选缺失位为目标缺失位的概率值，确定原始语句的目标缺失位，具体地，判断各候选缺失位为目标缺失位的概率值中的最大概率值是否大于或等于预设概率值，如果各候选缺失位为目标缺失位的概率值中的最大概率值大于或等于预设概率值，则将最大概率值对应的候选缺失位，确定为原始语句的目标缺失位，如果各候选缺失位为目标缺失位的概率值中的最大概率值小于预设阈值，则原始语句的目标缺失位为空。

本实施例中，将最大概率值为目标先行语的候选先行语确定为目标先行语，且最大概率值大于或等于设定的阈值，可以有效的提高先行语的准确性和灵活性。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语句处理程序，所述语句处理程序被处理器执行时，执行以下步骤：

进一步地，所述语句处理程序被处理器执行时，还执行以下步骤：

本发明计算机可读存储介质的具体实施例与上述语句处理方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语句处理方法，其特征在于，所述语句处理方法包括以下步骤：

当接收到原始语句时，对所述原始语句执行特征提取操作，以获取第一特征，并将所述第一特征输入至条件随机场模型，其中，所述特征提取操作包括词性分析子操作、候选缺失位标注子操作和第一特征确定子操作；

2.如权利要求1所述的语句处理方法，其特征在于，对所述原始语句执行特征提取操作，以获取第一特征的步骤包括：

3.如权利要求2所述的语句处理方法，其特征在于，所述将位于每个候选缺失位前后的第一预设数量的词语确定为第一特征的步骤替换为以下步骤：

4.如权利要求1所述的语句处理方法，其特征在于，所述确定候选先行语集的步骤包括：

5.如权利要求1-4中任一项所述的语句处理方法，其特征在于，对所述候选先行语集和所述原始语句执行特征提取操作，以获取第二特征的步骤包括：

6.如权利要求1-4中任一项所述的语句处理方法，其特征在于，对所述候选先行语集和所述原始语句执行特征提取操作，以获取第二特征的步骤包括：

7.如权利要求1-4中任一项所述的语句处理方法，其特征在于，所述依据预设分类器的输出结果，确定目标先行语的步骤包括：

8.如权利要求7所述的语句处理方法，其特征在于，所述依据各候选先行语为目标候选语的概率值，确定目标先行语的步骤包括：

9.一种语句处理设备，其特征在于，所述语句处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语句处理程序，所述语句处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的语句处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语句处理程序，所述语句处理程序被处理器执行时实现如权利要求1至8中任一项所述的语句处理方法的步骤。