CN116775849B

CN116775849B - 一种线上问题处理系统及方法

Info

Publication number: CN116775849B
Application number: CN202311062019.4A
Authority: CN
Inventors: 孙晓宇; 黄博; 刘方琦; 张旭林; 冯亚东; 张翔; 江培荣; 何永霞; 高飞; 罗聪国; 高小峰; 张维攀
Original assignee: Chengdu Yunlitchi Technology Co ltd
Current assignee: Chengdu Yunlitchi Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-10-24
Anticipated expiration: 2043-08-23
Also published as: CN116775849A

Abstract

本发明公开了一种线上问题处理系统及方法，属于数据处理技术领域，其系统包括问题获取单元、信息分类单元和信息匹配单元；问题获取单元用于采集各个用户的当前询问语句，提取当前询问语句的关键词；信息分类单元用于根据当前询问语句的关键词，确定当前询问语句所属类别；信息匹配单元用于根据当前询问语句所属类别，匹配对应的回答。该线上问题处理系统通过依次构建映射函数和语句分类模型，进行精确分类，不再依赖询问语句的整体信息，从而消除了询问语句中非关键词的干扰，同时也易于用户获取最准确的答案，增加整体系统的回答时效性。

Description

一种线上问题处理系统及方法

技术领域

本发明属于数据处理技术领域，具体涉及一种线上问题处理系统及方法。

背景技术

随着互联网技术的发展，越来越多的用户都会在网络中搜索信息，例如，在网络平台中输入关键信息，网络平台可以对关键信息进行分析，并向用户反馈对应的答案。随着业务的扩大，以及用户使用量的增加，线上问题的反馈变得较为困难，且由于传统线上提问都是通过人工实时回答，容易出现问题收集存在遗漏或者不及时的问题。

发明内容

本发明为了解决上述问题，提出了一种线上问题处理系统及方法。

本发明的技术方案是：一种线上问题处理系统包括问题获取单元、信息分类单元和信息匹配单元；

问题获取单元用于采集各个用户的当前询问语句，提取当前询问语句的关键词；

信息分类单元用于根据当前询问语句的关键词，确定当前询问语句所属类别；

信息匹配单元用于根据当前询问语句所属类别，匹配对应的回答。

本发明的有益效果是：

（1）该线上问题处理系统通过问题获取单元提取当前询问语句的关键词，关键词可用于对询问语句进行准确分类，便于后续步骤根据询问语句所属类别快速匹配对应的回答，提高匹配效率，减少不必要等待时间；

（2）该线上问题处理系统通过依次构建映射函数和语句分类模型，进行精确分类，不再依赖询问语句的整体信息，从而消除了询问语句中非关键词的干扰，同时也易于用户获取最准确的答案，增加整体系统的回答时效性。

进一步地，问题获取单元提取当前询问语句的关键词包括以下步骤：

对用户的当前询问语句进行分词操作，得到若干个单词，生成单词集合；

将所有用户作为用户集合，将用户集合和单词集合作为二分图的点集，生成二分图；用户集合和单词集合互不相交；

构建二分图的步长约束函数；

根据二分图的步长约束函数，在二分图上进行随机游走，确定各个用户节点在每次随机游走中的迭代步长；

提取单词集合中各个单词的TF值和IDF值，分别生成词频特征向量和逆文档特征向量；

计算各个单词的词频特征向量与逆文档特征向量的向量积，将向量积小于迭代步长的单词作为关键词。

通过用户集合和单词集合生成二分图，并构建步长约束函数，对随机游走时的步长进行限定，还可以确定词频特征向量和逆文档特征向量的向量积小于迭代步长的单词，进而作为关键词。

进一步地，二分图的步长约束函数H的表达式为：；式中，m表示二分图中当前询问语句中单词节点数量，n表示二分图中用户节点数量，α_n表示第n个用户节点的权重系数，β_m表示第m个单词节点的权重系数，ρ_l表示二分图中第l条边的权值，X表示二分图中用户集合和单词集合之间的加权系数矩阵。

进一步地，用户节点在每次随机游走中的迭代步长s的计算公式为：；式中，H表示二分图的步长约束函数，z表示随机游走的次数，ε表示极小值，T表示每次随机游走的时长。

进一步地，信息分类单元确定当前询问语句所属类别包括以下步骤：

对当前询问语句的关键词进行哈希转换，得到每个关键词的哈希值；

根据当前询问语句中每个关键词的词频特征向量、逆文档特征向量和哈希值，构建当前询问语句的映射函数；

构建语句分类模型，将当前询问语句的映射函数输入至语句分类模型中，确定当前询问语句所属类别。

进一步地，当前询问语句的映射函数G的表达式为：；式中，||·||_F表示弗罗贝尼乌斯范数函数，K表示当前询问语句中关键词数量，Y_k表示当前询问语句中第k个关键词的词频特征向量，Z_k表示当前询问语句中第k个关键词的逆文档特征向量，h_k表示当前询问语句中第k个关键词的哈希值，T表示矩阵转置。

进一步地，语句分类模型包括依次连接的输入层、映射层和分类层；

输入层用于将当前询问语句的映射函数输入至语句分类模型中；

映射层用于包括依次连接的特征矩阵生成模块和特征值生成模块；特征矩阵生成模块用于根据当前询问语句的映射函数生成当前询问语句的分类特征矩阵；特征值生成模块用于将分类特征矩阵的矩阵特征值作为当前询问语句的分类特征值。

分类层用于根据当前询问语句的分类特征值确定当前询问语句所属类别。

进一步地，分类特征矩阵A的表达式为：，式中，G表示当前询问语句的映射函数。

进一步地，分类层确定当前询问语句所属类别的具体方法为：获取数据库中各个历史询问语句中关键词的哈希值，将各个历史询问语句中所有关键词的哈希值的均值作为各个历史询问语句的分类值，并将与分类值最接近的历史询问语句所属类别作为当前询问语句所属类别。

基于以上系统，本发明还提出一种线上问题处理方法，包括以下步骤：

采集各个用户的当前询问语句，提取各个用户的当前询问语句的关键词；

根据当前询问语句的关键词，确定当前询问语句所属类别；

根据当前询问语句所属类别，匹配对应的回答。

本发明的有益效果是：该线上问题处理方法可以快速匹配对应的回答，提高匹配效率，减少不必要等待时间，消除了询问语句中非关键词的干扰，同时也易于用户获取最准确的答案，增加整体系统的回答时效性。

附图说明

图1为线上问题处理系统的结构图；

图2为线上问题处理方法的流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

如图1所示，本发明提供了一种线上问题处理系统，包括问题获取单元、信息分类单元和信息匹配单元；

数据库中存储了出现过的所有历史询问语句。

在数据库中，各个历史询问语句包含有对应的回答。在信息匹配单元中，将当前询问语句所属类别的回答作为最终答案，若用户对最终答案不满意，可再次输入询问语句，线上问题处理系统将二次输入的询问语句发送至终端，进行人工答复。

在本发明实施例中，问题获取单元提取当前询问语句的关键词包括以下步骤：

构建二分图的步长约束函数；

提取单词集合中各个单词的TF值和IDF值，分别生成词频特征向量和逆文档特征向量；IDF(逆文档频率)是一个词语普遍重要性的度量，它的大小与一个词的常见程度成反比，计算方法是语料库的文档总数除以语料库中包含该词语的文档数量，再将得到的商取对数。

在本发明实施例中，二分图的步长约束函数H的表达式为：；式中，m表示二分图中当前询问语句中单词节点数量，n表示二分图中用户节点数量，α_n表示第n个用户节点的权重系数，β_m表示第m个单词节点的权重系数，ρ_l表示二分图中第l条边的权值，X表示二分图中用户集合和单词集合之间的加权系数矩阵。

用户节点的权重系数和单词节点的权重系数可以随机设定，且所有用户节点的权重系数之和为1，在一条当前询问语句中所有单词节点的权重系数之和为1。

在本发明实施例中，用户节点在每次随机游走中的迭代步长s的计算公式为：；式中，H表示二分图的步长约束函数，z表示随机游走的次数，ε表示极小值，T表示每次随机游走的时长。

在本发明实施例中，信息分类单元确定当前询问语句所属类别包括以下步骤：

对当前询问语句的关键词进行哈希转换，得到每个关键词的哈希值；哈希算法可以将任意长度的信息转换成一个固定长度的数据；可以采用字符串哈希函数生成哈希值，让同一个类的对象按照自己不同的特征尽量的有不同的哈希值。

生成关键词的哈希值可以提高后续映射函数输入语句分类模型时的识别效率。语句分类模型采用三层，映射层生成的分类特征值可用于与历史询问语句进行大小值比较，将特征值最接近的历史询问语句所属类别作为当前询问语句的所属类别，语句分类模型充分考虑历史数据的影响，可最大程度丰富特征值，保证分类准确。

在本发明实施例中，当前询问语句的映射函数G的表达式为：；式中，||·||_F表示弗罗贝尼乌斯范数函数，K表示当前询问语句中关键词数量，Y_k表示当前询问语句中第k个关键词的词频特征向量，Z_k表示当前询问语句中第k个关键词的逆文档特征向量，h_k表示当前询问语句中第k个关键词的哈希值，T表示矩阵转置。

在本发明实施例中，语句分类模型包括依次连接的输入层、映射层和分类层；

在本发明实施例中，分类特征矩阵A的表达式为：，式中，G表示当前询问语句的映射函数。

在本发明实施例中，分类层确定当前询问语句所属类别的具体方法为：获取数据库中各个历史询问语句中关键词的哈希值，将各个历史询问语句中所有关键词的哈希值的均值作为各个历史询问语句的分类值，并将与分类值最接近的历史询问语句所属类别作为当前询问语句所属类别。

数据库中存储了历史询问语句，在数据库中，各个历史询问语句包含的信息有：关键词、关键词的哈希值以及对应的回答。所以将当前询问语句的分类特征值与历史询问语句的分类值进行匹配，其分类精度高。

基于以上系统，本发明还提出一种线上问题处理方法，如图2所示，包括以下步骤：

根据当前询问语句的关键词，确定当前询问语句所属类别；

根据当前询问语句所属类别，匹配对应的回答。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种线上问题处理系统，其特征在于，包括问题获取单元、信息分类单元和信息匹配单元；

所述问题获取单元用于采集各个用户的当前询问语句，提取当前询问语句的关键词；

所述信息分类单元用于根据当前询问语句的关键词，确定当前询问语句所属类别；

所述信息匹配单元用于根据当前询问语句所属类别，匹配对应的回答；

所述问题获取单元提取当前询问语句的关键词包括以下步骤：

将所有用户作为用户集合，将用户集合和单词集合作为二分图的点集，生成二分图；

构建二分图的步长约束函数；

计算各个单词的词频特征向量与逆文档特征向量的向量积，将向量积小于迭代步长的单词作为关键词；

所述信息分类单元确定当前询问语句所属类别包括以下步骤：

2.根据权利要求1所述的线上问题处理系统，其特征在于，所述二分图的步长约束函数H的表达式为：

；式中，m表示二分图中当前询问语句中单词节点数量，n表示二分图中用户节点数量，α_n表示第n个用户节点的权重系数，β_m表示第m个单词节点的权重系数，ρ_l表示二分图中第l条边的权值，X表示二分图中用户集合和单词集合之间的加权系数矩阵。

3.根据权利要求1所述的线上问题处理系统，其特征在于，所述用户节点在每次随机游走中的迭代步长s的计算公式为：

；式中，H表示二分图的步长约束函数，z表示随机游走的次数，ε表示极小值，T表示每次随机游走的时长。

4.根据权利要求1所述的线上问题处理系统，其特征在于，所述当前询问语句的映射函数G的表达式为：

；式中，||·||_F表示弗罗贝尼乌斯范数函数，K表示当前询问语句中关键词数量，Y_k表示当前询问语句中第k个关键词的词频特征向量，Z_k表示当前询问语句中第k个关键词的逆文档特征向量，h_k表示当前询问语句中第k个关键词的哈希值，T表示矩阵转置。

5.根据权利要求1所述的线上问题处理系统，其特征在于，所述语句分类模型包括依次连接的输入层、映射层和分类层；

所述输入层用于将当前询问语句的映射函数输入至语句分类模型中；

所述映射层用于包括依次连接的特征矩阵生成模块和特征值生成模块；所述特征矩阵生成模块用于根据当前询问语句的映射函数生成当前询问语句的分类特征矩阵；所述特征值生成模块用于将分类特征矩阵的矩阵特征值作为当前询问语句的分类特征值；

所述分类层用于根据当前询问语句的分类特征值确定当前询问语句所属类别。

6.根据权利要求5所述的线上问题处理系统，其特征在于，所述分类特征矩阵A的表达式为：

，式中，G表示当前询问语句的映射函数。

7.根据权利要求5所述的线上问题处理系统，其特征在于，所述分类层确定当前询问语句所属类别的具体方法为：获取数据库中各个历史询问语句中关键词的哈希值，将各个历史询问语句中所有关键词的哈希值的均值作为各个历史询问语句的分类值，并将与分类值最接近的历史询问语句所属类别作为当前询问语句所属类别。

8.一种线上问题处理方法，其特征在于，包括以下步骤：

根据当前询问语句的关键词，确定当前询问语句所属类别；

根据当前询问语句所属类别，匹配对应的回答；

所述线上问题处理方法基于线上问题处理系统实现，所述系统包括问题获取单元、信息分类单元和信息匹配单元；

构建二分图的步长约束函数；