CN111159015B

CN111159015B - 定位问题的方法和装置

Info

Publication number: CN111159015B
Application number: CN201911286506.2A
Authority: CN
Inventors: 冯海军; 张春林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-01-14
Anticipated expiration: 2039-12-13
Also published as: CN111159015A

Abstract

本申请公开了定位问题的方法和装置，涉及系统开发技术领域，有助于提高开发人员解决问题的效率。该方法包括：获取目标问题单，其中，目标问题单用于描述待定位系统中发生的问题，待定位系统包括至少两个模块；基于目标问题单和数据模型，得到预测结果。其中，数据模型用于表征问题单与问题单的类别之间的对应关系，预测结果包括目标类别，所述目标类别用于指示至少两个模块中发生目标问题单所描述的问题的模块。

Description

定位问题的方法和装置

技术领域

本申请涉及系统开发技术领域，尤其涉及定位问题(bug)的方法和装置。

背景技术

在系统开发技术领域，无论硬件系统还是软件系统都不可避免会产生问题或缺陷。大型项目中，系统的测试或者系统的上线应用过程中每天都会产生大量的问题，定位问题(如确定这些问题属于系统中的哪个模块，确定负责该问题的责任人是谁等)，通常需要花费大量的时间和人力，严重影响开发人员解决该问题的效率。

当前上报问题的人员会将系统产生的问题整理成问题单。问题单中包括问题日志。问题日志为问题发生时产生的日志信息。目前，通常通过如下方法定位问题：上报问题的人员通过问题日志定位问题，若无法通过问题日志在系统中定位该问题，则对系统中可能涉及的模块和代码逐一排查。这会浪费大量的人力资源与时间成本，并且会导致开发人员解决问题的效率低下。

发明内容

本申请的实施例提供定位问题的方法和装置，有助于提高开发人员解决问题的效率。为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供一种定位问题的方法，应用于计算机设备，其特征在于，该方法包括：获取目标问题单，其中，目标问题单用于描述待定位系统中发生的问题，待定位系统包括至少两个模块。基于目标问题单和数据模型，得到预测结果。其中，数据模型用于表征问题单与问题单的类别之间的对应关系，预测结果包括目标类别，目标类别用于指示至少两个模块中发生目标问题单所描述的问题的模块。这样，使用数据模型对目标问题单进行预测，得到预测结果，可以快速定位发生目标问题单所描述的问题的模块，从而提高了开发人员解决问题的效率。

根据第一方面，在第一方面的第一种可能的实现方式中，预测结果还包括类别概率。类别概率为目标问题单所描述的问题发生在目标类别所指示的模块中的概率。

根据第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，基于目标问题单和数据模型，得到预测结果，包括：去除目标问题单中的预设字符，得到目标简要问题单。预设字符包括预定义的符号、词语或词组中的至少一种。基于目标简要问题单和数据模型，得到预测结果。这样，去除预设字符可以去掉产生干扰的字符，提高数据模型的预测效率。

根据第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，基于目标问题单和数据模型，得到预测结果，包括：对目标问题单进行分词操作。基于分词操作后的目标问题单和数据模型，得到预测结果。这样，基于目标问题单中的分词获取预测结果可以提高数据模型的预测效率。

根据第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，获取多个第一问题单与多个第一问题单中每个第一问题单的类别。对多个第一问题单进行分词操作，得到多个第二问题单，并将第一问题单的类别作为由该第一问题单得到的第二问题单的类别。训练该多个第二问题单以及多个第二问题单的类别，得到数据模型。这样通过过个第二问题单以及多个第二问题单的类别训练的数据模型，可以用于定位发生目标问题单所描述的问题的模块，从而提高了开发人员解决问题的效率。

根据第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实现方式、第一方面的第三种可能的实现方式或第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，在训练多个第二问题单以及多个第二问题单的类别，得到数据模型之前，去除多个第二问题单中的预设字符，得到多个第三问题单；预设字符为预定义的符号、词语或词组中的至少一种；将第二问题单的类别作为通过该第二问题单得到的第三问题单的类别。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：训练多个第三问题单以及多个第三问题单的类别，得到数据模型。这样，去除多个第二问题单中的预设字符，可以提高训练数据模型的效率。

根据第一方面的第四种可能的实现方式或第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，基于多个第二问题单建立分词词典；分词词典包括分词与数字标识的对应关系。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：基于分词词典训练多个第二问题单以及多个第二问题单的类别，得到数据模型。这样，在训练该多个第二问题单以生成数据模型时，基于该分词词典可以将第二问题单中的分词转换为分词词典中的数字标识，基于该数字标识训练该多个第二问题单以及多个第二问题单的类别，可以提高计算机设备训练数据模型的效率。

根据第一方面的第四种可能的实现方式、第一方面的第五种可能的实现方式或第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，确定第一分词在该第一分词所属的每个第二问题单的类别中的权重。第一分词是多个第二问题单中的任意一个分词。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：基于第一分词在第一分词所属的每个第二问题单的类别中的权重，训练多个第二问题单以及多个第二问题单的类别，得到数据模型。这样，可以提高得到的数据模型的预测准确率。

根据第一方面的第四种可能的实现方式、第一方面的第五种可能的实现方式、第一方面的第六种可能的实现方式或第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，对多个第二问题单中的每个类别的第二问题单进行过采样处理，得到多个第四问题单；将第二问题单的类别作为通过该第二问题单得到的第四问题单的类别。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：训练多个第四问题单以及多个第四问题单的类别，得到数据模型。这样，参与训练的第四问题单中，每个类别的第四问题单的数量均衡或接近均衡，可以提高得到的数据模型的预测准确率。

根据第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，对多个第二问题单中的每个类别的第二问题单进行过采样处理，包括：使用Smote算法对多个第二问题单中的每个类别的第二问题单进行过采样处理。

根据第一方面的第四种可能的实现方式、第一方面的第五种可能的实现方式、第一方面的第六种可能的实现方式、第一方面的第七种可能的实现方式、第一方面的第八种可能的实现方式或第一方面的第九种可能的实现方式，在第一方面的第十种可能的实现方式中，去除多个第二问题单中的第二分词，得到多个第五问题单。将第二问题单的类别作为通过该第二问题单得到的第五问题单的类别。其中，第二分词在大于第二阈值个第二问题单中存在，或者，第二分词在小于第三阈值个第二问题单中存在。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：训练多个第五问题单以及多个第五问题单的类别，得到数据模型。这样，计算机设备在训练数据模型时可以去除第二分词，降噪从而达到提高训练的数据模型的准确率的效果。

根据第一方面的第四种可能的实现方式、第一方面的第五种可能的实现方式、第一方面的第六种可能的实现方式、第一方面的第七种可能的实现方式、第一方面的第八种可能的实现方式、第一方面的第九种可能的实现方式或第一方面的第十种可能的实现方式，在第一方面的第十一种可能的实现方式中：对多个第二问题单进行欠采样处理，得到多个第六问题单；将第二问题单的类别作为通过该第二问题单得到的第六问题单的类别。训练多个第二问题单以及多个第二问题单的类别，得到数据模型，包括：训练多个第六问题单以及多个第六问题单的类别，得到数据模型。这样，可以进一步去除对数据模型的预测产生干扰的分词，从而提高训练的数据模型预测的准确率。

根据第一方面的第十一种可能的实现方式，在第一方面的第十二中可能的实现方式中，对多个第二问题单进行欠采样处理，包括：对多个第二问题单中的每个分词使用Tomek links算法进行欠采样处理。

第二方面，提供了一种定位问题的装置，该装置可用于执行上述第一方面的任一种方法或第一方面的任一种可能的实现方式中提供的任一种方法。示例的，该定位问题的装置可以是计算机设备(如终端设备、服务器或云端服务器)或芯片等。

根据第二方面，在第二方面的第一种可能的实现方式中，可以根据上述第一方面提供的任一种方法，对该装置进行功能模块的划分。例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。

根据第二方面、第二方面的第一种可能的实现方式中，在第二方面的第二种可能的实现方式中，该装置可以包括处理器，处理器用于执行上述第一方面提供的任一种方法。

第三方面，提供了一种计算机可读存储介质，如计算机非瞬态的可读存储介质。其上储存有计算机程序(或指令)，当该计算机程序(或指令)在计算机上运行时，使得该计算机执行上述第一方面或第一方面的任一种可能的实现方式提供的任一种方法。

第四方面，提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面或第一方面的任一种可能的实现方式提供的任一种方法被执行。

第五方面，提供了一种芯片，包括：处理器，用于从存储器中调用并运行该存储器中存储的计算机程序，执行第一方面或第一方面的任一种可能的实现方式提供的任一种方法。

可以理解的是，上述提供的任一种定位问题的装置、计算机存储介质或计算机程序产品等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

附图说明

图1为可适用于本申请实施例的计算机设备/服务器的结构示意图；

图2为本申请实施例提供的一种数据模型训练方法的流程示意图；

图3为本申请实施例提供的一种定位问题的方法的流程示意图；

图4为本申请实施例一和实施例二的一种应用场景的示意图；

图5为本申请实施例提供的一种定位问题的装置的结构示意图。

具体实施方式

如图1所示，本申请提供的技术方案所适用的一种计算机设备或服务器的结构示意图。图1所示的计算机设备10可以包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。

处理器101可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路102可包括至少一条通路，比如数据总线，和/或控制总线，用于在上述组件(如至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104)之间传送信息。

通信接口104，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如广域网(wide area network，WAN)，局域网(local area networks，LAN)等。

存储器103，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccess memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器103可以是独立存在，通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施例提供的存储器103通常包括非易失性存储器。其中，存储器103用于存储执行本申请方案的计算机指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机指令，从而实现本申请下述实施例提供的方法。

存储器103包括内存和硬盘。

可选的，本申请实施例中的计算机指令也可以称之为应用程序代码或系统，本申请实施例对此不作具体限定。

可选地，存储器103中还可以存储训练好的用于定位问题的数据模型，用于存放问题单的数据库等。

在具体实现中，作为一种实施例，计算机设备10可以包括多个处理器，这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备10还可以包括输出设备105和/或输入设备106。输出设备105和处理器101通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。

需要说明的是，图1所示的计算机设备或服务器仅为示例，其不对本申请实施例可适用的计算机设备或服务器构成限定。实际实现时，计算机设备或服务器可以包括比图1中所示的更多或更少的设备或器件。

以下，对本申请中涉及的部分术语进行解释说明：

1)、待定位系统、问题单、问题单的类别

待定位系统为可以实现一定功能的软件系统。例如：订单管理系统。待定位系统包括多个模块，这里的模块可以是指物理器件，也可以是指逻辑功能模块。

问题单用于描述待定位系统中发生的问题。一个问题的问题单可以包括该问题的问题描述、版本号、提交人、解决人等信息。

一个问题的问题单的类别用于指示待定位系统中产生该问题的模块。

2)、分词、分词词典

分词包括单词或词组。问题单中包括一个或多个分词。

分词词典包括分词与该分词转换成的数字标识之间的对应关系。

3)、其他术语

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例中，“至少一个”是指一个或多个。“多个”是指两个或两个以上。

在本申请实施例中，“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一

如图2所示，为本申请实施例提供的一种数据模型训练方法的流程示意图。示例性的，本实施例可以应用于图1所示的计算机设备。图2所示的方法可以包括以下步骤：

S101：计算机设备获取多个第一问题单与该多个第一问题单中每个第一问题单的类别。

示例性的，计算机设备获取的一个第一问题单为：“【XPT测试】：打开“GHH面板”，XPT应用模块异常退出，主要功能模块无法使用”。该第一问题单的类别为“P100”。

S102：计算机设备去除一个或多个第一问题单(如每个第一问题单)中的预设字符，得到多个第二问题单，将第一问题单的类别作为通过该第一问题单得到的第二问题单的类别。

预设字符为预定义的符号或分词中的至少一种。预定义的符号为对处理或训练问题单没有帮助的符号(如标点符号)；预设字符中的分词可以是语气助词等没有实际意义的单词或词组。示例性的，预设字符包括:“【”，“‘’”，“】”，“*”，“#”，“的”，“吧”，“系统”等。

基于S101中的示例，计算机设备去掉该第一问题单中的预设字符后得到的第二问题单可以为：“XPT测试打开GHH面板XPT应用模块异常退出主要功能模块无法使用”。

需要说明的是，S102是可选的步骤。去除每个第一问题单中的预设字符可以提高计算机设备训练数据模型的效率。

S103：计算机设备对该多个第二问题单中每个第二问题单进行分词操作，并将分词操作后的多个第二问题单中的每个第二问题单作为一个第三问题单，每个第二问题单的类别作为通过该第二问题单得到的第三问题单的类别。

在一种实现方式中，计算机设备可以使用jieba分词工具对第二问题单中的问题描述进行分词操作，得到一个或多个分词。

示例性的，基于S102中的示例，计算机设备对该第二问题单进行分词可以得到如下第三问题单：“XPT”，“测试”，“打开”，“GHH”，“面板”，“XPT”，“应用”，“模块”，“异常”，“退出”，“主要”，“功能模块”，“无法”，“使用”。

S104：计算机设备基于该多个第三问题单建立分词词典。其中，分词词典包括第三问题单中的分词(如每个分词)与数字标识的对应关系。

在一种实现方式中，计算机设备采用词袋模型对该多个第三问题单中每个第三问题单的每个分词按照字母表顺序排列，去掉重复的分词后，用数字依次对每个分词进行标识，得到分词词典。

基于S103中示例的第三问题单，该第三问题单中的每个分词对应的分词词典中的数字标识可以为：[1，10，7，0，12，1，5，9，6，11，2，4，8，3]。

S104为可选的步骤，计算机设备为该多个第三问题单建立分词词典，在训练该多个第三问题单以生成数据模型时，基于该分词词典可以将第三问题单中的分词转换为分词词典中的数字标识，基于该数字标识训练该多个第三问题单以及多个第三问题单的类别，因此可以提高计算机设备训练数据模型的效率。

S105：计算机设备基于分词词典确定该多个第三问题单中每个第三问题单中的每个分词，在该分词所属的每个第三问题单的类别中的权重。

示例性的，计算机设备中包括如下表1中的第三问题单、类别以及每个第三问题单包含的分词：

表1

问题单3	类别	分词
			第三问题单1	类别1	分词1、分词2
第三问题单2	类别1	分词1、分词3
			第三问题单3	类别2	分词4、分词5、分词6

基于表1，计算机设备分别计算分词1～3在类别1中的权重，以及分词4～6在类别2中的权重。

在一种实现方式中，计算机设备对于该多个第三问题单中的每个分词来说，采用词频逆文本频率指数(term frequency–inverse document frequency，TF-IDF)算法，计算该多个第三问题单中的每个分词在该分词所属的第三问题单的类别中的权重。

基于表1的示例，分词1在第三问题单1和第三问题单2中存在，第三问题单1与第三问题单2的类别都为类别1，在一种计算方式中，词频(TF)是分词1出现的次数除以表1中问题单包括的分词总数为1/6＝0.1667。(IDF)是问题单总数除以有多少个问题单出现过分词1。逆文本频率为lg(3/2)＝0.176。分词1在类别1中的权重为：0.1667*0.176＝0.029。

S105为可选的步骤，计算机设备确定了该多个第三问题单中每个第三问题单的每个分词在每个类别中的权重之后，可以基于每个分词在类别中的权重分析该分词在确定该分词所在的问题单的类别时的重要程度，这样可以提高得到的数据模型的预测准确率。

S106：计算机设备基于分词词典对该多个第三问题单进行过采样处理，得到多个第四问题单。具体的，以该多个第三问题单包括M个第三问题单，其中，M为大于1的整数，该M个问题单的类别共包括I个类别，其中，1≤I≤M，I为整数为例。

计算机设备使用Smote算法对该多个第三问题单中的该I个类别中每个类别的第三问题单进行过采样处理可以包括以下步骤：

第一步，计算机设备获取第一阈值。其中，第一阈值是基于该I个类别中的每个类别的第三问题单的数量确定的。

示例性的，该M个第三问题单的类别包括：类别A，类别B和类别C。其中，类别A的第三问题单的数量为900，类别B的第三问题单的数量为800，类别C的第三问题单的数量为1000。计算机设备获取的第一阈值为1000。

第二步，计算机设备获取该I个类别中的第i类别的第三问题单的数量。其中，1≤i≤I，i为整数。

基于第一步中的示例，计算机设备获取的第i类别(如：类别A)的第三问题单的数量为900。

第三步，计算机设备判断第i类别的第三问题单的数量是否小于第一阈值。若是，则执行第四步；若否，则计算机设备将I个类别中除经过过采样处理的类别之外的任意一个类别作为第I类别，重新执行第二步。

第四步，计算机设备从第i类别的不同第三问题单中获取多个不同分词，并根据该多个分词生成第i类别的第四问题单。其中，每个第四问题单包括的分词与其他第四问题单包括的分词不同。

基于第二步中的示例，第三问题单1和第三问题单2是类别A的900个第三问题单中的任意两个第三问题单。第三问题单1中包括的分词为：“XPT”“测试”“打开”“GHH”“面板”“XPT”“应用”“模块”“异常”“退出”“主要”“功能模块”“无法”“使用”。第三问题单2中包括的分词为：“打开”“GHH”“面板”“应用”“加载”“没有”“提供”“进度条”。那么，计算机设备从第三问题单1中获取分词：“GHH”“模块”“面板”“异常”，从第三问题单2中获取分词：“没有”“提供”“进度条”，生成一个第四问题单：“GHH”“模块”“面板”“异常”“没有”“提供”“进度条”，该第四问题单的类别为类别A。

计算机设备重复执行第二步至第四步，直至第i类别的第三问题单的数量与第四问题单的数量之和与第一阈值的差的绝对值小于预设值。预设值可以基于第一阈值设定。

计算机设备对I个类别中每个类别的第三问题单进行过采样处理之后，将该多个第三问题单与生成的所有第四问题单中的每个问题单作为第四问题单，将每个问题单的类别作为通过该问题单得到的第四问题单的类别。

S106为可选的步骤，计算机设备对该多个第三问题单进行过采样处理之后，得到多个第四问题单，计算机设备可以训练该多个第四问题单和每个第四问题单的类别得到数据模型。使得参与训练的第四问题单中，每个类别的第四问题单的数量均衡或接近均衡，这样可以提高得到的数据模型的预测准确率。

S107：计算机设备基于分词词典去掉该多个第四问题单中的高频词和低频词，得到多个第五问题单。计算机设备将第四问题单的类别作为通过该第四问题单得到的第五问题单的类别。其中，对于该第四问题单中的任意一个分词，若该分词在大于第二阈值个第四问题单中存在，则认为该分词为高频词。若该分词在小于第三阈值个第四问题单中存在，则认为该分词为低频词。第二阈值和第三阈值的取值是由该多个第四问题单的数量确定的。

S107为可选的步骤，去掉该多个第四问题单中的高频词和低频词之后，计算机设备在训练数据模型时可以去除高频词和低频词，降噪从而达到提高训练的数据模型的准确率的效果。

S108：计算机设备基于分词词典对该多个第五问题单进行欠采样处理，得到多个第六问题单。计算机设备将第五问题单的类别作为通过该第五问题单得到的第六问题单的类别。

具体的，计算机设备对该多个第五问题单中每个第五问题单中每个分词使用Tomek links算法进行欠采样处理包括：

步骤一：计算机设备获取目标分词所属的第五问题单的类别。其中，目标分词为该多个第五问题单中任意一个第五问题单中的任意一个分词。

示例性的，计算机设备获取的目标分词1所属的第五问题单的类别包括：类别1、类别2、类别3、类别4。

步骤二：计算机设备确定目标分词所属的第五问题单的类别的数量是否大于第四阈值，第四阈值是由该多个第五问题单的第五问题单的类别的数量确定的。

若是，则执行步骤三。若否，则将该多个第五问题单中的每个第五问题单中除进行过欠采样处理的分词之外的分词作为目标分词执行步骤一。

基于步骤一的示例，假设第五问题单的类别总共包括5个类别：类别1、类别2、类别3、类别4和类别5，那么第四阈值可以是3。计算机设备获取的目标分词1所在的第五问题单的类别的数量为4，计算机设备执行步骤三。

步骤三：计算机设备从存在该目标分词的每个第五问题单中删除目标分词。

计算机设备对该多个第五问题单中的每个第五问题单中的每个分词进行欠采样处理之后，得到多个第六问题单。

S108是可选的步骤，计算机设备对该多个第五问题单中的每个第五问题单中的每个分词进行欠采样处理，可以进一步去除对数据模型的预测产生干扰的分词，这样，可以提高训练的数据模型预测的准确率。

需要说明的是，本申请实施例中S104、S105、S106、S107、S108是可选的步骤，本申请对S104、S105、S106、S107、S108的执行顺序不进行限制。例如，在执行了S105之后再执行S104，然后执行S108，其次，执行S106、S107。

S109：计算机设备基于分词词典和每个分词在该分词所属的第六问题单的类别中的权重，训练该多个第六问题单以及多个第六问题单的类别，得到数据模型。

本实施例中，计算机设备获取多个第一问题单，去除该多个第一问题单中每个第一问题单中的预设字符得到多个第二问题单，进行分词操作得到多个第三问题单，并为每个分词建立分词词典，获取每个分词在该分词所在的问题单的类别中的权重，对多个第三问题单进行欠采样、过采样处理，去掉高频词、低频词等处理，得到多个第六问题单。计算机设备基于分词词典和每个分词在该分词所在的问题单的类别中的权重训练多个第六问题单以及多个第六问题单的类别生成数据模型。一方面提高了数据模型的训练效率，一方面数据模型可以用于预测新的问题单的类别。解决了定位待定位系统中出现的问题时，人力资源与时间等成本大的问题，从而提高了开发人员解决问题的效率。

实施例二

如图3所示，为本申请实施例提供的一种定位问题的方法的流程示意图。示例性的，本实施例可以应用于图1所示的计算机设备。图3所示的方法可以包括以下步骤：

S201：计算机设备获取目标问题单，其中，目标问题单用于描述待定位系统中发生的问题，该待定位系统包括至少两个逻辑或物理划分的模块。

在一种实现方式中，计算机设备获取待定位系统中的多个问题单中的任意一个作为目标问题单。

在另一种实现方式中，计算机设备获取用户指示的一个问题单，作为目标问题单。

示例性的，计算机设备获取人机交互界面中用户指定的当前的一个问题单作为目标问题单。目标问题单用于描述该待定位系统A中出现的一个问题。待定位系统A中包括10个逻辑划分的模块。目标问题单为：“【XPT测试】：打开“GHH面板”，XPT应用模块处理中文字符时，出现乱码”。

S202：计算机设备处理目标问题单，得到目标简要问题单。

具体的，计算机设备按照实施例一中S102-S103中的步骤处理该目标问题单。其中，S102是可选的。

基于S201中的示例，计算机设备得到的目标简要问题单可以为：“XPT”“测试”“打开”“GHH”“面板”“XPT”“应用”“模块”“处理”“中文”“字符”“时”“出现”“乱码”。

S203：计算机设备将目标简要问题单输入计算机设备中的数据模型，得到预测结果；该预测结果包括第一类别；该第一类别为目标简要问题单的类别，目标简要问题单的类别用于指示该待定位系统中产生目标问题单中描述的问题的模块。

可选的，预测结果包括多个类别以及类别概率，类别概率为目标问题单所描述的问题由预测结果中的类别产生的概率。其中，预测结果中的类别概率之和为100％。

示例性的，计算机设备将目标简要问题单输入数据模型，得到第一类别为P100，目标问题单的类别为P100的概率为80％，得到第二类别为P200，目标问题单的类别为P200的概率为20％。

本实施例中，一方面计算机设备对问题单进行预处理，另一方面计算机设备使用实施例一训练的数据模型来预测问题单中所描述的待定位系统中出现的问题的类别，提高了待定位系统中问题定位的效率，同时也提高了开发人员解决待定位系统中问题的效率。

可以理解的是，本申请实施例中的待定位系统可以与数据模型位于同一个计算机设备中，也可以位于不同的计算机设备中。本申请对此不进行限制。

需要说明的是，在具体实施时，在不冲突的前提下实施例一至实施例二中的部分或全部特征可以集合，从而得到一个新的实施例。如图4所示，为本申请实施例一和实施例二的一种应用场景。

第一步，计算机设备获取多个历史问题单以及每个历史问题单的类别。

第二步，计算机设备将该多个历史问题单拆分为两个历史问题单集合(问题单集合1和问题单集合2)。

第三步，计算机设备使用实施例一中S101-S108对问题单集合1中的问题单进行处理，生成待训练问题单集合。

第四步，计算机设备使用Naive Bayes算法、随机森林算法、GBDT算法等中的任意一种对待训练问题单集合中的每个待训练问题单以及每个待训练问题单的类别进行训练得到数据模型。

第五步，计算机设备使用实施例二中S201-S202对问题单集合2中的每个问题单进行处理，生成待测试问题单集合。

第六步，计算机设备将待测试问题单集合中的每个待测试问题单输入数据模型中，从而得到数据模型的验证结果。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对计算机设备进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图5所示，为本申请实施例提供的一种定位问题的装置的结构示意图。该定位问题的装置50可以用于执行上文中任意一个实施例(如图2、图3或图4所示的实施例)中计算机设备所执行的功能。定位问题的装置50可以包括：获取单元501、处理单元502、训练单元503和预测单元504。获取单元501用于获取目标问题单，其中，目标问题单用于描述待定位系统中发生的问题，待定位系统包括至少两个模块。预测单元504用于：基于目标问题单和数据模型，得到预测结果。其中，数据模型用于表征问题单与问题单的类别之间的对应关系，预测结果包括目标类别，目标类别用于指示至少两个模块中发生目标问题单所描述的问题的模块。例如结合图2，获取单元501可以用于执行S101。处理单元502可以用于执行S102～S108。训练单元503用于执行S109。结合图3获取单元501可以用于执行S201。处理单元502可以用于执行S202。预测单元504可以用于执行S203。

可选的，该定位问题的装置50包括存储单元505，存储单元505用于存储获取的多个问题单和/或训练得到的数据模型。

可选的，预测结果还包括类别概率，类别概率为目标问题单所描述的问题发生在目标类别所指示的模块中的概率。

可选的，该定位问题的装置还包括：处理单元502，用于去除目标问题单中的预设字符，得到目标简要问题单；预设字符包括预定义的符号、词语或词组中的至少一种。预测单元504具体用于：基于目标简要问题单和数据模型，得到预测结果。

可选的，处理单元502还用于：对目标问题单进行分词操作。预测单元504具体用于：基于分词操作后的目标问题单和数据模型，得到预测结果。

可选的，该定位问题的装置50包括训练单元503。获取单元501还用于：获取多个第一问题单与多个第一问题单中每个第一问题单的类别。处理单元502还用于：对多个第一问题单进行分词操作，得到多个第二问题单，并将第一问题单的类别作为由第一问题单得到的第二问题单的类别。训练单元503用于：训练多个第二问题单以及多个第二问题单的类别，得到数据模型。

可选的，处理单元502还用于：去除多个第二问题单中的预设字符，得到多个第三问题单。预设字符为预定义的符号、词语或词组中的至少一种；将第二问题单的类别作为通过该第二问题单得到的第三问题单的类别。训练单元503具体用于：训练多个第三问题单以及多个第三问题单的类别，得到数据模型。

可选的，处理单元502还用于：基于多个第二问题单建立分词词典。分词词典包括分词与数字标识的对应关系。训练单元503具体用于：基于分词词典训练多个第二问题单以及多个第二问题单的类别，得到数据模型。

可选的，处理单元502还用于：确定第一分词在第一分词所属的每个第二问题单的类别中的权重。第一分词是多个第二问题单中的任意一个分词。训练单元503具体用于：基于第一分词在第一分词所属的每个第二问题单的类别中的权重，训练多个第二问题单以及多个第二问题单的类别，得到数据模型。

可选的，处理单元502还用于：对多个第二问题单中的每个类别的第二问题单进行过采样处理，得到多个第四问题单。将第二问题单的类别作为通过该第二问题单得到的第四问题单的类别。训练单元503具体用于：训练多个第四问题单以及多个第四问题单的类别，得到数据模型。

可选的，处理单元502具体用于：使用Smote算法对多个第二问题单中的每个类别的第二问题单进行过采样处理。

可选的，处理单元502还用于：去除多个第二问题单中的第二分词，得到多个第五问题单。将第二问题单的类别作为通过第二问题单得到的第五问题单的类别。其中，第二分词在大于第二阈值个第二问题单中存在，或者，第二分词在小于第三阈值个第二问题单中存在。训练单元503具体用于：训练多个第五问题单以及多个第五问题单的类别，得到数据模型。

可选的，处理单元502还用于：对多个第二问题单进行欠采样处理，得到多个第六问题单。将第二问题单的类别作为通过第二问题单得到的第六问题单的类别。训练单元503具体用于：训练多个第六问题单以及多个第六问题单的类别，得到数据模型。

可选的，处理单元502具体用于：对多个第二问题单中的每个分词使用Tomeklinks算法进行欠采样处理。

在一个示例中，参见图1，上述获取单元501可以由图1中的通信接口104实现；处理单元502、训练单元503、预测单元504均可以由图1中的处理器101调用存储器103中存储的计算机程序实现。

关于上述可选方式的具体描述参见前述的方法实施例，此处不再赘述。此外，上述提供的任一种定位问题的装置50的解释以及有益效果的描述均可参考上述对应的方法实施例，不再赘述。

需要说明的是，上述各个单元对应执行的动作仅是具体举例，各个单元实际执行的动作参照上述基于图2、图3所述的实施例的描述中提及的动作或步骤。

本申请实施例还提供了一种装置(如计算机设备或芯片)，包括：存储器和处理器；该存储器用于存储计算机程序，该处理器用于调用该计算机程序，以执行上文提供的任一实施例中提及的动作或步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上文提供的任一实施例中提及的动作或步骤。

本申请实施例还提供了一种芯片。该芯片中集成了用于实现上述定位问题的装置的功能的电路和一个或者多个接口。可选的，该芯片支持的功能可以包括基于图2-图4所述的实施例中的处理动作，此处不再赘述。本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可通过程序来指令相关的硬件完成。所述的程序可以存储于一种计算机可读存储介质中。上述提到的存储介质可以是只读存储器，随机接入存储器等。上述处理单元或处理器可以是中央处理器，通用处理器、特定集成电路(application specificintegrated circuit，ASIC)、微处理器(digital signal processor，DSP)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供了一种包含指令的计算机程序产品，当该指令在计算机上运行时，使得计算机执行上述实施例中的任意一种方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solidstate disk，SSD))等。

应注意，本申请实施例提供的上述用于存储计算机指令或者计算机程序的器件，例如但不限于，上述存储器、计算机可读存储介质和通信芯片等，均具有非易失性(non-transitory)。

在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。

Claims

1.一种定位问题的方法，应用于计算机设备，其特征在于，所述方法包括：

获取目标问题单，其中，所述目标问题单用于描述待定位系统中发生的问题，所述待定位系统包括至少两个模块；

基于所述目标问题单和数据模型，得到预测结果；其中，所述数据模型用于表征问题单与问题单的类别之间的对应关系，所述预测结果包括目标类别，所述目标类别用于指示所述至少两个模块中发生所述目标问题单所描述的问题的模块；

获取多个第一问题单与所述多个第一问题单中每个第一问题单的类别；

对所述多个第一问题单进行分词操作，得到多个第二问题单，并将所述第一问题单的类别作为由所述第一问题单得到的所述第二问题单的类别；

训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型。

2.根据权利要求1所述的方法，其特征在于，所述预测结果还包括类别概率；所述类别概率为所述目标问题单所描述的问题发生在所述目标类别所指示的模块中的概率。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标问题单和数据模型，得到预测结果，包括：

去除所述目标问题单中的预设字符，得到目标简要问题单；所述预设字符包括预定义的符号、词语或词组中的至少一种；

基于所述目标简要问题单和所述数据模型，得到所述预测结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标问题单和所述数据模型，得到所述预测结果，包括：

对所述目标问题单进行分词操作；

基于分词操作后的所述目标问题单和所述数据模型，得到所述预测结果。

5.根据权利要求4所述的方法，其特征在于，在所述训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型之前，所述方法还包括：

去除所述多个第二问题单中的预设字符，得到多个第三问题单；所述预设字符为预定义的符号、词语或词组中的至少一种；将所述第二问题单的类别作为通过所述第二问题单得到的第三问题单的类别；

所述训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型，包括：

训练所述多个第三问题单以及所述多个第三问题单的类别，得到所述数据模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述多个第二问题单建立分词词典；所述分词词典包括分词与数字标识的对应关系；

基于所述分词词典训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

确定第一分词在所述第一分词所属的每个第二问题单的类别中的权重；所述第一分词是所述多个第二问题单中的任意一个分词；

基于所述第一分词在所述第一分词所属的每个第二问题单的类别中的权重，训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述多个第二问题单中的每个类别的第二问题单进行过采样处理，得到多个第四问题单；将所述第二问题单的类别作为通过所述第二问题单得到的第四问题单的类别；

训练所述多个第四问题单以及所述多个第四问题单的类别，得到所述数据模型。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

去除所述多个第二问题单中的第二分词，得到多个第五问题单；将所述第二问题单的类别作为通过所述第二问题单得到的第五问题单的类别；其中，所述第二分词在大于第二阈值个第二问题单中存在，或者，所述第二分词在小于第三阈值个第二问题单中存在；

训练所述多个第五问题单以及所述多个第五问题单的类别，得到所述数据模型。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

对所述多个第二问题单进行欠采样处理，得到多个第六问题单；将所述第二问题单的类别作为通过所述第二问题单得到的第六问题单的类别；

训练所述多个第六问题单以及所述多个第六问题单的类别，得到所述数据模型。

11.一种定位问题的装置，其特征在于，所述装置包括：

获取单元，用于获取目标问题单，其中，所述目标问题单用于描述待定位系统中发生的问题，所述待定位系统包括至少两个模块；

预测单元，基于所述目标问题单和数据模型，得到预测结果；其中，所述数据模型用于表征问题单与问题单的类别之间的对应关系，所述预测结果包括目标类别，所述目标类别用于指示所述至少两个模块中发生所述目标问题单所描述的问题的模块；

所述获取单元还用于：

处理单元：对所述多个第一问题单进行分词操作，得到多个第二问题单，并将所述第一问题单的类别作为由所述第一问题单得到的所述第二问题单的类别；

所述装置还包括训练单元：

所述训练单元用于：训练所述多个第二问题单以及所述多个第二问题单的类别，得到所述数据模型。

12.根据权利要求11所述的装置，其特征在于，所述预测结果还包括类别概率；所述类别概率为所述目标问题单所描述的问题发生在所述目标类别所指示的模块中的概率。

13.根据权利要求12所述的装置，其特征在于，

所述处理单元，还用于去除所述目标问题单中的预设字符，得到目标简要问题单；所述预设字符包括预定义的符号、词语或词组中的至少一种；

所述预测单元具体用于：基于所述目标简要问题单和所述数据模型，得到所述预测结果。

14.根据权利要求13所述的装置，其特征在于，所述处理单元还用于：

对所述目标问题单进行分词操作；

所述预测单元具体用于：基于分词操作后的所述目标问题单和所述数据模型，得到所述预测结果。

15.根据权利要求11所述的装置，其特征在于，在所述处理单元还用于：

所述训练单元具体用于：

16.根据权利要求15所述的装置，其特征在于，所述处理单元还用于：

所述训练单元具体用于：

17.根据权利要求16所述的装置，其特征在于，所述处理单元还用于：

所述训练单元具体用于：

18.根据权利要求17所述的装置，其特征在于，所述处理单元还用于：

所述训练单元具体用于：训练所述多个第四问题单以及所述多个第四问题单的类别，得到所述数据模型。

19.根据权利要求18所述的装置，其特征在于，所述处理单元还用于：

所述训练单元具体用于：

20.根据权利要求11-19任一项所述的装置，其特征在于，所述处理单元还用于：

所述训练单元具体用于：

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行权利要求1至10任一项所述的方法。