CN109858006B

CN109858006B - 科目识别训练方法、装置

Info

Publication number: CN109858006B
Application number: CN201711241772.4A
Authority: CN
Inventors: 兴百桥
Original assignee: Beijing Yidu Huida Education Technology Co ltd
Current assignee: Beijing Yidu Huida Education Technology Co ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2021-04-09
Anticipated expiration: 2037-11-30
Also published as: CN109858006A

Abstract

本发明实施例提供了一种科目识别及训练方法，其中，科目识别训练方法包括：训练识别步骤：根据样本题目的各个分词在多个不同科目中的词频数值，对样本题目的科目进行识别；判断步骤：判断识别结果与样本题目的科目标记是否一致；调整训练步骤：若一致，则结束训练并输出各个分词在多个不同科目中的词频数值；若不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整；训练返回步骤：使用调整后的词频数值更新原词频数值，并返回训练识别步骤继续进行科目识别训练。通过本发明实施例，对于网络辅助学习或教学方式中学生提出的问题，降低了答疑环节实现成本。

Description

科目识别训练方法、装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种科目识别训练方法、装置，以及，一种科目识别方法、装置。

背景技术

随着计算机和互联网技术的发展，借助于计算机和网络辅助学习和教学已成为一种趋势。例如，老师可以通过该种方式进行授课、安排作业及答疑等操作，而学生则可以通过这种方式进行听课、提问、作业提交等操作。

针对其中的提问环节，目前的常规做法是为学生提供统一的入口，学生通过该入口提交自己的问题，但与现实教学不同的是，该问题被提交后，无法自动分配给相应科目的老师，需要由人工确定该问题所属科目进而为其分配该科目的老师。

由此，一方面，该网络辅助学习或教学方式无法针对学生提出的问题高效地分配相应科目的答疑老师；另一方面，因需要人力从中处理和协调，使得该网络辅助学习或教学方式的提问答疑环节实现成本较高。

发明内容

有鉴于此，本发明实施例提供了一种科目识别及识别训练方案，以解决现有技术中，网络辅助学习或教学方式无法针对学生提出的问题高效地分配相应科目的答疑老师，提问答疑环节实现成本较高的问题。

根据本发明实施例的第一方面，提供了一种科目识别训练方法，包括：训练识别步骤：根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别，其中，所述样本题目具有科目标记；判断步骤：判断识别结果与所述样本题目的科目标记是否一致；调整训练步骤：若一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整；训练返回步骤：使用调整后的词频数值更新原词频数值，并返回训练识别步骤继续进行科目识别训练。

根据本发明实施例的第二方面，还提供了一种科目识别方法，包括：接收待识别的问题题目及所述问题题目的多个分词；根据第一方面所述的科目识别训练方法所获得的各个分词在多个不同科目中的词频数值，对所述问题题目进行科目识别。

根据本发明实施例的第三方面，还提供了一种科目识别训练装置，包括：训练识别模块，用于根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别，其中，所述样本题目具有科目标记；判断模块，用于判断识别结果与所述样本题目的科目标记是否一致；调整训练模块，用于若所述判断模块的判断结果为一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若所述判断模块的判断结果为不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整；训练返回模块，用于使用调整后的词频数值更新原词频数值，并返回训练识别模块继续进行科目识别训练。

根据本发明实施例的第四方面，还提供了一种科目识别装置，包括：接收模块，用于接收待识别的问题题目及所述问题题目的多个分词；识别模块，用于根据第三方面所述的科目识别训练装置训练获得的各个分词在多个不同科目中的词频数值，对所述问题题目进行科目识别。

根据本发明实施例提供的方案，使用样本题目对实际使用中出现的问题题目的分词及分词对应的词频数值进行训练，因问题题目对应的多个科目是确定的，且每个样本题目都具有已标注好科目的科目标记，因此，训练时可以先获得每个样本题目包括的多个分词以及其中的各个分词在多个不同科目中的词频数值，根据各个分词在不同科目中的词频数值对当前样本题目的科目进行识别，若识别结果与已标注的科目标记不一致，说明需要对各个分词在不同科目的词频数值进行调整，在调整后，再次根据各个分词在不同科目中对应的调整后的词频数值进行科目识别，该调整和识别是一个循环过程，直到调整后的词频数值能够使得科目识别结果与科目标记一致为止，或者，达到设定的调整和识别次数为止。通过上述过程，在对一定数量的样本题目进行训练后，可获得较为准确的问题题目的分词及其对应的不同科目的词频数值，从而可以在后续进行未知科目的问题题目识别时，准确识别出该问题题目所属的科目。

由此，对于网络辅助学习或教学方式中学生提出的问题，可以在准确确定其科目后，高效地分配给相应科目的答疑老师进行解答，无需人工参与，降低了答疑环节实现成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一的一种科目识别训练方法的步骤流程图；

图2是根据本发明实施例二的一种科目识别方法的步骤流程图；

图3是图2所示科目识别训练方法中的一种样本题目识别处理的示意图；

图4是图2所示科目识别训练方法中的一种词频数值调整处理的示意图；

图5是根据本发明实施例三的一种科目识别训练装置的结构框图；

图6是根据本发明实施例四的一种科目识别训练装置的结构框图；

图7是根据本发明实施例五的一种科目识别装置的结构框图。

具体实施方式

当然，实施本发明实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

实施例一

参照图1，示出了根据本发明实施例一的一种科目识别训练方法的步骤流程图。

本实施例的科目识别训练方法包括以下步骤：

步骤S102：根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别。

本步骤为训练识别步骤，其中，所述样本题目具有科目标记。

样本题目库中存储有大量的样本题目，通过这些样本题目可以对实际使用中可能出现的分词及其在不同科目中的词频数值进行训练。本实施例以一个样本题目为例，对分词及其词频数值的训练进行说明，但本领域技术人员应当明了，在实际训练过程中，每一个样本题目均需经过本实施例的处理过程。在对每一个样本题目进行本实施例所示的处理后，最终形成分词的集合，集合中的每个分词都在不同科目中对应有相应的词频数值。例如，假设有语文、数学、英语三个科目，经过对所有样本题目的处理后，形成分词集合{W₁，W₂，W₃，……,W_N}则W₁在语文、数学、英语三个科目中对应的词频数值分别为{f₁₁，f₁₂，f₁₃},W₂在语文、数学、英语三个科目中对应的词频数值分别为{f₂₁，f₂₂，f₂₃},以此类推，W_N在语文、数学、英语三个科目中对应的词频数值分别为{f_N1，f_N2，f_N3}。这些分词及其对应的词频数值将用于后续对未知科目的问题题目进行科目识别。

通常情况下，多个不同科目可以由本领域技术人员根据实际需求预先设定，如，英语、数学、语文、物理、化学、地理等等；各个分词在多个不同科目中的词频数值可以通过对已有数据的统计获得，也可以从第三方获得。例如，假设统计的科目为科目C，可以首先加载存储有已有科目的题目数据库中(如样本题目库或其它存储有大量题目的数据库)科目C的题目队列，从题目队列中读取一道题目，对该题目进行分词，得到该题目的分词表：分词1、分词2、分词3、…、分词n，然后将分词表中的每个词的频数加1，接着判断题目队列中是否还有未统计词频数值的题目，如果还有题目则重复上面的操作，直到题目队列为空，最后将科目C中的所有分词及各分词对应的词频数值写入科目C的词频数值数据文件中。但不限于此，其它词频数值的获得方式也同样适用。

此外，一个样本题目中通常包括多个(本实施例中，多个意指两个或两个以上)分词，这些分词可以通过相关分词处理算法获得，本实施例对其具体实现方式不作限制。

如前所述，本实施例仅以一个样本题目为例，基于获得的该样本题目包含的多个分词，以及各个分词在不同科目中的词频数值，对该样本题目进行科目识别。本实施例中，对根据分词及其词频数值对样本题目进行科目识别的具体实现方式不作限制。需要说明的是，若某个分词之前未出现过，或者未在某个科目中出现过，可将其在相应科目中的词频数值标记为0。

步骤S104：判断识别结果与样本题目的科目标记是否一致；若一致，则执行步骤S110；若不一致，则执行步骤S106。

本步骤为判断步骤，若根据样本题目的分词及各个分词在不同科目中的词频数值识别出的科目与原始标注的科目标记所标示的科目一致，则可以初步判定当前阶段，该样本题目中的分词对应的词频数值是恰当的，暂时无须进行调整；若不一致，则需要对相应的分词对应的一个或多个不同科目中的词频数值进行调整，以使根据调整后的词频数值获得的科目识别结果与科目标记所标示的科目一致。

步骤S106：若识别结果与样本题目的科目标记不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整。

本步骤为调整训练步骤，在识别结果与样本题目的科目标记不一致时，对各个分词在多个不同科目中的词频数值进行调整。

每个分词在不同科目中具有相同或不同的词频数值，通过该分词在某一科目中的词频数值与其它科目中的词频数值之间的关系，可以确定其所属科目的可能性大小，进而对其在相应科目中的词频数值进行调整。

例如，对于分词中具有某一科目明显特征的那部分分词，如“方程”，若其在数学中具有较高的词频数值，而在语文和英语中的词频数值都很低或者均为0，则包含该分词的题目为数学题目的可能性较大，由此，可以增大“方程”在“数学”科目中的词频数值，以使后续根据该调整后的词频数值，对当前样本题目进行快速准确的科目识别。

步骤S108：使用调整后的词频数值更新原词频数值，返回步骤S102。

本步骤为训练返回步骤，在调整词频数值后，使用新的词频数值继续对当前样本题目进行科目识别训练，该过程为一个循环过程，直至步骤S104的判断结果为一致。

需要说明的是，在实际使用中，在极少数情况下，有可能步骤S104的判断结果一直为不一致，为避免这种情况的发生，还可以设定一个词频数值调整阈值，该阈值通常可以为一个调整次数，即在调整多少次后，即使判断结果为不一致，也不再进行调整，以保证训练的鲁棒性。此种情况下，在本步骤之前，还可以判断对词频数值的调整的次数是否已达到设定词频数值调整阈值；若未达到，则继续执行本步骤；若已达到，则可在使用调整后的词频数值更新原词频数值后，执行步骤S110，跳出对当前样本题目的处理，跳转至下一样本题目进行处理。

步骤S110：结束训练并输出各个分词在多个不同科目中的词频数值。

若对样本题目的科目识别结果与样本题目的科目标记一致，则可以结束本次训练并输出各个分词在多个不同科目中的词频数值。进一步地，还可以判断是否有下一样本题目，若有，则获取下一样本题目，返回步骤S102；若无，则结束全部训练流程。

使用样本题目库中的大量样本题目进行训练，在当前样本题目完成上述过程后，即可跳转至下一样本题目进行训练，直至所有样本题目训练完成。

通过本实施例，使用样本题目对实际使用中出现的问题题目的分词及分词对应的词频数值进行训练，因问题题目对应的多个科目是确定的，且每个样本题目都具有已标注好科目的科目标记，因此，训练时可以先获得每个样本题目包括的多个分词以及其中的各个分词在多个不同科目中的词频数值，根据各个分词在不同科目中的词频数值对当前样本题目的科目进行识别，若识别结果与已标注的科目标记不一致，说明需要对各个分词在不同科目的词频数值进行调整，在调整后，再次根据各个分词在不同科目中对应的调整后的词频数值进行科目识别，该调整和识别是一个循环过程，直到调整后的词频数值能够使得科目识别结果与科目标记一致为止，或者，达到设定的调整和识别次数为止。通过上述过程，在对一定数量的样本题目进行训练后，可获得较为准确的问题题目的分词及其对应的不同科目的词频数值，从而可以在后续进行未知科目的问题题目识别时，准确识别出该问题题目所属的科目。

本实施例的科目识别方法可以由任意适当的具有数据处理功能的设备或装置实现，包括但不限于各种终端及服务器等。

实施例二

参照图2，示出了根据本发明实施例二的一种科目识别方法的步骤流程图。

本实施例中，将科目识别方法分为两个阶段，第一阶段为科目识别训练阶段，包括步骤S202-步骤S214；第二阶段为应用阶段，即科目识别阶段，包括步骤S216-步骤S218。其中，科目识别训练阶段又分为训练识别阶段，包括步骤S202；以及，训练调整阶段，包括步骤S204-步骤S210。以下，具体说明。

本实施例的科目识别方法包括以下步骤：

步骤S202：根据当前样本题目的各个分词在多个不同科目中的词频数值，对样本题目的科目进行识别。

其中，所述样本题目具有科目标记，该科目标记可以在进行科目识别训练前，由人工预先进行标记，或者，通过适当的标记算法进行标记，等等。

本实施例中，仍以一个样本题目为例进行说明，其它样本题目可参照本实施例实现。

在一种可行方式中，可以根据当前样本题目的各个分词在多个不同科目中的词频数值，获得各个分词对各个科目的贡献度数值，其中，贡献度数值表示某一分词在某一科目中的词频数值与该分词在除该科目之外的其它科目中的词频数值总和的比例关系；针对每个科目，获得多个分词的贡献度数值之和；将贡献度数值之和最大的科目确定为当前样本题目的科目。通过这种方式可以提升样本题目的科目确定的准确度。

其中，根据当前样本题目的各个分词在多个不同科目中的词频数值，获得各个分词对各个科目的贡献度数值时，可以比较各个分词在不同科目中的词频数值之间的关系，例如，确定是否存在词频数值为0的科目，这样的科目的数量是否为N-1，其中N为全部科目的数量，等等。再例如，可以根据各个分词在各个科目中的词频数值，以及，在多个不同科目中的词频数值的总和，获得各个分词对各个科目的贡献度数值。通过这种方式，可以客观、准确地确定各个分词对各个科目的贡献度。

可选地，可以针对每个分词，判断当前分词在当前科目中的词频数值与在其它科目中的词频数值的总和的关系；根据所述关系修正当前分词在当前科目中的词频数值；根据修正后的词频数值，重新计算当前分词在多个不同科目中的词频数值总和；根据当前分词在当前科目中修正后的词频数值，以及，重新计算后的词频数值总和，获得当前分词对当前科目的贡献度数值。通过这种方式，可以简单快速地准确确定各个分词对各个科目的贡献度。

基于此，一种可行方式中，可以针对每个分词，判断当前分词在除当前科目外的其它科目中的词频数值是否为0；若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值修正为第三设定词频数值。这是因为，若当前分词在除当前科目外的其它科目中的词频数值总和为0，则说明该分词可能为当前样本题目的特征分词，因此，可以修正该分词的词频数值，以使其充分代表相应科目。例如，可以将当前分词在当前科目中的词频数值修正为：当前词频数值与多个不同科目的科目数量和多个分词的分词数量之和；或者，获得多个不同科目的科目数据与一个权重系数的乘积，以及，多个分词的分词数量与另一权重系数的乘积，将当前分词在当前科目中的词频数值修正为：当前词频数值与这两个乘积之和。其中，两个权重系数可以由本领域技术人员根据实际情况适当设置，两个权重系数可以相同，也可以不同，本发明实施例对此不作限制。

而若当前分词在其它科目中的词频数值总和不为0，则判断当前分词在当前科目中的词频数值是否大于当前分词在其他科目中的词频数值总和；若大于，则将当前分词在当前科目中的词频数值修正为第四设定词频数值。例如，将当前分词在当前科目中的词频数值修正为：当前词频数值与多个不同科目的科目数量之和；或者，获得多个不同科目的科目数量与一个权重系数的乘积，将当前分词在当前科目中的词频数值修正为当前词频数值与该乘积之和。其中，该权重系数可以由本领域技术人员根据实际需求适当设置，本发明实施例对此不作限制。

在对词频数值进行修正后，可以根据各个分词在各个科目中修正后的词频数值，重新计算各个分词在多个不同科目中的词频数值总和；根据各个分词在各个科目中修正后的词频数值，以及，重新计算后的词频数值总和，获得各个分词对各个科目的贡献度数值。

以下，示出了一种上述样本题目识别训练的示例，如图3所示。具体地，包括以下子步骤：

步骤S2021：加载不同科目的各科词频数值。

步骤S2022：对当前样本题目进行分词处理。

其中，分词处理可以由本领域技术人员根据实际情况采用任意适当的方式实现，本发明实施例对此不作限制。

步骤S2023：获得多个分词，即，分词1、分词2、分词3……分词n。

其中，n为大于0的自然数。

步骤S2024：从分词1到分词n中依次取第i个词。

其中，i为整数，范围从1至n，初始值为1，每处理完一个分词i加1。

步骤S2025：获取分词i在各个科目中的词频数值。

步骤S2026：计算分词i对各个科目的贡献分数。

步骤S2027：判断i是否大于n，若否，则对i加1，返回步骤S2024；若是，则计算各个科目获得的分数，将总分最高的科目确定为当前样本题目的科目。

例如，假设有m个科目，分别计算分词i对科目1、科目2、科目3……科目m的贡献分。其中，m为大于0的自然数。

在一种可行方式中，分词i在科目1到科目m中的词频数值记为f_i1、f_i2、f_i3、…、f_im，分词i在所有科目中出现的词频数值总和记为sum_fi，sum_fi＝f_i1+f_i2+f_i3+…+f_im，则分词i对科目j贡献的分数可以通过以下四步计算得到：如果sum_fi等于f_ij，则将f_ij+＝m+n；如果f_ij大于(sum_fi-f_ij)，则将f_ij+＝m；根据新的f_ij重新计算sum_fi:sum_fi＝f_i1+f_i2+f_i3+…+f_im；分词i对科目j贡献分数为f_ij/(sum_fi–f_ij+1)；最后统计各科目从分词1到分词n所得总分，总分最高的科目即为该题目的科目。其中，j为整数，范围从1至m，初始值为1，每处理完一个科目j加1。

以一个简单的例子说明上述过程，假设样本题目包括三个分词，分别为分词1、分词2和分词3，分词1在语文中的词频数值为5、分词2在语文中的词频数值为10、分词3在语文中的词频数值为7；分词1在数学中的词频数值为6、分词2在数学中的词频数值为0、分词3在数学中的词频数值为5；分词1在英语中的词频数值为3、分词2在英语中的词频数值为0、分词3在英语中的词频数值为6。基于此，分词1在所有科目中的词频数值总和sum₁＝5+6+3＝14；分词2在所有科目中的词频数值总和sum₂＝10+0+0＝10；分词3在所有科目中的词频数值总和sum₃＝7+5+6＝18。则修正词频数值后，分词1在语文中的词频数值仍为5，分词2在语文中的词频数值为：10+3+3＝16，分词3在语文中的词频数值仍为7；分词1在数学中的词频数值仍为6，分词2在数学中的词频数值仍为0，分词3在数学中的词频数值仍为5；分词1在英语中的词频数值仍为3，分词2在英语中的词频数值仍为0，分词3在英语中的词频数值仍为6；更新后的sum₁仍为14，sum₂＝16，sum₃仍为18。

基于此，分词1对语文的贡献分数为：5/(14-5+1)＝5/10，分词2对语文的贡献分数为：16/(16-16+1)＝16，分词3对语文的贡献分数为：7/(18-7+1)＝7/12；分词1对数学的贡献分数为：6/(14-6+1)＝6/9，分词2对数学的贡献分数为：0/(16-0+1)＝0，分词3对数学的贡献分数为：5/(18-5+1)＝5/14；分词1对英语的贡献分数为：3/(14-3+1)＝3/12，分词2对英语的贡献分数为：0/(16-0+1)＝0，分词3对英语的贡献分数为：6/(18-6+1)＝6/13。

则，对于语文，其总分为：5/10+16+7/12；对于数学，其总分为：6/9+0+5/14；对于英语，其总分为：3/12+0+6/13。由此可以确定语文得分最高，当前样本题目将被识别为语文题目。

通过上述过程，实现了训练过程中的科目识别。

步骤S204：判断对样本题目的科目识别结果与样本题目的科目标记是否一致；若一致，则执行步骤S212；若不一致，则执行步骤S206。

每一个样本题目都被预先进行了科目标记，若样本题目的科目识别结果与科目标记一致，则说明识别正确，若不一致，说明识别不正确，需要进行词频数值调整后继续训练。

步骤S206：若样本题目的科目识别结果与科目标记不一致，则判断对当前样本题目的词频数值调整的次数是否大于设定词频数值调整阈值，若不大于，则执行步骤S208；若大于，则执行步骤S212。

其中，设定词频数值调整阈值可以由本领域技术人员根据实际情况适当设置，本发明实施例对此不作限制。

步骤S208：当样本题目的科目识别结果与科目标记不一致，且对当前样本题目的词频数值调整的次数不大于设定词频数值调整阈值，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整。

在一种可行方式中，可以根据各个分词在某一科目中的词频数值与该分词在其它所有科目中的词频数值总和之间的关系，对各个分词在多个不同科目中的词频数值进行调整。

例如，可以针对多个分词中的每个分词，判断当前分词在除当前科目外的其它科目中的词频数值总和是否为0；若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值调整为第一设定词频数值。若当前分词在其它科目中的词频数值总和不为0，则判断当前分词在当前科目中的词频数值是否大于当前分词在其他科目中的词频数值总和；若大于，则将当前分词在当前科目中的词频数值调整为第二设定词频数值。若当前分词在其它科目中的词频数值总和不为0，且当前分词在当前科目中的词频数值不大于当前分词在其他科目中的词频数值总和时，可以不进行词频数值调整或者将当前词频数值增加一个设定数值，如增加1，等等。

其中，第一设定词频数值为：当前词频数值与多个不同科目的科目数量值、多个分词的分词数量值之和；或者，第一设定词频数值为：当前词频数值与第一乘积与第二乘积之和，其中，第一乘积为多个不同科目的科目数量值与第一权重系数的乘积；第二乘积为多个分词的分词数量值与第二权重系数的乘积。第一权重系数和第二权重系数可以由本领域技术人员根据实际情况适当设置，第一权重系数和第二权重系数可以相同，也可以不同，本发明实施例对此不作限制。

第二设定词频数值可以为：当前词频数值与多个不同科目的科目数量值之和；或者，当前词频数值与所述第三乘积之和；其中，所述第三乘积为所述多个不同科目的科目数量值与第三权重系数的乘积。其中，第三权重系数可以由本领域技术人员根据实际情况适当设置，本发明实施例对此不作限制。

通过上述词频数值调整方式，可以使调整后的词频数值更为快速地逼近准确词频数值。

以下，示出了一种上述样本题目的词频数值调整处理的示例，如图4所示。具体地，包括以下子步骤：

步骤S2081：获取待调整词频数值的当前样本题目的多个分词，即，分词1、分词2、分词3……分词n。

步骤S2082：从分词1到分词n中依次取第i个词。

步骤S2083：获取分词i在各个科目中的词频数值。

例如，假设有m个科目，分词i在科目1到科目m中的词频数值记为f_i1、f_i2、f_i3、…、f_im，分词i在所有科目中出现的词频数值总和记为sum_fi。

步骤S2084：判断除当前科目j外，分词i在其他科目中的词频数值是否均为0；若是，则f_ij+＝m+n；若否，则执行步骤S2085。

其中，j为整数，范围从1至m，初始值为1，每处理完一个科目j加1。

在判断分词i在其他科目中的词频数值是否均为0时，可以逐个科目比较判断，也可以判断其他科目中的词频数值总和是否为0，如，判断sum_fi等于f_ij，或者，判断sum_fi-f_ij是否为0。

步骤S2085：判断分词i在当前科目j中的词频数值f_ij是否大于分词i在其他科目中的词频数值总和，若是，则f_ij+＝m；若否，则执行步骤S2086。

如，可以判断f_ij大于(sum_fi-f_ij)，若大于，则f_ij+＝m。

上述步骤S2084和步骤S2085的词频数值调整的过程可以参照前述识别步骤中的词频数值修正过程，在此不再赘述。

步骤S2086：f_ij+＝1。

即，强制将该分词i在该科目j中出现的词频数值增加1，以实现词频数值的快速调整。

步骤S2087：判断i是否大于n；若否，则对i加1，返回步骤S2082；若是，则结束词频数值调整。

通过上述过程，实现了科目识别不准确时的词频数值调整训练，调整后的词频数值能够较为准确地反映其对相应科目的影响力。

步骤S210：使用调整后的词频数值更新原词频数值，并返回步骤S202。

步骤S212：判断是否还有剩余的样本题目，若有，则获取下一样本题目，并返回步骤S202；若没有，则执行步骤S214。

步骤S214：获得并保存对多个样本题目中的各个分词及各个分词在多个不同科目中的词频数值调整结果。

训练过程结束后，会获得较为稳定的参数，包括分词及各个分词在多个不同科目中的、经调整后的最终词频数值，以用于后续未知科目的题目识别。

步骤S216：接收待识别的问题题目及问题题目的多个分词。

其中，多个分词可经过任意适当的分词处理获得。

步骤S218：根据保存的各个分词及各个分词在多个不同科目中的词频数值调整结果，对问题题目进行科目识别。

也即，根据前述科目识别训练阶段训练获得的各个分词在多个不同科目中的词频数值，对问题题目进行科目识别。

需要说明的是，上述实施例一和实施例二的方案可以适用于多种不同应用方案，包括但不限于：神经网络训练和应用，除神经网络之外的其它常规程序训练和应用，等等。

实施例三

参照图5，示出了根据本发明实施例三的一种科目识别训练装置的结构框图。

本实施例的科目识别训练装置包括：训练识别模块302，用于根据样本题目的多各个分词在多个不同科目中的词频数值，对样本题目的科目进行识别，其中，所述样本题目具有科目标记；判断模块304，用于判断识别结果与所述样本题目的科目标记是否一致；调整训练模块306，用于若判断模块304的判断结果为一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若判断模块304的判断结果为不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整；训练返回模块308，用于使用调整后的词频数值更新原词频数值，并返回训练识别模块302继续进行科目识别训练。

由此，对于网络辅助学习或教学方式中学生提出的问题，可以在准确确定其科目后高效地分配给相应科目的答疑老师进行解答无需人工参与降低了答疑环节实现成本。

实施例四

参照图6，示出了根据本发明实施例四的一种科目识别训练装置的结构框图。

本实施例的科目识别训练装置包括：训练识别模块402，用于根据样本题目的各个分词在多个不同科目中的词频数值，对样本题目的科目进行识别，其中，所述样本题目具有科目标记；判断模块404，用于判断识别结果与所述样本题目的科目标记是否一致；调整训练模块406，用于若判断模块404的判断结果为一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若判断模块404的判断结果为不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整；训练返回模块408，用于使用调整后的词频数值更新原词频数值，并返回训练识别模块402继续进行科目识别训练。

可选地，调整训练模块406在判断模块404的判断结果为不一致时，根据各个分词在某一科目中的词频数值与该分词在其它所有科目中的词频数值总和的关系，对各个分词在多个不同科目中的词频数值进行调整。

可选地，调整训练模块406在判断模块404的判断结果为不一致时，针对多个分词中的每个分词，判断当前分词在除当前科目外的其它科目中的词频数值总和是否为0；若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值调整为第一设定词频数值。

可选地，第一设定词频数值为：：当前词频数值与多个不同科目的科目数量值、多个分词的分词数量值之和；或者，第一设定词频数值为：当前词频数值与第一乘积与第二乘积之和，其中，所述第一乘积为所述多个不同科目的科目数量值与第一权重系数的乘积；所述第二乘积为所述多个分词的分词数量值与第二权重系数的乘积。

可选地，调整训练模块406还用于若当前分词在其它科目中的词频数值总和不为0，则判断当前分词在当前科目中的词频数值是否大于当前分词在其他科目中的词频数值总和；若大于，则将当前分词在当前科目中的词频数值调整为第二设定词频数值。

可选地，第第二设定词频数值为：当前词频数值与多个不同科目的科目数量值之和；或者，第二设定词频数值为：当前词频数值与所述第三乘积之和；其中，所述第三乘积为所述多个不同科目的科目数量值与第三权重系数的乘积。

可选地，训练识别模块402包括：第一获取子模块4022，用于根据样本题目的各个分词在多个不同科目中的词频数值，获得各个分词对各个科目的贡献度数值，其中，所述贡献度数值表示某一分词在某一科目中的词频数值与该分词在除该科目之外的其它科目中的词频数值总和的比例关系；第二获取子模块4024，用于针对每个科目，获得多个分词的贡献度数值之和；确定子模块4026，用于将贡献度数值之和最大的科目确定为样本题目的科目。

可选地，第一获取子模块4022用于根据各个分词在各个科目中的词频数值，以及，在多个不同科目中的词频数值总和，获得各个分词对各个科目的贡献度数值。

可选地，第一获取子模块4022包括：修正单元(图中未示出)，用于针对每个分词，判断当前分词在当前科目中的词频数值与在其它科目中的词频数值总和的关系；根据所述关系修正当前分词在当前科目中的词频数值；计算单元(图中未示出)，用于根据修正后的词频数值，重新计算当前分词在所述多个不同科目中的词频数值总和；获得单元(图中未示出)，用于根据当前分词在当前科目中修正后的词频数值，以及，重新计算后的词频数值总和，获得当前分词对当前科目的贡献度数值。

可选地，修正单元用于针对每个分词，判断当前分词在除当前科目外的其它科目中的词频数值部和是否为0；若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值修正为第三设定词频数值。

可选地，修正单元还用于若当前分词在其它科目中的词频数值总和不为0，则判断当前分词在当前科目中的词频数值是否大于当前分词在其他科目中的词频数值总和；若大于，则将当前分词在当前科目中的词频数值修正为第四设定词频数值。

本实施例的科目识别训练装置用于实现前述多个方法实施例中相应的科目识别训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

参照图7，示出了根据本发明实施例五的一种科目识别装置的结构框图。

本实施例的科目识别装置包括：接收模块502，用于接收待识别的问题题目及所述问题题目的多个分词；识别模块504，用于使用实施例三或四的科目识别训练装置训练获得的各个分词在多个不同科目中的词频数值，对所述问题题目进行科目识别。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等，该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

本领域的技术人员应明白，本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种科目识别训练方法，其特征在于，包括：

训练识别步骤：根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别，其中，所述样本题目具有科目标记；

判断步骤：判断识别结果与所述样本题目的科目标记是否一致；

调整训练步骤：若一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的所述词频数值进行调整；

训练返回步骤：使用调整后的词频数值更新原词频数值，并返回训练识别步骤继续进行科目识别训练；

其中，根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的词频数值进行调整，包括：根据各个分词在某一科目中的词频数值与该分词在其它所有科目中的词频数值总和之间的关系，对各个分词在多个不同科目中的词频数值进行调整。

2.根据权利要求1所述的方法，其特征在于，所述根据各个分词在某一科目中的词频数值与该分词在其它所有科目中的词频数值总和之间的关系，对各个分词在多个不同科目中的词频数值进行调整，包括：

针对多个分词中的每个分词，判断当前分词在除当前科目外的其它科目中的词频数值总和是否为0；

若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值调整为第一设定词频数值。

3.根据权利要求2所述的方法，其特征在于，

所述第一设定词频数值为：当前词频数值与所述多个不同科目的科目数量值、所述多个分词的分词数量值之和；

或者，

所述第一设定词频数值为：当前词频数值与第一乘积与第二乘积之和，其中，所述第一乘积为所述多个不同科目的科目数量值与第一权重系数的乘积；所述第二乘积为所述多个分词的分词数量值与第二权重系数的乘积。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

若当前分词在其它科目中的词频数值总和不为0，则判断当前分词在当前科目中的词频数值是否大于当前分词在其他科目中的词频数值总和；

若大于，则将当前分词在当前科目中的词频数值调整为第二设定词频数值。

5.根据权利要求4所述的方法，其特征在于，

所述第二设定词频数值为：当前词频数值与所述多个不同科目的科目数量值之和；

或者，

所述第二设定词频数值为：当前词频数值与第三乘积之和；其中，所述第三乘积为所述多个不同科目的科目数量值与第三权重系数的乘积。

6.根据权利要求1所述的方法，其特征在于，所述根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别，包括：

根据样本题目的各个分词在多个不同科目中的词频数值，获得各个分词对各个科目的贡献度数值，其中，所述贡献度数值表示某一分词在某一科目中的词频数值与该分词在除该科目之外的其它科目中的词频数值总和的比例关系；

针对每个科目，获得多个分词的贡献度数值之和；

将贡献度数值之和最大的科目确定为所述样本题目的科目。

7.根据权利要求6所述的方法，其特征在于，所述根据样本题目的各个分词在多个不同科目中的词频数值，获得各个分词对各个科目的贡献度数值，包括：

根据各个分词在各个科目中的词频数值，以及，在所述多个不同科目中的词频数值的总和，获得各个分词对各个科目的贡献度数值。

8.根据权利要求7所述的方法，其特征在于，所述根据各个分词在各个科目中的词频数值，以及，在所述多个不同科目中的词频数值的总和，获得各个分词对各个科目的贡献度数值，包括：

针对每个分词，判断当前分词在当前科目中的词频数值与在其它科目中的词频数值总和的关系；

根据所述关系修正当前分词在当前科目中的词频数值；

根据修正后的词频数值，重新计算当前分词在所述多个不同科目中的词频数值总和；

根据当前分词在当前科目中修正后的词频数值，以及，重新计算后的词频数值总和，获得当前分词对当前科目的贡献度数值。

9.根据权利要求8所述的方法，其特征在于，针对每个分词，判断当前分词在当前科目中的词频数值与在其它科目中的词频数值的总和的关系；根据所述关系修正当前分词在当前科目中的词频数值，包括：

针对每个分词，判断当前分词在除当前科目外的其它科目中的词频数值总和是否为0；

若当前分词在其它科目中的词频数值总和为0，则将当前分词在当前科目中的词频数值修正为第三设定词频数值。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

若大于，则将当前分词在当前科目中的词频数值修正为第四设定词频数值。

11.一种科目识别方法，其特征在于，包括：

接收待识别的问题题目及所述问题题目的多个分词；

根据权利要求1-10任一项所述的科目识别训练方法所获得的各个分词在多个不同科目中的词频数值，对所述问题题目进行科目识别。

12.一种科目识别训练装置，其特征在于，包括：

训练识别模块，用于根据样本题目的各个分词在多个不同科目中的词频数值，对所述样本题目的科目进行识别，其中，所述样本题目具有科目标记；

判断模块，用于判断识别结果与所述样本题目的科目标记是否一致；

调整训练模块，用于若所述判断模块的判断结果为一致，则结束训练并输出所述各个分词在多个不同科目中的词频数值；若所述判断模块的判断结果为不一致，则根据各个分词在某一科目中的词频数值与在其它科目中的词频数值之间的关系，对各个分词在多个不同科目中的所述词频数值进行调整；

训练返回模块，用于使用调整后的词频数值更新原词频数值，并返回训练识别模块继续进行科目识别训练；

其中，所述调整训练模块在所述判断模块的判断结果为不一致时，根据各个分词在某一科目中的词频数值与该分词在其它所有科目中的词频数值总和的关系，对各个分词在多个不同科目中的词频数值进行调整。

13.一种科目识别装置，其特征在于，包括：

接收模块，用于接收待识别的问题题目及所述问题题目的多个分词；

识别模块，用于根据权利要求12所述的科目识别训练装置训练获得的各个分词在多个不同科目中的词频数值，对所述问题题目进行科目识别。