CN112307206A

CN112307206A - 一种关于新技术的领域分类方法

Info

Publication number: CN112307206A
Application number: CN202011179996.9A
Authority: CN
Inventors: 郑鑫; 于德尚; 陈世坤; 徐楠楠
Original assignee: Qingdao Mengdou Network Technology Co ltd
Current assignee: Qingdao Mengdou Network Technology Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-02

Abstract

本发明提供一种关于新技术的领域分类方法，其特征在于，包括：步骤1，对新技术提取关键词并计算关键词频率；步骤2，建立新技术领域分类模型并确定领域类别阈值；步骤3，应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别。本发明的关于新技术的领域分类方法，通过计算机对新技术所属领域进行划分，优点是：根据训练集的知识学习，统计领域划分的标准。计算机自动对新技术的所属领域进行划分，能够有效提高工作效率。分类模型的可扩展性较强，同时具备学习性。具备更新能力，计算机自动计算的领域，可作为新技术领域的参考，技术所属人员可进行纠错，分类模型可根据纠错信息，不断更新，以保证更高的准确率。

Description

一种关于新技术的领域分类方法

技术领域

本发明涉及领域分类信息技术领域，具体涉及一种关于新技术的领域分类方法。

背景技术

对于新技术所属领域的划分，采用人工手动方式进行划分，其专业需求较高，需要具备一定知识的广度，同时对分类的类别比较熟悉且清晰的认知。同时，可能存在多领域应用的新技术，所以在新技术所属领域确定上，需要技术人员具备一定的经验知识和各领域的知识储备。

新技术内容中，通常是描述新技术解决的问题，以及新技术所用到的技术和材料等，用语比较简洁。采用人工分类的方法，费事费力，且因为人员流动、人员的知识储备、对知识领域划分的理解不同等原因，可能会造成新技术划分领域的偏差或不完整。

发明内容

本发明的目的是：针对背景技术描述的问题，本发明提出一种关于新技术的领域分类方法，能够替代大部分人工领域划分的工作，并且保证其精确性和划分效率。

为了解决上述问题，本发明所采用的技术方案是：

一种关于新技术的领域分类方法，其特征在于，包括如下步骤：

步骤1，对新技术提取关键词并计算关键词频率，包括：

步骤1.1：对新技术的成果简介或成果介绍提取关键词汇句子；

步骤1.2：对新技术提取的关键词汇句子提取关键词；

步骤1.3：对关键词频率进行计算及统一；

步骤2，建立新技术领域分类模型并确定领域类别阈值，包括：

步骤2.1：准备新技术训练集；训练集包含的内容有：新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词；

步骤2.2：计算支持度；包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度；

步骤2.3：提取关键词组合及对应词频；

步骤2.4：计算关键词的置信度；

步骤2.5：建立领域分类模型；领域分类模型中，包含了每个领域类别对应出现的关键词以及其对应的置信度；

步骤2.6：确定领域类别阈值；领域类别阈值表示每个领域类别的确认底线，大于或等于该阈值，才能对新技术进行领域分类确认，否则，领域类别确认失败；

步骤3，应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别，包括：

步骤3.1：确定新技术的关键词和对应词频；

步骤3.2：计算新技术的对应所有领域类别的TV矩阵；每个领域类别对应一个TV值；

步骤3.3：确认领域类别；新技术的对应类别TV的计算值大于或等于该类别的阈值，即可判断该新技术属于该领域类别；

步骤3.4：领域类别排序；根据确认的领域类别集合的值进行排序，值越高，说明新技术领域类别属性中，该领域类别属性越高。

进一步的，所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子，具体方法包括：利用结巴分词的分词模块函数jieba.posseg.cut()，基于基本词库、停用词库，对新技术进行分词，保留部分词性的词语，作为下一步新技术的描述进行使用；保留的词性包括，名词、动名词、英语、语素词等；

所述步骤1.2对新技术的提取的关键词汇句子提取关键词，具体方法包括：利用结巴分词的分词模型函数jieba.cut()，增加专属名词库、停用词库，对步骤1.1关键词汇句子进行分词；按照对应词频，由高到低进行排序；选择前K个关键词作为新技术的关键词，对关键词和对应的词频进行保存，保证后续操作继续使用，表示为{Key，M}，其中Key表示关键词，M表示对应的词频；当关键词不足K个时，以关键词的实际个数为准；

所述步骤1.3对关键词频率进行计算及统一，具体方法包括：

(1)计算新技术中关键词的频率：

其中，f_key为关键词key的频率，M_key为关键词key在该新技术中出现的次数，∑M为该新技术中关键词的词频之和；

(2)统一

采用归一化的方法，将新技术关键词的频率进行统一，降低新技术描述中，因文字本身的数量造成的词频差距；

其中，F_key为关键词key的归一化后的词频，max(f)为当前新技术中关键词频率的最大值，从而将关键词key的词频，归一化到[0，1]之间。

进一步的，所述步骤2.1准备新技术训练集，其中训练集包含的内容有：

(1)新技术序号：训练集中的新技术个数为n，设定初始n的值，后续根据新技术的增加，而随之增加，以保证训练集中新技术的多样性和先进性；

(2)序号：N，是训练集中的新技术领域类别单一表示之后的数量；以下称新技术时，均表示领域类别单一表示之后的新技术；新技术训练集，是领域类别单一表示之后新技术与对应领域类别组成的训练集；

(3)领域类别：分别使用L₁，L₂，L₃，…，L_i，…，L_tn，1≤i≤tn；其中，领域类别的个数为tn，tn的值会跟随新技术领域的扩增或减少，随之发生变化；同时，一个新技术能够对应多个领域类别，即多领域应用的新技术；

(4)关键词：每个新技术的关键词个数不同，但均不超过关键词个数K；新技术中的实际关键词的个数使用k1，k2，…，ki，…，kn表示；Key_ij表示，序号为i的新技术的第j个关键词。

进一步的，所述步骤2.2计算支持度，具体方法包括：

(1)领域类别的支持度：

其中，

表示新技术领域分类L_i的支持度，即表示领域分类L_i在新技术数据集中出现的频率；N，表示训练集中的新技术领域类别单一表示之后的数量；T表示新技术集合；

表示新技术领域分类为L_i的新技术的数量；

(2)关键词的支持度：

其中，S_key，表示关键词key在新技术中出现的频率；∑_T∈key T，表示包含关键词key的新技术的数量；

(3)关键词在某领域分类中的支持度：

其中，S_key，表示关键词key在分类属于L_i的新技术中出现的频率；

表示包含分类属性为L_i且包含关键词key的新技术数量。

进一步的，所述步骤2.3：提取关键词组合即对应词频：

其中，

其中，

表示领域类别为L_i的新技术去除重叠的关键词之后的关键词集合；

表示领域类别为L_i的关键词集合中第j个关键词；kL_i，表示领域类别为L_i的新技术关键词集合中关键词的个数；

表示领域类别为L_i的新技术去除重叠的关键词之后的关键词集合对应的词频，其中

表示领域类别为L_i的新技术关键词集合中第j个关键词对应的词频之和。

进一步的，所述步骤2.4：计算关键词的置信度：

其中，

表示新技术领域分类为L_i关键词为

的置信度，即表示在确定新技术领域类别为L_i的新技术中，关键词Keyj出现的频繁程度；

表示领域类别为L_i的新技术中关键词key的词频之和；∑F_key，表示关键词key在训练集新技术中的词频之和。

进一步的，所述步骤2.6：确定领域类别阈值：

其中，δ表示阈值矩阵，表示每个领域类别的确认底线，大于或等于该阈值，才能对新技术进行领域分类确认，否则，领域类别确认失败；

表示新技术确认领域类别为L_i的底线；

为领域类别为L_i的新技术的数量；TV_j表示新技术在领域类别L_j的可能性，即

其中，F_i表示第i个关键词的词频；

表示第i个关键词在其领域分类L_j中的置信度，kt表示该新技术中的关键词个数；若关键词无对应的置信度时，则该词对应的置信度设置为0；则δ为所有训练中新技术对应的TV值的最小值。

进一步的，所述步骤3.1：确定新技术的关键词和对应词频：

其中，k_test为新技术T_test的实际关键词个数；Key_testi为新技术T_test的第i个关键词；F_testi为新技术T_test的第i个关键词对应的词频；

进一步的，所述步骤3.2：计算新技术的对应所有类别的TV矩阵：

其中，

表示新技术T_test对应领域类别L_i的TV值；F_testj，表示第j个关键词的词频；

表示该关键词领域类别L_i的置信度；kt表示当前关键词提取的实际个数。

进一步的，所述步骤3.3：确认新技术的领域类别：

其中，L_test，表示为确认的领域类别集合；

表示L_itest≥0新技术T_test的对应类别TV的计算值大于或等于该类别的阈值，即可判断该新技术T_test属于该领域类别；若L_itest≥0均未成立，则将该新技术分类至，L_itest值最大时对应的领域类别中。

本发明实施例提供的上述技术方案的有益效果至少包括：本发明的关于新技术的领域分类方法，通过计算机对新技术所属领域进行划分，优点如下：

(1)根据训练集的知识学习，统计领域划分的标准。

(2)计算机自动对新技术的所属领域进行划分，能够有效提高工作效率。

(3)分类模型的可扩展性较强，同时具备学习性。

(4)具备更新能力，计算机自动计算的领域，可作为新技术领域的参考，技术所属人员可进行纠错，分类模型可根据纠错信息，不断更新，以保证更高的准确率。

(5)能够积累更多的专业领域词汇，词库具备不断更新、扩展的能力，为新技术领域，提供较为完整、完善、及时的专业领域词库。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例公开的关于新技术的领域分类方法的流程图。

具体实施例

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种关于新技术的领域分类方法，下面结合实例对本发明实施例提供的关于新技术的领域分类方法进行详细说明：

Part1：对新技术提取关键词并计算关键词频率。

步骤一：对新技术的成果简介或成果介绍提取关键词汇句子(对应于步骤1.1)。

利用结巴分词的分词模块函数jieba.posseg.cut()，基于基本词库(基本词库中包含词语、词频、词性)、停用词库(筛选掉一部分无用的且在保留词性的词语)，对新技术进行分词，保留部分词性的词语，作为下一步新技术的描述进行使用(去掉某些词性的词后，并不对词语进行提取，直接将剩余的词汇按照原来的标点短句，形成关键词汇句子)。保留的词性包括，名词、动名词、英语、语素词等。

其中对于某些去掉的词性中，仅有几个多较少的词语，具有可提取的意义时，两种方式对词库进行修改补充。

(1)修改词性：对词语在词库中的词性，进行修改，定义词性为vnmd(柠檬豆平台动词专属)，作为专属提取词语。如，制造，原词性为动词，而大部分动词不具备描述新技术的能力，但小部分如制造这类的动词词语，能够描述行业，制造行业的一个词语，因此将此类词语修改词性为vnmd。

(2)添加词性：对于新技术各个领域的专有名词，利用基础词库进行分割时，分割过于分散，如鹿血肽，利用带有词性属性的词库进行分词时，原始词性分词为：鹿，名词n；血，名词n；肽，名词性语素ng。将鹿血肽，添加到新建词性为mnmd(柠檬豆平台医药专属)的词性库中，对应词频均设置为当前基本词库中的最大词频+1，以保证当前新添词语在结巴分词计算时在成词的概率较高，增强歧义纠错能力。

举例：

原始描述：这种新技术，适用于各种家电里面的配件，抗菌、杀菌等。

提取关键词汇句子后：新技术，适用家电配件，抗菌、杀菌。

步骤二：对新技术的提取的关键词汇句子提取关键词(对应于步骤1.2)。

利用结巴分词的分词模型函数jieba.cut()，增加专属名词库、停用词库，对步骤一提取的关键词汇句子进行分词。按照对应词频，由高到低进行排序。选择前K个关键词作为新技术的关键词，对关键词和对应的词频进行保存，保证后续操作继续使用，表示为{Key，M}，其中Key表示关键词，M表示对应的词频。当关键词不足K个时，以关键词的实际个数为准。暂定关键词个数K＝10，后期可根据使用情况，对其进行调整。

在实际应用过程中，积累新技术在各个领域当中的专属名词或术语，对基本词库或专属名词库进行补充；对于停用词库的补充，只对步骤二的停用词库进行补充即可。对于步骤一中未筛选成功的词语，添加到停用词库中，对这部分词语不添加在成功分词的词语当中。

举例：

关键词汇句子：新技术，适用家电配件，抗菌、杀菌。

关键词：家电配件、抗菌、杀菌

步骤三：关键词频率计算、统一(对应于步骤1.3)。

(1)计算新技术中关键词的频率：

其中，f_key为关键词key的频率，M_key为关键词key在该新技术中出现的次数，∑M为该新技术中关键词的词频之和。

(2)统一

采用归一化的方法，将新技术关键词的频率进行统一，降低新技术描述中，因文字本身的数量造成的词频差距。

以下，提及的关键词词频，均为关键词计算统一之后的词频。

举例：

若关键词及其对应的关键词出现的个数如下：

则：关键词对应的频率和最终词频如下所示：

关键词	家电配件	抗菌	杀菌
				频率	5/10＝0.5	3/10＝0.3	2/10＝0.2
词频	0.5/0.5＝1	0.3/0.5＝0.6	0.2/0.5＝0.4

Part2：建立新技术领域分类模型并确定领域类别阈值(对应于步骤2)

步骤一：新技术训练集准备(对应于步骤2.1)

训练集包含的内容：

(1)新技术序号：训练集中的新技术个数为n，初始n＝5000，后续会根据平台新技术的增加，而随之增加，以保证训练集中新技术的多样性和先进性。

(2)序号：N，是训练集中的新技术领域类别单一表示之后的数量(原来的新技术，拆分成一个新技术对应一个类别。原来的一个新技术会因此拆分成一个或多个新技术。)。以下称新技术时，均表示领域类别单一表示之后的新技术，当前的N＝5360；新技术训练集，是领域类别单一表示之后新技术与对应领域类别组成的训练集。(序号N和n的区别：n是新技术的个数，新技术存在跨领域的可能，所以一个新技术可能会对一个或多个技术分类。N是新技术单一分类以后的新技术数量。

即，训练集中的新技术数量为n＝1，该新技术属于农业和制造业，则训练集的N＝2)

(3)领域类别：分别使用L₁，L₂，L₃，…，L_i，…，L_tn，1≤i≤tn。其中，领域类别的个数为tn，tn的值会跟随新技术领域的扩增或减少，随之发生变化。同时，一个新技术可对应多个领域类别，即多领域应用的新技术。

(4)关键词：每个新技术的关键词个数数量不同，但均不超过关键词个数K。新技术中的实际关键词的个数使用k1，k2，…，ki，…，kn表示。Key_ij表示，序号为i的新技术的第j个关键词。

步骤二：计算支持度(对应于步骤2.2)。

(1)领域类别的支持度：

其中，

表示新技术领域分类L_i的支持度，即表示领域分类L_i在新技术数据集中出现的频率；N，表示训练集中新技术领域类别单一表示之后的数量；T表示新技术集合；

表示新技术领域分类为L_i的新技术的数量。

(2)关键词的支持度：

其中，S_key，表示关键词key在新技术中出现的频率；∑_T∈key T，表示包含关键词key的新技术的数量。

(3)关键词在某领域分类中的支持度：

表示包含分类属性为L_i且包含关键词key的新技术数量。

举例：

假设，总共有5000项新技术，用于家电领域的新技术有500项，包含关键词家电的新技术有600项，包含关键词杀菌的新技术700项。其中包含家电关键词的家电领域新技术有400项，包含关键词杀菌的家电领域新技术150项。

则关键词家电的支持度为：

关键词杀菌的支持度为：

分类家电领域的支持度为：

家电领域关键词家电的支持度：

家电领域关键词杀菌的支持度为：

步骤三：提取关键词组合即对应词频(对应于步骤2.3)。

其中，

其中，

表示领域类别为L_i的新技术关键词，去除重叠的关键词之后的关键词集合；

表示领域类别为L_i的新技术关键词，去除重叠的关键词之后的关键词集合对应的词频，其中

步骤四：计算关键词的置信度(对应于步骤2.4)。

其中，

表示新技术领域分类为L_i关键词为

举例：

假设，总共有5000项新技术，用于家电领域的新技术有500项，包含关键词家电的新技术有600项，包含关键词杀菌的新技术700项。其中包含家电关键词的家电领域新技术有400项，包含关键词杀菌的家电领域新技术150项。假设家电和杀菌在相应的新技术中的词频都恰好为1。

则关键词家电在家电领域的置信度为：

关键词杀菌在家电领域的置信度为：

明显可以看出，出现关键词家电时，该新技术为家电领域新技术的可能性相较于出现关键词杀菌要高。

步骤五：领域分类模型(对应于步骤2.5)。

领域分类模型中，包含了每个领域类别对应出现的关键词以及其对应的置信度。其中关键词的个数，不同的领域类别可能不同，也可能相同，由训练集数据决定。如下表所示：

举例：家电领域的关键词家电、杀菌对应的置信度为：

步骤六：领域类别阈值确定(对应于步骤2.6)。

表示新技术确认领域类别为L_i的底线；

其中，F_i表示第i个关键词的词频；

步骤七：模型更新。

定时、定期、词库发生一定变化、或领域分类纠错量到达一定数量时，对模型进行更新、调整(主要是调整关键词的个数K值)等。

由词库发生的变化，会导致提取的关键词变化，从而导致后面过程或结果的变化。所以在词库发生变化时，定期更新模型。领域分类纠错的新技术的数量积累一定的程度后，将新手机的新技术补充到训练集中，重新对领域分类模型进行训练，计算新的关键词、词频、支持度、置信度等，会对整个邻域分类模型产生影响会变化。预留新技术数据的1/10的作为测试集数据，根据测试集分类的准确率对提取的新技术关键词的个数(关键词个数：大于1，小于新技术中提取的关键词的最大值)进行调整，获得分类效果最好的关键词的个数，将作为下一阶段的关键词提取个数使用。

Part3：应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别(对应于步骤3)

步骤一：确定新技术的关键词和对应词频(对应于步骤3.1)

其中，k_test为新技术T_test的实际关键词个数；Key_testi为新技术T_test的第i个关键词；F_testi为新技术T_test的第i个关键词对应的词频。

步骤二：计算新技术的对应所有类别的TV矩阵(对应于步骤3.2)

其中，

步骤三：确认领域类别(对应于步骤3.3)

其中，L_test，表示为确认的领域类别集合；

表示L_itest≥0新技术T_test的对应类别TV的计算值大于或等于该类别的阈值，即可判断该新技术T_test属于该领域类别。若L_itest≥0均未成立，则将该新技术分类至，L_itest值最大时对应的领域类别中。

步骤四：领域排序(对应于步骤3.4)

根据L_itest的值进行排序，值越高，说明新技术领域类别属性中，该领域类别属性越高。

注意：新技术的领域类别可能是多个，属性的占比或重要性会可能存在不同。

假设：

家电领域、农业领域的新技术关键词对应置信度：

假设各个领域类别阈值均为0.4。

则：假设新技术关键词提取及对应词频为：

家电	玉米	杀菌
			1	0.3	0.3

则：该新技术在家电领域和农业领域的TV分别为：

则新技术邻域确认：

L_家电＝TV_家电-δ_家电＝0.458-0.4＞0

L_农业＝TV_农业-δ_农业＝0.08-0.4＜0

即该新技术属于家电领域。是否属于其他领域，则通过上述步骤进行计算确认。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种关于新技术的领域分类方法，其特征在于，包括如下步骤：

步骤1，对新技术提取关键词并计算关键词频率，包括：

步骤1.2：对新技术提取的关键词汇句子提取关键词；

步骤1.3：对关键词频率进行计算及统一；

步骤2.3：提取关键词组合及对应词频；

步骤2.4：计算关键词的置信度；

步骤3.1：确定新技术的关键词和对应词频；

2.如权利要求1所述的关于新技术的领域分类方法，其特征在于，所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子，具体方法包括：利用结巴分词的分词模块函数jieba.posseg.cut()，基于基本词库、停用词库，对新技术进行分词，保留部分词性的词语，作为下一步新技术的描述进行使用；保留的词性包括，名词、动名词、英语、语素词；

所述步骤1.3对关键词频率进行计算及统一，具体方法包括：

(1)计算新技术中关键词的频率：