CN112307206A - 一种关于新技术的领域分类方法 - Google Patents

一种关于新技术的领域分类方法 Download PDF

Info

Publication number
CN112307206A
CN112307206A CN202011179996.9A CN202011179996A CN112307206A CN 112307206 A CN112307206 A CN 112307206A CN 202011179996 A CN202011179996 A CN 202011179996A CN 112307206 A CN112307206 A CN 112307206A
Authority
CN
China
Prior art keywords
new technology
field
new
keyword
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011179996.9A
Other languages
English (en)
Inventor
郑鑫
于德尚
陈世坤
徐楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Mengdou Network Technology Co ltd
Original Assignee
Qingdao Mengdou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Mengdou Network Technology Co ltd filed Critical Qingdao Mengdou Network Technology Co ltd
Priority to CN202011179996.9A priority Critical patent/CN112307206A/zh
Publication of CN112307206A publication Critical patent/CN112307206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种关于新技术的领域分类方法,其特征在于,包括:步骤1,对新技术提取关键词并计算关键词频率;步骤2,建立新技术领域分类模型并确定领域类别阈值;步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别。本发明的关于新技术的领域分类方法,通过计算机对新技术所属领域进行划分,优点是:根据训练集的知识学习,统计领域划分的标准。计算机自动对新技术的所属领域进行划分,能够有效提高工作效率。分类模型的可扩展性较强,同时具备学习性。具备更新能力,计算机自动计算的领域,可作为新技术领域的参考,技术所属人员可进行纠错,分类模型可根据纠错信息,不断更新,以保证更高的准确率。

Description

一种关于新技术的领域分类方法
技术领域
本发明涉及领域分类信息技术领域,具体涉及一种关于新技术的领域分类方法。
背景技术
对于新技术所属领域的划分,采用人工手动方式进行划分,其专业需求较高,需要具备一定知识的广度,同时对分类的类别比较熟悉且清晰的认知。同时,可能存在多领域应用的新技术,所以在新技术所属领域确定上,需要技术人员具备一定的经验知识和各领域的知识储备。
新技术内容中,通常是描述新技术解决的问题,以及新技术所用到的技术和材料等,用语比较简洁。采用人工分类的方法,费事费力,且因为人员流动、人员的知识储备、对知识领域划分的理解不同等原因,可能会造成新技术划分领域的偏差或不完整。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提出一种关于新技术的领域分类方法,能够替代大部分人工领域划分的工作,并且保证其精确性和划分效率。
为了解决上述问题,本发明所采用的技术方案是:
一种关于新技术的领域分类方法,其特征在于,包括如下步骤:
步骤1,对新技术提取关键词并计算关键词频率,包括:
步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;
步骤1.2:对新技术提取的关键词汇句子提取关键词;
步骤1.3:对关键词频率进行计算及统一;
步骤2,建立新技术领域分类模型并确定领域类别阈值,包括:
步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;
步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;
步骤2.3:提取关键词组合及对应词频;
步骤2.4:计算关键词的置信度;
步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;
步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别,包括:
步骤3.1:确定新技术的关键词和对应词频;
步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV值;
步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;
步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。
进一步的,所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用;保留的词性包括,名词、动名词、英语、语素词等;
所述步骤1.2对新技术的提取的关键词汇句子提取关键词,具体方法包括:利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤1.1关键词汇句子进行分词;按照对应词频,由高到低进行排序;选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频;当关键词不足K个时,以关键词的实际个数为准;
所述步骤1.3对关键词频率进行计算及统一,具体方法包括:
(1)计算新技术中关键词的频率:
Figure BDA0002749889940000031
其中,fkey为关键词key的频率,Mkey为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和;
(2)统一
采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距;
Figure BDA0002749889940000032
其中,Fkey为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。
进一步的,所述步骤2.1准备新技术训练集,其中训练集包含的内容有:
(1)新技术序号:训练集中的新技术个数为n,设定初始n的值,后续根据新技术的增加,而随之增加,以保证训练集中新技术的多样性和先进性;
(2)序号:N,是训练集中的新技术领域类别单一表示之后的数量;以下称新技术时,均表示领域类别单一表示之后的新技术;新技术训练集,是领域类别单一表示之后新技术与对应领域类别组成的训练集;
(3)领域类别:分别使用L1,L2,L3,…,Li,…,Ltn,1≤i≤tn;其中,领域类别的个数为tn,tn的值会跟随新技术领域的扩增或减少,随之发生变化;同时,一个新技术能够对应多个领域类别,即多领域应用的新技术;
(4)关键词:每个新技术的关键词个数不同,但均不超过关键词个数K;新技术中的实际关键词的个数使用k1,k2,…,ki,…,kn表示;Keyij表示,序号为i的新技术的第j个关键词。
进一步的,所述步骤2.2计算支持度,具体方法包括:
(1)领域类别的支持度:
Figure BDA0002749889940000041
其中,
Figure BDA0002749889940000042
表示新技术领域分类Li的支持度,即表示领域分类Li在新技术数据集中出现的频率;N,表示训练集中的新技术领域类别单一表示之后的数量;T表示新技术集合;
Figure BDA0002749889940000043
表示新技术领域分类为Li的新技术的数量;
(2)关键词的支持度:
Figure BDA0002749889940000044
其中,Skey,表示关键词key在新技术中出现的频率;∑T∈key T,表示包含关键词key的新技术的数量;
(3)关键词在某领域分类中的支持度:
Figure BDA0002749889940000045
其中,Skey,表示关键词key在分类属于Li的新技术中出现的频率;
Figure BDA0002749889940000046
表示包含分类属性为Li且包含关键词key的新技术数量。
进一步的,所述步骤2.3:提取关键词组合即对应词频:
Figure BDA0002749889940000047
Figure BDA0002749889940000048
其中,
Figure BDA0002749889940000049
其中,
Figure BDA00027498899400000410
表示领域类别为Li的新技术去除重叠的关键词之后的关键词集合;
Figure BDA00027498899400000411
表示领域类别为Li的关键词集合中第j个关键词;kLi,表示领域类别为Li的新技术关键词集合中关键词的个数;
Figure BDA00027498899400000412
表示领域类别为Li的新技术去除重叠的关键词之后的关键词集合对应的词频,其中
Figure BDA00027498899400000413
表示领域类别为Li的新技术关键词集合中第j个关键词对应的词频之和。
进一步的,所述步骤2.4:计算关键词的置信度:
Figure BDA0002749889940000051
其中,
Figure BDA0002749889940000052
表示新技术领域分类为Li关键词为
Figure BDA0002749889940000053
的置信度,即表示在确定新技术领域类别为Li的新技术中,关键词Keyj出现的频繁程度;
Figure BDA0002749889940000054
表示领域类别为Li的新技术中关键词key的词频之和;∑Fkey,表示关键词key在训练集新技术中的词频之和。
进一步的,所述步骤2.6:确定领域类别阈值:
Figure BDA0002749889940000055
Figure BDA0002749889940000056
其中,δ表示阈值矩阵,表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
Figure BDA0002749889940000057
表示新技术确认领域类别为Li的底线;
Figure BDA0002749889940000058
为领域类别为Li的新技术的数量;TVj表示新技术在领域类别Lj的可能性,即
Figure BDA0002749889940000059
其中,Fi表示第i个关键词的词频;
Figure BDA00027498899400000510
表示第i个关键词在其领域分类Lj中的置信度,kt表示该新技术中的关键词个数;若关键词无对应的置信度时,则该词对应的置信度设置为0;则δ为所有训练中新技术对应的TV值的最小值。
进一步的,所述步骤3.1:确定新技术的关键词和对应词频:
Figure BDA00027498899400000511
其中,ktest为新技术Ttest的实际关键词个数;Keytesti为新技术Ttest的第i个关键词;Ftesti为新技术Ttest的第i个关键词对应的词频;
进一步的,所述步骤3.2:计算新技术的对应所有类别的TV矩阵:
Figure BDA0002749889940000061
Figure BDA0002749889940000062
其中,
Figure BDA0002749889940000063
表示新技术Ttest对应领域类别Li的TV值;Ftestj,表示第j个关键词的词频;
Figure BDA0002749889940000064
表示该关键词领域类别Li的置信度;kt表示当前关键词提取的实际个数。
进一步的,所述步骤3.3:确认新技术的领域类别:
Figure BDA0002749889940000065
Figure BDA0002749889940000066
其中,Ltest,表示为确认的领域类别集合;
Figure BDA0002749889940000067
表示Litest≥0新技术Ttest的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术Ttest属于该领域类别;若Litest≥0均未成立,则将该新技术分类至,Litest值最大时对应的领域类别中。
本发明实施例提供的上述技术方案的有益效果至少包括:本发明的关于新技术的领域分类方法,通过计算机对新技术所属领域进行划分,优点如下:
(1)根据训练集的知识学习,统计领域划分的标准。
(2)计算机自动对新技术的所属领域进行划分,能够有效提高工作效率。
(3)分类模型的可扩展性较强,同时具备学习性。
(4)具备更新能力,计算机自动计算的领域,可作为新技术领域的参考,技术所属人员可进行纠错,分类模型可根据纠错信息,不断更新,以保证更高的准确率。
(5)能够积累更多的专业领域词汇,词库具备不断更新、扩展的能力,为新技术领域,提供较为完整、完善、及时的专业领域词库。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例公开的关于新技术的领域分类方法的流程图。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种关于新技术的领域分类方法,下面结合实例对本发明实施例提供的关于新技术的领域分类方法进行详细说明:
Part1:对新技术提取关键词并计算关键词频率。
步骤一:对新技术的成果简介或成果介绍提取关键词汇句子(对应于步骤1.1)。
利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库(基本词库中包含词语、词频、词性)、停用词库(筛选掉一部分无用的且在保留词性的词语),对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用(去掉某些词性的词后,并不对词语进行提取,直接将剩余的词汇按照原来的标点短句,形成关键词汇句子)。保留的词性包括,名词、动名词、英语、语素词等。
其中对于某些去掉的词性中,仅有几个多较少的词语,具有可提取的意义时,两种方式对词库进行修改补充。
(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd(柠檬豆平台动词专属),作为专属提取词语。如,制造,原词性为动词,而大部分动词不具备描述新技术的能力,但小部分如制造这类的动词词语,能够描述行业,制造行业的一个词语,因此将此类词语修改词性为vnmd。
(2)添加词性:对于新技术各个领域的专有名词,利用基础词库进行分割时,分割过于分散,如鹿血肽,利用带有词性属性的词库进行分词时,原始词性分词为:鹿,名词n;血,名词n;肽,名词性语素ng。将鹿血肽,添加到新建词性为mnmd(柠檬豆平台医药专属)的词性库中,对应词频均设置为当前基本词库中的最大词频+1,以保证当前新添词语在结巴分词计算时在成词的概率较高,增强歧义纠错能力。
举例:
原始描述:这种新技术,适用于各种家电里面的配件,抗菌、杀菌等。
提取关键词汇句子后:新技术,适用家电配件,抗菌、杀菌。
步骤二:对新技术的提取的关键词汇句子提取关键词(对应于步骤1.2)。
利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤一提取的关键词汇句子进行分词。按照对应词频,由高到低进行排序。选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频。当关键词不足K个时,以关键词的实际个数为准。暂定关键词个数K=10,后期可根据使用情况,对其进行调整。
在实际应用过程中,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤二的停用词库进行补充即可。对于步骤一中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中。
举例:
关键词汇句子:新技术,适用家电配件,抗菌、杀菌。
关键词:家电配件、抗菌、杀菌
步骤三:关键词频率计算、统一(对应于步骤1.3)。
(1)计算新技术中关键词的频率:
Figure BDA0002749889940000091
其中,fkey为关键词key的频率,Mkey为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和。
(2)统一
采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距。
Figure BDA0002749889940000092
其中,Fkey为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。
以下,提及的关键词词频,均为关键词计算统一之后的词频。
举例:
若关键词及其对应的关键词出现的个数如下:
Figure BDA0002749889940000093
则:关键词对应的频率和最终词频如下所示:
关键词 家电配件 抗菌 杀菌
频率 5/10=0.5 3/10=0.3 2/10=0.2
词频 0.5/0.5=1 0.3/0.5=0.6 0.2/0.5=0.4
Part2:建立新技术领域分类模型并确定领域类别阈值(对应于步骤2)
步骤一:新技术训练集准备(对应于步骤2.1)
训练集包含的内容:
Figure BDA0002749889940000101
(1)新技术序号:训练集中的新技术个数为n,初始n=5000,后续会根据平台新技术的增加,而随之增加,以保证训练集中新技术的多样性和先进性。
(2)序号:N,是训练集中的新技术领域类别单一表示之后的数量(原来的新技术,拆分成一个新技术对应一个类别。原来的一个新技术会因此拆分成一个或多个新技术。)。以下称新技术时,均表示领域类别单一表示之后的新技术,当前的N=5360;新技术训练集,是领域类别单一表示之后新技术与对应领域类别组成的训练集。(序号N和n的区别:n是新技术的个数,新技术存在跨领域的可能,所以一个新技术可能会对一个或多个技术分类。N是新技术单一分类以后的新技术数量。
即,训练集中的新技术数量为n=1,该新技术属于农业和制造业,则训练集的N=2)
(3)领域类别:分别使用L1,L2,L3,…,Li,…,Ltn,1≤i≤tn。其中,领域类别的个数为tn,tn的值会跟随新技术领域的扩增或减少,随之发生变化。同时,一个新技术可对应多个领域类别,即多领域应用的新技术。
(4)关键词:每个新技术的关键词个数数量不同,但均不超过关键词个数K。新技术中的实际关键词的个数使用k1,k2,…,ki,…,kn表示。Keyij表示,序号为i的新技术的第j个关键词。
步骤二:计算支持度(对应于步骤2.2)。
(1)领域类别的支持度:
Figure BDA0002749889940000111
其中,
Figure BDA0002749889940000112
表示新技术领域分类Li的支持度,即表示领域分类Li在新技术数据集中出现的频率;N,表示训练集中新技术领域类别单一表示之后的数量;T表示新技术集合;
Figure BDA0002749889940000113
表示新技术领域分类为Li的新技术的数量。
(2)关键词的支持度:
Figure BDA0002749889940000114
其中,Skey,表示关键词key在新技术中出现的频率;∑T∈key T,表示包含关键词key的新技术的数量。
(3)关键词在某领域分类中的支持度:
Figure BDA0002749889940000115
其中,Skey,表示关键词key在分类属于Li的新技术中出现的频率;
Figure BDA0002749889940000116
表示包含分类属性为Li且包含关键词key的新技术数量。
举例:
假设,总共有5000项新技术,用于家电领域的新技术有500项,包含关键词家电的新技术有600项,包含关键词杀菌的新技术700项。其中包含家电关键词的家电领域新技术有400项,包含关键词杀菌的家电领域新技术150项。
则关键词家电的支持度为:
Figure BDA0002749889940000117
关键词杀菌的支持度为:
Figure BDA0002749889940000118
分类家电领域的支持度为:
Figure BDA0002749889940000119
家电领域关键词家电的支持度:
Figure BDA00027498899400001110
家电领域关键词杀菌的支持度为:
Figure BDA00027498899400001111
步骤三:提取关键词组合即对应词频(对应于步骤2.3)。
Figure BDA0002749889940000121
Figure BDA0002749889940000122
其中,
Figure BDA0002749889940000123
其中,
Figure BDA0002749889940000124
表示领域类别为Li的新技术关键词,去除重叠的关键词之后的关键词集合;
Figure BDA0002749889940000125
表示领域类别为Li的关键词集合中第j个关键词;kLi,表示领域类别为Li的新技术关键词集合中关键词的个数;
Figure BDA0002749889940000126
表示领域类别为Li的新技术关键词,去除重叠的关键词之后的关键词集合对应的词频,其中
Figure BDA0002749889940000127
表示领域类别为Li的新技术关键词集合中第j个关键词对应的词频之和。
步骤四:计算关键词的置信度(对应于步骤2.4)。
Figure BDA0002749889940000128
其中,
Figure BDA0002749889940000129
表示新技术领域分类为Li关键词为
Figure BDA00027498899400001210
的置信度,即表示在确定新技术领域类别为Li的新技术中,关键词Keyj出现的频繁程度;
Figure BDA00027498899400001211
表示领域类别为Li的新技术中关键词key的词频之和;∑Fkey,表示关键词key在训练集新技术中的词频之和。
举例:
假设,总共有5000项新技术,用于家电领域的新技术有500项,包含关键词家电的新技术有600项,包含关键词杀菌的新技术700项。其中包含家电关键词的家电领域新技术有400项,包含关键词杀菌的家电领域新技术150项。假设家电和杀菌在相应的新技术中的词频都恰好为1。
则关键词家电在家电领域的置信度为:
Figure BDA00027498899400001212
关键词杀菌在家电领域的置信度为:
Figure BDA00027498899400001213
明显可以看出,出现关键词家电时,该新技术为家电领域新技术的可能性相较于出现关键词杀菌要高。
步骤五:领域分类模型(对应于步骤2.5)。
领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度。其中关键词的个数,不同的领域类别可能不同,也可能相同,由训练集数据决定。如下表所示:
Figure BDA0002749889940000131
举例:家电领域的关键词家电、杀菌对应的置信度为:
Figure BDA0002749889940000132
步骤六:领域类别阈值确定(对应于步骤2.6)。
Figure BDA0002749889940000133
Figure BDA0002749889940000134
其中,δ表示阈值矩阵,表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
Figure BDA0002749889940000135
表示新技术确认领域类别为Li的底线;
Figure BDA0002749889940000136
为领域类别为Li的新技术的数量;TVj表示新技术在领域类别Lj的可能性,即
Figure BDA0002749889940000137
其中,Fi表示第i个关键词的词频;
Figure BDA0002749889940000138
表示第i个关键词在其领域分类Lj中的置信度,kt表示该新技术中的关键词个数;若关键词无对应的置信度时,则该词对应的置信度设置为0;则δ为所有训练中新技术对应的TV值的最小值。
步骤七:模型更新。
定时、定期、词库发生一定变化、或领域分类纠错量到达一定数量时,对模型进行更新、调整(主要是调整关键词的个数K值)等。
由词库发生的变化,会导致提取的关键词变化,从而导致后面过程或结果的变化。所以在词库发生变化时,定期更新模型。领域分类纠错的新技术的数量积累一定的程度后,将新手机的新技术补充到训练集中,重新对领域分类模型进行训练,计算新的关键词、词频、支持度、置信度等,会对整个邻域分类模型产生影响会变化。预留新技术数据的1/10的作为测试集数据,根据测试集分类的准确率对提取的新技术关键词的个数(关键词个数:大于1,小于新技术中提取的关键词的最大值)进行调整,获得分类效果最好的关键词的个数,将作为下一阶段的关键词提取个数使用。
Part3:应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别(对应于步骤3)
步骤一:确定新技术的关键词和对应词频(对应于步骤3.1)
Figure BDA0002749889940000141
其中,ktest为新技术Ttest的实际关键词个数;Keytesti为新技术Ttest的第i个关键词;Ftesti为新技术Ttest的第i个关键词对应的词频。
步骤二:计算新技术的对应所有类别的TV矩阵(对应于步骤3.2)
Figure BDA0002749889940000142
Figure BDA0002749889940000143
其中,
Figure BDA0002749889940000144
表示新技术Ttest对应领域类别Li的TV值;Ftestj,表示第j个关键词的词频;
Figure BDA0002749889940000151
表示该关键词领域类别Li的置信度;kt表示当前关键词提取的实际个数。
步骤三:确认领域类别(对应于步骤3.3)
Figure BDA0002749889940000152
Figure BDA0002749889940000153
其中,Ltest,表示为确认的领域类别集合;
Figure BDA0002749889940000154
表示Litest≥0新技术Ttest的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术Ttest属于该领域类别。若Litest≥0均未成立,则将该新技术分类至,Litest值最大时对应的领域类别中。
步骤四:领域排序(对应于步骤3.4)
根据Litest的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。
注意:新技术的领域类别可能是多个,属性的占比或重要性会可能存在不同。
假设:
家电领域、农业领域的新技术关键词对应置信度:
Figure BDA0002749889940000155
假设各个领域类别阈值均为0.4。
则:假设新技术关键词提取及对应词频为:
家电 玉米 杀菌
1 0.3 0.3
则:该新技术在家电领域和农业领域的TV分别为:
Figure BDA0002749889940000161
Figure BDA0002749889940000162
则新技术邻域确认:
L家电=TV家电家电=0.458-0.4>0
L农业=TV农业农业=0.08-0.4<0
即该新技术属于家电领域。是否属于其他领域,则通过上述步骤进行计算确认。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (10)

1.一种关于新技术的领域分类方法,其特征在于,包括如下步骤:
步骤1,对新技术提取关键词并计算关键词频率,包括:
步骤1.1:对新技术的成果简介或成果介绍提取关键词汇句子;
步骤1.2:对新技术提取的关键词汇句子提取关键词;
步骤1.3:对关键词频率进行计算及统一;
步骤2,建立新技术领域分类模型并确定领域类别阈值,包括:
步骤2.1:准备新技术训练集;训练集包含的内容有:新技术序号、领域类别单一表示之后的新技术数量、领域类别、关键词;
步骤2.2:计算支持度;包括领域类别的支持度、关键词的支持度、关键词在某领域分类中的支持度;
步骤2.3:提取关键词组合及对应词频;
步骤2.4:计算关键词的置信度;
步骤2.5:建立领域分类模型;领域分类模型中,包含了每个领域类别对应出现的关键词以及其对应的置信度;
步骤2.6:确定领域类别阈值;领域类别阈值表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
步骤3,应用新技术领域分类模型和领域类别阈值确认新技术所属领域类别,包括:
步骤3.1:确定新技术的关键词和对应词频;
步骤3.2:计算新技术的对应所有领域类别的TV矩阵;每个领域类别对应一个TV值;
步骤3.3:确认领域类别;新技术的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术属于该领域类别;
步骤3.4:领域类别排序;根据确认的领域类别集合的值进行排序,值越高,说明新技术领域类别属性中,该领域类别属性越高。
2.如权利要求1所述的关于新技术的领域分类方法,其特征在于,所述步骤1.1对新技术的成果简介或成果介绍提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库、停用词库,对新技术进行分词,保留部分词性的词语,作为下一步新技术的描述进行使用;保留的词性包括,名词、动名词、英语、语素词;
所述步骤1.2对新技术的提取的关键词汇句子提取关键词,具体方法包括:利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤1.1关键词汇句子进行分词;按照对应词频,由高到低进行排序;选择前K个关键词作为新技术的关键词,对关键词和对应的词频进行保存,保证后续操作继续使用,表示为{Key,M},其中Key表示关键词,M表示对应的词频;当关键词不足K个时,以关键词的实际个数为准;
所述步骤1.3对关键词频率进行计算及统一,具体方法包括:
(1)计算新技术中关键词的频率:
Figure FDA0002749889930000021
其中,fkey为关键词key的频率,Mkey为关键词key在该新技术中出现的次数,∑M为该新技术中关键词的词频之和;
(2)统一
采用归一化的方法,将新技术关键词的频率进行统一,降低新技术描述中,因文字本身的数量造成的词频差距;
Figure FDA0002749889930000022
其中,Fkey为关键词key的归一化后的词频,max(f)为当前新技术中关键词频率的最大值,从而将关键词key的词频,归一化到[0,1]之间。
3.如权利要求2所述的关于新技术的领域分类方法,其特征在于,所述步骤2.1准备新技术训练集,其中训练集包含的内容有:
(1)新技术序号:训练集中的新技术个数为n,设定初始n的值,后续根据新技术的增加,而随之增加,以保证训练集中新技术的多样性和先进性;
(2)序号:N,是训练集中的新技术领域类别单一表示之后的数量;以下称新技术时,均表示领域类别单一表示之后的新技术;新技术训练集,是领域类别单一表示之后新技术与对应领域类别组成的训练集;
(3)领域类别:分别使用L1,L2,L3,…,Li,…,Ltn,l≤i≤tn;其中,领域类别的个数为tn,tn的值会跟随新技术领域的扩增或减少,随之发生变化;同时,一个新技术能够对应多个领域类别,即多领域应用的新技术;
(4)关键词:每个新技术的关键词个数不同,但均不超过关键词个数K;新技术中的实际关键词的个数使用k1,k2,…,ki,…,kn表示;Keyij表示,序号为i的新技术的第j个关键词。
4.如权利要求3所述的关于新技术的领域分类方法,其特征在于,所述步骤2.2计算支持度,具体方法包括:
(1)领域类别的支持度:
Figure FDA0002749889930000031
其中,
Figure FDA0002749889930000032
表示新技术领域分类Li的支持度,即表示领域分类Li在新技术数据集中出现的频率;N,表示训练集中的新技术,领域类别单一表示之后的数量;T表示新技术集合;
Figure FDA0002749889930000033
表示新技术领域分类为Li的新技术的数量;
(2)关键词的支持度:
Figure FDA0002749889930000034
其中,Skey,表示关键词key在新技术中出现的频率;∑T∈keyT,表示包含关键词key的新技术的数量;
(3)关键词在某领域分类中的支持度:
Figure FDA0002749889930000035
其中,Skey,表示关键词key在分类属于Li的新技术中出现的频率;
Figure FDA0002749889930000041
表示包含分类属性为Li且包含关键词key的新技术数量。
5.如权利要求4所述的关于新技术的领域分类方法,其特征在于,所述步骤2.3:提取关键词组合及对应词频:
Figure FDA0002749889930000042
Figure FDA0002749889930000043
其中,
Figure FDA0002749889930000044
其中,
Figure FDA0002749889930000045
表示领域类别为Li的新技术去除重叠的关键词之后的关键词集合;
Figure FDA0002749889930000046
表示领域类别为Li的关键词集合中第j个关键词;kLi,表示领域类别为Li的新技术关键词集合中关键词的个数;
Figure FDA0002749889930000047
表示领域类别为Li的新技术去除重叠的关键词之后的关键词集合对应的词频,其中
Figure FDA0002749889930000048
表示领域类别为Li的新技术关键词集合中第j个关键词对应的词频之和。
6.如权利要求5所述的关于新技术的领域分类方法,其特征在于,所述步骤2.4:计算关键词的置信度:
Figure FDA0002749889930000049
其中,
Figure FDA00027498899300000410
表示新技术领域分类为Li关键词为
Figure FDA00027498899300000411
的置信度,即表示在确定新技术领域类别为Li的新技术中,关键词Keyj出现的频繁程度;
Figure FDA00027498899300000412
表示领域类别为Li的新技术中关键词key的词频之和;∑Fkey,表示关键词key在训练集新技术中的词频之和。
7.如权利要求6所述的关于新技术的领域分类方法,其特征在于,所述步骤2.6:确定领域类别阈值:
Figure FDA00027498899300000413
Figure FDA00027498899300000414
其中,δ表示阈值矩阵,表示每个领域类别的确认底线,大于或等于该阈值,才能对新技术进行领域分类确认,否则,领域类别确认失败;
Figure FDA00027498899300000415
表示新技术确认领域类别为Li的底线;
Figure FDA00027498899300000416
为领域类别为Li的新技术的数量;TVj表示新技术在领域类别Lj的可能性,即
Figure FDA0002749889930000051
其中,Fi表示第i个关键词的词频;
Figure FDA0002749889930000052
表示第i个关键词在其领域分类Lj中的置信度,kt表示该新技术中的关键词个数;若关键词无对应的置信度时,则该词对应的置信度设置为0;则δ为所有训练中新技术对应的TV值的最小值。
8.如权利要求7所述的关于新技术的领域分类方法,其特征在于,所述步骤3.1:确定新技术的关键词和对应词频:
Figure FDA0002749889930000053
其中,ktest为新技术Ttest的实际关键词个数;Keytesti为新技术Ttest的第i个关键词;Ftesti为新技术Ttest的第i个关键词对应的词频。
9.如权利要求8所述的关于新技术的领域分类方法,其特征在于,所述步骤3.2:计算新技术的对应所有类别的TV矩阵:
Figure FDA0002749889930000054
Figure FDA0002749889930000055
其中,
Figure FDA0002749889930000056
表示新技术Ttest对应领域类别Li的TV值;Ftestj,表示第j个关键词的词频;
Figure FDA0002749889930000057
表示该关键词领域类别Li的置信度;kt表示当前关键词提取的实际个数。
10.如权利要求9所述的关于新技术的领域分类方法,其特征在于,所述步骤3.3:确认新技术的领域类别:
Figure FDA0002749889930000058
Figure FDA0002749889930000059
其中,Ltest,表示为确认的领域类别集合;
Figure FDA0002749889930000061
表示Litest≥0新技术Ttest的对应类别TV的计算值大于或等于该类别的阈值,即可判断该新技术Ttest属于该领域类别;若Litest≥0均未成立,则将该新技术分类至,Litest值最大时对应的领域类别中。
CN202011179996.9A 2020-10-29 2020-10-29 一种关于新技术的领域分类方法 Pending CN112307206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011179996.9A CN112307206A (zh) 2020-10-29 2020-10-29 一种关于新技术的领域分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011179996.9A CN112307206A (zh) 2020-10-29 2020-10-29 一种关于新技术的领域分类方法

Publications (1)

Publication Number Publication Date
CN112307206A true CN112307206A (zh) 2021-02-02

Family

ID=74332092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011179996.9A Pending CN112307206A (zh) 2020-10-29 2020-10-29 一种关于新技术的领域分类方法

Country Status (1)

Country Link
CN (1) CN112307206A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084022A1 (en) * 2001-11-01 2003-05-01 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US20120130927A1 (en) * 2010-11-19 2012-05-24 Kotaro Shimogori Shipping System and Method with Taxonomic Tariff Harmonization
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084022A1 (en) * 2001-11-01 2003-05-01 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US20120130927A1 (en) * 2010-11-19 2012-05-24 Kotaro Shimogori Shipping System and Method with Taxonomic Tariff Harmonization
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110955774A (zh) * 2019-11-08 2020-04-03 武汉光谷信息技术股份有限公司 基于词频分布的文字分类方法、装置、设备及介质
CN111177372A (zh) * 2019-12-06 2020-05-19 绍兴市上虞区理工高等研究院 一种科技成果的分类方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN107122346B (zh) 一种输入语句的纠错方法及装置
US9672205B2 (en) Methods and systems related to information extraction
EP2287750B1 (en) Methods and apparatus to classify text communications
US7707028B2 (en) Clustering system, clustering method, clustering program and attribute estimation system using clustering system
US7016827B1 (en) Method and system for ensuring robustness in natural language understanding
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN110232923B (zh) 一种语音控制指令生成方法、装置及电子设备
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN111241814B (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
CN109800414A (zh) 语病修正推荐方法及系统
CN111241267A (zh) 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
EP3232336A1 (en) Method and device for recognizing stop word
CN113361266A (zh) 文本纠错方法、电子设备及存储介质
CN106959943B (zh) 语种识别更新方法及装置
CN112287108B (zh) 一种物联领域的意图识别优化方法
CN113486670A (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112307206A (zh) 一种关于新技术的领域分类方法
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN115858781A (zh) 一种文本标签提取方法、装置、设备及介质
CN112215006B (zh) 机构命名实体归一化方法和系统
CN113609864A (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
CN109726286B (zh) 一种基于lda主题模型的图书自动分类方法
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication