CN113032562B - 一种多次迭代对折词汇层级分类方法及系统 - Google Patents
一种多次迭代对折词汇层级分类方法及系统 Download PDFInfo
- Publication number
- CN113032562B CN113032562B CN202110289396.6A CN202110289396A CN113032562B CN 113032562 B CN113032562 B CN 113032562B CN 202110289396 A CN202110289396 A CN 202110289396A CN 113032562 B CN113032562 B CN 113032562B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- classified
- iteration
- level
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000001174 ascending effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 6
- 239000003086 colorant Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 abstract 1
- 238000011160 research Methods 0.000 description 7
- 239000002775 capsule Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 239000000164 antipsychotic agent Substances 0.000 description 1
- 229940005529 antipsychotics Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229960002588 cefradine Drugs 0.000 description 1
- RDLPVSKMFDYCOR-UEKVPHQBSA-N cephradine Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@@H]3N(C2=O)C(=C(CS3)C)C(O)=O)=CCC=CC1 RDLPVSKMFDYCOR-UEKVPHQBSA-N 0.000 description 1
- KDLRVYVGXIQJDK-AWPVFWJPSA-N clindamycin Chemical compound CN1C[C@H](CCC)C[C@H]1C(=O)N[C@H]([C@H](C)Cl)[C@@H]1[C@H](O)[C@H](O)[C@@H](O)[C@@H](SC)O1 KDLRVYVGXIQJDK-AWPVFWJPSA-N 0.000 description 1
- 229960001200 clindamycin hydrochloride Drugs 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- POUMFISTNHIPTI-BOMBIWCESA-N hydron;(2s,4r)-n-[(1r,2r)-2-hydroxy-1-[(2r,3r,4s,5r,6r)-3,4,5-trihydroxy-6-methylsulfanyloxan-2-yl]propyl]-1-methyl-4-propylpyrrolidine-2-carboxamide;chloride Chemical compound Cl.CN1C[C@H](CCC)C[C@H]1C(=O)N[C@H]([C@@H](C)O)[C@@H]1[C@H](O)[C@H](O)[C@@H](O)[C@@H](SC)O1 POUMFISTNHIPTI-BOMBIWCESA-N 0.000 description 1
- 229960001595 lincomycin hydrochloride Drugs 0.000 description 1
- 239000003120 macrolide antibiotic agent Substances 0.000 description 1
- 229940124560 neurologic drug Drugs 0.000 description 1
- 238000005580 one pot reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种多次迭代对折词汇层级分类方法及系统,所述层级分类方法包括:计算各待分类词汇的使用频率;根据待分类词汇的使用频率对待分类词汇进行升序排列,并标注序号;根据待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值;初始化各层级的候选分界阈值;各层级的候选分界阈值为待分类词汇的总数量;根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对待分类词汇进行迭代查询,得到各层级的分界阈值;根据各层级的分界阈值,得到待分类词汇的层级分类。以词频为基准,利用大类词汇出现的频率高于小类词汇出现的频率,通过循环迭代对折的方式对词汇层级进行划分,提高了划分效率,且层级划分精准。
Description
技术领域
本发明涉及词汇分类领域,特别是涉及一种多次迭代对折词汇层级分类方法及系统。
背景技术
每个特定领域都存在海量的词汇,需要将这些词汇快速进行层级划分,以方便进行相关研究和分析。目前在词汇的研究以及词汇方法理论的探讨方面,均已做出较为丰硕的成果,取得了一定的成就,然而,对词汇的相关研究和分析还存在一些问题,如对于词汇研究的基本单位应该是什么、语言中词汇的成员是否处在同一个平面上、词汇是否应该分层次进行研究而非“一锅煮”、词汇分层研究的实践方法如何、词汇分层研究的必要性以及价值意义等。
现有的对词汇分层的方式均是利用人工基于已有经验进行逐一划分,首先找出海量词汇的一类词汇,然后再根据一类词汇找出相应的二类词汇,以此类推将所有词汇层级划分出来。(例如:药物属于一类词汇,神经药物属于二类词汇,抗精神病药物属于三类词汇以此类推)。
利用人工方式基于已有经验进行词汇层级划分,需要人在海量词汇中寻找相应层级词汇,划分效率低下。随着词汇数量的增大,人为对词汇层级划分影响会增大,存在一定误码率。
基于上述问题,亟需一种新的词汇分级方法以提高分级效率及准确度。
发明内容
本发明的目的是提供一种多次迭代对折词汇层级分类方法及系统,可自动划分词汇的层级,且提高了层级划分的效率。
为实现上述目的,本发明提供了如下方案:
一种多次迭代对折词汇层级分类方法,所述多次迭代对折词汇层级分类方法包括:
计算各待分类词汇的使用频率;各待分类词汇的领域相同;
根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号;
根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值;
初始化各层级的候选分界阈值;所述各层级的候选分界阈值为所述待分类词汇的总数量;
根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值;
根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。
可选地,采用词频-逆文本频率指数(TF-IDF,term frequency-inverse documentfrequency)算法计算所述各待分类词汇的使用频率。
可选地,所述根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值,具体包括:
针对第j级词汇的分界阈值λj,初始化第j级词汇的中间阈值迭代次数n=1、对折次数m=1、标志值f=0;其中λj-1为第j-1级词汇的的分界阈值,λ0为待分类词汇的总数量;
针对第n次迭代,初始化对折次数m=1,判断迭代次数是否大于迭代阈值,若所述迭代次数大于所述迭代阈值,将第j级词汇的候选分界阈值αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;
若所述迭代次数小于或等于所述迭代阈值,检验Δ是否是第j级词汇;
若Δ是第j级词汇,判断标志值是否为0,若标志值为0,将Δ作为第j级词汇的候选分界阈值αj,进行第n+1次迭代;若标志值为1,将Δ作为第j级词汇的候选分界阈值αj;判断是否为第一次对折,若是第一次对折,将αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;若不是第一次对折,/>进行第n+1次迭代;
若Δ不是第j级词汇,将标志值设置为1,针对第m次对折,计算第n次迭代第m次对折的阈值
返回“检验Δ是否是第j级词汇”处理。
可选地,所述各层级的分界阈值为待分类词汇对应的序号,所述各层级的分界阈值对应的词汇为各层级的词汇。
可选地,所述多次迭代对折词汇层级分类方法还包括:
获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;所述文档是网页文档;
对所述文档进行分词,去除停用词,形成待分类词汇。
可选地,所述计算各待分类词汇的使用频率,具体包括:
获取每个待分类词汇在一个文档类别中的词汇频率值TF;
获取每个待分类词汇在一个文档类别中的逆文本频率指数IDF;
计算每个待分类词汇在其文档所属的文档类别中的TF-IDF之和;
每个待分类词汇在一个文档类别中的词汇频率-逆文本频率指数TF-IDF除以所述待分类词汇在其文档所属的文档类别中的TF-IDF之和,得到的商值作为所述待分类词汇的使用频率。
可选地,在获取每个待分类词汇在一个文档类别中的词汇频率值TF后,所述计算各待分类词汇的使用频率还包括:
对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化处理。
可选地,所述层级级数至少为两级。
可选地,所述多次迭代对折词汇层级分类方法还包括:
根据所述各层级的分界阈值,将各层级的词汇设置为不同颜色。
为了实现上述目的,本发明还提供如下技术方案:
一种多次迭代对折词汇层级分类系统,所述多次迭代对折词汇层级分类系统包括:
计算单元,用于计算各待分类词汇的使用频率;
排序单元,与所述计算单元连接,用于根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号;
初始化单元,用于根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值,以及初始化各层级的候选分界阈值;所述各层级的候选分界阈值为所述待分类词汇的总数量;
迭代单元,分别与所述排序单元及所述初始化单元连接,用于根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值;
层级分类单元,与所述迭代单元连接,用于根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。
根据本发明提供的具体实施例,本发明公开了以下技术效果:通过以词频为基准,利用大类词汇出现的频率高于小类词汇出现的频率,通过循环迭代对折的方式对词汇层级进行划分,相对于纯人工划分提高了划分效率,且不会随着词汇量的增大导致误码率随之增加。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多次迭代对折词汇层级分类方法的流程图;
图2为计算各待分类词汇的使用频率的流程图;
图3为本发明多次迭代对折词汇层级分类系统的模块结构示意图。
符号说明:
计算单元-1,排序单元-2,初始化单元-3,迭代单元-4,层级分类单元-5。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多次迭代对折词汇层级分类方法及系统,通过以词频为基准,利用大类词汇出现的频率高于小类词汇出现的频率,对词汇层级进行划分,相对于纯人工划分提高了划分效率,且不会随着词汇量的增大导致误码率随之增加。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明多次迭代对折词汇层级分类方法包括:
S1:计算各待分类词汇的使用频率;各待分类词汇的领域相同。
S2:根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号。
S3:根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值。可选地,所述层级级数至少为两级。
S4:初始化各层级初始分界阈值;所述各层级初始分界阈值为所述待分类词汇的总数量。
S5:根据各层级初始分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值。
S6:根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。具体地,所述各层级的分界阈值为待分类词汇对应的序号,所述各层级的分界阈值对应的词汇为各层级的词汇。
本发明仅需对候选分界阈值附近的词汇进行从属判断,降低了人工校验时间,有效缩短层级划分的时间,提高了词汇层级划分的效率。
优选地,采用TF-IDF算法计算所述各待分类词汇的使用频率。
进一步地,如图2所示,S1:计算各待分类词汇的使用频率,具体包括:
S101:获取每个待分类词汇在一个文档类别中的词汇频率值(TF,TermFrequency);
S102:获取每个待分类词汇在一个文档类别中的逆文本频率指数(IDF,InverseDocument Frequency);
S103:计算每个待分类词汇在其文档所属的文档类别中的TF-IDF之和;
S104:每个待分类词汇在一个文档类别中的词汇频率-逆文本频率指数TF-IDF除以所述待分类词汇在其文档所属的文档类别中的TF-IDF之和,得到的商值作为所述待分类词汇的使用频率。
为了提高检测精度,在获取每个待分类词汇在一个文档类别中的词汇频率值TF后,所述计算各待分类词汇的使用频率还包括:
对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化处理。
基于词频排序及大类词汇出现频率高于小类词汇出现频率客观经验,计算各个词汇层级的划分阈值,进一步提高层级划分的准确度。
更进一步地,S5:所述根据各层级初始分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值,具体包括:
针对第j级词汇的分界阈值λj,初始化第j级词汇的中间阈值迭代次数n=1、对折次数m=1、标志值f=0;其中λj-1为第j-1级词汇的的分界阈值,λ0为待分类词汇的总数量;
针对第n次迭代,初始化对折次数m=1,判断迭代次数是否大于迭代阈值,若所述迭代次数大于所述迭代阈值,将第j级词汇的候选分界阈值αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;
若所述迭代次数小于或等于所述迭代阈值,检验Δ是否是第j级词汇;
若Δ是第j级词汇,判断标志值是否为0,若标志值为0,将Δ作为第j级词汇的候选分界阈值αj,进行第n+1次迭代;若标志值为1,将Δ作为第j级词汇的候选分界阈值αj;判断是否为第一次对折,若是第一次对折,将αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;若不是第一次对折,/>进行第n+1次迭代;
若Δ不是第j级词汇,将标志值设置为1,针对第m次对折,计算第n次迭代第m次对折的阈值
返回“检验Δ是否是第j级词汇”处理。
通过对待分类词汇进行迭代对折的方式,提高了词汇层级划分分界点处的准确率。
进一步地,本发明多次迭代对折词汇层级分类方法还包括:
获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;所述文档是网页文档;
对所述文档进行分词,去除停用词,形成待分类词汇。
可选地,本发明多次迭代对折词汇层级分类方法还包括:
根据所述各层级的分界阈值,将各层级的词汇设置为不同颜色。
以下具体以按使用频率排序并标注序号后的400个医药词汇为例,划分出一级词汇:
具体步骤为:
1、令α0,α1,α2,α3=400,λ0=400(需求是分为三级,即j=3),迭代次数n=10。
2、令
3、第一次迭代(n=1):
(1)检验Δ=200对应词汇是“头孢拉定胶囊”,不属于一级词汇。
(2)第一次对折(m=1),
(3)令检验Δ=300对应词汇“盐酸林可霉素胶囊”,不属于一级词汇。
(4)第二次对折(m=2),
(5)令检验Δ=350对应词汇“盐酸克林霉素胶囊”,不属于一级词汇。
(6)第三次对折(m=3),
(7)令检验Δ=375对应词汇“氨基环多醇类”,属于一级词汇。
(8)令α1=Δ=375,更新n=2。
4、第二次迭代(n=2):
(1)检验Δ=363对应词汇是“大环内酯类”,不属于一级词汇。
(2)第一次对折(m=1),
(3)令检验Δ=369对应词汇“抗生素”,属于一级词汇。
(4)令α1=Δ=369,因为m-1=0,λ1=α1,跳出整个迭代循环。
5、判定λ1~λ0,即序号369~400对应的所有的词汇为一级词汇。
计算二级词汇(j=2)以此类推。
此外,本发明多次迭代对折词汇层级分类方法中的S5:根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值,还可以采用另一种迭代对折查询方式,不强制以第一次对折就找到j级词汇后,直接判定第一次对折后的待分类词汇的序号作为j级词汇的分界阈值。
针对第j级词汇的分界阈值,初始化第j级词汇的中间阈值迭代次数n=1、对折次数m=1、标志值f=0;其中λj-1为第j-1级词汇的的分界阈值,λ0为待分类词汇的总数量;
针对第n次迭代,初始化对折次数m=1,判断迭代次数是否大于迭代阈值,若所述迭代次数大于所述迭代阈值,将第j级词汇的候选分界阈值αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;
若所述迭代次数小于或等于所述迭代阈值,检验Δ是否是第j级词汇;
若Δ是第j级词汇,判断标志值是否为0,若标志值为0,将Δ作为第j级词汇的候选分界阈值αj,进行第n+1次迭代;若标志值为1,将Δ作为第j级词汇的候选分界阈值αj;判断是否为第一次对折,若是第一次对折,将αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;若不是第一次对折,/>进行第n+1次迭代;
若Δ不是第j级词汇,检验αj-Δ是否小于2,若αj-Δ小于2,将Δ作为第j级词汇的候选分界阈值αj,进行第n+1次迭代;若αj-Δ大于等于2,将标志值设置为1,针对第m次对折,计算第n次迭代第m次对折的阈值/>
返回“检验Δ是否是第j级词汇”处理。
通过一直迭代对折检测Δ是否是第j级词汇,不以第一次对折就找到j级词汇后,直接判定第一次对折后的待分类词汇的序号作为j级词汇的分界阈值,能够使词汇的分层更加精准。
此外,如图3所示,本发明还提供一种多次迭代对折词汇层级分类系统,所述多次迭代对折词汇层级分类系统包括:计算单元1、排序单元2、初始化单元3、迭代单元4以及层级分类单元5。
具体地,所述计算单元1用于计算各待分类词汇的使用频率;
所述排序单元2与所述计算单元1连接,所述排序单元2用于根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号;
所述初始化单元3用于根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值,以及初始化各层级的候选分界阈值;所述各层级的候选分界阈值为所述待分类词汇的总数量;
所述迭代单元4分别与所述排序单元2及所述初始化单元3连接,所述迭代单元4用于根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值;
所述层级分类单元5与所述迭代单元4连接,所述层级分类单元5用于根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。
本发明依据频率排序计算出各个层级的划分阈值,迭代的方式提高了词汇层级划分分界点处的准确率。每次对折更新后词汇层级分类进行检验,仅需基于已有经验对Δ附近词汇进行从属判断即可,相较于人工基于已有经验的逐词扫描的“暴力”分类方法,有效的缩短层级划分的时间。
相对于现有技术,本发明多次迭代对折词汇层级分类系统与上述多次迭代对折词汇层级分类方法的有益效果相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种多次迭代对折词汇层级分类方法,其特征在于,所述多次迭代对折词汇层级分类方法包括:
计算各待分类词汇的使用频率;各待分类词汇的领域相同;
根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号;
根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值;
初始化各层级的候选分界阈值;所述各层级的候选分界阈值为所述待分类词汇的总数量;
根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值,具体包括:
针对第j级词汇的分界阈值λj,初始化第j级词汇的中间阈值迭代次数n=1、对折次数m=1、标志值f=0;其中λj-1为第j-1级词汇的的分界阈值,λ0为待分类词汇的总数量;
针对第n次迭代,初始化对折次数m=1,判断迭代次数是否大于迭代阈值,若所述迭代次数大于所述迭代阈值,将第j级词汇的候选分界阈值αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;
若所述迭代次数小于或等于所述迭代阈值,检验Δ是否是第j级词汇;
若Δ是第j级词汇,判断标志值是否为0,若标志值为0,将Δ作为第j级词汇的候选分界阈值αj,进行第n+1次迭代;若标志值为1,将Δ作为第j级词汇的候选分界阈值αj;判断是否为第一次对折,若是第一次对折,将αj作为第j级词汇的分界阈值λj,进行第j+1级词汇分界阈值的判断;若不是第一次对折,/>进行第n+1次迭代;
若Δ不是第j级词汇,将标志值设置为1,针对第m次对折,计算第n次迭代第m次对折的阈值
返回“检验Δ是否是第j级词汇”处理;
根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。
2.根据权利要求1所述的多次迭代对折词汇层级分类方法,其特征在于,采用词频-逆文本频率指数TF-IDF算法计算所述各待分类词汇的使用频率。
3.根据权利要求1所述的多次迭代对折词汇层级分类方法,其特征在于,所述各层级的分界阈值为待分类词汇对应的序号,所述各层级的分界阈值对应的词汇为各层级的词汇。
4.根据权利要求1所述的多次迭代对折词汇层级分类方法,其特征在于,所述多次迭代对折词汇层级分类方法还包括:
获取文档分类训练集,所述文档分类训练集包括文档和文档所属的文档类别信息;所述文档是网页文档;
对所述文档进行分词,去除停用词,形成待分类词汇。
5.根据权利要求4所述的多次迭代对折词汇层级分类方法,其特征在于,所述计算各待分类词汇的使用频率,具体包括:
获取每个待分类词汇在一个文档类别中的词汇频率值TF;
获取每个待分类词汇在一个文档类别中的逆文本频率指数IDF;
计算每个待分类词汇在其文档所属的文档类别中的TF-IDF之和;
每个待分类词汇在一个文档类别中的词汇频率-逆文本频率指数TF-IDF除以所述待分类词汇在其文档所属的文档类别中的TF-IDF之和,得到的商值作为所述待分类词汇的使用频率。
6.根据权利要求5所述的多次迭代对折词汇层级分类方法,其特征在于,在获取每个待分类词汇在一个文档类别中的词汇频率值TF后,所述计算各待分类词汇的使用频率还包括:
对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化处理。
7.根据权利要求1所述的多次迭代对折词汇层级分类方法,其特征在于,所述层级级数至少为两级。
8.根据权利要求1所述的多次迭代对折词汇层级分类方法,其特征在于,所述多次迭代对折词汇层级分类方法还包括:
根据所述各层级的分界阈值,将各层级的词汇设置为不同颜色。
9.一种多次迭代对折词汇层级分类系统,应用于权利要求1至8任一项所述的多次迭代对折词汇层级分类方法,其特征在于,所述多次迭代对折词汇层级分类系统包括:
计算单元,用于计算各待分类词汇的使用频率;
排序单元,与所述计算单元连接,用于根据所述待分类词汇的使用频率对所述待分类词汇进行升序排列,并标注序号;
初始化单元,用于根据所述待分类词汇的总数及待分类词汇的所属领域,确定层级级数及迭代阈值,以及初始化各层级的候选分界阈值;所述各层级的候选分界阈值为所述待分类词汇的总数量;
迭代单元,分别与所述排序单元及所述初始化单元连接,用于根据各层级的候选分界阈值、待分类词汇的序号以及迭代阈值,对所述待分类词汇进行迭代查询,得到各层级的分界阈值;
层级分类单元,与所述迭代单元连接,用于根据所述各层级的分界阈值,得到所述待分类词汇的层级分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110289396.6A CN113032562B (zh) | 2021-03-18 | 2021-03-18 | 一种多次迭代对折词汇层级分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110289396.6A CN113032562B (zh) | 2021-03-18 | 2021-03-18 | 一种多次迭代对折词汇层级分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032562A CN113032562A (zh) | 2021-06-25 |
CN113032562B true CN113032562B (zh) | 2024-02-02 |
Family
ID=76471331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110289396.6A Active CN113032562B (zh) | 2021-03-18 | 2021-03-18 | 一种多次迭代对折词汇层级分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032562B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
CN101438285A (zh) * | 2006-05-05 | 2009-05-20 | 贺利实公司 | 用于对文档数据库中的文档进行域识别的方法 |
CN102141977A (zh) * | 2010-02-01 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及装置 |
CN102411592A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
CN107291722A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种描述词的分类方法及设备 |
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
CN108717408A (zh) * | 2018-05-11 | 2018-10-30 | 杭州排列科技有限公司 | 一种敏感词实时监控方法、电子设备、存储介质及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2852614A1 (en) * | 2011-10-19 | 2013-04-25 | The University Of Sydney | Image processing and object classification |
-
2021
- 2021-03-18 CN CN202110289396.6A patent/CN113032562B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
CN101438285A (zh) * | 2006-05-05 | 2009-05-20 | 贺利实公司 | 用于对文档数据库中的文档进行域识别的方法 |
CN102141977A (zh) * | 2010-02-01 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及装置 |
CN102411592A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN103186612A (zh) * | 2011-12-30 | 2013-07-03 | 中国移动通信集团公司 | 一种词汇分类的方法、系统和实现方法 |
CN107291722A (zh) * | 2016-03-30 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种描述词的分类方法及设备 |
CN107943941A (zh) * | 2017-11-23 | 2018-04-20 | 珠海金山网络游戏科技有限公司 | 一种可迭代更新的垃圾文本识别方法和系统 |
CN108717408A (zh) * | 2018-05-11 | 2018-10-30 | 杭州排列科技有限公司 | 一种敏感词实时监控方法、电子设备、存储介质及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113032562A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210157975A1 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN104679728B (zh) | 一种文本相似度检测方法 | |
CN109189926B (zh) | 一种科技论文语料库的构建方法 | |
CN108804612B (zh) | 一种基于对偶神经网络模型的文本情感分类方法 | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
Yang et al. | Neural reranking for named entity recognition | |
CN106445906A (zh) | 领域词典中中长词词组的生成方法及装置 | |
CN106202042A (zh) | 一种基于图的关键词抽取方法 | |
CN105260488B (zh) | 一种用于语义理解的文本序列迭代方法 | |
CN108228758A (zh) | 一种文本分类方法及装置 | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN114548321B (zh) | 基于对比学习的自监督舆情评论观点对象分类方法 | |
CN101714135A (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN101882136A (zh) | 文本情感倾向性分析方法 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
US20230267338A1 (en) | Keyword based open information extraction for fact-relevant knowledge graph creation and link prediction | |
Afzaal et al. | A novel framework for aspect-based opinion classification for tourist places | |
CN113505225A (zh) | 一种基于多层注意力机制的小样本医疗关系分类方法 | |
CN113032562B (zh) | 一种多次迭代对折词汇层级分类方法及系统 | |
Hathout | Acquistion of the morphological structure of the lexicon based on lexical similarity and formal analogy | |
CN109284391A (zh) | 一种文献自动分类方法 | |
Luan et al. | MI-YOLO: more information based YOLO for insulator defect detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |