CN112182213A - 一种基于异常流泪特征认知的建模方法 - Google Patents
一种基于异常流泪特征认知的建模方法 Download PDFInfo
- Publication number
- CN112182213A CN112182213A CN202011034647.8A CN202011034647A CN112182213A CN 112182213 A CN112182213 A CN 112182213A CN 202011034647 A CN202011034647 A CN 202011034647A CN 112182213 A CN112182213 A CN 112182213A
- Authority
- CN
- China
- Prior art keywords
- test data
- sample
- function
- word segmentation
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于异常流泪特征认知的建模方法,包括采集泪液分泌异常的症状及相关文献,获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息;针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词;对分词后的内容进行TF—IWF筛选,删除其中的停用词,并提取关键词;将提取的关键词作为测试数据和类别标签,标签构建样本库;利用原型网络进行小样本学习,将样本库分为训练集和测试集,求取类别标签对应的原型和测试数据属于某一类别标签的概率;对进行了类别标签关联的测试数据和类别标签的关键词,采用自适应增强学习算法进一步进行分类训练和优化。
Description
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于异常流泪特征认知的建模方法。
背景技术
泪液分泌异常是由多种可能因素引发的现象,除了精神受到外部刺激和异物的反射刺激外,某些药物的刺激、眼部疾病如青光眼、眼睑、结膜或者虹膜疾病,以及三叉神经、面神经受刺激也会导致泪分泌异常;另外,泪液的排泄系统异常,如泪小点位置异常、鼻泪管堵塞、泪道功能不全,以及气候、环境以及过敏等都会导致泪液分泌异常。泪液分泌异常作为一种外在表现,通常是由一种原因诱发或者多种原因共同诱发。
分类技术是机器学习中非常重要的技术之一,其目标是根据数据的特征将数据归属到相应的标签类型中,在传统的分类中,一个数据仅划分一个标签类别,这种划分并不够精确。随着数据包含的信息越来越丰富,数据内容也越来越复杂和多样。为充分表达数据的多样性和多义性,采用多个标签描述数据是很常见的手段。通过对异常流泪表达获取的症状描述和内因数据是典型的多种标签输出类型,利用对其数据实现机器学习,提高对多标签数据分类的准确度,对复杂输入的精确表达具有较大帮助。
发明内容
有鉴于此,本发明提出了一种基于异常流泪特征,且能对采集文本有效取词并提取关键字、筛选高频关键词进行小样本训练,并对训练结果进行优化的认知的建模方法。
本发明的技术方案是这样实现的:本发明提供了一种基于异常流泪特征认知的建模方法,包括如下步骤:
S1:采集泪液分泌异常的症状及相关文献,获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息;
S2:针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词;
S3:对上一步分词后的内容进行TF—IWF筛选,删除其中的停用词,并提取关键词;
S4:对上一步提取的泪液分泌异常的各种症状关键词作为测试数据,各症状原因关键词作为测试数据的类别标签,利用测试数据和类别标签构建样本库;
S5:利用原型网络进行小样本学习,将样本库分为训练集和测试集,求取类别标签对应的原型和测试数据属于某一类别标签的概率;
S6:对上一步进行了类别标签关联的测试数据和类别标签的关键词,采用自适应增强学习算法进一步进行分类训练和优化。
在以上技术方案的基础上,优选的,所述针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词,是基于词典的分词,采用逆向最大匹配法;每次去句子末端的四个字作为匹配字段,如果匹配失败,则去掉匹配字段最前面的一个字继续与词典匹配,直到完成特征信息的分词。
进一步优选的,所述对分词后的内容进行TF—IWF筛选,是统计分词后的各词语在各种症状及各症状原因的特征信息中出现的频率,以及特定的词语的逆向文件频率;
两者的积TF*IWF为各词语在分词后的内容中的重要度,根据《中文停用词词表》删除停用词后,根据上述重要度排序选取剩余分词后的词语内容的10%—20%作为关键字。
进一步优选的,所述基于词典的分词,其采用的词典是自建的中文分词词典,或者汉字词法分析系统ICTCLAS。
更进一步优选的,所述利用原型网络进行小样本学习,是设定投影空间和嵌入函数fθ(x),为样本库的类别标签设定为与嵌入函数fθ(x)的原型表示,将训练集的测试数据转换为样本向量通过嵌入函数fθ(x)映射到投影空间中,计算样本向量在投影空间中与各标签对应的原型表示的距离,判断测试数据对应的标签,其中
其中ck是类别标签k基于嵌入函数fθ(x)的原型表示;Sk是以为小样本测试数据集合,(x,y)为该小样本测试数据集合内的测试数据;类别标签数量为k,参数θ是与投影空间位置的变量;x是各测试数据;y为测试数据对应的类别标签;通过上式求解所有测试数据对应的类别标签后,
利用Softmax回归函数作为分类函数,得到测试数据x属于类别标签y为k的概率:
P(y=k|x)回归函数是使回归函数取值在(-∞,0]区间取值趋于0,回归函数取值[0,+∞)区间的取值趋于1,求取类别标签y为k概率;d((fθ(x),ck)和d((fθ(x),cj)是距离函数,即fθ(x)与ck或者cj的距离。
更进一步的优选的,所述将样本库分为训练集和测试集,是将样本库按80%的内容作为训练集,剩余20%作为测试集。
再进一步的优选的,所述采用自适应增强学习算法进行进一步进行分类训练和优化,是给定训练集{(x1,y1),…(xN,yN)},xi是测试数据转换成的样本向量,xi∈(x1,x2…xN),样本向量的数量为N;yi∈(y1,y2…yN)表示样本向量对应的类别标签的真假,(y1,y2…yN)∈(1,-1),类别标签对应结果为真是值为1,为假是值为—1;
初始化测试数据的权重分布,给每个样本向量一个权重,初始化权重为1/N;令D1=(w11,w12,…w1i…w1N),w1i=1/N,i=1,2,3…N;D1表示第一次迭代时每个样本的权值,N为测试数据转换成的样本向量的个数;
使用拥有权值分布Dm(m=1,2,3…N)的训练样本进行m次迭代,得到若干个弱分类器Gm(xi),弱分类器的性能指标通过误差函数ε表示:
再用sgn符号函数判断弱分类器加权求和结果,判断结果的正负号,当判断结果为正数时,返回1;当判断结果为0时,返回0;当判断结果为负数时,返回—1,将返回的判断结果赋给弱分类器加权求和得到的强分类器;改变投影空间位置的变量的参数θ,重复上述过程。
本发明提供的一种基于异常流泪特征认知的建模方法,相对于现有技术,具有以下有益效果:
(1)本发明通过广泛获取泪液分泌异常的症状及相关知识,包含广泛的文本描述及模糊的原因,以便后续分词步骤使用;
(2)分词采用短句的字段按顺序逐个字比较,选出所有的词语,删除无用的停用词,对剩余词语根据出现频次和重要度的筛选,获取与症状及原因相关的核心词语,再精简提取部分核心词语作为关键字;
(3)利用各种症状关键词和原因的关键字构建较小样本的样本库,内容有限,可以节省计算资源,提高迭代和计算效率;
(4)原型网络进行基于小样本的样本库的学习,通过计算样本向量在投影空间中与各标签对应的原型表示的距离,进而推断测试数据可能对应的类别标签;
(5)通过初步确定的类别标签和测试数据的对应关系,进一步进行自适应增强学习算法进行进一步进行分类训练和优化,重复进行类别标签和测试数据的关联关系评价和迭代,提高对多标签数据的分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于异常流泪特征认知的建模方法的流程图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明提供了本发明提供了一种基于异常流泪特征认知的建模方法,包括如下步骤:
S1:采集泪液分泌异常的症状及相关文献,获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息。
S2:针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词。
其中,针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词,是基于词典的分词,采用逆向最大匹配法;每次去句子末端的四个字作为匹配字段,如果匹配失败,则去掉匹配字段最前面的一个字继续与词典匹配,直到完成特征信息的分词。此处的逆向最大匹配,是采用四字短语作为一个分隔区间,将句子进行分割,汉语常用词组不超过四字短语,进行逐段筛查,直至完成句子的分词语义识别。
上述内容中,基于词典的分词,其采用的词典是自建的中文分词词典,或者汉字词法分析系统ICTCLAS。也可以采用现有的词典,如ansj分词.ict,来源网址是https://github.com/NLPchina/ansj_seg。
S3:对上一步分词后的内容进行TF—IWF筛选,删除其中的停用词,并提取关键词;
其中,对分词后的内容进行TF—IWF筛选,是统计分词后的各词语在各种症状及各症状原因的特征信息中出现的频率,以及特定的词语的逆向文件频率;
两者的积TF*IWF为各词语在分词后的内容中的重要度,根据《中文停用词词表》删除停用词后,根据上述重要度排序选取剩余分词后的词语内容10%—20%作为关键字。
S4:对上一步提取的泪液分泌异常的各种症状关键词作为测试数据,各症状原因关键词作为测试数据的类别标签,利用测试数据和类别标签构建样本库;
上一步选取作为关键字的内容比较少,故构建的样本库的容量也比较少,可以节省算力。
S5:利用原型网络进行小样本学习,将样本库分为训练集和测试集,求取类别标签对应的原型和测试数据属于某一类别标签的概率;作为一种优选方式,将样本库分为训练集和测试集,是将样本库按80%的内容作为训练集,剩余20%作为测试集。
小样本学习由于数据过少,会产生过拟合问题,故采用原型网络进行小样本学习,具体内容是:设定投影空间和嵌入函数fθ(x),为样本库的类别标签设定为与嵌入函数fθ(x)的原型表示,将训练集的测试数据转换为样本向量通过嵌入函数fθ(x)映射到投影空间中,计算样本向量在投影空间中与各标签对应的原型表示的距离,此处的距离可以是欧式距离,也可以是曼哈顿距离,以曼哈顿距离为准;判断测试数据对应的标签,其中
其中ck是类别标签k基于嵌入函数fθ(x)的原型表示;Sk是以为小样本测试数据集合,(x,y)为该小样本测试数据集合内的测试数据;类别标签数量为k,参数θ是与投影空间位置的变量;x是各测试数据;y为测试数据对应的类别标签;通过上式求解所有测试数据对应的类别标签后,
利用Softmax回归函数作为分类函数,得到测试数据x属于类别标签y为k的概率:
P(y=k|x)回归函数是使回归函数取值在(-∞,0]区间取值趋于0,回归函数取值[0,+∞)区间的取值趋于1,求取类别标签y为k概率;d((fθ(x),ck)和d((fθ(x),cj)是距离函数,即fθ(x)与ck或者cj的距离。
S6:对上一步进行了类别标签关联的测试数据和类别标签的关键词,采用自适应增强学习算法进一步进行分类训练和优化。
采用自适应增强学习算法进行进一步进行分类训练和优化,其内容是给定训练集{(x1,y1),…(xN,yN)},xi是测试数据转换成的样本向量,xi∈(x1,x2…xN),样本向量的数量为N;yi∈(y1,y2…yN)表示样本向量对应的类别标签的真假,(y1,y2…yN)∈(1,-1),类别标签对应结果为真是值为1,为假是值为—1;
初始化测试数据的权重分布,给每个样本向量一个权重,初始化权重为1/N;令D1=(w11,w12,…w1i…w1N),w1i=1/N,i=1,2,3…N;D1表示第一次迭代时每个样本的权值,N为测试数据转换成的样本向量的个数;
使用拥有权值分布Dm(m=1,2,3…N)的训练样本进行m次迭代,得到若干个弱分类器Gm(xi),弱分类器的性能指标通过误差函数ε表示:
再用sgn符号函数判断弱分类器加权求和结果,判断结果的正负号,当判断结果为正数时,返回1;当判断结果为0时,返回0;当判断结果为负数时,返回—1,将返回的判断结果赋给弱分类器加权求和得到的强分类器;改变投影空间位置的变量的参数θ,重复上述过程,通过改变参数θ,重复步骤S4和S5,不断改进机器学习的结果和测试数据与样本标签的对应关系,使得其描述多标签类数据时的分类更加可信。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于异常流泪特征认知的建模方法,其特征在于:包括如下步骤:
S1:采集泪液分泌异常的症状及相关文献,获取导致泪液分泌异常的各种症状及所有可能的原因的特征信息;
S2:针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词;
S3:对上一步分词后的内容进行TF—IWF筛选,删除其中的停用词,并提取关键词;
S4:对上一步提取的泪液分泌异常的各种症状关键词作为测试数据,各症状原因关键词作为测试数据的类别标签,利用测试数据和类别标签构建样本库;
S5:利用原型网络进行小样本学习,将样本库分为训练集和测试集,求取类别标签对应的原型和测试数据属于某一类别标签的概率;shuomings
S6:对上一步进行了类别标签关联的测试数据和类别标签的关键词,采用自适应增强学习算法进一步进行分类训练和优化。
2.如权利要求1所述的一种基于异常流泪特征认知的建模方法,其特征在于:所述针对泪液分泌异常的各种症状及各症状原因的特征信息进行分词,是基于词典的分词,采用逆向最大匹配法;每次去句子末端的四个字作为匹配字段,如果匹配失败,则去掉匹配字段最前面的一个字继续与词典匹配,直到完成特征信息的分词。
4.如权利要求2所述的一种基于异常流泪特征认知的建模方法,其特征在于:所述基于词典的分词,其采用的词典是自建的中文分词词典,或者汉字词法分析系统ICTCLAS。
5.如权利要求3所述的一种基于异常流泪特征认知的建模方法,其特征在于:所述利用原型网络进行小样本学习,是设定投影空间和嵌入函数fθ(x),为样本库的类别标签设定为与嵌入函数fθ(x)的原型表示,将训练集的测试数据转换为样本向量通过嵌入函数fθ(x)映射到投影空间中,计算样本向量在投影空间中与各标签对应的原型表示的距离,判断测试数据对应的标签,其中
其中ck是类别标签k基于嵌入函数fθ(x)的原型表示;Sk是以为小样本测试数据集合,(x,y)为该小样本测试数据集合内的测试数据;类别标签数量为k,参数θ是与投影空间位置的变量;x是各测试数据;y为测试数据对应的类别标签;通过上式求解所有测试数据对应的类别标签后,
利用Softmax回归函数作为分类函数,得到测试数据x属于类别标签y为k的概率:
6.如权利要求5所述的一种基于异常流泪特征认知的建模方法,其特征在于:所述将样本库分为训练集和测试集,是将样本库按80%的内容作为训练集,剩余20%作为测试集。
7.如权利要求5所述的一种基于异常流泪特征认知的建模方法,其特征在于:所述采用自适应增强学习算法进行进一步进行分类训练和优化,是给定训练集{(x1,y1),…(xN,yN)},xi是测试数据转换成的样本向量,xi∈(x1,x2…xN),样本向量的数量为N;yi∈(y1,y2…yN)表示样本向量对应的类别标签的真假,(y1,y2…yN)∈(1,-1),类别标签对应结果为真是值为1,为假是值为—1;
初始化测试数据的权重分布,给每个样本向量一个权重,初始化权重为1/N;令D1=(w11,w12,…w1i…w1N),w1i=1/N,i=1,2,3…N;D1表示第一次迭代时每个样本的权值,N为测试数据转换成的样本向量的个数;
使用拥有权值分布Dm(m=1,2,3…N)的训练样本进行m次迭代,得到若干个弱分类器Gm(xi),弱分类器的性能指标通过误差函数ε表示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034647.8A CN112182213B (zh) | 2020-09-27 | 2020-09-27 | 一种基于异常流泪特征认知的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011034647.8A CN112182213B (zh) | 2020-09-27 | 2020-09-27 | 一种基于异常流泪特征认知的建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182213A true CN112182213A (zh) | 2021-01-05 |
CN112182213B CN112182213B (zh) | 2022-07-05 |
Family
ID=73943806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011034647.8A Active CN112182213B (zh) | 2020-09-27 | 2020-09-27 | 一种基于异常流泪特征认知的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182213B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408605A (zh) * | 2021-06-16 | 2021-09-17 | 西安电子科技大学 | 基于小样本学习的高光谱图像半监督分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN110298391A (zh) * | 2019-06-12 | 2019-10-01 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
CN110968693A (zh) * | 2019-11-08 | 2020-04-07 | 华北电力大学 | 基于集成学习的多标签文本分类计算方法 |
CN111325030A (zh) * | 2020-03-31 | 2020-06-23 | 卓尔智联(武汉)研究院有限公司 | 文本标签构建方法、装置、计算机设备和存储介质 |
US20200214554A1 (en) * | 2019-01-04 | 2020-07-09 | Yuan Ze University | Tear film break-up time measurement for screening dry eye disease by deep convolutional neural network |
-
2020
- 2020-09-27 CN CN202011034647.8A patent/CN112182213B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
US20200214554A1 (en) * | 2019-01-04 | 2020-07-09 | Yuan Ze University | Tear film break-up time measurement for screening dry eye disease by deep convolutional neural network |
CN110298391A (zh) * | 2019-06-12 | 2019-10-01 | 同济大学 | 一种基于小样本的迭代式增量对话意图类别识别方法 |
CN110968693A (zh) * | 2019-11-08 | 2020-04-07 | 华北电力大学 | 基于集成学习的多标签文本分类计算方法 |
CN111325030A (zh) * | 2020-03-31 | 2020-06-23 | 卓尔智联(武汉)研究院有限公司 | 文本标签构建方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
蔡永明等: "共词网络LDA模型的中文短文本主题分析", 《情报学报》, vol. 37, no. 3, 31 March 2018 (2018-03-31), pages 305 - 317 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408605A (zh) * | 2021-06-16 | 2021-09-17 | 西安电子科技大学 | 基于小样本学习的高光谱图像半监督分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112182213B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992783B (zh) | 中文词向量建模方法 | |
CN109241530B (zh) | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN112395393B (zh) | 一种基于多任务多示例的远程监督关系抽取方法 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN106095928A (zh) | 一种事件类型识别方法及装置 | |
CN110728153A (zh) | 基于模型融合的多类别情感分类方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN110046264A (zh) | 一种面向手机文档的自动分类方法 | |
CN112667806B (zh) | 一种使用lda的文本分类筛选方法 | |
Keren et al. | Convolutional neural networks with data augmentation for classifying speakers' native language | |
CN109614484A (zh) | 一种基于分类效用的文本聚类方法及其系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Jindal | A personalized Markov clustering and deep learning approach for Arabic text categorization | |
CN111858939A (zh) | 一种基于上下文信息和卷积神经网络的文本情感分类方法 | |
CN113312907B (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Rahman | Robust and consistent estimation of word embedding for bangla language by fine-tuning word2vec model | |
CN112182213B (zh) | 一种基于异常流泪特征认知的建模方法 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
Preetham et al. | Comparative Analysis of Research Papers Categorization using LDA and NMF Approaches | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
Berrimi et al. | A Comparative Study of Effective Approaches for Arabic Text Classification | |
CN114020917A (zh) | 基于自注意力机制与卷积神经网络的新闻文本分类方法 | |
Diantoro et al. | Analyzing the Impact of Body Shaming on Twitter: A Study Using Naive Bayes Classifier and Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221026 Address after: 603, Floor 6, Building 1, Yard 1, Shangdi 10th Street, Haidian District, Beijing 100089 Patentee after: Wuzheng Intelligent Technology (Beijing) Co.,Ltd. Address before: 442000 No. 511, area a, guoruiqigutian street, No. 57, Beijing North Road, Zhangwan District, Shiyan City, Hubei Province Patentee before: Zhongrun Puda (Shiyan) big data center Co.,Ltd. |
|
TR01 | Transfer of patent right |