CN114443809B - 基于lstm和社交网络的层次化文本分类方法 - Google Patents
基于lstm和社交网络的层次化文本分类方法 Download PDFInfo
- Publication number
- CN114443809B CN114443809B CN202111565473.2A CN202111565473A CN114443809B CN 114443809 B CN114443809 B CN 114443809B CN 202111565473 A CN202111565473 A CN 202111565473A CN 114443809 B CN114443809 B CN 114443809B
- Authority
- CN
- China
- Prior art keywords
- social network
- data
- classification
- lstm
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000011084 recovery Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008878 coupling Effects 0.000 abstract 1
- 238000010168 coupling process Methods 0.000 abstract 1
- 238000005859 coupling reaction Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001417519 Priacanthidae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000035784 germination Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明公开一种基于LSTM和社交网络的层次化文本分类方法,步骤包括:步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤后对数据进行人工标记;步骤2,对步骤1得到的带标签的数据集进行平衡化处理;步骤3,对步骤2平衡化后的数据集进行分词及产生词向量;步骤4,将步骤3得到的词向量集进行投入LSTM网络中进行监督学习,得到初步分类结果;步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果。本发明针对不常见的极度不平衡,耦合,丰富暗语,社交性质的数据有较好的分类效果。
Description
技术领域
本发明属于自然语言处理中文本分类技术领域,涉及一种基于LSTM和社交网络的层次化文本分类方法。
背景技术
文本分类是根据数据内部相似性与关联性进行分组的过程,各小组内部是有组织的小簇集。簇集之间又表现出明显的区别。文本分类作为自然语言处理的重要分支,一直占据着重要的地位,而文本分类的方法也是越来越多,大致可以分为基于规则统计的方法和基于深度学习和机器学习的数据驱动型方法。基于规则的方法主要依赖于前期制定好的规则或者专家库,规则和专家库的形成需要深入的领域知识作为铺垫,在形成规则之后,模型按照指定的规则进行分类,分类过程比较固化,不同的分类任务很大程度上都具有不同的规则,所以规则之间的共享率很低,从而导致模型的普适性会较低。另一种基于机器学习的数据驱动型方法,因其分类算法的选择性呈现出多样化的趋势并且其不需要深入的领域和专家知识,所以近年来受到了广泛的关注。基于机器学习的方法通常使用预先标记的示例作为训练样本集,机器学习算法学习文本及其标签之间存在的内在联系,从而完成文本分类任务。
发明内容
本发明的目的是提供一种基于LSTM和社交网络的层次化文本分类方法,针对不常见的极度不平衡,耦合,丰富暗语,社交性质的数据有较好的分类效果。
本发明所采用的技术方案是:
基于LSTM和社交网络的层次化文本分类方法,步骤包括:
步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤,然后对干净数据进行人工标记;
步骤2,对步骤1得到的带标签的数据进行平衡化处理;
步骤3,对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的向量表示,即embedding;
步骤4,将步骤3产生的embedding投入LSTM网络中进行监督学习,得到初步分类结果;
步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果。
步骤1具体包括:
步骤1.1将从社交网站上获取到的文本数据中无实际意义的内容过滤和删除;
步骤1.2,对较长的句子进行精简和压缩,剔除修饰,无意义的表述,即保留较清晰且具有强特征的部分;
步骤1.3,经过步骤1.2操作后,对数据进行人工标记。
步骤2包括:
步骤2.1:使用数据增强方法,按照原样本的50%采用随机采样技术采集标准样本,然后增强两次;
步骤2.2,将经过数据清洗后的数据生成多个特征词袋,这个特征词袋中包含数据倾斜类别的种元词汇,依词性分为动词,名词,形容词,副词,按照不同词性形成多个子袋,将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本。
所述步骤3包括:使用jieba分词技术将步骤2得到的句子分词,然后使用word2Vec技术产生词向量,word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近,并且其解决了one-hot存在的稀疏问题,训练的词向量是高效的,所以在此采用word2Vec技术来产生词向量。
步骤4具体方法为:将训练好的embedding依次进入LSTM层,Dropout层,全连接层最后使用sigmoid激活函数来得到最后的分类结果。
本发明的有益效果是:
本发明的方法,能够有效处理语义结构松散,指代丰富,同义不同形的不平衡的社交帖子数据。能够捕获具有社交属性的数据显著特征,结合数据本身的特性,具有针对性地采用更加契合的模型,我们使用LSTM模型进行预分类,然后再使用社交网络进行二次分类或者称之为二次回收。这样做能够更加有效地完成分类任务,提升分类任务的准确率。
附图说明
图1是本发明方法的流程框图;
图2是本发明中数据清洗图;
图3是本发明中数据生成图;
图4是本发明中LSTM网络和社交网络文本分类模型的框架图;
图5是本发明中社交网络图。
图中,1.子网络,2.邻居网络
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1,本发明基于LSTM和社交网络的层次化文本分类方法,其步骤包括:
步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤,然后进行人工标记;
步骤2,对步骤1得到的带标签的数据进行平衡化处理;
步骤3,对步骤2平衡化后的数据集进行分词及产生词向量即转化为数值空间中的词向量;
步骤4,将步骤3得到的词向量投入LSTM网络中进行监督学习,得到初步分类结果;
步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果。
其中步骤1具体包括:
步骤1.1:过滤无意义“流水账式”的帖子,具体而言就是,针对帖子中,无意义内容,类似“。。。。”,“Ha ha ha ha”,“Support the original poster”等无实际意义数据进行过滤。因为类似的句子经过分词后转化为词向量输入到我们的模型当中,不但不会增强各个类别的特征,反而会稀释特征,影响模型的分类结果,从而影响最终的准确率。所以在数据预处理阶段,将此类数据剔除。如下图2所示,我们将在第一阶段过滤这些无意义帖子保留“优质”帖子,例如图中的句子2,3都会被过滤删除,故该阶段又称为过滤。这样对于模型后期的训练都会有较好的影响。
步骤1.2:压缩和精简句子,我们没有设定size直接截断的方法。这种方法虽然容易实现,节省人力和时间,但是该方法并未捕获词在当前句子的重要权重,也就是注意力机制,这种将每个单词同等看待的做法,会损失重要特征,进而影响后期的分类效果。所以,在此我们的处理方法是,针对较长帖子,我们会分析当前句子中的重要部分,保留较清晰且具有强特征的部分句子,剔除修饰,无意义的表述。简而言之,就是保留带有特征的表述,删除无意义的表述。如下图1的compress部分,在句子1中“This cat with big eyes is verycute”主要说猫很可爱,所以我们直接简化为“cat cute”。这样是为了保留重要句子,减少噪声数据对于分类结果的影响,从而能够为后期分类做好准备。
步骤1.3人工标记,这一步的工作需要基于上一步的数据清洗任务之后的,首先确保当前数据都是干净数据,在此基础上,再进行标记,这样可以节省时间和人力成本。在标记之初我们制定了严格的标记规则,最大限度地减少主观差异性,从而能够最大限度地保证数据标签的正确性与一致性。
步骤2,具体为:
步骤2.1:使用数据增强方法,按照原样本的50%采用随机采样技术采集标准样本,然后增强两次;
步骤2.2:数据生成,数据生成的过程如下图3所示,首先由挑选过的帖子生成一个特征词袋,这个特征词袋中包含数据倾斜类别(需要数据生成的类别)的尽可能完整的种元词汇。词性包括动词,名词,形容词,副词等,不同词汇可以充当不同的角色。抽取完毕以后,我们将会按照不同词性来形成多个子袋,如下图2中有三个子袋。根据当前原始样本中的句子的语法结构来形成新的句子,其深层原理是使用数据增强方法里面的同义词及同类同型词替换技术。当前句子中,在同一个词袋中的词汇可以放在同一个地方修饰同一个成分,但是生成以后的句子是一个全新的句子,可以作为新的样本出现。例如“I don’t like thisugly cat even though it’s clean”,我们查询与ugly cat相同的子袋发现该词与rubbish同义,所以我们将其同位替换,也就是“I don’t like this rubbish even thoughit’s clean”它们表达的都是消极,厌恶的情感,其原理是使用相同的模式及不同的子袋产生不同的样本。所以其中心思想是产生具有相同主题或者语义的句子来充当样本解决数据不平衡的问题,从而能够更好地训练分类器。
步骤3包括:使用jieba分词技术将将步骤2得到的句子分词以后,使用word2Vec技术产生词向量,word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近,并且其解决了one-hot存在的稀疏问题,训练的词向量是高效的,所以在此采用word2Vec技术来产生词向量,得到向量集。
步骤4包括:如下图4中虚线右边的上半部分属于LSTM网络部分,我们将训练好的embedding依次进入LSTM层,Dropout层,全连接层最后使用sigmoid激活函数来得到初步分类结果。
步骤5具体为:
步骤4得到的初步分类结果,筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收。之所以选择LSTM是因为LSTM具有长时记忆的优点,能够选择性记忆重要信息,降低重要信息的损失,故本文模型的第一阶段选择LSTM进行分类。
图4虚线右边的下半部分为模型的第二部分--社交网络,社交网络是一种根据社交数据自带的社交关系建立结点间的关联网络,其本身不是一种分类方法,一般用于构建主体间关系,发现主体间的规律与共性的网络结构。在本发明中,我们将LSTM作为底层分类方法,社交网络也作为顶层分类的方法,之所以将社交网络称为顶层分类方法是因为它不直接参与前期LSTM分类过程,而是作为后期进阶型分类方法,是前期分类的进阶版。在该部分中,我们首先拿到LSTM阶段分类正确的结果数据,以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构。之所以叫它种元,是因为它作为一个起始点搜索或构建的角色,有萌生更多结点的作用。所以为了形象化表示,我们将其称之为种元。在构建网络的过程中我们会使用到原始比较庞大的数据集也就是虚线左侧预处理完毕后产生的All posts Base,这个库主要用来构建种元结点萌生的其他结点,可能是中心结点,也可能是很多以种元结点为中心的子结点。具体要看种元结点的类型是主贴还是评论。
在构建社交网络的过程中,社交网络并不是在分类之初就建立好所有的网络,这样网络结构就会很庞大,且在高层分类的时候需要搜索目标结点对应的网络,同样也会有搜索时间的损耗。基于此我们将采用动态实时构建网络的方法,建立起来的网络是局部网络而不是全局网络,而且还省去了搜索时间,所以不管在时间复杂度还是空间复杂度来考虑,实时社交网络的优点显而易见。
社交网络构建完毕以后,将会输出社交网络二次回收的数据,该结果与上一阶段LSTM正确或错误的分类结果均有重合,由于社交网络主要是对上一阶段误分数据的纠正,所以secondary recovery results中更多地会包含wrong result,它是对LSTM误分数据的二次回收,最后我们将LSTM分类结果与社交网络回收以后的分类结果融合,得到最后的分类结果Final result。
下图5为社交网络图,由少量样本绘制而成,其中共有十二个子网络,子网络之间存在很少的连接和通信,对于每个子网络内部,都有一个中心结点和许多围绕在中心结点周围的子结点,该中心结点就是主贴,围绕在其周围的子节点就是当前中心结点也即主帖所对应的评论。图中子网络1和与之紧挨的邻居网络2之间有连接,也即存在通信,由图所示,我们不难发现,子网络1中心结点是邻居网络2的子节点,这是符合客观现实的,因为每个人既可以成为发帖人(主贴),也可以评论别人的帖子(评论),这显示了角色的多样性和关系的动态演化,社交网络能够更加清晰地捕获以单个人为研究主体构建的社交网络和以所有人为研究主体构建多态社交网络,发现其演变和不同类别之间的内在关系。
Claims (4)
1.基于LSTM和社交网络的层次化文本分类方法,其特征在于,步骤包括:
步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤,然后进行人工标记;
步骤2,对步骤1得到的带标签的数据集进行平衡化处理;
所述步骤2包括:
步骤2.1:使用数据增强方法,按照原样本的50%采用随机采样技术采集标准样本,然后增强两次;
步骤2.2,将经过数据清洗后的数据生成多个特征词袋,这个特征词袋中包含数据倾斜类别的完整的种元词汇,词性包括动词,名词,形容词,副词,按照不同词性来形成多个子袋,将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本;
步骤3,对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的词向量;
步骤4,将步骤3得到的词向量集进行投入LSTM网络中进行监督学习,得到初步分类结果;
步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果;
其中,步骤4得到的初步分类结果,筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收;首先拿到LSTM阶段分类正确的结果数据,以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构;社交网络构建完毕以后,将会输出社交网络二次回收的数据,该结果与上一阶段LSTM正确或错误的分类结果均有重合,由于社交网络主要是对上一阶段误分数据的纠正,所以secondary recovery results中更多地会包含wrong result,它是对LSTM误分数据的二次回收,最后我们将LSTM分类结果与社交网络回收以后的分类结果融合,得到最后的分类结果Final result。
2.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法,其特征在于,所述步骤1具体包括:
步骤1.1将采集的社交网络文本数据中无实际含义的内容过滤删除;
步骤1.2,对较长的句子进行精简和压缩,剔除修饰,无意义的表述,即保留较清晰且具有强特征的部分句子;
步骤1.3,经过步骤1.2操作后,对数据进行人工标记。
3.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法,其特征在于,所述步骤3包括:使用jieba分词技术将步骤2得到的句子分词以后,使用word2Vec技术产生词向量,word2Vec方法产生的词向量能够做到语义相似的词在数值空间中表示的向量之间就越相近,并且其解决了one-hot存在的稀疏问题,训练的词向量是高效的,所以在此采用word2Vec技术来产生词向量,得到向量集。
4.如权利要求1所述的基于LSTM和社交网络的层次化文本分类方法,其特征在于,步骤4具体方法为:首先使用word2Vec训练词嵌入,将训练好的embedding依次放入LSTM层,Dropout层,全连接层最后使用sigmoid激活函数来得到预分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565473.2A CN114443809B (zh) | 2021-12-20 | 2021-12-20 | 基于lstm和社交网络的层次化文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111565473.2A CN114443809B (zh) | 2021-12-20 | 2021-12-20 | 基于lstm和社交网络的层次化文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114443809A CN114443809A (zh) | 2022-05-06 |
CN114443809B true CN114443809B (zh) | 2024-04-09 |
Family
ID=81364680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111565473.2A Active CN114443809B (zh) | 2021-12-20 | 2021-12-20 | 基于lstm和社交网络的层次化文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114443809B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390018A (zh) * | 2019-07-25 | 2019-10-29 | 哈尔滨工业大学 | 一种基于lstm的社交网络评论生成方法 |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
FR3076644B1 (fr) * | 2018-01-10 | 2020-06-19 | Jcdecaux Sa | Ensemble local d'affichage numerique et reseau de diffusion de contenus numeriques comportant de tels ensembles |
-
2021
- 2021-12-20 CN CN202111565473.2A patent/CN114443809B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390018A (zh) * | 2019-07-25 | 2019-10-29 | 哈尔滨工业大学 | 一种基于lstm的社交网络评论生成方法 |
CN112732919A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学院地理科学与资源研究所 | 一种面向网络安全威胁情报的智能分类标签方法及系统 |
Non-Patent Citations (1)
Title |
---|
朱晓旭 ; 林鸿飞 ; 曾泽渊 ; .基于社交媒体的药物不良反应检测.山西大学学报(自然科学版).2020,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114443809A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN107967261B (zh) | 智能客服中交互式问句语义理解方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN107967267A (zh) | 一种知识图谱构建方法、装置及系统 | |
CN108280064A (zh) | 分词、词性标注、实体识别及句法分析的联合处理方法 | |
CN109918489A (zh) | 一种多策略融合的知识问答方法和系统 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN107766371A (zh) | 一种文本信息分类方法及其装置 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN107239481A (zh) | 一种面向多源网络百科的知识库构建方法 | |
CN110427463A (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN106886580A (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN110059169B (zh) | 基于语料标注的智能机器人聊天上下文实现方法及系统 | |
CN111881290A (zh) | 一种基于加权语义相似度的配网多源网架实体融合方法 | |
CN109460459A (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN105551485B (zh) | 语音文件检索方法及系统 | |
CN108038205A (zh) | 针对中文微博的观点分析原型系统 | |
CN111339269A (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN110188195A (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 | |
CN109271459A (zh) | 基于Lucene和文法网络的聊天机器人及其实现方法 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN110472244A (zh) | 一种基于Tree-LSTM和情感信息的短文本情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |