CN111159393B - 一种基于lda和d2v进行摘要抽取的文本生成方法 - Google Patents
一种基于lda和d2v进行摘要抽取的文本生成方法 Download PDFInfo
- Publication number
- CN111159393B CN111159393B CN201911391922.9A CN201911391922A CN111159393B CN 111159393 B CN111159393 B CN 111159393B CN 201911391922 A CN201911391922 A CN 201911391922A CN 111159393 B CN111159393 B CN 111159393B
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- sentences
- topic
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于LDA和D2V进行摘要抽取的文本生成方法,利用原本用于文章分类的LDA模型来做句子的主题分类,然后将每个主题的句子利用D2V模型继续句子向量化,然后计算句子的熵信息,选择最大熵信息的一个句子作为摘要句子。本发明相对于抽取数目由人工确定的方法比较而言,是由计算机来对抽取摘要句子的数目进行调整,总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。
Description
技术领域
本发明涉及自动文本生成技术,具体涉及抽取式摘要抽取技术。
背景技术
目前,互联网正处于高速发展时期,网络信息也出现了爆炸式增长的情况。随着各种移动终端设备的流入,人们逐渐摒弃了纯手工文本,开始频繁使用电子文本进行工作、记录和交流等,尤其依赖于从网络上获取有效的信息资源。然而,网络环境中的信息资源数量极其庞大,杂乱无章,如何使得人们可快速、准确地从网络上获取有用的信息,是目前正在被积极研究的一个热点领域。自动文本摘要(简称自动文摘)技术作为该研究领域的一个重要分支,可从海量文本中提取出简短的关键信息来帮助人们快速理解原来的文本内容,有效节省了人们获取有用信息的时间和精力。近年来,自动文摘系统作为一个有力的辅助工具,在各个领域发挥了作用,包括网络信息检索、新闻、邮件和会议记录等,成功地帮助了人们更加快速高效的方式获取了他们想要的信息。
文本自动摘要是一个既传统又前沿的研究领域。自20世纪50年代自动摘要技术出现以来,每出现一波新技术浪潮,都会涌现出一大批相应的自动摘要新方法,然而效果一直与人工摘要有差距。在互联网大数据时代,文本信息的数量已经远远超出了人工处理的极限,自动摘要研究显得越发迫切和重要。深度学习方法在相关领域的出色表现,让研究人员看到了一丝曙光。但传统经典方法对深度学习方法仍有帮助作用。实际上自动摘要方法发展历程也印证了这一点,即,某些经典的文档特征和理念,无论是对于传统旧方法,还是对新兴方法,都极为有用,最出色的方法通常是结合了新旧理念的方法。研究的文本摘要在海量数据的信息提取中显得非常重要,减少文本冗余程度使得文本信息更利于人类进行信息的提取。
文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本中的主要信息,但是仅有不到原始文本一半甚至更少的篇幅。文本自动摘要是利用计算机生成文本摘要的理论方法和技术。自动文本摘要问题按照文档数量可分为单文档摘要和多文档摘要问题。其中单文挡摘要是为单个文挡形成摘要,类似于文章标题,将文章中最重要的内容压缩的形式呈现出来。多文档摘要则是为多个主题相同或相近的文档产生摘要,有别于单文档摘要,除了需要剔除多份文档中大量的冗余信息之外,还要能够识别出不同文档中的独特内容,使得生成的摘要能够尽可能的简介完整。按照实现方式可分为抽取式和抽象式。其中抽取式摘要通过抽取出原文中己存在的重要句子组成摘要,而抽象式摘要则是通过理解相关语义信息,使用自然语言技术生成新的句子作为摘要。摘要问题的恃点是输出的文本要比输入的文本篇幅小很多,但却蕴藏着非常多的有效信息在内。
目前传统的文本摘要抽取的方法是依赖于抽取式的摘要,主要是基于简单统计的方法,根据文章中的句子与词语出现频率等因素判断文本中的句子的重要程度,以此抽取出来的句子作为文本的摘要。在研究初期,人们通过统计简单直观的文本特征,如词频、词位置、特定的线索词、标题等,从文档中识别重要句子组成摘要。目前比较实用的抽取式的摘要抽取的方法是textrank和通过句子聚类/分类等方法。在这类方法中,抽取式自动摘要问题被转化为一个二元分类问题。一个句子要么是摘要句,要么是非摘要句。首先人工将重要句子标注出来,然后提取这些句子的特征,学习算法通过统计分析学习,得到特征与句子重要性的关系,进而得到合适的分类器。向分类器输入句子,可得到句子的重要性得分。依据得分高低,即可抽取重要句子,生成摘要。较为广泛使用的算法包括朴素贝叶斯算法、决策树算法、最大熵算法、隐马尔科夫算法等。摘要抽取的结果上的效果在一定程度上是体现了文本信息上的表示。
LDA一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题Topic和文档三层结构。算法的输入是一个文档的集合,同时还需要聚类的类别数量;然后算法会将每一篇文档在所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合;同样文档中的所有词也会求出它对应每个Topic的概率,这样就得到了两个矩阵,一个文档到Topic,一个词到Topic。这样LDA算法,就将文档和词,投射到了一组Topic上,试图通过Topic找出文档与词间,文档与文档间,词与词之间潜在的关系;由于LDA属于无监督算法,每个Topic并不会要求指定条件,但聚类后,通过统计出各个Topic上词的概率分布,那些在该Topic上概率高的词,能非常好的描述该Topic的意义。
D2V模型,或者叫做Doc2Vec(paragraph2vec,sentence embeddings)是一种非监督式算法,可以获得句子sentences/段落paragraphs/文档documents的向量表达。向量可以通过计算距离来找sentences/paragraphs/documents之间的相似性来用于文本聚类,对于有标签的数据,还可以用监督学习的方法进行文本分类。
发明内容
本发明所要解决的技术问题是,提供一种不由人工确定抽取摘要的数目的摘要文本生成方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于LDA和D2V进行摘要抽取的文本生成方法,包括以下步骤:
步骤1:将利用LDA模型对数据源进行主题分类,得到各主题的分类概率;
步骤2:将数据源中的每个文本单独处理,对单独的文本依次进行分句、分词处理;再计算各句子所属主题的概率:一个句子中的词所属各个主题的概率之和除以句子长度;所述句子长度为句子中词的总数;根据各句子所属主题的概率将各句子分类到所属概率最大的主题下,得到文本中各主题下的句子簇;
步骤3:句子向量化处理:将文本中各主题下的句子簇输入到训练好的D2V模型中,得到相应句子簇的句子向量集合;
步骤4:在各个句子簇中计算各句子的句子向量与其他句子向量间相似性的熵,选择熵最大的句子作为该簇的摘要句;
步骤5:将文本中所有主题的摘要句组织成该文本的摘要内容。
本发明利用原本用于文章分类的LDA模型来做句子的主题分类,将每个主题的句子利用D2V模型继续句子向量化,然后计算句子的熵信息,选择最大熵信息的一个句子作为摘要句子,由此构成了摘要。
本发明的有益效果是,每篇文本抽取多少个句子作为摘要是由句子类簇所决定的,也就是说抽取摘要的数目是这篇文本中的句子所属的主题所确定,而不是由人为规定的一个固定数目。而且相对于抽取数目由人工确定的方法比较而言,本发明是由计算机来对对抽取摘要句子的数目进行调整,总结得到相应每篇文本不同主题选择相应的信息量最为丰富的句子构成了摘要。
附图说明
图1为本发明方法示意图。
图2为对文本进行句子簇划分处理的示意图。
具体实施方式
对本发明的技术方案进行进一步详细说明:
一种基于LDA和D2V的抽取式摘要抽取方法,如图1所示,具体包括以下步骤:
步骤1:将利用LDA模型对数据源进行主题分类,得到各主题的分类概率;数据源中包含了大量的文本,对整个数据源进行主题类型的分类是在参考了大量文本进行的;
步骤2:将数据源中的每个文本单独处理。将文本做分句处理,然后将句子做分词处理;
步骤3:将一个句子中的词所属每个主题的概率之和除以句子长度,得到了句子所属主题的概率。句子长度为句子中分词的个数。
步骤4:文本中句子根据选择概率最大的主题作为最终主题,然后根据句子主题将文本中的句子以主题归为不同句子簇,如图2所示。
步骤5:将各句子簇的句子输入训练好的D2V模型中得到相应的句子向量。
D2V模型在训练过程中的训练数据为数据源。训练句向量的方法和词向量的方法非常类似。训练词向量的核心思想就是说可以根据每个单词的上下文预测,也就是说上下文的单词对是有影响的。那么同理,可以用同样的方法训练doc2vec。例如对于一个句Iwant to drink water,如果要去预测句子中的单词want,那么不仅可以根据其他单词生成feature,也可以根据其他单词和句子来生成feature进行预测。因此doc2vec的训练方式Adistributed memory model。每个段落/句子都被映射到向量空间中,可以用矩阵D的一列来表示。每个单词同样被映射到向量空间,可以用矩阵W的一列来表示。然后将段落向量和词向量级联或者求平均得到特征,预测句子中的下一个单词。在训练的时候我们固定上下文的长度,用滑动窗口的方法产生训练集。段落向量/句向量在该上下文中共享。
还有一种训练方法为Distributed Bag of Words version of ParagraphVector(PV-DBOW),是忽略输入的上下文,让模型去预测段落中的随机一个单词。就是在每次迭代的时候,从文本中采样得到一个窗口,再从这个窗口中随机采样一个单词作为预测任务,让模型去预测,输入就是段落向量。这个段落向量/句向量也可以认为是一个单词,它的作用相当于是上下文的记忆单元或者是这个段落的主题。
步骤6:在一个句子主题簇中,将句子向量根据熵信息的公式计算句子的熵信息,选择熵信息最大的句子作为摘要句子。
其中,熵信息由Shannon在信息论中指出,信息的不确定性可以用熵来表示。在信息论和概率论中熵是对随机变量不确定性的度量,熵其实就是信息的期望值。假设对于一个取有限个值的随机变量Y,其概率分布
P(X=xi)=p(xi) (1)
其中,i=1,2,3,…,n。
那么随机变量Y的熵可以记作:
熵只依赖X的分布,和X的取值没有关系。
根据信息熵的原理,计算类簇内句子向量与其他句子向量间相似性的熵值。因此,利用句子熵从原理上判断句子信息的重要程度。由此,信息熵的计算以每一类中句子的相似度为基础,如
其中,为同一个句子类簇中的句子向量si与sj之间的相似度,m为同一句子类簇中除句子向量为si的句子以外的其余句子向量的个数,对数中的处理是为了防止两个句子相似度为零的情况。d(si,sj)表示两个句子向量之间的欧式距离,其中的距离进行加1操作是为了防止欧式距离为零的情况。/>表示句子向量为si的句子在句子类簇中的熵信息。
根据欧式距离越近,则d的数值越大。因此,考虑在同一个主题的句子中,选择信息量越多样的句子能得到更多的信息。由此可以计算出各个句子类簇中的句子熵信息,选择其中熵信息最大的句子作为摘要的句子,由不同的类簇中选择出的句子构成最终的摘要。
所以根据熵信息的原理,选取熵信息最大的句子,也就是选择信息最丰富的句子作为摘要句子。
步骤7:将一个文本中的所有句子主题簇的句子选取出来后构成此文本的摘要。
Claims (1)
1.一种基于LDA和D2V进行摘要抽取的文本生成方法,其特征在于,包括以下步骤:
步骤1:将利用LDA模型对数据源进行主题分类,得到各主题的分类概率;
步骤2:将数据源中的每个文本单独处理,对单独的文本依次进行分句、分词处理;再计算各句子所属主题的概率:一个句子中的词所属各个主题的概率之和除以句子长度;所述句子长度为句子中词的总数;根据各句子所属主题的概率将各句子分类到所属概率最大的主题下,得到文本中各主题下的句子簇;
步骤3:句子向量化处理:将文本中各主题下的句子簇输入到训练好的D2V模型中,得到相应句子簇的句子向量集合;
步骤4:在各个句子簇中计算各句子的句子向量与其他句子向量间相似性的熵,选择熵最大的句子作为该簇的摘要句;
步骤5:将文本中所有主题的摘要句组织成该文本的摘要内容;
其中,各句子的熵的计算方式为:
其中,为同一个句子类簇中的第i个句子的句子向量si与第j个句子的句子向量sj之间的相似度,m为同一句子类簇中除第i个句子以外的其余句子向量的个数,d(si,sj)表示两个句子向量之间的欧式距离,/>表示第i个句子在句子簇中的熵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391922.9A CN111159393B (zh) | 2019-12-30 | 2019-12-30 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911391922.9A CN111159393B (zh) | 2019-12-30 | 2019-12-30 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159393A CN111159393A (zh) | 2020-05-15 |
CN111159393B true CN111159393B (zh) | 2023-10-10 |
Family
ID=70558952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911391922.9A Active CN111159393B (zh) | 2019-12-30 | 2019-12-30 | 一种基于lda和d2v进行摘要抽取的文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159393B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662936A (zh) * | 2012-04-09 | 2012-09-12 | 复旦大学 | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106375157A (zh) * | 2016-10-31 | 2017-02-01 | 华侨大学 | 一种基于相空间重构的网络流关联方法 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107526841A (zh) * | 2017-09-19 | 2017-12-29 | 中央民族大学 | 一种基于Web的藏文文本自动摘要生成方法 |
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
CN108664598A (zh) * | 2018-05-09 | 2018-10-16 | 北京理工大学 | 一种具有综合优势的基于整数线性规划的抽取式文摘方法 |
CN108874775A (zh) * | 2018-06-08 | 2018-11-23 | 成都云数未来信息科学有限公司 | 基于lda的网络舆情文档自动摘要方法 |
CN109241294A (zh) * | 2018-08-29 | 2019-01-18 | 国信优易数据有限公司 | 一种实体链接方法及装置 |
CN109299994A (zh) * | 2018-07-27 | 2019-02-01 | 北京三快在线科技有限公司 | 推荐方法、装置、设备及可读存储介质 |
CN109815392A (zh) * | 2018-12-17 | 2019-05-28 | 北京三快在线科技有限公司 | 场景化商家召回方法、装置、电子设备及可读存储介质 |
CN109829108A (zh) * | 2019-01-28 | 2019-05-31 | 北京三快在线科技有限公司 | 信息推荐方法、装置、电子设备及可读存储介质 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
US10922367B2 (en) * | 2017-07-14 | 2021-02-16 | Intuit Inc. | Method and system for providing real time search preview personalization in data management systems |
-
2019
- 2019-12-30 CN CN201911391922.9A patent/CN111159393B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662936A (zh) * | 2012-04-09 | 2012-09-12 | 复旦大学 | 融合Web挖掘、多特征与有监督学习的汉英未登录词翻译方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105488196A (zh) * | 2015-12-07 | 2016-04-13 | 中国人民大学 | 一种基于互联语料的热门话题自动挖掘系统 |
CN105955965A (zh) * | 2016-06-21 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 问句信息处理方法及装置 |
CN106375157A (zh) * | 2016-10-31 | 2017-02-01 | 华侨大学 | 一种基于相空间重构的网络流关联方法 |
CN106599029A (zh) * | 2016-11-02 | 2017-04-26 | 焦点科技股份有限公司 | 一种中文短文本聚类方法 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107526841A (zh) * | 2017-09-19 | 2017-12-29 | 中央民族大学 | 一种基于Web的藏文文本自动摘要生成方法 |
CN107807962A (zh) * | 2017-10-11 | 2018-03-16 | 中国软件与技术服务股份有限公司 | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
CN108664598A (zh) * | 2018-05-09 | 2018-10-16 | 北京理工大学 | 一种具有综合优势的基于整数线性规划的抽取式文摘方法 |
CN108874775A (zh) * | 2018-06-08 | 2018-11-23 | 成都云数未来信息科学有限公司 | 基于lda的网络舆情文档自动摘要方法 |
CN109299994A (zh) * | 2018-07-27 | 2019-02-01 | 北京三快在线科技有限公司 | 推荐方法、装置、设备及可读存储介质 |
CN109241294A (zh) * | 2018-08-29 | 2019-01-18 | 国信优易数据有限公司 | 一种实体链接方法及装置 |
CN109815392A (zh) * | 2018-12-17 | 2019-05-28 | 北京三快在线科技有限公司 | 场景化商家召回方法、装置、电子设备及可读存储介质 |
CN109829108A (zh) * | 2019-01-28 | 2019-05-31 | 北京三快在线科技有限公司 | 信息推荐方法、装置、电子设备及可读存储介质 |
CN110569270A (zh) * | 2019-08-15 | 2019-12-13 | 中国人民解放军国防科技大学 | 一种基于贝叶斯的lda话题标签标定方法、系统及介质 |
Non-Patent Citations (2)
Title |
---|
Shaheen Syed;Marco Spruit."Full-Text or Abstract? Examining Topic Coherence Scores Using Latent Dirichlet Allocation".《2017 IEEE International Conference on Data Science and Advanced Analytics (DSAA)》.2018,全文. * |
马慧芳;刘芳;夏琴;郝占军."基于加权超图随机游走的文献关键词提取算法".《电子学报》.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111159393A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
Abbas et al. | Multinomial Naive Bayes classification model for sentiment analysis | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
CN106484797B (zh) | 基于稀疏学习的突发事件摘要抽取方法 | |
CN105335352A (zh) | 基于微博情感的实体识别方法 | |
CN108763348B (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN110175221B (zh) | 利用词向量结合机器学习的垃圾短信识别方法 | |
CN111178053B (zh) | 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN110866102A (zh) | 检索处理方法 | |
Galal et al. | Classifying Arabic text using deep learning | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN115098690A (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Amini | Interactive learning for text summarization | |
ALQARALEH | Turkish Sentiment Analysis System via Ensemble Learning | |
Osanyin et al. | A review on web page classification | |
Zhang et al. | Text information classification method based on secondly fuzzy clustering algorithm | |
CN111159393B (zh) | 一种基于lda和d2v进行摘要抽取的文本生成方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN115455975A (zh) | 基于多模型融合决策提取主题关键词的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |