CN112380342A - 一种电力文档主题提取方法及设备 - Google Patents
一种电力文档主题提取方法及设备 Download PDFInfo
- Publication number
- CN112380342A CN112380342A CN202011247379.8A CN202011247379A CN112380342A CN 112380342 A CN112380342 A CN 112380342A CN 202011247379 A CN202011247379 A CN 202011247379A CN 112380342 A CN112380342 A CN 112380342A
- Authority
- CN
- China
- Prior art keywords
- documents
- document
- electric power
- word
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种电力文档主题提取方法及设备,包括以下步骤:S1、获取包括多个文档的数据集;S2、筛除重复数据;S3、筛选出电网相关的文档;S4、对数据集进行分类;S5、提取文档主题。
Description
技术领域
本发明涉及一种电力文档主题提取方法及设备,属于文档主题提取领域。
背景技术
文档主题提取分为抽取式和生成式。抽取式主题方法是对原文中的句子进行评估打分,选出最能代表原文主旨的若干句子作为全文主题。生成式主题方法是利用机器学习等技术,使计算机对非原文的句子重新组合,生成原文主题。
公开号为CN110399606A的发明专利《一种无监督电力文档主题生成方法及系统》利用相关性分析方法,筛选与特定领域相关的文档数据,再利用聚类方法找到同类别的文档,然后对其进行主题提取,并将此应用在主题提取系统中,使得提取特定领域的主题更具可行性。但该专利未考虑到电力文档数据体量大、价值密度低、重复度高的特点,其结果中会出现大量重复的内容,不能体现舆论中多样性的观点。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种电力文档主题提取方法及设备,通过判断文档之间的相似性及hash map算法快速筛除数据集中的相似文档,避免最终得到大量重复内容,也减少后续步骤的计算量,显著提升提取文本主题的效率和效果。
本发明的技术方案如下:
技术方案一:
一种电力文档主题提取方法及设备,包括以下步骤:
S1、获取数据集,所述数据集包括多个文档;
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表;计算词列表中每个词的哈希值和tfidf值;根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名;根据所述SimHash签名,计算文档两两之间的汉明距;根据所述汉明距判断文档是否相似;删去相似的文档;
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域,计算文档对电力领域的匹配值;删去匹配值低于阈值的文档;
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档;
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的a个句子输出为文档的主题。
进一步的,在步骤S2中,通过hashmap算法快速计算两个文档之间的汉明距。
进一步的,在步骤S3中,计算文档对电力领域的匹配值的具体步骤为:
对第一词列表中的词按照tfidf值从大到小进行排序;对于排名在前k位的词,根据公式计算文档对电力领域的匹配值;其中,i表示排名为第i位的词;tfidf[i]表示排名第i位的词的tfidf值;当第i个词属于电力领域时,H=1;当第i个词的哈希值不属于电力领域时,H=0。
进一步的,在步骤S4中,通过Dbscan算法或Kmeans算法对文档进行聚类分析。
进一步的,在步骤S5中,句子向量化的具体步骤为:
将第二词列表中的词输入训练好的word2vec模型,得到词向量 (V1,V2,……,Vn);根据词向量和第二词列表中词的tfidf值 [ω1,ω2,ω3,......,ωn],生成句子向量:其中, n表示第二词列表中词的总数。
进一步的,在步骤S5中,计算句子相似度的具体公式为:
其中,Ai、Bi分别表示两个句子向量。
技术方案二:
一种电力文档主题提取设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取数据集,所述数据集包括多个文档;
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表;计算词列表中每个词的哈希值和tfidf值;根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名;根据所述SimHash签名,计算文档两两之间的汉明距;根据所述汉明距判断文档是否相似;删去相似的文档;
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域,计算文档对电力领域的匹配值;删去匹配值低于阈值的文档;
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档;
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的a个句子输出为文档的主题。
进一步的,在步骤S2中,通过hashmap算法快速计算两个文档之间的汉明距。
进一步的,在步骤S3中,计算文档对电力领域的匹配值的具体步骤为:
对第一词列表中的词按照tfidf值从大到小进行排序;对于排名在前k位的词,根据公式计算文档对电力领域的匹配值;其中,i表示排名为第i位的词;tfidf[i]表示排名第i位的词的tfidf值;当第i个词属于电力领域时,H=1;当第i个词的哈希值不属于电力领域时,H=0。
进一步的,在步骤S4中,通过Dbscan算法或Kmeans算法对文档进行聚类分析。
进一步的,在步骤S5中,句子向量化的具体步骤为:
将第二词列表中的词输入训练好的word2vec模型,得到词向量 (V1,V2,……,Vn);根据词向量和第二词列表中词的tfidf值 [ω1,ω2,ω3,......,ωn],生成句子向量:其中, n表示第二词列表中词的总数。
进一步的,在步骤S5中,计算句子相似度的具体公式为:
其中,Ai、Bi分别表示两个句子向量。
本发明具有如下有益效果:
1、本发明通过筛除相似性较高的文档,然后通过计算文档与电力领域的相关值,筛选出与电力领域高度相关的数据;对这些文档进行聚类,找到不同的类别下的多篇文档;再分别对聚类后文档进行主题提取,可以分类快速提取海量数据中的的主题信息。
2、本发明可用于提取网络平台上电网相关的言论、分析电力公司内部的数据,具体为:国家电力政策分析领域、制度条款搜索领域、知识推荐领域等。
3、本发明通过判断文档之间的相似性及hash map算法快速筛除数据集中的相似文档,避免最终得到大量重复内容,也减少后续步骤的计算量,显著提升提取文本主题的效率和效果。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,一种电力文档主题提取方法,包括以下步骤:
S1、获取数据集,所述数据集包括多个文档。
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表。计算词列表中每个词的哈希值和tfidf值。根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名。根据所述SimHash签名,计算文档两两之间的汉明距。根据所述汉明距判断文档是否相似;删去相似的文档。在本实施例中,根据汉明距的值,对文档从大至小进行排序;删去排名在3名的文档。
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域(在本实施例中,在专利《电力专业词库生成方法及装置》所述的电力词库中查询第一词列表中的词,若能查询到,则认为该词属于电力领域);计算文档对电力领域的匹配值;删去匹配值低于阈值的文档(在本实施例中,阈值为80)。
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档。
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的n个句子输出为文档的主题。
本实施例的有益效果在于,通过筛除相似性较高的文档,然后通过计算文档与电力领域的相关值,筛选出与电力领域高度相关的数据;对这些文档进行聚类,找到不同的类别下的多篇文档;再分别对聚类后文档进行主题提取,可以分类快速提取海量数据中的的主题信息。此外,本发明可用于提取网络平台上电网相关的言论、分析电力公司内部的数据(具体为:国家电力政策分析领域、制度条款搜索领域、知识推荐领域等)。
实施例二
在收集文档的过程中,期望收集到尽可能全面且不同的内容。但同一篇文章常常会转载到多个平台上,以关于Trump的1.5万篇新闻语料为例:内容不同的语料占所有语料的比例仅有8.5%,而在这仅有的8.5%中,仍有一些文本的内容绝大多数相同,仅有个别字符的差异。直接使用这样的语料进行分析,会导致后续聚类和主题生成的结果中出现大量重复的内容,无法尽可能地展现多样性的观点。因此需要对文本内容进一步去重,高效的过滤掉那些内容上大部分相同,只有个别地方不同的文本。
在本实施例中,举例说明计算每个文档的SimHash签名的具体过程:文本A的内容为:“供电企业应当制定接入工作流程。”
对文本A进行分词并删去停用词,得到第一词列表wl:“供电企业”、“应当”、“制定”、“接入”、“工作”、“流程”。其中,每个词通过md5信息摘要算法表示为128位的哈希值,比如“流程”为128位的(101……01)。词的tfidf值的计算方法为公知常识,此处不再赘述。根据所述tfidf值和哈希值,分别计算得到每个文档的 SimHash签名。比如,“流程”的tfidf值为8,得到字符串(8-8 8…… -8 8)。对由第一词列表中词得到的所有字符串按位进行求和,得到 (2-6 5……1 2)。对(2-6 5……1 2)进行降维:若字符串的第i位>0,则SimHash签名的第i位=1;否则sim_hash的第i位=0。求得文档的SimHash签名为(1 0 1……1 1)。
将计算所得的文档的SimHash签名存储到数据集。在程序运行时将全量文档的SimHash加载到内存的HashMap中。HashMap的key 是文档ID,value是其SimHash值。由于HashMap的搜索算法复杂度是O(1),从而实现了基于HashMap的文档SimHash快速匹配。
本实施例的进步之处在于,判断文档之间的相似性,并通过hash map算法快速筛除数据集中的相似文档,避免最终得到大量重复内容,也减少后续步骤的计算量,显著提升提取文本主题的效率和效果。
实施例三
进一步的,Kmeans算法的步骤为:
S1、随机选择K个文档,文档的tfidf向量作为初始的中心;
S2、将每个文档指派到最近的中心,形成K个簇;
S3、根据簇中文档的tfidf向量,重新计算每个簇的中心;S4、重复执行步骤S2到S3,直到簇不发生变化或达到最大迭代次数。
实施例四
对多篇文档按本发明所述方法进行处理,得到类别A下有以下3 篇文档《发改委:供电企业不得拒绝增量配电网、微电网等输配电设施接入系统》《焦点丨能源局修法,力保增量配网、微网、分布式能源公平接网》《头条|发改委发话:增量配电网等输配电设施接入系统,供电企业不得拒绝或拖延》。
得到主题如下:意见稿指出,用电设施存在严重威胁电力系统安全运行和现场作业人身安全的隐患,用户拒不治理的,供电企业可以按照国家有关规定对该用户中止供电。供电企业应当制定接入工作流程及时限并向社会公开。供电企业违反本办法第二十二、第二十三条规定,由能源监管机构依据电力企业信息披露及报送有关规定进行处理。第十二条能源监管机构对供电企业向用户受电工程提供服务的情况实施监管。第二十二条能源监管机构对供电企业信息公开的情况实施监管。
实施例五
一种电力文档主题提取设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取数据集,所述数据集包括多个文档。
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表。计算词列表中每个词的哈希值和tfidf值。根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名。根据所述SimHash签名,计算文档两两之间的汉明距。根据所述汉明距判断文档是否相似;删去相似的文档。在本实施例中,根据汉明距的值,对文档从大至小进行排序;删去排名在3名的文档。
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域(在本实施例中,在专利《电力专业词库生成方法及装置》所述的电力词库中查询第一词列表中的词,若能查询到,则认为该词属于电力领域);计算文档对电力领域的匹配值;删去匹配值低于阈值的文档(在本实施例中,阈值为80)。
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档。
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的n个句子输出为文档的主题。
本实施例的有益效果在于,通过筛除相似性较高的文档,然后通过计算文档与电力领域的相关值,筛选出与电力领域高度相关的数据;对这些文档进行聚类,找到不同的类别下的多篇文档;再分别对聚类后文档进行主题提取,可以分类快速提取海量数据中的的主题信息。此外,本发明可用于提取网络平台上电网相关的言论、分析电力公司内部的数据(具体为:国家电力政策分析领域、制度条款搜索领域、知识推荐领域等)。
实施例六
在收集文档的过程中,期望收集到尽可能全面且不同的内容。但同一篇文章常常会转载到多个平台上,以关于Trump的1.5万篇新闻语料为例:内容不同的语料占所有语料的比例仅有8.5%,而在这仅有的8.5%中,仍有一些文本的内容绝大多数相同,仅有个别字符的差异。直接使用这样的语料进行分析,会导致后续聚类和主题生成的结果中出现大量重复的内容,无法尽可能地展现多样性的观点。因此需要对文本内容进一步去重,高效的过滤掉那些内容上大部分相同,只有个别地方不同的文本。
在本实施例中,举例说明计算每个文档的SimHash签名的具体过程:文本A的内容为:“供电企业应当制定接入工作流程。”
对文本A进行分词并删去停用词,得到第一词列表wl:“供电企业”、“应当”、“制定”、“接入”、“工作”、“流程”。其中,每个词通过md5信息摘要算法表示为128位的哈希值,比如“流程”为128位的(101……01)。词的tfidf值的计算方法为公知常识,此处不再赘述。根据所述tfidf值和哈希值,分别计算得到每个文档的SimHash签名。比如,“流程”的tfidf值为8,得到字符串(8 -8 8…… -8 8)。对由第一词列表中词得到的所有字符串按位进行求和,得到 (2 -6 5……1 2)。对(2 -6 5……1 2)进行降维:若字符串的第i位>0,则SimHash签名的第i位=1;否则sim_hash的第i位=0。求得文档的SimHash签名为(1 0 1……1 1)。
将计算所得的文档的SimHash签名存储到数据集。在程序运行时将全量文档的SimHash加载到内存的HashMap中。HashMap的key 是文档ID,value是其SimHash值。由于HashMap的搜索算法复杂度是O(1),从而实现了基于HashMap的文档SimHash快速匹配。
本实施例的进步之处在于,判断文档之间的相似性,并通过hash map算法快速筛除数据集中的相似文档,避免最终得到大量重复内容,也减少后续步骤的计算量,显著提升提取文本主题的效率和效果。
实施例七
进一步的,Kmeans算法的步骤为:
S1、随机选择K个文档,文档的tfidf向量作为初始的中心;
S2、将每个文档指派到最近的中心,形成K个簇;
S3、根据簇中文档的tfidf向量,重新计算每个簇的中心;S4、重复执行步骤S2到S3,直到簇不发生变化或达到最大迭代次数。
实施例八
对多篇文档按本发明所述方法进行处理,得到类别A下有以下3 篇文档《发改委:供电企业不得拒绝增量配电网、微电网等输配电设施接入系统》《焦点丨能源局修法,力保增量配网、微网、分布式能源公平接网》《头条|发改委发话:增量配电网等输配电设施接入系统,供电企业不得拒绝或拖延》。
得到主题如下:意见稿指出,用电设施存在严重威胁电力系统安全运行和现场作业人身安全的隐患,用户拒不治理的,供电企业可以按照国家有关规定对该用户中止供电。供电企业应当制定接入工作流程及时限并向社会公开。供电企业违反本办法第二十二、第二十三条规定,由能源监管机构依据电力企业信息披露及报送有关规定进行处理。第十二条能源监管机构对供电企业向用户受电工程提供服务的情况实施监管。第二十二条能源监管机构对供电企业信息公开的情况实施监管。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种电力文档主题提取方法,其特征在于,包括以下步骤:
S1、获取数据集,所述数据集包括多个文档;
S2、筛除重复数据:对多个文档进行分词,得到与文档一一对应的多个第一词列表;计算词列表中每个词的哈希值和tfidf值;根据所述哈希值和tfidf值,分别计算每个文档的SimHash签名;根据所述SimHash签名,计算文档两两之间的汉明距;根据所述汉明距判断文档是否相似;删去相似的文档;
S3、筛选出电网相关的文档:根据所述tfidf值和第一词列表中的词是否属于电力领域,计算文档对电力领域的匹配值;删去匹配值低于阈值的文档;
S4、对数据集进行分类:根据所述tfidf值,生成tfidf向量;根据所述tfidf向量对剩余的文档进行聚类分析,得到不同类别的文档;
S5、提取文档主题:对得到的不同类别的文档进行分句;对切分得到的句子进行分词,得到与句子一一对应的第二词列表;对句子进行向量化;根据句子向量,计算句子之间的相似性;将句子作为节点、句子之间的相似性作为权重,构建带权无向图;对该无向图的节点按相似度进行排序,将相似度最高的a个句子输出为文档的主题。
2.根据权利要求1所述的一种电力文档主题提取方法,其特征在于,在步骤S2中,通过hashmap算法快速计算两个文档之间的汉明距。
5.根据权利要求1所述的一种电力文档主题提取方法,其特征在于,在步骤S4中,通过Dbscan算法或Kmeans算法对文档进行聚类分析。
8.一种电力文档主题提取设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1-7任一权利要求所述的一种电力文档主题提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011247379.8A CN112380342A (zh) | 2020-11-10 | 2020-11-10 | 一种电力文档主题提取方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011247379.8A CN112380342A (zh) | 2020-11-10 | 2020-11-10 | 一种电力文档主题提取方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380342A true CN112380342A (zh) | 2021-02-19 |
Family
ID=74578142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011247379.8A Withdrawn CN112380342A (zh) | 2020-11-10 | 2020-11-10 | 一种电力文档主题提取方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380342A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989793A (zh) * | 2021-05-17 | 2021-06-18 | 北京创新乐知网络技术有限公司 | 文章检测方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100049499A1 (en) * | 2006-11-22 | 2010-02-25 | Haruo Hayashi | Document analyzing apparatus and method thereof |
US20140136542A1 (en) * | 2012-11-08 | 2014-05-15 | Apple Inc. | System and Method for Divisive Textual Clustering by Label Selection Using Variant-Weighted TFIDF |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
CN108231200A (zh) * | 2018-01-11 | 2018-06-29 | 浙江大学 | 一种基于主题模型和ilp的看病攻略生成方法 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
-
2020
- 2020-11-10 CN CN202011247379.8A patent/CN112380342A/zh not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100049499A1 (en) * | 2006-11-22 | 2010-02-25 | Haruo Hayashi | Document analyzing apparatus and method thereof |
US20140136542A1 (en) * | 2012-11-08 | 2014-05-15 | Apple Inc. | System and Method for Divisive Textual Clustering by Label Selection Using Variant-Weighted TFIDF |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
CN108231200A (zh) * | 2018-01-11 | 2018-06-29 | 浙江大学 | 一种基于主题模型和ilp的看病攻略生成方法 |
CN110399606A (zh) * | 2018-12-06 | 2019-11-01 | 国网信息通信产业集团有限公司 | 一种无监督电力文档主题生成方法及系统 |
CN110990676A (zh) * | 2019-11-28 | 2020-04-10 | 福建亿榕信息技术有限公司 | 一种社交媒体热点主题提取方法与系统 |
CN111104794A (zh) * | 2019-12-25 | 2020-05-05 | 同方知网(北京)技术有限公司 | 一种基于主题词的文本相似度匹配方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989793A (zh) * | 2021-05-17 | 2021-06-18 | 北京创新乐知网络技术有限公司 | 文章检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Babar et al. | Improving performance of text summarization | |
Hassan et al. | Twitter sentiment analysis: A bootstrap ensemble framework | |
Abbasi et al. | Sentiment analysis in multiple languages: Feature selection for opinion classification in web forums | |
Elnagar et al. | BRAD 1.0: Book reviews in Arabic dataset | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
García-Hernández et al. | Single extractive text summarization based on a genetic algorithm | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN110675269B (zh) | 文本审核方法以及装置 | |
CN111045847A (zh) | 事件审计方法、装置、终端设备以及存储介质 | |
CN113687826A (zh) | 一种基于需求项提取的测试用例复用系统及方法 | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
Rasheed et al. | Urdu text classification: a comparative study using machine learning techniques | |
Miretie et al. | Automatic generation of stopwords in the amharic text | |
Nguyen et al. | An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis | |
CN114610838A (zh) | 文本情感分析方法、装置、设备及存储介质 | |
Umadevi | Document comparison based on tf-idf metric | |
CN111177372A (zh) | 一种科技成果的分类方法、装置、设备及介质 | |
Gupta et al. | Fake news detection using machine learning | |
Hassan et al. | Automatic document topic identification using wikipedia hierarchical ontology | |
Sanchez et al. | A feature mining based approach for the classification of text documents into disjoint classes | |
CN112380342A (zh) | 一种电力文档主题提取方法及设备 | |
Li et al. | automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective | |
Amini | Interactive learning for text summarization | |
Gelbukh et al. | A method of describing document contents through topic selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210219 |