CN108108346B - 文档的主题特征词抽取方法及装置 - Google Patents
文档的主题特征词抽取方法及装置 Download PDFInfo
- Publication number
- CN108108346B CN108108346B CN201611062893.8A CN201611062893A CN108108346B CN 108108346 B CN108108346 B CN 108108346B CN 201611062893 A CN201611062893 A CN 201611062893A CN 108108346 B CN108108346 B CN 108108346B
- Authority
- CN
- China
- Prior art keywords
- word
- phrases
- phrase
- feature
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种文档的主题特征词抽取方法及装置,其中,该文档的主题特征词抽取方法包括如下步骤:导入一组已有分类的文档,所述文档具有中文文本数据;对文档的中文文本数据进行分词预处理,得到多个分词词组;根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;根据预设的主题特征对特征词组进行过滤处理,得到主题特征词。本发明的技术方案能够避免无关特征词对文档主题的影响,能够得到准确的主题特征词,以方便文档的搜索。本发明能够提高主题特征词选取的准确率,避免漏选或多选特征词,能够提高文档搜索的准确性,以提升用户的搜索体验。
Description
技术领域
本发明涉及文档搜索技术领域,尤其涉及一种文档的主题特征词抽取方法及装置。
背景技术
随着网络技术的不断发展,通过网站搜索数据库及文库文档已经逐步取代人工查阅图书的搜索方式。在利用网站搜索文档时,需要对文档的主题特征词进行提取。现有技术中提取文档的主题特征词的方法,先对文档的文本进行分词,然后按照某种特征词的抽取算法提取特征词,从而得到特征词。上述方案只能实现特征词的模糊匹配,得到的特征词的代表性不高,不能充分代表该主题的特征。为上述特征词匹配度较佳的问题,在另一方案中,在对文档的文本进行分次后,增加一个过滤步骤,而后抽取过滤后的特征词,得到特征词。上述的方案能过滤一些无效的特征词,但是这种过滤是针对所有主题的,不能针对某一主题进行过滤,得到的结果会遗漏一些主题的特征,得到的特征词不够全面的问题。
发明内容
为解决上述至少一技术问题,本发明的主要目的是提供一种文档的主题特征词抽取方法。
为实现上述目的,本发明采用的一个技术方案为:提供一种文档的主题特征词抽取方法,包括如下步骤:
导入一组已有分类的文档,所述文档具有中文文本数据;
对文档的中文文本数据进行分词预处理,得到多个分词词组;
根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
根据预设的主题特征对特征词组进行过滤处理,得到主题特征词。
优选地,所述对文档的中文文本数据进行分词预处理,得到多个分词词组的步骤,具体包括:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组。
优选地,所述将词组与预设的停用词库进行比对,得到分词词组的步骤,具体包括:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组。
优选地,所述根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组的步骤,具体包括:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组。
优选地,所述根据预设的主题特征对特征词组进行过滤处理,得到主题特征词的步骤,具体包括:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
为实现上述目的,本发明采用的另一个技术方案为:提供一种文档的主题特征词抽取装置,包括:
导入模块,用于导入一组已有分类的文档,所述文档具有中文文本数据;
预处理模块,用于对文档的中文文本数据进行分词预处理,得到多个分词词组;
选取模块,用于根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
过滤模块,用于根据预设的主题特征对特征词组进行过滤处理,得到主题特征词。
优选地,所述预处理模块,具体用于:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组。
优选地,所述预处理模块,还用于:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组。
优选地,所述选取模块,用于:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组。
优选地,所述过滤模块,用于:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
本发明的技术方案通过采用将文档的中文文本数据进行分词处理,然后根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组,最后根据预设的主题特征对特征词组进行过滤处理,得到主题特征词,相比于现有技术中抽取特征词的方案,本方案采用根据词频、类别信息及互信息综合处理,并进一步对综合处理的特征词组进行过滤处理,如此,能够提高主题特征词选取的准确率,避免漏选或多选特征词,能够提高文档搜索的准确性,以提升用户的搜索体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明一实施例文档的主题特征词抽取方法的流程示意图;
图2为本发明另一实施例文档的主题特征词抽取装置的模块方框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参照图1,在本发明实施例中,该文档的主题特征词抽取方法,包括如下步骤:
步骤S10、导入一组已有分类的文档,所述文档具有中文文本数据;
步骤S20、对文档的中文文本数据进行分词预处理,得到多个分词词组;
步骤S30、根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
步骤S40、根据预设的主题特征对特征词组进行过滤处理,得到主题特征词。
本发明的实施例中,导入一组已有主题分类的文档,每个文档只归属一个主题,文档具有中文文本数据。该多个分词词组主要为名词及动词词组,经过分词处理可以去掉助词、连词、副词等。由于经分词预处理后的分词数量较多,还可以考虑进一步的手段对分词进行处理,具体方案请参照下述实施例中。通过词频、类别信息及互信息可以多个分词词组进行特征选取,如此,能够得到数量较小的特征词组。最后,考虑到特征词组较多的问题,还可以通过预设的主题特征对特征词组进行过滤处理,得到主题特征词,如此,可以大大提高搜索的准确性,方便用户的使用。
本发明的技术方案通过采用将文档的中文文本数据进行分词处理,然后根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组,最后根据预设的主题特征对特征词组进行过滤处理,得到主题特征词,相比于现有技术中抽取特征词的方案,本方案采用根据词频、类别信息及互信息综合处理,并进一步对综合处理的特征词组进行过滤处理,如此,能够提高主题特征词选取的准确率,避免漏选或多选特征词,能够提高文档搜索的准确性,以提升用户的体验。
在一具体的实施例中,所述对文档的中文文本数据进行分词预处理,得到多个分词词组的步骤S20,具体包括:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组。
本实施例中,利用分词算法可以将中文文本数据分成动词、名词、副词、连词等,这时根据词组的词性可以去除副词、连词,标点符号等弱词性的词组,留下动词、名词等强词性词组。由于得到的强词性词组数量较多,故需要将其与停用词库的词组比较,留下停用词库未包含的词组,作为分词词组。
进一步的,所述将词组与预设的停用词库进行比对,得到分词词组的步骤S20,具体包括:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组。
本实施例中,停用词库的词组可以事先设定,判断时,若词组是预设的停用词库的子集,则剔除该词组,若词组不是预设的停用词库的子集,则留下该词组并作为分词词组,如此,可以进一步缩小分词词组数量,可以提高文档搜索及检索效率。
在一具体的实施例中,所述根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组的步骤S30,具体包括:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组。
本实施例中,对分词词组特征选取是基于词频、类别信息及互信息三者来考虑的,类别信息指分词词组的类别,如地名、人名、算法、化学等等;互信息,可以度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。词频,用于计算该词描述文档内容的能力。该特征值的计算公式如下:
W(ti,cj)=tfi×MI(ti,cj)*N/Nij
其中:ti为第i个词,Cj为第j个主题。W(ti,cj)为词ti关于主题cj的特征值,tfi为词ti关于主题cj的词频,MI(ti,cj)为ti与主题cj的互信息,N为总的主题数,Nij为词ti出现的主题个数。
在一具体的实施例中,所述根据预设的主题特征对特征词组进行过滤处理,得到主题特征词的步骤S40,具体包括:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
本实施例中,得到特征词组后还要经过与主题特征过滤,如此,以进一步缩小特征词组的数量,具体,该特征词组的每一个特征词组均与主题特征词比较,若是该特征词组与过滤主题相同,或者包含与过滤主题中,则过滤该特征词组,留下未被过滤的特征词组作为主题特征词。因此,本方案可以针对某一主题设置特征词过滤词组,避免无关特征词对该主题的影响。这种过滤又不会影响被过滤的词作为其他主题的主题特征词,能够大大提高文档的搜索准确性。
请参照图2,本发明的实施例中,该文档的主题特征词抽取装置,包括:
导入模块10,用于导入一组已有分类的文档,所述文档具有中文文本数据;
预处理模块20,用于对文档的中文文本数据进行分词预处理,得到多个分词词组;
选取模块30,用于根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
过滤模块40,用于根据预设的主题特征对特征词组进行过滤处理,得到主题特征词。
本发明的实施例中,由于经预处理模块20的分词预处理后的分词数量较多,还可以考虑进一步的手段对分词进行处理,具体方案请参照下述实施例中。该选取模块30根据词频、类别信息及互信息可以多个分词词组进行特征选取,如此,能够得到数量较小的特征词组。最后,考虑到特征词组较多的问题,过滤模块40还可以根据预设的主题特征对特征词组进行过滤,得到主题特征词,如此,可以大大提高搜索的准确性,方便用户的使用。
在一实施例中,所述预处理模块20,具体用于:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组。
本实施例中,该预处理模块20可以利用分词算法可以将中文文本数据分成动词、名词、副词、连词等,这时根据词组的词性可以去除副词、连词,标点符号等弱词性的词组,留下动词、名词等强词性词组。由于得到的强词性词组数量较多,故需要将其与停用词库的词组比较,留下停用词库未包含的词组,作为分词词组。
进一步的,所述预处理模块20,还用于:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组。
本实施例中,对停用词库的词组可以事先设定,该处理模块还用于判断词组与停用词库的关系,若词组是预设的停用词库的子集,则剔除该词组,若词组不是预设的停用词库的子集,则留下该词组并作为分词词组,如此,可以进一步缩小分词词组数量,可以提高文档搜索及检索效率。
在一具体的实施例中,所述选取模块30,用于:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组。
本实施例中,该选取模块30对分词词组特征选取是基于词频、类别信息及互信息三者来考虑的,类别信息指分词词组的类别,如地名、人名、算法、化学等等;互信息,可以度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。词频,用于计算该词描述文档内容的能力。
在一具体的实施例中,所述过滤模块40,用于:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
本实施例中,利用过滤模块40,可以将得到特征词组后还要经过与主题特征过滤,如此,以进一步缩小特征词组的数量,具体,该特征词组的每一个特征词组均与主题特征词比较,若是该特征词组与过滤主题相同,或者包含与过滤主题中,则过滤该特征词组,留下未被过滤的特征词组作为主题特征词。因此,本方案可以针对某一主题设置特征词过滤词组,避免无关特征词对该主题的影响。这种过滤又不会影响被过滤的词作为其他主题的主题特征词,能够大大提高文档的搜索准确性。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (2)
1.一种文档的主题特征词抽取方法,其特征在于,所述文档的主题特征词抽取方法包括如下步骤:
导入一组已有分类的文档,所述文档具有中文文本数据;
对文档的中文文本数据进行分词预处理,得到多个分词词组;
所述对文档的中文文本数据进行分词预处理,得到多个分词词组的步骤,具体包括:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组;
所述将词组与预设的停用词库进行比对,得到分词词组的步骤,具体包括:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组;
根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
所述根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组的步骤,具体包括:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组;
所述特征值的计算公式如下:
W(ti,cj)=tfi×MI(ti,cj)*N/Nij
其中:ti为第i个词,cj 为第j个主题,W(ti,cj)为词ti关于主题cj的特征值,tfi为词ti关于主题cj的词频,MI(ti,cj)为ti与主题cj的互信息,N为总的主题数,Nij为词ti出现的主题个数;
根据预设的主题特征对特征词组进行过滤处理,得到主题特征词;
所述根据预设的主题特征对特征词组进行过滤处理,得到主题特征词的步骤,具体包括:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
2.一种文档的主题特征词抽取装置,其特征在于,所述文档的主题特征词抽取装置,包括:
导入模块,用于导入一组已有分类的文档,所述文档具有中文文本数据;
预处理模块,用于对文档的中文文本数据进行分词预处理,得到多个分词词组;
所述预处理模块,具体用于:
根据分词算法对文档的中文文本数据进行分词,得到多个词组;
根据词组的词性进行过词性筛选,得到强词性的词组;
将词组与预设的停用词库进行比对,得到分词词组;
输出分词词组;
所述预处理模块,还用于:
判断词组是否为预设的停用词库的子集,
若词组是预设的停用词库的子集,则剔除该词组,
若词组不是预设的停用词库的子集,则留下该词组并作为分词词组;
选取模块,用于根据词频、类别信息及互信息对多个分词词组进行特征选取,得到特征词组;
所述选取模块,用于:
计算所有分词词组在各主题下的词频;
计算每个分词词组与各主题的互信息;
根据分词词组的类别信息与计算的分词词组的词频及互信息选取特征值,得到特征词组;
所述特征值的计算公式如下:
W(ti,cj)=tfi×MI(ti,cj)*N/Nij
其中:ti为第i个词,Cj为第j个主题,W(ti,cj)为词ti关于主题cj的特征值,tfi为词ti关于主题cj的词频,MI(ti,cj)为ti与主题cj的互信息,N为总的主题数,Nij为词ti出现的主题个数;
过滤模块,用于根据预设的主题特征对特征词组进行过滤处理,得到主题特征词;
所述过滤模块,用于:
从多个主题中选取任意一主题作为过滤主题;
根据过滤主题从预设的过滤词库中获取需要进行过滤的选定词组;
逐次遍历特征词组,并将特征词组与选定词组比较,若特征词组存在于过滤词组中,则删除该特征词组,以筛选出主题特征词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062893.8A CN108108346B (zh) | 2016-11-25 | 2016-11-25 | 文档的主题特征词抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062893.8A CN108108346B (zh) | 2016-11-25 | 2016-11-25 | 文档的主题特征词抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108108346A CN108108346A (zh) | 2018-06-01 |
CN108108346B true CN108108346B (zh) | 2021-12-24 |
Family
ID=62204652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611062893.8A Active CN108108346B (zh) | 2016-11-25 | 2016-11-25 | 文档的主题特征词抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108346B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308607A (zh) * | 2018-09-17 | 2019-02-05 | 田歌 | 分类记录事件的方法及装置 |
CN109800428B (zh) * | 2018-12-28 | 2023-01-13 | 东软集团股份有限公司 | 一种为语料标注分词结果的方法、装置、设备及存储介质 |
CN110851569B (zh) * | 2019-11-12 | 2022-11-29 | 北京创鑫旅程网络技术有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113673205B (zh) * | 2021-08-23 | 2023-01-13 | 广东电网有限责任公司 | 一种图像文字信息提取方法、系统及存储介质 |
CN114218385B (zh) * | 2021-12-16 | 2024-05-10 | 广东电网有限责任公司珠海供电局 | 一种基于关键词的安全监测资料分类存放方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103631779A (zh) * | 2012-08-21 | 2014-03-12 | 上海凌攀信息科技有限公司 | 一种基于社交化词典的单词推荐系统 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105183813A (zh) * | 2015-08-26 | 2015-12-23 | 山东省计算中心(国家超级计算济南中心) | 基于互信息的用于文档分类的并行特征选择方法 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005235A1 (en) * | 2001-07-04 | 2003-01-16 | Cogisum Intermedia Ag | Category based, extensible and interactive system for document retrieval |
US8983826B2 (en) * | 2011-06-30 | 2015-03-17 | Palo Alto Research Center Incorporated | Method and system for extracting shadow entities from emails |
CN105488033B (zh) * | 2016-01-26 | 2018-01-02 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
-
2016
- 2016-11-25 CN CN201611062893.8A patent/CN108108346B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631779A (zh) * | 2012-08-21 | 2014-03-12 | 上海凌攀信息科技有限公司 | 一种基于社交化词典的单词推荐系统 |
CN102831248A (zh) * | 2012-09-18 | 2012-12-19 | 北京奇虎科技有限公司 | 网络热点挖掘方法及装置 |
CN103279478A (zh) * | 2013-04-19 | 2013-09-04 | 国家电网公司 | 一种基于分布式互信息文档特征提取方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105183813A (zh) * | 2015-08-26 | 2015-12-23 | 山东省计算中心(国家超级计算济南中心) | 基于互信息的用于文档分类的并行特征选择方法 |
CN105701084A (zh) * | 2015-12-28 | 2016-06-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于互信息的文本分类的特征提取方法 |
CN105786991A (zh) * | 2016-02-18 | 2016-07-20 | 中国科学院自动化研究所 | 结合用户情感表达方式的中文情感新词识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于互信息的话题特征选择方法研究;吴树芳 等;《情报杂志》;20140430;第34卷(第4期);第159-161页 * |
基于词频和文本类别的互信息改进算法;谢力 等;《井冈山大学学报(自然科学版)》;20130531;第34卷(第3期);第41-44页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108108346A (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108346B (zh) | 文档的主题特征词抽取方法及装置 | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
US8577155B2 (en) | System and method for duplicate text recognition | |
CN110738039B (zh) | 一种案件辅助信息的提示方法、装置、存储介质和服务器 | |
CN105630975B (zh) | 一种信息处理方法和电子设备 | |
CN108363694B (zh) | 关键词提取方法及装置 | |
CN110110325B (zh) | 一种重复案件查找方法和装置、计算机可读存储介质 | |
RU2738335C1 (ru) | Способ и система классификации и фильтрации запрещенного контента в сети | |
CN110570199A (zh) | 一种基于用户输入行为的用户身份检测方法及系统 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN106484672A (zh) | 词汇识别方法和词汇识别系统 | |
CN110399464B (zh) | 一种相似新闻判别方法、系统及电子设备 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
CN105843890A (zh) | 基于知识库面向大数据及普通数据的数据采集方法和系统 | |
CN105893397A (zh) | 一种视频推荐方法及装置 | |
CN109408789B (zh) | 一种笔录模板及其生成方法及笔录模板选择系统 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN107229654A (zh) | 一种热搜词获取方法及系统 | |
CN111079448A (zh) | 一种意图识别方法及装置 | |
CN107844553B (zh) | 一种文本分类方法及装置 | |
CN111061924A (zh) | 词组提取方法、装置、设备和存储介质 | |
CN116151249B (zh) | 一种基于困难样本筛选的即兴委婉语检测方法 | |
Santoso et al. | The Implementation of Vector Space Model for Infectious Disease Diagnosis System Based on Pathophysiology Science |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |