CN106372056A - 一种基于自然语言的主题与关键词的提取方法和系统 - Google Patents
一种基于自然语言的主题与关键词的提取方法和系统 Download PDFInfo
- Publication number
- CN106372056A CN106372056A CN201610719138.6A CN201610719138A CN106372056A CN 106372056 A CN106372056 A CN 106372056A CN 201610719138 A CN201610719138 A CN 201610719138A CN 106372056 A CN106372056 A CN 106372056A
- Authority
- CN
- China
- Prior art keywords
- main
- predicate
- word
- clustering
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 239000000470 constituent Substances 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 235000015489 Emblica officinalis Nutrition 0.000 claims 1
- 244000277583 Terminalia catappa Species 0.000 claims 1
- 235000011517 Terminalia chebula Nutrition 0.000 claims 1
- 238000004445 quantitative analysis Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 3
- 241000234314 Zingiber Species 0.000 description 2
- 235000006886 Zingiber officinale Nutrition 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 235000008397 ginger Nutrition 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000002453 shampoo Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000006260 foam Substances 0.000 description 1
- 238000010409 ironing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000019605 sweet taste sensations Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自然语言的主题与关键词的提取方法和系统,方法包括:将连续文本切分成一个个独立词语,并标注词性;从每一个切过词的句子里提取出主词和谓词;对所有的主词‑谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题‑关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
Description
技术领域
本发明属于互联网领域,尤其涉及一种基于自然语言的主题与关键词的提取方法和系统。
背景技术
互联网上的海量文本数据包含的潜在信息一直是自然语言处理和数据挖掘的应用热点,而总结和统计大量自然语言文本中包含的主题和重点关键词更是在舆情分析,用户口碑分析等应用中起到不可或缺的关键作用。但效率和精度从文本中提取主题与关键词一直是实际工作中的难点。
现有方案普遍采用Dirichlet分布来描述文档中主题的分布与不同主题下词语的分布。通过对输入语料库进行反复统计采样,计算出这两个概率模型的取值,进而实现对主题和关键词的提取。
在估计概率模型过程中,需要消耗相当繁重的计算量。同时计算结果与人为指定的先验概率有关,结果的质量难以保证和评估。在实际用此方案提取领域主题模型时因此有效率和质量的不小的困难。
发明内容
本发明所要解决的技术问题是提供一种基于自然语言的主题与关键词的提取方法,以及一种主题与关键词的提取系统。
本发明解决上述技术问题所采取的技术方案如下:
一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主一谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
一种基于自然语言的主题与关键词的提取系统,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题一关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于自然语言的主题与关键词的提取方法的流程示意图;
图2是本发明基于自然语言的主题与关键词的提取系统的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
如图1所示,一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题一关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
实施例二:
对实施例一进行详细说明,其中,优选的是,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
实施例三:
如图2所示,与以上方法实施例相对应,本发明公开了一种基于自然语言的主题与关键词的提取系统,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题-关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
实施例四:
结合具体实例对本发明系统进行说明,其中,其由自然语言预处理子系统,主谓提取子系统,聚类子系统三个数据处理系统先后相继工作构成。
其中,首先由自然语言预处理系统将连续文本切分成一个个独立词语,并标注词性。再由主谓提取子系统从每一个切过词的句子里提取出主词和谓词。最后由聚类子系统对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。以下是相关说明:
如自然语言预处理子系统说明:
本系统负责对输入中英文文本做切词和词性标注。输出结果以空格分开,每个词语的词性由约定的符号标记。如下:
这/p只是/s一/m个/t例子/n。/q
主谓提取子系统说明:
本系统负责将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,构成的(主词,谓词)二元组。在代词及缺乏主语的场合,系统会自动补充合适的主词。对一段洗发水评论的加工会输出如下:
(包装,很好)
(味道,喜欢)
(正品,是)
聚类子系统说明:
本系统将输入的所有(主词,谓词)二元组的数据构建为一个二部图,每一个二元组对应一个主词节点和一个谓词节点之间的关系。主词谓词对的出现频率对应关系的权重,基于这个二部图,我们应用Jaccard Index分别计算出主词间的两两相似性,及谓词间的两两相似性。最后使用Bi-Clustering算法完成对主-谓词的各自聚类。这时每一类主词构成一类主题,我们保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。基于来自天猫上的一组洗发水评论计算得到的部分主题和关键词如下:
·味道:不大一样 不如 不对劲 不正 不錯 也挺 像 冲 刚刚好 刚开始 刺激刺鼻 受不了 吻 呛 喜歡 太大 太重 太香 奇怪 好问 姜味 对 很浓 很淡 很甜 很轻很重 怡人 怪 怪怪的 接受 有区别 极好 果香 柔和 正宗 没变 浓烈 浓重 淡 淡淡 淡淡的 淡点 淡雅 清 清新 清淡 清香 温和 潘婷 熟悉 特别 特殊 甜 甜甜的 生姜 纯正聞 腻 自然 臭 舒适 蛮香 重 闷 闻得 难闻 飘柔 香喷喷 香浓 香甜 香香 香香的 好闻 很香 蛮好 香
·泡沫:比较丰富 绵密 防压
·头发:不会 不出 不开 不掉 不涩 不顺 乱 乱飞 亮 亮亮 亮泽 伤 保养 光光亮 光光 光泽 光滑 凌乱 出油 分叉 半干 卷 发亮 发干 发根 发涩 受损 变 变化变好 变得 变软 变顺 吸收 吹 吹干 喷 坚持 垂顺 太油 好滑 少掉 属于 干干的 干枯干涩 干燥 干爽 开叉 强韧 很亮 很柔 很润 很涩 很滑 很顺 打理 打结 拉 拉直 挺舒服 掉 摸 摸着 显得 有所改善 有救 服帖 松软 枯 枯燥 染 染烫 柔 柔亮 柔柔 柔柔顺顺 柔润 柔滑 梳 梳理 比较 比较严重 毛燥 毛糙 毛躁 油 油油的 油腻 油腻腻 洗好 洗得 洗过 浓密 涩涩 湿润 滑 滑润 滑溜溜 滑滑 滑爽 滑顺 烫 烫染 烫过 燥 爱白 直 硬 硬硬 稀少 粗 糙 糟 细 脆弱 脱落 舒爽 蓬 蓬松 蓬蓬 许 该 起 超顺 越来越少 软 软软 轻盈 轻飘飘 适用 防止 顺 顺溜 顺畅 顺直 顺顺 飘 飘逸 黑 会 柔顺清爽 顺滑
通过上面的描述可以看出,这种方案带来的好处有下面几点:
1、由于基于自然语言技术提取的主词谓词二元组做进一步加工,本发明技术方案得到的每个主题已经被明确的主词命名,每个主题都是名词,同时所有的关键词都是和这个主词有主谓搭配关系的形容词和动词。而基于概率模型的方案往往给出一组会共同出现的词语,这组词代表的主题并不一定明确,需要人为猜测和补充。
2、本发明方案得到的明确的名词性主题事实上构成被分析的语料领域的一个概念分解。在舆情分析中,这个概念分解清晰地描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
2.根据权利要求1所述的基于自然语言的主题与关键词的提取方法,其特征在于,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
3.根据权利要求2所述的基于自然语言的主题与关键词的提取方法,其特征在于,从每一个切过词的句子里提取出主词和谓诃,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
4.根据权利要求3所述的基于自然语言的主题与关键词的提取方法,其特征在于,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
5.根据权利要求3所述的基于自然语言的主题与关键词的提取方法,其特征在于,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
6.一种基于自然语言的主题与关键词的提取系统,其特征在于,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
7.根据权利要求6所述的主题与关键词的提取系统,其特征在于,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
8.根据权利要求7所述的主题与关键词的提取系统,其特征在于,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
9.根据权利要求8所述的主题与关键词的提取系统,其特征在于,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
10.根据权利要求8所述的主题与关键词的提取系统,其特征在于,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610719138.6A CN106372056A (zh) | 2016-08-25 | 2016-08-25 | 一种基于自然语言的主题与关键词的提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610719138.6A CN106372056A (zh) | 2016-08-25 | 2016-08-25 | 一种基于自然语言的主题与关键词的提取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106372056A true CN106372056A (zh) | 2017-02-01 |
Family
ID=57879252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610719138.6A Pending CN106372056A (zh) | 2016-08-25 | 2016-08-25 | 一种基于自然语言的主题与关键词的提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106372056A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106911717A (zh) * | 2017-04-13 | 2017-06-30 | 成都亚信网络安全产业技术研究院有限公司 | 一种域名检测方法及装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN108564106A (zh) * | 2018-02-28 | 2018-09-21 | 首都师范大学 | 一种基于句法主语聚类的中文篇章主题表现力计算方法 |
CN109857866A (zh) * | 2019-01-14 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统 |
CN112989816A (zh) * | 2021-04-20 | 2021-06-18 | 中译语通科技股份有限公司 | 文本内容质量评估方法及系统 |
CN113609837A (zh) * | 2021-04-19 | 2021-11-05 | 鼎富智能科技有限公司 | 一种笔录信息的提取方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377771A (zh) * | 2007-08-28 | 2009-03-04 | 万继华 | 用0和1两个信号编码和计算自然语言的机械方法 |
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
US20150331936A1 (en) * | 2014-05-14 | 2015-11-19 | Faris ALQADAH | Method and system for extracting a product and classifying text-based electronic documents |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
-
2016
- 2016-08-25 CN CN201610719138.6A patent/CN106372056A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377771A (zh) * | 2007-08-28 | 2009-03-04 | 万继华 | 用0和1两个信号编码和计算自然语言的机械方法 |
CN102737013A (zh) * | 2011-04-02 | 2012-10-17 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
US20130173604A1 (en) * | 2011-12-30 | 2013-07-04 | Microsoft Corporation | Knowledge-based entity detection and disambiguation |
US20150331936A1 (en) * | 2014-05-14 | 2015-11-19 | Faris ALQADAH | Method and system for extracting a product and classifying text-based electronic documents |
CN104573057A (zh) * | 2015-01-22 | 2015-04-29 | 电子科技大学 | 一种用于跨ugc网站平台的帐户关联方法 |
CN105677769A (zh) * | 2015-12-29 | 2016-06-15 | 广州神马移动信息科技有限公司 | 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106911717A (zh) * | 2017-04-13 | 2017-06-30 | 成都亚信网络安全产业技术研究院有限公司 | 一种域名检测方法及装置 |
CN107291694A (zh) * | 2017-06-27 | 2017-10-24 | 北京粉笔未来科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN107291694B (zh) * | 2017-06-27 | 2021-04-13 | 北京猿力教育科技有限公司 | 一种自动评阅作文的方法和装置、存储介质及终端 |
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN108564106A (zh) * | 2018-02-28 | 2018-09-21 | 首都师范大学 | 一种基于句法主语聚类的中文篇章主题表现力计算方法 |
CN108564106B (zh) * | 2018-02-28 | 2020-10-20 | 首都师范大学 | 一种基于句法主语聚类的中文篇章主题表现力分析方法 |
CN109857866A (zh) * | 2019-01-14 | 2019-06-07 | 中国科学院信息工程研究所 | 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统 |
CN113609837A (zh) * | 2021-04-19 | 2021-11-05 | 鼎富智能科技有限公司 | 一种笔录信息的提取方法及装置 |
CN112989816A (zh) * | 2021-04-20 | 2021-06-18 | 中译语通科技股份有限公司 | 文本内容质量评估方法及系统 |
CN112989816B (zh) * | 2021-04-20 | 2021-10-01 | 中译语通科技股份有限公司 | 文本内容质量评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anandarajan et al. | Text preprocessing | |
CN106372056A (zh) | 一种基于自然语言的主题与关键词的提取方法和系统 | |
Wu et al. | Automatic generation of personalized annotation tags for twitter users | |
Evert | The statistics of word cooccurrences: word pairs and collocations | |
Im Walde | Experiments on the automatic induction of German semantic verb classes | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
Suleiman et al. | The use of hidden Markov model in natural ARABIC language processing: a survey | |
Hadni et al. | Word sense disambiguation for Arabic text categorization. | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
EP1983444A1 (en) | A method for the extraction of relation patterns from articles | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
Jha et al. | Homs: Hindi opinion mining system | |
CN110263319A (zh) | 一种基于网页文本的学者观点抽取方法 | |
Nguyen-Hoang et al. | TSGVi: a graph-based summarization system for Vietnamese documents | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
Bouchlaghem et al. | Tunisian dialect Wordnet creation and enrichment using web resources and other Wordnets | |
Gupta | Automatic stemming of words for Punjabi language | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
Maharjan et al. | A straightforward author profiling approach in mapreduce | |
Ogrodniczuk et al. | Rule-based coreference resolution module for Polish | |
CN107423281A (zh) | 改进的小世界模型提取文本特征的算法 | |
Huang | Social metaphor detection via topical analysis | |
Wang et al. | A transition-based system for universal dependency parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170201 |