CN106372056A - 一种基于自然语言的主题与关键词的提取方法和系统 - Google Patents

一种基于自然语言的主题与关键词的提取方法和系统 Download PDF

Info

Publication number
CN106372056A
CN106372056A CN201610719138.6A CN201610719138A CN106372056A CN 106372056 A CN106372056 A CN 106372056A CN 201610719138 A CN201610719138 A CN 201610719138A CN 106372056 A CN106372056 A CN 106372056A
Authority
CN
China
Prior art keywords
main
predicate
word
clustering
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610719138.6A
Other languages
English (en)
Inventor
尹嘉路
陈鸿
丁文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Far Long (beijing) Technical Service Co Ltd
Original Assignee
Far Long (beijing) Technical Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Far Long (beijing) Technical Service Co Ltd filed Critical Far Long (beijing) Technical Service Co Ltd
Priority to CN201610719138.6A priority Critical patent/CN106372056A/zh
Publication of CN106372056A publication Critical patent/CN106372056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于自然语言的主题与关键词的提取方法和系统,方法包括:将连续文本切分成一个个独立词语,并标注词性;从每一个切过词的句子里提取出主词和谓词;对所有的主词‑谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题‑关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。

Description

一种基于自然语言的主题与关键词的提取方法和系统
技术领域
本发明属于互联网领域,尤其涉及一种基于自然语言的主题与关键词的提取方法和系统。
背景技术
互联网上的海量文本数据包含的潜在信息一直是自然语言处理和数据挖掘的应用热点,而总结和统计大量自然语言文本中包含的主题和重点关键词更是在舆情分析,用户口碑分析等应用中起到不可或缺的关键作用。但效率和精度从文本中提取主题与关键词一直是实际工作中的难点。
现有方案普遍采用Dirichlet分布来描述文档中主题的分布与不同主题下词语的分布。通过对输入语料库进行反复统计采样,计算出这两个概率模型的取值,进而实现对主题和关键词的提取。
在估计概率模型过程中,需要消耗相当繁重的计算量。同时计算结果与人为指定的先验概率有关,结果的质量难以保证和评估。在实际用此方案提取领域主题模型时因此有效率和质量的不小的困难。
发明内容
本发明所要解决的技术问题是提供一种基于自然语言的主题与关键词的提取方法,以及一种主题与关键词的提取系统。
本发明解决上述技术问题所采取的技术方案如下:
一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主一谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
一种基于自然语言的主题与关键词的提取系统,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题一关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于自然语言的主题与关键词的提取方法的流程示意图;
图2是本发明基于自然语言的主题与关键词的提取系统的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
如图1所示,一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题一关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
实施例二:
对实施例一进行详细说明,其中,优选的是,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
实施例三:
如图2所示,与以上方法实施例相对应,本发明公开了一种基于自然语言的主题与关键词的提取系统,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
优选的是,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
优选的是,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
优选的是,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
优选的是,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
本发明采取了上述方案以后,基于主词谓词二元组聚类得到主题-关键词集合,进而描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
实施例四:
结合具体实例对本发明系统进行说明,其中,其由自然语言预处理子系统,主谓提取子系统,聚类子系统三个数据处理系统先后相继工作构成。
其中,首先由自然语言预处理系统将连续文本切分成一个个独立词语,并标注词性。再由主谓提取子系统从每一个切过词的句子里提取出主词和谓词。最后由聚类子系统对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。以下是相关说明:
如自然语言预处理子系统说明:
本系统负责对输入中英文文本做切词和词性标注。输出结果以空格分开,每个词语的词性由约定的符号标记。如下:
这/p只是/s一/m个/t例子/n。/q
主谓提取子系统说明:
本系统负责将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,构成的(主词,谓词)二元组。在代词及缺乏主语的场合,系统会自动补充合适的主词。对一段洗发水评论的加工会输出如下:
(包装,很好)
(味道,喜欢)
(正品,是)
聚类子系统说明:
本系统将输入的所有(主词,谓词)二元组的数据构建为一个二部图,每一个二元组对应一个主词节点和一个谓词节点之间的关系。主词谓词对的出现频率对应关系的权重,基于这个二部图,我们应用Jaccard Index分别计算出主词间的两两相似性,及谓词间的两两相似性。最后使用Bi-Clustering算法完成对主-谓词的各自聚类。这时每一类主词构成一类主题,我们保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。基于来自天猫上的一组洗发水评论计算得到的部分主题和关键词如下:
·味道:不大一样 不如 不对劲 不正 不錯 也挺 像 冲 刚刚好 刚开始 刺激刺鼻 受不了 吻 呛 喜歡 太大 太重 太香 奇怪 好问 姜味 对 很浓 很淡 很甜 很轻很重 怡人 怪 怪怪的 接受 有区别 极好 果香 柔和 正宗 没变 浓烈 浓重 淡 淡淡 淡淡的 淡点 淡雅 清 清新 清淡 清香 温和 潘婷 熟悉 特别 特殊 甜 甜甜的 生姜 纯正聞 腻 自然 臭 舒适 蛮香 重 闷 闻得 难闻 飘柔 香喷喷 香浓 香甜 香香 香香的 好闻 很香 蛮好 香
·泡沫:比较丰富 绵密 防压
·头发:不会 不出 不开 不掉 不涩 不顺 乱 乱飞 亮 亮亮 亮泽 伤 保养 光光亮 光光 光泽 光滑 凌乱 出油 分叉 半干 卷 发亮 发干 发根 发涩 受损 变 变化变好 变得 变软 变顺 吸收 吹 吹干 喷 坚持 垂顺 太油 好滑 少掉 属于 干干的 干枯干涩 干燥 干爽 开叉 强韧 很亮 很柔 很润 很涩 很滑 很顺 打理 打结 拉 拉直 挺舒服 掉 摸 摸着 显得 有所改善 有救 服帖 松软 枯 枯燥 染 染烫 柔 柔亮 柔柔 柔柔顺顺 柔润 柔滑 梳 梳理 比较 比较严重 毛燥 毛糙 毛躁 油 油油的 油腻 油腻腻 洗好 洗得 洗过 浓密 涩涩 湿润 滑 滑润 滑溜溜 滑滑 滑爽 滑顺 烫 烫染 烫过 燥 爱白 直 硬 硬硬 稀少 粗 糙 糟 细 脆弱 脱落 舒爽 蓬 蓬松 蓬蓬 许 该 起 超顺 越来越少 软 软软 轻盈 轻飘飘 适用 防止 顺 顺溜 顺畅 顺直 顺顺 飘 飘逸 黑 会 柔顺清爽 顺滑
通过上面的描述可以看出,这种方案带来的好处有下面几点:
1、由于基于自然语言技术提取的主词谓词二元组做进一步加工,本发明技术方案得到的每个主题已经被明确的主词命名,每个主题都是名词,同时所有的关键词都是和这个主词有主谓搭配关系的形容词和动词。而基于概率模型的方案往往给出一组会共同出现的词语,这组词代表的主题并不一定明确,需要人为猜测和补充。
2、本发明方案得到的明确的名词性主题事实上构成被分析的语料领域的一个概念分解。在舆情分析中,这个概念分解清晰地描述了特定领域的舆论维度,构成进一步的定量分析舆情的良好基础。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自然语言的主题与关键词的提取方法,包括:
将连续文本切分成一个个独立词语,并标注词性;
从每一个切过词的句子里提取出主词和谓词;
对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
2.根据权利要求1所述的基于自然语言的主题与关键词的提取方法,其特征在于,将连续文本切分成一个个独立词语,并标注词性,包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
3.根据权利要求2所述的基于自然语言的主题与关键词的提取方法,其特征在于,从每一个切过词的句子里提取出主词和谓诃,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
4.根据权利要求3所述的基于自然语言的主题与关键词的提取方法,其特征在于,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
5.根据权利要求3所述的基于自然语言的主题与关键词的提取方法,其特征在于,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
6.一种基于自然语言的主题与关键词的提取系统,其特征在于,包括:自然语言预处理子系统,主谓提取子系统,聚类子系统,其中,
所述自然语言预处理子系统,用于将连续文本切分成一个个独立词语,并标注词性;
所述主谓提取子系统,用于从每一个切过词的句子里提取出主词和谓词;
所述聚类子系统,用于对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类。
7.根据权利要求6所述的主题与关键词的提取系统,其特征在于,所述自然语言预处理子系统,将连续文本切分成一个个独立词语,并标注词性,具体方法包括:
获取输入的中英文文本,并对输入中英文文本做切词和词性标注;其中,输出结果以空格分开,每个词语的词性由约定的符号标记。
8.根据权利要求7所述的主题与关键词的提取系统,其特征在于,所述主谓提取子系统,从每一个切过词的句子里提取出主词和谓词,包括:
将输入的句子序列提取出主语和谓语,并输出每句话中主语短语的关键词:主词,以及谓语短语的关键词:谓词,以及构成的主词和谓词二元组。
9.根据权利要求8所述的主题与关键词的提取系统,其特征在于,如缺少代词及缺乏主语,则根据上下文场景补充合适的主词。
10.根据权利要求8所述的主题与关键词的提取系统,其特征在于,所述聚类子系统,对所有的主词-谓词二元组进行聚类,计算出所有语料中主要的主题聚类和相关的关键词聚类,具体包括:
将输入的所有主词和谓词二元组的数据构建为一个二部图;
其中,每一个二元组对应一个主词节点和一个谓词节点之间的关系,主词谓词对的出现频率对应关系的权重;
基于这个二部图,应用杰卡德指数(Jaccard Index)分别计算出主词间的两两相似性,及谓词间的两两相似性;
最后使用双聚类(Bi-Clustering)算法完成对主-谓词的各自聚类;
每一类主词构成一类主题,保留其中词频最高的那个作为主题的名字,而和它相关的那类谓词构成最经常与此主题搭配的关键词。
CN201610719138.6A 2016-08-25 2016-08-25 一种基于自然语言的主题与关键词的提取方法和系统 Pending CN106372056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610719138.6A CN106372056A (zh) 2016-08-25 2016-08-25 一种基于自然语言的主题与关键词的提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610719138.6A CN106372056A (zh) 2016-08-25 2016-08-25 一种基于自然语言的主题与关键词的提取方法和系统

Publications (1)

Publication Number Publication Date
CN106372056A true CN106372056A (zh) 2017-02-01

Family

ID=57879252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610719138.6A Pending CN106372056A (zh) 2016-08-25 2016-08-25 一种基于自然语言的主题与关键词的提取方法和系统

Country Status (1)

Country Link
CN (1) CN106372056A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107291694A (zh) * 2017-06-27 2017-10-24 北京粉笔未来科技有限公司 一种自动评阅作文的方法和装置、存储介质及终端
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN109857866A (zh) * 2019-01-14 2019-06-07 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN112989816A (zh) * 2021-04-20 2021-06-18 中译语通科技股份有限公司 文本内容质量评估方法及系统
CN113609837A (zh) * 2021-04-19 2021-11-05 鼎富智能科技有限公司 一种笔录信息的提取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377771A (zh) * 2007-08-28 2009-03-04 万继华 用0和1两个信号编码和计算自然语言的机械方法
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
US20130173604A1 (en) * 2011-12-30 2013-07-04 Microsoft Corporation Knowledge-based entity detection and disambiguation
CN104573057A (zh) * 2015-01-22 2015-04-29 电子科技大学 一种用于跨ugc网站平台的帐户关联方法
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377771A (zh) * 2007-08-28 2009-03-04 万继华 用0和1两个信号编码和计算自然语言的机械方法
CN102737013A (zh) * 2011-04-02 2012-10-17 三星电子(中国)研发中心 基于依存关系来识别语句情感的设备和方法
US20130173604A1 (en) * 2011-12-30 2013-07-04 Microsoft Corporation Knowledge-based entity detection and disambiguation
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
CN104573057A (zh) * 2015-01-22 2015-04-29 电子科技大学 一种用于跨ugc网站平台的帐户关联方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107291694A (zh) * 2017-06-27 2017-10-24 北京粉笔未来科技有限公司 一种自动评阅作文的方法和装置、存储介质及终端
CN107291694B (zh) * 2017-06-27 2021-04-13 北京猿力教育科技有限公司 一种自动评阅作文的方法和装置、存储介质及终端
CN108280063A (zh) * 2018-01-19 2018-07-13 中国科学院软件研究所 基于半监督学习的语义分析方法及系统
CN108564106A (zh) * 2018-02-28 2018-09-21 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力计算方法
CN108564106B (zh) * 2018-02-28 2020-10-20 首都师范大学 一种基于句法主语聚类的中文篇章主题表现力分析方法
CN109857866A (zh) * 2019-01-14 2019-06-07 中国科学院信息工程研究所 一种面向事件查询建议的关键词抽取方法和事件查询建议生成方法及检索系统
CN113609837A (zh) * 2021-04-19 2021-11-05 鼎富智能科技有限公司 一种笔录信息的提取方法及装置
CN112989816A (zh) * 2021-04-20 2021-06-18 中译语通科技股份有限公司 文本内容质量评估方法及系统
CN112989816B (zh) * 2021-04-20 2021-10-01 中译语通科技股份有限公司 文本内容质量评估方法及系统

Similar Documents

Publication Publication Date Title
Anandarajan et al. Text preprocessing
CN106372056A (zh) 一种基于自然语言的主题与关键词的提取方法和系统
Wu et al. Automatic generation of personalized annotation tags for twitter users
Evert The statistics of word cooccurrences: word pairs and collocations
Im Walde Experiments on the automatic induction of German semantic verb classes
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
Hadni et al. Word sense disambiguation for Arabic text categorization.
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN108681574A (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
EP1983444A1 (en) A method for the extraction of relation patterns from articles
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Jha et al. Homs: Hindi opinion mining system
CN110263319A (zh) 一种基于网页文本的学者观点抽取方法
Nguyen-Hoang et al. TSGVi: a graph-based summarization system for Vietnamese documents
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
Tiwari et al. Ensemble approach for twitter sentiment analysis
Bouchlaghem et al. Tunisian dialect Wordnet creation and enrichment using web resources and other Wordnets
Gupta Automatic stemming of words for Punjabi language
Das et al. The 5w structure for sentiment summarization-visualization-tracking
Maharjan et al. A straightforward author profiling approach in mapreduce
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
CN107423281A (zh) 改进的小世界模型提取文本特征的算法
Huang Social metaphor detection via topical analysis
Wang et al. A transition-based system for universal dependency parsing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170201