CN108763196A - 一种基于pmi的关键字提取方法 - Google Patents
一种基于pmi的关键字提取方法 Download PDFInfo
- Publication number
- CN108763196A CN108763196A CN201810412313.6A CN201810412313A CN108763196A CN 108763196 A CN108763196 A CN 108763196A CN 201810412313 A CN201810412313 A CN 201810412313A CN 108763196 A CN108763196 A CN 108763196A
- Authority
- CN
- China
- Prior art keywords
- word
- keyword
- document
- pmi
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于PMI(点互信息算法)的关键字提取方法。本发明基于PMI的关键字提取,使用PMI算法确定候选词之间的语义相关性,将相关性较大的词放在一个数组中,数组中的每个元素的包含3个信息:词数,词频和权重。将切分的词语生成候选词集合,根据TF‑IDF(词频‑逆文本频率)权重计算公式,计算出每一个切分词的权重,并对其进行排序,选取最靠前的几个词语作为候选关键字,再根据候选关键字所在的数组中,选择相关性较大的词,组成具有语义相关性的关键字集合。本发明极大的降低了在文章中出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语的忽略程度,方便用户检索到相关性较高的文本结果集。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种基于PMI的关键字提取方法,对给定的文本数据进行分词并提取关键字以便提高用户检索速度,通过考虑词与词之间的相关性,提高了检索的准确性和高效性。
背景技术
关键词提取的概念随着信息检索的出现而产生,信息方法的发展使得信息数据的数量成指数级增长,面对如此庞大的数据集,查找符合查询条件的数据是一大方法难点。引入关键词的概念,对大量的数据集进行切分和提取关键信息,选择最具代表性的词作为关键字。
目前,关键字提取领域,最基础也最核心的处理算法是TD-IDF算法。TF-IDF是一种用于信息检索与文本挖掘的常用加权方法。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
为了挖掘更深层次的信息,又提出了主题模型(TopicModel),主题模型在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。
当前,还提出了一些基于PageRank的TextRank算法,用于为文本生成关键字和摘要。PageRank的两条基本思想是:如果一个网页被许多其他网页链接到,说明这个网页比较重要;如果一个网页被一个权值很高的网页链接到,则其重要性也会相应增加。TextRank算法是由PageRank算法改进而来,TextRank多了一个权重的参数,用来表示两个节点之间的边连接有不同的重要程度。TextRank将生成的候选关键词组成关键词图,然后采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。将出现在同一窗口的词根据权重公式计算其权重大小。
发明内容
本发明提出了一种基于PMI的关键字提取方法,能有效的提取文本数据中的关键字,并根据词与词之间的语义相关性,在用户输入关键字搜索时,系统能有效对关键字进行拓展,最大限度的满足用户的搜索目的。
为了实现以上目的,本发明是通过以下方法实现的:
1)对文档D进行分词和词性标注,获得候选词语列表CW;
2)去除CW中的停用词后,保留形容词、副词、短语、缩写词、动词、动名词和名词,获得词语集合W={w1,w2,…,wn};
3)记录词语集合W中的词语长度、词语文本、词语位置以及词语词性;
4)按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为:
其中,p(x)和p(y)分别表示字串x和y在总体语料库中的概率,p(x,y)表示字串x和y同时出现在语料库同一篇文档的概率。在概率论中,我们知道,如果x与y不相关,则p(x,y)=p(x)p(y);二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。后面的式子表示:在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)即表示x与y的相关度。这里的log来自信息论的理论,而且log1=0,也正好表明当p(x,y)=p(x)p(y)时,相关性为0,而且log是单调递增函数,所以p(x,y)相比于p(x)p(y)越大,x与y相关性越大这一性质得以保留。
5)计算完词语集合W中两两之间的相关性后,将相关性超过相关性阙值的候选词放到同一个数组R中,R=[r1,r2,…,rn],其中每一个数组元素存储3个属性:词数、词频和权值,词数是指字串出现在语料库中的次数,词频表示字串出现在语料库中的频率,权值根据用户的搜索该字串的次数和频率而得到一个搜索权值。
ri(ni,pi,wi)
其中ni表示第i个元素的词数,pi表示第i个元素的词频,wi表示第i个元素的搜索权值。
6)根据TF-IDF的计算权值的公式计算每一个候选字的权值,排序后得到权值向量w。词语wi在文档D中的词频tfi定义为:
其中,ni是词语wi在文档D中出现的次数;分母是文档中所有词语出现的次数的总和,词频越大,词语越可能是关键词。逆文档频率(IDF)是词语普遍重要性的度量。包含词语的文档越少则IDF越大,表明词语有很好的区分能力。词语wi在文档集合DS中的逆向文档频率idfi定义为:
其中|DS|是指语料库中的文件总数;分母是包含wi的文档数目。
词语wi的词频‐逆向文档频率(TF-IDF)tfidfi定义为:
tfidfi=tfi×idfi
7)根据权值向量w,选择排序前几位的候选词组成关键字集合,同时构建一个映射函数h,来表示关键字与存在关键字的数组R的关系。该映射函数的目的是,当用户输入关键字时,系统会自动匹配到与关键字相似度极高的数组,提取前几个,然后和数据库中进行匹配,目的是扩大搜索范围,使得搜索结果更加准确有效。
8)根据权值向量,选择排序前几位的候选词组成关键字集合,同时构建一个映射函数,来表示关键字与存在关键字的数组R的关系。
9)当用户输入关键字时,系统会自动匹配到与关键字相似度极高的数组,提取前几个,然后和数据库中进行匹配,将含有R数组中相似度极高的关键词的文本作为搜索结果集呈现给用户
本发明与现有技术相比,具有以下优点:
1、采用基于PMI的语义相关性算法,比传统的PMI算法的改进之处在于,在提取关键字之后,构建语义相关性数组,在关键字和与关键字相关性较大的候选词之间产生映射关系,极大的降低了在文章中出现频率不高或在文档中位置不重要但对于文档具有关键意义的词语的忽略程度。
2、提高用户搜索结果的准确性和全面性。
附图说明
图1为本发明一种基于PMI的关键字提取方法的流程图
具体实施方法
以下结合附图,通过详细说明一个具体的实施实例,对本发明做进一步阐述。
如图1所示,一种基于PMI的关键字提取方法包含以下步骤:
步骤1:提取需要设置关键字的文本数据,文本数据D的内容为:“程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类”;
步骤2:使用中文分词器,将步骤1提取的文本数据,进行分词处理,去掉无意义的词和停用词,只留下名词、动词、形容词和副词等有用词,从而获取多个词组。[程序员,英文,程序,开发,维护,专业,人员,程序员,分为,程序,设计,人员,程序,编码,人员,界限,特别,中国,软件,人员,分为,程序员,高级,程序员,系统,分析员,项目,经理,程序设计人员,程序编码人员];
步骤3:使用PMI(点互信息算法)处理步骤2得到的词组集合,确定词语之间的语义相关性,将超过语义相关度阙值的词组放在同一个数组R中;
R1=[程序员,程序编码人员,程序设计人员,程序,人员,开发,软件,项目];
R2=[英文];
R3=[维护,系统];
R4=[程序,编码,软件,程序员];
步骤4:根据TF-IDF的计算权值的公式计算每一个候选字的权值,排序后得到权值向量w。词语wi在文档D中的词频tfi定义为:
其中,ni是词语wi在文档D中出现的次数;分母是文档中所有词语出现的次数的总和,词频越大,词语越可能是关键词。逆文档频率(IDF)是词语普遍重要性的度量。包含词语的文档越少则IDF越大,表明词语有很好的区分能力。词语wi在文档集合DS中的逆向文档频率idfi定义为:
经过计算得到权值向量:
w=[程序员,人员,程序,软件,特别,维护,专业,系统,编码,开发,项目,英文];
步骤5:根据权值向量w,选择排序前几位的候选词组成关键字集合,同时构建一个映射函数h,来表示关键字与存在关键字的R数组的关系;
h1=[程序员,R1];
h2=[程序,R4];
步骤6:在检索时,后台根据输入的关键词映射到相应的R数组,从R数组中提取关联词,将包含关联词的文本集作为搜索结果呈现给用户。比如搜索结果集会提供包含关键词为“程序设计人员”和“程序编码人员”的文本文档给用户。这样就达到了本算法的目的;
上述的步骤2中,对文本数据进行分词处理的具体过程是:
采用基于字符串匹配的分词算法也叫做机械分词算法,该算法一般都需要事先建立足够大的分词词典,然后将待分词文本中的字串与分词词典中的词条注意匹配。如果在词典中可以找到该字符串,则说明匹配成功,那么就将该字符串当做一个词从待分词文本中切分出来,否则不切分。本发明主要采用双向然后分析两种扫描的结果。如果两种扫描结果一致,则认为不存在歧义现象;如果不一致,则需要定位到歧义字段处理。对文本数据进行分词操作之后根据网络爬虫和数据统计,排除停用和无效的切分词语,实现对候选关键字的预处理;
上述的步骤3中具体包含:
按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为:
其中,p(x)和p(y)分别表示字串x和y在总体语料库中的概率,p(x,y)表示字串x和y同时出现在语料库同一篇文档的概率。在概率论中,我们知道,如果x与y不相关,则p(x,y)=p(x)p(y);二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。后面的式子表示:在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)即表示x与y的相关度。这里的log来自信息论的理论,而且log1=0,也正好表明当p(x,y)=p(x)p(y)时,相关性为0,而且log是单调递增函数,所以p(x,y)相比于p(x)p(y)越大,x与y相关性越大这一性质得以保留。
上述的步骤4中TF-IDF计算权值的方法采用的是传统计算权值方法,分别计算词语的词频和逆向文档频率。最终根据计算所得的权重进行排序得到权重向量w。
综上所述,本发明一种基于PMI的关键字提取方法,能有效的避免在搜索过程中忽略权值较小但依然是文本的中心词语的操作。可以提供更加准确的搜索结果。相比于其他算法,例如:主题模型算法(在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型)。TextRank算法(加入一个权重的参数,用来表示两个节点之间的边连接有不同的重要程度)。本发明具有以下优势:
尽管本发明的内容已经通过上述实例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (3)
1.一种基于PMI的关键字提取方法,其特征在于包含以下步骤:
步骤1:提取需要设置关键字的文本数据;
步骤2:使用分词算法,将步骤1提取的文本数据,进行分词处理,从而获取多个词组;
步骤3:使用PMI算法处理步骤2得到的词组集合,确定词语之间的语义相关性,将超过语义相关度阙值的词组放在同一个数组R中;
步骤4:根据TF-IDF的计算权值的公式计算每一个候选字的权值,排序后得到权值向量w,词语wi在文档D中的词频tfi定义为:
其中,ni是词语wi在文档D中出现的次数;分母是文档中所有词语出现的次数的总和,词频越大,词语越可能是关键词。逆文档频率(IDF)是词语普遍重要性的度量。包含词语的文档越少则IDF越大,表明词语有很好的区分能力。词语wi在文档集合DS中的逆向文档频率idfi定义为:
步骤5:根据权值向量w,选择排序前几位的候选词组成关键字集合,同时构建一个映射函数h,来表示关键字与存在关键字的R数组的关系;
步骤6:在检索时,后台根据输入的关键词映射到相应的R数组,从R数组中提取关联词,将包含关联词的文本集作为搜索结果呈现给用户。
2.根据权利要求1所述的一种基于PMI的关键字提取方法,其特征在于,所述的步骤2中,对文本数据进行分词处理包含以下步骤:
A1,采用双向最大匹配算法,根据分词词典,对文本数据同时进行正向最大匹配和逆向最大匹配扫描;
A2,分析两种扫描的结果;如果两种扫描结果一致,则认为不存在歧义现象;如果不一致,则需要定位到歧义字段处理;
A3,对文本数据进行分词操作之后根据网络爬虫和数据统计,排除停用和无效的切分词语,实现对候选关键字的预处理。
3.根据权利要求1所述的一种基于PMI的关键字提取方法,其特征在于,所述的步骤3中,对词组的处理过程包括以下步骤:
B1,按照PMI算法的计算方法计算词语集合W中词语间的语义相似度。计算过程为:
其中,p(x)和p(y)分别表示字串x和y在总体语料库中的概率,p(x,y)表示字串x和y同时出现在语料库同一篇文档的概率。在概率论中,我们知道,如果x与y不相关,则p(x,y)=p(x)p(y);二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。后面的式子表示:在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)即表示x与y的相关度;
B2,对于同一类型的词存放在同一个数组中,数组中的每个元素的包含3个信息:词数,词频和权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810412313.6A CN108763196A (zh) | 2018-05-03 | 2018-05-03 | 一种基于pmi的关键字提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810412313.6A CN108763196A (zh) | 2018-05-03 | 2018-05-03 | 一种基于pmi的关键字提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763196A true CN108763196A (zh) | 2018-11-06 |
Family
ID=64009401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810412313.6A Pending CN108763196A (zh) | 2018-05-03 | 2018-05-03 | 一种基于pmi的关键字提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763196A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN110321561A (zh) * | 2019-06-27 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法和装置 |
CN110598972A (zh) * | 2019-07-26 | 2019-12-20 | 浙江华云信息科技有限公司 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
CN110675927A (zh) * | 2019-09-22 | 2020-01-10 | 重庆百行智能数据科技研究院有限公司 | 一种基于大数据的病情检索方法 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN110888986A (zh) * | 2019-12-06 | 2020-03-17 | 北京明略软件系统有限公司 | 信息推送方法、装置、电子设备和计算机可读存储介质 |
CN111274369A (zh) * | 2020-01-09 | 2020-06-12 | 广东小天才科技有限公司 | 一种英文单词的识别方法及装置 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN111767716A (zh) * | 2020-06-24 | 2020-10-13 | 中国平安财产保险股份有限公司 | 企业多级行业信息的确定方法、装置及计算机设备 |
CN112487132A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词的确定方法和相关设备 |
CN112765979A (zh) * | 2021-01-15 | 2021-05-07 | 西华大学 | 论文关键词提取系统及其方法 |
CN112905771A (zh) * | 2021-02-10 | 2021-06-04 | 北京邮电大学 | 基于词性和位置的特征关键词提取方法 |
CN112925872A (zh) * | 2019-12-05 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种数据搜索方法和装置 |
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN113011155A (zh) * | 2021-03-16 | 2021-06-22 | 北京百度网讯科技有限公司 | 用于文本匹配的方法、装置、设备、存储介质和程序产品 |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN113782026A (zh) * | 2020-06-09 | 2021-12-10 | 北京声智科技有限公司 | 一种信息处理方法、装置、介质和设备 |
CN114359313A (zh) * | 2022-03-18 | 2022-04-15 | 北京点聚信息技术有限公司 | 一种基于版式文件处理大文件的方法 |
CN114580386A (zh) * | 2020-12-01 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种提取主题词的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN103020212A (zh) * | 2012-12-07 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN105005553A (zh) * | 2015-06-19 | 2015-10-28 | 四川大学 | 基于情感词典的短文本情感倾向分析方法 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN106294316A (zh) * | 2016-07-29 | 2017-01-04 | 陕西师范大学 | 一种基于词典的文本情感分析方法 |
-
2018
- 2018-05-03 CN CN201810412313.6A patent/CN108763196A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033955A (zh) * | 2010-12-24 | 2011-04-27 | 常华 | 扩展用户搜索结果的方法及服务器 |
CN103020212A (zh) * | 2012-12-07 | 2013-04-03 | 合一网络技术(北京)有限公司 | 一种基于用户查询日志实时发现热点视频的方法和装置 |
CN103064969A (zh) * | 2012-12-31 | 2013-04-24 | 武汉传神信息技术有限公司 | 自动建立关键词索引表的方法 |
CN104063387A (zh) * | 2013-03-19 | 2014-09-24 | 三星电子(中国)研发中心 | 在文本中抽取关键词的装置和方法 |
CN105005553A (zh) * | 2015-06-19 | 2015-10-28 | 四川大学 | 基于情感词典的短文本情感倾向分析方法 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN106294316A (zh) * | 2016-07-29 | 2017-01-04 | 陕西师范大学 | 一种基于词典的文本情感分析方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN109840325B (zh) * | 2019-01-28 | 2020-09-29 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
CN110321561A (zh) * | 2019-06-27 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法和装置 |
CN110598972A (zh) * | 2019-07-26 | 2019-12-20 | 浙江华云信息科技有限公司 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
CN110598972B (zh) * | 2019-07-26 | 2023-01-20 | 浙江华云信息科技有限公司 | 一种基于自然语言处理的计量采集研究方向趋势分析方法 |
CN112487132A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词的确定方法和相关设备 |
CN110675927A (zh) * | 2019-09-22 | 2020-01-10 | 重庆百行智能数据科技研究院有限公司 | 一种基于大数据的病情检索方法 |
CN110688836A (zh) * | 2019-09-30 | 2020-01-14 | 湖南大学 | 基于监督学习的领域词典自动化构建方法 |
CN112925872A (zh) * | 2019-12-05 | 2021-06-08 | 北京沃东天骏信息技术有限公司 | 一种数据搜索方法和装置 |
CN110888986A (zh) * | 2019-12-06 | 2020-03-17 | 北京明略软件系统有限公司 | 信息推送方法、装置、电子设备和计算机可读存储介质 |
CN111274369A (zh) * | 2020-01-09 | 2020-06-12 | 广东小天才科技有限公司 | 一种英文单词的识别方法及装置 |
CN111753048A (zh) * | 2020-05-21 | 2020-10-09 | 高新兴科技集团股份有限公司 | 文档检索方法、装置、设备及存储介质 |
CN113782026A (zh) * | 2020-06-09 | 2021-12-10 | 北京声智科技有限公司 | 一种信息处理方法、装置、介质和设备 |
CN111767716B (zh) * | 2020-06-24 | 2024-05-28 | 中国平安财产保险股份有限公司 | 企业多级行业信息的确定方法、装置及计算机设备 |
CN111767716A (zh) * | 2020-06-24 | 2020-10-13 | 中国平安财产保险股份有限公司 | 企业多级行业信息的确定方法、装置及计算机设备 |
CN114580386A (zh) * | 2020-12-01 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种提取主题词的方法及装置 |
CN112765979B (zh) * | 2021-01-15 | 2023-05-09 | 西华大学 | 论文关键词提取系统及其方法 |
CN112765979A (zh) * | 2021-01-15 | 2021-05-07 | 西华大学 | 论文关键词提取系统及其方法 |
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN112989802B (zh) * | 2021-01-28 | 2023-06-20 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
CN112905771A (zh) * | 2021-02-10 | 2021-06-04 | 北京邮电大学 | 基于词性和位置的特征关键词提取方法 |
CN113011155A (zh) * | 2021-03-16 | 2021-06-22 | 北京百度网讯科技有限公司 | 用于文本匹配的方法、装置、设备、存储介质和程序产品 |
CN113011155B (zh) * | 2021-03-16 | 2023-09-05 | 北京百度网讯科技有限公司 | 用于文本匹配的方法、装置、设备和存储介质 |
US11989962B2 (en) | 2021-03-16 | 2024-05-21 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method, apparatus, device, storage medium and program product of performing text matching |
CN113270092A (zh) * | 2021-05-11 | 2021-08-17 | 云南电网有限责任公司 | 一种基于lda算法的调度语音关键词提取方法 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN114359313A (zh) * | 2022-03-18 | 2022-04-15 | 北京点聚信息技术有限公司 | 一种基于版式文件处理大文件的方法 |
CN114359313B (zh) * | 2022-03-18 | 2022-05-27 | 北京点聚信息技术有限公司 | 一种基于版式文件处理大文件的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763196A (zh) | 一种基于pmi的关键字提取方法 | |
Qaroush et al. | An efficient single document Arabic text summarization using a combination of statistical and semantic features | |
Wan et al. | Single document keyphrase extraction using neighborhood knowledge. | |
Ohsawa et al. | KeyGraph: Automatic indexing by co-occurrence graph based on building construction metaphor | |
Yoshida et al. | Person name disambiguation by bootstrapping | |
Rahman et al. | Improvement of query-based text summarization using word sense disambiguation | |
CN111680509A (zh) | 基于共现语言网络的文本关键词自动抽取方法和装置 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
Verma et al. | Accountability of NLP tools in text summarization for Indian languages | |
Mao et al. | Automatic keywords extraction based on co-occurrence and semantic relationships between words | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
Zehtab-Salmasi et al. | FRAKE: fusional real-time automatic keyword extraction | |
Zaware et al. | Text summarization using tf-idf and textrank algorithm | |
El Mahdaouy et al. | Semantically enhanced term frequency based on word embeddings for Arabic information retrieval | |
CN109684463B (zh) | 基于权值比较与挖掘的跨语言译后前件扩展方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
Jia et al. | Addressing overgeneration error: An effective and efficient approach to keyphrase extraction from scientific papers | |
Heidary et al. | Automatic Persian text summarization using linguistic features from text structure analysis | |
Chahal et al. | An ontology based approach for finding semantic similarity between web documents | |
Tohalino et al. | Using virtual edges to extract keywords from texts modeled as complex networks | |
Li et al. | Keyphrase extraction and grouping based on association rules | |
Jabri et al. | Improving retrieval performance based on query expansion with wikipedia and text mining technique | |
Sahmoudi et al. | A new keyphrases extraction method based on suffix tree data structure for Arabic documents clustering | |
Kian et al. | An efficient approach for keyword selection; improving accessibility of web contents by general search engines | |
Canhasi | Fast Document Summarization using Locality Sensitive Hashing and Memory Access Efficient Node Ranking. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |