CN107577671A - 一种基于多特征融合的主题词提取方法 - Google Patents

一种基于多特征融合的主题词提取方法 Download PDF

Info

Publication number
CN107577671A
CN107577671A CN201710847333.1A CN201710847333A CN107577671A CN 107577671 A CN107577671 A CN 107577671A CN 201710847333 A CN201710847333 A CN 201710847333A CN 107577671 A CN107577671 A CN 107577671A
Authority
CN
China
Prior art keywords
vocabulary
text
words
word
tibetan language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710847333.1A
Other languages
English (en)
Other versions
CN107577671B (zh
Inventor
胥桂仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201710847333.1A priority Critical patent/CN107577671B/zh
Publication of CN107577671A publication Critical patent/CN107577671A/zh
Application granted granted Critical
Publication of CN107577671B publication Critical patent/CN107577671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多特征融合的主题词提取方法,包括以下步骤:通过用户输入的网址自动采集其能访问到的所有页面内容,以获取网页的藏文文本;根据藏文关键词表对获取的藏文文本进行匹配,将出现在藏文关键词表中的词汇选为候选主题词;对所述候选主题词进行权重计算,根据权重对所述候选主题词进行排序,并从排序后的候选主题词中确定一个或多个主题词。本发明提出了一种构建关键词表,将一些重要的低频词筛选为主题词的方法,有效的提高人们从海量数据中获取所需信息的准确性。

Description

一种基于多特征融合的主题词提取方法
技术领域
本发明涉及信息处理领域,尤其涉及一种基于多特征融合的主题词提取方法。
背景技术
主题是文档所表达的中心思想,是计算机表达文档的最有效的方式之一。主题信息挖掘是有效解决文档空间向量高维稀疏性、提高检索质量的重要手段,同时在信息推荐中也起到了重要的作用。主题词通常由若干词或者短语组成,代表着文章的一个内容提要。准确的若干个主题词,可以有效表示文章的基本内容,用户通过这些主题词,可以快速、准确把握文章内容。主题词的抽取通常是运用各种加权算法,计算词汇对文本主题表达的贡献,然后从大到小取前n个词汇作为文本的主题词。
对于主题词提取的研究,国内外很多研究者提出了不同的自动提取方法,归结起来主要有以下几种策略:
(1)基于结构的方法:该方法根据新闻文本中主要信息集中于固定位置的特征,在文本中的相应位置和标题处进行主题词提取,但对于其他类型的文本的处理效果却不理想。
(2)基于统计的方法:该方法主要根据文本中词汇的权重来筛选主题词,通过对文本中每个候选词权重的计算,选择权重大于指定阈值的词汇作为主题词。对于词汇权重的计算可以通过词频或TF-IDF(Term Frequency Inverse Document Frequency,资讯检索资讯探勘的常用加权技术)算法等。基于统计的方法,不需要使用额外的信息,只需要考虑文本语料库本身,计算速度快。
(3)基于自然语言理解的方法:该方法主要是基于人工智能领域的一些算法改进后应用到主题词提取上。主要是通过在一些可以提前获取的语料库上进行模型的训练,得到一个主题词抽取的模型,然后在对需要进行主题词抽取的文本进行处理时,使用该模型进行主题词提取。如TextRank算法,基于主题模型的关键词抽取等。通过这些方法,可以取得比较好的关键词抽取效果。
通过以上分析,本文提出了一种基于多特征融合的主题词提取方法,该方法主要利用高频词、关键词以及文本标题中的词,并基于决策规则进行主题词的提取。
发明内容
对于采用基于统计的方法进行主题词的提取,通过计算词汇出现的频次对词汇进行权重设置,得到的主题词都是出现频率较高的词汇,而有一些也很重要的低频词,却不能提取。为解决现有技术的不足,本发明提出了一种构建关键词表,将一些重要的低频词筛选为主题词的方法,所提取的主题词能够较好的表达文本的主旨,有效的提高人们从海量数据中获取所需信息的准确性。
为实现上述目的,本发明提供了一种基于多特征融合的主题词提取方法包括以下步骤:通过用户输入的网址自动采集其能访问到的所有页面内容,以获取网页的藏文文本;根据藏文关键词表对获取的藏文文本进行匹配,将出现在藏文关键词表中的词汇选为候选主题词;对候选主题词进行权重计算,根据权重对候选主题词进行排序,并从排序后的候选主题词中确定一个或多个主题词。
优选地,将出现在藏文关键词表中的词汇选为候选主题词步骤,包括:将藏文文本中的高频词、关键词和文本标题中的词汇选为候选主题词;如果高频词、关键词和文本标题的词汇个数之和不足n个,则去除重复词汇后全部保留为主题词;如果高频词、关键词和文本标题的词汇个数大于n个,则去除重复词汇后根据公式对词汇的权重进行计算;计算完权重后,根据权重对词汇进行排序,选取前n个词作为主题词。
优选地,去除重复词汇后全部保留为主题词步骤,包括:如果高频词和关键词有重复则保留所述关键词;如果高频词和文本标题中的词汇有重复则保留文本标题中的词汇;如果关键词和文本标题中的词汇有重复则保留文本标题中的词汇。
优选地,所述权重计算公式为:weight(t)=wp(t)*len(t)*wd(t);其中,wp(t)代表词汇t的频率,len(t)代表词汇t的长度,wd(t)代表词汇t的加权,高频词加权为wd(t)=α,关键词加权为wd(t)=β,文本标题中词汇加权为wd(t)=γ,且1≤α<β<γ。
优选地,所述高频词是通过齐普夫(Zipf)定律得出,包括,把单词出现的频率按由大到小的顺序进行排列;记录相应的排列位置序号;所述序号和出现的所述频率的乘积近似为一个常数;单词出现的频率越高,其重要性越大。
优选地,所述藏文关键词表通过以下方式获取:选取几大领域的专业词汇构成汉语关键词表,将得到的汉语关键词表翻译成藏语,从而构建成藏文关键词表。
优选地,所述高频词指在正文中的词汇,且词频大于等于2;所述关键词指出现在正文中词汇;所述文本标题中的词汇指标题中的词汇,并剔除没有出现在正文中的词汇。
本发明通过提取出高频词、关键词和文本标题中词汇,然后根据主题词的提取算法对这三部分词进行主题词的提取。这样避免了基于统计的方法进行提取的主题词只是高频词,而导致提取的主题词不准确,通过引入领域关键词表进行主题词的提取,有效的提高了用户获取所需信息的准确性。
附图说明
图1为本发明实施例提供的一种基于多特征融合的主题词提取方法流程示意图;
图2为本发明实施例提供的网络爬虫基本工作流程;
图3为本发明实施例的预处理程序界面图;
图4为本发明实施例的测试样本界面图;
图5为本发明实施例的主题词提取界面图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种基于多特征融合的主题词提取方法流程示意图。如图1所示,一种基于多特征融合的主题词提取方法流程示意图,具体步骤包括:
步骤S110,通过用户输入的网址自动采集其能访问到的所有页面内容,以获取网页的藏文文本。
本文使用网络爬虫进行Web文本的获取。网络爬虫被广泛用于互联网搜索引擎或其他类似网站,它可以自动采集其能访问到的所有页面内容,以获取或更新这些网站的内容。
如图2所示,网络爬虫是通过网页的链接地址来寻找网页,从一个或若干初始网页的URL开始,一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合,遍历Web空间,读取网页的内容,不断从一个站点移动到另一个站点。在抓取网页的过程中,找到在网页中的其他链接地址,对HTML文件进行解析,取出其页面中的子链接,判断URL队列中是否存在该链接,如果不存在就将其存入待爬行URL队列中。如此一直循环下去,直到URL队列不再更新为止或者用户自定义停止策略。所有被爬虫抓取的网页将会被存储,以便之后的使用。
步骤S120,根据藏文关键词表对获取的藏文文本进行匹配,将出现在藏文关键词表中的词汇选为候选主题词。
在进行文本内容分析之前,首先要对文本进行预处理,对文本进行词的切分是预处理的一个重要部分。分词是生成自动文摘的第一步,也是比较重要的一个步骤。
对于藏文而言,利用格助词和接续特征分词,理论上有两大好处。首先,由于这种方法与词典无关,因而避开了未登录词(Unknown Words)问题。其次,词的切分问题转化为格助词及其接续特征的识别问题。
基于格助词和连续特征的藏文分词方法其核心是基于格助词和接续特征的分词,词典只是辅助手段,即方案与词典的相关度很小。这就使得本分词方案对不同领域、不同内容的藏文语料将会表现出较强的适应性。该方法主要分为以下五个阶段:
第一步,用字切分特征、字性库进行“认字”。认字用分字点、标点符号和字性库完成,相对简单。
第二步,用标点符号、关联词进行“断句”。
第三步,用格助词进行“分块”。分块的关键任务是正确识别格助词。
第四部,用词典进行“认词”。认词过程其实就是识别每个块是否是一个“可能”的词的过程。通过分块切分出来的单字块,只要在词典中存在,原则上可认定为一个词。
第五步,进行分词。分词过程是整个流程的最后一步,也是本方案的关键性一步。这里要综合运用已有字词句的接续知识统一扫描一遍整句,来识别兼类格和截断错误。
对文本进行分词后,需要去除其中的没有什么实际含义的功能词,即停用词。
根据统计,如果仅仅根据词频统计来进行文本主题提取,往往会把出现次数较少的、一些描述相关领域的词给过滤掉,而这些描述相关领域的词恰恰能够更好地代表文本的主题。如:“春风化雨”、“耳提面命”、“有教无类”、“学制”、“身教”、“言教”等词常用于与教育有关的文章中;而“天体”、“天象”、“天文台”、“天球仪”等词能够很好的反映出有关天文文章的主题。以上所述的情况会在一定程度上造成主题提取的不准确。
针对此情况,本文选取了工业、教育、农业、饮食、旅行、天文五大领域的专业词汇构建了汉语关键词表,共计1004个词。然后,将得到的汉语关键词表翻译成藏语,从而构建成藏文关键词表。
表1藏文关键词表
步骤S130,对所述候选主题词进行权重计算,根据权重对所述候选主题词进行排序,并从排序后的候选主题词中确定一个或多个主题词。
根据齐普夫(Zipf)定律,把单词出现的频率(f)按由大到小的顺序进行排列,并记录相应的排列位置序号(r),则序号r和其出现的频率f的乘积f*r近似为一个常数,即
f*r=b(常数) (1)
其中r=1,2,3,…,n。
齐普夫定律表明:在英语单词中,经常被使用的单词只有极少数,而绝大多数单词很少被使用。对于藏语也满足齐普夫定律。
通过齐普夫定律可以得出,对于词频越高的词其重要性越大,反之亦然,越重要的词其词频越高。
从文本中提取出的词或词组长度不定,对于藏文而言,词或词组的长度大于等于2才具有实际意义。例如:由“(数据挖掘)”、“(分类)”等词可知,此段文本可能与数据挖掘中的分类知识相关。同时词或词组包含的字符数目越多,在文本中出现频数越高,说明这个词或词组包含的信息也越多,越能够准确指明这段文本的主旨。反之,如果提取出来的词的长度为1,即只提取一个藏语字符,例如“挖”、“类”等,则没有太大的价值。此外,词的位置也影响着词的重要性,一般来说,文献标题中的词比正文中出现的词更重要。根据以上所述,本文提出公式(2)对词汇权重进行计算:
weight(t)=wp(t)*len(t)*wd(t) (2)
其中,weight(t)代表词汇t的权重;wp(t)代表词汇t的频率;len(t)代表词汇t的长度;wd(t)代表词汇t的加权,高频词加权为wd(t)=α,关键词加权为wd(t)=β,文本标题中词汇加权为wd(t)=γ,且1≤α<β<γ。本文使用"·"来进行词汇的分割以计算词汇的长度。
本文从高频词、关键词、文本标题中的词汇三部分进行主题词的提取。高频词指在正文中的词汇,且词频大于等于2;关键词指出现在正文中词汇;文本标题中的词汇固然重要,但是如果文本标题中的一些词汇没有出现在正文中,则对于主题的反映没有太大的意义,所以本文只将在正文中出现的文本标题词汇进行保留。
假设提取的主题词个数为n,主要思想如下:
(1)将m个高频词、关键词和文本标题中的词汇选为候选主题词;
(2)如果三部分的词个数之和不足n个,则去除重复的词汇后全部保留为主题词;
(3)如果三部分的词个数大于n个,则去除重复的词汇后根据公式(2)对词汇的权重进行计算。
(4)计算完权重后,根据权重对词汇进行排序,选取前n个词作为主题词。
其中,重复词汇的去除规则是:如果高频词和关键词有重复则保留关键词;如果高频词和文本标题中的词汇有重复则保留文本标题中的词汇;如果关键词和文本标题中的词汇有重复则保留文本标题中的词汇。
主题词提取算法如表2所示:
表2主题词提取算法
在本文中,使用Web爬虫的收集所有来自西藏网站的有效网页。在获得Web页面之后,通过预处理将它们转换成结构化的XML文件。处理后的保存结构如图3所示,XML文件将是后续实验的基本数据。
如图4所示,本文从获取的藏文语料库中选取一篇测试样本进行实例分析。
主题词的提取分为三部分进行:一是进行词频统计;二是根据构建的关键词表进行关键词匹配,关键词表包含工业、教育、农业、饮食、旅行、天文五大领域的专业词汇,能够较好的反应相关领域的信息;三是从文本主题中抽取词汇,且抽取的词必须出现在正文中。本文将主题词提取算法中的n值设置为10,即抽取的主题词个数为10或10个以内。
通过藏文句子分割符号单线“|”进行句子识别,该文本句子总数为13句。用“()”对句子序号进行标注,如表3所示。通过分词处理后对文章中包含的词个数进行统计,该文本包含121个词。
图5为本发明实施例的主题词提取界面图。如图5所示,根据词频统计和关键词匹配界面,首先选取需要处理的已分词文本,将待处理文本读入到内存,然后分离出文本标题内容和文章正文分别保存在两个List链表中。在统计词频前还需要对标题和正文中的停用词进行过滤,以提高高频词的可靠性。
下表3列出了文本中词频排名前10的词汇及词频情况,这些词从不同的角度反映了文章的主题。
表3词频排名前10的词汇
在进行完词频统计后对文本进行关键词匹配。首先读取工业、教育、农业、饮食、旅行、天文五大领域的专业词汇并保存到链表,然后对文本进行关键词的匹配。匹配程序界面如图5所示。本文共匹配出一个关键词:(旅游)。(旅游)匹配自于“旅行关键词表”。将匹配出的关键词全部加入到候选主题词表。
此外,本文对于主题词的选取还考虑到了文本标题中所包含的词汇。标题是文章作者给出的对文章内容具有提示性的短语,能够在很大程度上反映出文章的主题内容,因此本文将读取到的文本标题内容去除停用词后也加入到候选主题词表。从文本标题中提取出的词主要有(漫岭)、(机场)、(重建)、(扩建)、(开始),其中(开始)没有在正文中出现,对文章主题的贡献不大,将其剔除。
根据本文提出的重复词去除规则,对高频词、关键词及文本标题中的词进行去重处理,得到如表4所示的结果:
表4去重后的结果
最后,根据权重计算公式(2)计算表4中的词汇权重。其中对于α、β及γ的取值,本文通过多次试验结果分析最终设定三者的取值为α=1,β=2,γ=4。计算完词汇权重后根据权重进行排序,得到如表5所示的结果。最终选取排名前10的作为主题词,如表5中字体加粗的部分。
表5词汇权重计算结果
主题词主要从三个部分提取:高频词、关键词和标题中的单词。通过基于多特征融合的算法,对这三部分中单词的重要性进行计算,并保留对文章主题贡献最大的词语。实验结果表明,选择的主题词可以很好地反映文章的主题。这将对下一步生成抽象非常有帮助。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多特征融合的主题词提取方法,其特征在于,包括以下步骤:
通过用户输入的网址自动采集其能访问到的所有页面内容,以获取网页的藏文文本;
根据藏文关键词表对获取的藏文文本进行匹配,将出现在藏文关键词表中的词汇选为候选主题词;
对所述候选主题词进行权重计算,根据权重对所述候选主题词进行排序,并从排序后的候选主题词中确定一个或多个主题词。
2.如权利要求1所述的主题词提取方法,其特征在于,所述将出现在藏文关键词表中的词汇选为候选主题词步骤,包括:
将藏文文本中的高频词、关键词和文本标题中的词汇选为候选主题词;
如果高频词、关键词和文本标题的词汇个数之和不足n个,则去除重复词汇后全部保留为主题词;
如果高频词、关键词和文本标题的词汇个数大于n个,则去除重复词汇后根据公式对词汇的权重进行计算;
计算完权重后,根据权重对词汇进行排序,选取前n个词作为主题词。
3.如权利要求2所述主题词提取方法,其特征在于,所述去除重复词汇后全部保留为主题词步骤,包括:
如果所述高频词和所述关键词有重复则保留所述关键词;如果所述高频词和所述文本标题中的词汇有重复则保留所述文本标题中的词汇;如果所述关键词和所述文本标题中的词汇有重复则保留所述文本标题中的词汇。
4.如权利要求2所述主题词提取方法,其特征在于,所述权重计算公式为:weight(t)=wp(t)*len(t)*wd(t);其中,wp(t)代表词汇t的频率,len(t)代表词汇t的长度,wd(t)代表词汇t的加权,高频词加权为wd(t)=α,关键词加权为wd(t)=β,文本标题中词汇加权为wd(t)=γ,且1≤α<β<γ。
5.如权利要求2所述的主题词提取方法,其特征在于,所述高频词是通过齐普夫(Zipf)定律得出,包括,把单词出现的频率按由大到小的顺序进行排列;记录相应的排列位置序号;所述序号和出现的所述频率的乘积近似为一个常数;单词出现的频率越高,其重要性越大。
6.如权利要求1所述的主题词提取方法,其特征在于,所述藏文关键词表通过以下方式获取:
选取几大领域的专业词汇构成汉语关键词表,将得到的汉语关键词表翻译成藏语,从而构建成藏文关键词表。
7.如权利要求2所述的主题词提取方法,其特征在于,所述高频词指在正文中的词汇,且词频大于等于2;所述关键词指出现在正文中词汇;所述文本标题中的词汇指标题中的词汇,并剔除没有出现在正文中的词汇。
CN201710847333.1A 2017-09-19 2017-09-19 一种基于多特征融合的主题词提取方法 Active CN107577671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710847333.1A CN107577671B (zh) 2017-09-19 2017-09-19 一种基于多特征融合的主题词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710847333.1A CN107577671B (zh) 2017-09-19 2017-09-19 一种基于多特征融合的主题词提取方法

Publications (2)

Publication Number Publication Date
CN107577671A true CN107577671A (zh) 2018-01-12
CN107577671B CN107577671B (zh) 2020-09-22

Family

ID=61032783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710847333.1A Active CN107577671B (zh) 2017-09-19 2017-09-19 一种基于多特征融合的主题词提取方法

Country Status (1)

Country Link
CN (1) CN107577671B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN110162356A (zh) * 2018-05-14 2019-08-23 腾讯科技(深圳)有限公司 页面的融合方法、装置、存储介质及电子装置
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
CN110705275A (zh) * 2019-09-18 2020-01-17 东软集团股份有限公司 主题词提取方法、装置、存储介质及电子设备
CN110837730A (zh) * 2019-11-04 2020-02-25 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备
CN111859961A (zh) * 2020-07-29 2020-10-30 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法
CN112597340A (zh) * 2020-12-23 2021-04-02 杭州艾耕科技有限公司 一种对垂直领域短视频asr文本关键词的抽取方法、计算机设备及可读存储介质
CN113435193A (zh) * 2021-06-16 2021-09-24 深圳市世强元件网络有限公司 一种落地页面关键词投放方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
US20130311489A1 (en) * 2011-09-30 2013-11-21 Google Inc. Systems and Methods for Extracting Names From Documents
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
CN104679731A (zh) * 2015-03-12 2015-06-03 百度在线网络技术(北京)有限公司 提取页面中关键词的方法及装置
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
US20130311489A1 (en) * 2011-09-30 2013-11-21 Google Inc. Systems and Methods for Extracting Names From Documents
CN104572736A (zh) * 2013-10-23 2015-04-29 北大方正集团有限公司 基于社交网络的关键词提取方法及装置
CN104679731A (zh) * 2015-03-12 2015-06-03 百度在线网络技术(北京)有限公司 提取页面中关键词的方法及装置
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162356B (zh) * 2018-05-14 2021-09-28 腾讯科技(深圳)有限公司 页面的融合方法、装置、存储介质及电子装置
CN110162356A (zh) * 2018-05-14 2019-08-23 腾讯科技(深圳)有限公司 页面的融合方法、装置、存储介质及电子装置
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN110188352A (zh) * 2019-05-28 2019-08-30 北京金山数字娱乐科技有限公司 一种文本主题确定方法、装置、计算设备及存储介质
CN110705275A (zh) * 2019-09-18 2020-01-17 东软集团股份有限公司 主题词提取方法、装置、存储介质及电子设备
CN110705275B (zh) * 2019-09-18 2023-04-25 东软集团股份有限公司 主题词提取方法、装置、存储介质及电子设备
CN110874530A (zh) * 2019-10-30 2020-03-10 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN110874530B (zh) * 2019-10-30 2023-06-13 深圳价值在线信息科技股份有限公司 关键词提取方法、装置、终端设备及存储介质
CN110837730A (zh) * 2019-11-04 2020-02-25 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN110837730B (zh) * 2019-11-04 2023-05-05 北京明略软件系统有限公司 一种未知实体词汇的确定方法及装置
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111291559B (zh) * 2020-01-22 2023-04-11 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备
CN111291559A (zh) * 2020-01-22 2020-06-16 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备
CN111859961A (zh) * 2020-07-29 2020-10-30 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法
CN111859961B (zh) * 2020-07-29 2024-02-23 华中师范大学 一种基于改进TopicRank算法的文本关键词抽取方法
CN112597340A (zh) * 2020-12-23 2021-04-02 杭州艾耕科技有限公司 一种对垂直领域短视频asr文本关键词的抽取方法、计算机设备及可读存储介质
CN113435193A (zh) * 2021-06-16 2021-09-24 深圳市世强元件网络有限公司 一种落地页面关键词投放方法、装置及计算机设备

Also Published As

Publication number Publication date
CN107577671B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN107577671A (zh) 一种基于多特征融合的主题词提取方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
Gómez-Adorno et al. Document embeddings learned on various types of n-grams for cross-topic authorship attribution
CN108009135A (zh) 生成文档摘要的方法和装置
Yüksel et al. Turkish tweet classification with transformer encoder
Abdeen et al. A closer look at arabic text classification
CN111241824A (zh) 一种用于中文隐喻信息识别的方法
Štajner et al. Automatic assessment of conceptual text complexity using knowledge graphs
Alyami et al. Systematic literature review of Arabic aspect-based sentiment analysis
Darmawiguna et al. The development of integrated Bali tourism information portal using web scrapping and clustering methods
Li Text recognition and classification of english teaching content based on SVM
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
Jha et al. Hsas: Hindi subjectivity analysis system
CN112711666A (zh) 期货标签抽取方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
You Automatic summarization and keyword extraction from web page or text file
Showrov et al. Keyword extraction from bengali news
Ahmad et al. News article summarization: Analysis and experiments on basic extractive algorithms
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
Zhang et al. Boilerplate detection via semantic classification of TextBlocks
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
Sati et al. Arabic text question answering from an answer retrieval point of view: A survey
Masri An innovative automatic indexing method for Arabic text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant