CN108549626B - 一种慕课的关键词提取方法 - Google Patents

一种慕课的关键词提取方法 Download PDF

Info

Publication number
CN108549626B
CN108549626B CN201810177736.4A CN201810177736A CN108549626B CN 108549626 B CN108549626 B CN 108549626B CN 201810177736 A CN201810177736 A CN 201810177736A CN 108549626 B CN108549626 B CN 108549626B
Authority
CN
China
Prior art keywords
word
index
weight
text
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810177736.4A
Other languages
English (en)
Other versions
CN108549626A (zh
Inventor
马震远
黄丽霞
张露娟
戴玉珠
林智勇
刘少鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201810177736.4A priority Critical patent/CN108549626B/zh
Priority to PCT/CN2018/081843 priority patent/WO2019165678A1/zh
Publication of CN108549626A publication Critical patent/CN108549626A/zh
Application granted granted Critical
Publication of CN108549626B publication Critical patent/CN108549626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种慕课的关键词提取方法,该方法包括:先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。采用本发明实施例,能提高关键词提取的精确性,满足慕课个性化学习的需求。

Description

一种慕课的关键词提取方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种慕课的关键词提取方法。
背景技术
随着移动互联网的发展,在线学习(E-learning)作为一种新兴的教学模式在世界范围内得到了迅猛的发展。“慕课”英文全称是Massive Open Online Course(大规模在线开放课程),简称MOOC。实际上是在线教育的新发展,是一种新型的在线开放教育形式,其实质是低成本、精品化、生成式、可广泛共享的在线微课程。与传统在线教育相比,它的一个显著特点是更加关注学生的“学”,学生在很大程度上可以通过MOOC实现自主个性化学习。
现有的慕课主要采用“讲授型”教学方式,主要以视频形式讲授教学内容,辅之以测验、课后练习专题研讨,占课程资源比重达99.01%。由此可见,对慕课视频进行自动关键词提取,以及在海量的慕课资源中快速准确地查找所需资源具有深远的意义与研究价值。现有技术对于关键词自动提取的研究集中在无监督方法方面,即不需要标注训练语料集,主流方法有基于词频统计的TF-IDF模型、基于主题模型和基于词图模型的关键词抽取等。
而基于词图模型关键词抽取的方法,不需要事先对文档集进行学习训练,仅利用单篇文档本身的信息即可进行关键词抽取,简单而有效,应用广泛,以TextRank算法为典型代表。但是现有的TextRank算法在关键词抽取时,仅利用单一文档进行关键词抽取且节点均匀加权的无权边图,而慕课语音文本具有独特的领域特征,除了要求抽取的关键词具有较高的准确率,还应该有较高的领域相关度,即该领域的核心术语。因此,亟需一种从词语性和领域性两个角度出发的关键词抽取方法。
发明内容
本发明实施例提出一种慕课的关键词提取方法,考虑了慕课语音文本的词语性和领域性,提高关键词提取的精确性,满足慕课个性化学习的需求。
本发明实施例提供慕课的关键词提取方法,包括:
获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;
对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;
根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;
根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;
根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2;
计算各词语在预设文档集中的平均信息熵,过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩下的关键词。
进一步的,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;
所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;
根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
进一步的,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
Figure GDA0002633560190000031
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
进一步的,所述计算所述文本中所述每个词语的第一综合权重,具体为:
通过以下公式计算每个词语的第一综合权重:
Figure GDA0002633560190000032
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
Figure GDA0002633560190000033
Figure GDA0002633560190000034
分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
进一步的,所述根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重,具体为:
设G(V,E)为所述文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
Figure GDA0002633560190000035
其中,d为阻尼系数,In(Vi)表示指向节点Vi的所有节点集合;Out(Vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重;
根据所述图模型的权重迭代公式和所述第一综合权重,按照以下公式计算第二综合权重;
Figure GDA0002633560190000041
进一步的,所述计算所述每个词语在预设文档集中的平均信息熵,具体为:按照以下公式,计算所述每个词语在预设文档集中的平均信息熵;
Figure GDA0002633560190000042
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。
进一步的,在所述将所述视频文件的语音转换为文本之后,还包括:
对所述文本进行预处理,校正所述文本的错别字。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的慕课的关键词提取方法,先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。相比于现有技术的节点均匀加权的无权边图,本发明技术方案针对慕课语音文本的非规范性,从词语性的角度进行关键词提取,提高了关键词提取的精确性。
进一步的,本发明技术方案通过平均信息熵衡量词语的领域性,并通过平均信息熵来过滤掉得出的X个关键词,从词语性和领域性两个角度进行关键词提取,进一步提高了关键词提取的精确性,满足慕课个性化学习的需求。
附图说明
图1是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图;
图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图;
图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图,该方法步骤101至步骤105,各步骤具体如下:
步骤101:获取待提取慕课的视频文件,将视频文件的语音转换为文本。
在本实施例中,通过语音分析系统将语音转换为文本,该内容为现有技术,在此不在赘述。
作为本实施例的一种举例,在步骤101之后,还包括:对文本进行预处理,校正文本的错别字,以提高关键词提取的准确率。
步骤102:对文本进行中文分词,识别每个词语的词性和语义特征,为每个词语添加词性标注和语义特征标注。
在本实施例中,本发明针对词语性的角度,以词语位置、词性和语义特征三个属性来衡量,设置相应的评价指标。评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标。
在本实施例中,慕课语音文本属于非规范文本,结合其文本特点,关键词位置分为篇首、篇尾等两种情况,根据词语所在位置的不同,需要赋予不同的权重。而对于词性,关键词的词性集中于名词、动词和形容词上,根据其词性特征,需要赋予不同的权重。对于语义特征,慕课类语音文本有明显的领域特征词,根据修辞结构理论和关键词出现的规律,慕课中领域特征词分为总结性特征词和并列性特征词。关键词经常出现在这两类特征词的后面,因此根据领域标志性词语的不同,分别赋予其邻近词语不同的权重。详细可参见图2,图2是本发明提供的关键词提取影响因素权重指标体系的一种实施例的结构示意图。图2中N的数值可根据实际需求设置。
步骤103:根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重。
在本实施例中,预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置。即根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
在本实施例中,序关系为:若评价指标Qi相对于评价目标的重要程度大于Qj时,记作Qi>Qj。若指标Q1,Q2,…Qm相对某评价准则具有关系式:
Figure GDA0002633560190000061
时,则评价指标Q1,Q2,…Qm之间建立了序关系。其中,
Figure GDA0002633560190000062
表示
Figure GDA0002633560190000063
按序关系“>”进行排序后的第i个评价指标(i=1,2,…,m)。
而在本实施例中,根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
Figure GDA0002633560190000071
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
在本实施例中,参见表1,表1是rk赋值参考表,如下表所示,可根据实际情况进行赋值。
r<sub>k</sub> 说明
1.0 指标Q<sub>k-1</sub>与Q<sub>k</sub>具有同样的重要性
1.2 指标Q<sub>k-1</sub>与Q<sub>k</sub>具有稍微重要
1.4 指标Q<sub>k-1</sub>与Q<sub>k</sub>具有明显重要
1.6 指标Q<sub>k-1</sub>与Q<sub>k</sub>具有强烈重要
1.8 指标Q<sub>k-1</sub>与Q<sub>k</sub>具有极端重要
1.1,1.3,1.5,1.7 对应两两相邻指标判断中间情况
表1rk赋值参考表
在本实施例中,通过计算各级指标的权重系数后,可结合文本得出各级指标的权重值,再通过以下公式计算每个词语的第一综合权重:
Figure GDA0002633560190000072
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
Figure GDA0002633560190000073
Figure GDA0002633560190000074
分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
为了更好地说明本发明技术方案,下面进行举例说明,如果r2取值1.6,r3取值1.2,则根据计算可得出以下权重表,再根据表中的数据计算每个词语的第一综合权重。
Figure GDA0002633560190000075
Figure GDA0002633560190000081
表2指标权重表
在本实施例中,除了上述8个重要指标外,其他词语节点权重可以但不限于设置为0.0001。
步骤104:根据TextRank算法,构建所述文本的图模型,并根据图模型和每个词语的第一综合权重,计算每个词语的第二综合权重。
在本实施例中,步骤104具体为:设G(V,E)为文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
Figure GDA0002633560190000082
其中,d为阻尼系数,In(Vi)表示指向节点Vi的所有节点集合;Out(Vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重。阻尼系数d在PageRank中的原始意义表示在任意时刻,用户到达某网页后并继续向后浏览的概率值,一般取值为0.85。
根据图模型的权重迭代公式和第一综合权重,按照以下公式计算第二综合权重;
Figure GDA0002633560190000083
由上述计算公式可见,本发明将计算得出的第一综合权重结合到图模型的权重迭代公式中,从而克服了现有TextRank模型因未探讨词语的重要性程度不同而影响相邻节点权值转移的问题,提高关键词提取的精确性。
步骤105:根据每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2。
在本实施例中,根据最后计算得出的第二综合权重,按照权重大小,迭代输出X个关键词。X可以根据实际情况进行取值。
作为本发明实施例的一种举例,参见图3,图3是本发明提供的慕课的关键词提取方法的一种实施例的流程示意图。如图所示,该方法还包括:计算每个词语在预设文档集中的平均信息熵,过滤掉X个关键词中平均信息熵大于预设阈值的关键词,并输出剩余的关键词。其中2≤X≤10。
在本举例中,按照以下公式,计算每个词语在预设文档集中的平均信息熵;
Figure GDA0002633560190000091
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。如果词语在各类别文档中出现的频率相当,则其H(w)值接近最大值1,表示该词语对其所在文档主题的表现力较弱。反之,如果H(w)值接近最小值0,则表明该词语对其所在文档主题表现力较强。
在本举例中,通过平均信息熵来衡量词语领域性,平均信息熵接近于1,说明没有领域区分度,而接近于0的说明有很好的领域区分度。本举例的预设阈值可以但不限于为0.3,以此过滤掉平均信息熵上大于0.3的词语,再输出剩余的关键词,或者,根据用户需要输出若干个关键词。譬如,在步骤105中输出前50个关键词,通过本举例的过滤后,输出前10个关键词,提高提取关键词的精确性。
由上可见,本发明实施例提供的慕课的关键词提取方法,先将慕课视频文件的语音转换为文本,并对文本进行中文分词、添加词性标注和语义标注,再根据每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算文本中每个词语的第一综合权重,结合TextRank算法构建的图模型,计算每个词语的第二综合权重,最后按照权重由大到小,迭代输出X个关键词,完成关键词的提取。相比于现有技术的节点均匀加权的无权边图,本发明技术方案针对慕课语音文本的非规范性,从词语性的角度进行关键词提取,提高了关键词提取的精确性。
进一步的,本发明技术方案通过平均信息熵衡量词语的领域性,并通过平均信息熵来过滤掉得出的X个关键词,从词语性和领域性两个角度进行关键词提取,进一步提高了关键词提取的精确性,满足慕课个性化学习的需求。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (7)

1.一种慕课的关键词提取方法,其特征在于,包括:
获取待提取慕课的视频文件,将所述视频文件的语音转换为文本;
对所述文本进行中文分词,识别每个词语的词性和语义特征,为所述每个词语添加词性标注和语义特征标注;
根据所述每个词语的词语位置、词性和语义特征,结合预设的权重设置,计算所述文本中所述每个词语的第一综合权重;
根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重;
根据所述每个词语的第二综合权重,按照权重由大到小,迭代输出X个关键词;X≥2;
计算各词语在预设文档集中的平均信息熵,过滤掉所述X个关键词中平均信息熵大于预设阈值的关键词,并输出剩下的关键词。
2.根据权利要求1所述的慕课的关键词提取方法,其特征在于,所述预设的权重设置具体为:将预设的评价指标通过序关系法进行权重设置;
所述评价指标包括:词语位置指标Q1、词性指标Q2、语义特征指标Q3、篇首指标Q11、篇尾指标Q12、名词指标Q21、动词指标Q22、形容词指标Q23、副词指标Q24、总结性特征词指标Q31和并列性特征词指标Q32;其中,Q1、Q2、Q3为一级指标;Q11、Q12、Q21、Q22、Q23、Q24、Q31和Q32为二级指标;
根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置。
3.根据权利要求2所述的慕课的关键词提取方法,其特征在于,所述根据预设序关系Q1>Q2>Q3,得出目标集{Q1、Q2、Q3}中各目标和相邻目标的重要程度比,并分别对所述一级指标和二级指标进行权重设置,具体为:
目标Qk和相邻目标Qk-1的重要程度比:
rk=wk-1/wk,k=m,m-1,m-2,…3,2;m为评价指标的总个数;
且根据所述序关系Q1>Q2>Q3,rk-1和rk需满足:
rk-1>rk,k=m,m-1,m-2,…3,2;
对各重要程度比进行赋值后,通过以下公式计算各一级指标和二级指标的权重系数,并根据所述权重系数进行权重设置:
Figure FDA0002633560180000021
其中,wk-1=rkwk,k=m,m-1,m-2…,3,2。
4.根据权利要求3所述的慕课的关键词提取方法,其特征在于,所述计算所述文本中所述每个词语的第一综合权重,具体为:
通过以下公式计算每个词语的第一综合权重:
Figure FDA0002633560180000022
其中,q1、q2和q3分别为Q1、Q2、Q3的一级指标权重;
Figure FDA0002633560180000023
Figure FDA0002633560180000024
分别为(Q11、Q12)、(Q21、Q22、Q23、Q24)和(Q31、Q32)的二级指标权重。
5.根据权利要求4所述的慕课的关键词提取方法,其特征在于,所述根据TextRank算法,构建所述文本的图模型,并根据所述图模型和所述每个词语的第一综合权重,计算所述每个词语的第二综合权重,具体为:
设G(V,E)为所述文本的词汇构成的图,则根据TextRank算法的图模型的权重迭代公式为:
Figure FDA0002633560180000025
其中,d为阻尼系数,In(Vi)表示指向节点Vi的所有节点集合;Out(Vj)表示节点Vj指向所有节点的集合;wji表示节点Vj到节点Vi的边的权重;
根据所述图模型的权重迭代公式和所述第一综合权重,按照以下公式计算第二综合权重;
Figure FDA0002633560180000031
6.根据权利要求1所述的慕课的关键词提取方法,其特征在于,所述计算所述每个词语在预设文档集中的平均信息熵,具体为:
按照以下公式,计算所述每个词语在预设文档集中的平均信息熵;
Figure FDA0002633560180000032
其中,fwk表示词语w在文档k中的频率,nw表示词语w在整个文档集中的频率,N表示文档的总数。
7.根据权利要求6所述的慕课的关键词提取方法,其特征在于,在所述将所述视频文件的语音转换为文本之后,还包括:
对所述文本进行预处理,校正所述文本的错别字。
CN201810177736.4A 2018-03-02 2018-03-02 一种慕课的关键词提取方法 Active CN108549626B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810177736.4A CN108549626B (zh) 2018-03-02 2018-03-02 一种慕课的关键词提取方法
PCT/CN2018/081843 WO2019165678A1 (zh) 2018-03-02 2018-04-04 一种慕课的关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810177736.4A CN108549626B (zh) 2018-03-02 2018-03-02 一种慕课的关键词提取方法

Publications (2)

Publication Number Publication Date
CN108549626A CN108549626A (zh) 2018-09-18
CN108549626B true CN108549626B (zh) 2020-11-20

Family

ID=63516467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810177736.4A Active CN108549626B (zh) 2018-03-02 2018-03-02 一种慕课的关键词提取方法

Country Status (2)

Country Link
CN (1) CN108549626B (zh)
WO (1) WO2019165678A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN109670176A (zh) * 2018-12-19 2019-04-23 武汉瓯越网视有限公司 一种关键词抽取方法、装置、电子设备及存储介质
CN109902290B (zh) * 2019-01-23 2023-06-30 广州杰赛科技股份有限公司 一种基于文本信息的术语提取方法、系统和设备
CN110442855B (zh) * 2019-04-10 2023-11-07 北京捷通华声科技股份有限公司 一种语音分析方法和系统
CN110083835A (zh) * 2019-04-24 2019-08-02 北京邮电大学 一种基于图和词句协同的关键词提取方法及装置
CN110147425B (zh) * 2019-05-22 2021-04-06 华泰期货有限公司 一种关键词提取方法、装置、计算机设备及存储介质
CN110210026B (zh) * 2019-05-29 2023-05-26 北京百度网讯科技有限公司 语音翻译方法、装置、计算机设备和存储介质
CN110619035B (zh) * 2019-08-01 2023-07-25 平安科技(深圳)有限公司 识别面试视频中关键词的方法、装置、设备及存储介质
CN110909175B (zh) * 2019-11-20 2021-06-29 清华大学 一种基于搜索引擎的在线课程概念知识图谱构建方法
CN111818278A (zh) * 2020-07-17 2020-10-23 济南浪潮高新科技投资发展有限公司 一种教学视频采集与检索系统及方法
CN112200898A (zh) * 2020-10-27 2021-01-08 平潭诚信智创科技有限公司 教育机器人的课程展示方法
CN113345053B (zh) * 2021-06-30 2023-12-26 北京华录新媒信息技术有限公司 一种智能配色方法及系统
CN113641801B (zh) * 2021-10-19 2022-05-27 成都中航信虹科技股份有限公司 一种语音调度系统的控制方法、系统及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9690850B2 (en) * 2014-08-14 2017-06-27 Under Armour, Inc. Recipe identification method and apparatus
US9058393B1 (en) * 2010-02-19 2015-06-16 Go Daddy Operating Company, LLC Tools for appraising a domain name using keyword monetary value data
CN106557508A (zh) * 2015-09-28 2017-04-05 北京神州泰岳软件股份有限公司 一种文本关键词提取方法和装置
CN105893551B (zh) * 2016-03-31 2019-03-05 上海智臻智能网络科技股份有限公司 数据的处理方法及装置、知识图谱
CN106598941A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 一种全局优化文本关键词质量的算法
CN106681986A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 一种多维度情感分析系统
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN107102985A (zh) * 2017-04-23 2017-08-29 四川用联信息技术有限公司 改进的文档中多主题的关键词提取技术
CN107526792A (zh) * 2017-08-15 2017-12-29 南通大学附属医院 一种中文问句关键词快速提取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740229A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 关键词提取的方法及装置

Also Published As

Publication number Publication date
WO2019165678A1 (zh) 2019-09-06
CN108549626A (zh) 2018-09-18

Similar Documents

Publication Publication Date Title
CN108549626B (zh) 一种慕课的关键词提取方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
US10095692B2 (en) Template bootstrapping for domain-adaptable natural language generation
CN110188351A (zh) 语句通顺度及句法评分模型的训练方法及装置
Shi et al. Towards recurrent neural networks language models with linguistic and contextual features
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN109271524B (zh) 知识库问答系统中的实体链接方法
Chen et al. Spoken Lecture Summarization by Random Walk over a Graph Constructed with Automatically Extracted Key Terms.
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN108170666A (zh) 一种基于tf-idf关键词提取的改进方法
Pavalanathan et al. A multidimensional lexicon for interpersonal stancetaking
Lin et al. Segmentation of lecture videos based on text: a method combining multiple linguistic features
CN110399483A (zh) 一种主题分类方法、装置、电子设备及可读存储介质
Khalid et al. Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method
Pérez-Rosas et al. Sentiment analysis of online spoken reviews.
Liu et al. Using N-best recognition output for extractive summarization and keyword extraction in meeting speech
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN110990537B (zh) 一种基于边缘信息和语义信息的句子相似度计算方法
CN110909175B (zh) 一种基于搜索引擎的在线课程概念知识图谱构建方法
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
Cao et al. Automated question answering from lecture videos: NLP vs. pattern matching
Asaga et al. ONOMATOPEDIA: onomatopoeia online example dictionary system extracted from data on the web
Radzikowski et al. Non-native English speakers' speech correction, based on domain focused document
Ranger Paul Baker and Tony McEnery (eds.), Corpora and discourse studies: Integrating discourse and corpora (Palgrave Advances in Language and Linguistics). Basingstoke: Palgrave Macmillan, 2015. Pp. xiv+ 310.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant