CN108052630B - 一种基于中文教育视频提取拓展词的方法 - Google Patents

一种基于中文教育视频提取拓展词的方法 Download PDF

Info

Publication number
CN108052630B
CN108052630B CN201711377455.5A CN201711377455A CN108052630B CN 108052630 B CN108052630 B CN 108052630B CN 201711377455 A CN201711377455 A CN 201711377455A CN 108052630 B CN108052630 B CN 108052630B
Authority
CN
China
Prior art keywords
text
word
words
keyword
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711377455.5A
Other languages
English (en)
Other versions
CN108052630A (zh
Inventor
曹妤
林淑金
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201711377455.5A priority Critical patent/CN108052630B/zh
Publication of CN108052630A publication Critical patent/CN108052630A/zh
Application granted granted Critical
Publication of CN108052630B publication Critical patent/CN108052630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于中文教育视频提取拓展词的方法,其中,所述方法包括:获取中文教育视频,生成视频内容文本,将其备份标记为文本集1和文本集2;将文本集1去停用词、词性标注,保留名词;并提取关键词和关键短语,获得关键词集1;根据关键词集1中的关键词对文本集1中的文本信息进行分类;根据不同类别信息,爬取相关类别的文章,将该类别的典型文章构建类别语料库;将文本集2进行分词,根据类别语料库提取关键词,获得关键词集2;将其和关键词集1取并集,对其重叠关键词按照视频内容文本长短重新分配权重;根据权重倒序排序,获得对应数量和难度的拓展词。实现本发明实施例,能全面准确的提取出视频中需要进行知识拓展的词条来帮助观看者在理解和学习。

Description

一种基于中文教育视频提取拓展词的方法
技术领域
本发明涉及视频信息提取、自然语言处理技术领域,尤其涉及一种基于中文教育视频提取拓展词的方法。
背景技术
随着互联网的发展,各行各业都逐渐与互联网产生了密切的关联。教育领域更是与互联网密不可分。通过观看视频进行学习也成了一种非常重要的学习手段。而在进行视频学习时,如何提高效率成了我们首要关注的问题。通过提取视频中的词来帮助我们了解视频内容是一种有效的学习方法。目前已有很多针对视频进行关键词提取和分析的技术方案。通过关键词提取来实现视频时间节点的检索、目录抽取等功能。而针对视频中的拓展词的提取方案的研究相对较少。
首先要对视频文本进行处理,提取视频拓展词,中文分词技术在这方面已有很多成熟技术。通过中文分词,可以去停用词,提取特定词性的词或短语。中文分词有基于词典的字符串匹配方法,有基于统计的机器学习方法等。常见的分词器都结合了字典和机器学习,一方面提高了准确率,另一方面增加了领域适应性。通过分词得到一个初步处理的词汇文本,进而抽取视频拓展词。
在提取视频拓展词时,由于知识水平所限,每个人对词语的难度的把控是不同的,这又与常见的关键词提取存在着一定的差异。现有的关键词提取方法常利用关键词的词频、出现位置、主题关联度等特征来进行关键词提取,如TF-IDF、TextRank等。提取出的词语一定程度上与主题有着联系。考虑到一个视频中反复出现的词可能就是视频的主题,通常也是专业术语,需要进行解释。一些出现频率极低可能只出现一次又与视频主题无关的词,也有可能是一个观看视频者想要进行知识拓展的词,我们也必须将这些词进行提取,这也是该项技术的难点之一。另外需要对一些简单级别的词语,如日常用语、不需要进行解释的词语进行筛选。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于中文教育视频提取拓展词的方法,通过综合词频、专有名词、词条长度、词间关联等多个维度特征,能全面准确的提取出视频中需要进行知识拓展的词条来帮助观看者在理解和学习。
为了解决上述技术问题,本发明提供了一种基于中文教育视频提取拓展词的方法,所述方法包括:
获取中文教育视频,生成视频内容文本,并将视频内容文本备份、标记为文本集1和文本集2;
对文本集1进行去停用词处理,并对去停用词处理后的文本集1进行词性标注,获得保留名词的文本集1;
对所述保留名词的文本集1进行提取关键词和关键短语,获得关键词集1;
根据关键词集1中的关键词对文本集1中的文本信息进行分类,获得不同类别信息;
根据不同类别信息,进行爬取相关类别的文章,并将该类别的典型文章构建类别语料库;
获取文本集2,进行分词,根据类别语料库进行提取关键词,获得关键词集2;
获取关键词集1和关键词集2进行取并集,对重叠的关键词按照视频内容文本长短重新分配权重;
根据权重倒序排序,获得对应数量和难度的拓展词。
优选地,所述关键词集1是作为视频内容文本分类的特征对视频内容文本进行分类。
其中,我们定义有向有权图为G=(V,E),由点集V和边集E组成,E是V×V的子集。WS(Vi)是节点重要性(PR值)。在该图中任意两点之间边的权重为Wji,对于一个给定的点Vi,则In(Vi)是指向该点Vi的点集,Out(Vi)则是点Vi指向的点集。d为阻尼系数,通常设置为0.85。In(Vi)是存在指向词节点i的链接的词集。则:
Figure GDA0002430421580000031
优选地,所述文本集2进行分词后,根据类别语料库,利用分好的词文本,进行计算处理。为了增加长词成为关键词的权重,对提取出的词分配词长权重
Figure GDA0002430421580000032
其中wordlength是当前词的长度,maxlength是文本中最长词的长度。则TF-IDF=TF×IDF×W。其中,词频
Figure GDA0002430421580000033
逆文档频率
Figure GDA0002430421580000034
其中分母中+1是为了分母避免为0。
在本发明实施例中,通过综合词频、专有名词、词条长度、词间关联等多个维度特征,能全面准确的提取出视频中需要进行知识拓展的词条,能够适应于提取视频文本中的难词生词以及重点词,而不单单局限于提取视频中的主题词、高频词,从而覆盖全面又有深度。通过视频拓展词提取规则,不同长短的视频文本拓展词提取也有了更灵活的适应性。对于计算逆文档频率所依赖的语料库进行了文本分类的构建,提高了提取到文本中低频出现的专业术语的提取几率。同时,兼顾了长词和关键短语的提取,将提取到的词的难度或可解释性大大提高。
附图说明
图1是本发明实施例中的基于中文教育视频提取拓展词的方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例中的基于中文教育视频提取拓展词的方法流程示意图,如图1所示,该方法包括:
S1,获取中文教育视频,通过提取字幕、OCR识别、语音识别处理,生成视频内容文本,并将视频内容文本备份成两份,分别标记为文本集1和文本集2;
S2,对文本集1进行去停用词处理,并对去停用词处理后的文本集1进行词性标注,获得保留名词的文本集1;
S3,对所述保留名词的文本集1进行提取关键词和关键短语,获得关键词集1;
S4,根据关键词集1中的关键词对文本集1中的文本信息进行分类,获得不同类别信息;
S5,根据不同类别信息,进行爬取相关类别的文章,并将该类别的典型文章构建类别语料库;
S6,获取文本集2,进行分词,根据类别语料库进行提取关键词,获得关键词集2;
S7,获取关键词集1和关键词集2进行取并集,对重叠的关键词取按照视频内容文本长短重新分配权重;
S8,根据权重倒序排序,获得对应数量和难度的拓展词。
对S3作进一步说明:
提取所述关键词和所述关键短语是利用TextRank模型进行操作,将所获得的关键词集1作为视频内容文本分类的特征对视频内容文本进行分类。
其中,我们定义有向有权图为G=(V,E),由点集V和边集E组成,E是V×V的子集。WS(Vi)是节点重要性(PR值)。在该图中任意两点之间边的权重为Wji,对于一个给定的点Vi,则In(Vi)是指向该点Vi的点集,Out(Vi)则是点Vi指向的点集。d为阻尼系数,通常设置为0.85。In(Vi)是存在指向词节点i的链接的词集。则:
Figure GDA0002430421580000051
其中,S6中所述进行分词的处理步骤主要是利用ICTCLA系统进行分词。由于视频文本通常是由字幕或OCR识别产生的,没有明显的段落区分,位置信息无法确定,但可以通过ICTCLA系统中增加命名实体识别方案,识别出通常在视频开头介绍的人名事件词等信息。由此达到一个提取出的拓展词尽可能有难度,趋向于专业术语,可解释强以及覆盖全面的效果。
S6中,当文本集2进行分词后,根据类别语料库,利用分好的词文本,进行计算处理。为了增加长词成为关键词的权重,对提取出的词分配词长权重
Figure GDA0002430421580000052
其中wordlength是当前词的长度,maxlength是文本中最长词的长度。则我们对TF-IDF算法进行了改进:TF-IDF=TF×IDF×W
其中,词频
Figure GDA0002430421580000053
逆文档频率
Figure GDA0002430421580000054
其中分母中+1是为了分母避免为0。由此得到TF-IDF抽取的关键词。
对S7作进一步说明:
将通过TextRank模型提取到的关键词和利用TF-IDF算法提取到的词进行取并集,重叠的词,按文本长短分配权重,得到新的一组关键词权重。对于重叠词引入权重Value=p×T+(1-p)×R
其中,p为文本长度系数,对于视频内容文本而言,我们设定小于20分钟的视频文本为短文本,大于20分钟的视频文本为长文本。设视频时间为t,规定t<20min时
Figure GDA0002430421580000055
t>=20min时,p=1。T为通过TF-IDF算法求出的关键词的权重,R为通过TextRank求出的关键词的权重。
在本发明实施例中,通过综合词频、专有名词、词条长度、词间关联等多个维度特征,能全面准确的提取出视频中需要进行知识拓展的词条,能够适应于提取视频文本中的难词生词以及重点词,而不单单局限于提取视频中的主题词、高频词,从而覆盖全面又有深度。通过视频拓展词提取规则,不同长短的视频文本拓展词提取也有了更灵活的适应性。对于计算逆文档频率所依赖的语料库进行了文本分类的构建,提高了提取到文本中低频出现的专业术语的提取几率。同时,兼顾了长词和关键短语的提取,将提取到的词的难度或可解释性大大提高。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于中文教育视频提取拓展词的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (1)

1.一种基于中文教育视频提取拓展词的方法,其特征在于,所述方法包括:
获取中文教育视频,生成视频内容文本,并将视频内容文本备份、标记为文本集1和文本集2;
对文本集1进行去停用词处理,并对去停用词处理后的文本集1进行词性标注,获得保留名词的文本集1;
对所述保留名词的文本集1进行提取关键词和关键短语,获得关键词集1;
根据关键词集1中的关键词对文本集1中的文本信息进行分类,获得不同类别信息;
根据不同类别信息,进行爬取相关类别的文章,并将该类别的典型文章构建类别语料库;
获取文本集2,进行分词,根据类别语料库进行提取关键词,获得关键词集2;
获取关键词集1和关键词集2进行取并集,对重叠的关键词按照视频内容文本长短重新分配权重;
根据权重倒序排序,获得对应数量和难度的拓展词;
其中:所述对所述保留名词的文本集1进行提取关键词和关键短语,获得关键词集1,具体包括:
提取所述关键词和所述关键短语是利用TextRank模型进行操作;
定义有向有权图为G=(V,E),由点集V和边集E组成,E是V×V的子集,WS(Vi)是节点重要性(PR值),在该图中任意两点之间边的权重为Wji,对于一个给定的点Vi,则In(Vi)是指向该点Vi的点集,Out(Vi)则是点Vi指向的点集,d为阻尼系数,In(Vi)是存在指向词节点i的链接的词集,则:
Figure FDA0002430421570000021
其中:所述获取文本集2,进行分词,根据类别语料库进行提取关键词,获得关键词集2,具体包括:
所述进行分词的处理步骤主要是利用ICTCLA系统进行分词;
当文本集2进行分词后,根据类别语料库,利用分好的词文本,进行计算处理,为了增加长词成为关键词的权重,对提取出的词分配词长权重
Figure FDA0002430421570000022
其中wordlength是当前词的长度,maxlength是文本中最长词的长度,则对TF-IDF算法进行改进:TF-IDF=TF×IDF×W,其中词频
Figure FDA0002430421570000023
逆文档频率
Figure FDA0002430421570000024
其中分母中+1是为了分母避免为0,由此得到TF-IDF抽取的关键词;
其中:所述获取关键词集1和关键词集2进行取并集,对重叠的关键词按照视频内容文本长短重新分配权重,具体包括:
将通过TextRank模型提取到的关键词和利用TF-IDF算法提取到的词进行取并集,重叠的词,按文本长短分配权重,得到新的一组关键词权重,对于重叠词引入权重Value=p×T+(1-p)×R,其中,p为文本长度系数,对于视频内容文本而言,设定小于20分钟的视频文本为短文本,大于20分钟的视频文本为长文本,设视频时间为t,规定t<20min时
Figure FDA0002430421570000025
t>=20min时p=1,T为通过TF-IDF算法求出的关键词的权重,R为通过TextRank求出的关键词的权重。
CN201711377455.5A 2017-12-19 2017-12-19 一种基于中文教育视频提取拓展词的方法 Active CN108052630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711377455.5A CN108052630B (zh) 2017-12-19 2017-12-19 一种基于中文教育视频提取拓展词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711377455.5A CN108052630B (zh) 2017-12-19 2017-12-19 一种基于中文教育视频提取拓展词的方法

Publications (2)

Publication Number Publication Date
CN108052630A CN108052630A (zh) 2018-05-18
CN108052630B true CN108052630B (zh) 2020-12-08

Family

ID=62130147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711377455.5A Active CN108052630B (zh) 2017-12-19 2017-12-19 一种基于中文教育视频提取拓展词的方法

Country Status (1)

Country Link
CN (1) CN108052630B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051966A (zh) * 2019-12-26 2021-06-29 中国移动通信集团重庆有限公司 视频关键词的处理方法及装置
CN111814770B (zh) * 2020-09-04 2021-01-15 中山大学深圳研究院 一种新闻视频的内容关键词提取方法、终端设备及介质
CN111813993A (zh) * 2020-09-04 2020-10-23 中山大学深圳研究院 视频内容的拓展方法、装置、终端设备及存储介质
CN112990465A (zh) * 2021-03-17 2021-06-18 平安科技(深圳)有限公司 佛学知识萃取方法、装置、设备及存储介质
CN113849686B (zh) * 2021-09-13 2024-09-20 北京达佳互联信息技术有限公司 一种视频数据获取方法、装置、电子设备及存储介质
CN114358002B (zh) * 2021-12-07 2024-07-26 有米科技股份有限公司 基于多维度的关键词提取方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103108252A (zh) * 2013-01-15 2013-05-15 安徽广行通信科技股份有限公司 一种互联网电视播出的方法及系统
WO2014002728A1 (ja) * 2012-06-27 2014-01-03 シャープ株式会社 録画装置、テレビジョン受信機及び録画方法
CN104080003A (zh) * 2014-07-01 2014-10-01 杨海 一种点击屏幕触发对照字幕显示的语言视频教学方法
CN104933120A (zh) * 2015-06-04 2015-09-23 无锡天脉聚源传媒科技有限公司 一种视频专辑的关键词设置方法及装置
CN104994404A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种为视频获取关键词的方法及装置
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107343223A (zh) * 2017-07-07 2017-11-10 北京慕华信息科技有限公司 视频片段的识别方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002728A1 (ja) * 2012-06-27 2014-01-03 シャープ株式会社 録画装置、テレビジョン受信機及び録画方法
CN103108252A (zh) * 2013-01-15 2013-05-15 安徽广行通信科技股份有限公司 一种互联网电视播出的方法及系统
CN104080003A (zh) * 2014-07-01 2014-10-01 杨海 一种点击屏幕触发对照字幕显示的语言视频教学方法
CN104933120A (zh) * 2015-06-04 2015-09-23 无锡天脉聚源传媒科技有限公司 一种视频专辑的关键词设置方法及装置
CN104994404A (zh) * 2015-07-06 2015-10-21 无锡天脉聚源传媒科技有限公司 一种为视频获取关键词的方法及装置
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN106997344A (zh) * 2017-03-31 2017-08-01 成都数联铭品科技有限公司 关键词抽取系统
CN107343223A (zh) * 2017-07-07 2017-11-10 北京慕华信息科技有限公司 视频片段的识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Extracting Topic Changes through Word Co-occurrence Graphs from Japanese subtitles of VOD Lecture;Nobuyuki KOBAYASHI et al;《2012 IIAI International Conference on Advanced Applied Informatics》;20120922;第330-333页 *
The Keyword Extraction of Chinese Medical Web Page Based on WF-TF-IDF Algorithm;Peng Sun et al;《2017 International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery》;20171014;第193-198页 *
基于多特征的视频关联文本关键词提取方法;王万良;《浙江工业大学学报》;20170228;第45卷(第1期);第14-18页 *

Also Published As

Publication number Publication date
CN108052630A (zh) 2018-05-18

Similar Documents

Publication Publication Date Title
CN108052630B (zh) 一种基于中文教育视频提取拓展词的方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN108197111B (zh) 一种基于融合语义聚类的文本自动摘要方法
CN106328147B (zh) 语音识别方法和装置
US9015035B2 (en) User modification of generative model for determining topics and sentiments
CN108549626B (zh) 一种慕课的关键词提取方法
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN108009135B (zh) 生成文档摘要的方法和装置
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN114462392B (zh) 一种基于主题关联度与关键词联想的短文本特征扩展方法
CN110929022A (zh) 一种文本摘要生成方法及系统
US10970489B2 (en) System for real-time expression of semantic mind map, and operation method therefor
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
Mann et al. Multi-field information extraction and cross-document fusion
CN111859950A (zh) 一种自动化生成讲稿的方法
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
CN110413985B (zh) 一种相关文本片段搜索方法及装置
CN114036907A (zh) 一种基于领域特征的文本数据扩增方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant