CN110175246B - 一种从视频字幕中提取概念词的方法 - Google Patents

一种从视频字幕中提取概念词的方法 Download PDF

Info

Publication number
CN110175246B
CN110175246B CN201910278094.1A CN201910278094A CN110175246B CN 110175246 B CN110175246 B CN 110175246B CN 201910278094 A CN201910278094 A CN 201910278094A CN 110175246 B CN110175246 B CN 110175246B
Authority
CN
China
Prior art keywords
word
concept
target word
target
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910278094.1A
Other languages
English (en)
Other versions
CN110175246A (zh
Inventor
赵中英
杨永浩
周慧
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201910278094.1A priority Critical patent/CN110175246B/zh
Publication of CN110175246A publication Critical patent/CN110175246A/zh
Priority to PCT/CN2020/078889 priority patent/WO2020207179A1/zh
Application granted granted Critical
Publication of CN110175246B publication Critical patent/CN110175246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种从视频字幕中提取概念词的方法,其包括如下步骤:对字幕文本进行分词处理,并删除标点符号;对分词后的字幕文本进行停止词和词性标注;计算目标单词和相邻词的共现特征;计算目标单词和相邻词的语义相似度;对分词后的少量字幕文本进行概念词标记,作为训练集;根据所述训练集对预先建立的基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果。基于本发明提供的提取概念词的方法,减轻了人工标注语料的工作量,提升了在MOOC视频字幕场景中提取概念词的准确性,并满足了实际需求。

Description

一种从视频字幕中提取概念词的方法
技术领域
本发明涉及一种概念词提取方法,尤其涉及一种从视频字幕中提取概念词的方法。
背景技术
大规模开放式在线课程(Massive Open Online Course,简称MOOCs)由于拥有优质课程资源,因而促进了世界范围内的知识分享,为不同学科的教和学创造了大量的机会。对MOOC平台数据进行挖掘与分析的基本步骤之一是对视频字幕中的概念词进行提取。
目前虽然有很多方法可以从文本中提取概念词,如基于支持向量机和神经网络等各种机器学习算法的有监督和无监督方法,然而有监督方法需要大量的人工标记语料,无监督方法虽然不需要人工标注语料,但是很难取得令人满意的性能,并且这些方法都是针对从一般的文本挖掘场景中提取关键词,如果将其直接应用于课程视频字幕文本通常不会取得令人满意的性能,这是因为视频字幕和一般的文本挖掘场景,如学术论文和新闻文本等,都有诸多不同,而通常意义上的关键词和概念词也不能完全划等号。以上几方面都给视频字幕中的概念词提取任务带来了一定的困难,因此需要对现有的关键词提取方法进行改进。
发明内容
本发明的目的在于提出一种从视频字幕中提取概念词的方法,以减轻人工标注语料的工作量,同时提升从视频字幕场景中提取概念词的准确性。
本发明为了实现上述目的,采用如下技术方案:
一种从视频字幕中提取概念词的方法,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号;
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,将各个特征的组合转变成特征向量;
其中,对分词后的字幕文本进行处理的过程如下:
s2.1.对分词后的字幕文本进行停止词和词性标注;
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征;
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度;
s2.4.对分词后的部分字幕文本进行概念词标记;其中,有概念词标记的字幕文本加入已标记样本集作为训练集,没有概念词标记的字幕文本加入未标记样本集;
s3.根据训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取概念词预测模型输出的字幕文本对应的概念词预测结果;
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算未标记样本集中的未标记样本和训练集的相似度;
选取和训练集最相似的一组未标记样本,然后将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到训练集中,作为更新后的训练集;
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型;
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记,并得到最终的概念词预测模型。
优选地,步骤s1中使用开源的NLTK分词包对字幕文本进行分词处理,并删除标点符号。
优选地,步骤s2.1具体为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词,目标单词的前一个词是否是停用词,目标单词的后一个词是否是停用词,作为目标单词的停止词特征;
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
优选地,步骤s2.2具体为:
s2.2.1.计算目标单词与前一个词的共现特征,即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.2.计算目标单词与后一个词的共现特征,即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.3.计算目标单词与前、后两个词的共现特征,即:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
优选地,步骤s2.3具体为:
s2.3.1.使用预训练的word2vec模型获得目标单词的词向量;
s2.3.2.使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度;
s2.3.3.使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。
优选地,步骤s2.4具体为:
选取分词后的10%-20%的字幕文本作为训练集,由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
优选地,步骤s3.2中未标记样本和训练集的相似度计算过程如下:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量;
s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示;
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离,其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高。
本发明具有如下优点:
如上所述,本发明提供了一种从视频字幕中提取概念词的方法,该方法的步骤s2提取了单词的语义信息、上下文信息和结构信息,而条件随机场模型可以有效利用这些信息进行字幕文本的序列标注,从而有效识别由1个或多个单词组成的概念词,该方法的步骤s3依据流形假设的思想,即将高维数据嵌入到低维流形中,当两个样本位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。而步骤s3通过word2vec模型将单词转变为低维的词向量,并通过计算已标记训练集和未标记训练集之间的词向量的相似度,来确定已标记训练集的邻域,而对模型进行迭代训练时,模型依据流形假设会在已标记训练集邻域上具有较高的预测准确性,保证了最终训练的模型具有较好的性能,从而能够减轻人工标注语料的工作量,同时提升在MOOC等视频字幕场景中提取课程概念词的准确性。
附图说明
图1为本发明实施例中从视频字幕中提取概念词的方法的流程示意图。
具体实施方式
名词解释:概念词
概念词是在课程学习中表述知识点的单词或短语。
在形式上,概念词c可以表示为课程语料中的一个k元短语并满足以下两点特征:a)概念词c应该是语义和句法正确的短语;b)概念词c应代表一种科学或技术知识。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,一种从视频字幕中提取概念词的方法,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号。
本实施例中选用开源的NLTK分词包,对字幕文本进行分词处理并删除标点符号。
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,包括停止词和词性标记特征、共现特征以及语义相似度特征。
s2.1.对分词后的字幕文本进行停止词和词性标注。常见的停止词如a、the、or、“也”、“的”等,而词性则包括动词、名词和形容词等。
对字幕文本进行停止词和词性标注的具体步骤为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词,目标单词的前一个词是否是停用词,目标单词的后一个词是否是停用词,作为目标单词的停止词特征。
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征。
其中,上述共现特征包括目标单词与前一个词的共现特征、目标单词与后一个词的共现特征以及目标单词与前、后两个词的共现特征三个方面。
目标单词与前一个词的共现特征的计算过程为:目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数。
目标单词与后一个词的共现特征的计算过程为:目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数。
目标单词与前、后两个词的共现特征的计算过程为:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度。
该步骤s2.3具体包括:
使用预训练的word2vec模型获得目标单词的词向量;
使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度;使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。余弦距离的基本原理为通过计算两个向量之间的夹角的余弦值来衡量两个向量方向上的差异,对于词向量来说,通常情况下方向上的差异越大,单词之间的语义差异就越大(即语义相似度越小)。而目标单词与相邻单词如果同属一个概念词,那么它们之间的语义相似度就越大,此步骤即利用了上述原理。
s2.4.对分词后的部分字幕文本进行概念词标记。本实施例中选取的进行概念词标记的字幕文本数量占总字幕文本数量的10%-20%,例如取15%。
由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
当目标单词处于概念的开头时,使用‘B’进行标记;当目标单词处于一个多词概念中时,使用“I”进行标记;当目标单词不在概念中时,使用“o”进行标记。
将以上步骤s2.1-步骤s2.4获得的特征组合转变为特征向量。
本实施例将有概念词标记的字幕文本加入已标记样本集作为训练集。将没有概念词标记的字幕文本加入未标记样本集。
步骤s2中各个特征的选取和计算过程,很好保证了下述模型的预测结果精度。
s3.根据训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取概念词预测模型输出的字幕文本对应的概念词预测结果。
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算未标记样本集中的未标记样本和训练集的相似度,选取和训练集最相似的一组未标记样本,该组未标记样本被认为具有较高的标记置信度。将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到训练集中,作为更新后的训练集。
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型。
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记。
由上述过程看出,本实施例是先计算置信度再对未标注训练集进行预测,最后得到一个经过训练的最终的分类模型,即概念词预测模型。由于上述模型在置信度高的未标记训练集上进行预测时性能会有明显提高,从而保证了每次迭代训练时已标记训练集中不会引入过多的错误标记样本,使得模型的性能在每次迭代训练后保持稳定。
其中,未标记样本和训练集的相似度的具体计算过程为:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量。
s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示。
经过实验证明,本实施例中的超参数a的取值为1e-3。
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离。
其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高,就认为未标记样本具有较高的标记置信度。
选取和训练集最相似的一组未标记样本的数量占所有样本总数的10%-20%。
本发明方法利用训练好的概念词预测模型(即基于条件随机场的半监督学习模型),提取MOOC视频字幕中的概念词,因构建的概念词预测模型能够结合上下文语义,捕捉到字幕文本的局部相关性,从而使得本方法相较于现有技术能提高概念词提取的准确度。
此外,本发明方法提取的概念词不局限于中文还可以是英文等,因而,本发明方法具有跨语言的特性,因此可以应用到跨语言的视频字幕的概念词提取的场景中。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。

Claims (7)

1.一种从视频字幕中提取概念词的方法,其特征在于,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号;
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,将各个特征的组合转变成特征向量;
其中,对分词后的字幕文本进行处理的过程如下:
s2.1.对分词后的字幕文本进行停止词和词性标注,得到目标单词的停止词特征和目标单词的词性特征;
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征,得到目标单词与前一个词的共现特征,目标单词与后一个词的共现特征,目标单词与前、后两个词的共现特征;
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度,得到目标单词与前一个单词的语义相似度,目标单词与后一个单词的语义相似度;
s2.4.对分词后的部分字幕文本进行概念词标记;其中,有概念词标记的字幕文本加入已标记样本集作为训练集,没有概念词标记的字幕文本加入未标记样本集;
s3.根据所述训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果;
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用所述训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算所述未标记样本集中的未标记样本和训练集的相似度;
选取和训练集最相似的一组未标记样本,然后将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到所述训练集中,作为更新后的训练集;
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型;
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记,并得到最终的概念词预测模型。
2.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s1中,使用开源的NLTK分词包对字幕文本进行分词处理,并删除标点符号。
3.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.1具体为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停止词,目标单词的前一个词是否是停止词,目标单词的后一个词是否是停止词,作为目标单词的停止词特征;
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
4.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.2具体为:
s2.2.1.计算目标单词与前一个词的共现特征,即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.2.计算目标单词与后一个词的共现特征,即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.3.计算目标单词与前、后两个词的共现特征,即:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
5.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.3具体为:
s2.3.1.使用预训练的word2vec模型获得目标单词的词向量;
s2.3.2.根据所述词向量使用余弦距离计算目标单词与前一个单词的语义相似度;
s2.3.3.根据所述词向量使用余弦距离计算目标单词与后一个单词的语义相似度。
6.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.4具体为:
选取分词后的10%-20%的字幕文本作为训练集,由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
7.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s3.2中,未标记样本和训练集的相似度计算过程如下:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量;
s3.2.2.使用超参数a除以a和句子中的所述目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示;
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离,其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高。
CN201910278094.1A 2019-04-09 2019-04-09 一种从视频字幕中提取概念词的方法 Active CN110175246B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910278094.1A CN110175246B (zh) 2019-04-09 2019-04-09 一种从视频字幕中提取概念词的方法
PCT/CN2020/078889 WO2020207179A1 (zh) 2019-04-09 2020-03-12 一种从视频字幕中提取概念词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910278094.1A CN110175246B (zh) 2019-04-09 2019-04-09 一种从视频字幕中提取概念词的方法

Publications (2)

Publication Number Publication Date
CN110175246A CN110175246A (zh) 2019-08-27
CN110175246B true CN110175246B (zh) 2021-04-13

Family

ID=67689504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910278094.1A Active CN110175246B (zh) 2019-04-09 2019-04-09 一种从视频字幕中提取概念词的方法

Country Status (2)

Country Link
CN (1) CN110175246B (zh)
WO (1) WO2020207179A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175246B (zh) * 2019-04-09 2021-04-13 山东科技大学 一种从视频字幕中提取概念词的方法
CN110851570B (zh) * 2019-11-14 2023-04-18 中山大学 基于Embedding技术的无监督关键词提取方法
CN110909175B (zh) * 2019-11-20 2021-06-29 清华大学 一种基于搜索引擎的在线课程概念知识图谱构建方法
CN111553147A (zh) * 2020-03-27 2020-08-18 南京工业大学 一种基于N-gram的BERT模型以及语义分割方法
CN111460971B (zh) * 2020-03-27 2023-09-12 北京百度网讯科技有限公司 视频概念检测方法、装置以及电子设备
CN111696667A (zh) * 2020-06-11 2020-09-22 吾征智能技术(北京)有限公司 一种常见妇科疾病预测模型构建方法和预测系统
CN112818117A (zh) * 2021-01-19 2021-05-18 新华智云科技有限公司 标签映射方法、系统、计算机可读存储介质
CN113095361B (zh) * 2021-03-08 2023-05-12 西安交通大学 一种基于图匹配网络的可对比学习对象生成方法及系统
CN113378561A (zh) * 2021-08-16 2021-09-10 北京泰迪熊移动科技有限公司 词语预测模板生成方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5454763B2 (ja) * 2009-02-26 2014-03-26 独立行政法人情報通信研究機構 文の対中の単語対応付装置及びそのコンピュータプログラム
CN101872343A (zh) * 2009-04-24 2010-10-27 罗彤 半监督式的海量数据层次分类方法
CN104156438A (zh) * 2014-08-12 2014-11-19 德州学院 一种基于置信度和聚类的未标记样本选择的方法
CN104572616B (zh) * 2014-12-23 2018-04-24 北京锐安科技有限公司 文本倾向性的确定方法和装置
CN104965992B (zh) * 2015-07-13 2018-01-09 南开大学 一种基于在线医疗问答信息的文本挖掘方法
CN105243129B (zh) * 2015-09-30 2018-10-30 清华大学深圳研究生院 商品属性特征词聚类方法
CN105550168B (zh) * 2015-12-10 2019-01-15 百度在线网络技术(北京)有限公司 一种确定对象的概念词的方法和装置
CN105718586B (zh) * 2016-01-26 2018-12-28 中国人民解放军国防科学技术大学 分词的方法及装置
CN105808711B (zh) * 2016-03-04 2019-11-26 北京工业大学 一种基于文本语义的概念生成模型的系统和方法
US10922609B2 (en) * 2017-05-17 2021-02-16 Facebook, Inc. Semi-supervised learning via deep label propagation
CN108549639A (zh) * 2018-04-20 2018-09-18 山东管理学院 基于多特征模板修正的中医医案命名识别方法及系统
CN110175246B (zh) * 2019-04-09 2021-04-13 山东科技大学 一种从视频字幕中提取概念词的方法

Also Published As

Publication number Publication date
WO2020207179A1 (zh) 2020-10-15
CN110175246A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
Cheng et al. Neural summarization by extracting sentences and words
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
WO2018218706A1 (zh) 一种基于神经网络的新闻事件抽取的方法及系统
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Ghoshal et al. Hidden Markov models for automatic annotation and content-based retrieval of images and video
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108509521B (zh) 一种自动生成文本索引的图像检索方法
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
Chen et al. Automatic key term extraction from spoken course lectures using branching entropy and prosodic/semantic features
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113239666B (zh) 一种文本相似度计算方法及系统
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
Béchet et al. Unsupervised knowledge acquisition for extracting named entities from speech
Song et al. LSTM-in-LSTM for generating long descriptions of images
CN113268576A (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
Lam et al. Uit-viic: A dataset for the first evaluation on vietnamese image captioning
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN114970536A (zh) 一种分词、词性标注和命名实体识别的联合词法分析方法
CN114880496A (zh) 多媒体信息话题分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant