CN110175246A - 一种从视频字幕中提取概念词的方法 - Google Patents
一种从视频字幕中提取概念词的方法 Download PDFInfo
- Publication number
- CN110175246A CN110175246A CN201910278094.1A CN201910278094A CN110175246A CN 110175246 A CN110175246 A CN 110175246A CN 201910278094 A CN201910278094 A CN 201910278094A CN 110175246 A CN110175246 A CN 110175246A
- Authority
- CN
- China
- Prior art keywords
- word
- notional
- target
- training set
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种从视频字幕中提取概念词的方法,其包括如下步骤:对字幕文本进行分词处理,并删除标点符号;对分词后的字幕文本进行停止词和词性标注;计算目标单词和相邻词的共现特征;计算目标单词和相邻词的语义相似度;对分词后的少量字幕文本进行概念词标记,作为训练集;根据所述训练集对预先建立的基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果。基于本发明提供的提取概念词的方法,减轻了人工标注语料的工作量,提升了在MOOC视频字幕场景中提取概念词的准确性,并满足了实际需求。
Description
技术领域
本发明涉及一种概念词提取方法,尤其涉及一种从视频字幕中提取概念词的方法。
背景技术
大规模开放式在线课程(Massive Open Online Course,简称MOOCs)由于拥有优质课程资源,因而促进了世界范围内的知识分享,为不同学科的教和学创造了大量的机会。对MOOC平台数据进行挖掘与分析的基本步骤之一是对视频字幕中的概念词进行提取。
目前虽然有很多方法可以从文本中提取概念词,如基于支持向量机和神经网络等各种机器学习算法的有监督和无监督方法,然而有监督方法需要大量的人工标记语料,无监督方法虽然不需要人工标注语料,但是很难取得令人满意的性能,并且这些方法都是针对从一般的文本挖掘场景中提取关键词,如果将其直接应用于课程视频字幕文本通常不会取得令人满意的性能,这是因为视频字幕和一般的文本挖掘场景,如学术论文和新闻文本等,都有诸多不同,而通常意义上的关键词和概念词也不能完全划等号。以上几方面都给视频字幕中的概念词提取任务带来了一定的困难,因此需要对现有的关键词提取方法进行改进。
发明内容
本发明的目的在于提出一种从视频字幕中提取概念词的方法,以减轻人工标注语料的工作量,同时提升从视频字幕场景中提取概念词的准确性。
本发明为了实现上述目的,采用如下技术方案:
一种从视频字幕中提取概念词的方法,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号;
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,将各个特征的组合转变成特征向量;
其中,对分词后的字幕文本进行处理的过程如下:
s2.1.对分词后的字幕文本进行停止词和词性标注;
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征;
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度;
s2.4.对分词后的部分字幕文本进行概念词标记;其中,有概念词标记的字幕文本加入已标记样本集作为训练集,没有概念词标记的字幕文本加入未标记样本集;
s3.根据训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取概念词预测模型输出的字幕文本对应的概念词预测结果;
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算未标记样本集中的未标记样本和训练集的相似度;
选取和训练集最相似的一组未标记样本,然后将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到训练集中,作为更新后的训练集;
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型;
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记,并得到最终的概念词预测模型。
优选地,步骤s1中使用开源的NLTK分词包对字幕文本进行分词处理,并删除标点符号。
优选地,步骤s2.1具体为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词,目标单词的前一个词是否是停用词,目标单词的后一个词是否是停用词,作为目标单词的停止词特征;
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
优选地,步骤s2.2具体为:
s2.2.1.计算目标单词与前一个词的共现特征,即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.2.计算目标单词与后一个词的共现特征,即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.3.计算目标单词与前、后两个词的共现特征,即:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
优选地,步骤s2.3具体为:
s2.3.1.使用预训练的word2vec模型获得目标单词的词向量;
s2.3.2.使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度;
s2.3.3.使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。
优选地,步骤s2.4具体为:
选取分词后的10%-20%的字幕文本作为训练集,由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
优选地,步骤s3.2中未标记样本和训练集的相似度计算过程如下:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量;
s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示;
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离,其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高。
本发明具有如下优点:
如上所述,本发明提供了一种从视频字幕中提取概念词的方法,该方法的步骤s2提取了单词的语义信息、上下文信息和结构信息,而条件随机场模型可以有效利用这些信息进行字幕文本的序列标注,从而有效识别由1个或多个单词组成的概念词,该方法的步骤s3依据流形假设的思想,即将高维数据嵌入到低维流形中,当两个样本位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。而步骤s3通过word2vec模型将单词转变为低维的词向量,并通过计算已标记训练集和未标记训练集之间的词向量的相似度,来确定已标记训练集的邻域,而对模型进行迭代训练时,模型依据流形假设会在已标记训练集邻域上具有较高的预测准确性,保证了最终训练的模型具有较好的性能,从而能够减轻人工标注语料的工作量,同时提升在MOOC等视频字幕场景中提取课程概念词的准确性。
附图说明
图1为本发明实施例中从视频字幕中提取概念词的方法的流程示意图。
具体实施方式
名词解释:概念词
概念词是在课程学习中表述知识点的单词或短语。
在形式上,概念词c可以表示为课程语料中的一个k元短语并满足以下两点特征:a)概念词c应该是语义和句法正确的短语;b)概念词c应代表一种科学或技术知识。
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1所示,一种从视频字幕中提取概念词的方法,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号。
本实施例中选用开源的NLTK分词包,对字幕文本进行分词处理并删除标点符号。
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,包括停止词和词性标记特征、共现特征以及语义相似度特征。
s2.1.对分词后的字幕文本进行停止词和词性标注。常见的停止词如a、the、or、“也”、“的”等,而词性则包括动词、名词和形容词等。
对字幕文本进行停止词和词性标注的具体步骤为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词,目标单词的前一个词是否是停用词,目标单词的后一个词是否是停用词,作为目标单词的停止词特征。
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征。
其中,上述共现特征包括目标单词与前一个词的共现特征、目标单词与后一个词的共现特征以及目标单词与前、后两个词的共现特征三个方面。
目标单词与前一个词的共现特征的计算过程为:目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数。
目标单词与后一个词的共现特征的计算过程为:目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数。
目标单词与前、后两个词的共现特征的计算过程为:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度。
该步骤s2.3具体包括:
使用预训练的word2vec模型获得目标单词的词向量;
使用余弦距离根据词向量计算目标单词与前一个单词的语义相似度;使用余弦距离根据词向量计算目标单词与后一个单词的语义相似度。余弦距离的基本原理为通过计算两个向量之间的夹角的余弦值来衡量两个向量方向上的差异,对于词向量来说,通常情况下方向上的差异越大,单词之间的语义差异就越大(即语义相似度越小)。而目标单词与相邻单词如果同属一个概念词,那么它们之间的语义相似度就越大,此步骤即利用了上述原理。
s2.4.对分词后的部分字幕文本进行概念词标记。本实施例中选取的进行概念词标记的字幕文本数量占总字幕文本数量的10%-20%,例如取15%。
由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
当目标单词处于概念的开头时,使用‘B’进行标记;当目标单词处于一个多词概念中时,使用“I”进行标记;当目标单词不在概念中时,使用“o”进行标记。
将以上步骤s2.1-步骤s2.4获得的特征组合转变为特征向量。
本实施例将有概念词标记的字幕文本加入已标记样本集作为训练集。将没有概念词标记的字幕文本加入未标记样本集。
步骤s2中各个特征的选取和计算过程,很好保证了下述模型的预测结果精度。
s3.根据训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取概念词预测模型输出的字幕文本对应的概念词预测结果。
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算未标记样本集中的未标记样本和训练集的相似度,选取和训练集最相似的一组未标记样本,该组未标记样本被认为具有较高的标记置信度。将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到训练集中,作为更新后的训练集。
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型。
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记。
由上述过程看出,本实施例是先计算置信度再对未标注训练集进行预测,最后得到一个经过训练的最终的分类模型,即概念词预测模型。由于上述模型在置信度高的未标记训练集上进行预测时性能会有明显提高,从而保证了每次迭代训练时已标记训练集中不会引入过多的错误标记样本,使得模型的性能在每次迭代训练后保持稳定。
其中,未标记样本和训练集的相似度的具体计算过程为:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量。
s3.2.2.使用超参数a除以a和句子中的目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示。
经过实验证明,本实施例中的超参数a的取值为1e-3。
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离。
其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高,就认为未标记样本具有较高的标记置信度。
选取和训练集最相似的一组未标记样本的数量占所有样本总数的10%-20%。
本发明方法利用训练好的概念词预测模型(即基于条件随机场的半监督学习模型),提取MOOC视频字幕中的概念词,因构建的概念词预测模型能够结合上下文语义,捕捉到字幕文本的局部相关性,从而使得本方法相较于现有技术能提高概念词提取的准确度。
此外,本发明方法提取的概念词不局限于中文还可以是英文等,因而,本发明方法具有跨语言的特性,因此可以应用到跨语言的视频字幕的概念词提取的场景中。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (7)
1.一种从视频字幕中提取概念词的方法,其特征在于,包括如下步骤:
s1.对字幕文本进行分词处理,并删除标点符号;
s2.对分词后的字幕文本进行处理,获得基于条件随机场的半监督学习框架所需的若干个特征,将各个特征的组合转变成特征向量;
其中,对分词后的字幕文本进行处理的过程如下:
s2.1.对分词后的字幕文本进行停止词和词性标注;
s2.2.根据分词后的字幕文本计算目标单词和相邻词的共现特征;
s2.3.根据分词后的字幕文本计算目标单词和相邻词的语义相似度;
s2.4.对分词后的部分字幕文本进行概念词标记;其中,有概念词标记的字幕文本加入已标记样本集作为训练集,没有概念词标记的字幕文本加入未标记样本集;
s3.根据训练集对基于条件随机场的半监督学习框架进行训练,得到概念词预测模型,并获取所述概念词预测模型输出的字幕文本对应的概念词预测结果;
其中,基于条件随机场的半监督学习框架进行训练的具体过程如下:
s3.1.使用训练集对条件随机场模型进行训练,得到初始的概念词预测模型;
s3.2.计算未标记样本集中的未标记样本和训练集的相似度;
选取和训练集最相似的一组未标记样本,然后将该组未标记样本通过概念词预测模型转变为已标记样本后,添加到训练集中,作为更新后的训练集;
s3.3.利用更新后的训练集对条件随机场算法进行训练,得到更新后的概念词预测模型;
s3.4.重复执行步骤s3.2和步骤s3.3,对模型进行迭代训练,直到所有字幕文本均被标记,并得到最终的概念词预测模型。
2.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s1中,使用开源的NLTK分词包对字幕文本进行分词处理,并删除标点符号。
3.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.1具体为:
s2.1.1.使用开源的NLTK分词包来指示目标单词是否是停用词,目标单词的前一个词是否是停用词,目标单词的后一个词是否是停用词,作为目标单词的停止词特征;
s2.1.2.使用开源的斯坦福词性标记器来标记每个目标单词的词性,标记目标单词的前一个单词的词性,标记目标单词的后一个单词的词性,作为目标单词的词性特征。
4.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.2具体为:
s2.2.1.计算目标单词与前一个词的共现特征,即目标单词和前一个词的共现频率除以目标单词的频率和前一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.2.计算目标单词与后一个词的共现特征,即目标单词和后一个词的共现频率除以目标单词的频率和后一个词的频率的乘积,并对结果取以10为底的对数;
s2.2.3.计算目标单词与前、后两个词的共现特征,即:
目标单词和前、后两个词的共现频率除以目标单词和前一个词的共现频率以及目标单词和后一个词的共现频率的乘积,并对结果取以10为底的对数。
5.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.3具体为:
s2.3.1.使用预训练的word2vec模型获得目标单词的词向量;
s2.3.2.使用余弦距离根据所述词向量计算目标单词与前一个单词的语义相似度;
s2.3.3.使用余弦距离根据所述词向量计算目标单词与后一个单词的语义相似度。
6.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s2.4具体为:
选取分词后的10%-20%的字幕文本作为训练集,由两位相关领域的专家标注者对训练集中的概念进行标注,只有当两位专家取得一致意见时,一个短语才会被标注成概念。
7.根据权利要求1所述的从视频字幕中提取概念词的方法,其特征在于,
所述步骤s3.2中,未标记样本和训练集的相似度计算过程如下:
s3.2.1.使用预训练的word2vec模型获得目标单词的词向量;
s3.2.2.使用超参数a除以a和句子中的所述目标单词词频估计的和,作为句子中每个单词的词向量的权重;将句子内所有单词的词向量的加权算数平均值作为句子的向量表示;
使用句子向量之间的余弦距离作为未标记样本和训练集的相似度距离,其中,未标记样本和训练集的相似度距离越小,则表明未标记样本与训练集的相似度越高。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278094.1A CN110175246B (zh) | 2019-04-09 | 2019-04-09 | 一种从视频字幕中提取概念词的方法 |
PCT/CN2020/078889 WO2020207179A1 (zh) | 2019-04-09 | 2020-03-12 | 一种从视频字幕中提取概念词的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278094.1A CN110175246B (zh) | 2019-04-09 | 2019-04-09 | 一种从视频字幕中提取概念词的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175246A true CN110175246A (zh) | 2019-08-27 |
CN110175246B CN110175246B (zh) | 2021-04-13 |
Family
ID=67689504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910278094.1A Active CN110175246B (zh) | 2019-04-09 | 2019-04-09 | 一种从视频字幕中提取概念词的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110175246B (zh) |
WO (1) | WO2020207179A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110909175A (zh) * | 2019-11-20 | 2020-03-24 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN111460971A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 视频概念检测方法、装置以及电子设备 |
CN111553147A (zh) * | 2020-03-27 | 2020-08-18 | 南京工业大学 | 一种基于N-gram的BERT模型以及语义分割方法 |
CN111696667A (zh) * | 2020-06-11 | 2020-09-22 | 吾征智能技术(北京)有限公司 | 一种常见妇科疾病预测模型构建方法和预测系统 |
WO2020207179A1 (zh) * | 2019-04-09 | 2020-10-15 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN117972105A (zh) * | 2023-12-21 | 2024-05-03 | 招商基金管理有限公司 | 基于深度学习的基金名称概念提取方法、装置及相关介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095361B (zh) * | 2021-03-08 | 2023-05-12 | 西安交通大学 | 一种基于图匹配网络的可对比学习对象生成方法及系统 |
CN113378561A (zh) * | 2021-08-16 | 2021-09-10 | 北京泰迪熊移动科技有限公司 | 词语预测模板生成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5454763B2 (ja) * | 2009-02-26 | 2014-03-26 | 独立行政法人情報通信研究機構 | 文の対中の単語対応付装置及びそのコンピュータプログラム |
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101872343A (zh) * | 2009-04-24 | 2010-10-27 | 罗彤 | 半监督式的海量数据层次分类方法 |
CN104156438A (zh) * | 2014-08-12 | 2014-11-19 | 德州学院 | 一种基于置信度和聚类的未标记样本选择的方法 |
CN104965992B (zh) * | 2015-07-13 | 2018-01-09 | 南开大学 | 一种基于在线医疗问答信息的文本挖掘方法 |
CN105808711B (zh) * | 2016-03-04 | 2019-11-26 | 北京工业大学 | 一种基于文本语义的概念生成模型的系统和方法 |
US10922609B2 (en) * | 2017-05-17 | 2021-02-16 | Facebook, Inc. | Semi-supervised learning via deep label propagation |
CN110175246B (zh) * | 2019-04-09 | 2021-04-13 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
-
2019
- 2019-04-09 CN CN201910278094.1A patent/CN110175246B/zh active Active
-
2020
- 2020-03-12 WO PCT/CN2020/078889 patent/WO2020207179A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5454763B2 (ja) * | 2009-02-26 | 2014-03-26 | 独立行政法人情報通信研究機構 | 文の対中の単語対応付装置及びそのコンピュータプログラム |
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN105243129A (zh) * | 2015-09-30 | 2016-01-13 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
CN105550168A (zh) * | 2015-12-10 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种确定对象的概念词的方法和装置 |
CN105718586A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 分词的方法及装置 |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
YICHUN YIN等: "Unsupervised Word and Dependency Path Embeddings for Aspect Term Extraction", 《ARXIV》 * |
邬伦等: "基于条件随机场的中文地名识别方法", 《武汉大学学报信息科学版》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020207179A1 (zh) * | 2019-04-09 | 2020-10-15 | 山东科技大学 | 一种从视频字幕中提取概念词的方法 |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110851570B (zh) * | 2019-11-14 | 2023-04-18 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN110909175A (zh) * | 2019-11-20 | 2020-03-24 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN110909175B (zh) * | 2019-11-20 | 2021-06-29 | 清华大学 | 一种基于搜索引擎的在线课程概念知识图谱构建方法 |
CN111460971A (zh) * | 2020-03-27 | 2020-07-28 | 北京百度网讯科技有限公司 | 视频概念检测方法、装置以及电子设备 |
CN111553147A (zh) * | 2020-03-27 | 2020-08-18 | 南京工业大学 | 一种基于N-gram的BERT模型以及语义分割方法 |
CN111460971B (zh) * | 2020-03-27 | 2023-09-12 | 北京百度网讯科技有限公司 | 视频概念检测方法、装置以及电子设备 |
CN111696667A (zh) * | 2020-06-11 | 2020-09-22 | 吾征智能技术(北京)有限公司 | 一种常见妇科疾病预测模型构建方法和预测系统 |
CN112818117A (zh) * | 2021-01-19 | 2021-05-18 | 新华智云科技有限公司 | 标签映射方法、系统、计算机可读存储介质 |
CN117972105A (zh) * | 2023-12-21 | 2024-05-03 | 招商基金管理有限公司 | 基于深度学习的基金名称概念提取方法、装置及相关介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020207179A1 (zh) | 2020-10-15 |
CN110175246B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175246A (zh) | 一种从视频字幕中提取概念词的方法 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN110245259B (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US7689527B2 (en) | Attribute extraction using limited training data | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN111428493A (zh) | 实体关系获取方法、装置、设备及存储介质 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN107608960B (zh) | 一种命名实体链接的方法和装置 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
WO2019160096A1 (ja) | 関係性推定モデル学習装置、方法、及びプログラム | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN110110087A (zh) | 一种基于二分类器的用于法律文本分类的特征工程方法 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN112364743A (zh) | 一种基于半监督学习和弹幕分析的视频分类方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |