CN112861540A - 基于深度学习的广播电视新闻关键词自动抽取方法 - Google Patents
基于深度学习的广播电视新闻关键词自动抽取方法 Download PDFInfo
- Publication number
- CN112861540A CN112861540A CN202110445476.6A CN202110445476A CN112861540A CN 112861540 A CN112861540 A CN 112861540A CN 202110445476 A CN202110445476 A CN 202110445476A CN 112861540 A CN112861540 A CN 112861540A
- Authority
- CN
- China
- Prior art keywords
- keyword
- word
- keywords
- broadcast television
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果等;本发明能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。
Description
技术领域
本发明涉及广播电视新闻媒资自动标引领域,更为具体的,涉及基于深度学习的广播电视新闻关键词自动抽取方法。
背景技术
融合媒体时代,爆炸式增长的视频数据给媒体资源的再利用带来了巨大的挑战,节目的编目、标引的实时性要求相应变得更高。利用大数据和人工智能技术,对媒体内容进行多个维度的自动分类、标识、标引,实现媒体资源本身的内容标签的自动提取,提升编目质量和工作效率具有重要意义。这是媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目的支撑基础。
在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关。我们分析了相关视频内容数据以及专业人员给出的关键词结果,发现关键词并非是词而可能是词、短语或多字,如十二五计划、三农问题、新型冠状病毒、三公消费禁令、高端白酒等。现有的依赖于分词的模型(如TextRank、TF-IDF等)无法获得这样的词汇;另一方面,因为这些关键词并无一定的语言特点,所以即便通过添加分词词库也无法完全覆盖。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻关键词自动抽取方法,能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
进一步地,在步骤S1中,构建关键词数据集包括步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;清洗包括:首先利用实体识别技术识别新闻文本数据中的实体,并从候选关键词中去除实体词;去除过长或过短的关键词以及未在原文中出现的关键词。这样,可以去除无意义和冗余的关键词,使得后续训练模型中能够更好识别有意义的关键词的特征,从而使得训练出的模型可以更好地提取有意义的关键词。
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建所述关键词数据集。在该实施例的技术方案中,考虑到模型有字数限制,长篇文章会被模型截断,如果截断位置在某句中那么可能造成语义不完整,如果是其他情况则丢弃了有用样本,所以采用先对广播电视新闻文本数据进行分句和段落汇聚后,再进行文本标注。
进一步地,在步骤S2中,所述关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
进一步地,所述文本向量化层采用经过预训练的BERT层,将文本序列变换为向量序列;其中,表示输入的文
本序列,表示经过文本向量层编码后的文本向量序列,n表示输入文本序列的总字符数。在
该实施方式中,借助BERT的强大语言表征能力,可以获得更好的字符级别语义嵌入表达。
进一步地,第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵和遗忘门矩阵的偏置参数,记忆门矩阵和记忆门矩阵的偏置参数,输出门矩阵和输出门矩阵的偏置参数,状态相关矩
阵和状态相关矩阵的偏置参数;将参数分别用于每个字向量,获得高阶字语义向量,即:
其中,分别为当前字的前一个字输入LSTM单元后获得的细胞状态以
及字语义向量,为状态相关矩阵,为第t个字的字向量,为细胞单元状态更新值,
为当前字输入LSTM单元后获得的细胞状态,为激活函数,为当前字输入LSTM单元
后获得的字语义向量遗忘权重,记忆权重以及输出值为:
其中,LSTM表示长短记忆神经网络,表示高阶字语义向量,为激活函
数,为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,、、向
量,向量的每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
在该实施方案中,第二关键词序列标注层为CRF层。相较于步骤S22,经过CRF后可以学到一些类似句子开头应该是“B-”或者“O”而不是“I-”的标签的约束,从而减少获得错误的预测序列的结果,保证最终预测结果尽可能准确有效。
进一步地,在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
进一步地,在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,为过滤对关键词抽取无关的内容,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;这样可以避免模型对文本截断造成的信息丢失和语义不完整。
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;这样利用标签的约束限制,可以获得更正确的关键词预测结果。
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。关键词抽取模型抽取的结果中可能依旧含有冗余和无意义的词,所以后处理非常必要。经过这样的处理最后将后处理完获得的关键词结果提供给用户。
进一步地,在S31中,所述数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
本发明的有益效果包括:
本发明能够对广播电视新闻内容进行高效的关键词提取,可作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法之一,为更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1所示,基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
实施例2
在实施例1的基础上,对步骤S1中构建关键词数据集执行如下步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;清洗包括:首先利用实体识别技术识别新闻文本数据中的实体,并从候选关键词中去除实体词;去除过长或过短的关键词以及未在原文中出现的关键词。这样,可以去除无意义和冗余的关键词,使得后续训练模型中能够更好识别有意义的关键词的特征,从而使得训练出的模型可以更好地提取有意义的关键词。
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建关键词数据集。在该实施例的技术方案中,考虑到模型有字数限制,长篇文章会被模型截断,如果截断位置在某句中那么可能造成语义不完整,如果是其他情况则丢弃了有用样本,所以采用先对广播电视新闻文本数据进行分句和段落汇聚后,再进行文本标注。
实施例3
在实施例1的基础上,在步骤S2中,关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
文本向量化层采用经过预训练的BERT层,将文本序列
变换为向量序列;其中,表示输入的文本序列,表示经过文本向
量层编码后的文本向量序列,n表示输入文本序列的总字符数。在该实施方式中,借助BERT
的强大语言表征能力,可以获得更好的字符级别语义嵌入表达。
第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵和遗忘门矩阵的偏置参数,记忆门矩阵和
记忆门矩阵的偏置参数,输出门矩阵和输出门矩阵的偏置参数,状态相关矩阵
和状态相关矩阵的偏置参数;将参数分别用于每个字向量,获得高阶字语义向量,
即:
其中,分别为当前字的前一个字输入LSTM单元后获得的细胞状态以
及字语义向量,为状态相关矩阵,为第t个字的字向量,为细胞单元状态更新值,
为当前字输入LSTM单元后获得的细胞状态,为激活函数,为当前字输入LSTM单元
后获得的字语义向量,遗忘权重,记忆权重以及输出值为:
其中,LSTM表示长短记忆神经网络,表示高阶字语义向量,为激活函
数,为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,、、向
量,向量的每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
在该实施方案中,第二关键词序列标注层为CRF层。相较于步骤S22,经过CRF后可以学到一些类似句子开头应该是“B-”或者“O”而不是“I-”的标签的约束,从而减少获得错误的预测序列的结果,保证最终预测结果尽可能准确有效。
在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,为过滤对关键词抽取无关的内容,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;这样可以避免模型对文本截断造成的信息丢失和语义不完整。
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;这样利用标签的约束限制,可以获得更正确的关键词预测结果。
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。关键词抽取模型抽取的结果中可能依旧含有冗余和无意义的词,所以后处理非常必要。经过这样的处理最后将后处理完获得的关键词结果提供给用户。
在S31中,数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。
Claims (8)
1.基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
2.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S1中,构建关键词数据集包括步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建所述关键词数据集。
3.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S2中,所述关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
5.根据权利要求3所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵和遗忘门矩阵的偏置参数,记忆门矩阵和
记忆门矩阵的偏置参数,输出门矩阵和输出门矩阵的偏置参数,状态相关矩阵
和状态相关矩阵的偏置参数;将参数分别用于每个字向量,获得高阶字语义向量,
即:
其中,分别为当前字的前一个字输入LSTM单元后获得的细胞状态以及字
语义向量,为状态相关矩阵,为第t个字的字向量,为细胞单元状态更新值,为当
前字输入LSTM单元后获得的细胞状态,为激活函数,为当前字输入LSTM单元后获得
的字语义向量;遗忘权重,记忆权重以及输出值为:
其中,LSTM为长短记忆神经网络,表示高阶字语义向量,为激活函数,
为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,、、向量,向量的
每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
6.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
7.根据权利要求1~6任一所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。
8.根据权利要求7所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在S31中,所述数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445476.6A CN112861540A (zh) | 2021-04-25 | 2021-04-25 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445476.6A CN112861540A (zh) | 2021-04-25 | 2021-04-25 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861540A true CN112861540A (zh) | 2021-05-28 |
Family
ID=75992804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110445476.6A Pending CN112861540A (zh) | 2021-04-25 | 2021-04-25 | 基于深度学习的广播电视新闻关键词自动抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861540A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204698A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN114299934A (zh) * | 2021-12-31 | 2022-04-08 | 阿基米德(上海)传媒有限公司 | 一种抽取广播音频节目名称/频率名称的方法、系统 |
CN114510560A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习的商品关键信息抽取方法及存储介质 |
CN115392241A (zh) * | 2022-08-14 | 2022-11-25 | 南京视察者智能科技有限公司 | 一种基于预训练模型的政务案例关键词自动标注方法 |
CN115688788A (zh) * | 2022-11-09 | 2023-02-03 | 北京至臻云智能科技有限公司 | 用于审计领域的命名实体识别模型的训练方法及相关设备 |
CN116152711A (zh) * | 2022-08-25 | 2023-05-23 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117933380A (zh) * | 2024-01-31 | 2024-04-26 | 国网江苏省电力有限公司南通供电分公司 | 一种电力行业科研知识抽取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN111914539A (zh) * | 2020-07-31 | 2020-11-10 | 长江航道测量中心 | 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统 |
CN112036178A (zh) * | 2020-08-25 | 2020-12-04 | 国家电网有限公司 | 一种配网实体相关的语义搜索方法 |
CN112163089A (zh) * | 2020-09-24 | 2021-01-01 | 中国电子科技集团公司第十五研究所 | 一种融合命名实体识别的军事高技术文本分类方法及系统 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
-
2021
- 2021-04-25 CN CN202110445476.6A patent/CN112861540A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN111914539A (zh) * | 2020-07-31 | 2020-11-10 | 长江航道测量中心 | 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统 |
CN112036178A (zh) * | 2020-08-25 | 2020-12-04 | 国家电网有限公司 | 一种配网实体相关的语义搜索方法 |
CN112163089A (zh) * | 2020-09-24 | 2021-01-01 | 中国电子科技集团公司第十五研究所 | 一种融合命名实体识别的军事高技术文本分类方法及系统 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
Non-Patent Citations (3)
Title |
---|
尚荣华,焦李成 等: "《人工智能前沿技术丛书 计算智能导论》", 30 September 2019, 西安电子科技大学出版社 * |
梁兆君 等: ""基于BERT模型的增强混合神经网络的谣言检测"", 《计算机应用与软件》 * |
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018, 北京理工大学出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204698A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN113204698B (zh) * | 2021-05-31 | 2023-12-26 | 平安科技(深圳)有限公司 | 新闻主题词生成方法、装置、设备及介质 |
CN114299934A (zh) * | 2021-12-31 | 2022-04-08 | 阿基米德(上海)传媒有限公司 | 一种抽取广播音频节目名称/频率名称的方法、系统 |
CN114510560A (zh) * | 2022-01-27 | 2022-05-17 | 福建博思软件股份有限公司 | 一种基于深度学习的商品关键信息抽取方法及存储介质 |
CN115392241A (zh) * | 2022-08-14 | 2022-11-25 | 南京视察者智能科技有限公司 | 一种基于预训练模型的政务案例关键词自动标注方法 |
CN116152711A (zh) * | 2022-08-25 | 2023-05-23 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
CN116152711B (zh) * | 2022-08-25 | 2024-03-22 | 北京凯利时科技有限公司 | 基于多模态的导播方法和系统以及计算机程序产品 |
CN115688788A (zh) * | 2022-11-09 | 2023-02-03 | 北京至臻云智能科技有限公司 | 用于审计领域的命名实体识别模型的训练方法及相关设备 |
CN117351324A (zh) * | 2023-12-04 | 2024-01-05 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117351324B (zh) * | 2023-12-04 | 2024-03-01 | 支付宝(杭州)信息技术有限公司 | 通过神经网络模型进行文档图像处理的方法及装置 |
CN117933380A (zh) * | 2024-01-31 | 2024-04-26 | 国网江苏省电力有限公司南通供电分公司 | 一种电力行业科研知识抽取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861540A (zh) | 基于深度学习的广播电视新闻关键词自动抽取方法 | |
CN110110054B (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111274394A (zh) | 一种实体关系的抽取方法、装置、设备及存储介质 | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN117076693A (zh) | 一种数字人教师多模态大语言模型预训练学科语料库的构建方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN115906835A (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN115292533A (zh) | 视觉定位驱动的跨模态行人检索方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN113312903A (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
CN113220824A (zh) | 数据检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210528 |
|
RJ01 | Rejection of invention patent application after publication |