CN112861540A - 基于深度学习的广播电视新闻关键词自动抽取方法 - Google Patents

基于深度学习的广播电视新闻关键词自动抽取方法 Download PDF

Info

Publication number
CN112861540A
CN112861540A CN202110445476.6A CN202110445476A CN112861540A CN 112861540 A CN112861540 A CN 112861540A CN 202110445476 A CN202110445476 A CN 202110445476A CN 112861540 A CN112861540 A CN 112861540A
Authority
CN
China
Prior art keywords
keyword
word
keywords
broadcast television
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110445476.6A
Other languages
English (en)
Inventor
温序铭
朱婷婷
杨瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sobei Video Cloud Computing Co ltd
Original Assignee
Chengdu Sobei Video Cloud Computing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sobei Video Cloud Computing Co ltd filed Critical Chengdu Sobei Video Cloud Computing Co ltd
Priority to CN202110445476.6A priority Critical patent/CN112861540A/zh
Publication of CN112861540A publication Critical patent/CN112861540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果等;本发明能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。

Description

基于深度学习的广播电视新闻关键词自动抽取方法
技术领域
本发明涉及广播电视新闻媒资自动标引领域,更为具体的,涉及基于深度学习的广播电视新闻关键词自动抽取方法。
背景技术
融合媒体时代,爆炸式增长的视频数据给媒体资源的再利用带来了巨大的挑战,节目的编目、标引的实时性要求相应变得更高。利用大数据和人工智能技术,对媒体内容进行多个维度的自动分类、标识、标引,实现媒体资源本身的内容标签的自动提取,提升编目质量和工作效率具有重要意义。这是媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目的支撑基础。
在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关。我们分析了相关视频内容数据以及专业人员给出的关键词结果,发现关键词并非是词而可能是词、短语或多字,如十二五计划、三农问题、新型冠状病毒、三公消费禁令、高端白酒等。现有的依赖于分词的模型(如TextRank、TF-IDF等)无法获得这样的词汇;另一方面,因为这些关键词并无一定的语言特点,所以即便通过添加分词词库也无法完全覆盖。
发明内容
本发明的目的在于克服现有技术的不足,提供基于深度学习的广播电视新闻关键词自动抽取方法,能够对广播电视新闻内容进行高效的关键词提取,更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持等。
本发明的目的是通过以下方案实现的:
基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
进一步地,在步骤S1中,构建关键词数据集包括步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;清洗包括:首先利用实体识别技术识别新闻文本数据中的实体,并从候选关键词中去除实体词;去除过长或过短的关键词以及未在原文中出现的关键词。这样,可以去除无意义和冗余的关键词,使得后续训练模型中能够更好识别有意义的关键词的特征,从而使得训练出的模型可以更好地提取有意义的关键词。
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建所述关键词数据集。在该实施例的技术方案中,考虑到模型有字数限制,长篇文章会被模型截断,如果截断位置在某句中那么可能造成语义不完整,如果是其他情况则丢弃了有用样本,所以采用先对广播电视新闻文本数据进行分句和段落汇聚后,再进行文本标注。
进一步地,在步骤S2中,所述关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
进一步地,所述文本向量化层采用经过预训练的BERT层,将文本序列
Figure 476188DEST_PATH_IMAGE001
变换为向量序列
Figure 949895DEST_PATH_IMAGE002
;其中,
Figure 921918DEST_PATH_IMAGE003
表示输入的文 本序列,
Figure 139272DEST_PATH_IMAGE004
表示经过文本向量层编码后的文本向量序列,n表示输入文本序列的总字符数。在 该实施方式中,借助BERT的强大语言表征能力,可以获得更好的字符级别语义嵌入表达。
进一步地,第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵
Figure 877421DEST_PATH_IMAGE005
和遗忘门矩阵的偏置参数
Figure 522029DEST_PATH_IMAGE006
,记忆门矩阵
Figure 978418DEST_PATH_IMAGE007
和记忆门矩阵的偏置参数
Figure 733885DEST_PATH_IMAGE008
,输出门矩阵
Figure 592119DEST_PATH_IMAGE009
和输出门矩阵的偏置参数
Figure 142049DEST_PATH_IMAGE010
,状态相关矩 阵
Figure 85735DEST_PATH_IMAGE011
和状态相关矩阵的偏置参数
Figure 644892DEST_PATH_IMAGE012
;将参数分别用于每个字向量
Figure 357633DEST_PATH_IMAGE013
,获得高阶字语义向量
Figure 344044DEST_PATH_IMAGE014
,即:
Figure 509446DEST_PATH_IMAGE015
Figure 606715DEST_PATH_IMAGE016
Figure 173962DEST_PATH_IMAGE017
其中,
Figure 331274DEST_PATH_IMAGE018
分别为当前字的前一个字输入LSTM单元后获得的细胞状态以 及字语义向量,
Figure 986902DEST_PATH_IMAGE019
为状态相关矩阵,
Figure 887862DEST_PATH_IMAGE020
为第t个字的字向量,
Figure 575195DEST_PATH_IMAGE021
为细胞单元状态更新值,
Figure 903408DEST_PATH_IMAGE022
为当前字输入LSTM单元后获得的细胞状态,
Figure 43403DEST_PATH_IMAGE023
为激活函数,
Figure 482474DEST_PATH_IMAGE014
为当前字输入LSTM单元 后获得的字语义向量
Figure 24314DEST_PATH_IMAGE024
遗忘权重
Figure 523429DEST_PATH_IMAGE025
,记忆权重
Figure 150719DEST_PATH_IMAGE026
以及输出值
Figure 393481DEST_PATH_IMAGE027
为:
Figure 789828DEST_PATH_IMAGE028
Figure 459844DEST_PATH_IMAGE029
Figure 574430DEST_PATH_IMAGE030
其中,LSTM表示长短记忆神经网络,
Figure 620883DEST_PATH_IMAGE014
表示高阶字语义向量,
Figure 871736DEST_PATH_IMAGE031
为激活函 数,
Figure 712653DEST_PATH_IMAGE032
为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,
Figure 305747DEST_PATH_IMAGE025
Figure 890312DEST_PATH_IMAGE033
Figure 57988DEST_PATH_IMAGE034
向 量,向量的每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
在该实施方案中,可以获得涵盖了文本信息这样全局的语义信息,从而能够获得 更高阶的字语义向量
Figure 69806DEST_PATH_IMAGE014
S22,同步骤S21方式定义后向LSTM后,每个字向量
Figure 158985DEST_PATH_IMAGE013
通过后向LSTM获得更高阶的 字语义向量
Figure 281662DEST_PATH_IMAGE035
,联合
Figure 507107DEST_PATH_IMAGE014
获得捕获了上下文语义的更高阶的语义字向量
Figure 955406DEST_PATH_IMAGE036
S23,定义关键词语义矩阵
Figure 266301DEST_PATH_IMAGE037
和关系语义偏置参数
Figure 192669DEST_PATH_IMAGE038
,结合Softmax函数计算每个 字对应每个标签的概率
Figure 538200DEST_PATH_IMAGE039
Figure 891821DEST_PATH_IMAGE040
其中,
Figure 690013DEST_PATH_IMAGE039
为第t个字对应每个标签的概率向量,
Figure 420071DEST_PATH_IMAGE041
为第t个字的高阶语义向量;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
Figure 620108DEST_PATH_IMAGE042
其中,
Figure 147560DEST_PATH_IMAGE043
Figure 433048DEST_PATH_IMAGE044
分别表示经过第二关键词序列标注层后第1、2、n个字对应每个 标签的概率向量,
Figure 701218DEST_PATH_IMAGE045
表示条件随机场算法,
Figure 755762DEST_PATH_IMAGE046
分别表示经过第一关键词预测 层后获得的第1、2、n个字对应每个标签的概率向量。
在该实施方案中,第二关键词序列标注层为CRF层。相较于步骤S22,经过CRF后可以学到一些类似句子开头应该是“B-”或者“O”而不是“I-”的标签的约束,从而减少获得错误的预测序列的结果,保证最终预测结果尽可能准确有效。
进一步地,在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
进一步地,在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,为过滤对关键词抽取无关的内容,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;这样可以避免模型对文本截断造成的信息丢失和语义不完整。
S32,对每个文段进行分字获得字序列
Figure 716765DEST_PATH_IMAGE047
,并将其输入文本向量化 层,获得每个字的字向量
Figure 489549DEST_PATH_IMAGE013
,这里
Figure 295831DEST_PATH_IMAGE048
为待分析内容长度,
Figure 470460DEST_PATH_IMAGE049
Figure 336785DEST_PATH_IMAGE013
分别代表第
Figure 596865DEST_PATH_IMAGE050
个字和其对应字 向量;
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;这样利用标签的约束限制,可以获得更正确的关键词预测结果。
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。关键词抽取模型抽取的结果中可能依旧含有冗余和无意义的词,所以后处理非常必要。经过这样的处理最后将后处理完获得的关键词结果提供给用户。
进一步地,在S31中,所述数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
本发明的有益效果包括:
本发明能够对广播电视新闻内容进行高效的关键词提取,可作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法之一,为更准确地组织和管理媒体资源,提高管理效率,更好地为用户的检索与推荐发布服务提供技术支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1所示,基于深度学习的广播电视新闻关键词自动抽取方法,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
实施例2
在实施例1的基础上,对步骤S1中构建关键词数据集执行如下步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;清洗包括:首先利用实体识别技术识别新闻文本数据中的实体,并从候选关键词中去除实体词;去除过长或过短的关键词以及未在原文中出现的关键词。这样,可以去除无意义和冗余的关键词,使得后续训练模型中能够更好识别有意义的关键词的特征,从而使得训练出的模型可以更好地提取有意义的关键词。
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建关键词数据集。在该实施例的技术方案中,考虑到模型有字数限制,长篇文章会被模型截断,如果截断位置在某句中那么可能造成语义不完整,如果是其他情况则丢弃了有用样本,所以采用先对广播电视新闻文本数据进行分句和段落汇聚后,再进行文本标注。
实施例3
在实施例1的基础上,在步骤S2中,关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
文本向量化层采用经过预训练的BERT层,将文本序列
Figure 206838DEST_PATH_IMAGE001
变换为向量序列
Figure 235974DEST_PATH_IMAGE002
;其中,
Figure 538779DEST_PATH_IMAGE003
表示输入的文本序列,
Figure 20576DEST_PATH_IMAGE004
表示经过文本向 量层编码后的文本向量序列,n表示输入文本序列的总字符数。在该实施方式中,借助BERT 的强大语言表征能力,可以获得更好的字符级别语义嵌入表达。
第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵和遗忘门矩阵的偏置参数
Figure 434240DEST_PATH_IMAGE006
,记忆门矩阵
Figure 317882DEST_PATH_IMAGE007
和 记忆门矩阵的偏置参数
Figure 794519DEST_PATH_IMAGE008
,输出门矩阵
Figure 763612DEST_PATH_IMAGE009
和输出门矩阵的偏置参数
Figure 715387DEST_PATH_IMAGE010
,状态相关矩阵
Figure 719115DEST_PATH_IMAGE011
和状态相关矩阵的偏置参数
Figure 363723DEST_PATH_IMAGE012
;将参数分别用于每个字向量
Figure 820112DEST_PATH_IMAGE013
,获得高阶字语义向量
Figure 575579DEST_PATH_IMAGE014
, 即:
Figure 168234DEST_PATH_IMAGE051
Figure 983743DEST_PATH_IMAGE016
Figure 927429DEST_PATH_IMAGE052
其中,
Figure 486586DEST_PATH_IMAGE018
分别为当前字的前一个字输入LSTM单元后获得的细胞状态以 及字语义向量,
Figure 199327DEST_PATH_IMAGE019
为状态相关矩阵,
Figure 920158DEST_PATH_IMAGE020
为第t个字的字向量,
Figure 351140DEST_PATH_IMAGE021
为细胞单元状态更新值,
Figure 448409DEST_PATH_IMAGE022
为当前字输入LSTM单元后获得的细胞状态,
Figure 281235DEST_PATH_IMAGE023
为激活函数,
Figure 300532DEST_PATH_IMAGE014
为当前字输入LSTM单元 后获得的字语义向量,遗忘权重
Figure 218809DEST_PATH_IMAGE053
,记忆权重
Figure 854190DEST_PATH_IMAGE054
以及输出值
Figure 275944DEST_PATH_IMAGE055
为:
Figure 604157DEST_PATH_IMAGE028
Figure 744151DEST_PATH_IMAGE056
Figure 245540DEST_PATH_IMAGE030
其中,LSTM表示长短记忆神经网络,
Figure 787379DEST_PATH_IMAGE057
表示高阶字语义向量,
Figure 286494DEST_PATH_IMAGE058
为激活函 数,
Figure 913784DEST_PATH_IMAGE059
为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,
Figure 156547DEST_PATH_IMAGE053
Figure 567542DEST_PATH_IMAGE060
Figure 237557DEST_PATH_IMAGE061
向 量,向量的每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
在该实施方案中,可以获得涵盖了文本信息这样全局的语义信息,从而能够获得 更高阶的字语义向量
Figure 352144DEST_PATH_IMAGE057
S22,同步骤S21方式定义后向LSTM后,每个字向量
Figure 867439DEST_PATH_IMAGE062
通过后向LSTM获得更高阶的 字语义向量
Figure 649450DEST_PATH_IMAGE063
,联合获得捕获了上下文语义的更高阶的语义字向量
Figure 224788DEST_PATH_IMAGE064
S23,定义关键词语义矩阵
Figure 826670DEST_PATH_IMAGE065
和关系语义偏置参数
Figure 411236DEST_PATH_IMAGE066
,结合Softmax函数计算每个 字对应每个标签的概率
Figure 782174DEST_PATH_IMAGE067
Figure 793992DEST_PATH_IMAGE068
其中,
Figure 883171DEST_PATH_IMAGE067
为第t个字对应每个标签的概率向量,
Figure 5848DEST_PATH_IMAGE069
为第t个字的高阶语义向量;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
Figure 496872DEST_PATH_IMAGE042
其中,
Figure 679592DEST_PATH_IMAGE070
、分别表示经过第二关键词序列标注层后第1、2、n个字对应每个标 签的概率向量,表示条件随机场算法,
Figure 256067DEST_PATH_IMAGE071
分别表示经过第一关键词预测层后获 得的第1、2、n个字对应每个标签的概率向量。
在该实施方案中,第二关键词序列标注层为CRF层。相较于步骤S22,经过CRF后可以学到一些类似句子开头应该是“B-”或者“O”而不是“I-”的标签的约束,从而减少获得错误的预测序列的结果,保证最终预测结果尽可能准确有效。
在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,为过滤对关键词抽取无关的内容,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;这样可以避免模型对文本截断造成的信息丢失和语义不完整。
S32,对每个文段进行分字获得字序列
Figure 182434DEST_PATH_IMAGE072
,并将其输入文本向量化 层,获得每个字的字向量
Figure 265315DEST_PATH_IMAGE062
,这里为待分析内容长度,
Figure 884516DEST_PATH_IMAGE073
Figure 682707DEST_PATH_IMAGE062
分别代表第
Figure 412766DEST_PATH_IMAGE050
个字和其对应字向 量;
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;这样利用标签的约束限制,可以获得更正确的关键词预测结果。
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。关键词抽取模型抽取的结果中可能依旧含有冗余和无意义的词,所以后处理非常必要。经过这样的处理最后将后处理完获得的关键词结果提供给用户。
在S31中,数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

Claims (8)

1.基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,包括步骤:
S1,标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
S2,利用预训练模型构建关键词抽取模型,并利用步骤S1中所述关键词数据集训练所构建的关键词抽取模型;
S3,利用步骤S2中训练好的关键词抽取模型,对输入的广播电视新闻进行预测,获得关键词抽取结果。
2.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S1中,构建关键词数据集包括步骤:
S11,收集广播电视新闻数据,并将相关专业人员给出的关键词结果作为候选关键词;然后对候选关键词进行清洗,去除无意义和冗余的关键词,获得最终关键词结果;
S12,对广播电视新闻文本数据进行分句和段落汇聚后,根据步骤S11中获得的最终关键词结果,利用字符串模式匹配方式对带标注文本进行标注,这里标注时标注标签包括B-KWD、I-KWD和O,B-KWD表示关键词开始部分,I-KWD表示关键词中间部分,O表示非关键词部分,从而构建所述关键词数据集。
3.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S2中,所述关键词抽取模型按串联顺序包括文本向量化层、第一关键词预测层和第二关键词序列标注层。
4.根据权利要求3所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征 在于,所述文本向量化层采用经过预训练的BERT层,将文本序列
Figure 434687DEST_PATH_IMAGE001
变换为向量序列
Figure 290035DEST_PATH_IMAGE002
;其中,
Figure 513206DEST_PATH_IMAGE003
表示输入的文本序列,
Figure 46956DEST_PATH_IMAGE004
表示经过文本向 量层编码后的文本向量序列,n表示输入文本序列的总字符数。
5.根据权利要求3所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,第一关键词预测层的构建过程如下:
S21,对前向LSTM,定义遗忘门矩阵
Figure 163816DEST_PATH_IMAGE005
和遗忘门矩阵的偏置参数
Figure 62502DEST_PATH_IMAGE006
,记忆门矩阵
Figure 897603DEST_PATH_IMAGE007
和 记忆门矩阵的偏置参数
Figure 907147DEST_PATH_IMAGE008
,输出门矩阵
Figure 144094DEST_PATH_IMAGE009
和输出门矩阵的偏置参数
Figure 948102DEST_PATH_IMAGE010
,状态相关矩阵
Figure 270499DEST_PATH_IMAGE011
和状态相关矩阵的偏置参数
Figure 818155DEST_PATH_IMAGE012
;将参数分别用于每个字向量
Figure 909607DEST_PATH_IMAGE013
,获得高阶字语义向量
Figure 884517DEST_PATH_IMAGE014
, 即:
Figure 428630DEST_PATH_IMAGE015
Figure 779977DEST_PATH_IMAGE016
Figure 728866DEST_PATH_IMAGE017
其中,
Figure 405835DEST_PATH_IMAGE018
分别为当前字的前一个字输入LSTM单元后获得的细胞状态以及字 语义向量,
Figure 171666DEST_PATH_IMAGE019
为状态相关矩阵,
Figure 61125DEST_PATH_IMAGE020
为第t个字的字向量,
Figure 127170DEST_PATH_IMAGE021
为细胞单元状态更新值,
Figure 443881DEST_PATH_IMAGE022
为当 前字输入LSTM单元后获得的细胞状态,
Figure 962587DEST_PATH_IMAGE023
为激活函数,
Figure 655737DEST_PATH_IMAGE014
为当前字输入LSTM单元后获得 的字语义向量;遗忘权重
Figure 576288DEST_PATH_IMAGE024
,记忆权重
Figure 329481DEST_PATH_IMAGE025
以及输出值
Figure 335483DEST_PATH_IMAGE026
为:
Figure 566744DEST_PATH_IMAGE027
其中,LSTM为长短记忆神经网络,
Figure 341802DEST_PATH_IMAGE028
表示高阶字语义向量,
Figure 265896DEST_PATH_IMAGE029
为激活函数,
Figure 759194DEST_PATH_IMAGE030
为当前字的前一个字输入LSTM单元后获得的高阶字语义向量,
Figure 794146DEST_PATH_IMAGE024
Figure 426640DEST_PATH_IMAGE031
Figure 521635DEST_PATH_IMAGE032
向量,向量的 每个元素均位于[0,1]范围内,分别表示遗忘权重、输入权重、输出权重;
S22,同步骤S21方式定义后向LSTM后,每个字向量
Figure 502230DEST_PATH_IMAGE033
通过后向LSTM获得更高阶的字语义 向量
Figure 75293DEST_PATH_IMAGE034
,联合
Figure 824943DEST_PATH_IMAGE028
获得捕获了上下文语义的更高阶的语义字向量
Figure 90840DEST_PATH_IMAGE035
S23,定义关键词语义矩阵
Figure 293151DEST_PATH_IMAGE036
和关系语义偏置参数
Figure 935485DEST_PATH_IMAGE037
,结合Softmax函数计算每个字对 应每个标签的概率
Figure 539642DEST_PATH_IMAGE038
Figure 976439DEST_PATH_IMAGE039
其中,
Figure 666046DEST_PATH_IMAGE038
为第t个字对应每个标签的概率向量,
Figure 580913DEST_PATH_IMAGE040
为第t个字的高阶语义向量;
S24,将步骤S23当中的结果送入第二关键词序列标注层中获得最终的序列标注结果,即:
Figure 305155DEST_PATH_IMAGE041
其中,
Figure 912854DEST_PATH_IMAGE042
Figure 89758DEST_PATH_IMAGE043
分别表示经过第二关键词序列标注层后第1、2、n个字对应每个标签 的概率向量,
Figure 808315DEST_PATH_IMAGE044
表示条件随机场算法,
Figure 59168DEST_PATH_IMAGE045
分别表示经过第一关键词预测层后 获得的第1、2、n个字对应每个标签的概率向量。
6.根据权利要求1所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S2中,训练关键词抽取模型均采用批梯度下降算法,且关键词抽取模型损失函数采用极大似然函数取负对数。
7.根据权利要求1~6任一所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在步骤S3中,包括如下步骤:
S31,获取电视新闻视频的语音识别结果或者新闻文稿,对输入的广播电视新闻数据进行数据清洗,然后对清洗后的剩余文本进行句子分割,将句子进行整合成多个文段;
S32,对每个文段进行分字获得字序列
Figure 156875DEST_PATH_IMAGE046
,并将其输入文本向量化层,获 得每个字的字向量
Figure 821074DEST_PATH_IMAGE033
,这里
Figure 343323DEST_PATH_IMAGE047
为待分析内容长度,
Figure 42157DEST_PATH_IMAGE048
Figure 726079DEST_PATH_IMAGE033
分别代表第
Figure 877575DEST_PATH_IMAGE049
个字和其对应字向量;
S33,将向量化结果输入第一关键词预测层,获得每个字对应每个标签的概率;每个字对应每个标签的概率输入第二关键词序列标注层获得最终的预测序列结果,根据预测序列结果提取出其中的关键词;这里序列标注中单独的B-KWD对应的字,以及以B-KWD开始多个连续I-KWD紧跟的子序列对应的字块儿均为候选关键词;
S34,对获得的候选关键词进行后处理,包括:(1)去除无实际意义但出现频率又较高的结果;(2)去除冗余关键词,去除重复关键词,对存在包含关系的关键词保留其中较长的关键词;(3)进行标点拆分,如果关键词中间存在如“、”的分割类标点符号,那么则将关键词按标点符号拆分为多个结果;(4)去除超过设定字长范围上下限的关键词;(5)利用困惑度计算算法去除不通顺的关键词。
8.根据权利要求7所述的基于深度学习的广播电视新闻关键词自动抽取方法,其特征在于,在S31中,所述数据清洗包括对输入的广播电视新闻数据进行去除同期声的数据清洗工作。
CN202110445476.6A 2021-04-25 2021-04-25 基于深度学习的广播电视新闻关键词自动抽取方法 Pending CN112861540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110445476.6A CN112861540A (zh) 2021-04-25 2021-04-25 基于深度学习的广播电视新闻关键词自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110445476.6A CN112861540A (zh) 2021-04-25 2021-04-25 基于深度学习的广播电视新闻关键词自动抽取方法

Publications (1)

Publication Number Publication Date
CN112861540A true CN112861540A (zh) 2021-05-28

Family

ID=75992804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110445476.6A Pending CN112861540A (zh) 2021-04-25 2021-04-25 基于深度学习的广播电视新闻关键词自动抽取方法

Country Status (1)

Country Link
CN (1) CN112861540A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN114299934A (zh) * 2021-12-31 2022-04-08 阿基米德(上海)传媒有限公司 一种抽取广播音频节目名称/频率名称的方法、系统
CN114510560A (zh) * 2022-01-27 2022-05-17 福建博思软件股份有限公司 一种基于深度学习的商品关键信息抽取方法及存储介质
CN115392241A (zh) * 2022-08-14 2022-11-25 南京视察者智能科技有限公司 一种基于预训练模型的政务案例关键词自动标注方法
CN115688788A (zh) * 2022-11-09 2023-02-03 北京至臻云智能科技有限公司 用于审计领域的命名实体识别模型的训练方法及相关设备
CN116152711A (zh) * 2022-08-25 2023-05-23 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品
CN117351324A (zh) * 2023-12-04 2024-01-05 支付宝(杭州)信息技术有限公司 通过神经网络模型进行文档图像处理的方法及装置
CN117933380A (zh) * 2024-01-31 2024-04-26 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN112036178A (zh) * 2020-08-25 2020-12-04 国家电网有限公司 一种配网实体相关的语义搜索方法
CN112163089A (zh) * 2020-09-24 2021-01-01 中国电子科技集团公司第十五研究所 一种融合命名实体识别的军事高技术文本分类方法及系统
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614614A (zh) * 2018-12-03 2019-04-12 焦点科技股份有限公司 一种基于自注意力的bilstm-crf产品名称识别方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN112036178A (zh) * 2020-08-25 2020-12-04 国家电网有限公司 一种配网实体相关的语义搜索方法
CN112163089A (zh) * 2020-09-24 2021-01-01 中国电子科技集团公司第十五研究所 一种融合命名实体识别的军事高技术文本分类方法及系统
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尚荣华,焦李成 等: "《人工智能前沿技术丛书 计算智能导论》", 30 September 2019, 西安电子科技大学出版社 *
梁兆君 等: ""基于BERT模型的增强混合神经网络的谣言检测"", 《计算机应用与软件》 *
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018, 北京理工大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113204698B (zh) * 2021-05-31 2023-12-26 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN114299934A (zh) * 2021-12-31 2022-04-08 阿基米德(上海)传媒有限公司 一种抽取广播音频节目名称/频率名称的方法、系统
CN114510560A (zh) * 2022-01-27 2022-05-17 福建博思软件股份有限公司 一种基于深度学习的商品关键信息抽取方法及存储介质
CN115392241A (zh) * 2022-08-14 2022-11-25 南京视察者智能科技有限公司 一种基于预训练模型的政务案例关键词自动标注方法
CN116152711A (zh) * 2022-08-25 2023-05-23 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品
CN116152711B (zh) * 2022-08-25 2024-03-22 北京凯利时科技有限公司 基于多模态的导播方法和系统以及计算机程序产品
CN115688788A (zh) * 2022-11-09 2023-02-03 北京至臻云智能科技有限公司 用于审计领域的命名实体识别模型的训练方法及相关设备
CN117351324A (zh) * 2023-12-04 2024-01-05 支付宝(杭州)信息技术有限公司 通过神经网络模型进行文档图像处理的方法及装置
CN117351324B (zh) * 2023-12-04 2024-03-01 支付宝(杭州)信息技术有限公司 通过神经网络模型进行文档图像处理的方法及装置
CN117933380A (zh) * 2024-01-31 2024-04-26 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统

Similar Documents

Publication Publication Date Title
CN112861540A (zh) 基于深度学习的广播电视新闻关键词自动抽取方法
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111274394A (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113821605A (zh) 一种事件抽取方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN115906835A (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统
CN113220824A (zh) 数据检索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528

RJ01 Rejection of invention patent application after publication