CN111931775B - 自动获取新闻标题方法、系统、计算机设备及存储介质 - Google Patents
自动获取新闻标题方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111931775B CN111931775B CN202011036604.3A CN202011036604A CN111931775B CN 111931775 B CN111931775 B CN 111931775B CN 202011036604 A CN202011036604 A CN 202011036604A CN 111931775 B CN111931775 B CN 111931775B
- Authority
- CN
- China
- Prior art keywords
- text
- news
- title
- information
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012015 optical character recognition Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 102100032202 Cornulin Human genes 0.000 claims 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种自动获取新闻标题方法、系统、计算机设备及存储介质,利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题。本发明对于提取不同类型的新闻标题都有很好的效果,同时不用进行人工标记制作模板等人工辅助操作,因此可以大大节约人工成本,在新闻标题提取的工作中具有较为深远的意义。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种自动获取新闻标题方法、系统、计算机设备及存储介质。
背景技术
近年来,电视新闻类节目在快速发展和扩大,电视新闻类也随着电视的普及逐渐替代纸质类新闻成为人们获取新闻的第一途径。其中新闻标题作为新闻的高度概括和主题精华可以作为视频片断的内容标识和索引,对于理解新闻的内容具有重要的意义,而人工识别新闻标题费时费力,因此新闻标题自动定位、提取和识别为相应视频流进行高级语义标注、建立视频数据库和智能检索,提供了一种切实可行和有效的途径。也成为新闻检索和新闻自动拆条任务的主要工具。
新闻场景OCR(Optical Character Recognition,光学字符识别)识别方法采用了分两步完成文本识别:
第一步为利用PSENET(Progressive Scale Expansion Network,渐进式规模扩张网络)实现新闻画面中文本检测工作,利用渐进式尺度扩展网络的形状鲁棒文本检测。
第二步在文本检测结果的基础上利用CRNN(Convolutional Recurrent NeuralNetwork,卷积递归神经网络)算法实现文本框中的文本识别工作。
然而,在实际工程应用中,光是得到新闻场景中OCR识别结果还无法准确的区分出新闻的标题。主要原因是新闻中存在滚动字幕,以及新闻标题等多种类别的文字,单是使用位置信息和文本信息无法做到,对标题做到很好的提取,若是粗暴的利用模板和位置信息确定标题,则更换一条新闻就需要更换一次模板和位置阈值,这样的方法反而增加了人力成本依然是不可取的。
发明内容
为了解决上述问题,本发明提出一种自动获取新闻标题方法、系统、计算机设备及存储介质,利用OCR技术获取新闻字符框和字符框中的文字,再利用字符框和字符框中文字,配合BERT实体抽取中文字特征去除非标题文本,从而自动获取新闻标题,该方法适用于广播电视新闻自动拆条、新闻检索等任务。
本发明的一种自动获取新闻标题方法,利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题。
进一步的,包括以下步骤:
步骤1:对整档新闻进行OCR识别工作,利用PSENET对新闻单帧图片进行文本检测,得到文本框后利用CRNN对文本框中文本进行识别,识别完成后记录文本框信息以及文本信息;
步骤2:根据整档新闻的OCR结果,以及新闻标题具有多帧在同样位置且文本信息相同的特点,先对单行的文本位置进行聚类工作,利用每个文本框相近位置文本框的出现与消失,将整档新闻切割成多个文本框组成的文本shot;
步骤3:利用CRNN识别的文字信息,根据每个文本shot中文本信息是否相同,将每个文本shot分为是否为标题待选文本,其中文本信息相同的为标题待选文本,文本信息不同的列为非标题文本;
步骤4:利用BERT和LSTM配合CRF对标题待选文本进行实体识别,当抽取到文本实体中有非标题信息时,判断该文本信息为非标题文本将其筛出,最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。
进一步的,步骤1包括以下子步骤:
首先从某个电视频道的新闻节目中获取视频,将视频按照每隔预设帧数解码一次,解码成图片;对解码后图片中新闻字幕位置进行OCR识别,先用PSENET对图片进行文本检测,然后根据PSENET得到的文本框,利用CRNN对单行文本框中的文本进行识别,得到结果存储到列表或数据库中,存储为文本框以及对应的文本内容和帧号;重复此步骤,直到整个视频识别完毕。
进一步的,步骤2包括以下子步骤:
步骤201:先根据文本框的坐标信息,求出每个文本框的高度和宽度,然后计算出所有文本框的均值和方差,然后通过式(1)和式(2),利用高度和宽度滤除掉不符合规范的文本框;然后计算每个文本框的面积,若是大于所有文本框的面积的均值与方差的差值,则留下该文本框;否则滤除该文本框,同时滤除掉空的文本检测框;
log2(w*h)>filter_threshold 式(1)
log2(w)>width_mean 式(2)
其中,w为文本框的宽度,h为文本框的高度,filter_threshold为文本框面积阈值,width_mean为所有文本框宽度的均值;
步骤202:将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点,并将文本框坐标点以及宽高的误差设置在预设像素内,然后利用聚类,将所有文本框聚类为多个文本shot,每一个文本shot作为一个标题备选;
步骤203:步骤202中得到的文本shot中,若只有1帧图像,则删除该文本shot。
进一步的,步骤3包括以下子步骤:
步骤301:将每个文本shot中,每帧图片相近位置的文本框进行聚类,聚类依据为文本框的左上角坐标以及文本框的高度和宽度;
步骤302:利用CRNN识别文本框中的文字,然后利用字符串相似性比较,设置相似性阈值;若文本shot中同一类文本框中每一帧文本shot之间相似性均大于相似性阈值,且此类文本框的帧个数等于整个文本shot中帧数量时,取此时对应的文本为标题待选文本;
步骤303:将生成的标题待选文本根据文本框的左上角坐标,按照顺序将多行文本排序,组成标题;
步骤304:采用语言模型中的困惑度来判断组成的标题是否通顺,困惑度越小,标题是通顺的概率越大,困惑度的计算方法如下:
其中,PP(W)为困惑度,ω 1 ω 2...ω N 为单个字,P(ω 1 ω 2...ω N )为整句困惑度,N为单字下标;
设置困惑度的阈值,并筛除困惑度低于阈值的标题,得到待选标题以及标题的文本shot入出点帧号。
进一步的,步骤4包括以下子步骤:
步骤401:将待选标题通过BERT转换为向量形式,作为LSTM输入;
步骤402:利用新闻文本数据及训练实体识别模型,将向量形式的待选标题输入LSTM网络中,预测出每个字嵌入是非标题信息实体的概率,将结果保存;
步骤403:将步骤401生成的字词向量作为CRF模型的输入,输出待选标题中每个单元的标签,结合步骤402的结果给出每个字的标签;
步骤405:根据生成的标签,若句中出现非标题信息实体,将对应待选标题删除,得到最终待选标题;
步骤406:根据每条新闻的入出点信息与文本shot的入出点信息,当文本shot的入出点所在时间点为新闻入出点所在时间点的子集时,判断此时待选标题为当前新闻的标题。
进一步的,所述非标题信息包括人名、地名、职务和机构。
本发明的一种自动获取新闻标题系统,包括:
识别及预选模块,用于利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;
筛除及确定模块,用于利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题。
本发明的一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述自动获取新闻标题方法的步骤。
本发明的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述自动获取新闻标题方法的步骤。
本发明的有益效果在于:
本发明了基于OCR位置信息和文本信息配合文本变化以及实体抽取筛查,可实现自动获取新闻标题。本发明先对新闻进行OCR识别,通过对文本框位置和内容进行聚类,确定标题候选,再利用BERT实体抽取技术对OCR文本进行实体抽取,将人名、地名和职务等非标题信息进行筛除,最后利用每条新闻入出点信息得到最终标题结果。本发明对于提取不同类型的新闻标题都有很好的效果,同时不用进行人工标记制作模板等人工辅助操作,因此可以大大节约人工成本,在新闻标题提取的工作中具有较为深远的意义。
本发明可从新闻节目入出点信息,获得新闻标题,并且得到标题的出入点信息;可以利用标题以及标题的出入点信息,确定新闻在整档新闻的位置,以及新闻的重要性,同时本发明不用人为标记模板等参数,对于体育、娱乐和政治等多档新闻均可以很好的做到自动提取标题的效果。自动获取标题后可以将标题信息进行归档,在后期检索和查询时,可以快速定位新闻的位置,了解新闻内容。
附图说明
图1为本发明的自动获取新闻标题方法流程示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明涉及的相关术语说明如下:
OCR:Optical Character Recognition,光学字符识别;
PSENET:Progressive Scale Expansion Network,渐进式规模扩张网络;
CRNN:Convolutional Recurrent Neural Network,卷积递归神经网络;
BERT:Bidirectional Encoder Representation from Transformers,一种预训练的语言表征模型;
LSTM:Long Short-Term Memory,长短时记忆网络;
CRF:Conditional Random Field,条件随机场。
如图1所示,本发明提供了一种自动获取新闻标题方法,利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息(例如:人名、地名、职务和机构),最后根据单条新闻入出点信息确定新闻标题。具体的,包括以下步骤:
步骤1:对整档新闻进行OCR识别工作,利用PSENET对新闻单帧图片进行文本检测,得到文本框后利用CRNN对文本框中文本进行识别,识别完成后记录文本框信息以及文本信息;
步骤2:根据整档新闻的OCR结果,以及新闻标题具有多帧在同样位置且文本信息相同的特点,先对单行的文本位置进行聚类工作,利用每个文本框相近位置文本框的出现与消失,将整档新闻切割成多个文本框组成的文本shot;
步骤3:利用CRNN识别的文字信息,根据每个文本shot中文本信息是否相同,将每个文本shot分为是否为标题待选文本,其中文本信息相同的为标题待选文本,文本信息不同的列为非标题文本;
步骤4:利用BERT和LSTM配合CRF对标题待选文本进行实体识别,当抽取到文本实体中有非标题信息时,判断该文本信息为非标题文本将其筛出,最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。
在本发明的一个优选实施例中,步骤1包括以下子步骤:
首先从某个电视频道的新闻节目中获取视频,将视频按照每隔预设帧数(例如10帧)解码一次,解码成图片。由于新闻字幕均出现在视频的下三分之二以下的位置,因此为了减少干扰以及提高识别速度,可选择仅对解码后图片的下三分之二位置进行OCR识别,先用PSENET对图片进行文本检测(PSENET检测的都是横向单行文本),然后根据PSENET得到的文本框,利用CRNN对单行文本框中的文本进行识别,得到结果存储到列表或数据库中,存储为文本框以及对应的文本内容和帧号;重复上述操作,直到整个视频识别完毕。
在本发明的一个优选实施例中,步骤2包括以下子步骤:
步骤201:由于标题字幕具有字本身滚动字幕字体大的特点,且PSENET生成的文本框中会有一些冗余样本,因此需要去掉较小和冗余文本框,先根据文本框的坐标信息,求出每个文本框的高度和宽度,然后计算出所有文本框的均值和方差,然后通过式(1)和式(2),利用高度和宽度滤除掉不符合规范的文本框;然后计算每个文本框的面积,若是大于所有文本框的面积的均值与方差的差值,则留下该文本框;否则滤除该文本框,同时滤除掉空的文本检测框;
log2(w*h)>filter_threshold 式(1)
log2(w)>width_mean 式(2)
其中,w为文本框的宽度,h为文本框的高度,filter_threshold为文本框面积阈值,width_mean为所有文本框宽度的均值;
步骤202:步骤201中滤除掉了不符合规范的文本框后得到新的文本框,由于标题文本有连续出现且位置不变的特点,其对应文本框也会连续帧中连续出现,当同一位置文本框消失时,标题也就随之消失,因此将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点,由于文本检测框每个之间有偏差,因此将文本框坐标点以及宽高的误差设置在预设像素(例如5个像素)内,然后利用聚类,将所有文本框聚类为多个文本shot,每一个文本shot作为一个标题备选;
步骤203:步骤202中得到的文本shot中,若只有1帧图像,则删除该文本shot。
在本发明的一个优选实施例中,步骤3包括以下子步骤:
步骤301:在步骤2中生成的文本shot,存在只有单个文本框和多个文本框的情况,而标题位置,只会出现在同一位置文本框中,因此将每个文本shot中,每帧图片相近位置的文本框进行聚类,聚类依据为文本框的左上角坐标以及文本框的高度和宽度;
步骤302:步骤301中将每个文本shot中各个位置的文本框完成了聚类,由于标题文字具有同一文本shot,同一位置的内容具有一致性,因此利用CRNN识别文本框中的文字,然后利用字符串相似性比较,设置相似性阈值(例如将相似性阈值设置为0.8);若文本shot中同一类文本框中每一帧文本shot之间相似性均大于相似性阈值,且此类文本框的帧个数等于整个文本shot中帧数量时,取此时对应的文本为标题待选文本;
步骤303:由于步骤302中生成的文本标题待选文本为单行文本,但是部分新闻标题会为多行,将生成的标题待选文本根据文本框的左上角坐标,按照顺序(例如从左至右,从上到下的顺序)将多行文本排序,组成标题;
步骤304:采用语言模型中的困惑度(perplexity)来判断组成的标题是否通顺,困惑度的基本思想是:给测试集的句子赋予较高概率值的语言模型较好:当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好,语言模型越好,困惑度越小,标题是通顺的概率越大,困惑度的计算方法如下:
其中,PP(W)为困惑度,ω 1 ω 2...ω N 为单个字,P(ω 1 ω 2...ω N )为整句困惑度,N为单字下标;
设置困惑度的阈值,并筛除困惑度低于阈值的标题,得到待选标题以及标题的文本shot入出点帧号。
在本发明的一个优选实施例中,步骤4包括以下子步骤:
步骤401:在步骤3中,生成了待选标题,待选标题中的每一个字单元都代表着由字嵌入的向量;其中,字嵌入是随机初始化的,所有的嵌入在训练过程中都会调整到最优,因此将待选标题通过BERT转换为向量形式,作为LSTM输入;
步骤402:利用新闻文本数据及训练实体识别模型,将向量形式的待选标题输入LSTM网络中,预测出每个字嵌入是非标题信息实体的概率,将结果保存;
步骤403:将步骤401生成的字词向量作为CRF模型的输入,输出的是待选标题中每个单元的标签,结合步骤402的结果给出每个字的标签;
步骤405:根据生成的标签,若该句中出现非标题信息实体,将对应待选标题删除,得到最终待选标题;
步骤406:根据每条新闻的入出点信息与文本shot的入出点信息,当文本shot的入出点所在时间点为新闻入出点所在时间点的子集时,判断此时待选标题为当前新闻的标题。
相应的,本发明提供了一种自动获取新闻标题系统,包括:
识别及预选模块,用于利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;
筛除及确定模块,用于利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题。
此外,本发明提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述自动获取新闻标题方法的步骤。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述自动获取新闻标题方法的步骤。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种自动获取新闻标题方法,其特征在于,利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题;包括以下步骤:
步骤1:对整档新闻进行OCR识别工作,利用PSENET对新闻单帧图片进行文本检测,得到文本框后利用CRNN对文本框中文本进行识别,识别完成后记录文本框信息以及文本信息;
步骤2:根据整档新闻的OCR结果,以及新闻标题具有多帧在同样位置且文本信息相同的特点,先对单行的文本位置进行聚类工作,利用每个文本框相近位置文本框的出现与消失,将整档新闻切割成多个文本框组成的文本shot;
步骤3:利用CRNN识别的文字信息,根据每个文本shot中文本信息是否相同,将每个文本shot分为是否为标题待选文本,其中文本信息相同的为标题待选文本,文本信息不同的列为非标题文本;
步骤4:利用BERT和LSTM配合CRF对标题待选文本进行实体识别,当抽取到文本实体中有非标题信息时,判断该文本信息为非标题文本将其筛出,最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。
2.根据权利要求1所述的一种自动获取新闻标题方法,其特征在于,步骤1包括以下子步骤:
首先从某个电视频道的新闻节目中获取视频,将视频按照每隔预设帧数解码一次,解码成图片;对解码后图片中新闻字幕位置进行OCR识别,先用PSENET对图片进行文本检测,然后根据PSENET得到的文本框,利用CRNN对单行文本框中的文本进行识别,得到结果存储到列表或数据库中,存储为文本框以及对应的文本内容和帧号;重复此步骤,直到整个视频识别完毕。
3.根据权利要求2所述的一种自动获取新闻标题方法,其特征在于,步骤2包括以下子步骤:
步骤201:先根据文本框的坐标信息,求出每个文本框的高度和宽度,然后计算出所有文本框的均值和方差,然后通过式(1)和式(2),利用高度和宽度滤除掉不符合规范的文本框;然后计算每个文本框的面积,若是大于所有文本框的面积的均值与方差的差值,则留下该文本框;否则滤除该文本框,同时滤除掉空的文本检测框;
log2(w*h)>filter_threshold 式(1)
log2(w)>width_mean 式(2)
其中,w为文本框的宽度,h为文本框的高度,filter_threshold为文本框面积阈值,width_mean为所有文本框宽度的均值;
步骤202:将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点,并将文本框坐标点以及宽高的误差设置在预设像素内,然后利用聚类,将所有文本框聚类为多个文本shot,每一个文本shot作为一个标题备选;
步骤203:步骤202中得到的文本shot中,若只有1帧图像,则删除该文本shot。
4.根据权利要求3所述的一种自动获取新闻标题方法,其特征在于,步骤3包括以下子步骤:
步骤301:将每个文本shot中,每帧图片相近位置的文本框进行聚类,聚类依据为文本框的左上角坐标以及文本框的高度和宽度;
步骤302:利用CRNN识别文本框中的文字,然后利用字符串相似性比较,设置相似性阈值;若文本shot中同一类文本框中每一帧文本shot之间相似性均大于相似性阈值,且此类文本框的帧个数等于整个文本shot中帧数量时,取此时对应的文本为标题待选文本;
步骤303:将生成的标题待选文本根据文本框的左上角坐标,按照顺序将多行文本排序,组成标题;
步骤304:采用语言模型中的困惑度来判断组成的标题是否通顺,困惑度越小,标题是通顺的概率越大,困惑度的计算方法如下:
其中,PP(W)为困惑度,ω 1 ω 2...ω N 为单个字,P(ω 1 ω 2...ω N )为整句困惑度,N为单字下标;
设置困惑度的阈值,并筛除困惑度低于阈值的标题,得到待选标题以及标题的文本shot入出点帧号。
5.根据权利要求4所述的一种自动获取新闻标题方法,其特征在于,步骤4包括以下子步骤:
步骤401:将待选标题通过BERT转换为向量形式,作为LSTM输入;
步骤402:利用新闻文本数据及训练实体识别模型,将向量形式的待选标题输入LSTM网络中,预测出每个字嵌入是非标题信息实体的概率,将结果保存;
步骤403:将步骤401生成的字词向量结果作为CRF模型的输入,输出待选标题中每个单元的标签,结合步骤402的结果给出每个字的标签;
步骤405:根据生成的标签,若句中出现非标题信息实体,将对应待选标题删除,得到最终待选标题;
步骤406:根据每条新闻的入出点信息与文本shot的入出点信息,当文本shot的入出点所在时间点为新闻入出点所在时间点的子集时,判断此时待选标题为当前新闻的标题。
6.根据权利要求1-5任一项所述的一种自动获取新闻标题方法,其特征在于,所述非标题信息包括人名、地名、职务和机构。
7.一种基于权利要求1所述的自动获取新闻标题方法的系统,其特征在于,包括:
识别及预选模块,用于利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息,采用文本框聚类和字符相似度比较的方法确定待选标题;
筛除及确定模块,用于利用BERT和LSTM配合CRF提取文本信息的实体,通过实体识别结果筛除非标题信息,最后根据单条新闻入出点信息确定新闻标题。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036604.3A CN111931775B (zh) | 2020-09-28 | 2020-09-28 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036604.3A CN111931775B (zh) | 2020-09-28 | 2020-09-28 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931775A CN111931775A (zh) | 2020-11-13 |
CN111931775B true CN111931775B (zh) | 2021-01-08 |
Family
ID=73334255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036604.3A Active CN111931775B (zh) | 2020-09-28 | 2020-09-28 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931775B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418215A (zh) * | 2020-11-17 | 2021-02-26 | 峰米(北京)科技有限公司 | 一种视频分类识别方法、装置、存储介质和设备 |
CN113033338B (zh) * | 2021-03-09 | 2024-03-29 | 太极计算机股份有限公司 | 电子报头版头条新闻位置识别方法及装置 |
CN112766246A (zh) * | 2021-04-09 | 2021-05-07 | 上海旻浦科技有限公司 | 基于深度学习的文档标题识别方法、系统、终端及介质 |
CN113435438B (zh) * | 2021-06-28 | 2023-05-05 | 中国兵器装备集团自动化研究所有限公司 | 一种图像和字幕融合的视频报幕板提取及视频切分方法 |
CN113792545B (zh) * | 2021-11-16 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN113807085B (zh) * | 2021-11-19 | 2022-03-04 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的标题字幕提取方法 |
CN114222193B (zh) * | 2021-12-03 | 2024-01-05 | 北京影谱科技股份有限公司 | 一种视频字幕时间对齐模型训练方法及系统 |
CN113920507B (zh) * | 2021-12-13 | 2022-04-12 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的滚动字幕提取方法 |
CN116363667B (zh) * | 2023-04-26 | 2023-10-13 | 公安部信息通信中心 | 一种聚合文件主题识别与归类系统 |
CN116320622B (zh) * | 2023-05-17 | 2023-08-18 | 成都索贝数码科技股份有限公司 | 一种广播电视新闻视频转图文稿制作系统和制作方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103051923A (zh) * | 2013-02-04 | 2013-04-17 | 成都索贝数码科技股份有限公司 | 一种用于高速准确拆条的镜头检测方法 |
CN106162330A (zh) * | 2016-07-27 | 2016-11-23 | 成都索贝数码科技股份有限公司 | 一种在视频画面中提取字幕区域的方法 |
CN108108733A (zh) * | 2017-12-19 | 2018-06-01 | 北京奇艺世纪科技有限公司 | 一种新闻字幕检测方法及装置 |
CN108256508A (zh) * | 2018-02-28 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种新闻主副标题检测方法及装置 |
CN110012349A (zh) * | 2019-06-04 | 2019-07-12 | 成都索贝数码科技股份有限公司 | 一种端到端的新闻节目结构化方法及其结构化框架体系 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10943176B2 (en) * | 2017-03-22 | 2021-03-09 | Ebay Inc. | Visual aspect localization presentation |
CN108304498B (zh) * | 2018-01-12 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 网页数据采集方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-28 CN CN202011036604.3A patent/CN111931775B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103051923A (zh) * | 2013-02-04 | 2013-04-17 | 成都索贝数码科技股份有限公司 | 一种用于高速准确拆条的镜头检测方法 |
CN106162330A (zh) * | 2016-07-27 | 2016-11-23 | 成都索贝数码科技股份有限公司 | 一种在视频画面中提取字幕区域的方法 |
CN108108733A (zh) * | 2017-12-19 | 2018-06-01 | 北京奇艺世纪科技有限公司 | 一种新闻字幕检测方法及装置 |
CN108256508A (zh) * | 2018-02-28 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种新闻主副标题检测方法及装置 |
CN110012349A (zh) * | 2019-06-04 | 2019-07-12 | 成都索贝数码科技股份有限公司 | 一种端到端的新闻节目结构化方法及其结构化框架体系 |
CN110852087A (zh) * | 2019-09-23 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 中文纠错方法和装置、存储介质及电子装置 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111242083A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
Non-Patent Citations (2)
Title |
---|
Transfer Learning for Named Entity Recognition in Financial and Biomedical Documents;Sumam Francis等;《Information 2019》;20190726;第10卷(第248期);1-17 * |
一种快速新闻视频标题字幕探测与定位方法;刘海涛等;《计算机应用研究》;20110815;第28卷(第8期);正文第1节 * |
Also Published As
Publication number | Publication date |
---|---|
CN111931775A (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931775B (zh) | 自动获取新闻标题方法、系统、计算机设备及存储介质 | |
CN110245259B (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
CN106354861B (zh) | 电影标签自动标引方法及自动标引系统 | |
CN103761261B (zh) | 一种基于语音识别的媒体搜索方法及装置 | |
CN111753120B (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN112231522B (zh) | 一种在线课程知识树的生成关联方法 | |
CN113435438B (zh) | 一种图像和字幕融合的视频报幕板提取及视频切分方法 | |
Yang et al. | MIDI passage retrieval using cell phone pictures of sheet music | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
CN114359943A (zh) | Ofd版式文档段落识别方法及装置 | |
US20150356353A1 (en) | Method for identifying objects in an audiovisual document and corresponding device | |
CN111709324A (zh) | 一种基于时空一致性的新闻视频拆条方法 | |
KR100243350B1 (ko) | 뉴스 비디오 자막 추출 및 인식 방법 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
Haloi et al. | Unsupervised story segmentation and indexing of broadcast news video | |
CN115438223A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN112818984B (zh) | 标题生成方法、装置、电子设备和存储介质 | |
CN115661834A (zh) | 一种多功能数据检索系统及方法 | |
CN109034040B (zh) | 一种基于演员表的人物识别方法、装置、设备和介质 | |
KR101911613B1 (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 | |
CN117809061B (zh) | 基于aigc的视频素材匹配方法 | |
CN113807085B (zh) | 一种针对新闻场景的标题字幕提取方法 | |
CN117194818B (zh) | 基于视频的图文网页生成方法及装置 | |
CN111597906B (zh) | 一种结合文字信息的快速绘本识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |