CN109979458A - 基于人工智能的新闻采访稿自动生成方法及相关设备 - Google Patents
基于人工智能的新闻采访稿自动生成方法及相关设备 Download PDFInfo
- Publication number
- CN109979458A CN109979458A CN201910042813.XA CN201910042813A CN109979458A CN 109979458 A CN109979458 A CN 109979458A CN 201910042813 A CN201910042813 A CN 201910042813A CN 109979458 A CN109979458 A CN 109979458A
- Authority
- CN
- China
- Prior art keywords
- news interview
- information
- news
- recognition model
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 33
- 230000002123 temporal effect Effects 0.000 claims abstract description 68
- 230000001755 vocal effect Effects 0.000 claims description 31
- 238000003058 natural language processing Methods 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,本申请公开了一种基于人工智能的新闻采访稿自动生成方法及相关设备,所述方法包括:构建语音识别模型、声纹识别模型及人脸识别模型,并通过所述语音识别模型、声纹识别模型及人脸识别模型获取新闻采访人物信息、时间信息及新闻采访文字信息,并根据所述新闻采访人物信息、时间信息及新闻采访文字信息自动转换成新闻采访稿。本申请通过声纹识别以及人脸识别确认说话人物,并通过语音识别将所述人物的谈话内容转换成文字,与人物对应后形成采访稿,可以有效的缩短写稿时间,提升发稿速度。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种基于人工智能的新闻采访稿自动生成方法及相关设备。
背景技术
通常记者采访需要写采访稿件,需要对采访的录音进行反复听写才能写出同期声稿件。现有的语音识别产品可以解决录音转写成文字的功能,但是无法准确的定位到视频中的某人说了那些话,这样记者同样人工去需要去区分哪些人说了哪些话,识别的结果是逐句逐字识别的结果,记者也同样需要对识别的结果进行提炼和整理,耗时耗力。
发明内容
本申请的目的在于针对现有技术的不足,提供一种基于人工智能的新闻采访稿自动生成方法及相关设备,通过声纹识别以及人脸识别确认说话人物,并通过语音识别将所述人物的谈话内容转换成文字,与人物对应后形成采访稿,可以有效的缩短写稿时间,提升发稿速度。
为达到上述目的,本申请的技术方案提供一种基于人工智能的新闻采访稿自动生成方法及相关设备。
本申请公开了一种基于人工智能的新闻采访稿自动生成方法,包括以下步骤:
构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;
将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;
将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;
将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;
根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
较佳地,所述将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧,包括:
将所述音频文件输入所述语音识别模型,获得关键帧及新闻采访文字;
将所述关键帧与所述新闻采访文字进行逐一对应。
较佳地,所述将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧,包括:
将所述音频文件输入所述声纹识别模型,获得关键帧及人物信息,所述声纹识别模型包含多个人物信息的声纹库;
将所述关键帧与所述人物信息进行逐一对应。
较佳地,所述将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧,包括:
将所述视频文件输入所述人脸识别模型,获得关键帧及人物信息,所述人脸识别模型包含多个人物信息的人脸库;
将所述关键帧与所述人物信息进行逐一对应。
较佳地,所述根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,包括:
在所述第二时间信息和所述第三时间信息中查询相同的关键帧;
将所述第二时间信息中相同关键帧对应的第一人物信息与所述第三时间信息中相同关键帧对应的第二人物信息进行比对,获得新闻采访人物信息,所述新闻采访人物信息包含关键帧及与所述关键帧对应的新闻采访人物。
较佳地,所述根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿,包括:
根据所述第一时间信息获取关键帧,并根据所述关键帧在所述新闻采访人物信息中查询;
当在所述新闻采访人物信息中查询到与所述第一时间信息中相同的关键帧后,获取所述相同关键帧对应的新闻采访人物;
将所述新闻采访人物与所述相同关键帧及与所述相同关键帧对应的新闻采访文字进行对应,获得新闻采访稿。
较佳地,所述根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿之后,包括:
构建NLP自然语言处理模型,并将所述新闻采访稿输入所述NLP自然语言处理模型对所述新闻采访稿中的新闻采访文字进行语义提炼,获得提炼新闻采访稿。
本申请还公开了一种基于人工智能的新闻采访稿自动生成装置,所述装置包括:
模型构建模块:设置为构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;
第一信息获取模块:设置为将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;
第二信息获取模块:设置为将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;
第三信息获取模块:设置为将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;
稿件生成模块:设置为根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
本申请还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述所述新闻采访稿自动生成方法的步骤。
本申请还公开了一种存储介质,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述新闻采访稿自动生成方法的步骤。
本申请的有益效果是:本申请通过声纹识别以及人脸识别确认说话人物,并通过语音识别将所述人物的谈话内容转换成文字,与人物对应后形成采访稿,可以有效的缩短写稿时间,提升发稿速度。
附图说明
图1为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图2为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图3为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图4为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图5为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图6为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法的流程示意图;
图7为本申请实施例的一种基于人工智能的新闻采访稿自动生成装置结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程如图1所示,本实施例包括以下步骤:
步骤s101,构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;
具体的,首先构建语音识别模型,所述语音识别模型用于将音频文件中的语音转换成文字,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展,通过现有的人工智能技术很容易建立语音识别模型。
具体的,所述声纹识别模型用于对音频文件中的语音进行人物识别,即将语音及人物进行对应,因此事先需要对所述声纹识别模型进行训练,而训练的时候需要配置声纹库,所述声纹库中包含不同人物的声纹,在进行声纹识别的时候,就将所述音频文件中的语音与所述声纹库中的声纹进行比对,获取所述声纹对应的人物。
具体的,所述人脸识别模型用于对视频文件中的人脸进行识别,即将视频画面中的人脸与人物进行对应,因此事先也需要对所述人脸识别模型进行训练,而训练的时候需要配置人脸库,所述人脸库包含不同人物的人脸,在进行人脸识别的时候,将所述视频文件中的人脸与所述人脸库中的人脸进行比对,获取所述人脸对应的人物。
具体的,当获取到一段采访视频之后,可先将所述采访视频进行转换,由于语音识别模型、声纹识别模型及人脸识别模型需要的音频格式、视频格式和码率可能和获取的原始采访视频文件格式不同,因此需要提前转换,转换成语音识别模型、声纹识别模型及人脸识别模型匹配的音频文件格式及视频文件格式。
步骤s102,将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;
具体的,可先将所述音频文件输入所述语音识别模型,通过所述语音识别模型,可将所述音频文件中的语音转换成文字,即新闻采访文字,而在转换过程中,由于语音识别模型是根据说话人物进行段落翻译,因此每一段文字都会有一个起始时间,称之为关键帧,如果经过转换过后有多段文字,那么会有多个关键帧与所述文字进行对应。
步骤s103,将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;
具体的,可将所述音频文件输入所述声纹识别模型,通过所述声纹识别模型,可将所述音频文件中的声纹对应的人物进行识别,即找出何人在说话,由于每个人说话的声纹都是不同的,因此每个人说话都会有一个起始时间,称之为关键帧,在所述关键帧上如果发现有人说话,可以将所述人物的声纹与声纹库中的人物进行比对,找到所述人物,并记录下与所述人物对应的关键帧。
步骤s104,将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;
具体的,可将所述视频文件输入所述人脸识别模型,通过所述人脸识别模型,可将所述视频画面中人脸对应的人物进行识别,即找出何人在说话,由于视频画面中人物出现的时间不同,即每个人物出现都会有个起始时间,称之为关键帧,在所述关键帧上发现有新的人脸出现,可将所述人脸与人脸库中的人物进行比对,对所述人脸进行识别,并记录下与所述人物对应的关键帧。
步骤s105,根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
具体的,通过语音识别模型获得了各个时间点以及与各个时间点对应的新闻采访文字,所述时间点即为关键帧;通过声纹识别模型获得了各个时间点以及与各个时间点对应的人物信息;通过人脸识别模型获得了各个时间点以及各个时间点对应的人物信息;由于声纹识别模型是通过音频文件中的声纹进行识别获取的人物信息,人脸识别模型是通过视频文件中的人脸进行识别获取的人物信息,两者的识别都会有误差,因此可以将声纹识别模型中的人物信息与人脸识别模型中的人物进行比对,如果一致,则认为所述人物为正确识别的人物,即新闻采访人物,并记录下与所述新闻采访人物对应的关键帧信息。
具体的,当通过语音识别模型获取到各个时间点后,可根据所述各个时间点在所述新闻采访人物对应的关键帧信息中进行查询,如果有查到与所述新闻采访文字中各个时间点匹配的关键帧,可将所述关键帧对应的人物与所述新闻采访文字进行对应,并根据所述新闻采访文字、新闻采访人物及关键帧信息生成新闻采访稿。
本实施例中,通过声纹识别以及人脸识别确认说话人物,并通过语音识别将所述人物的谈话内容转换成文字,与人物对应后形成采访稿,可以有效的缩短写稿时间,提升发稿速度。
图2为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程示意图,如图所示,所述步骤s102,将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧,包括:
步骤s201,将所述音频文件输入所述语音识别模型,获得关键帧及新闻采访文字;
具体的,将所述音频文件输入所述语音识别模型,通过所述语音识别模型,可将所述音频文件中的语音转换成文字,即新闻采访文字,而在转换过程中,由于语音识别模型是根据说话人物进行段落翻译,因此每一段文字都会有一个起始时间,称之为关键帧。
步骤s202,将所述关键帧与所述新闻采访文字进行逐一对应。
具体的,可将所述关键帧与所述新闻采访文字进行绑定,并一一对应,即一个关键帧对应一段新闻采访文字,所述一段新闻采访文字可以是一句话,也可以是几句话,其中,同一段新闻采访文字属于同一个人物,不同的新闻采访文字可以属于同一个人物,也可以属于不同的人物。
本实施例中,通过语音识别模型可以获取新闻采访文字与时间的对应关系。
图3为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程示意图,如图所示,所述步骤s103,将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧,包括:
步骤s301,将所述音频文件输入所述声纹识别模型,获得关键帧及人物信息,所述声纹识别模型包含多个人物信息的声纹库;
具体的,可将所述音频文件输入所述声纹识别模型,所述声纹识别模型要事先经过训练,而训练的时候需要配置声纹库,所述声纹库中包含不同人物的声纹,其中,由于通常采访的都是公众人物或者知名人物,因此所述声纹库应尽可能多的包含公众人物及知名人物;而声纹对应的公众人物后者知名人物还包含个人信息,如姓名、性别、年龄、职务,在进行声纹识别的时候,就将所述音频文件中的语音与所述声纹库中的声纹进行比对,获取所述声纹对应的人物,通过所述声纹识别模型,可将所述音频文件中的声纹对应的人物进行识别,即找出何人在说话,由于每个人说话的声纹都是不同的,因此每个人说话都会有一个起始时间,称之为关键帧,在所述关键帧上如果发现有人说话,可以将所述人物的声纹与声纹库中的人物进行比对,找到所述人物,并记录下与所述人物对应的关键帧。
步骤s302,将所述关键帧与所述人物信息进行逐一对应。
具体的,当识别出人物后,可将所述人物与所述人物匹配的关键帧进行绑定,并一一对应,即一个关键帧对应一个人物。
本实施例中,通过声纹识别模型可以获取人物与时间的对应关系。
图4为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程示意图,如图所示,所述步骤s104,将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧,包括:
步骤s401,将所述视频文件输入所述人脸识别模型,获得关键帧及人物信息,所述人脸识别模型包含多个人物信息的人脸库;
具体的,可将所述视频文件输入所述人脸识别模型,所述人脸识别模型需要事先进行训练,而训练的时候需要配置人脸库,所述人脸库包含不同人物的人脸,所述人脸库中包含不同人物的人脸,其中,由于通常采访的都是公众人物或者知名人物,因此所述人脸库应尽可能多的包含公众人物及知名人物;而人脸对应的公众人物后者知名人物还包含个人信息,如姓名、性别、年龄、职务在进行人脸识别的时候,将所述视频文件中的人脸与所述人脸库中的人脸进行比对,获取所述人脸对应的人物,通过所述人脸识别模型,可将所述视频画面中人脸对应的人物进行识别,即找出何人在说话,由于视频画面中人物出现的时间不同,即每个人物出现都会有个起始时间,称之为关键帧,在所述关键帧上发现有新的人脸出现,可将所述人脸与人脸库中的人物进行比对,对所述人脸进行识别,并记录下与所述人物对应的关键帧。
步骤s402,将所述关键帧与所述人物信息进行逐一对应。
具体的,当识别出人物后,可将所述人物与所述人物匹配的关键帧进行绑定,并一一对应,即一个关键帧对应一个人物。
本实施例中,通过人脸识别模型可以获取人物与时间的对应关系。
图5为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程示意图,如图所示,所述步骤s105,根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,包括:
步骤s501,在所述第二时间信息和所述第三时间信息中查询相同的关键帧;
具体的,通过声纹识别模型获得了各个时间点以及与各个时间点对应的人物信息;通过人脸识别模型获得了各个时间点以及各个时间点对应的人物信息;由于人物出现的时间应该和说话的时间是一致的,因此可以在声纹识别模型中各个时间点和人脸识别模型中的各个时间点中查询相同的时间点。
步骤s502,将所述第二时间信息中相同关键帧对应的第一人物信息与所述第三时间信息中相同关键帧对应的第二人物信息进行比对,获得新闻采访人物信息,所述新闻采访人物信息包含关键帧及与所述关键帧对应的新闻采访人物。
具体的,由于声纹识别模型是通过音频文件中的声纹进行识别获取的人物信息,人脸识别模型是通过视频文件中的人脸进行识别获取的人物信息,两者的识别都会有误差,因此可以将声纹识别模型中的人物信息与人脸识别模型中的人物进行比对,如果一致,则认为所述人物为正确识别的人物,即新闻采访人物,并记录下与所述新闻采访人物对应的关键帧信息。
具体的,所述人物的比对包括当获取到人脸识别模型和声纹识别模型中相同的时间点后,将所述相同的时间点对应的分别在人脸识别模型和声纹识别模型中的人物信息进行比较,所述人物信息包括姓名、年龄、性别、职务。
本实施例中,通过人脸识别模型和声纹识别模型进行人物比对,获得人物信息,减少人物识别出错概率。
图6为本申请实施例的一种基于人工智能的新闻采访稿自动生成方法流程示意图,如图所示,所述步骤s105,根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿,包括:
步骤s601,根据所述第一时间信息获取关键帧,并根据所述关键帧在所述新闻采访人物信息中查询;
具体的,当通过语音识别模型进行识别后获取各个时间点,然后根据所述各个时间点在所述新闻采访人物信息中进行查询,在所述新闻采访人物信息中找到与各个时间点匹配的关键帧。
步骤s602,当在所述新闻采访人物信息中查询到与所述第一时间信息中相同的关键帧后,获取所述相同关键帧对应的新闻采访人物;
具体的,当在所述新闻采访人物信息中找到与各个时间点匹配的关键帧后,获取与所述关键帧对应的人物信息。
步骤s603,将所述新闻采访人物与所述相同关键帧及与所述相同关键帧对应的新闻采访文字进行对应,获得新闻采访稿。
具体的,当找到人物信息后,由于新闻采访文字与各个时间点对应,各个时间点与人物的关键帧对应,因此将所述各个时间点、人物及新闻采访文字对应之后,就可以生成相应的新闻采访稿了,所述新闻采访稿中,每个时间点对应一个人物和一段新闻采访文字。
本实施例中,通过人物、关键帧及新闻采访文字之间的对应关系可有效获取新闻采访稿。
在一个实施例中,所述步骤s105,根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿之后,包括:
构建NLP自然语言处理模型,并将所述新闻采访稿输入所述NLP自然语言处理模型对所述新闻采访稿中的新闻采访文字进行语义提炼,获得提炼新闻采访稿。
具体的,由于语音识别系统对音频文件转换的文字有一定的差错,因此可以通过NLP技术进行词法分析,语法分析以及篇章分析,当构建NLP自然语言处理模型之后,可将所述新闻采访稿输入所述NLP自然语言处理模型对所述新闻采访稿中的新闻采访文字进行语义提炼,获得提炼新闻采访稿。
具体的,所述词法分析包括分词、词性标注、命名实体识别和词义消岐。其中,分词指的是将汉字序列切成词序列。因为在汉语中,词是承载语义的最基本单元,分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础;词性标注是给句子中每个词性类别的任务,这里的词性类别可能是名词、动词、形容词或其他;命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。每一个命名实体都是由一个或多个词语构成。词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。
具体的,所述语法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系。依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比喻句子成分之间可以构成施事、受事、时间等关系。
具体的,所述篇章分析的目的是理解句子表达的真实语义。语义角色标注是比较成熟的浅层语义分析技术,给定句子中的一个谓词,语义角色标注的任务就是从句子中标注出这个谓词的施事、受事、时间、地点等参数。
本实施例中,通过NLP对新闻采访稿的文字进行语义提炼,可提高文稿的质量。
本申请实施例的一种基于人工智能的新闻采访稿自动生成装置结构如图7所示,包括:
模型构建模块701、第一信息获取模块702、第二信息获取模块703、第三信息获取模块704及稿件生成模块705;其中,模型构建模块701与第一信息获取模块702相连,第一信息获取模块702与第二信息获取模块703相连,第二信息获取模块703与第三信息获取模块704相连,第三信息获取模块704与稿件生成模块705相连;模型构建模块701设置为构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;第一信息获取模块702设置为将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;第二信息获取模块703设置为将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;第三信息获取模块704第三信息获取模块:设置为将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;稿件生成模块705设置为根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
本申请实施例还公开了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行上述各实施例中所述新闻采访稿自动生成方法中的步骤。
本申请实施例还公开了一种存储介质,所述存储介质可被处理器读写,所述存储器存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中所述新闻采访稿自动生成方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于人工智能的新闻采访稿自动生成方法,其特征在于,包括以下步骤:
构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;
将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;
将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;
将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;
根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
2.如权利要求1所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧,包括:
将所述音频文件输入所述语音识别模型,获得关键帧及新闻采访文字;
将所述关键帧与所述新闻采访文字进行逐一对应。
3.如权利要求1所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧,包括:
将所述音频文件输入所述声纹识别模型,获得关键帧及人物信息,所述声纹识别模型包含多个人物信息的声纹库;
将所述关键帧与所述人物信息进行逐一对应。
4.如权利要求1所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧,包括:
将所述视频文件输入所述人脸识别模型,获得关键帧及人物信息,所述人脸识别模型包含多个人物信息的人脸库;
将所述关键帧与所述人物信息进行逐一对应。
5.如权利要求1所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,包括:
在所述第二时间信息和所述第三时间信息中查询相同的关键帧;
将所述第二时间信息中相同关键帧对应的第一人物信息与所述第三时间信息中相同关键帧对应的第二人物信息进行比对,获得新闻采访人物信息,所述新闻采访人物信息包含关键帧及与所述关键帧对应的新闻采访人物。
6.如权利要求5所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿,包括:
根据所述第一时间信息获取关键帧,并根据所述关键帧在所述新闻采访人物信息中查询;
当在所述新闻采访人物信息中查询到与所述第一时间信息中相同的关键帧后,获取所述相同关键帧对应的新闻采访人物;
将所述新闻采访人物与所述相同关键帧及与所述相同关键帧对应的新闻采访文字进行对应,获得新闻采访稿。
7.如权利要求1所述的基于人工智能的新闻采访稿自动生成方法,其特征在于,所述根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿之后,包括:
构建NLP自然语言处理模型,并将所述新闻采访稿输入所述NLP自然语言处理模型对所述新闻采访稿中的新闻采访文字进行语义提炼,获得提炼新闻采访稿。
8.一种基于人工智能的新闻采访稿自动生成装置,其特征在于,所述装置包括:
模型构建模块:设置为构建语音识别模型、声纹识别模型及人脸识别模型,获取新闻采访视频,并将所述新闻采访视频根据语音识别模型、声纹识别模型及人脸识别模型的文件格式和码率进行转换,获得音频文件和视频文件;
第一信息获取模块:设置为将所述音频文件输入所述语音识别模型,获得第一时间信息及新闻采访文字,所述第一时间信息包含一个或多个关键帧;
第二信息获取模块:设置为将所述音频文件输入所述声纹识别模型,获得第二时间信息及第一人物信息,所述第二时间信息包含一个或多个关键帧;
第三信息获取模块:设置为将所述视频文件输入所述人脸识别模型,获得第三时间信息及第二人物信息,所述第三时间信息包含一个或多个关键帧;
稿件生成模块:设置为根据所述第二时间信息、第三时间信息、第一人物信息及第二人物信息,获得新闻采访人物信息,并根据所述新闻采访人物信息、新闻采访文字及第一时间信息获得新闻采访稿。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被一个或多个所述处理器执行时,使得一个或多个所述处理器执行如权利要求1至7中任一项所述新闻采访稿自动生成方法的步骤。
10.一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有计算机指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述新闻采访稿自动生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042813.XA CN109979458A (zh) | 2019-01-17 | 2019-01-17 | 基于人工智能的新闻采访稿自动生成方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910042813.XA CN109979458A (zh) | 2019-01-17 | 2019-01-17 | 基于人工智能的新闻采访稿自动生成方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109979458A true CN109979458A (zh) | 2019-07-05 |
Family
ID=67076657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910042813.XA Pending CN109979458A (zh) | 2019-01-17 | 2019-01-17 | 基于人工智能的新闻采访稿自动生成方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417825A (zh) * | 2020-11-20 | 2021-02-26 | 广州欢网科技有限责任公司 | 一种新闻稿撰写辅助系统 |
CN115083428A (zh) * | 2022-05-30 | 2022-09-20 | 湖南中周至尚信息技术有限公司 | 一种新闻播报辅助用语音模型识别装置及其控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
CN105975466A (zh) * | 2015-11-04 | 2016-09-28 | 新华通讯社 | 一种面向短新闻的机器写稿方法及装置 |
CN106033339A (zh) * | 2015-03-13 | 2016-10-19 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN107609045A (zh) * | 2017-08-17 | 2018-01-19 | 深圳壹秘科技有限公司 | 一种会议记录生成装置及其方法 |
CN108986826A (zh) * | 2018-08-14 | 2018-12-11 | 中国平安人寿保险股份有限公司 | 自动生成会议记录的方法、电子装置及可读存储介质 |
-
2019
- 2019-01-17 CN CN201910042813.XA patent/CN109979458A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033339A (zh) * | 2015-03-13 | 2016-10-19 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105975466A (zh) * | 2015-11-04 | 2016-09-28 | 新华通讯社 | 一种面向短新闻的机器写稿方法及装置 |
CN105912526A (zh) * | 2016-04-15 | 2016-08-31 | 北京大学 | 一种面向体育比赛直播文字的体育新闻自动构建方法及装置 |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN107609045A (zh) * | 2017-08-17 | 2018-01-19 | 深圳壹秘科技有限公司 | 一种会议记录生成装置及其方法 |
CN108986826A (zh) * | 2018-08-14 | 2018-12-11 | 中国平安人寿保险股份有限公司 | 自动生成会议记录的方法、电子装置及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417825A (zh) * | 2020-11-20 | 2021-02-26 | 广州欢网科技有限责任公司 | 一种新闻稿撰写辅助系统 |
CN115083428A (zh) * | 2022-05-30 | 2022-09-20 | 湖南中周至尚信息技术有限公司 | 一种新闻播报辅助用语音模型识别装置及其控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Automated scoring of nonnative speech using the speechrater sm v. 5.0 engine | |
Waibel et al. | Advances in automatic meeting record creation and access | |
Schneider | Investigating historical variation and change in written documents | |
Douglas-Cowie et al. | Emotional speech: Towards a new generation of databases | |
KR102041621B1 (ko) | 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법 | |
Batliner et al. | Segmenting into adequate units for automatic recognition of emotion‐related episodes: a speech‐based approach | |
Mello | „Methodological issues for spontaneous speech corpora compilation “ | |
Ganji et al. | IITG-HingCoS corpus: A Hinglish code-switching database for automatic speech recognition | |
Newman | The level of detail in infants' word learning | |
Sapru et al. | Automatic recognition of emergent social roles in small group interactions | |
Moisio et al. | Lahjoita puhetta: a large-scale corpus of spoken Finnish with some benchmarks | |
Schultz et al. | The ISL meeting room system | |
US20220188525A1 (en) | Dynamic, real-time collaboration enhancement | |
US20230163988A1 (en) | Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant | |
Lefevre et al. | Leveraging study of robustness and portability of spoken language understanding systems across languages and domains: the PORTMEDIA corpora | |
CN116686045A (zh) | 在没有完整转录本的情况下的端到端口语理解 | |
Cho et al. | Kosp2e: Korean speech to english translation corpus | |
CN109979458A (zh) | 基于人工智能的新闻采访稿自动生成方法及相关设备 | |
US20210264812A1 (en) | Language learning system and method | |
Candido Junior et al. | CORAA ASR: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese | |
Meylan et al. | Evaluating models of robust word recognition with serial reproduction | |
Mišković et al. | Hybrid methodological approach to context-dependent speech recognition | |
CN116504223A (zh) | 语音翻译方法及装置、电子设备、存储介质 | |
БАРКОВСЬКА | Performance study of the text analysis module in the proposed model of automatic speaker’s speech annotation | |
Bharti et al. | An approach for audio/text summary generation from webinars/online meetings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |