CN111506770B - 一种采访视频集锦生成方法和系统 - Google Patents

一种采访视频集锦生成方法和系统 Download PDF

Info

Publication number
CN111506770B
CN111506770B CN202010321662.4A CN202010321662A CN111506770B CN 111506770 B CN111506770 B CN 111506770B CN 202010321662 A CN202010321662 A CN 202010321662A CN 111506770 B CN111506770 B CN 111506770B
Authority
CN
China
Prior art keywords
interview
module
keywords
video
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010321662.4A
Other languages
English (en)
Other versions
CN111506770A (zh
Inventor
王灿进
王敏
杨新钰
徐常亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202010321662.4A priority Critical patent/CN111506770B/zh
Publication of CN111506770A publication Critical patent/CN111506770A/zh
Application granted granted Critical
Publication of CN111506770B publication Critical patent/CN111506770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种采访视频集锦生成方法和系统,所述方法包括如下步骤:预建立至少一个对象知识图谱;根据场景位置构建至少一环境知识库;根据所述对象知识图谱和/或环境知识库内容进行采访问答;获取采访问答的音视频信息,并对采访问答的音视频信息进行处理。本发明提供的采访视频集锦生成方法和系统可提高采访视频集锦的生产效率,构建环境知识库和利用关键词匹配环境知识库的方法可提高采访话题的关联性、互动性;图文解释等可视化显示提高采访的体验效果。

Description

一种采访视频集锦生成方法和系统
技术领域
本发明涉及一种视频生成方法和系统,特别涉及一种采访视频集锦生成方法和系统。
背景技术
现有新闻采访需要对拍摄以及采访视频进行加工处理,处理过程涉及到摄影师、剪辑师和记者等多种角色的配合,因此从新闻拍摄到采访视频集锦的形成过程需要耗费大量的人力和时间。现有机器人采访和撰稿通常在固定的采访地点进行采访,机器人无法实现对被采访者灵活跟随和引导,比如公开号为(CN108062359A)的专利公开了《一种机器人采访与撰稿的方法和采访与撰稿的机器人》,该专利技术方案为在给定具体的采访地点后,采访机器人根据目标地点对移动路线进行规划,根据规划的路线将机器人移动到目标采访地点对被采访人进行采访,在该技术方案中,机器人采访存在模式单一,只有单向交流而无交互采访,机器人的采访问题比较固定,无法根据现场环境进行针对性采访,采访内容只能生成文字采访稿等不足。
发明内容
本发明其中一个主要目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法采用对采访目标进行跟随或引导,并结合计算机视觉技术识别人脸和人体信息,以解决在复杂环境下采访机器人机动性能较差的问题。
本发明另一个主要目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法根据机器人所处的位置地域,建立该地域相关的人文、历史、古迹等环境知识库,针对采访者的问题采用关键词检索的方式在知识库中提取对应的答案组织回答。
本发明另一个主要目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法根据采访对象建立对象知识图谱,所述对象知识图谱包括采访对象的出生地、年龄、职业、毕业院校、家庭信息等采访对象的个人信息,利用对象知识图谱中的关键词查找环境数据库中最接近的匹配信息,并组织语言进行问答,通过该方法可有效地提高采访过程中问答的关联性和逻辑性,符合人思维交流特性,结合实际场景可进行流畅程度较高的交互式采访。
本发明另一个主要目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统可根据实际的对象和场景进行采访,利用对象知识图谱和环境知识库之间的匹配信息可实现差异化的交互式采访,提高采访的灵活性。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统对获取的采访视频信息,根据视频的位置信息、人脸信息、音频信息在时间轴上分别打上对应的标签,建立标题模块,在同一采访视频集锦中根据关键词和采访的主题将位置标签、人物标签和关键词标签按照模板生成对应的集锦标题,自动化生成的过程可提高采访视频集锦的生成效率以及标题的关联性。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统识别目标对象的位置,计算自身相对于目标对象之间的距离,设定一距离阈值,当测定的距离小于所述距离阈值,则提升麦克风等音频获取装置的高度,提高交互性和音频采集的质量。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统通过语音识别模块将语音转化为文字,从转化的文字中抽取关键词在对象图谱和环境知识库中查询,并组织语言进行问答。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统外接直播流地址,可对视频采访进行现场直播。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统采用图文解说的方式对目标对象进行采访。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统采用设定提问和随机提问等多种提问方式,针对不同的场景和对象提可设定不同的提问方式。
本发明另一个目的在于提供一种采访视频集锦生成方法和系统,所述采访视频集锦生成方法和系统可针对多个对象建立对象知识图谱,并且根据不同对象知识图谱提取相同或相近的关键词,并在对应的环境知识库中查找最接近的匹配信息,组织语言对多个对象进行提问。
为了实现至少一个上述发明目的,本发明进一步提供一种采访视频集锦生成方法,包括如下步骤:
预建立至少一个对象知识图谱;
根据场景位置构建至少一环境知识库;
根据所述对象知识图谱和/或环境知识库内容进行采访问答;
获取采访问答的音视频信息,并对采访问答的音视频信息进行处理。
根据本发明一个较佳实施例,所述采访视频集锦生成方法包括:确定采访目标和采访主题,获取采访问答视频的位置信息、人物信息和关键词,对所述采访问答视频在时间轴上分别打上位置标签、人物标签和关键词标签;建立一标题模板,将所述位置标签、人物标签和关键词标签填入所述标题模块,以形成所述集锦标题。
根据本发明另一个较佳实施例,所述采访问答步骤包括:动态获取和识别对象人脸特征和人体特征,根据识别的对象人脸特征和人体特征对目标进行跟踪定位,跟随对象移动线路进行移动采访问答。
根据本发明另一个较佳实施例,所述采访问答步骤包括:设定预定线路,根据预定线路引导对象采访问答。
根据本发明另一个较佳实施例,识别对象的语音信息,根据语音信息识别对象提问,当对象提问时,停止发出语音信息。
根据本发明另一个较佳实施例,查找所述对象知识图谱中的关键词,通过所述关键词在所述环境知识库中匹配最接近所述关键词的信息,并组织语言进行问答;或查找其中一个对象的知识图谱中的关键词,通过所述关键词在另一对象知识图谱中匹配最接近所述关键词的信息,组织语言进行问答;或查找至少两个对象知识图谱中相同或最接近关键,通过查找到的关键词匹配环境知识库中最接近关键词的信息,组织语言进行问答。
其中关键词匹配方法包括如下步骤:
分别提取对象知识库和/或环境知识库中的关键词;
采用自然语言算法对至少两关键词进行词嵌入(word embedding)以计算两关键词向量;
计算两关键词向量距离,设定一距离阈值,将两关键词距离和所述距离阈值比较,以判断最接近关键词。
根据本发明另一个较佳实施例,在采访步骤中检测对象人脸和人体信息,动态识别采访视频集锦生成系统和对象之间的相对距离,设定一距离阈值,若检测的相对距离小于所述阈值时,则抬升语音识别模块。
根据本发明另一个较佳实施例,若无法从环境知识库或对象知识图谱中匹配到关键词,则从所述环境知识库中任意选择关键词组织语言进行问答。
根据本发明另一个较佳实施例,在采访前预设多个预备问题,若无法从环境知识库或对象知识图谱中匹配到关键词,则从预备问题中随机选择进行提问。
根据本发明另一个较佳实施例,通过图像识别获取环境中存在的关键词,针对关键词组织语言进行提问。
根据本发明另一个较佳实施例,在采访的过程中和直播流媒体建立实时链接,用于实时直播采访视频。
根据本发明另一个较佳实施例,在采访的过程中通过显示器采用图文讲解的方式进行可视化采访。
为了实现至少一个上述发明目的,本发明进一步提供一种采访视频集锦生成系统,包括:
引导跟随模块;
定位模块;
音视频采集模块;
采访问答模块;
集锦生成模块;
其中所述音视频采集模块通讯连接所述定位模块和跟随引导模块,所述音视频采集模块通过采集的音视频识别和确定对象,所述定位模块获取采访视频集锦生成系统自身的位置信息,所述引导跟随模块根据对象的位置信息做趋近或远离对象运动,所述采访问答模块根据所处的环境对对象提问,所述集锦生成模块生成集锦标签。
根据本发明其中一个较佳实施例,所述跟随引导模包括图像、UWB、红外、RTK传感器中的至少一种,所述跟随引导模块用于识别环境中的路径和对象位置信息,用于主动引导或被动跟随对象移动;所述定位模块包括激光雷达、射频、图像、无线、蓝牙传感器中的至少一种,用于采访视频集锦生成系统自身的定位。
根据本发明另一个较佳实施例,所述采访问答模块包括语音识别模块、语音合成模块、知识库构建模块和应答模块,其中所述知识库构建模块用于构建至少一环境知识库和至少一对象知识图谱,所述语音识别模块获取语音信息中的关键词,所述应答模块从所述环境知识库和/或对象知识图谱中获取相同或近似关键词,将获取的关键词用于合成应答语句,合成应答语句通过所述语音合成模块合成语音问题进行输出。
根据本发明另一个较佳实施例,所述采访问答模块还包括问题合成模块,其中所述问题合成模块用于在所述对象知识图谱中随机查找一关键词,根据关键词在所述环境知识库中匹配最接近所述关键词的信息,并构建问题语句,通过所述语音合成模块合成语音问题进行输出。
根据本发明另一个较佳实施例,所述集锦生成模块设定一标题模板,所述集锦生成模块获取采访视频的标签,并将标签填写至所述标题模块,以形成所述集锦标题。
为了实现至少一个上述发明目的,本发明提供一种智能采访机器人,所述机器人采用上述一种采访视频集锦生成方法和系统。
附图说明
图1显示的是本发明一种采访视频集锦生成方法步骤图;
图2显示的是本发明一种采访视频集锦生成方法中关键词匹配方法步骤图;
图3显示的是本发明一种采访视频集锦生成系统的运行步骤图;
图4显示的是本发明一种采访视频集锦生成系统中采访问答模块的流程图;
图5显示的是本发明一个较佳实施例的流程图;
图6显示的是本发明第一对象知识图谱和环境知识库关键词匹配方式示意图;
图7显示的是本发明第一对象知识图谱和第二对象知识图谱关键词匹配方式示意图;
图8显示的是本发明一种采访视频集锦生成方法整体流程图;
图9显示的是本发明一种采访视频集锦生成方法中集锦生成模块工作示意图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
请结合图1-9,本发明提供了一种采访视频集锦生成方法和系统,所述系统包括引导跟随模块,定位模块,音视频采集模块、采访问答模块和集锦生成模块,所述定位模块通讯连接所述引导跟随模块和音视频采集模块,所述定位模块采用包括但不仅限于激光雷达、射频、图像、无线、蓝牙等传感器中的至少一种,用于实现所述采访视频集锦生成系统的定位,本领域技术人员可以理解的是定位方法和定位装置可采用现有技术实现,定位方法和定位装置不是本发明的限制。所述引导跟随模块包括至少一驱动装置,比如电机、同步带等,所述驱动装置配合所述定位模块将所述采访视频集锦生成系统趋近或远离对象运动,值得一提的是,所述采访视频集锦生成系统可集成于一采访机器人,所述采访机器人可实现本发明的至少一个目的。
进一步地,在一较佳实施例中,所述引导跟随模块根据所述定位模块获取的位置信息选定跟随模式,在跟随模式下,所述音视频采集模块实时采集目标的人脸信息和/或人体信息,同时获取目标相对于所述采访视频集锦生成系统的距离,当对象在移动时,所述采访视频集锦生成系统跟随对象移动,设定一距离阈值,当所述采访视频集锦生成系统和对象之间的距离小于所述距离阈值时,所述音视频采集模块抬升高度,便于获取清晰的音视频信息。所述音视频采集模块包括至少一麦克风和图像采集装置,其中所述图像采集装置被优选实施为摄像头,所述摄像头采集人脸和人体图像信息,根据定位模块和跟随引导模块计算的距离值和距离阈值进行对比,若小于所述距离阈值,所述摄像头将通过电机等装置抬升,以获取较佳角度的音视频信息。
在另一较佳实施例中,所述跟随引导模块选定引导模式,也就是说,所述跟随引导模块预设一路线,所述跟随引导模块根据预设路线移动,在移动的过程中,所述音视频采集模块和定位模块实时获取对象的脸部信息和位置信息,并根据距离阈值抬升或降低音视频采集模块。
值得一提的是,请参考图4,所述采访问答模块包括音视频识别模块,应答模块、问题合成模块、语音合成模块和知识库构建模块,所述知识库构建模块构建至少一对象知识库和至少一环境知识库,其中所述环境知识库根据对象所处的位置从互联网或外部数据库中获取知识库信息,举例来说,若对象位置处于“西湖”,则所述采访应答模块从外部网络或数据库下载获取“西湖”相关的历史、文化、古迹、名人等数据建立环境知识库。预建立对象的人物知识图谱,其中对象知识图谱包括对象的出生、毕业院校、工作、婚姻等相关的信息。
举例来说,请参考图5,第一对象的知识图谱包括毕业于清华大学,出身地北京、工作地杭州、未婚、祖籍地上海,若第一对象当前位置在杭州西湖,则对所述第一对象知识图谱中的每一关键词在环境知识库中查找最接近关键词的信息,在图2中展示的较佳实施例中,查找到最接近关键词的是“杭州”,则组织语句对杭州相关的信息进行采访,其中可建立规范问题语句库进行关键词填充以获取对应的问题,比如:对于您的工作地(杭州)怎么看?,您喜欢(西湖)吗?,您对(苏堤)有什么看法?等类似提问语句,需要说明的是,对于规范问题语句库的生成可根据采访习惯设计,规范问题语句库的设计不是本发明的限制。
在一较佳实施例中,当采访对象为多个时,所述知识库构建模块建立多个对象的知识图谱,请参考图6,所述采访问答模块在多个对象的知识图谱中查找到最接近关键词的信息,举例来说:建立第一对象和第二对象的知识图谱,第二对象的知识图谱包括出生、毕业院校、工作、婚姻等相关信息,获取第一对象知识图谱的关键词,从第二对象知识图谱中获取最接近第一对象知识图谱的关键词,若存在,则提取第二对象中最接近的关键词,进一步匹配环境知识库中的关键词,若环境知识库、第一对象知识图谱和第二对象知识图谱中具有相同关键词或相近关键词,则提取关键词组织语句进行提问。
值得一提的是,所述关键词匹配以获取最接近关键词的方法包括如下步骤:
分别提取对象知识库和/或环境知识库中的关键词;
采用自然语言算法对两关键词进行词嵌入(word embedding)以计算两关键词向量;
计算两关键词向量距离,设定一距离阈值,若该距离大于设定的距离阈值,则判定两关键词之间关联性不足,则所述采访问答模块判断无最接近关键词;
若两关键词向量距离小于设定阈值,则所述采访问答模块判定存在最接近关键词,所述采访问答模块根据符合的关键词组织规范问题语句问答。
进一步地,请参考图7,在一较佳实施例中,需要对环境知识库关键词提问设定优先级,为了达到和环境相关度更高的采访音视频,本发明根据对象建立不同范围的环境信息优先提问体系,比如上述第一对象位置处于“苏堤”,所述采访问答模块建立包括“苏堤”、“西湖”、“杭州”范围依次扩大的知识库,“苏堤”为第一优先级的知识库,所述第一对象知识图谱的每一关键词从所述第一优先级的知识库中匹配最接近关键词的信息,比如最接近的关键词为“苏东坡”,则根据规范问题语句库组织语言进行提问组织,举例来说:提问问题可以是:您对(苏东坡)怎么看?,若在所述第一优先级的环境知识库中无法匹配到最接近的关键词等信息,则进一步对第二优先级的环境知识库进行关键词匹配,即匹配“西湖”环境知识库的关键词,若匹配到最接近的关键词,则构建规范问题语句进行提问,比如匹配的关键词为“雷峰塔”,所述问题合成模块构建和雷峰塔相关的规范问题语句,所述语音合成模块采用文字转语音的方式输出合成的语音信息。进一步地,本发明构建第三优先级环境知识库,比如以“杭州”范围内的人文、历史、景点、著名人物等信息构建第三优先级的环境知识库,将人物知识图谱中的任意一个关键词和所述第三优先级环境知识库进行匹配,将匹配到的关键词以语音的方式输出规范问题语句。
在一较佳实施例中,若对象知识图谱中的所有关键词在任意优先级的环境知识库中均未匹配到最接近的关键词,则所述采访问答系统在所述环境知识库中随机选择一关键词构建规范问题语句进行随机提问,比如在上述“苏堤”,“西湖”,“杭州”三个优先级的环境知识库中的任意选取一关键词构建规范问题语句,构建的规范问题语句提问方式可以为:您喜欢(苏堤)吗?优选地,对于随机提问关键词优选从优先级高的环境知识库中提取,比如在上述举例的三个优先级环境知识库中,优选“苏堤”环境知识库中的关键词作为随机提问关键词。
进一步地,所述环境知识库根据对象所处位置构建,当对象位置发生改变时,所述环境知识库根据对象当前所处的环境重新构建,在一较佳实施例中,根据对象移动的距离对不同优先级的环境知识库进行重新构建,举例来说,对象从苏堤移动到白堤,则所述知识库构建模块从互联网或外部数据库接收数据重新构建“白堤”知识库。若对象从原来苏堤位置移动到西溪湿地,建立“西溪湿地”的第二优先级知识库,同时根据对象的具体位置建立第一优先级知识库,可以理解的是,根据对象所处的位置,不同优先级的知识库可随之改变,从而可以使得采访问答和环境的关联性更高,采访互动性提高。
具体地,在一较佳实施例中,建立环境知识库时,根据环境知识库中关键地点和对象的位置之间的距离设定环境知识库的获取范围和环境知识库的优先级确定,比如选定以对象为原点、半径5公里范围内的人文、历史、景点、著名人物等信息构建知识库,在半径5公里范围内进一步划分更高优先级知识库。
在一较佳实施例中,所述采访问答模块根据对象所提到的关键词进行图文解说。也就是说,所述音视频采集模块获取对象语音信息,采用语音识别技术将对象语音信息转化为文字信息,所述采访问答模块识别文字信息中的关键词,并从环境知识库中调取对应的资料进行图文解说,在另一较佳实施方式中,所述图像采集模块采集环境中的文字信息和图像信息,根据环境中的文字信息和图像信息对所处位置进行判断,并且根据判断结果提取环境关键词进行提问,因此在采访的过程中对象可直接通过摄像头对环境进行观察,对象通过观察后对采访问题进行作答的方式可大幅提高人机互动的采访效果,采访的现场感更强。
在实际的采访过程中,可能存在非环境内容的采访目的。因此,本发明所述采访问答模块进一步提供多个预备问题,其中所述预备问题根据采访主题和目的将问题输入至所述采访问答模块,若对象知识图谱中所有关键词在所述环境知识图谱中均未匹配到相同或最接近的关键词,则所述采访问答模块可选择预备问题进行问答。
值得一提的是,所述采访视频集锦生成系统连接一外部流媒体,所述音视频采集模块将获取的音视频数据传输至所述外部流媒体,通过流媒体对采访视频进行现场直播。
采访视频生成过程中包括对采访视频的标签化处理,方法包括如下步骤:
获取对象采访音视频信息;
获取采访对象的人物信息、位置信息和语音信息;
预设一标题模板;
根据对象视频获取位置标签、人物标签和关键词标签;
将所述位置标签、人物标签和关键词标签填入所述标题模块以形成视频集锦标题。
其中,在标签的获取和赋予的步骤中,在视频时间轴上分别打上人物标签、位置标签和关键词标签,根据采访主题和采访目的生成对应的视频集锦标题。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

Claims (8)

1.一种采访视频集锦生成方法,其特征在于,包括如下步骤:
预建立至少一个对象知识图谱;
根据场景位置构建至少一环境知识库;
根据所述对象知识图谱和/或环境知识库内容进行采访问答,包括:
查找所述对象知识图谱中的关键词,通过所述关键词在所述环境知识库中匹配最接近所述关键词的信息;或查找其中一个对象的知识图谱中的关键词,获取在另一对象知识图谱中匹配最接近所述关键词的信息;或查找至少两个对象知识图谱中相同或最接近关键词,通过查找到的关键词匹配环境知识库中最接近关键词的信息,并将所述关键词填充到预先建立的规范问题语句库中以生成应答语句,其中关键词匹配方法包括如下步骤:
分别提取对象知识库和/或环境知识库中的关键词;
采用自然语言算法对至少两关键词进行词嵌入,以计算两关键词向量;
计算两关键词向量距离,设定一距离阈值,将两关键词距离和所述距离阈值比较,以判断最接近关键词;
在采访前预设多个预备问题,若无法从环境知识库或对象知识图谱中匹配到关键词,则从预备问题中随机选择进行提问,或从所述环境知识库中任意选择关键词组织语言进行问答;
获取采访问答音视频信息,并对采访问答音视频信息进行处理;
确定采访目标和采访主题,获取所述采访问答音视频的位置信息、人物信息和关键词,对所述采访问答音视频在时间轴上分别打上位置标签、人物标签和关键词标签,建立一标题模板,将所述位置标签、人物标签和关键词标签填入所述标题模块,以形成所述集锦标题。
2.根据权利要求1所述的一种采访视频集锦生成方法,其特征在于,所述采访问答步骤包括:动态获取和识别对象人脸特征和人体特征,根据识别的对象人脸特征和人体特征对目标进行跟踪定位,跟随对象移动线路进行移动采访问答。
3.根据权利要求1所述的一种采访视频集锦生成方法,其特征在于,在采访步骤中检测对象人脸和人体信息,动态识别采访视频集锦生成系统和对象之间的相对距离,设定一距离阈值,若检测的相对距离小于所述阈值时,则抬升语音识别模块。
4.根据权利要求1所述的一种采访视频集锦生成方法,其特征在于,通过图像识别获取环境中存在的关键词,针对关键词组织语言进行提问。
5.根据权利要求1所述的一种采访视频集锦生成方法,其特征在于,在采访的过程中和直播流媒体建立实时链接,用于实时直播采访视频。
6.一种采访视频集锦生成系统,其特征在于,包括:
引导跟随模块;
定位模块;
音视频采集模块;
采访问答模块;
集锦生成模块;
其中所述音视频采集模块通讯连接所述定位模块和跟随引导模块,所述音视频采集模块通过采集的音视频识别和确定对象,所述定位模块包括激光雷达、射频、图像、无线、蓝牙传感器中的至少一种,用于获取采访视频集锦生成系统自身的位置信息,所述引导跟随模块包括图像、UWB、红外、RTK传感器中的至少一种,用于识别环境中的路径和对象位置信息,根据对象的位置信息做趋近、远离和跟随运动,所述采访问答模块根据所处的环境对对象提问,所述集锦生成模块生成集锦标签包括:确定采访目标和采访主题,获取所述采访问答音视频的位置信息、人物信息和关键词,对所述采访问答音视频在时间轴上分别打上位置标签、人物标签和关键词标签,建立一标题模板,将所述位置标签、人物标签和关键词标签填入所述标题模块,以形成所述集锦标题;
所述采访问答模块包括语音识别模块、语音合成模块、知识库构建模块和应答模块,其中所述知识库构建模块用于构建至少一环境知识库和至少一对象知识图谱,所述语音识别模块获取语音信息中的关键词,所述应答模块从所述环境知识库和/或对象知识图谱中获取相同或近似关键词,将获取的关键词合成应答语句,并通过所述语音合成模块合成语音问题进行输出;
所述采访问答模块还包括问题合成模块,其中所述问题合成模块用于在所述对象知识图谱中随机查找一关键词,根据关键词在所述环境知识库中匹配最接近所述关键词的信息,并构建问题语句,通过所述语音合成模块合成语音问题进行输出。
7.根据权利要求6所述的一种采访视频集锦生成系统,其特征在于,所述集锦生成模块设定一标题模板,所述集锦生成模块获取采访视频的标签,并将标签填写至所述标题模板,以形成所述集锦标题。
8.一种智能采访机器人,所述机器人采用上述权利要求1-5中任意一种采访视频集锦生成方法。
CN202010321662.4A 2020-04-22 2020-04-22 一种采访视频集锦生成方法和系统 Active CN111506770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010321662.4A CN111506770B (zh) 2020-04-22 2020-04-22 一种采访视频集锦生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010321662.4A CN111506770B (zh) 2020-04-22 2020-04-22 一种采访视频集锦生成方法和系统

Publications (2)

Publication Number Publication Date
CN111506770A CN111506770A (zh) 2020-08-07
CN111506770B true CN111506770B (zh) 2023-10-27

Family

ID=71869858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010321662.4A Active CN111506770B (zh) 2020-04-22 2020-04-22 一种采访视频集锦生成方法和系统

Country Status (1)

Country Link
CN (1) CN111506770B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269864B (zh) * 2020-10-15 2023-06-23 北京百度网讯科技有限公司 生成播报语音的方法、装置、设备和计算机存储介质
CN112966087B (zh) * 2021-03-15 2023-10-13 中国美术学院 一种灵感素材的智能问答系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718887A (zh) * 2016-01-21 2016-06-29 惠州Tcl移动通信有限公司 基于移动终端摄像头实现动态捕捉人脸摄像的方法及系统
CN108062359A (zh) * 2017-11-28 2018-05-22 歌尔科技有限公司 一种机器人采访与撰稿的方法和采访与撰稿的机器人
CN108170272A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 一种智能话筒控制方法及装置
CN109918650A (zh) * 2019-02-03 2019-06-21 北京大学 自动生成采访稿的采访智能机器人装置及智能采访方法
CN110222166A (zh) * 2019-06-25 2019-09-10 上海智臻智能网络科技股份有限公司 问答服务提供方法、装置、设备、介质及沉浸式教练系统
CN110418076A (zh) * 2019-08-02 2019-11-05 新华智云科技有限公司 视频集锦生成方法、装置、电子设备及存储介质
CN111046133A (zh) * 2019-10-29 2020-04-21 平安科技(深圳)有限公司 基于图谱化知识库的问答方法、设备、存储介质及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718887A (zh) * 2016-01-21 2016-06-29 惠州Tcl移动通信有限公司 基于移动终端摄像头实现动态捕捉人脸摄像的方法及系统
CN108062359A (zh) * 2017-11-28 2018-05-22 歌尔科技有限公司 一种机器人采访与撰稿的方法和采访与撰稿的机器人
CN108170272A (zh) * 2017-12-28 2018-06-15 中国联合网络通信集团有限公司 一种智能话筒控制方法及装置
CN109918650A (zh) * 2019-02-03 2019-06-21 北京大学 自动生成采访稿的采访智能机器人装置及智能采访方法
CN110222166A (zh) * 2019-06-25 2019-09-10 上海智臻智能网络科技股份有限公司 问答服务提供方法、装置、设备、介质及沉浸式教练系统
CN110418076A (zh) * 2019-08-02 2019-11-05 新华智云科技有限公司 视频集锦生成方法、装置、电子设备及存储介质
CN111046133A (zh) * 2019-10-29 2020-04-21 平安科技(深圳)有限公司 基于图谱化知识库的问答方法、设备、存储介质及装置

Also Published As

Publication number Publication date
CN111506770A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN107657017B (zh) 用于提供语音服务的方法和装置
Mostaco et al. AgronomoBot: a smart answering Chatbot applied to agricultural sensor networks
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN111967224A (zh) 对话文本的处理方法、装置、电子设备及存储介质
US11749255B2 (en) Voice question and answer method and device, computer readable storage medium and electronic device
CN111506770B (zh) 一种采访视频集锦生成方法和系统
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN107832720B (zh) 基于人工智能的信息处理方法和装置
CN110610698B (zh) 一种语音标注方法及装置
CN108334498A (zh) 用于处理语音请求的方法和装置
US20200342060A1 (en) Natural language generating apparatus, vehicle having the same and natural language generating method
CN111178081A (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
US20210004406A1 (en) Method and apparatus for storing media files and for retrieving media files
CN110517672B (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN114501064A (zh) 一种视频生成方法、装置、设备、介质及产品
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN111415662A (zh) 用于生成视频的方法、装置、设备和介质
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
JP5844375B2 (ja) 物体検索システムおよび物体検索方法
CN111241236B (zh) 任务导向性问答方法、系统、电子设备、可读存储介质
CN113204623A (zh) 问答方法及装置
CN112287159A (zh) 检索方法、电子设备及计算机可读介质
CN116775848B (zh) 生成对话信息的控制方法、装置、计算设备及存储介质
WO2023065963A1 (zh) 互动展示方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Canjin

Inventor after: Wang Min

Inventor after: Yang Xinyu

Inventor after: Xu Changliang

Inventor before: Wang Canjin

Inventor before: Xu Changliang

Inventor before: Yang Xinyu

Inventor before: Wang Min

GR01 Patent grant
GR01 Patent grant