CN112182296A - 一种用于婚庆主持的智能ai交互机器人及其控制方法 - Google Patents

一种用于婚庆主持的智能ai交互机器人及其控制方法 Download PDF

Info

Publication number
CN112182296A
CN112182296A CN202010849970.4A CN202010849970A CN112182296A CN 112182296 A CN112182296 A CN 112182296A CN 202010849970 A CN202010849970 A CN 202010849970A CN 112182296 A CN112182296 A CN 112182296A
Authority
CN
China
Prior art keywords
wedding
target
videos
module
opening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010849970.4A
Other languages
English (en)
Inventor
钱晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Maer Sasi Cultural Media Co ltd
Original Assignee
Suzhou Maer Sasi Cultural Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Maer Sasi Cultural Media Co ltd filed Critical Suzhou Maer Sasi Cultural Media Co ltd
Priority to CN202010849970.4A priority Critical patent/CN112182296A/zh
Publication of CN112182296A publication Critical patent/CN112182296A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

一种用于婚庆主持的智能AI交互机器人及其控制方法,AI处理器包括:现场视频采集模块,采集N个婚礼现场视频;年龄段筛选模块,从N个婚礼现场视频中识别出各新郎新娘的年龄区间,获取目标用户是否属于该年龄区间,若是保留对应婚礼现场视频;播放量筛选模块,获取保留的婚礼现场视频的播放量并对其进行排序,筛选出播放量前Y个的婚礼现场视频;开场词视频提取模块,提取出开场词视频段并发送给目标用户;开场词输入模块,接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词;开场时间判断模块,判断当前时间到达预设的婚礼开场时间时将目标开场词发送给语音播放模块以使其根据用户选择的预设音色风格对目标开场词进行对应音色播放。

Description

一种用于婚庆主持的智能AI交互机器人及其控制方法
技术领域
本发明涉及婚庆技术领域,特别涉及一种用于婚庆主持的智能AI交互机器人及其控制方法。
背景技术
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等,机器人是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的工作,例如生产业、建筑业,或是危险的工作,随着人工智能技术的发展,机器人技术是一种是以自动化技术和计算机技术为主体、有机融合各种现代信息技术的系统集成和应用。
在当前的婚庆领域中,即在举办婚礼时,通常还是会请司仪进行婚礼的主持工作,主要包括开场词、串场提问以及活跃气氛等,但是随着年轻人多样化需求的增多,传统的司仪主持方式已经越发不能满足婚庆用户的需求,介于此,本发明旨在研究一种能够辅助或者代替司仪人工进行主持的AI交互机器人。
发明内容
发明目的:
为了克服背景技术中的缺点,本发明实施例提供了一种用于婚庆主持的智能AI交互机器人及其控制方法,能够有效解决上述背景技术中涉及的问题。
技术方案:
一种用于婚庆主持的智能AI交互机器人,包括机器人主体、语音播放模块、语音采集模块、摄像头以及AI处理器,所述AI处理器包括:
现场视频采集模块,用于从互联网上采集N个婚礼现场视频;
年龄段筛选模块,用于利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断是否属于该年龄区间,若属于则保留对应的婚礼现场视频,若不属于则将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘;
播放量筛选模块,用于分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频;
开场词视频提取模块,用于从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户;
开场词输入模块,用于接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词;
开场时间判断模块,用于判断当前时间是否到达预设的婚礼开场时间,若到达则将所述目标开场词发送给所述语音播放模块;
其中,所述语音播放模块用于根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
作为本发明的一种优选方式,AI处理器还包括:
上座率识别模块,用于利用所述摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果;
开场词推迟处理模块,用于在目标用户的反馈结果为推迟时则取消将所述目标开场词发送给所述语音播放模块。
作为本发明的一种优选方式,AI处理器还包括:
第一喜好数据获取模块,用于获取目标用户的喜好数据并将其存储于第一数据库中;
第二喜好数据获取模块,用于获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库中;
数据训练模块,用于使用机器学习算法分别对第一数据库中的用户喜好数据以及第二数据库中分区的用户喜好数据进行分析与训练,并输出各自的训练结果;
数据匹配模块,用于根据第一数据库的训练结果在第二数据库各区的训练结果中找出与之匹配的训练结果;
喜好筛选模块,用于将与第一数据库的训练结果匹配的第二数据库中的训练结果对应的婚礼视频保留,将不匹配的第二数据库中的训练结果对应的婚礼视频剔除。
作为本发明的一种优选方式,AI处理器还包括:
婚礼风格识别模块,用于根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种;
婚礼风格筛选模块,用于根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
作为本发明的一种优选方式,AI处理器还包括:
现场提问词视频提取模块,用于根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段;
现场热度排列模块,用于根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留;
目标用户身份获取模块,用于依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段发送给所述语音播放模块;
其中,所述语音播放模块用于模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
一种用于婚庆主持的智能AI交互机器人的控制方法,所述方法包括以下步骤:
从互联网上采集N个婚礼现场视频;
利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断是否属于该年龄区间,若属于则保留对应的婚礼现场视频,若不属于则将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘;
分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频;
从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户;
接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词;
判断当前时间是否到达预设的婚礼开场时间,若到达则根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
作为本发明的一种优选方式,所述方法还包括以下步骤:
利用摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果;
在目标用户的反馈结果为推迟时则取消将所述目标开场词的播放。
作为本发明的一种优选方式,所述方法还包括以下步骤:
获取目标用户的喜好数据并将其存储于第一数据库中;
获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库中;
使用机器学习算法分别对第一数据库中的用户喜好数据以及第二数据库中分区的用户喜好数据进行分析与训练,并输出各自的训练结果;
根据第一数据库的训练结果在第二数据库各区的训练结果中找出与之匹配的训练结果;
将与第一数据库的训练结果匹配的第二数据库中的训练结果对应的婚礼视频保留,将不匹配的第二数据库中的训练结果对应的婚礼视频剔除。
作为本发明的一种优选方式,所述方法还包括以下步骤:
根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种;
根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
作为本发明的一种优选方式,所述方法还包括以下步骤:
根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段;
根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留;
依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段,然后模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
本发明实现以下有益效果:
1、本发明通过从互联网上采集N个婚礼现场视频,利用人脸年龄识别技术从N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断属于该年龄区间时保留对应的婚礼现场视频,否则则将对应的婚礼现场视频踢除,分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频,从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户,接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词,在判断当前时间到达预设的婚礼开场时间时根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放;如此,可通过AI交互机器人选择合适的目标开场词进行播放,提升了婚礼的用户体验度。
2、本发明通过获取婚礼现场的坐席区域的影像并根据该影像识别出婚礼现场的上座率没有到达预设的阈值时生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果,在目标用户的反馈结果为推迟时则取消将目标开场词的播放,从而使得目标开场词的播放符合现场的实际开场情况。
3、本发明通过获取目标用户的喜好数据、Y个的婚礼现场视频对应用户的社交网络页面数据的喜好数据,分别对上述两种进行分析与训练输出各自的训练结果,找出匹配的训练结果,将与前者训练结果匹配的训练结果对应的婚礼视频保留,将与前者不匹配的训练结果对应的婚礼视频剔除,从而使得用于作为目标开场词参照样本的婚礼视频符合目标用户的实际喜好,提升匹配的准确度。
4、本发明根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除,从而使得用于作为目标开场词参照样本的婚礼视频对应的婚礼风格符合目标用户的婚礼风格,提升匹配的准确度。
5、本发明根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段,根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留,依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段,然后模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放,如此将进一步提升了AI交互机器人与婚礼现场用户的互动,且提升互动效果,增强婚礼气氛。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1为本发明实施例1提供的AI处理器的结构示意图;
图2为本发明实施例2提供的AI处理器的结构示意图;
图3为本发明实施例3提供的AI处理器的结构示意图;
图4为本发明实施例4提供的AI处理器的结构示意图;
图5为本发明实施例5提供的AI处理器的结构示意图;
图6为本发明实施例6提供的智能AI交互机器人控制方法的第一个流程示意图;
图7为本发明实施例6提供的智能AI交互机器人控制方法的第二个流程示意图;
图8为本发明实施例6提供的智能AI交互机器人控制方法的第三个流程示意图;
图9为本发明实施例6提供的智能AI交互机器人控制方法的第四个流程示意图;
图10为本发明实施例6提供的智能AI交互机器人控制方法的第五个流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
参考图1所示。本实施例提供一种用于婚庆主持的智能AI交互机器人,包括机器人主体、语音播放模块107、语音采集模块、摄像头以及AI处理器,所述AI处理器包括:
现场视频采集模块101,用于从互联网上采集N个婚礼现场视频。
具体可以通过关键字搜索的方式在搜索引擎网站中,或者社交网站中搜索出N个婚礼现场视频,本实施例中对N个的具体数量并不作限制,理论上来说以数量越大为优选。
年龄段筛选模块102,用于利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断是否属于该年龄区间,若属于则保留对应的婚礼现场视频,若不属于则将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘。
在获取到N个婚礼现场视频后,年龄段筛选模块102先需要从N个婚礼现场视频中识别出新郎新娘,具体可采用着装方式进行识别,在识别出新郎与新娘之后,锁定人脸,再用人脸年龄识别技术识别出各新郎新娘的年龄,得出年龄之后,生成一年龄区间;具体的,本实施例预先设置有年龄区间,具体为20~30、31~40、41~50、51~60、61~70等不同的年龄区间,在得出年龄之后,将其与上述各年龄区间进行匹配以生成对应的年龄区间,为了便于描述,设置生成的年龄区间为20~30;接着,年龄段筛选模块102获取目标用户的年龄并判断是否属于该年龄区间,其中目标用户的年龄同样采用人脸年龄识别技术进行获取与识别,即通过摄像头采集目标用户的头像然后再进行年龄识别,识别出之后判断其所属的年龄区间是否存在对应的年龄区间的婚礼现场视频,若存在则保留对应的婚礼现场视频,若不存在则将对应的婚礼现场视频剔除。
播放量筛选模块103,用于分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频。
例如,假设保留的婚礼现场视频有20个,则播放量筛选模块103分别获取保留的这20个婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y(例如5)个的婚礼现场视频。
开场词视频提取模块104,用于从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户。
开场词视频段是指主持人开场词对应的视频片段,在识别出之后将其从婚礼现场视频中分隔出来(例如采取录屏的方式)以提取该视频段,然后将与开场词对应的语音转化成文字并且发送给目标用户。
需要说明的是,目标用户具体是与本发明的AI交互机器人建立了连接且认证为目标用户的,在于目标用户之间的信息传递中,具体是通过向其持有的终端进行传递,例如表示为目标用户终端。
开场词输入模块105,用于接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词。
用户终端在接收到开场词视频提取模块104发送的开场词后,可以选择一个满意的,且可以对其进行修改,确认后点击提交以促使用户终端将其反馈给开场词输入模块105,开场词输入模块105将目标用户终端反馈的开场词确定为目标开场词。
开场时间判断模块106,用于判断当前时间是否到达预设的婚礼开场时间,若到达则将所述目标开场词发送给所述语音播放模块107。
预设的婚礼开场时间由目标用户进行设置,具体可通过用户终端进行设置并发送给开场时间判断模块106,例如设置为2020年10月4日20:00,则开场时间判断模块106将通过网络始终获取当前的时间并判断是否到达用户设置的开场时间,如果到达则将目标开场词发送给语音播放模块107。
其中,所述语音播放模块107用于根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
语音播放模块107在接收到目标开场词之后,将对其进行播放,其中本发明的AI交互机器人内置有多种预设音色风格,包括正常音色以及变音后的音色等,也可以理解为活跃的、严肃的、搞怪的等不同音色,用户可根据试听进行选择需要的预设音色风格,语音播放模块107将根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
实施例2
参考图2所示。本实施例一是在实施例一基础上的延伸,具体体现在,本实施例中,AI处理器还包括:
上座率识别模块108,用于利用所述摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果。
其中,上座率的识别方式包括:预设采集不同上座率下坐席区域的人员数量,然后对其进行分类训练,在获取到婚礼现场的坐席区域的影像后,获取坐席区域的影像后,输入分类训练中得出训练结果,即得出对应的上座率;又或者,也可以是通过获取应当场人数,然后通过坐席区域的影像识别实际到场人数,然后依次计算出上座率。
其中,预设的阈值可根据用户实际需求进行设置,例如可设置为80%,即上座率识别模块108别出婚礼现场的上座率是否到达80%,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果。
询问信息具体即询问目标用户是否需要开场,目标用户在接收到该开场询问信息后,可以提高操作以使目标用户终端将反馈结果发送给上座率识别模块108,用户可以在反馈结果中填写推迟还是不推迟,如果推迟的话,也可以填写具体的推迟时间,例如十分钟。
开场词推迟处理模块109,用于在目标用户的反馈结果为推迟时则取消将所述目标开场词发送给所述语音播放模块107。
如果反馈结果中仅有推迟的话,则开场词推迟处理模块109取消将所述目标开场词发送给所述语音播放模块107,即取消语音播放模块107对目标开场词的播放;如果反馈结果中有具体的推迟时间的话,例如十分钟,则到达十分钟时所述开场词推迟处理模块109将所述目标开场词发送给所述语音播放模块107以进行播放;当然,用户可以随时对推迟时间进行修改。
实施例3
参考图3所示。本实施例一是在实施例一基础上的延伸,具体体现在,本实施例中,AI处理器还包括:
第一喜好数据获取模块110,用于获取目标用户的喜好数据并将其存储于第一数据库115中。
当用户使用目标用户终端访问网站或APP时,第一喜好数据获取模块110通过用户行为数据采集脚本代码收集目标用户的喜好数据,并将其通过预定的协议进行发送,具体将其发送至第一数据库115中进行存储。
第而喜好数据获取模块111,用于获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库116中。
需要说明的是,本实施例中需要确保发布婚礼现场视频的用户即为目标用户本人,这种需要对用户的身份进行识别,具体可通过获取婚礼现场视频的用户的社交网络页面数据中的用户图像,将其与婚礼现场视频中的新郎或新娘的图像进行比对以得出结果,即得出发布婚礼现场视频的用户是否为目标用户。
当得出为是时,第而喜好数据获取模块111,通过用户行为数据采集脚本代码收集对应用户的社交网络页面数据中的喜好数据,并将其通过预定的协议进行发送,具体将其发送至第二数据库116的各区中进行存储。
数据训练模块112,用于使用机器学习算法分别对第一数据库115中的用户喜好数据以及第二数据库116中分区的用户喜好数据进行分析与训练,并输出各自的训练结果。
数据训练模块112使用机器学习算法分别对第一数据库115中的用户喜好数据以及第二数据库116中分区的用户喜好数据进行分析与训练,即通过对第一数据库115中的用户喜好数据的训练以发现目标用户的喜好,通过对第二数据库116中各区的用户喜好数据的训练以发现对应用户的喜好。
数据匹配模块113,用于根据第一数据库115的训练结果在第二数据库116各区的训练结果中找出与之匹配的训练结果。
喜好筛选模块114,用于将与第一数据库115的训练结果匹配的第二数据库116中的训练结果对应的婚礼视频保留,将不匹配的第二数据库116中的训练结果对应的婚礼视频剔除。
实施例4
参考图4所示。本实施例一是在实施例一基础上的延伸,具体体现在,本实施例中,AI处理器还包括:
婚礼风格识别模块117,用于根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种。
其中婚礼风格的识别方式可采用着装识别、场景布置识别的方式得出识别结果。
婚礼风格筛选模块118,用于根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
例如,假设识别出有5个西式风格的婚礼现场视频,5个中式风格的婚礼现场视频,而目标用户输入的婚礼风格是西式,则将5个西式风格的婚礼现场视频保留,而将另外5个中式风格的婚礼现场视频剔除。
实施例5
参考图5所示。本实施例一是在实施例一基础上的延伸,具体体现在,本实施例中,AI处理器还包括:
现场提问词视频提取模块119,用于根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段。
其中,提问目标是指主持人即将访问的用户,可通过相对站位的位置、动作、交流语音进行识别提问目标的身份属性,例如新郎、新娘、新郎父亲、新郎母亲、新娘父亲、新娘母亲中的一个。
在识别出提问目标的身份属性时,现场提问词视频提取模块119则根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段,即分别提取出与新郎、新娘、新郎父亲、新郎母亲、新娘父亲、新娘母亲对应的现场提问词视频段。
现场热度排列模块120,用于根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留。
其中,现场反响的热烈程度可以通过现场的掌声与笑声的分贝值大小进行识别,分贝值越大则代表反响越热烈,反之越小。
目标用户身份获取模块121,用于依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段发送给所述语音播放模块107。
即识别待提问目标用户的身份,例如假设识别出其为新郎,则将从保留的的现场提问词视频段中找出其中一个与新郎对应的现场提问词视频段发送给所述语音播放模块107。
其中,所述语音播放模块107用于模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
实施例6
参考图6所示。本实施例提供一种用于婚庆主持的智能AI交互机器人的控制方法,所述方法包括以下步骤:
S601、从互联网上采集N个婚礼现场视频。
S602、利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间。
S603、获取目标用户的年龄并判断是否属于该年龄区间,若属于则执行S604、保留对应的婚礼现场视频,若不属于则执行S605、将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘。
S606、分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频。
S607、从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户。
S608、接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词。
S609、判断当前时间是否到达预设的婚礼开场时间,若到达则执行S610、根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
参考图7所示。优选的,所述方法还包括以下步骤:
S611、利用摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则执行S612、生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果。
S613、在目标用户的反馈结果为推迟时则取消将所述目标开场词的播放。
参考图8所示。优选的,所述方法还包括以下步骤:
S614、获取目标用户的喜好数据并将其存储于第一数据库中。
S615、获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库中。
S616、使用机器学习算法分别对第一数据库中的用户喜好数据以及第二数据库中分区的用户喜好数据进行分析与训练,并输出各自的训练结果。
S617、根据第一数据库的训练结果在第二数据库各区的训练结果中找出与之匹配的训练结果。
S618、将与第一数据库的训练结果匹配的第二数据库中的训练结果对应的婚礼视频保留,将不匹配的第二数据库中的训练结果对应的婚礼视频剔除。
参考图9所示。优选的,所述方法还包括以下步骤:
S619、根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种。
S620、根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
参考图10所示。优选的,所述方法还包括以下步骤:
S621、根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段。
S622、根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留。
S623、依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段,然后模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
本实施例的具体实施过程与实施例1~5一致,具体参考上述内容。上述实施例只为说明本发明的技术构思及特点,其目的是让熟悉该技术领域的技术人员能够了解本发明的内容并据以实施,并不能以此来限制本发明的保护范围。凡根据本发明精神实质所作出的等同变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种用于婚庆主持的智能AI交互机器人,包括机器人主体、语音播放模块、语音采集模块、摄像头以及AI处理器,其特征在于,所述AI处理器包括:
现场视频采集模块,用于从互联网上采集N个婚礼现场视频;
年龄段筛选模块,用于利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断是否属于该年龄区间,若属于则保留对应的婚礼现场视频,若不属于则将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘;
播放量筛选模块,用于分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频;
开场词视频提取模块,用于从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户;
开场词输入模块,用于接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词;
开场时间判断模块,用于判断当前时间是否到达预设的婚礼开场时间,若到达则将所述目标开场词发送给所述语音播放模块;
其中,所述语音播放模块用于根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
2.根据权利要求1所述的一种用于婚庆主持的智能AI交互机器人,其特征在于,AI处理器还包括:
上座率识别模块,用于利用所述摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果;
开场词推迟处理模块,用于在目标用户的反馈结果为推迟时则取消将所述目标开场词发送给所述语音播放模块。
3.根据权利要求1所述的一种用于婚庆主持的智能AI交互机器人,其特征在于,AI处理器还包括:
第一喜好数据获取模块,用于获取目标用户的喜好数据并将其存储于第一数据库中;
第二喜好数据获取模块,用于获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库中;
数据训练模块,用于使用机器学习算法分别对第一数据库中的用户喜好数据以及第二数据库中分区的用户喜好数据进行分析与训练,并输出各自的训练结果;
数据匹配模块,用于根据第一数据库的训练结果在第二数据库各区的训练结果中找出与之匹配的训练结果;
喜好筛选模块,用于将与第一数据库的训练结果匹配的第二数据库中的训练结果对应的婚礼视频保留,将不匹配的第二数据库中的训练结果对应的婚礼视频剔除。
4.根据权利要求1所述的一种用于婚庆主持的智能AI交互机器人,其特征在于,AI处理器还包括:
婚礼风格识别模块,用于根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种;
婚礼风格筛选模块,用于根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
5.根据权利要求1所述的一种用于婚庆主持的智能AI交互机器人,其特征在于,AI处理器还包括:
现场提问词视频提取模块,用于根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段;
现场热度排列模块,用于根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留;
目标用户身份获取模块,用于依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段发送给所述语音播放模块;
其中,所述语音播放模块用于模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
6.一种用于婚庆主持的智能AI交互机器人的控制方法,其特征在于,所述方法包括以下步骤:
从互联网上采集N个婚礼现场视频;
利用人脸年龄识别技术从所述N个婚礼现场视频中分别识别出各新郎新娘的年龄,生成一年龄区间,获取目标用户的年龄并判断是否属于该年龄区间,若属于则保留对应的婚礼现场视频,若不属于则将对应的婚礼现场视频剔除,其中目标用户包括目标新郎与目标新娘;
分别获取保留的婚礼现场视频在网络中的播放量并按照由高至低的顺序对其进行排序,然后筛选出播放量排在前Y个的婚礼现场视频;
从Y个婚礼现场视频中分别提取出开场词视频段并转换为文字发送给目标用户;
接收目标用户修改或筛选后反馈的开场词并将其确定为目标开场词;
判断当前时间是否到达预设的婚礼开场时间,若到达则根据用户选择的预设音色风格对所述目标开场词进行对应音色的播放。
7.根据权利要求6所述的一种用于婚庆主持的智能AI交互机器人的控制方法,其特征在于,所述方法还包括以下步骤:
利用摄像头获取婚礼现场的坐席区域的影像,并根据该影像识别出婚礼现场的上座率是否到达预设的阈值,若未达到则生成开场询问信息发送给目标用户终端并接收目标用户的反馈结果;
在目标用户的反馈结果为推迟时则取消将所述目标开场词的播放。
8.根据权利要求6所述的一种用于婚庆主持的智能AI交互机器人的控制方法,其特征在于,所述方法还包括以下步骤:
获取目标用户的喜好数据并将其存储于第一数据库中;
获取Y个的婚礼现场视频对应用户的社交网络页面数据,从中获取出对应用户的喜好数据并将其分区存储于第二数据库中;
使用机器学习算法分别对第一数据库中的用户喜好数据以及第二数据库中分区的用户喜好数据进行分析与训练,并输出各自的训练结果;
根据第一数据库的训练结果在第二数据库各区的训练结果中找出与之匹配的训练结果;
将与第一数据库的训练结果匹配的第二数据库中的训练结果对应的婚礼视频保留,将不匹配的第二数据库中的训练结果对应的婚礼视频剔除。
9.根据权利要求6所述的一种用于婚庆主持的智能AI交互机器人的控制方法,其特征在于,所述方法还包括以下步骤:
根据Y个的婚礼现场视频分别识别出其对应的婚礼风格,输出风格识别结果,包括中式与西式的一种;
根据目标用户输入的婚礼风格将与其婚礼风格对应的婚礼现场视频保留,将婚礼风格不对应的婚礼现场视频剔除。
10.根据权利要求6所述的一种用于婚庆主持的智能AI交互机器人的控制方法,其特征在于,所述方法还包括以下步骤:
根据提问目标的身份属性从Y个婚礼现场视频中分别提取出对应的现场提问词视频段;
根据现场提问词表达结束后现场反响的热烈程度按照由高至低的顺序对现场提问词视频段进行排序,然后筛选出反响热烈程度排在前X个的现场提问词视频段,将其进行保留;
依据人像识别技术识别待提问的目标用户的身份,并从保留的现场提问词视频段中找出其中一个现场提问词视频段,然后模拟接收到的现场提问词视频段中的提问语气与音色以对所述现场提问词视频段对应的文字进行播放。
CN202010849970.4A 2020-08-21 2020-08-21 一种用于婚庆主持的智能ai交互机器人及其控制方法 Withdrawn CN112182296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010849970.4A CN112182296A (zh) 2020-08-21 2020-08-21 一种用于婚庆主持的智能ai交互机器人及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010849970.4A CN112182296A (zh) 2020-08-21 2020-08-21 一种用于婚庆主持的智能ai交互机器人及其控制方法

Publications (1)

Publication Number Publication Date
CN112182296A true CN112182296A (zh) 2021-01-05

Family

ID=73924242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010849970.4A Withdrawn CN112182296A (zh) 2020-08-21 2020-08-21 一种用于婚庆主持的智能ai交互机器人及其控制方法

Country Status (1)

Country Link
CN (1) CN112182296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304151A (zh) * 2023-05-25 2023-06-23 成都爱找我科技有限公司 一种基于用户行为数据库的婚礼策划匹配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304151A (zh) * 2023-05-25 2023-06-23 成都爱找我科技有限公司 一种基于用户行为数据库的婚礼策划匹配方法
CN116304151B (zh) * 2023-05-25 2023-08-18 成都爱找我科技有限公司 一种基于用户行为数据库的婚礼策划匹配方法

Similar Documents

Publication Publication Date Title
CN108764480B (zh) 一种信息处理的系统
US11605226B2 (en) Video data processing method and apparatus, and readable storage medium
CN107122375B (zh) 基于图像特征的图像主体的识别方法
US20190286996A1 (en) Human-machine interactive method and device based on artificial intelligence
CN110929760A (zh) 一种基于计算机视觉的垃圾分类软件
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN106845624A (zh) 与智能机器人的应用程序有关的多模态交互方法及系统
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN109583443B (zh) 一种基于文字识别的视频内容判断方法
CN105868686A (zh) 视频分类方法及装置
CN114254158B (zh) 视频生成方法及其装置、神经网络的训练方法及其装置
CN110689078A (zh) 基于人格分类模型的人机交互方法、装置及计算机设备
CN110442700A (zh) 用于人机交互的人机多轮对话方法及系统、智能设备
CN110675871A (zh) 一种语音识别方法及装置
CN113301376A (zh) 一种基于虚拟现实技术的直播交互方式及系统
CN109242309A (zh) 参会用户画像生成方法、装置、智能会议设备及存储介质
CN117093686A (zh) 智能问答匹配方法、装置、终端及存储介质
CN112182296A (zh) 一种用于婚庆主持的智能ai交互机器人及其控制方法
CN109766773A (zh) 比赛监控方法、装置、计算机设备和存储介质
CN109871128B (zh) 一种题型识别方法及装置
CN110517672A (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN113190585A (zh) 一种服装设计的大数据采集分析系统
CN111081286B (zh) 用于人工智能教学的视频编辑系统
CN111611973A (zh) 目标用户识别的方法、装置及存储介质
CN112508193B (zh) 一种深度学习平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210105

WW01 Invention patent application withdrawn after publication