CN101314081B

CN101314081B - 一种演讲背景匹配方法和装置

Info

Publication number: CN101314081B
Application number: CN2008101328643A
Authority: CN
Inventors: 杨海曜
Original assignee: Huawei Device Co Ltd
Current assignee: Global Innovation Polymerization LLC; Tanous Co
Priority date: 2008-07-11
Filing date: 2008-07-11
Publication date: 2010-06-30
Anticipated expiration: 2028-07-11
Also published as: CN101314081A

Abstract

本发明实施例公开了一种演讲背景匹配方法和装置，所述方法包括以下步骤：识别演讲者的演讲特征，生成所述演讲者的演讲特征参数；将所述演讲特征参数与背景素材的背景特征参数进行匹配；根据所述匹配的结果，选择相应背景素材进行播放。通过应用本发明，解决了在即兴演讲背景的自动切换过程中，符合演讲者语意或情绪或肢体语言的背景过滤和筛选的问题，达到自动调动背景来配合演讲效果的目的，改善了演讲者即兴演讲的背景辅助效果。

Description

一种演讲背景匹配方法和装置

技术领域

本发明涉及通信技术领域，特别是涉及一种演讲背景匹配方法和装置。

背景技术

目前的会议中，尤其是会议电视系统及其相关的通讯中，主要采用两类演讲方式：一种是演讲者事先进行相关准备，就某一题目或内容演讲；另一种是演讲者事先未进行相关准备，临时就某个题目进行即兴演讲。前者在演讲过程中可采用预先定制的背景素材，如演示胶片、音乐、视频动画、特殊效果(灯光变化、激光、烟雾、火焰、喷泉、水幕)等，用于配合发言的进程，争取达到更好的演讲效果；而后者由于在演讲过程中存在时间上的随机性和内容上的任意性，无法进行事先定制，所以背景素材就难以及时跟随演讲进程变化了，一般采用较为固定的背景素材，或者由演讲者本人或相关配合人根据演讲进程手工进行背景切换。

即兴演讲中，较为固定的背景素材对演讲内容缺乏及时的跟踪，对演讲效果会产生不利的影响；由演讲者本人根据演讲进程手工进行背景切换，需要演讲者暂停演讲或者暂停演讲时的思考过程，这对演讲者准确表达自己的演讲内容很不利；而由演讲配合人根据演讲进程手工进行背景切换，需要演讲配合者对演讲内容进行人工的理解，一旦演讲配合者对演讲内容的理解出现偏差，则背景切换将无法有效配合演讲进程。

发明内容

本发明实施例要解决的问题是提供一种在即兴演讲背景的自动切换过程中，能够实现符合演讲者语意或情绪或肢体语言的背景素材过滤和筛选，达到自动调动背景素材来配合演讲效果的演讲背景匹配方法。

为达到上述目的，本发明实施例一方面提出一种演讲背景匹配方法，包括以下步骤：

识别演讲者的演讲特征，生成所述演讲者的演讲特征参数，具体包括：根据所述演讲者的演讲特征，识别关键词；根据所述演讲者的演讲特征，生成所述演讲者的综合情绪阈值；

所述演讲特征，具体为：所述演讲者的语音、表情和肢体语言中的一种或几种；

将所述演讲特征参数与背景素材的背景特征参数进行匹配；

根据所述匹配的结果，选择相应背景素材进行播放。

一种演讲背景匹配装置，包括：

设置模块，用于设置背景素材的背景特征参数；

素材存储模块，用于存储待选择的背景素材；

识别模块，用于识别演讲者的演讲特征，生成所述演讲者的演讲特征参数；

匹配模块，用于将所述识别模块识别的演讲特征参数与背景素材的背景特征参数进行匹配；

播放模块，用于根据所述匹配模块的匹配结果，选择相应背景素材进行播放；

所述识别模块，具体包括：

识别子模块，用于识别演讲者的演讲特征；

关键词识别子模块，用于根据所述识别子模块识别的所述演讲者的演讲特征，识别所述演讲者演讲的关键词；

情绪阈值生成子模块，用于根据所述识别子模块识别的所述演讲者的演讲特征，生成所述演讲者演讲的情绪阈值。

本发明实施例因为采用了在即兴演讲背景的自动切换过程中，符合演讲者语意或情绪或肢体语言的背景素材过滤和筛选的问题，达到自动调动背景素材来进行配合演讲效果的目的，改善了演讲者即兴演讲的背景辅助效果。

附图说明

图1为本发明实施例中演讲背景匹配方法流程示意图；

图2为本发明实施例中演讲背景匹配具体实现方式流程示意图；

图3为本发明实施例中演讲背景匹配装置的结构示意图。

具体实施方式

本发明实施例提供了一种在即兴演讲背景素材的自动切换过程中，能够实现符合演讲者语意或情绪或肢体语言的背景素材过滤和筛选，达到自动调动背景素材来配合演讲效果的演讲背景匹配方法。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述：如图1所示，为本发明实施例中演讲背景素材匹配方法流程图，包括以下步骤：

步骤S101，识别演讲者的演讲特征，生成该演讲者的演讲特征参数。

演讲者的演讲特征，包括演讲者的语音、表情和肢体语言等。

具体的生成演讲者的演讲特征参数的过程为：

根据演讲者的演讲特征，如语音等，识别该演讲者演讲的关键词；

根据演讲者的演讲特征，生成演讲者的综合情绪阈值。

在本步骤之前，还包括设置背景素材的背景特征参数。

背景素材的背景特征参数，包括背景名称、使用频率、情绪阈值和关系特征等。

背景名称，用于表征背景素材的内容；使用频率，用于表征背景素材在现实世界中的出现频率；情绪阈值，用于表征背景素材表达出的情绪范围；关系特征，用于表征背景素材在树形结构中的位置。

背景素材的使用频率、情绪阈值和关系特征，可以用百分制进行量化，生成背景素材的背景特征参数。

步骤S102，将演讲特征参数与背景素材的背景特征参数进行匹配。

具体的匹配过程如下：

根据关键词筛选出相应的背景素材集合；

根据演讲者的综合情绪阈值和背景素材集合中各背景素材的背景特征参数对各背景素材分别进行情绪匹配度、使用频率和关系特征的维度排序；

根据各个维度的排序结果和预设的各维度相应的权重值计算各背景素材的综合值；

根据综合值对各背景素材进行综合值排序；

在背景素材集合中选择综合值最大的背景素材为匹配结果。

步骤S103，根据匹配的结果，选择相应背景素材进行播放。

本发明实施例的技术方案具有以下优点，因为采用了在即兴演讲背景的自动切换过程中，符合演讲者语意或情绪或肢体语言的背景素材过滤和筛选的问题，达到自动调动背景素材来进行配合演讲效果的目的，改善了演讲者即兴演讲的背景辅助效果。

如图2所示，为本发明实施例中演讲背景匹配具体实现方式流程图，包括以下步骤：

步骤S201，设置背景素材的背景特征。

具体的背景素材准备过程为：

(1)收集和建立背景素材库(胶片/视频/音频/特殊效果等素材库)进入计算机的存贮介质内。例如：

1、收集各类的图片，根据图片内容确定图片名称，例如：绿色草地、红色花朵等。

2、收集各类音乐，按照音乐名称、类型命名。

3、收集各类视频或动画以及和特定场景配合特殊效果(灯光变化、激光、烟雾、火焰、喷泉、水幕)等。

(2)事先约定或确定各素材的背景名称、使用频率、情绪阈值和关系特征等多个维度的属性。

1、背景名称约定举例，如：

图片：花朵；

音乐：进行曲；

视频：火山喷发；

特效：绿色激光旋转等。

2、使用频率举例，如：采用100分出现频率权重(出现频率权重低～出现频率权重高：0～100分)。

图片：不常出现的偏僻植物～常常出现的红花绿草(0～100)

音乐：难得听见偏僻歌曲～脍炙人口的流行歌曲(0～100)

3、情绪阈值约定举例，如：采用100分情绪域值(情绪低～情绪高：0～100分)。

胶片或图片：颜色安静平缓的图片～颜色强烈多变的图片(0～100)

音乐：安静的轻音乐～激扬的进行曲(0～100)等等

4、关系特征举例，例如：

树型关系(从顶向下)图片——花朵——玫瑰——白色玫瑰......。(0～100)

还可利用其他多种类维度加强或加快未来自动匹配的检索速度和适用程度。

步骤S202，采集演讲者的演讲特征。

演讲者的演讲特征包括：演讲者的语音、表情和肢体语言等。

可使用麦克风将演讲者的语音输入到声音采集卡中，使用摄像机将演讲者的表情和肢体语言输入到视频采集卡中，或者将演讲者全部的演讲信息输入到会议电视终端等自身具备视音频输入设备的系统，将演讲者的演讲信息转换成计算机程序适用的格式，以便于后续的分析处理。

需要说明的是，其他可以实现采集演讲者的演讲特征的方法同样属于本发明的保护范围。

步骤S203，根据演讲者的语音识别关键词。

根据接收到的演讲者语音，采用计算机语音软件识别技术，甄别关键词，关键词需要事先存储在关键词词库里，才可以从演讲者的语音中被识别出来，非词库类型语音可以忽略。

步骤S204，根据演讲者的演讲信息设定演讲者各个维度的情绪阈值。

各个维度的情绪阈值具体包括：根据演讲者的语音、表情和肢体语言分别设定的演讲者的语音情绪阈值、表情情绪阈值和肢体语言情绪阈值。具体的生成过程如下：

根据演讲者的语速、腔调、尾音等，识别演讲者情绪，生成语音情绪阈值；

根据摄像机中拍摄的演讲者表情，识别演讲者情绪，生成表情情绪阈值，如无视频传送或只需要语音传送则本步骤跳过。

根据摄像机中拍摄的演讲者肢体语言，识别演讲者情绪，生成肢体语言情绪阈值，如会议中无视频传送或只需要语音传送则本步骤跳过。

步骤S205，设定演讲者各个维度的情绪阈值的权重。

根据实际的应用需要，为上述步骤中生成的情绪阈值设定相应的权重。

步骤S206，计算演讲者的综合情绪阈值。

综合演讲者的语音情绪阈值、表情情绪阈值和肢体语言情绪阈值以及各个维度的情绪阈值的权重，计算出演讲者的综合情绪阈值。

综合情绪阈值包括了“语音情绪阈值”、“表情情绪阈值”(如果进行表情情绪自动识别)、“肢体语言情绪阈值”(如果进行肢体语言情绪自动识别)三个方面的按一定比例进行计算的加权综合值。

例如：根据如上3个情绪数值，语音情绪阈值的数值×60％，加上表情情绪阈值的数值×20％，加上肢体语言情绪阈值的数值×20％，最后计算得出综合情绪阈值。

步骤S207，根据关键词筛选适用的背景素材。

通过关键词与背景素材的名称的对应，可以筛选出适用的背景素材。

步骤S208，对适用的背景素材进行各个维度的排序。

各个维度的排序包括：根据演讲者的综合情绪阈值和适用的背景素材的情绪阈值的情绪匹配度、适用的背景素材的频率和适用的背景素材的关系对适用的背景素材分别进行情绪匹配度、使用频率和关系特征排序。

步骤S209，设定各个维度的排序的权重。

进一步的，根据各维度在背景素材选择过程中的重要程度，设定相应的维度排序权重。

步骤S210，计算适用的背景素材的综合值。

综合上述的背景素材的情绪匹配度、使用频率和关系特征排序结果，以及各个维度的排序的权重，计算出适用的背景素材的综合值。

例如：如果上述背景素材选择过程中共有3个维度，则维度1的数值×50％，加上维度2的数值×30％，加上维度3的数值×20％，得出综合的总数值

步骤S211，对适用的背景素材进行综合值排序。

根据上一步骤计算出的适用的背景素材的综合值，对适用的背景素材进行综合值排序。

步骤S212，选择综合值最大的背景素材。

步骤S213，播放选择的背景素材。

在演讲者的背景或者附属传送通道上播放选择的背景素材，以便于配合达到更好演讲效果。

如图3所示，为本发明实施例中演讲背景匹配装置的结构示意图，包括：

设置模块31，用于设置背景素材的背景特征参数。

素材存储模块32，用于存储待选择的背景素材。

识别模块33，用于识别演讲者的演讲特征，生成演讲者的演讲特征参数，具体包括：

识别子模块331，用于识别演讲者的演讲特征；

关键词识别子模块332，用于根据识别子模块331识别的演讲者的演讲特征，识别演讲者演讲的关键词；

情绪阈值生成子模块333，用于根据识别子模块331识别的演讲者的演讲特征，生成演讲者演讲的情绪阈值。

匹配模块34，用于将识别模块33识别的演讲特征参数与设置模块31设定的背景素材的背景特征参数进行匹配，具体包括：

筛选子模块341，用于在所述素材存储模块32中根据关键词筛选出相应的背景素材集合；

第一排序子模块342，用于根据演讲者的综合情绪阈值和筛选子模块341筛选的背景素材集合中各背景素材的背景特征参数对各背景素材分别进行情绪匹配度、使用频率和关系特征的维度排序；

计算子模块343，用于根据第一排序子模块342生成的各个维度的排序结果和预设的各维度相应的权重值计算各背景素材的综合值；

第二排序子模块344，用于根据计算子模块343计算的综合值对各背景素材进行综合值排序；

匹配子模块345，用于根据第二排序子模块344的排序结果在背景素材集合中选择综合值最大的背景素材为匹配结果。

播放模块35，用于根据匹配模块34的匹配结果，在素材存储模块32中选择相应背景素材进行播放。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种演讲背景匹配方法，其特征在于，包括以下步骤：

将所述演讲特征参数与背景素材的背景特征参数进行匹配；

根据所述匹配的结果，选择相应背景素材进行播放。

2.如权利要求1所述演讲背景匹配方法，其特征在于，所述识别演讲者的演讲特征之前，还包括：

设置所述背景素材的背景特征参数。

3.如权利要求2所述演讲背景匹配方法，其特征在于，所述背景特征参数，具体包括：

背景名称、使用频率、情绪阈值和关系特征中的一种或几种。

4.如权利要求1所述演讲背景匹配方法，其特征在于，所述根据演讲者的演讲特征，生成所述演讲者的综合情绪阈值，具体包括：

根据所述演讲者的语音、表情和肢体语言分别设定所述演讲者的语音情绪阈值、表情情绪阈值和肢体语言情绪阈值；

根据所述语音情绪阈值、所述表情情绪阈值和所述肢体语言情绪阈值计算所述演讲者的综合情绪阈值。

5.如权利要求4所述演讲背景匹配方法，其特征在于，在所述根据语音情绪阈值、所述表情情绪阈值和所述肢体语言情绪阈值计算所述演讲者的综合情绪阈值之前，还包括：

设定所述语音情绪阈值、所述表情情绪阈值和所述肢体语言情绪阈值的权重。

6.如权利要求1所述演讲背景匹配方法，其特征在于，所述将所述演讲特征参数与背景素材的背景特征参数进行匹配，具体包括：

根据所述关键词筛选出相应的背景素材集合；

根据所述演讲者的综合情绪阈值和所述背景素材集合中各背景素材的背景特征参数对所述各背景素材分别进行情绪匹配度、使用频率和关系特征的维度排序；

根据各个维度的排序结果和预设的各维度相应的权重值计算所述各背景素材的综合值；

根据所述综合值对所述各背景素材进行综合值排序；

在所述背景素材集合中选择所述综合值最大的背景素材为匹配结果。

7.一种演讲背景匹配装置，其特征在于，包括：

设置模块，用于设置背景素材的背景特征参数；

素材存储模块，用于存储待选择的背景素材；

所述识别模块，具体包括：

识别子模块，用于识别演讲者的演讲特征；

8.如权利要求7所述演讲背景匹配装置，其特征在于，所述匹配模块，具体包括：

筛选子模块，用于在所述素材存储模块中根据关键词筛选出相应的背景素材集合；

第一排序子模块，用于根据所述演讲者的综合情绪阈值和所述筛选子模块所筛选的背景素材集合中各背景素材的背景特征参数对所述各背景素材分别进行情绪匹配度、使用频率和关系特征的维度排序；

计算子模块，用于根据所述第一排序子模块生成的各个维度的排序结果和预设的各维度相应的权重值计算所述各背景素材的综合值；

第二排序子模块，用于根据所述计算子模块计算的综合值对所述各背景素材进行综合值排序；

匹配子模块，用于根据所述第二排序子模块的排序结果，在所述背景素材集合中选择所述综合值最大的背景素材为匹配结果。