CN109242555B

CN109242555B - 基于语音的广告播放方法及相关产品

Info

Publication number: CN109242555B
Application number: CN201810974961.0A
Authority: CN
Inventors: 张磊
Original assignee: Suzhou Tomorrow Corporate Image Planning And Communication Co ltd
Current assignee: Suzhou tomorrow corporate image planning and Communication Co.,Ltd.
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-07-02
Anticipated expiration: 2038-08-24
Also published as: CN109242555A

Abstract

本公开提供一种基于语音的广告播放方法及相关产品，所述方法包括如下步骤：采集第一图片，确定第一图片包含人脸信息时，采集音频信息；对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；提取第一类别对应的第一广告，控制显示屏播放该第一广告。本申请提供的技术方案实现语音识别的广告的播放，提高广告的投放效果的优点。

Description

基于语音的广告播放方法及相关产品

技术领域

本发明涉及文化传媒技术领域，具体涉及一种基于语音的广告播放方法及相关产品。

背景技术

电梯广告是一种新型广告媒体，它是指在城市楼宇电梯内壁上制作、刊载的广告载体。电梯广告类型多样，以商务电梯、楼宇电梯为主，表现形式主要为在电梯轿厢内安装成相框的形式，还有一种是在电梯门上直接安装。

现有的电梯广告已经发展到通过液晶显示屏来实现广告的播放，例如分众传媒的电梯广告，现有的广告的播放为固定播放模式，无法依据不同的场景实现不同的广告的播放，影响广告的投放。

发明内容

本发明实施例提供了一种基于语音的广告播放方法及相关产品，可以实现语音识别的广告的播放，提高广告的投放效果的优点。

第一方面，本发明实施例提供一种基于语音的广告播放方法，该方法包括：

采集第一图片，确定第一图片包含人脸信息时，采集音频信息；

对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；

提取第一类别对应的第一广告，控制显示屏播放该第一广告。

可选的，所述对该音频信息进行识别确定该音频信息的关键字具体包括：

将该音频信息转换成文字信息，对该文字信息进行分词处理得到分词处理的文字信息，对该分词处理的文字信息的名词进行分析确定是否包含商品信息，将包含商品信息的名词组成商品组，将商品组中数量最多的商品信息确定为关键字。

可选的，所述方法还包括：

识别第一图片确定用户的第一身份，依据第一身份确定第一楼层，确定当前楼层运行到第一楼层的第一时间，如第一广告的时间大于第一时间，对第一广告的时间进行压缩至第一时间，播放压缩后的第一广告。

可选的，所述方法对第一广告的时间进行压缩至第一时间具体包括：

计算第一时间与第一广告的时间的比值，如该比值在预设范围内，以该比值为快进的速度处理第一广告得到压缩后的第一广告。

第二方面，提供一种终端，所述终端包括：处理器、摄像头和显示屏，所述摄像头，用于采集第一图片；

所述处理器，用于对确定第一图片包含人脸信息时，采集音频信息，对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；提取第一类别对应的第一广告，控制显示屏播放该第一广告。

可选的，所述处理单元，具体用于将该音频信息转换成文字信息，对该文字信息进行分词处理得到分词处理的文字信息，对该分词处理的文字信息的名词进行分析确定是否包含商品信息，将包含商品信息的名词组成商品组，将商品组中数量最多的商品信息确定为关键字。

可选的，所述终端还包括通信单元，

所述处理单元，具体用于识别第一图片确定用户的第一身份，依据第一身份确定第一楼层，确定当前楼层运行到第一楼层的第一时间，如第一广告的时间大于第一时间，对第一广告的时间进行压缩至第一时间，播放压缩后的第一广告。

可选的，所述处理单元，具体用于计算第一时间与第一广告的时间的比值，如该比值在预设范围内，以该比值为快进的速度处理第一广告得到压缩后的第一广告。

可选的，所述终端为：平板电脑或个人电脑。

第三方面，提供一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行第一方面提供的方法。

实施本发明实施例，具有如下有益效果：

可以看出，本申请提供的技术方案采集第一图片确定包含人脸信息时，采集音频信息，然后对音频信息进行处理确定该关键字，对该关键字确定第一类别，然后查找第一类别对应的第一广告后，对第一广告播放，此技术方案能够抓取乘坐电梯人谈话的内容(即音频信息)来适应性的调整该广告的内容，这样就能够让广告的内容与用户的谈话内容更加的匹配，提高广告的投放效果，进而提高用户的体验度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种终端的结构示意图。

图2是一种基于语音的广告播放方法的流程示意图。

图3是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为一种终端(广告播放终端)结构示意图，如图1所示，该终端可以包括计算机设备，具体的可以为一个平板电脑、个人电脑或终端，该个人电脑如iOS个人电脑、Windows个人电脑等。为了描述的方便，下面称为终端，如图1所示，该终端包括：处理器101、显示屏104、通信模组102、存储器103、摄像头105和麦克风106。

处理器101是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器103内的软件程序和/或模块，以及调用存储在存储器103内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控或控制。可选的，处理器101可包括一个或多个处理单元；可选的，处理器101可集成应用处理器、调制解调处理器和人工智能芯片，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

此外，存储器104可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

通信模组103可用于信息的接收和发送。通常，通信模组103包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信模组103还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，例如移动通信协议或短距离通信协议(包括但是限于：蓝牙、WIFI等等)。

显示屏104，可以用于显示广告，该显示屏具体可以为LCD显示屏，当然还可以为其他形式的显示屏，例如触控显示屏。

摄像头105，具体用于采集图片或视频；麦克风106，用于采集音频信息。

终端还包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理系统与处理器101逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

参阅图2，图2提供了一种基于语音的广告播放方法，该方法如图2所示，由如图1所示的终端来执行，该方法包括如下步骤：

步骤S201、采集第一图片，确定第一图片包含人脸信息时，采集音频信息；

上述采集第一图片可以通过摄像头采集，上述人脸信息可以通过人脸识别算法来得到，该人脸识别算法具体可以采用例如百度人脸识别、腾讯人脸识别或谷歌人脸识别算法来确定，本申请并不局限上述人脸识别的具体算法。

步骤S202、对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；

上述步骤S202的方法具体可以包括：将该音频信息转换成文字信息，对该文字信息进行分词处理得到分词处理的文字信息，对该分词处理的文字信息的名词进行分析确定是否包含商品信息，将包含商品信息的名词组成商品组，将商品组中数量最多的商品信息确定为关键字。

上述分词处理可以采用现有的分词处理算法，对名词进行分析确定的方式可以采用自然语言分析算法，例如百度语音，谷歌语音助手等等。

步骤S203、提取第一类别对应的第一广告，控制显示屏播放该第一广告。

本申请提供的技术方案采集第一图片确定包含人脸信息时，采集音频信息，然后对音频信息进行处理确定该关键字，对该关键字确定第一类别，然后查找第一类别对应的第一广告后，对第一广告播放，此技术方案能够抓取乘坐电梯人谈话的内容(即音频信息)来适应性的调整该广告的内容，这样就能够让广告的内容与用户的谈话内容更加的匹配，提高广告的投放效果，进而提高用户的体验度。

可选的，上述方法在步骤S203之后还可以包括：

上述压缩的方式具体可以包括，计算第一时间与第一广告的时间的比值，如该比值在预设范围内，以该比值为快进的速度处理第一广告得到压缩后的第一广告。

此方法实现了对第一广告的压缩，这样能够在用户未走出电梯时，能够将第一广告看完。

具体的，上述依据第一图片确定用户的第一身份的实现方式可以包括：

采集第一图片，如第一图片包括人脸图片，对第一图片进行人脸识别确定第一图片的第一身份，上述对第一图片进行人脸识别确定第一图片的第一身份的方式具体可以为，将第一图片输入到神经网络模型执行多层运算得到正向运算结果，依据正向运算结果确定第一图片的身份。

如执行多层运算包括卷积运算，且卷积核为3*3卷积核时，执行卷积运算具体可以包括：

确定卷积运算的输入数据[CI][H][W]以及卷积核Kernel[CO][CI][3][3]，将卷积核Kernel[CO][CI][3][3]沿CO方向切割形成CO个Kernel[CI][3][3]，将CO个Kernel[CI][3][3]与输入数据执行三维卷积运算得到CO个三维卷积结果，将CO个三维卷积结果沿CO方向组合起来得到最终的输出结果[CO][CI][H-2][W-2]。

上述一次三维卷积运算具体可以包括，如CO＝1，将输入数据[CI][H][W]沿CI方向切割成CI个[H][W]，将Kernel[CI][3][3]沿CI方向切割成CI个Kernel[3][3]，将CI方向上相同的[H][W]与Kernel[3][3]执行卷积运算得到CI个[H-2][W-2]，沿CI方向对CI个[H-2][W-2]排列得到三维卷积结果[CI][H-2][W-2]。

上述CI为深度值，H为高度值，W为宽度值，CO为数量值，均为大于等于5的整数。

上述将CI方向上相同的[H][W]与Kernel[3][3]执行卷积运算得到CI个[H-2][W-2]具体可以包括：

将[H][W]沿H方向切割成H-2个矩阵[3][W]，每个矩阵[3][W]与Kernel[3][3]执行卷积计算得到[H-2][W-2]中的H方向一行的结果，计算H-2个矩阵[3][W]得到H-2行的结果即得到计算结果[H-2][W-2]；

上述将矩阵[3][W]与Kernel[3][3]执行卷积运算得到H方向一行结果具体可以包括：

如w＝6，则将矩阵[3][6]的矩阵按移动步长1切割成3个[3][4]的子矩阵[3][4]₁、[3][4]₂、[3][4]₃，其中下角标为子矩阵的序号，对[3][4]₁执行单位运算得到[H-2][W-2]中的H方向一行的一个元素值和序号的和，所述单位运算具体包括：将[3][4]₁每次提取H方向一行的4个元素，将4个元素的前3个元素与卷积核对应位置的元素执行内积得到一行内积结果，将第4个元素的最后一个元素与卷积核对应元素相乘得到一个乘积结果，所述卷积核对应元素为在Kernel[3][3]中高度值为提取H方向一行的值，宽度值为子矩阵的序号(如果提取[3][4]₁，提取H＝1时，对应位置的元素为第1元素，提取H＝2时，对应位置的元素为第4元素，如果提取[3][4]₂，提取H＝1时，对应位置的元素为第2元素，提取H＝2时，对应位置的元素为第5元素)，执行3次单位运算得到3行内积结果和3个乘积结果，将3行内积结果相加得到一个元素值，将3个乘积结果相加得到第一序号的和，对[3][4]₂、[3][4]₃也执行单位运算得到[H-2][W-2]中的H方向一行的另一个元素值、又一个元素值、第二序号的和以及第三序号的和，将第一序号的和、第二序号的和以及第三序号的和相加得到[H-2][W-2]中的H方向一行的还一个元素值；将一个元素值、另一元素值、又一元素值以及还以元素值沿w方向排列得到所述H方向一行的结果。

如w大于6，按移动步长1对矩阵每切割3次，在w方向移动步长变换成2一次切割子矩阵，这样相当于在w方向空一行数据，因为这行数据已经被计算了。

对于此方案，其具有如下的技术效果，对于卷积的数据提取，现有的设备每次提取均为128bit的数据，由于现有的数据基于浮点数据的运算，每个浮点数据无论其大小，均由32bit组成，那么一次提取128bit的数据刚好为H方向的一行数据，所以其提取数据的时，每提取一次，只用记录一次相同的H数据，即4个值只用记录一个H数据，这样节省了数据提取的效率，也减少了数据提取的量，另外，上述技术方案通过三次单次卷积的运算即能够得到4个元素的值，这样节省了卷积运算的次数，提高了卷积计算的效率，这样能够提高分辨的时间。

参阅图3，图3提供了一种终端，所述终端包括：处理器301、摄像头302、显示屏303和传感器304(例如麦克风)，

所述摄像头，用于采集第一图片；

所述处理器，用于对确定第一图片包含人脸信息时，控制传感器采集音频信息，对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；提取第一类别对应的第一广告，控制显示屏播放该第一广告。

可选的，所述处理单元，具体用于提取第一广告对应的推广物品，如该喜好信息包含该推广物品，确定该第一广告为与喜好信息匹配的广告。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于语音的广告播放方法的部分或全部步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于语音的广告播放方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、终端或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语音的广告播放方法，其特征在于，所述方法包括如下步骤：

提取第一类别对应的第一广告，控制显示屏播放该第一广告；

识别第一图片确定用户的第一身份，依据第一身份确定第一楼层，确定当前楼层运行到第一楼层的第一时间，如第一广告的时间大于第一时间，对第一广告的时间进行压缩至第一时间，播放压缩后的第一广告；

所述确定用户的第一身份的包括：

采集第一图片，如第一图片包括人脸图片，对第一图片进行人脸识别确定第一图片的第一身份，上述对第一图片进行人脸识别确定第一图片的第一身份的方式具体为，将第一图片输入到神经网络模型执行多层运算得到正向运算结果，依据正向运算结果确定第一图片的身份；

若执行多层运算包括卷积运算，且卷积核为3*3卷积核时，执行卷积运算具体包括：

确定卷积运算的输入数据[CI][H][W]以及卷积核Kernel[CO][CI][3][3]，将卷积核Kernel[CO][CI][3][3]沿CO方向切割形成CO个Kernel [CI][3][3]，将CO个Kernel [CI][3][3]与输入数据执行三维卷积运算得到CO个三维卷积结果，将CO个三维卷积结果沿CO方向组合起来得到最终的输出结果[CO] [CI] [H-2][W-2]；

一次三维卷积运算具体包括，若CO=1，将输入数据[CI][H][W]沿CI方向切割成CI 个[H][W]，将Kernel [CI][3][3]沿CI方向切割成CI个Kernel[3][3]，将CI方向上相同的[H][W]与Kernel[3][3]执行卷积运算得到CI个[H-2][W-2]，沿CI方向对CI个[H-2][W-2]排列得到三维卷积结果[CI] [H-2][W-2]；

上述CI为深度值，H为高度值，W为宽度值，CO为数量值，均为大于等于5的整数；

上述将CI方向上相同的[H][W]与Kernel[3][3]执行卷积运算得到CI个[H-2][W-2]具体包括：

上述将矩阵[3][W]与Kernel[3][3]执行卷积运算得到H方向一行结果具体包括：

若w=6，则将矩阵[3] [6]的矩阵按移动步长1切割成3个[3] [4]的子矩阵[3] [4]₁、[3] [4]₂、[3] [4]₃，其中下角标为子矩阵的序号，对[3] [4]₁执行单位运算得到[H-2][W-2]中的H方向一行的一个元素值和序号的和，所述单位运算具体包括：将[3] [4]₁每次提取H方向一行的4个元素，将4个元素的前3个元素与卷积核对应位置的元素执行内积得到一行内积结果，将第4个元素的最后一个元素与卷积核对应元素相乘得到一个乘积结果，所述卷积核对应元素为在Kernel[3][3]中高度值为提取H方向一行的值，宽度值为子矩阵的序号，如果提取[3] [4]₁，提取H=1时，对应位置的元素为第1元素，提取H=2时，对应位置的元素为第4元素，如果提取[3] [4]₂，提取H=1时，对应位置的元素为第2元素，提取H=2时，对应位置的元素为第5元素，执行3次单位运算得到3行内积结果和3个乘积结果，将3行内积结果相加得到一个元素值，将3个乘积结果相加得到第一序号的和，对[3] [4]₂、[3] [4]₃也执行单位运算得到[H-2][W-2]中的H方向一行的另一个元素值、又一个元素值、第二序号的和以及第三序号的和，将第一序号的和、第二序号的和以及第三序号的和相加得到[H-2][W-2]中的H方向一行的还一个元素值；将一个元素值、另一元素值、又一元素值以及还以元素值沿w方向排列得到所述H方向一行的结果。

2.根据权利要求1所述的方法，其特征在于，所述对该音频信息进行识别确定该音频信息的关键字具体包括：

3.根据权利要求1所述的方法，其特征在于，所述方法对第一广告的时间进行压缩至第一时间具体包括：

4.一种终端，所述终端包括：处理器、摄像头和显示屏，其特征在于，

所述摄像头，用于采集第一图片；

所述处理器，用于对确定第一图片包含人脸信息时，采集音频信息，对该音频信息进行识别确定该音频信息的关键字，确定该关键字对应的第一类别；提取第一类别对应的第一广告，控制显示屏播放该第一广告；

所述处理器，具体用于识别第一图片确定用户的第一身份，依据第一身份确定第一楼层，确定当前楼层运行到第一楼层的第一时间，如第一广告的时间大于第一时间，对第一广告的时间进行压缩至第一时间，播放压缩后的第一广告；

所述确定用户的第一身份的包括：

5.根据权利要求4所述的终端，其特征在于，

所述处理器，具体用于将该音频信息转换成文字信息，对该文字信息进行分词处理得到分词处理的文字信息，对该分词处理的文字信息的名词进行分析确定是否包含商品信息，将包含商品信息的名词组成商品组，将商品组中数量最多的商品信息确定为关键字。

6.根据权利要求4所述的终端，其特征在于，

所述处理器，具体用于计算第一时间与第一广告的时间的比值，如该比值在预设范围内，以该比值为快进的速度处理第一广告得到压缩后的第一广告。

7.一种计算机可读存储介质，其存储用于电子数据交换的程序，其中，所述程序使得终端执行如权利要求1-3任意一项提供的方法。