CN117678016A

CN117678016A - 通过分析声音信息提供匹配信息的方法、装置及程序

Info

Publication number: CN117678016A
Application number: CN202280035411.7A
Authority: CN
Inventors: 韩允畅; 朴正修; 李秀斌; 丁一荣; 林铉基; 李敦文
Original assignee: Coke Co ltd
Current assignee: Coke Co ltd
Priority date: 2021-05-28
Filing date: 2022-04-07
Publication date: 2024-03-08
Also published as: EP4328910A4; US20240096314A1; JP2024518584A; KR102388138B1; WO2022250285A1; KR20220170741A; KR102652971B1; EP4328910A1; JP7686306B2

Abstract

本发明一实施例公开通过分析声音信息提供匹配信息的方法。上述方法可包括如下步骤：获取声音信息；基于上述声音信息获取用户特性信息；以及提供与上述用户特性信息相对应的匹配信息。

Description

通过分析声音信息提供匹配信息的方法、装置及程序

技术领域

本发明涉及用于向用户提供适当匹配信息的方法，更详细地，涉及通过分析声音信息向用户提供最佳匹配信息的技术。

背景技术

随着智能电视(TV)、智能手机、平板电脑(PC)等各种电子装置的使用及互联网服务的普遍化，通过电子装置或在线提供的广告正在逐渐增加。

例如，应用电子装置或在线提供广告的方法有将广告商在各个网站设定的广告内容以横幅方式提供给访问该网站的所有用户等。作为具体一例，随着最近线上设定接收广告的广告观看人员目标，向广告观看人员目标提供定制型广告。

为了提供定制型广告而将广告观看人员设定为目标的方法有在线获取访问人员的信息并通过分析识别访问人员的兴趣领域。

这种在线广告作为一种有限的广告方式，在访问人员访问特定网站使用服务时，收集访问人员的信息。并且，随着基于预设用户兴趣领域的用户信息提供在线广告，当用户的兴趣领域产生变化时，除非用户直接改变所设定的兴趣领域，否则仅显示与先前设定的兴趣领域相关的广告，因此，将无法提供用户的新兴趣领域信息。

所以，上述现有广告方法在根据访问人员的兴趣领域提供广告的层面上难以提高广告提供效率。而且，这种广告方法无法主动对应随时间变化的用户兴趣领域。

现有技术文献

专利文献

韩国授权专利10-2044555

发明内容

技术问题

为解决上述问题，本发明的目的在于，通过分析声音信息向用户提供更加适当的匹配信息。

本发明所要实现的目的并不局限于以上提及的目的，本发明所属技术领域的普通技术人员可通过以下记载内容明确理解未提及的其他目的。

技术方案

为了实现上述目的，本发明多个实施例公开通过分析声音信息提供匹配信息的方法。上述方法可包括如下步骤：获取声音信息；基于上述声音信息获取用户特性信息；以及提供与上述用户特性信息相对应的匹配信息。

在代替性的实施例中，基于上述声音信息获取用户特性信息的步骤可包括如下步骤：通过分析上述声音信息来识别用户或对象；以及基于所识别的上述用户或对象生成上述用户特性信息。

在代替性的实施例中，基于上述声音信息获取用户特性信息的步骤可包括如下步骤：通过分析上述声音信息来生成与用户在特定空间内活动的时间相关的活动时间信息；以及基于上述活动时间信息生成上述用户特性信息。

在代替性的实施例中，提供与上述用户特性信息相对应的匹配信息的步骤可包括如下步骤：基于分别与在预定时间内获取的多个声音信息相对应的多个用户特性信息的各个获取时间点及频率来提供上述匹配信息。

在代替性的实施例中，上述获取声音信息的步骤包括如下步骤：对所获取的上述声音信息执行预处理；以及识别与执行预处理的上述声音信息相对应的声音特性信息，上述声音特性信息可包含第一特性信息及第二特性信息，上述第一特性信息用于判断上述声音信息是否与言语声音及非言语声音中的至少一个相关，上述第二特性信息用于区分对象。

在代替性的实施例中，基于上述声音信息获取用户特性信息的步骤包括如下步骤：基于与上述声音信息相对应的上述声音特性信息获取上述用户特性信息，获取上述用户特性信息的步骤可包括以下步骤中的至少一个：当上述声音特性信息包含与言语声音相关的第一特性信息时，向第一声音模型输入上述声音信息来获取与上述声音信息相对应的用户特性信息；或者当上述声音特性信息包含与非言语声音相关的第一特性信息时，向第二声音模型输入上述声音信息来获取与上述声音信息相对应的用户特性信息。

在代替性的实施例中，上述第一声音模型包括以能够通过对与言语声音相关的声音信息执行分析来识别与上述声音信息相关的文本、主题或情感中的至少一个的方式学习的神经网络模型，上述第二声音模型包括以能够通过对与非言语声音相关的声音信息执行分析来获取与上述声音信息相关的对象识别信息或对象状态信息的方式学习的神经网络模型，上述用户特性信息可包含第一用户特性信息及第二用户特性信息中的至少一个，上述第一用户特性信息为与上述声音信息相关的文本、主题或情感中的至少一个，上述第二用户特性信息为与上述声音信息相关的上述对象识别信息或上述对象状态信息。

在代替性的实施例中，提供与上述用户特性信息相对应的匹配信息的步骤可包括如下步骤：当所获取的上述用户特性信息包含上述第一用户特性信息及上述第二用户特性信息时，获取有关上述第一用户特性信息与上述第二用户特性信息之间的关联性的关联信息；基于上述关联信息更新匹配信息；以及提供更新的上述匹配信息。

在代替性的实施例中，基于上述用户特性信息提供匹配信息的步骤包括如下步骤：基于分别与按照预定时间周期获取的一个以上声音信息相对应的一个以上用户特性信息生成环境特性列表；以及基于上述环境特性列表提供上述匹配信息，上述环境特性列表可以为分别对按照上述预定时间周期获取的多个用户特性信息进行统计的信息。

在代替性的实施例中，提供与上述用户特性信息相对应的匹配信息的步骤可包括如下步骤：基于上述环境特性列表识别用于提供上述匹配信息的第一时间点；以及对应上述第一时间点提供上述匹配信息。

本发明再一实施例公开的装置用于执行通过分析声音信息提供匹配信息的方法。上述装置可包括：存储器，用于存储一个以上指令；以及处理器，用于执行存储在上述存储器的上述一个以上指令，上述处理器可通过执行上述一个以上指令来执行通过分析声音信息提供匹配信息的方法。

本发明另一实施例公开的计算机程序存储在计算机可读记录介质。上述计算机程序可与作为硬件的计算机相结合，执行上述通过分析声音信息提供匹配信息的方法。

本发明的其他具体事项可参照以下详细说明及附图。

发明的效果

根据本发明多个实施例，本发明可基于所获取的与用户生活环境相关的声音信息提供目标匹配信息来最大限度地提高广告效果。

本发明的效果并不局限于以上提及的效果，本发明所属技术领域的普通技术人员可通过以下记载内容明确理解未提及的其他效果。

附图说明

图1为简要示出用于执行本发明一实施例的通过分析声音信息提供匹配信息的方法的系统图。

图2为示出用于提供本发明一实施例的通过分析声音信息提供匹配信息的方法的服务器的硬件结构图。

图3为例示出本发明一实施例的通过分析声音信息提供匹配信息的方法的流程图。

图4为例示出本发明一实施例的基于声音信息获取用户特性信息的流程图。

图5为例示出本发明一实施例的基于用户特性信息提供匹配信息的流程图。

图6为用于说明本发明一实施例的在用户定位空间内获取多种声音信息的过程及提供与声音信息相对应的匹配信息的方法的例示图。

最佳实施方式

以下，参照附图说明多个实施例。在本说明书中，多个实施例仅用于理解本发明。但是，应当理解的是，这种实施例也可在没有具体说明的情况下执行。

在本说明书中，所使用的术语“组件”、“模块”、“系统”等是指计算机相关实体、硬件、固件、软件、软件及硬件的组合或软件的执行。例如，组件可以为处理器运行的处理过程(procedure)、进程、对象、执行线程、程序和/或计算机，但并不局限于此。例如，计算装置执行的应用程序及计算装置均可以为组件。一个以上组件可存在于处理器和/或执行线程内。一组件可位于一个计算机内，一组件可分配在两个以上计算机之间。并且，这种组件可由具有存储在其内部的多种数据结构的多个计算机可读介质执行。例如，多个组件可基于具有一个以上数据包的信号(例如，从与本地系统、分散系统中的其他组件相互作用的一个组件接收数据和/或信号并通过互联网等网络与其他系统传输的数据)通过本地和/或远程处理进行通信。

并且，术语“或”是指包容性的“或”而并非排他性的“或”。即，除非另有定义或在文脉上明确表示，否则“X利用A或B”是指自然包容性置换中的一种含义。即，可表示“X利用A或X利用B”、“X均利用X及B”、“X利用A或B”等所有情况。并且，在本说明书中，所使用的术语“和/或”是指包括相关项目中的一个以上项目的所有组合。

并且，“包括”和/或“包含”等术语是指相应特征/或结构要素的存在。但是，术语“包括”和/或“包含”并不表示排除一个以上其他特征、结构要素和/或其组合侧存在或附加可能性。并且，除非在本说明书及权利要求书中另有定义或在文脉上明确表示其他含义，否则单数的表达是指“一个或一个以上”的含义。

本发明所属技术领域的普通技术人员应当理解的是，与在此公开的实施例相关地，所说明的多个例示逻辑块、结构、模块、电路、装置、逻辑及算法步骤可通过电子硬件、计算机软件或其组合来实现。以下，将根据其功能说明多种例示组件、块、结构、装置、逻辑、模块、电路及步骤，以便明确说明硬件及软件的可互换性。然而，功能是否由硬件或软件实现取决于赋予整体系统的特定应用程序(application)及设计限制。本发明所属技术领域的普通技术人员可为了各个特定应用程序而实现通过多种方法说明的功能。但是，这种实现的决定不应解释为脱离本发明范畴的含义。

所公开的实施例仅用于说明，以便本发明所属技术领域的普通技术人员能够轻松利用或实施本发明。本发明所属技术领域的普通技术人员可对实施例进行多种变更。在此定义的普通原理可在不脱离本发明范畴的前提下应用于其他实施例。因此，本发明并不限定于在此公开的实施例。本发明应基于在此公开的原理及与新颖特征一致的最宽范围进行解释。

在本说明书中，计算机是指包括至少一个处理器的所有类型硬件装置，根据本发明实施例，应将其理解为包括相应硬件装置运行软件结构的含义。例如，计算机可包括智能手机、平板电路、台式计算机、笔记本电脑及各个装置驱动的用户客户端及应用程序，但并不局限于此。

以下，参照附图详细说明本发明实施例。

在本说明书中，所说明的各个步骤可由计算机执行，但是，各个步骤的主题并不局限于此，根据本发明实施例，各个步骤的至少一部分也可由不同装置执行。

其中，根据本发明多个实施例，通过分析声音信息提供匹配信息的方法可基于获取多个用户分别在现实生活中的多种声音信息来向各个用户提供最适当的匹配信息。例如，匹配信息可以为广告的相关信息。即，向用户提供最适当的匹配信息是指向用户提供有效提高购买欲望的广告，即，是指提供最适当的广告信息。即，本发明通过分析声音信息提供匹配信息的方法可对从用户生活空间内获取的多种声音信息进行分析来向相应用户提供定制型广告信息。在广告商的立场上，可由此对广告感兴趣的潜在客户层或目标客户层选择性地展示广告，因此，不仅能够显著减少广告成本，而且，可最大限度地提高广告效果。并且，在消费者的立场上，由于只接收自身感兴趣或满足需求的广告，因此，可提供增加信息检索便利性的效果。

图1为简要示出用于执行本发明一实施例的通过分析声音信息提供匹配信息的方法的系统图。如图1所示，为了执行通过分析声音信息提供匹配信息的方法，本发明一实施例的系统可包括通过分析声音信息提供匹配信息的服务器100、用户终端200及外部服务器300。

其中，图1所示的通过分析声音信息提供匹配信息的系统仅为本发明一实施例，其结构要素并不限定于此，也可根据需求附加、变更或省略其结构要素。

在本发明一实施例中，通过分析声音信息提供匹配信息的服务器100可获取声音信息，可通过分析所获取的声音信息来提供最适当的匹配信息。即，通过分析声音信息提供匹配信息的服务器100获取用户在现实生活中的多种声音信息，随着通过声音模型对所获取的声音信息进行分析来识别与用户兴趣相关的信息，可向相应用户提供最适当的匹配信息。

根据本发明实施例，通过分析声音信息提供匹配信息的服务器100可包括基于应用程序编程接口(API，Application Programming Interface)实现的任意服务器。例如，用户终端200获取声音信息并对其执行分析，可通过应用程序编程接口向服务器100提供声音信息识别结果。其中，声音信息识别结果是指与声音信息分析相关的特征。作为具体一例，声音信息识别结果可以为通过短时傅里叶变换(STFT，Short-Time Fourier Transform)处理声音信息获取的语谱图(Spectrogram)。语谱图用于可视化识别声音或波动，可由波形(waveform)和频谱(spectrum)的特征组合而成。语谱图可基于时间轴和频率轴的变化将振幅差异表示为印刷密度或显示颜色的差异。

作为另一例，声音信息识别结果可包括通过梅尔滤波器组(Mel-Filter Bank)处理语谱图获取的梅尔语谱图(Mel-Spectrogram)。通常，人耳蜗的振动部分可随着语音数据频率而有所不同。人耳蜗善于检测低频带的频率变化而不善于检测高频带的频率变化。因此，可应用梅尔滤波器组从语谱图获取梅尔声谱图以获取与人耳蜗对语音数据的特性相似的识别能力。即，梅尔滤波器组在低频带应用少量的滤波器组，可在高频带逐渐应用更宽的滤波器组。换言之，为了以人耳蜗的相似特性识别声音信息，用户终端200可向语谱图应用梅尔滤波器组来获取梅尔语谱图。即，梅尔语谱图可包括反映人听觉特性的频率成分。

服务器100可基于从用户终端200获取的声音信息识别结果向相应用户提供最适当的匹配信息。在此情况下，服务器100从用户终端200接收声音信息识别结果(例如，基于用户兴趣预测的语谱图或梅尔语谱图)，因此，可解决收集声音信息产生的用户隐私问题。

在本发明一实施例中，声音模型(例如，人工智能模型)由一个以上网络函数构成，通常一个以上网络函数可由能够称为“节点”的相互连接的计算单位集合构成。这种“节点”也可称为“神经元(neuron)”。一个以上网络函数包括至少一个节点。构成一个以上网络函数的节点(或神经元)可通过一个以上“链接”相连接。

在人工智能模型内，通过链接相连接的一个以上节点可相对形成输入节点及输出节点的关系。输入节点及输出节点作为相对概念，相对于一个节点存在输出节点关系的任意节点可以在与另一节点的关系中处于输入节点关系，反之亦然。如上所述，输入节点与输出节点的关系能够以链接为中心生成。一个以上输出节点可通过链接与一个输入节点相连接，反之亦然。

在通过一个链接相连接的输入节点与输出节点关系中，输出节点可基于输入到输入节点的数据确定其值。其中，使得输入节点与输出节点相连接的节点可具有加权值(weight)。加权值为可变的，为了使得人工智能模型执行所期望的功能，可通过用户或算法来改变。例如，当一个以上输入节点分别通过链接与一个输出节点相连接时，输出节点可基于与上述输出节点相连接的输入节点的多个输入值及由对应各个输入节点的链接设定的加权值来确定输出节点值。

如上所述，在人工智能模型中，一个以上节点通过一个以上链接相连接，在人工智能模型内形成输入节点及输出节点关系。可基于人工智能模型内的节点数量和链接数量、节点与链接之间的连接关系、分别赋予链接的加权值确定人工智能模型的特性。例如，当存在相同数量的节点及链接且存在多个链接之间加权值不同的两个人工智能模型时，两个人工智能模型可被识别为互不相同。

在构成人工智能模型的多个节点中，一部分可基于与初始输入节点的距离构成一个层(layer)。例如，与初始输入节点的距离为n的节点集合可构成n层。与初始输入节点的距离可被定义为从初始输入节点到达相应节点所需经过链接的最少数量。然而，这种层作为用于说明而随机定义的，在人工智能模型内的层顺序可按照与上述不同的方法定义。例如，节点的层也可被定义为与最终输出节点的距离。

在与人工智能模型内的多个节点中的其他节点的关系中，初始输入节点是指数据未通过链接直接输入的一个以上节点。或者，在人工智能模型网络内以链接为基准的节点之间的关系中，是指通过链接相连接的其他输入节点未具备的节点。与此相似地，在与人工智能模型内的多个节点中的其他节点的关系中，最终输出节点是指未具有输出节点的一个以上节点。并且，隐藏节点是指构成人工智能模型的节点，而并非初始输入节点及最终输出节点。在本发明一实施例的人工智能模型中，输入层的节点可多于接近输出层的隐藏层的节点，可以为节点数量随着从输入层进展为隐藏层而减少的人工智能模型。

人工智能模型可包括一个以上隐藏层。隐藏层的隐藏节点可将先前层的输出及周围隐藏节点的输出视作输入。各个隐藏层的隐藏节点数量可相同或不同。输入层的节点数量取决于输入数据的数据字段数量，可以与隐藏节点数量相同或不同。输入于输入层的输入数据可通过隐藏层的隐藏节点运算，可通过作为输出层的全连接层(FCL，fullyconnected layer)输出。

在本发明多个实施例中，人工智能模型可通过将多个声音信息及对应各个声音信息的特定信息视作学习数据来实现监督学习(supervised learning)。但并不限定于此，也可应用多种学习方法。

其中，监督学习作为通常通过标记特定数据及与特定数据相关的信息来生成学习数据并利用其学习的方法，通过标记具有因果关系的两个数据来生成学习数据，是指通过所生成的学习数据进行学习的方法。

在本发明一实施例中，当一个以上网络函数的学习被执行预定批次以上时，通过分析声音信息提供匹配信息的服务器100可利用验证数据确定是否终止学习。预定批次可以为整体学习目标批次的一部分。

验证数据可由标记的至少一部分学习数据构成。即，通过分析声音信息提供匹配信息的服务器100通过学习数据执行人工智能模型的学习，在人工智能模型的学习被反复执行预定批次后，可利用验证数据判断人工智能模型的学习效果是否达到预定水平以上。例如，当利用100个学习数据执行目标迭代学习次数为10回的学习时，在执行预定批次为10回的迭代学习后，通过分析声音信息提供匹配信息的服务器100可利用10个验证数据执行3回的迭代学习，在执行3回迭代学习的过程中，若人工智能模型的输出变为预定水平以下，则可判断进一步的学习毫无意义并结束学习。

即，验证数据可基于在人工智能模型的迭代学习中判断各个批次的学习是否达到规定效果以上或以下来确定是否完成学习。上述学习数据、验证数据的数量及迭代次数仅为示例，本发明并不局限于此。

通过分析声音信息提供匹配信息的服务器100基于测试数据测定一个以上网络函数的性能来确定是否激活一个以上网络函数，可生成人工智能模型。测试数据可用于验证人工智能模型的性能，可由学习数据中的至少一部分构成。例如，70％的学习数据可用于人工智能模型的学习(即，用于调整加权值的学习以输出与标签相似的结果)，30％的学习数据可用作测试数据，用于验证人工智能模型的性能。通过分析声音信息提供匹配信息的服务器100向完成学习的人工智能模型输入测试数据并测定误差，可基于所测定的误差是否到达预定性能来确定是否激活人工智能模型。

针对完成学习的人工智能模型，通过分析声音信息提供匹配信息的服务器100可利用测试数据对完成学习的人工智能模型进行性能验证，若完成学习的人工智能模型达到预定水平以上性能，则可激活相应人工智能模型以在其他应用程序中使用。

并且，若完成学习的人工智能模型达到预定水平以下性能，则通过分析声音信息提供匹配信息的服务器100可注销相应人工智能模型并删除。例如，最佳刺激位置计算服务器100可基于准确率(accuracy)、精确率(precision)、召回率(recall)等因素判断所生成的人工智能模型的性能。上述性能评估基准仅为示例，本发明并不局限于此。根据本发明一实施例，最佳刺激位置计算服务器100可独立学习各个人工智能模型开生成多个人工智能模型，可通过评估性能仅使用规定性能以上的人工智能模型。但是，并不限定于此。

在本说明书中，运算模型、神经网、网络函数、神经网络(neural network)可用作相同含义(以下，统称为神经网络)。数据结构可包括神经网络。而且，包括神经网络的数据结构可存储在计算机可读介质。包括神经网络的数据结构可包括输入于神经网络的数据、神经网络的加权值、神经网络的超参数、从神经网络获取的数据、神经网络的各个节点或与层相关的激活函数、用于学习神经网络的损失函数。包括神经网络的数据结构可包括上述公开结构中的任意结构要素。即，包括神经网络的数据结构可包括输入于神经网络的数据、神经网络的加权值、神经网络的超参数、从神经网络获取的数据、神经网络的各个节点或与层相关的激活函数、用于训练神经网络的损失函数等或其任意组合。除上述结构外，包括神经网络的数据结构可包括用于确定神经网络特性的任意其他信息。并且，数据结构可包括用于神经网络的运算过程或由此产生的所有类型数据，并不局限于上述事项。计算机可读介质可包括计算机可读记录介质和/或计算机可读传输介质。神经网络可由通常称为节点的相连接的计算单位集合构成。这种节点也可称为神经元(neuron)。神经网络包括至少一个节点。

根据本发明一实施例，通过分析声音信息提供匹配信息的服务器100可以为提供云计算服务的服务器。更具体地，通过分析声音信息提供匹配信息的服务器100可以为提供云计算服务的服务器，基于互联网计算的一种通过连接互联网的其他计算机进行处理而并非用户的计算机。上述云计算服务可以为如下服务，即，在互联网上存储资料，即使没有在自身计算机设置用户所需资料或程序，也可通过访问互联网在任何地点使用，可通过简单的操作及点击轻易共享并传输存储在互联网上的资料。并且，云计算服务不仅在互联网上的服务器存储资料，而且，在没有单独设置程序的情况下，可通过网页提供的应用程序功能执行所期望的工作，是指使得多名人员能够同时共享文件并执行工作的服务。并且，云计算服务可由基础设施即服务(IaaS，Infrastructure as a Service)、平台即服务(PaaS，Platform as a Service)、软件即服务(SaaS，Software as a Service)、虚拟机云服务器及容器云服务器中的至少一个实现。即，本发明的通过分析声音信息提供匹配信息的服务100可由上述云计算服务中的至少一个实现。以上记载的云计算服务仅为示例，也可包括构筑本发明云计算环境的任意平台。

在本发明多个实施例中，通过分析声音信息提供匹配信息的服务器100可通过网络400与用户终端200相连接，可生成提供用于分析声音信息的声音模型，除此之外，可基于通过声音模型分析声音信息的信息(例如，用户特性信息)提供各个用户相应的最佳匹配信息。

其中，网络400是指能够与多个终端及服务器等各个节点实现信息交换的连接结构。例如，网络400可包括局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、互联网(WWW，World Wide Web)、有线无线数据通信网、电话网、有线无线电视通信网等。

并且，其中，无线数据通信网包括3G、4G、5G、第三代合作伙伴计划(3GPP，3rdGeneration Partnership Project)、第五代合作伙伴计划(5GPP，5th GenerationPartnership Project)、长期演进(LTE，Long Term Evolution)、全球微波接入互操作性(WIMAX，World Interoperability for Microwave Access)、Wi-Fi、互联网(Internet)、局域网(LAN，Local Area Network)、无线局域网(Wireless LAN，Wireless Local AreaNetwork)、广域网(WAN，Wide Area Network)、个人局域网(PAN，Personal Area Network)、射频(RF，Radio Frequency)、蓝牙(Bluetooth)网络、近场通信(NFC，Near-FieldCommunication)网络、卫星广播网络、模拟广播网络、数字多媒体广播(DMB，DigitalMultimedia Broadcasting)网络等，但并不限定于此。

在本发明一实施例中，用户终端200可通过网络400与通过分析声音信息提供匹配信息的服务器100相连接，可由通过分析声音信息提供匹配信息的服务器100提供多个声音信息(例如，言语声音信息或非言语声音信息)，可对所提供的声音信息接收作为其对应的各种信息(例如，对应声音信息的用户特性信息及对应用户特性信息的匹配信息等)。

其中，用户终端200作为确保便携性及移动性的无线通信装置，可包括导航仪、个人通讯服务系统(PCS，Personal Communication System)、全球移动通信系统(GSM，GlobalSystem for Mobile communications)、个人数字蜂窝系统(PDC，Personal DigitalCellular)、个人手持式电话系统(PHS，Personal Handyphone System)、个人数字助理(PDA，Personal Digital Assistant)、国际移动电话系统2000(IMT，InternationalMobile Telecommunication)、码分多路访问2000(CDMA，Code Division MultipleAccess)、宽带码分多址(W-CDMA，W-Code Division Multiple Access)、无线宽带接入(Wibro，Wireless Broadband Internet)终端、智能手机(Smartphone)、智能平板(Smartpad)、平板电脑(Tablet PC)等所有类型的手持式(Handheld)无线通信装置，但并不限定于此。例如，用户终端200还可包括基于热词(hot word)与用户进行互动来提供音乐欣赏、信息检索等多种功能的人工智能(AI)扬声器及人工智能电视等。

在本发明一实施例中，用户终端200可包括第一用户终端210及第二用户终端220。用户终端(第一用户终端210及第二用户终端220)具有通过网络400彼此通信或与其他实体进行通信的机制，在通过分析声音信息提供匹配信息的系统中，是指任意形态的实体。作为一例，第一用户终端210可包括与匹配信息接收用户相关的任意终端。并且，第二用户终端220可包括与用于注册匹配信息的广告商相关的任意终端。这种用户终端200包括显示器，因此，随着接收用户输入，可向用户提供任意形态的输出。

在本发明一实施例中，外部服务器300可通过网络400与通过分析声音信息提供匹配信息的服务器100相连接，通过分析声音信息提供匹配信息的服务器100应用人工智能模型提供分析声音信息所需的各种信息/数据，或者，随着应用人工智能模型执行声音信息分析，可接收并存储管理所导出的结果数据。例如，外部服务器300可以为存储服务器，单独设置在通过分析声音信息提供匹配信息的服务器100的外部，但并不限定于此。以下，参照图2对通过分析声音信息提供匹配信息的服务器100说明其硬件结构。

参照图2，本发明一实施来的最佳刺激位置计算服务器100(以下，称为“服务器100”)可包括：一个以上处理器110；存储器120，用于加载处理器110执行的计算机程序151；总线130；通信接口140；以及辅助存储器150，用于存储计算机程序。其中，图2仅示出了与本发明实施例相关的结构要素。因此，本发明所属技术领域的普通技术人员应当理解的是，除图2所示的结构要素外，还可包括其他通用结构要素。

处理器110用于控制服务器100的各个结构整体工作。处理器110可包括中央处理器(CPU，Central Processing Unit)、微处理器(MPU，Micro Processor Unit)、微控制器(MCU，Micro Controller Unit)、图形处理器(GPU，Graphic Processing Unit)或本发明技术领域中已知的任意类型处理器。

处理器110可读取存储在存储器120的计算机程序并执行用于本发明一实施例的人工智能模型的数据处理。根据本发明一实施例，处理器110可执行用于学习神经网络的计算，例如，处理输入数据以在深度学习(DL，deep learning)中的学习、从输入数据提取特征、计算误差及利用反向传播(backpropagation)更新神经网络的加权值等。

并且，处理器110可使得中央处理器(CPU)、通用图像处理器(GPGPU)及张量处理器(TPU)中的至少一个处理网络函数的学习。例如，中央处理器与通用图像处理器可以一同处理网络函数的学习、利用网络函数的数据分类。并且，在本发明一实施例中，多个计算装置的处理器可一同处理网络函数的学习、利用网络函数的数据分类。并且，在本发明一实施例中，计算装置执行的计算机程序可以为中央处理器、通用图像处理器及张量处理器能够执行的程序。

在本说明书中，网络函数可用于人工神经网络与神经网络的相互交换。在本发明中，网络函数可包括一个以上神经网络，在此情况下，网络函数的输出可以为一个以上神经网络的输出集成(ensemble)。

处理器110可通过读取存储在存储器120的计算机程序来提供本发明实施例的声音模型。根据本发明一实施例，处理器110可获取与声音信息相对应的用户特性信息。根据本发明一实施例，处理器110可执行用于学习声音模型的计算。

根据本发明一实施例，处理器110可处理服务器100的整体工作。处理器110可通过处理上述结构要素输入或输出的信号、数据、信息等或驱动存储在存储器120的应用程序来向用户或用户终端提供或处理适当信息或功能。

并且，处理器110可为了执行本发明实施例的方法而执行至少一个应用程序或程序的运算，服务器100可包括一个以上处理器。

在本发明多个实施例中，处理器110还可包括随机存取存储器(RAM，RandomAccess Memory，未示出)及只读存储器(ROM，Read-Only Memory，未示出)，用于临时存储和/或永久存储在处理器110内部处理的信号(或数据)。并且，处理器110可以为系统级芯片(SoC，system on chip)，包括图形处理器、随机存取存储器及只读存储器中的至少一个。

存储器120用于存储各种数据、指令和/或信息。存储器120可为了执行本发明多个实施例的方法/工作而从辅助存储器150加载计算机程序151。若计算机程序151加载于存储器120，则处理器110可通过执行构成计算机程序151的一个以上指令来执行上述方法/工作。存储器120可以为随机存取存储器等易失性存储器，但是，本发明的技术范围并不限定于此。

总线130用于提供服务器100的结构要素之间的通信功能。总线130可以为地址总线(address Bus)、数据总线(Data Bus)及控制总线(Control Bus)等多种类型总线。

通信接口140用于支持服务器100的无线有线网络通信。并且，通信接口140也可支持除网络外的多种通信方式。为此，通信接口140可包括本发明技术领域中已知的通信模块。在本发明多个实施例中，通信接口140也可被省略。

辅助存储器150可永久存储计算机程序151。当服务器100执行通过分析声音信息提供匹配信息的进程时，辅助存储器150可为了提供通过分析声音信息提供匹配信息的进程而存储各种所需信息。

辅助存储器150可包括只读存储器(ROM，Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable ROM)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable ROM)、闪存等非易失性存储器、硬盘、移动盘或本发明所属技术领域中已知的任意类型计算机可读记录介质。

计算机程序151可包括一个以上指令，当计算机程序151加载于存储器120时，使得处理器110执行本发明多个实施例的方法/工作。即，处理器110可通过执行上述一个以上指令来执行本发明多个实施例的上述方法/工作。

在本发明一实施例中，计算机程序151可包括一个以上指令，以执行通过分析声音信息提供匹配信息的方法，上述方法包括如下步骤：获取声音信息；基于声音信息获取用户特性信息；以及提供与用户特性信息相对应的匹配信息。

本发明实施例的方法或算法步骤可由硬件直接实现，或者，由硬件执行的软件模块实现，或者，可通过它们的组合来实现。软件模块可存在于随机存取存储器(RAM，RandomAccess Memory)、只读存储器(ROM，Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable ROM)、带电可擦可编程只读存储器(EEPROM，ElectricallyErasable Programmable ROM)、闪存(Flash Memory)、硬盘、移动盘、只读光盘存储器(CD-ROM)或本发明所属技术领域中已知的任意类型计算机可读记录介质。

本发明的结构要素与作为硬件的计算机相结合，可作为程序(或应用程序)存储在介质。本发明的结构要素可由软件编程或软件要素执行，与此相似地，实施例包括数据结构、进程、例程或由其他编程结构组合实现的多种算法，可由C语音、C++语言、Java语言、汇编语音(assembler)等编程或脚本语言实现。在功能层面上，可由一个以上处理器执行的算法实现。以下，参照图3至图6说明服务器100执行的通过分析声音信息提供匹配信息的方法。

根据本发明一实施例，在步骤S110中，服务器100可执行获取声音信息的步骤。根据本发明实施例，声音信息可通过与用户相关的用户终端200获取。例如，与用户相关的用户终端200可包括智能手机(Smartphone)、智能平板(Smartpad)、平板电脑(Tablet PC)等所有类型手持式(Handheld)无线通信装置或设置在特定空间(例如，用户的居住空间)的电子装置(例如，通过麦克风接收声音信息的装置)等。

根据本发明一实施例，声音信息的获取是指接收或装载(loading)存储在存储器的声音信息。并且，声音信息的获取可意味着基于有线/无线通信方式从其他存储介质、其他服务器、相同服务器内的额外处理模块接收或装载声音信息。

根据本发明再一实施例，声音信息的获取可基于用户是否位于特定空间(例如，用户的活动空间)来执行。具体地，在与用户活动相关的特定空间可设置有传感模块。即，可通过设置在特定空间内的传感模块识别用户是否位于相应空间内。例如，可基于作为一种近距离通信技术的射频识别(RFID，Radio Frequency Identification)技术通过电波识别远距离的用户共享信息。例如，用户可持有射频识别模块包括的卡或移动终端(mobileterminal)。在用户持有的射频识别模块记录有用于识别相应用户的信息(例如，注册在服务管理服务器的用户个人识别标识符(ID)、识别代码等)。传感模块可通过识别用户持有的射频识别模块来识别相应用户是否位于特定空间内。除射频识别技术外，传感模块可包括通过接触/非接触方式收发用户固有信息的多种技术(例如，蓝牙等近距离通信技术)。并且，传感模块还可包括生物数据识别模块，通过与麦克风、触控板、摄像模块等进行联动来识别用户的生物数据(语音、指纹、脸部)。在再一实施例中，可通过与用户发声相关的语音信息来识别用户是否位于特定空间。具体地，可将与用户发声相关的语音信息识别为起始语并对应识别时间点来获取在相应空间产生的额外声音信息。

服务器100可通过如上所述的传感模块或与用户发声相关的声音来识别用户是否位于特定空间内。并且，若判断用户位于特定空间内，则服务器100可获取基于相应时间点产生的声音信息。

换言之，当特定空间内不存在用户时，不获取与相应空间相关的声音信息，仅在特定空间内存在用户的情况下获取与相应空间相关的声音信息，由此，可最大限度地减少电力消耗。

根据本发明一实施例，获取声音信息的步骤可包括如下步骤：对获取的声音信息执行预处理；以及识别与执行预处理的声音信息相对应的声音特性信息。

根据本发明一实施例，对声音信息的预处理是指用于提高声音信息识别率的预处理。例如，上述预处理可包括永固从声音信息去除噪音的预处理。具体地，服务器100可通过比较声音信息包含的信号大小及标准信号大小来对声音信息所包含的信号大小执行标准化。若所获取的声音信息包含的信号大小小于预定标准信号，则服务器100调高相应信号大小，若声音信息所包含的信号大小为预定标准信号以上，则服务器100可执行调低相应信号大小(即，防止被裁剪(clipping))的预处理。以上有关去除噪音的具体记载内容仅为示例，本发明并不局限于此。

根据本发明再一实施例，声音信息的预处理可包括如下预处理，即，通过分析声音信息所包含的信号波形来放大除发声外的声音(即，非言语声音)。具体地，服务器100可通过分析声音信息所包含的多种声音频率来放大与至少一个特定频率相关的声音。

例如，为了识别声音信息所包含的多种声音类型，服务器100可利用支持向量机(SVM，Supporting Vector Machine)等机器学习算法进行分类，可通过分别与包括各个不同频率的声音相对应的声音放大算法来放大特定声音。上述声音放大算法仅为示例，本发明并不局限于此。

换言之，本发明可通过执行预处理来放大声音信息所包含的非言语声音。例如，在本发明中，为了识别用户特性(或者，为了向用户提供最佳匹配信息)，基于分析的声音信息可包括言语声音信息及非言语声音信息。根据本发明一实施例，在分析用户特定的层面上，相比于言语声音信息，非言语声音信息可提供更有意义的分析。

作为具体一例，当服务器100获取包括宠物(例如，狗)声音(即，非言语声音信息)的声音信息时，服务器100可为了提高作为非言语声音信息的“狗声”识别率而放大与相应非言语声音相关的声音信息。

作为另一例，当服务器100获取与用户咳嗽声音(即，非言语声音信息)相关的声音信息时，服务器100可为了提高作为非言语声音信息的“人咳嗽声”识别率而放大与相应非言语声音相关的声音信息。

换言之，通过执行预处理放大非言语声音信息来在识别用户特性层面上提供更具意义的信息，结果，可向用户提供更加适当的匹配信息。

并且，服务器100可识别与预处理的声音信息相对应的声音特性信息。其中，声音特性信息可包含第一特性信息及第二特性信息，上述第一特性信息用于判断声音信息是否与言语声音及非言语声音中的至少一个相关，上述第二特性信息用于区分对象。

第一特性信息可包含用于判断声音信息是否属于言语声音及非言语声音的信息。例如，与第一声音信息相对应的第一特性信息可包含判断相应第一声音信息与言语声音相关的信息，与第二声音信息相对应的第一特性信息可包含判断第二声音信息与非言语声音相关的信息。

第二特性信息可包含用于判断声音信息所包括对象数量的信息。例如，与第一声音信息相对应的第二特性信息可包含在相应第一声音信息存在三名用户发声的信息，与第二声音信息相对应的第二特性信息可包含在相应第二声音信息存在洗衣机工作相关声音及猫叫声相关声音的信息。在本发明一实施例中，与声音信息相对应的第一特性信息及第二特性信息可通过下述第一声音模型及第二声音模型来识别。

即，服务器100可通过对所获取的声音信息执行预处理来识别与预处理的声音信息相对应的声音特性信息。其中，如上所述，由于声音特性信息包含用于判断相应声音信息是否与言语声音或非言语声音中的一个相关的信息(即，第一特性信息)及用于判断声音信息内对象数量的信息(即，第二特性信息)，因此，在以下说明的声音信息分析过程中，可提供便利性。

根据本发明一实施例，在步骤S120中，服务器100可执行基于声音信息获取用户特性信息的步骤。在本发明一实施例中，获取用户特性信息的步骤可包括如下步骤：通过分析声音信息来识别用户或对象；以及基于识别的用户或对象生成用户特性信息。

具体地，当获取声音信息时，服务器100可通过分析相应声音信息来识别与声音信息相对应的用户或对象。例如，服务器100可通过分析第一声音信息来识别相应第一声音信息为与第一用户相对应的声音。作为再一例，服务器100可通过分析第二声音信息来识别相应第二声音信息为与吸尘器相对应的声音。作为另一例，服务器100可通过分析第三声音信息来识别相应第三声音信息包含与第二用户相对应的声音及与洗衣机相关的声音。有关上述第一声音信息至第三声音信息的具体记载内容仅为示例，本发明并不局限于此。

并且，服务器100可基于对应声音信息识别的用户或对象生成用户特性信息。其中，用户特性信息为用于提供匹配信息的信息，例如，可以为与声音信息相关的文本、主题、情感、与对象识别信息或对象状态信息等相关的信息。

例如，若识别第一声音信息为与第一用户相对应的声音，则服务器100可通过识别与第一用户匹配的用户信息来生成用户为26岁女性的用户特性信息。作为再一例，若识别第二声音信息为与A品牌吸尘器相对应的声音，则服务器100可通过相应第二声音信息生成用户使用A品牌吸尘器的用户特性信息。作为另一例，若识别第三声音信息包含与第二用户相对应的声音及与B品牌洗衣机相关的声音，则服务器100可生成用户为40岁男性且使用B品牌洗衣机的用户特性信息。有关上述第一声音信息至第三声音信息及与各个声音信息相对应的用户特性信息的具体记载内容仅为示例，本发明并不局限于此。

即，服务器100可基于通过分析声音信息识别的用户或对象来生成与用户相关的用户特性信息。上述用户特性信息可以为用于识别用户兴趣、品位或特性等的信息。

并且，根据本发明一实施例，获取用户特性信息的步骤可包括如下步骤：通过分析声音信息来生成与用户在特定空间内活动的时间相关的活动时间信息；以及基于活动时间信息生成用户特性信息。具体地，服务器100可通过分析对应特定空间获取的声音信息来生成与用户在特定空间内活动的时间相关的活动时间信息。

在本发明一实施例中，服务器100可通过与用户发声相关的声音信息来获取用于判断用户是否位于特定空间内的信息。作为具体一例，服务器100将与用户发声相关的语音识别为起始语，基于所识别的时间点判断用户进入特性空间内，在相应空间内获取的声音信息不包括与用户发声相关的语音，若所获取的声音信息大小为预定标准值以下，则可判断为用户不存在于特定空间内。并且，服务器100可基于各个判断时间点生成与用户在特定空间内活动的时间相关的活动时间信息。即，服务器100可通过与用户发声相关的声音信息识别用户是否位于特定空间内来生成与用户相关的活动时间信息。

在本发明再一实施例中，服务器100可基于所获取的声音信息大小获取用于判断用户是否位于特定空间内的信息。作为具体一例，服务器100通过识别在特定空间内持续获取的声音信息大小为预定标准值以上的时间点来判断用户进入特定空间内，可通过识别在相应空间内获取的声音信息大小为预定标准值的时间点来判断在特定空间内不存在用户。并且，服务器100可基于各个判断时间点生成与用户在特定空间内活动的时间相关的活动时间信息。即，服务器100识别在特定空间内产生的声音信息大小，基于相应大小识别用户是否位于特定空间内，由此，可生成与用户相关的活动时间信息。

在本发明另一实施例中，服务器100可基于特定启动声音获取用于判断用户是否位于特定空间内的信息。其中，特定启动声音可以为与用户出入相关的信息。例如，启动声音可以为与前门开闭音相关的声音。即，服务器100可基于与从外部通过密码打开门锁相关的声音信息来判断用户是否位于相应空间内。并且，服务器100可基于与内部前门开放相关的声音信息来判断用户存在于相应空间。并且，服务器100可基于各个判断时间点生成与用户在特定空间内活动的时间相关的活动时间信息。即，服务器100基于在特定空间内产生的启动声音识别用户是否位于特定空间内来生成与用户相关的活动时间信息。

如上所述，根据本发明多个实施例，服务器100可生成与用户在特定空间内活动的时间相关的活动时间信息。例如，第一用户在特定空间(例如，居住空间)活动的24小时中，服务器100可生成第一用户在24小时的18小时(例如，从上午12点到隔天下午6点之间位于相应空间内)位于特定空间(例如，居住空间)活动的活动时间信息。作为再一例，服务器100可生成第二用户在一天的6小时(例如，从上午12点到下午6点之间位于相应空间内)位于特定空间(例如，居住空间)活动的活动时间信息。有关与上述各个用户相对应的活动时间信息的具体记载内容仅为示例，本发明并不局限于此。

并且，服务器100可基于获得时间信息生成用户特定信息。作为具体一例，服务器100可基于第一用户在24小时的18小时位于特定空间(例如，居住空间)活动的活动时间信息生成第一用户在居住空间内的活动相对较多的用户特性信息。作为一例，服务器100可基于第一用户的活动时间信息识别第一用户驻留在居住空间内的时间相对较多来生成相应第一用户为“家庭主妇”或“居家工作人员”的用户特性信息。在再一实施例中，服务器100也可通过组合活动时间信息及声音信息的分析信息来更加具体推导出用户职业。在此情况下，可进一步具体指定用户特性，因此，可使得所提供的匹配信息变得更加准确。

作为另一例，服务器100可基于第二用户在一天的6小时位于特定空间(例如，居住空间)活动的活动时间信息生成第二用户在居住空间内的活动相对较少的用户特性信息。有关上述各个用户的活动时间信息及与各个活动时间信息相对应的用户特性信息的具体记载内容仅为示例，本发明并不局限于此。

根据本发明再一实施例，获取用户特性信息的步骤可包括如下步骤：基于与声音信息相对应的声音特性信息获取用户特性信息。其中，声音特性信息可包含第一特性信息及第二特性信息，上述第一特性信息用于判断声音信息是否与言语声音及非言语声音中的至少一个相关，上述第二特性信息用于区分对象。

具体地，获取用户特性信息的步骤可包括以下步骤中的至少一个：当声音特性信息包含与言语声音相关的第一特性信息时，向第一声音模型输入声音信息来获取与声音信息相对应的用户特性信息；或者当声音特性信息包含与非言语声音相关的第一特性信息时，向第二声音模型输入声音信息来获取与声音信息相对应的用户特性信息。

根据本发明一实施例，第一声音模型可以为神经网络模型，通过学习对与言语声音相关的声音信息执行分析来识别与上述声音信息相关的文本、主题或情感中的至少一个。

根据本发明一实施例，第一声音模型为语音识别模型，通过输入与声音信息所包含的用户发声相关的语音信息(即，言语声音)来输出对应语音信息的文本信息，可包括通过学习数据预学习的一个以上网络函数。即，第一声音模型可包括将与用户发声相关的语音信息转换为文本信息的语音识别模型。例如，语音识别模型可输入与用户发声相关的语音信息来输出对应其的文本(例如，“没有狗饲料了”)。有关上述语音信息及语音信息对应文本的具体记载内容仅为示例，本发明并不局限于此。

并且，第一声音模型可包括文本分析模型，可通过自然语言处理分析对应语音信息输出的文本信息掌握文脉来识别语音信息所包含的主题或情感等。

在本发明一实施例中，文本分析模型可通过自然语言处理神经网络(即，文本分析模型)对文本信息执行文本含义分析来识别关键词并掌握主题。例如，当文本信息与“没有狗饲料了”相关时，文本分析模型可将相应句子的主题识别为“饲料用尽”。有关上述文本信息及对应其主题的记载内容仅为示例，本发明并不局限于此。

并且，在本发明一实施例中，文本分析模型可通过自然语言处理神经网络运算文本信息来分别输出多个意图组的分析值。多个意图组是指按照预定基准分别区分文本包括的句子特定意图。其中，自然语音处理人工神经网络可将文本信息用作输入数据并通过运算各个连接加权值来向节点输出意图组。其中，连接加权值可以为用于长短期记忆网络(LSTM)方式的输入、输出及遗忘门的加权值，或者，也可以为循环神经网络(RNN)的通用门的加权值。由此，第一声音模型可运算分别与意图组一对一对应的文本信息的分析值。而且，上述分析值是指文本信息可以与一个意图组相对应的概率。在再一实施例中，第一声音模型还可包括情感分析模型，基于声音高低变化执行语音分析来输出情感的分析值。即，第一声音模型可包括：语音识别模型，输出与用户的语音信息相对应的文本信息；文本分析模型，通过自然语言处理分析文本信息来掌握句子的主题；以及情感分析模型，基于声音高低变化执行语音分析来掌握用户的情感。由此，第一声音模型可基于与用户发声相关的语音信息所包含的声音信息来输出与相应声音信息相关的文本信息、主题信息或情感信息。

并且，根据本发明实施例，第二声音模型可以为神经网络模型，通过学习对与非言语声音相关的声音信息执行分析来获取与声音信息相关的对象识别信息或对象状态信息。

根据本发明一实施例，第二声音模型可通过学习的降维网络函数及从复维网络函数学习的降维网络函数来实现，以通过服务器100输出与输入数据相似的输出数据。即，在学习的自动编码器(Autoencoder)的结构中，第二声音模型可通过降维网络函数构成。

根据本发明一实施例，服务器100可通过非监督学习(Unsupervised Learning)方式学习自动编码器。具体地，服务器100可学习构成自动编码器的降维网络函数(例如，编码器)及复维网络函数(例如，解码器)以输出与输入数据相似的输出数据。更加详细地，通过隐藏层仅学习在编码过程中由降维网络函数输入的声音信息的核心特征数据(或特征(feature))，可损失剩余信息。在此情况下，隐藏层在解码过程中通过复维网络函数输出的数据可以为输入数据(即，声音信息)的近似值，而并非完美的复制值。即，服务器100可通过调整加权值来学习自动编码器以使得输出数据与输入数据尽可能地变得相同。

自动编码器可以为一种神经网络，用于输出与输入数据相似的输出数据。自动编码器可包括至少一个隐藏层，奇数个隐藏层可配置在输入层与输出层之间。各个层的节点数量从输入层的节点数量缩减到作为瓶颈层(编码)的中间层后，也可对称扩展成从瓶颈层缩减到输出层(与输入层相对称)。输入层及输出层的数量可以与在预处理输入数据后剩余的输入数据项目数量相对应。自动编码器具有编码器包括隐藏层的节点数量可随着远离输入层而逐渐减少的结构。若瓶颈层(位于编码器与解码器之间且具有最少节点的层)的节点数量非常少，则可能无法传输充足量的信息，因此，也可维持在特定数量以上(例如，输入层的一半以上等)。

服务器100可匹配标记的对象信息来存储将包含对象信息分别标记的多个学习数据的学习数据集用作学习的降维网络的输入输出的各个对象特征数据。具体地，服务器100可利用降维网络函数将第一对象信息(例如，狗)标记的第一学习数据子集用作降维网络函数的输入来获取第一对象对于第一学习数据子集包含的学习数据的特征(feature)数据。所获取的特征数据可由向量表示。在此情况下，与第一学习数据子集包含的多个学习数据对应输出的特征数据为基于第一对象相关学习数据的输出，因此，可在项目空间上位于相对接近的距离。服务器100可基于与由向量表示的第一对象相关的特征数据匹配存储第一对象信息(即，狗)。在降维网络函数的情况下，学习的自动编码器可通过学习有效提取使得复维网络函数顺利复原输入数据的特征。因此，随着第二声音模型在学习自动编码器中通过降维网络函数实现，可提取能够有效复原输入数据(例如，声音信息)的特征(即，各个对象的声音风格)。

作为另一例，第二对象(例如，猫)信息标记的第二学习数据子集分别包含的多个学习数据可通过降维网络函数转换为特征数据并显示在向量空间上。在此情况下，相应特征数据为基于与第二对象信息(即，猫)相关的学习数据的输出，因此，可在向量空间上位于相对接近的距离。在此情况下，对应第二对象信息的特征数据可显示在与对应第一对象信息的特征数据不同的向量空间上。

即，通过上述学习过程构成第二声音模型的降维网络函数将从特定空间(例如，居住空间)产生的声音信息视作输入时，可利用降维网络函数运算相应声音信息来提取与声音信息相对应的特征。在此情况下，第二声音模型可通过比较显示声音信息对应特征的区域与在各个对象特征数据的向量空间上的距离来评估声音风格的相似性，可基于相应相似性评估获取对应声音信息的对象识别信息或对象状态信息。

具体地，第二声音模型可利用降维网络函数运算从第一用户终端接收的第一声音信息来获取第一特征信息。在此情况下，第二声音模型可基于第一特征信息及通过学习预记录在向量空间上的各个对象特征数据之间的位置来获取对应第一声音信息的对象识别信息或对象状态信息。

作为具体一例，可基于向量空间上的距离最接近第一特征信息的第一对象(例如，A品牌的洗衣机)空间获取第一声音信息与“A品牌洗衣机”相关的对象识别信息。

作为另一例，可基于向量空间上的距离最接近第一特征信息的第二对象(例如，人咳嗽声)空间获取第一声音信息与“人咳嗽声”相关的对象状态信息。有关上述对象识别信息及对象状态信息的具体记载内容仅为示例，本发明并不局限于此。

参照图4，在获取声音信息的情况下，服务器100可基于第一特性信息判断相应声音信息是否与言语声音或非言语声音相关。若声音信息为言语声音，则服务器100可应用第一声音模型识别与声音信息相对应的文本、主题或情感，可基于相应信息获取第一用户特性信息。并且，若声音信息为非言语声音，服务器100应用第二声音模型获取对应声音信息的对象识别信息或对象状态信息，可基于相应信息获取第二用户特性信息。换言之，可获取与对应言语声音的文本、主体或情感相关的第一用户特性信息，可获取与对应非言语声音的对象识别信息或对象状态信息相关的第二用户特性信息。即，本发明的用户特性信息可包括基于声音信息是否包含言语声音或非言语声音来获取的第一用户特性信息及第二用户特性信息。

根据本发明再一实施例，获取用户特性信息的步骤可包括如下步骤：基于与声音信息相对应的声音特性信息获取用户特性信息。其中，声音特性信息可包括用于区分对象的第二特性信息。第二特性信息可包含用于判断声音信息包含对象数量的信息。例如，与第一声音信息相对应的第二特性信息可包含在相应第一声音信息存在3名用户发声的信息，与第二声音信息相对应的第二特性信息可包含在相应第二声音信息存在洗衣机工作相关声音及猫叫声相关声音的信息。

具体地，服务器100可基于第二特性信息获取用户特性信息。例如，当识别包含多个用户发声时，服务器100可基于第二特性信息获取用户在特性空间内生活的用户特性信息。在本发明实施例中，服务器100可通过在各个时间段获取的声音信息的第二特性信息对应各个时间段检测用户在特定空间内的人员变化，可生成对应其的用户特性信息。即，服务器100可通过第二特性信息掌握用户在特定空间内的活动模式或生活模式来生成用户特性信息。

根据本发明一实施例，在步骤S130中，服务器100可执行如下步骤：提供与用户特性信息相对应的匹配信息。例如，匹配信息可以为广告相关信息。即，提供匹配信息是指向用户提供有效提高购买欲望的广告，即，可意味着提供最适当的广告信息。

作为具体一例，参照图6，当基于特定空间相关声音信息获取的用户特性信息包含与B品牌洗衣机22驱动相关的第二用户特性信息时，服务器100可由此向用户10提供B品牌烘干机相关的匹配信息。作为另一例，当从测定空间包含C品牌空调24驱动相关的第二用户特性信息时，服务器100可由此向用户10提供与夏季产品(雨伞或旅行等)相关的匹配信息。有关上述用户特性信息的具体记载内容仅为示例，本发明并不局限于此。

根据本发明一实施例，提供与用户特性信息相对应的匹配信息的步骤可包括如下步骤：基于分别与在预定时间内获取的多个声音信息相对应的多个用户特性信息的各个获取时间点及频率来提供匹配信息。在此情况下，例如，预定时间是指一天(即，24小时)。换言之，服务器100可基于分别与以24小时为基准获取的多个声音信息相对应的多个用户特性信息的获取时间点及频率来提供匹配信息。

例如，当以24小时为周期在相同时间点(或相同时间段)持续获取相同类型的用户特性信息时，服务器100可对应时间点提供匹配信息。作为具体一例，当每天在相同时间点(例如，下午7点)获取与A品牌洗衣机驱动相关的用户特性信息时，服务器100可在完成洗衣机工作的下午8点提供与A品牌烘干机相关的匹配信息。

并且，例如，当用户以24小时为周期发声预定次数(例如，3回)以上的特定关键词时，服务器100可提供与相应关键词相对应的匹配信息。作为具体一例，当用户在一天内发声3回以上“狗饲料”关键词时，服务器100可提供与狗饲料相对应的匹配信息。有关上述用户特性信息获取时间点、次数及对应其匹配信息的具体记载内容仅为示例，本发明并不局限于此。

即，服务器100可记录特定关键词的发生次数或时间点等，可基于相应记录掌握用户相关特性，而且，可由此提供匹配信息。在此情况下，可在适当的时间点向用户提供适当的匹配信息，因此，可最大限度地提高广告效果。

根据本发明另一实施例，提供与用户特性信息相对应的匹配信息的步骤可包括如下步骤：当用户特性信息包含第一用户特性信息及第二用户特性信息时，获取有关第一用户特性信息与第二用户特性信息之间的关联性的关联信息；基于关联信息更新匹配信息；以及提供所更新的匹配信息。其中，第一用户特性信息可以为基于言语声音获取的用户特性相关信息，第二用户特性信息可以为基于非言语声音获取的用户特性相关信息。即，可获取与对应一个声音信息的言语声音及非言语声音相对应的用户特性信息。在此情况下，服务器100可基于所获取的各个用户特性信息之间的关联信息更新匹配信息。其中，关联信息可以为表示言语声音与非言语声音之间的关联性的信息。并且，匹配信息的更新可用于进一步放大匹配信息的广告效果。例如，匹配信息的更新可放大匹配信息的暴露项目，或者，可以为应用于匹配信息的额外折扣事件。

更加详细地，声音信息可包含言语声音及非言语声音。在此情况下，可对应言语声音应用第一声音模型来获取与文本、主题或情感等相关的第一用户特性信息。并且，可对应非言语声音应用第二声音模型来获取与对象识别信息及对象状态信息相关的第二用户特性信息。服务器100可获取第一用户特性信息与第二用户特性信息之间的关联信息。例如，关联信息可以为数值表示各个用户特性信息之间的关联性的信息。例如，当第一用户特性信息包含以“烘干机”为主题的信息且第二用户特性信息包含与A品牌烘干机应用相关的信息时，服务器100可判断各个用户特性信息之间的关联性非常高，可生成与数值“98”相对应的关联信息。作为再一例，当第一用户特性信息包含以“烘干机”为主题的信息且第二用户特性信息包含与B品牌洗衣机应用相关的信息时，服务器100可判断各个用户特性信息之间的关联性相对较高，可生成与数值“85”相对应的关联信息。作为另一例，当第一用户特性信息包含以“吸尘器”为主题的信息且第二用户特性信息包含与猫叫声相关的信息时，服务器100可判断各个用户特性信息之间没有关联性，可生成与数值“7”相对应的关联信息。有关上述各个用户特性信息及关联信息的具体记载内容仅为示例，本发明并不局限于此。

并且，当关联信息为预定数值以上时，服务器100可更新匹配信息，可向用户提供所更新的匹配信息。

作为更具体的一例，可从声音信息获取与言语声音相关的用户发声(例如，“为什么无法干燥”，第一用户特性信息)及作为非言语声音的烘干机声音(即，第二用户特性信息)。在此情况下，预定数值为90，各个用户特性信息之间的关联信息可以为98。在此情况下，服务器100可通过识别各个用户特性信息之间的关联信息为预定数值以上来更新匹配信息。即，当通过一个声音信息同时获取关联性高的言语声音和非言语声音时，服务器100可判断用户对相应对象具有较高的兴趣并更新匹配信息。例如，为了向用户提供相应对象更加详细的信息，服务器100可更新匹配信息，使得匹配信息不仅包含A品牌的烘干机，而且，还包括其他品牌的烘干机。作为另一例，服务器100可更新匹配信息包含与A品牌烘干机折扣购买方法相关的事件信息。有关上述匹配信息更新的具体记载内容仅为示例，本发明并不局限于此。

参照图5，当获取用户特性信息时，服务器100可识别相应用户特性信息是否包含第一用户特性信息及第二用户特性信息。在本发明一实施例中，当对应声音信息获取的用户特性信息包含第一用户特性信息时，服务器100可提供对应第一用户特性信息的匹配信息。作为具体一例，参照图6，当基于声音信息(例如，用户发声)获取第一用户特性信息时，若第一用户特性信息表示用户执行“狗零食”相关主题的发声，则服务器100可提供“狗零食”相关的匹配信息。有关上述第一用户特性信息及匹配信息的具体记载内容仅为示例，本发明并不局限于此。

并且，当对应声音信息获取的用户特性信息包含第二用户特性信息时，服务器100可提供对应第二用户特性信息的匹配信息。作为具体一例，参照图6，当基于声音信息(例如，狗叫声)获取作为宠物的狗23位于特定空间内的第二用户特性信息时，服务器100可提供与狗相关的多个匹配信息，例如，狗零食、狗饲料、狗玩具或狗衣服等。作为另一例，当基于声音信息(例如，用户咳嗽声)获取用户处于不健康状态的第二用户特性信息时，服务器100可提供与用户保健相关的多个匹配信息，例如，感冒药、粥、茶(tea)或保健品等。有关上述第二用户特性信息及匹配信息的具体记载内容仅为示例，本发明并不局限于此。

并且，当对应声音信息获取的用户特性信息包含第一用户特性信息及第二用户特性信息时，即，在全部包括的情况下，服务器100获取各个用户特性信息之间的关联信息，可基于关联信息更新匹配信息。并且，服务器100可提供更新的匹配信息。

换言之，若同时获取具有关联性的言语声音、非言语声音，则表示用户的兴趣相对较高，服务器100可为了提高用户的购买可能性而提供用于决策的大量信息或反映购买对象相关附加折扣事件信息等的匹配信息。即，基于言语声音及非言语声音的关联信息从所获取的声音信息预测用户兴趣，由此，可通过提供对应其的匹配信息来提供最适当的匹配信息。由于这种方式按照用户兴趣等差提供匹配信息，因此，具有最大限度地增加购买转换可能性的效果。

根据本发明一实施例，基于用户特性信息提供匹配信息的步骤可包括如下步骤：基于分别与按照预定时间周期获取的一个以上声音信息相对应的一个以上用户特性信息生成环境列表；以及基于环境特性列表提供匹配信息。环境特性列表为分别对按照预定时间周期获取的多个用户特性信息进行统计的信息。在本发明一实施例中，预定时间周期是指24小时。

换言之，服务器100以24小时相关的时间周期为基准对在各个时间段获取的用户特性信息生成与统计值相关的环境特性列表，可基于相应环境特性列表提供匹配信息。

作为具体一例，随着对通过环境特性列表在各个时间段获取的用户特性信息进行统计，相对于居家活动较多的用户，可提供与食品或装修道具相关的匹配信息。作为再一例，相对于居家观看电视21时间相对较多的用户，服务器100可提供与新观看容相关的匹配信息。作为另一例，相对于居家活动较少的用户，可提供与保健品相关的匹配信息，或者，可提供与无人自助洗衣服务相关的匹配信息。

并且，在本发明一实施例中，提供与用户特性信息相对应的匹配信息的步骤可包括如下步骤：基于环境特性列表识别用于提供匹配信息的第一时间点；以及对应第一时间点提供匹配信息。第一时间点是指向相应用户提供匹配信息的最佳时间点。即，可通过环境特性列表掌握用户在特定空间活动的过程来在各个时间点提供最佳匹配信息。

例如，当通过环境特性列表在第一时间段(下午8点)周期性地识别洗衣机声音时，可在相应第一时间段提供与纤维柔软剂或烘干机等相关的匹配信息。

作为另一例，当通过环境特性列表在第二时间段(下午2点)周期性地识别吸尘器声音时，可在相应第二时间段提供与无线吸尘器或湿抹布吸尘器等相关的匹配信息。

即，服务器100可通过在特定活动时间点提供适当的匹配信息来最大限度地提高广告效果。根据如上所述的多个实施例，服务器100可通过基于用户生活环境获取的声音信息提供目标匹配信息来最大限度地提高广告效果。

本发明实施例相关说明的方法或算法步骤可由硬件直接实现，或者，由硬件执行的软件模块实现，或者，可通过它们的组合来实现。软件模块可存在于随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable ROM)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable ROM)、闪存(Flash Memory)、硬盘、移动盘、只读光盘存储器(CD-ROM)或本发明所属技术领域中已知的任意类型计算机可读记录介质。

本发明的结构要素与作为硬件的计算机相结合，可作为程序(或应用程序)存储在介质。本发明的结构要素可由软件编程或软件要素执行，与此相似地，实施例包括数据结构、进程、例程或由其他编程结构组合实现的多种算法，可由C语音、C++语言、Java语言、汇编语音(assembler)等编程或脚本语言实现。在功能层面上，可由一个以上处理器执行的算法实现。

以上，虽然参照附图说明了本发明实施例，但应当理解的是，在不改变本发明技术思想或必要特征的情况下，本发明所属技术领域的普通技术人员可通过其他实施方式实现本发明。因此，以上说明的实施例在所有层面上仅为示例，不应理解为限定含义。

具体实施方式

以上说明的内容为用于实施本发明的最佳实施方式。

产业上的可利用性

本发明可应用于通过分析声音信息提供匹配信息的服务领域。

Claims

1.一种通过分析声音信息提供匹配信息的方法，在计算机装置中执行，其特征在于，包括如下步骤：

获取声音信息；

基于上述声音信息获取用户特性信息；以及

提供与上述用户特性信息相对应的匹配信息。

2.根据权利要求1所述的通过分析声音信息提供匹配信息的方法，其特征在于，基于上述声音信息获取用户特性信息的步骤包括如下步骤：

通过分析上述声音信息来识别用户或对象；以及

基于所识别的上述用户或对象生成上述用户特性信息。

3.根据权利要求1所述的通过分析声音信息提供匹配信息的方法，其特征在于，基于上述声音信息获取用户特性信息的步骤包括如下步骤：

通过分析上述声音信息来生成与用户在特定空间内活动的时间相关的活动时间信息；以及

基于上述活动时间信息生成上述用户特性信息。

4.根据权利要求1所述的通过分析声音信息提供匹配信息的方法，其特征在于，提供与上述用户特性信息相对应的匹配信息的步骤包括如下步骤：基于分别与在预定时间内获取的多个声音信息相对应的多个用户特性信息的各个获取时间点及频率来提供上述匹配信息。

5.根据权利要求1所述的通过分析声音信息提供匹配信息的方法，其特征在于，

上述获取声音信息的步骤包括如下步骤：

对所获取的上述声音信息执行预处理；以及

识别与执行预处理的上述声音信息相对应的声音特性信息，

上述声音特性信息包含第一特性信息及第二特性信息，上述第一特性信息用于判断上述声音信息是否与言语声音及非言语声音中的至少一个相关，上述第二特性信息用于区分对象。

6.根据权利要求5所述的通过分析声音信息提供匹配信息的方法，其特征在于，

基于上述声音信息获取用户特性信息的步骤包括如下步骤：基于与上述声音信息相对应的上述声音特性信息获取上述用户特性信息，

获取上述用户特性信息的步骤包括以下步骤中的至少一个：

当上述声音特性信息包含与言语声音相关的第一特性信息时，向第一声音模型输入上述声音信息来获取与上述声音信息相对应的用户特性信息；或者

当上述声音特性信息包含与非言语声音相关的第一特性信息时，向第二声音模型输入上述声音信息来获取与上述声音信息相对应的用户特性信息。

7.根据权利要求6所述的通过分析声音信息提供匹配信息的方法，其特征在于，

上述第一声音模型包括以能够通过对与言语声音相关的声音信息执行分析来识别与上述声音信息相关的文本、主题或情感中的至少一个的方式学习的神经网络模型，

上述第二声音模型包括以能够通过对与非言语声音相关的声音信息执行分析来获取与上述声音信息相关的对象识别信息或对象状态信息的方式学习的神经网络模型，

上述用户特性信息包含第一用户特性信息及第二用户特性信息中的至少一个，上述第一用户特性信息为与上述声音信息相关的文本、主题或情感中的至少一个，上述第二用户特性信息为与上述声音信息相关的上述对象识别信息或上述对象状态信息。

8.根据权利要求7所述的通过分析声音信息提供匹配信息的方法，其特征在于，提供与上述用户特性信息相对应的匹配信息的步骤包括如下步骤：

当所获取的上述用户特性信息包含上述第一用户特性信息及上述第二用户特性信息时，获取有关上述第一用户特性信息与上述第二用户特性信息之间的关联性的关联信息；

基于上述关联信息更新匹配信息；以及

提供更新的上述匹配信息。

9.根据权利要求1所述的通过分析声音信息提供匹配信息的方法，其特征在于，

基于上述用户特性信息提供匹配信息的步骤包括如下步骤：

基于分别与按照预定时间周期获取的一个以上声音信息相对应的一个以上用户特性信息生成环境特性列表；以及

基于上述环境特性列表提供上述匹配信息，

上述环境特性列表为分别对按照上述预定时间周期获取的多个用户特性信息进行统计的信息。

10.根据权利要求9所述的通过分析声音信息提供匹配信息的方法，其特征在于，提供与上述用户特性信息相对应的匹配信息的步骤包括如下步骤：

基于上述环境特性列表识别用于提供上述匹配信息的第一时间点；以及

对应上述第一时间点提供上述匹配信息。

11.一种装置，其特征在于，

包括：

存储器，用于存储一个以上指令；以及

处理器，用于执行存储在上述存储器的上述一个以上指令，

上述处理器通过执行上述一个以上指令来执行根据权利要求1所述的方法。

12.一种计算机程序，存储在计算机可读记录介质，其特征在于，与作为硬件的计算机相结合，用于执行根据权利要求1所述的方法。