CN105118518A

CN105118518A - 一种声音的语义分析方法及装置

Info

Publication number: CN105118518A
Application number: CN201510415970.2A
Authority: CN
Inventors: 李华明; 王道龙; 刘晓伟; 刘孟; 燕宇飞; 袁艺; 吕文玉; 袁正沧; 张钰; 易敏文
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2015-12-02
Anticipated expiration: 2035-07-15
Also published as: CN105118518B

Abstract

本发明实施例提供一种声音的语义分析方法及装置，其中，该方法包括：获取多个来自生物的无语义的基础声音样本，为各个所述基础声音样本设置标签，形成声音样本库；接收用户输入的待识别声音，在所述声音样本库中对所述待识别声音进行匹配，得到匹配结果；根据所述匹配结果将所述待识别声音对应的基础声音样本的标签反馈给所述用户。本发明实施例提供的声音的语义分析方法及装置能够反馈给用户无语义的声音的语义。

Description

一种声音的语义分析方法及装置

技术领域

本发明实施例涉及语义分析领域，尤其涉及一种声音的语义分析方法及装置。

背景技术

由于很多生物(例如刚出生的婴儿和家里养的宠物等)的声音的语义无法被普通人理解，所以，很多生物是无法与普通人正常沟通的。婴儿有任何诉求(例如饿了或身体不舒服等)的时候，会发出声音，但是普通人完全无法了解这些声音的语义，导致无法满足婴儿的诉求；宠物在有任何诉求的时候，通常会发出叫声，非专业驯兽师是无法正确识别宠物想要表达的含义的。

基于以上这些场景，人们在日常生活中，需要一种能够正确识别生物声音的语义的分析系统，从而使得人类可以正常与生物进行交流沟通。

发明内容

本发明提供一种声音的语义分析方法及装置，以解决现有技术中无法得知很多生物声音的语义的问题。

第一方面，本发明实施例提供了一种声音的语义分析方法，包括：

获取多个来自生物的无语义的基础声音样本，为各个所述基础声音样本设置标签，形成声音样本库；

接收用户输入的待识别声音，在所述声音样本库中对所述待识别声音进行匹配，得到匹配结果；

根据所述匹配结果将所述待识别声音对应的基础声音样本的标签反馈给所述用户。

第二方面，本发明实施例还提供了一种声音的语义分析装置，包括：

声音样本库形成模块，用于获取多个来自生物的无语义的基础声音样本，为各个所述基础声音样本设置标签，形成声音样本库；

匹配模块，用于接收用户输入的待识别声音，在所述声音样本库中对所述待识别声音进行匹配，得到匹配结果；

反馈模块，用于根据所述匹配结果将所述待识别声音对应的基础声音样本的标签反馈给所述用户。

本发明实施例提供的声音的语义分析方法及装置，通过为获取的每个来自生物的无语义的基础声音样本设置标签，形成声音样本库后，在声音样本库中对接收的用户输入的待识别声音进行匹配，并根据匹配后的匹配结果将待识别声音对应的基础声音样本的标签反馈给用户，实现了为用户提供待识别声音的语义，进而使得用户了解无语义的声音的语义，从而使得用户了解生物所要表达的含义。

附图说明

图1是本发明实施例一提供的声音的语义分析方法的流程图。

图2是本发明实施例二提供的声音的语义分析方法的流程图。

图3是本发明实施例三提供的声音的语义分析方法的流程图。

图4是本发明实施例四提供的声音的语义分析装置的结构图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或S)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加S。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一：

图1是本发明实施例一提供的声音的语义分析方法的流程图，该方法可以由声音的语义分析装置执行，其中该装置可由软件和/或硬件实现，一般可集成在服务器中。如图1所示，该方法包括：

S101、获取多个来自生物的无语义的基础声音样本，为各个基础声音样本设置标签，形成声音样本库。

每个生物(例如还不会说话的婴儿和宠物等)在不同的情形下，均会发出不同类型的声音，虽然普通人不能理解这些声音的语义，但是很多专业人员(例如育婴师、特级医院护理师或驯兽师等)能够了解这些生物发出的声音所要表达的含义。

获取多个生物在不同情形下的无语义的基础声音样本，通过专业人员对上述无语义的基础声音样本进行分析，并为每个基础声音样本建立标签，形成基础声音样本与标签一一对应的声音样本库。

上述来自生物的无语义的基础声音样本可以为来自婴儿的声音，也可以为来自宠物的声音。上述获取基础声音样本的渠道可以是网络。为了方便后期在声音样本库中对用户输入的待识别声音进行匹配，以及为了保证后期提供给用户的标签的信息的完整性，标签不仅包括基础声音样本对应的语义，还可以包括基础声音样本对应的生物的属性信息，例如种类、性别和年龄等，和/或还可以包括基础声音样本对应的生物所处场景的属性信息，例如婴儿在睡觉过程中、宠物在出门前等场景。

S102、接收用户输入的待识别声音，在声音样本库中对待识别声音进行匹配，得到匹配结果。

在声音样本库中，对接收到的用户输入的待识别声音与声音样本库中的基础声音样本和/或标签进行匹配。在与基础声音样本进行匹配时，可以通过对比待识别声音的抽象属性值和基础声音样本的抽象属性值，得到匹配结果；在与标签和基础声音样本进行匹配时，可以接收用户输入的待识别声音的同时，接收用户输入的描述信息，通过对比上述描述信息和标签，再将待识别声音与对比得到的标签对应的基础声音样本进行匹配，得到匹配结果。

需要说明的是，得到的匹配结果可以有一个，也可以有多个。

S103、根据匹配结果将待识别声音对应的基础声音样本的标签反馈给用户。

由于S102中得到的匹配结果可以有一个，也可以有多个，因此，该S103中反馈给用户的标签可以有一个，也可以有多个。

本发明实施例一提供的声音的语义分析方法，为获取的每个来自生物的无语义的基础声音样本设置标签，形成声音样本库后，在声音样本库中对接收的用户输入的待识别声音进行匹配，并根据匹配后的匹配结果将待识别声音对应的基础声音样本的标签反馈给用户。经上述技术方案之后，该方法实现了为用户提供待识别声音的语义，进而使得用户了解无语义的声音的语义，从而使得用户了解生物所要表达的含义。

在上述技术方案的基础上，S103之后，还可以根据用户输入的反馈信息对声音样本库进行更新，使得声音样本库中的数据能够实时地更新，进而使得提供给后期的用户的信息更加精准。具体地，可以包括以下：获取用户的反馈信息；根据反馈信息对声音样本库中的基础声音样本和/或基础声音样本对应的标签进行更新。

在对声音样本库中的基础声音样本和/或基础声音样本对应的标签进行更新时，可以根据用户输入的反馈信息的类别具体选择如何更新。具体地，可以包括以下：

如果反馈信息为对错值或正确比例值，则：统计待识别声音对应的基础声音样本与基础声音样本对应的标签的对应关系的正确率；根据正确率更改基础声音样本对应的标签，或者将正确率添加至基础声音样本对应的标签中。例如，经统计，某个基础声音样本对应于婴儿饿了标签的正确率统计为80％，婴儿尿了标签的正确率统计为10％，婴儿病了标签的正确率为10％。此正确率可作为匹配依据，当匹配结果有多个时，可以基于正确率筛选结果。

如果反馈信息为待识别声音的语义描述信息，则：根据语义描述信息提取标签；将待识别声音作为新的基础声音样本，与提取的标签对应存储到声音样本库中。

经由上述技术方案，能够根据用户输入的反馈信息对声音样本库进行更新，使得声音样本库中的数据能够实时地更新，进而使得提供给后期的用户的信息更加精准。

实施例二：

本实施例二以上述实施例一为基础进行优化。在本实施例二中，将实施例一中的S102优化为通过对比待识别声音的抽象属性值和基础声音样本的抽象属性值，得到匹配结果。进一步地，还可以将实施例一中的S103优化为反馈给用户的标签为至少一个。

图2是本发明实施例二提供的声音的语义分析方法的流程图。如图2所示，该方法包括以下：

S201、获取多个来自生物的无语义的基础声音样本，为各个基础声音样本设置标签，形成声音样本库。

S202、接收用户输入的待识别声音，并获取待识别声音的抽象属性值。

获取接收到的用户输入的待识别声音的抽象属性值，便于后期将待识别声音的抽象属性值与基础声音样本的抽象属性值进行匹配。获取的待识别声音的抽象属性值可以包括声波、波长、频率、音量和关键声音片段中的至少一个。其中，关键声音片段可以包括出现至少两次的声音片段或音量达到预设阈值(优选为预设时间段内音量持续达到预设阈值)的声音片段。

S203、将待识别声音的抽象属性值与声音样本库中的基础声音样本的抽象属性值进行匹配，得到匹配结果。

通过对比待识别声音的抽象属性值与声音样本库中的基础声音样本的抽象属性值，得到匹配结果。与待识别声音的抽象属性值相对应，基础声音样本的抽象属性值可以包括声波、波长、频率、音量和关键声音片段中的至少一个。其中，关键声音片段可以包括出现至少两次的声音片段或音量达到预设阈值(优选为预设时间段内音量持续达到预设阈值)的声音片段。

S204、根据匹配结果确定待识别声音对应的至少一个基础声音样本，并获取至少一个基础声音样本对应的标签，得到至少一个标签。

根据S203中得到的匹配结果，确定与待识别声音相匹配的基础声音样本，该基础声音样本的个数为至少一个。由于最终反馈给用户的是标签，因此，还需要根据确定的与待识别声音相匹配的基础声音样本，得到上述基础声音样本对应的标签。

S205、计算至少一个标签中相同标签对应的基础声音样本的数量。

将S204中得到的至少一个标签按照标签的不同进行分类，并统计每个相同标签对应的基础声音样本的数量，便于后期根据基础声音样本的数量对标签进行排序。例如，在收集基础声音样本时，对应于婴儿饿了标签的样本可能有数百个。经S204的匹配后，也许有数十个匹配结果，对应于多个标签，且每个标签对应于多个基础声音样本，则每个标签对应的基础声音样本的数量将作为后续对标签进行排序的依据。

S206、根据基础声音样本的数量对至少一个标签进行排序，得到排序结果。

根据每个相同标签对应的基础声音样本的数量对标签进行排序，排序的规则可以是按照数量的递减进行排序，即：基础声音样本的数量多的基础声音样本对应的标签在前，基础声音样本的数量少的基础声音样本对应的标签在后。

S207、将基础声音样本的数量最多的基础声音样本对应的标签，或者排序结果，或者基础声音样本的数量反馈给用户。

可以将上述三种形式中的至少一种反馈给用户，使得用户有较多的选择，进而使得用户的体验较好。

本发明实施例二提供的声音的语义分析方法，在上述实施例一的基础上，通过将待识别声音的抽象属性值和基础声音样本的抽象属性值进行匹配，得到匹配结果，实现声音之间的匹配，使得匹配结果更加准确；且匹配结果有至少一个，从而使得反馈给用户的标签也有至少一个，使得用户得到的信息较多，进而提升用户的体验。

实施例三：

本实施例三以上述实施例一和实施例二为基础进行优化。与实施例二不同的是，在本实施例三中，将实施例一中的S102优化为将用户输入的描述信息与标签进行对比，再将待识别声音和对比得到的标签对应的基础声音样本进行匹配，得到匹配结果。

图3是本发明实施例三提供的声音的语义分析方法的流程图。如图3所示，该方法包括以下：

S301、获取多个来自生物的无语义的基础声音样本，为各个基础声音样本设置标签，形成声音样本库。

S302、接收用户输入的待识别声音和描述信息。

在接收用户输入的待识别声音的同时，接收用户输入的描述信息。上述描述信息可以是待识别声音对应的生物的属性信息(种类、性别和年龄等)或该生物所处场景的属性信息。

S303、根据描述信息在声音样本库中对标签进行筛选，得到筛选出的标签。

根据上述接收到的描述信息，对声音样本库中的标签进行筛选，筛选出与上述描述信息相匹配的标签。此处筛选出的标签可以有多个。后期再对比这些标签对应的基础声音样本与待识别声音，得到匹配结果。

S304、在筛选出的标签对应的基础声音样本中对待识别声音进行匹配，得到匹配结果。

在上述筛选出的标签对应的基础声音样本中，对待识别声音进行匹配。由于该S304中将基础声音样本与待识别声音进行匹配时，不需要将待识别声音与声音样本库中所有的基础声音样本进行匹配，仅需要与上述筛选出的标签对应的基础声音样本进行匹配，减小了匹配的数量，缩短了匹配所需要的时间，提高了匹配效率。

需要说明的是，将待识别声音与筛选出的标签对应的基础声音样本进行匹配时，可以通过匹配两者的抽象属性值来得到匹配结果。

S305、根据匹配结果确定待识别声音对应的至少一个基础声音样本，并获取至少一个基础声音样本对应的标签，得到至少一个标签。

S306、计算至少一个标签中相同标签对应的基础声音样本的数量。

S307、根据基础声音样本的数量对至少一个标签进行排序，得到排序结果。

S308、将基础声音样本的数量最多的基础声音样本对应的标签，或者排序结果，或者基础声音样本的数量反馈给用户。

本发明实施例三提供的声音的语义分析方法，在上述实施例一和实施例二的基础上，根据接收到的用户输入的描述信息对标签进行筛选，再将接收到的用户输入的待识别声音与筛选出的标签对应的基础声音样本进行匹配，得到匹配结果。经由上述技术方案，在匹配时，不需要将待识别声音与声音样本库中所有的基础声音样本进行匹配，仅需要与上述筛选出的标签对应的基础声音样本进行匹配，减小了匹配的数量，缩短了匹配所需要的时间，提高了匹配效率，从而能够在较短的时间内将结果反馈给用户。

实施例四：

图4是本发明实施例四提供的声音的语义分析装置的结构图。该装置可由软件和/或硬件实现，一般集成在服务器中，可通过声音的语义分析方法来对声音的语义进行分析。如图4所示，该装置包括：声音样本库形成模块401、匹配模块402和反馈模块403。

其中，声音样本库形成模块401，用于获取多个来自生物的无语义的基础声音样本，为各个基础声音样本设置标签，形成声音样本库。匹配模块402，用于接收用户输入的待识别声音，在声音样本库中对待识别声音进行匹配，得到匹配结果。反馈模块403，用于根据匹配结果将待识别声音对应的基础声音样本的标签反馈给用户。

可选地，该装置还可以包括：反馈信息获取模块和更新模块。

其中，反馈信息获取模块，用于获取用户的反馈信息。更新模块，用于根据反馈信息对声音样本库中的基础声音样本和/或基础声音样本对应的标签进行更新。

可选地，更新模块可以包括：正确率统计单元和第一更新单元。

其中，正确率统计单元，用于如果反馈信息为对错值或正确比例值，则：统计待识别声音对应的基础声音样本与基础声音样本对应的标签的对应关系的正确率。第一更新单元，用于根据正确率更改基础声音样本对应的标签，或者将正确率添加至基础声音样本对应的标签中。

可选地，更新模块还可以包括：标签提取单元和第二更新单元。

其中，标签提取单元，用于如果反馈信息为待识别声音的语义描述信息，则：根据语义描述信息提取标签。第二更新单元，用于将待识别声音作为新的基础声音样本，与提取的标签对应存储到声音样本库中。

可选地，匹配模块402可以包括：抽象属性值获取单元和第一匹配单元。

其中，抽象属性值获取单元，用于接收用户输入的待识别声音，并获取待识别声音的抽象属性值。第一匹配单元，用于将待识别声音的抽象属性值与声音样本库中的基础声音样本的抽象属性值进行匹配，得到匹配结果。

可选地，匹配模块402还可以包括：接收单元、筛选单元和第二匹配单元。

其中，接收单元，用于接收用户输入的待识别声音和描述信息。筛选单元，用于根据描述信息在声音样本库中对标签进行筛选，得到筛选出的标签。第二匹配单元，用于在筛选出的标签对应的基础声音样本中对待识别声音进行匹配，得到匹配结果。

可选地，反馈模块403可以包括：标签获取单元、基础声音样本数量计算单元、排序单元和反馈单元。

其中，标签获取单元，用于根据匹配结果确定待识别声音对应的至少一个基础声音样本，并获取至少一个基础声音样本对应的标签，得到至少一个标签。基础声音样本数量计算单元，用于计算至少一个标签中相同标签对应的基础声音样本的数量。排序单元，用于根据基础声音样本的数量对至少一个标签进行排序，得到排序结果。反馈单元，用于将基础声音样本的数量最多的基础声音样本对应的标签，或者排序结果，或者基础声音样本的数量反馈给用户。

本发明实施例四提供的声音的语义分析装置，为获取的每个来自生物的无语义的基础声音样本设置标签，形成声音样本库后，在声音样本库中对接收的用户输入的待识别声音进行匹配，并根据匹配后的匹配结果将待识别声音对应的基础声音样本的标签反馈给用户。经上述技术方案之后，该装置实现了为用户提供待识别声音的语义，进而使得用户了解无语义的声音的语义，从而使得用户了解生物所要表达的含义。

本发明实施例所提供的声音的语音分析装置可用于执行本发明任意实施例所提供的声音的语义分析方法，具备相应的功能模块。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种声音的语义分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，接收用户输入的待识别声音，在所述声音样本库中对所述待识别声音进行匹配，得到匹配结果包括：

接收用户输入的待识别声音，并获取所述待识别声音的抽象属性值；

将所述待识别声音的抽象属性值与所述声音样本库中的基础声音样本的抽象属性值进行匹配，得到匹配结果。

3.根据权利要求2所述的方法，其特征在于，所述抽象属性值包括声波、波长、频率、音量和关键声音片段中的至少一个。

4.根据权利要求3所述的方法，其特征在于，所述关键声音片段包括出现至少两次的声音片段或音量达到预设阈值的声音片段。

5.根据权利要求1所述的方法，其特征在于，接收用户输入的待识别声音，在所述声音样本库中对所述待识别声音进行匹配，得到匹配结果包括：

接收用户输入的待识别声音和描述信息；

根据所述描述信息在所述声音样本库中对标签进行筛选，得到筛选出的标签；

在所述筛选出的标签对应的基础声音样本中对所述待识别声音进行匹配，得到匹配结果。

6.根据权利要求5所述的方法，其特征在于，所述描述信息包括所述生物的属性信息或所述生物所处场景的属性信息。

7.根据权利要求1所述的方法，其特征在于，根据所述匹配结果将所述待识别声音对应的基础声音样本的标签反馈给所述用户包括：

根据所述匹配结果确定所述待识别声音对应的至少一个基础声音样本，并获取所述至少一个基础声音样本对应的标签，得到至少一个标签；

计算所述至少一个标签中相同标签对应的基础声音样本的数量；

根据所述基础声音样本的数量对所述至少一个标签进行排序，得到排序结果；

将所述基础声音样本的数量最多的基础声音样本对应的标签，或者所述排序结果，或者所述基础声音样本的数量反馈给所述用户。

8.根据权利要求1所述的方法，其特征在于，根据所述匹配结果将所述待识别声音对应的基础声音样本的标签反馈给所述用户之后，还包括：

获取所述用户的反馈信息；

根据所述反馈信息对所述声音样本库中的基础声音样本和/或所述基础声音样本对应的标签进行更新。

9.根据权利要求8所述的方法，其特征在于，根据所述反馈信息对所述声音样本库中的基础声音样本和/或所述基础声音样本对应的标签进行更新包括：

如果所述反馈信息为对错值或正确比例值，则：

统计所述待识别声音对应的基础声音样本与所述基础声音样本对应的标签的对应关系的正确率；

根据所述正确率更改所述基础声音样本对应的标签，或者将所述正确率添加至所述基础声音样本对应的标签中。

10.根据权利要求8所述的方法，其特征在于，根据所述反馈信息对所述声音样本库中的基础声音样本和/或所述基础声音样本对应的标签进行更新包括：

如果所述反馈信息为所述待识别声音的语义描述信息，则：

根据所述语义描述信息提取标签；

将所述待识别声音作为新的基础声音样本，与提取的标签对应存储到所述声音样本库中。

11.根据权利要求1所述的方法，其特征在于，来自生物的无语义的基础声音样本具体为来自婴儿或宠物的声音。

12.一种声音的语义分析装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述匹配模块包括：

接收单元，用于接收用户输入的待识别声音和描述信息；

筛选单元，用于根据所述描述信息在所述声音样本库中对标签进行筛选，得到筛选出的标签；

第二匹配单元，用于在所述筛选出的标签对应的基础声音样本中对所述待识别声音进行匹配，得到匹配结果。

14.根据权利要求12所述的装置，其特征在于，所述反馈模块包括：

标签获取单元，用于根据所述匹配结果确定所述待识别声音对应的至少一个基础声音样本，并获取所述至少一个基础声音样本对应的标签，得到至少一个标签；

基础声音样本数量计算单元，用于计算所述至少一个标签中相同标签对应的基础声音样本的数量；

排序单元，用于根据所述基础声音样本的数量对所述至少一个标签进行排序，得到排序结果；

反馈单元，用于将所述基础声音样本的数量最多的基础声音样本对应的标签，或者所述排序结果，或者所述基础声音样本的数量反馈给所述用户。

15.根据权利要求12所述的装置，其特征在于，还包括：

反馈信息获取模块，用于获取所述用户的反馈信息；

更新模块，用于根据所述反馈信息对所述声音样本库中的基础声音样本和/或所述基础声音样本对应的标签进行更新。

16.根据权利要求15所述的装置，其特征在于，所述更新模块包括：

正确率统计单元，用于如果所述反馈信息为对错值或正确比例值，则：统计所述待识别声音对应的基础声音样本与所述基础声音样本对应的标签的对应关系的正确率；

第一更新单元，用于根据所述正确率更改所述基础声音样本对应的标签，或者将所述正确率添加至所述基础声音样本对应的标签中；

标签提取单元，用于如果所述反馈信息为所述待识别声音的语义描述信息，则：根据所述语义描述信息提取标签；

第二更新单元，用于将所述待识别声音作为新的基础声音样本，与提取的标签对应存储到所述声音样本库中。