CN105263078A

CN105263078A - 一种识别多种音源并提供多样化提示预警机制的智能耳机系统及方法

Info

Publication number: CN105263078A
Application number: CN201510703036.0A
Authority: CN
Inventors: 马建; 韩闻文; 田野
Original assignee: WUXI SMART SENSING STARS TECHNOLOGY Co Ltd
Current assignee: WUXI SMART SENSING STARS TECHNOLOGY Co Ltd
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-01-20

Abstract

本发明公开了一种识别多种音源并提供多样化提示预警机制的智能耳机系统及方法，智能耳机系统包括耳机端和管理中心端；耳机端包括声音采集器、扬声器、存储模块、计算模块、通信模块和供电模块；管理中心端包含请求和响应模块、存储模块、业务逻辑模块；方法包括识别多种音源并提供多样化提示预警机制的智能耳机系统的监听预警方法以及管理方法，可以识别多种音源的声音，提供可扩展的，多种类别的，多种重要程度的提示和预警服务，避免由于耳机封闭性造成的不便甚至事故。

Description

一种识别多种音源并提供多样化提示预警机制的智能耳机系统及方法

技术领域

本发明涉及一种识别多种音源并提供多样化提示预警机制的智能耳机系统及方法，属于智能耳机技术领域。

背景技术

耳机被广泛用来听取声音资源，它包含一个将电信号转化为声音信号的发生器，一个将声音信号转化为电信号的声音采集器。耳机可以被连接到声音资源设备上，比如CD，DVD，计算机，家庭影院，MP3，多媒体手机的媒体播放器上等。

随着消费电子设备的发展，越来越多的耳机设备具备了智能的功能。近年来，各种各样新型智能耳机产品面世或处于研发过程中。下面是一些智能耳机的例子：

(1)WP8.1专属耳机。慕尼黑BraggiLLC公司研发智能无线蓝牙耳机，左右耳机独立工作，智能化App管理，内置多款传感器，比如：重力感应器、脉搏感应器等。

(2)英特尔蓝牙智能耳机AI管家“Jarvis”，实时接收用户语音命令，提供日程安排、日历、短信消息、备忘录以及查找地图等功能，并实时回答用户提出的问题。

(3)微软研发的“MusicHeart”智能耳机，它可以监控用户心跳、体温等生物节律，分析用户情绪和健康水平，并自动为用户挑选合适心情的音乐。若用户心情不安，心跳加速，情绪紧张，它就会挑选节奏较为舒缓的音乐让用户平静下来。如果用户正在进行锻炼，希望让心跳保持在特定的强度，它就会选择节奏明快、激动人心的音乐。

(4)微软KinectOne通过视觉识别用户的心跳变化(代表兴奋度)，来改变游戏难度。耳机也可以通过测量心律或体温变化，来探测用户对某种类型音乐的喜好。

(5)智能耳机AirTube运用空气压力作开关。耳机耳塞部分做了特殊设计，运用空气压力来作为耳机的开关。当耳塞放入耳朵内，音乐随即开始。耳塞拔出后音乐变立刻停止，即方便又实用。

(6)控制情绪的智能耳机。西雅图的视觉设计师SamMatson创造了该耳机，可以帮玩家学会控制自己的愤怒，这种浸入式的耳机会监控用户的心率，如果你心律加速，就会不停增加游戏的难度，让你必须学会冷静。

目前的智能耳机存在的问题是：

(1)多监测用户状态，忽略监测外界情景

目前智能耳机硬件或者软件多是研究如何将用户状态和上下文环境反馈给耳机，指挥耳机做调整。但是，忽视了另一种反馈机制的应用：将环境上下文反馈给用户，让用户做出决策和调整。前者反馈的反馈内容是用户状态和环境，接受者和改变者是耳机；后者的反馈内容是环境上下文，接受者和变化者是用户。

事实上，第二种反馈有非常重要的意义和应用价值。用户使用耳机将自己封闭在独立的声音环境中，无法听到外界环境的声音，从而不知道外界发生了什么。当外界没有紧急和重要事件发生的时候，耳机不会带来负面的影响。然而，一旦外界有紧急事件和重要通知的时候，用户则无法及时得到消息，延误做出决策的时机。比如：

a.行走的时候听歌，无法听到汽车的鸣笛声，容易发生交通事故

b.公共环境听歌的时候，无法听到各种预警，比如，火警，爆炸，呼救，斗殴等，不能及时撤离危险的区域；

c.坐公交车的时候带着耳机，无法听到公交车报站的声音，无法及时按照预定的站点下车

d.室内带着耳机听歌，无法听到门铃声，错过到访的客人；

e.带着耳机听歌或者看视频，无法听到别人呼叫自己的声音，错过对同事和朋友的应答。

诚然耳机给人们带来了隔离声音的好处，但是它的隔离性也会让人们错过重要声音，给人们生活带来不便和危险。因此，亟须一种具有智能反馈功能的耳机，将外界声音情况汇报给用户。让用户处于相对封闭声音环境中又不至于和外界彻底断开联系，让用户不再因为耳机错过重要的外界环境事件，安心使用耳机欣赏音乐。

(2)缺乏监控多种外界事件，提供多种类别，多种重要程度提醒的功能

即使耳机能够做到监听外界声音并做出预警，仍然不足以方便的应用。原因是：外界的声音多种多样，有不同的声音类别，比如：火警，尖叫，爆炸，报站，门铃，斗殴，人声等。声音的重要程度和紧迫程度也不同，比如火警，爆炸等声音事件很重要；门铃，报站则相对比较重要；人声等则重要性相对较低。

如果不对声音事件做分类，而是将所有的声音事件都使用同样的提醒方式，则会让用户迷茫而不知所措。生活中常见的的各种提醒也是自然地按照重要程度应用不同的提醒声音，比如：火警尖锐，紧迫，刺耳；上课铃声连续紧急；门铃缓和，清脆等。因此，需要对不同的事件分门别类地提供预警的服务。

(3)监测情景有限且无扩展性

即使耳机能够做到对多种外界事件做出预警，在实际应用中还是不够方便。原因是：耳机预装的声音只有有限的几种，对于复杂世界中的新的音源无法进行识别，从而无法做到及时预警和提示。

因此需要使智能耳机具有音源的扩展功能，从而可以让智能耳机识别用户自定义的音源，或者服务器更新的音源信息等。

鉴于上述存在的三个问题，亟须一个能够帮助用户监测外界环境音，提供可扩展的，多种类别，多种重要程度的提醒服务和预警服务的耳机系统。该耳机系统可以让用户在相对独立的声音环境下安心地欣赏音乐，不用担心错过紧急和重要的事件。

发明内容

本发明解决的问题是利用耳机监听外界多种音源的声音，并为用户提供可扩展的多类别，多重要程度级别的提示和预警服务。具体来说，本发明涉及一种提供耳机监测声音，声音情景分类以及根据不同场景不同重要程度进行提示和预警提示的技术，让用户可以在耳机独立声音环境下仍不影响对外界重要事件的监听。

一种识别多种音源并提供多样化提示预警机制的智能耳机系统，包括耳机端和管理中心端；

耳机端包括声音采集器、扬声器、存储模块、计算模块、通信模块和供电模块；

声音采集器采集多种音源的声音，转化为电信号，输出至计算模块；

存储模块存储情景模型库，存储可运行代码，存储提示音库；情景模型库包括场景的声音模型数据，用于识别和确定声音的场景；可运行代码包括情景分类识别代码，与管理中心通信代码，情景的增删改查的数据操作代码；提示音库包含不同的声音文件，用于播放预警和提示；

计算模块采样关键帧，抽取特征，建立声音模型，与情景模型库中的情景模型进行比对，找到和该音频匹配程度最高的情景，根据不同的情景，不同的重要程度，查找到对应提示音，通知扬声器给于相应的预警；

扬声器的输入为计算模块发出的通知信号，输出是转化后的声音信号；

通信模块负责耳机端和管理中心端的通信，通信模块建立和管理中心端的通信连接，发送数据和指令给管理中心，接受管理中心端的数据和指令，将数据和指令发送给计算模块供后续决策或者存储；通信模块采用无线或有线通讯；

供电模块为耳机端提供电能；

管理中心端管理智能耳机端的多种情景模式，管理中心端为预装在智能计算机/智能移动设备上的管理软件；管理中心端对耳机端的情景进行增删改查操作以及和耳机端通信模块进行通信连接；管理中心端和多个耳机端进行通信，不同的耳机端都能够向管理中心发送数据或者获取来自管理中心的数据，管理中心也向耳机端发送数据或者接收来自于每一个耳机端的数据；管理中心的管理操作包括通过发送通信请求，命令耳机端新增所发送的情景模型，删除耳机端已有的情景模型，更新耳机端已有情景模型的重要级别；

管理中心端包含请求和响应模块、存储模块、业务逻辑模块；

请求和响应模块向耳机端的通信模块发送对耳机端本地情景的增删改查请求，并接受耳机端通信模块发出的处理结果，处理结果包括处理成功，处理失败，部分处理成功；同时，接收耳机端通信模块发送的新增情景的请求，并向耳机端通信模块返回管理中心对请求的处理结果，处理结果包括处理成功，处理失败，部分处理成功；

存储模块存储情景模型，管理中心端的耳机信息表以及耳机端的音频信息表；存储模块接受业务逻辑模块的获取数据的命令，返回相应的数据给业务逻辑模块供计算和业务逻辑处理，耳机信息表用于存储所有被管理中心所管理的耳机信息，信息包括耳机的标识，耳机的型号，最近更新时间；耳机端音频信息表用于存储所有被管理中心所管理的耳机端的情景模式标识，音频文件在耳机端的存储路径，情景的重要等级，以及最后更新时间；

业务逻辑模块位于请求响应模块以及存储模块的中间层，它和所连接的两个模块之间都存在双向的通信，业务逻辑模块接收请求响应模块的请求并返回处理结果给请求响应模块，业务逻辑模块向存储模块发出获取数据请求并接受存储模块返回的数据。

一种识别多种音源并提供多样化提示预警机制的智能耳机系统的监听预警方法以及管理方法，具体包括：

(一)监听预警方法

(1)声音的采集

手机通过声音采集器收集多种外界音源的声音；手机的声音采集器对外界声音不做任何处理，只是将音频信号转化成电信号，供后续识别使用；

(2)声音建模

声音建模指的是提取声音信号中的基本声学特征，该特征能够有效地区分不同的声音事件类型，该模型数据将会用于和声音库中的样本进行匹配和比对，进而找到匹配程度最高的情景类别；

采用时序模型为声音数据建模；每个采样点采集到的声音数据作为一个信号，一段音频中的所有采样点合在一起构成一个时序序列；

(3)声音情景分类

声音情景分类是指将待识别的声音模型输入到时序识别算法中，算法为声音输出一个情景类别，并为声音标识上类标；声音样本库的模型训练过程在计算端完成，耳机端只加载已训练好的模型；当新的待识别声音到来的时候，耳机只完成分类识别的任务；

(4)事件提醒服务

耳机系统按照计算模块给声音计算的情景类标，查找提示声音的表，找到对应的提示音，并通过耳机播放给用户；

(二)情景管理方法

(1)通信连接

管理中心和耳机端都能够作为呼叫端或者被呼叫端，两者进行对等通信；呼叫端查找周围可被查找的被呼叫端，当被呼叫端被查找到后与呼叫端建立通信连接；通信连接建立成功后，呼叫端和被呼叫端都能够作为数据的发送端和接收端进行双向通信；在通信状态下，呼叫端和被呼叫端都能够发起断开链接的请求，并终止通信；

(2)请求发送和解析

由于管理中心和耳机是通信对等端，双方都能够主动给对方发送请求；请求发送方将带有参数的请求发送给接收方，请求接收方接受请求并解析出请求中包封的参数；接收方将解析出的参数存储到本地的存储模块，或者输送到计算模块/业务逻辑模块；

(3)业务逻辑处理

如果请求接收端是耳机端，则耳机端按照管理中心的请求对本地的情景进行增删改查；如果请求接收端是管理中心端，则管理中心按照耳机的请求对本地的情景进行新增；

(4)请求响应

请求接受方向请求发送方发送请求处理的情况，处理结果包括处理成功，处理失败，部分处理成功。

本发明的优点在于：

可以识别多种音源的声音，提供可扩展的，多种类别的，多种重要程度的提示和预警服务，避免由于耳机封闭性造成的不便甚至事故。

具体为：

(1)提供整体的监听预警架构；

(2)对不同声音场景进行分类；

(3)对不同分类的情景进行有区别的提示和预警；

(4)对不同重要程度的情景有区别的提示和预警；

(5)通过管理中心对耳机端的现有情景库进行管理，增删改查；

(6)提供用户自定义录入声音情景的功能。

附图说明

图1是本发明的结构示意图；

图2是管理中心端的结构示意图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明是一种识别多种音源并提供多样化提示预警机制的智能耳机系统，如图1所示，包括耳机端和管理中心端。

耳机端主要负责接受多种外界音源，识别音源的情景类型，按照不同的类别和重要程度发出相应的预警提示音；

管理中心端主要负责对整个耳机系统进行管理和控制，和耳机端进行通信连接，对耳机端情景进行增删改查，管理用户自定义音源和情景类型等。

耳机系统和外界环境的交互包括但是不限于：接受外界音源的声音，接受用户的控制命令等。

耳机端包括但是不限于声音采集器、扬声器、存储模块、计算模块、通信模块和供电模块。

声音采集器采集外界的环境音，声音采集器的输入是外界多种音源的声音，输出是转化后的电信号，输出至计算模块。声音采集器主要应用于监听外界情景声音，采集自定义情景声音数据等。

存储模块负责存储情景模型库，存储可运行代码，存储提示音库。存储模块存储的内容的用途是：第一，情境模型包括但是不限于各种场景的声音模型数据，这些数据将用于识别和确定声音的场景。第二，可运行的代码包括但是不限于情景分类识别的代码，与管理中心的通信代码，情景的增删改查等数据操作代码等。第三，提示音库包含了不同的声音文件用于播放预警和提示。

计算模块负责待识别声音建模，声音类别识别，以及生成预警信号等任务。计算模块的用途是：第一，声音建模任务，采样关键帧，抽取特征，建立声音模型。第二，声音场景的匹配和识别任务，将已建立的情景模型库中的情景模型进行比对，找到和该音频匹配程度最高的情景。第三，预警信号的生成任务，按照不同的情景，不同的重要程度，查找到对应提示音，通知扬声器给于相应的预警。耳机端上装有可编程智能芯片，通过计算机软件对耳机上的可编程芯片进行编程。耳机上有可执行代码的运行环境，代码被打包成可执行文件在运行环境下执行。

扬声器负责发出声音，该模块的输入是计算模块发出的通知信号，输出是转化后的声音信号。扬声模块主要应用于播放多种类别，多种重要程度，以及用户自定义和系统更新的提示声音。

通信模块负责耳机端和智能计算机/智能移动设备的管理中心端的通信任务，它用于建立和管理中心端的通信连接，发送数据和指令给管理中心，接受管理中心端的数据和指令，将数据和指令发送给计算模块供后续决策或者存储等。通信模块采用无线或有线通讯。

管理中心端负责管理智能耳机端的多种情景模式，它是预装在智能计算机/智能移动设备上的管理软件。它的主要功能包括：对耳机端的情景进行增删改查操作以及和耳机端通信模块进行通信连接。管理中心可以和多个耳机端进行通信，不同的耳机端都可以向管理中心发送数据或者获取来自管理中心的数据，管理中心也可以向耳机端发送数据或者接收来自于每一个耳机端的数据。管理中心的管理操作包括但不限于：通过发送通信请求，命令耳机端新增所发送的情景模型，删除耳机端已有的情景模型，更新耳机端已有情景模型的重要级别等。

管理中心端如图2所示，包含请求和响应模块、存储模块、业务逻辑模块。

请求和响应模块向耳机端的通信模块发送对耳机端本地情景的增删改查请求，并接受耳机端通信模块发出的处理结果，处理结果包括但不限于处理成功，处理失败，部分处理成功等。同时，它可以但不限于接收耳机端通信模块发送的新增情景的请求，并向耳机端通信模块返回管理中心对请求的处理结果，处理结果包括但不限于处理成功，处理失败，部分处理成功等。

存储模块可以但是不限于存储情景模型，管理中心端的耳机信息表以及耳机端的音频信息表等。该模块完成数据的持久化存储和管理，主要和业务逻辑模块之间进行交互。一方面，它接受业务逻辑模块的获取数据的命令，另一方面它返回相应的数据给业务逻辑模块供计算和业务逻辑处理使用。耳机信息表用于存储所有被管理中心所管理的耳机信息，这些信息包括但不限于耳机的标识，耳机的型号，最近更新时间等。耳机端音频信息表用于存储所有被管理中心所管理的耳机端的情景模式标识，音频文件在耳机端的存储路径，情景的重要等级，以及最后更新时间等。

业务逻辑模块位于请求响应模块以及存储模块的中间层，它和所连接的两个模块之间都存在双向的通信，如图2所示。一方面，它接收请求响应模块的请求并返回处理结果给请求响应模块，另一方面它向存储模块发出获取数据请求并接受存储模块返回的数据。

本发明系统还包括供电模块，它为耳机端的日常监听，计算，通信等任务提供电能。

本发明的技术方案主要分为两个任务流程，监听预警流程以及管理流程。

(一)监听预警流程

(1)声音的采集

手机通过声音采集器收集多种外界音源的声音。手机的声音采集器对外界声音不做任何处理，只是将音频信号转化成电信号，供后续识别使用。

(2)声音建模

声音建模指的是提取声音信号中的基本声学特征，该特征能够有效地区分不同的声音事件类型，该模型数据将会用于和声音库中的样本进行匹配和比对，进而找到匹配程度最高的情景类别。

一般同类的事件声音变化保持稳定，故可以通过建模的方式匹配和识别新的声音事件。由于声音具有连续性，本发明采用时序模型为声音数据建模。每个采样点采集到的声音数据作为一个信号，一段音频中的所有采样点合在一起构成一个时序序列。

(3)声音情景分类

声音情景分类是指将待识别的声音模型输入到时序识别算法中，算法为声音输出一个最大可能的情景类别，并为声音标识上类标。声音样本库的模型训练过程在计算端完成，耳机端只需要加载已训练好的模型。当新的待识别声音到来的时候，耳机只需要完成分类识别的任务。

(4)事件提醒服务

耳机系统按照计算模块给声音计算的最大可能的情景类标，查找提示声音的表，找到对应的提示音，并通过耳机播放给用户，促使用户尽快做出决策。

(二)情景管理流程

(1)通信连接

管理中心和耳机端都可以作为呼叫端或者被呼叫端，两者进行对等通信。呼叫端查找周围可被查找的被呼叫端，当被呼叫端被查找到后与呼叫端建立通信连接。通信连接建立成功后，呼叫端和被呼叫端都可以作为数据的发送端和接收端进行双向通信。在通信状态下，呼叫端和被呼叫端都可以发起断开链接的请求，并终止通信。通信双方使用的通信协议可以是但是不限于蓝牙通信协议，HTTP通信协议等。

(2)请求发送和解析

由于管理中心和耳机是通信对等端，因此双方都可以主动给对方发送请求。请求发送方将带有参数的请求发送给接收方，请求接收方接受请求并解析出请求中包封的参数。接收方将解析出的参数存储到本地的存储模块，或者输送到计算模块/业务逻辑模块。

(3)业务逻辑处理

如果请求接收端是耳机端，那么耳机端按照管理中心的请求对本地的情景进行增删改查。如果请求接收端是管理中心端，那么管理中心按照耳机的请求对本地的情景进行新增等。

(4)请求响应

请求接受方向请求发送方发送请求处理的情况，处理结果包括但是不限于处理成功，处理失败，部分处理成功等。

实施例：

本发明的系统包括两端：耳机端和管理中心端。

耳机端的重要模块有：声音采集器，存储模块，计算模块，扬声模块。

管理中心端的重要模块有：请求和响应模块，存储模块，业务逻辑模块等。

耳机端的存储模块中存有有两张数据表和一系列存储声音模型的文件。第一个耳机端声音情景表(如表1)，用于存放声音的情景信息，包括类型和重要程度等；第二个耳机端音频信息表(如表2)，用于存放音频文件的存储路径，重要程度标识等。情景的模型数据用文本文件形式存储。以一个标识符为s_id的场景为例，其转移矩阵存储在命名为s_id_a.txt的文件中，混淆矩阵存储在命名为s_id_b.txt的文件中，初始化矩阵存储在命名为s_id_pi.txt的文件中。

表1耳机端情景模型表

表2耳机端音频信息表

管理中心端的存储模块存有三张实体表和一系列存储声音模型的文件。

第一个管理中心端耳机信息表(如表3)，用于存放所有管理中心端负责控制管理的耳机基本信息。第二个管理中心端情景模型表(如表4)，用于存放声音的情景模型信息，包括但是不限于类型和重要程度等；第三个管理中心端音频信息表(如表5)，用于存放具体的音频信息，包括但是不限于音频文件的存储路径，重要等级等。情景模型数据用文本文件形式存储。以一个标识符为s_id的情景为例，其转移矩阵存储在命名为s_id_a.txt的文件中，混淆矩阵存储在命名为s_id_b.txt的文件中，初始化矩阵存储在命名为s_id_pi.txt的文件中。

表3管理中心端耳机信息表

表4管理中心端情景模型表

表5管理中心端音频信息表

具体的实施例子包括两个重要的流程，一个是监听-预警流程，另一个是情景模式的管理流程。

(一)监听-预警流程

(1)声音采集

手机通过声音采集器收集多种外界音源的声音。手机的声音采集器对外界声音不做任何处理，只是单纯的将音频信号转化成电信号，供后续识别使用。

为了保证采集的声音不失真，采样频度间隔满足奈奎斯特采样定义的规定。在进行模拟/数字信号的转换过程中，当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax)，采样之后的数字信号能够完整地保留原始信号中的信号，实际应用中保证采样频率为信号最高频率的5～10倍。

令AT表示声音的幅度阈值，LT表示声音长度的阈值。当声音的幅度大于阈值AT的时候，进行采样。采样结束的条件有两种：当声音的振幅小于AT，或者当声音的时长大于LT。一个声音样本由关键帧的振幅值序列表示A＝{a₁,a₂,...,a_m},其中a_i表示第i个关键帧的振幅值，m表示待识别的关键帧总数。

(2)声音建模

本发明采用隐马尔科夫时序模型为声音数据建模，该模型包含：隐状态S，观察值O，初始隐状态分布π，转移矩阵A，混淆矩阵B等参数。其中，隐状态包含五种{缓升，缓降，骤升，骤降，不变}，用集合S＝{s₁,s₂,s₃,s₄,s₅}表示,s_i表示第i个状态，共5种隐状态。观察值用临近两个声音关键帧的振幅差值计算得出，用序列O＝{o₁,o₂,...,o_l}表示,o_i表示第i个观察值，由o_i＝Δa＝a_i-a_i-1计算得出，l表示观察值总数。对于任意一个隐状态si，能够观察到的观察值o_j并不唯一，而是l个观察值的其中一个。初始分布π＝{π₁,π₂,......,π_n}，其中π第i个状态的初始分布，n表示隐状态的总数。转移矩阵A是一个N×N的矩阵A＝{a_ij}，其中a_ij表示从状态s_i转移到s_j的概率。混淆矩阵B是一个N×M的矩阵B＝{b_j(k)}，其中b_j(k)表示t时刻在状态s_i的条件下，能观察到v_k的概率。

另外，需要说明一下声音模型库的建立方式，也就是如何计算预定义情景的初始分布π，转移矩阵A和混淆矩阵B，这些模型数据将用于和待识别的声音模型进行比对。样本声音模型是预先存储在耳机端存储模块的，无需每次识别新声音的时候都生成一遍。初始分布，转移矩阵，混淆矩阵的计算方式如(1)-(3)。对于某类c的声音样本，转移概率a_ij是隐状态总数和各种转移总数的商，混淆概率b_ij是从状态s_i出发观察到o_j的总数和从s_i状态出发观察到所有观察值的商，初始分布是在开始时刻状态s_i总数和所有状态的总数的商。

a_{i j} = \frac{| s_{i} &RightArrow; s_{j} |}{Σ | s_{k} - s_{l} |}, s_{i}, s_{j}, s_{k}, s_{l} &Element; S - - - (1)

b_{i j} = \frac{| s_{i} : o_{j} |}{Σ | s_{i} - o_{k} |}, s_{i} &Element; S, o_{j}, o_{k} &Element; O - - - (2)

π_{i} = \frac{| s_{i} |}{Σ | s_{j} |}, s_{i}, s_{j} &Element; S - - - (3)

(3)分类声音事件

具体应用时，计算未知声音在状态转移过程中最大概率，根据最大概率对应的模型进行判决。令情景的类别为C＝{c₁,c₂,...,c_n},其中c_i表示某种情景，n表示情景的总数。一个从声音采集器获得的声音样本由关键帧的振幅值序列表示A＝{a₁,a₂,...,a_m},其中a_i表示第i个关键帧的振幅值，m表示待识别的关键帧总数。对于每一组观察值，使用前向识别算法计算能够产生观察值的最大可能的类别，每一步计算更新前向变量的值。声音情景类别的识别过程如下：

第一步:利用初始分布π和混淆矩阵B初始化前向向量α。

α₁(i)＝π_ib_i(o₁),1≤i≤N(1)

第二步:当t≤T，利用转移矩阵A和混淆矩阵B计算前向变量的值。

α_{t + 1} (j) = [Σ_{i = 1}^{N} α_{t} (i) a_{i j}] \times b j (o_{t + 1}), 1 \leq i, j \leq N, 1 \leq t \leq T - 1 - - - (2)

第三步:当遍历完所有的观察值后，计算出分类概率的大小。

P (O | c_{i}) = Σ_{i = 1}^{N} α_{T} (i) - - - (3)

第四步，将此组观察值标记上分类概率最大的类标c，将声音划分到概率最大的那个情景分类标签中。

c＝argmax(P(O|c_i))(4)

(4)事件提醒服务

通过分类算法的计算，带识别的声音和类标c关联。以类标c为查询关键字，在提示音表中查询到特定类别的提示音，并播放提示音。每监测到一段声音，播放一次提示音。

不同类别的情景使用不同的提示音，情景包括：火警，门铃，人声，鸣笛，爆炸，等尖叫，电话响铃等。重要的声音情景用短促而频度高的声音提示，促使用户尽快作出反馈；不太重要的情景用较缓和的提示音。

(二)情景管理流程

(1)通信连接

呼叫端查找周围可被查找的被呼叫端。当呼叫端找到可以被连接的被呼叫端后，首先进行身份验证后与之建立通信连接。通信链接建立成功后，呼叫端和被呼叫端都可以作为数据的发送端和接收端进行双向通信。在通信状态下，呼叫端和被呼叫端都可以发起断开通信连接的请求并中断通信。

(2)请求发送和解析

由于管理中心和耳机是通信对等端，因此双方都可以主动给对方发送请求。请求发送方将带有参数的请求发送给接收方，请求接收方接受请求并解析出请求中包封的参数。

耳机端和管理中心端的请求传输格式可以但是不限于以JSON，xml等文件形式传递。管理中心端可以发送给耳机短的请求包括但不限于添加新的情景add,删除耳机端已有的情景del，更新耳机端已有情景udt，查询耳机端情景srch等。耳机端可以发送给管理中心的请求包括但是不限于增加新的情景等。管理中心发送给耳机端的管理请求示例如表(6)所示，反馈给管理中心的请求处理响应示例如表(7)所示。

(3)业务逻辑处理

当请求接受方是耳机端时，耳机端计算模块接受通信模块解析出的参数，对管理中心的请求进行计算和处理，这些处理包括但不限于增加新的情景，删除已有的情景，更新当前情景的重要等级，情景模型等。

当请求接收方是管理中心时，管理中心的业务逻辑模块接受请求响应模块解析出的参数，并对耳机端的请求进行业务逻辑处理，这些处理包括但不限于增加新的情景等。

(4)请求响应

当请求接收方是耳机端时，耳机的通信模块向管理中心的请求响应模块发送本次请求的处理结果，结果包括但是不限于处理成功，处理失败以及部分处理成功等。

当请求接收方是管理中心时，管理中心的请求响应模块向耳机端的通信模块发送本次请求的处理结果，结果包括但是不限于处理成功，处理失败以及部分处理成功等。

表6管理中心发送给耳机端的管理请求示例

表7耳机端反馈给管理中心的请求处理响应示例

Claims

1.一种识别多种音源并提供多样化提示预警机制的智能耳机系统，包括耳机端和管理中心端；

供电模块为耳机端提供电能；

2.一种识别多种音源并提供多样化提示预警机制的智能耳机系统的监听预警方法以及管理方法，具体包括：

(一)监听预警方法

(1)声音的采集

(2)声音建模

(3)声音情景分类

(4)事件提醒服务

(二)情景管理方法

(1)通信连接

(2)请求发送和解析

(3)业务逻辑处理

(4)请求响应