CN107122807B - 一种家庭监控方法、服务端及计算机可读存储介质 - Google Patents
一种家庭监控方法、服务端及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107122807B CN107122807B CN201710374229.5A CN201710374229A CN107122807B CN 107122807 B CN107122807 B CN 107122807B CN 201710374229 A CN201710374229 A CN 201710374229A CN 107122807 B CN107122807 B CN 107122807B
- Authority
- CN
- China
- Prior art keywords
- information
- prefabricated
- service model
- text
- home monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012544 monitoring process Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 54
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000008451 emotion Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 230000008909 emotion recognition Effects 0.000 claims description 5
- 206010011469 Crying Diseases 0.000 description 36
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 201000009032 substance abuse Diseases 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/02—Alarms for ensuring the safety of persons
- G08B21/0202—Child monitoring systems using a transmitter-receiver system carried by the parent and the child
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Emergency Management (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种家庭监控方法、服务端及计算机可读存储介质。该方法包括:接收采集端发出的音频信息;对所述音频信息进行特征处理并根据服务模型判断是否为预制信息;若是,则向预设终端发出警报。该服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明提供的家庭监控方法的步骤。该计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现本发明提供的家庭监控方法的步骤。本发明中通过服务模型判断是否向预设终端发出警报,从而防止在家庭环境下发生不希望发生的情况。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种家庭监控方法、服务端及计算机可读存储介质。
背景技术
随着深度学习的发展,智能语音领域最近几年取得了很大的发展。在很多领域中,语音识别的准确率已经接近人类。语音识别和自然语音处理的商用场景越来越多,在人机交互、语音控制、实时翻译、文本分类、语义理解、文本关键词提取、情绪分析、舆情监控等领域都有了广泛的应用。
于此同时,随着今年来国内经济的快速发展和人口流动,城市人口在婴儿看护方面也遇到了以前未如此广泛遇到的麻烦,主要体现在婴幼儿的照看监护问题。中国传统的父母帮忙照看孩子的问题不再适应现代社会。中介保姆虐待婴幼儿的事情屡见报端。
如何对家庭进行监控,防止虐待婴幼儿的事情发生是亟待解决的问题。
发明内容
本发明实施例提供了一种家庭监控方法、服务端及计算机可读存储介质,旨在对家庭进行监控,当有虐待婴幼儿的事情发生时发出警报。
有鉴于此,本发明实施例第一方面,提供了一种家庭监控方法,所述方法包括:
接收采集端发出的音频信息;
对所述音频信息进行特征处理并根据服务模型判断是否为预制信息;
若是,则向预设终端发出警报。
在一种可能的设计中,所述预制信息包括第一预制信息;所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括:
对所述音频信息进行语音参数提取得到第一信息;
根据第一服务模型判断所述第一信息是否为所述第一预制信息。
本实施例中,所述预制信息包括第二预制信息;所述根据第一服务模型判断所述第一信息是否为所述第一预制信息之后包括:
将所述第一信息转换成文本信息;
根据第二服务模型判断所述文本信息是否为所述第二预制信息。
本实施例中,所述将所述第一信息转换成文本信息包括:
将所述第一信息进行语音识别生成语言文本信息;
对所述语言文本信息进行语法语义处理生成语义文本信息;
将所述语义文本信息用作所述文本信息。
在一种可能的设计中,所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括:
对所述音频信息进行语音参数提取得到第一信息;
将所述第一信息转换成文本信息;
根据服务模型判断所述文本信息是否为预制信息。
本实施例中,所述将所述第一信息转换成文本信息还包括:对所述文本信息进行文本情绪识别获取语音情绪信息;
所述根据服务模型判断所述文本信息是否为预制信息还包括:根据服务模型判断所述文本信息和语音情绪信息是否为预制信息。
在一种可能的设计中,所述对所述音频信息进行特征处理并根据服务模型判断是否为预制信息之前,所述方法还包括:
通过训练数据库中训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型。
在一种可能的设计中,所述向预设终端发出警报的步骤之后,还包括:
接收预设终端发出的反馈信息;
根据所述反馈信息将对应的所述预制信息进行标记,并加入到所述训练数据库。
本发明实施例第二方面提供了一种家庭监控服务端,其特征在于,所述家庭监控服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明实施例提供的家庭监控方法的步骤。
本发明实施例第三方面提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现本发明实施例提供的家庭监控方法的步骤。
从以上技术方案可以看出,本发明实施例中,通过哭声信息的检测判断是否向预设终端发出警报,从而防止在家庭环境下可能发生的长时间哭闹等情况。
附图说明
图1为本发明一种家庭监控系统的实施例的示意图;
图2为本发明一种家庭监控方法另一个实施例的示意图;
图3为本发明一种家庭监控方法另一个实施例的示意图;
图4为本发明一种家庭监控方法另一个实施例的示意图;
图5为本发明一种家庭监控方法中训练数据自学习的过程的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
如图1所示,本发明提供的家庭监控方法,应用于家庭监控系统,该家庭监控系统包括用于采集音频信息的采集端101,用于处理音频信息的服务端102以及用于接收报警的预设终端103。
其中,采集端101集成在类似智能音箱的家庭终端中,主要完成的功能是语音数据的采集。采集端101可以采用麦克风阵列解决5米远场拾音问题;此外,采集端101还可以具有音频码率与网络带宽自适应的功能。当网络带宽较低或者时延较大时,自动切换到8khz采样频率,当带宽较大时延较低时自动切换到16khz甚至更高的采样频率。
上述预设终端可以以各种形式来实施。例如,本发明中描述的预设终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
终端在接收到警报后,可以对采集端发起会话控制。
请参阅图2,图2为本发明一种家庭监控方法一个实施例示意图,应用于家庭监控系统中的服务端,包括步骤:
201、开始;
202、预设终端向服务端发出预定服务;
该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;
需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
203、采集端向服务端发出的音频信息;
204、服务端对所述音频信息进行特征处理并根据服务模型判断是否为预制信息;若是,则进入步骤205;若否,则进入步骤206;
在具体实施时,上述特征处理可以是提取语音特征参数梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC);服务模型则需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
205、向预设终端发出警报;
206、结束。
需要说明的是,还可以包括步骤207、预设终端接收到报警信息后,可以进行会话干预;更具体地,预设终端接收到报警信息后,可以向采集端发起语音会话或视频会话;当然,该步骤并不是必须要执行的。
如图3所示,本发明实施例提供的家庭监控方法的另一个可选实施例中,包括:
301、开始;
302、预设终端向服务端发出预定服务;
该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;
需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
303、采集端向服务端发出的音频信息;
304、服务端对所述音频信息进行语音参数提取得到第一信息;
该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC);
305、服务端根据第一服务模型判断所述第一信息是否为所述第一预制信息;若是,则进入步骤308;若否,则进入步骤306;
可见,在本实施例中,第一信息为音频格式的信息,因此其对应的第一预制信息也为音频格式的信息;在具体实施时,第一预制信息可以为婴幼儿的哭声;
306、服务端将所述第一信息转换成文本信息;
在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
307、服务端根据第二服务模型判断所述文本信息是否为所述第二预制信息;若是,则进入步骤308;若否,则进入步骤309;
可见第二预制信息为文本信息;在具体实施时,第二预制信息为恶劣言语或针对婴幼儿敏感言语等;
上述第一服务模型或第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型或第二服务模型;
308、向预设终端发出警报;
309、结束。
需要说明的是,还可以包括步骤310、预设终端接收到报警信息后,可以进行会话干预;更具体地,预设终端接收到报警信息后,可以向采集端发起语音会话或视频会话;当然,该步骤并不是必须要执行的。
在本发明的另一实施例中,若预制信息的类型都是音频格式的,则无需进行上述步骤306、307。
如图4所示,本发明实施例提供的家庭监控方法的另一个可选实施例中,包括:
401、开始;
402、预设终端向服务端发出预定服务;
该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;
需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
403、采集端向服务端发出的音频信息;
404、服务端对所述音频信息进行语音参数提取得到第一信息;
该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC);
405、服务端将所述第一信息转换成文本信息;
在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
406、服务端根据服务模型判断所述文本信息是否为预制信息;若是,则进入步骤407;若否,则进入步骤408;
本实施例中,预制信息为文本信息;在具体实施时,预制信息可以为婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;上述服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
407、向预设终端发出警报;
408、结束。
需要说明的是,还可以包括步骤409、预设终端接收到报警信息后,可以进行会话干预;更具体地,预设终端接收到报警信息后,可以向采集端发起语音会话或视频会话;当然,该步骤并不是必须要执行的。
在本发明的另一实施例中,上述步骤405还包括:对所述文本信息进行文本情绪识别获取语音情绪信息;此时,在步骤406中,可以通过语音情绪信息辅助判断所述文本信息是否为预制信息。
下面进一步说明本发明中服务模型的建立方法:
收集预先标记好的训练数据置于训练数据库内,本发明中该训练数据根据预制信息而定;例如预制信息包括哭声、恶劣言语,则训练数据库为哭声识别训练数据、恶意言语训练数据。
对于哭声识别训练数据来说,主要包括带标签的音频样本和带标签的文本样本两种类型;该两种类型可以分别建立两个不同的服务模型。
考虑到大词汇量和标记样本工作量的因素,恶意言语服务模型只有一种基于带标签的文本训练样本形式。
在训练过程中,基于带标签的训练数据,针对不同的服务模型设计合适的判别算法进行分类判别。如哭声检测,通过训练大量的婴儿哭声和非婴儿哭声的的音频样本或者文本样本,进行算法模型的训练、验证和评估运行过程。通常情况下,我们可以采用通用机器学习分类器算法或者深度神经网络进行分类判断。单一服务类型的判断属于简单的二分类问题,复合服务类型的判断属于多分类器问题。一般情况下,类似softmax分类器或者支持向量机等通用机器学习算法已经能够达到较高的准确率,也可以根据实测情况结合深度神经网络进行实现。
训练过程完成,会生成服务模型以进行预制信息的判断。
可见,定时批量把实测数据进行存储并加入到训练数据中,进行服务模型的增量训练可以提高判断的准确率。
可选地,在上述图2至图4对应的任一实施例的基础上,本发明实施例提供的家庭监控方法另一个可选实施例中,在向预设终端发出警报的步骤之后,还包括:
接收预设终端发出的反馈信息;根据所述反馈信息将对应的预制信息进行标记,并加入到所述训练数据库。
本实施例中,可以在控制端加入用户反馈功能,在服务端加入数据缓存功能。服务端每个一段时间将控制端进行的有效反馈作为新训练样本标签,一并将对应的训练样本加入到训练集进行增量训练,优化和更新服务模型数据。
更具体地,请同时参照图5,在训练数据库501中存放着带标签的训练数据;服务模型引擎505通过训练数据库501中训练数据生成服务模型;通过服务模型即可判断经过特征处理后的音频信息是否为预制信息506。
在本发明中,服务端接收到的音频信息502在特征处理过程中生成的信息包括:经过语音参数提取得到第一信息503,第一信息503经转换可以得到文本信息504;该文本信息504包括通过语音识别生成语言文本信息以及由语言文本信息进一步进行语法语义处理生成语义文本信息。
上述第一信息503以及文本信息504经过服务模型引擎505生成服务模型即可判断是否为预制信息506;本实施例中,若接收预设终端发出的反馈信息;根据所述反馈信息将对应的预制信息进行标记,该预制信息可能是第一信息503,也可能是文本信息504;标记后的第一信息503或文本信息504可以加入到训练数据库501中,从而完成训练数据自学习的过程。
本发明还提供一种家庭监控服务端,所述家庭监控服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明任一实施例提供的家庭监控方法的步骤。
更具体地,所述计算机程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
对所述音频信息进行特征处理并根据服务模型判断是否为预制信息;若是,则向预设终端发出警报;在具体实施时,上述特征处理可以是提取语音特征参数梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);服务模型则需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
在本发明实施例提供的家庭监控服务端的另一个可选实施例中,所述计算机程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);
根据第一服务模型判断所述第一信息是否为所述第一预制信息;可见,在本实施例中,第一信息为音频格式的信息,因此其对应的第一预制信息也为音频格式的信息;在具体实施时,第一预制信息可以为婴幼儿的哭声;若是,则向预设终端发出警报;若否,则
将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
根据第二服务模型判断所述文本信息是否为所述第二预制信息;若是,则向预设终端发出警报;可见,本实施例中,第二预制信息为文本信息;在具体实施时,第二预制信息为恶劣言语或针对婴幼儿敏感言语等;上述第一服务模型或第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型或第二服务模型;
需要说明的是,若预制信息的类型都是音频格式的,则无需进行上述将所述第一信息转换成文本信息以及根据第二服务模型判断所述文本信息是否为所述第二预制信息的步骤。
在本发明实施例提供的家庭监控服务端的另一个可选实施例中,所述计算机程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
对所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);
将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
根据服务模型判断所述文本信息是否为预制信息;若是,则向预设终端发出警报;本实施例中,预制信息为文本信息;在具体实施时,预制信息可以为婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;上述服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
在本发明的另一实施例中,在将所述第一信息转换成文本信息时,还可以对所述文本信息进行文本情绪识别获取语音情绪信息;该语音情绪信息可以用于辅助判断所述文本信息是否为预制信息。
可选地,在向预设终端发出警报之后,所述计算机程序被所述处理器执行以实现以下步骤:
接收预设终端发出的反馈信息;根据所述反馈信息将对应的哭声信息进行标记,并加入到所述训练数据库。
本实施例中,可以在控制端加入用户反馈功能,在服务端加入数据缓存功能。服务端每个一段时间将控制端进行的有效反馈作为新训练样本标签,一并将对应的训练样本加入到训练集进行增量训练,优化和更新服务模型数据。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现本发明实施例提供的家庭监控方法的步骤。
更具体地,所述家庭监控程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
对所述音频信息进行特征处理并根据服务模型判断是否为预制信息;若是,则向预设终端发出警报;在具体实施时,上述特征处理可以是提取语音特征参数梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);服务模型则需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
在本发明实施例提供的计算机可读存储介质的另一个可选实施例中,所述家庭监控程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);
根据第一服务模型判断所述第一信息是否为所述第一预制信息;可见,在本实施例中,第一信息为音频格式的信息,因此其对应的第一预制信息也为音频格式的信息;在具体实施时,第一预制信息可以为婴幼儿的哭声;若是,则向预设终端发出警报;若否,则
将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
根据第二服务模型判断所述文本信息是否为所述第二预制信息;若是,则向预设终端发出警报;可见,本实施例中,第二预制信息为文本信息;在具体实施时,第二预制信息为恶劣言语或针对婴幼儿敏感言语等;上述第一服务模型或第二服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述第一服务模型或第二服务模型;
需要说明的是,若预制信息的类型都是音频格式的,则无需进行上述将所述第一信息转换成文本信息以及根据第二服务模型判断所述文本信息是否为所述第二预制信息的步骤。
在本发明实施例提供的计算机可读存储介质的另一个可选实施例中,所述家庭监控程序被所述处理器执行以实现以下步骤:
接收预设终端发出预定服务;该预定服务是用于定制预制信息的类型的,例如是婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;需要说明的是,当预制信息的类型是固定的时候,可以不执行该步骤,例如预定服务是当监测到婴幼儿的哭声和恶劣言语一起发生时才发出警报;
接收采集端发出的音频信息;
对所述音频信息进行语音参数提取得到第一信息;该语音特征参数可以是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);
将所述第一信息转换成文本信息;在本发明的一个实施例中,该步骤具体可以包括:将所述第一信息进行语音识别生成语言文本信息;对所述语言文本信息进行语法语义处理生成语义文本信息;将所述语义文本信息用作所述文本信息;
根据服务模型判断所述文本信息是否为预制信息;若是,则向预设终端发出警报;本实施例中,预制信息为文本信息;在具体实施时,预制信息可以为婴幼儿的哭声、恶劣言语或针对婴幼儿敏感言语等;上述服务模型需要根据预制信息的特征进行训练获取。更具体地,可以通过训练数据结合通用机器学习分类器算法或者深度神经网络建立所述服务模型;
在本发明的另一实施例中,在将所述第一信息转换成文本信息时,还可以对所述文本信息进行文本情绪识别获取语音情绪信息;该语音情绪信息可以用于辅助判断所述文本信息是否为预制信息。
可选地,在向预设终端发出警报之后,所述家庭监控程序被所述处理器执行以实现以下步骤:
接收预设终端发出的反馈信息;根据所述反馈信息将对应的哭声信息进行标记,并加入到所述训练数据库。
本实施例中,可以在控制端加入用户反馈功能,在服务端加入数据缓存功能。服务端每个一段时间将控制端进行的有效反馈作为新训练样本标签,一并将对应的训练样本加入到训练集进行增量训练,优化和更新服务模型数据。
本发明实施例提供的家庭监控方法、服务端及计算机可读存储介质,实时检测家庭环境下婴幼儿监控中可能发生的恶意言语攻击和长时间哭闹等情况,并触发告警,达到实时监控的效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种家庭监控方法,其特征在于,所述方法包括:
通过训练数据库中训练数据结合通用机器学习分类器算法或者深度神经网络建立服务模型;
接收采集端发出的音频信息;
对所述音频信息进行特征处理并根据所述服务模型判断是否为预制信息;
若是,则向预设终端发出警报;
接收预设终端发出的反馈信息;
根据所述反馈信息将对应的所述预制信息进行标记,并加入到所述训练数据库;
所述预制信息包括第一预制信息和第二预制信息;所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括:
对所述音频信息进行语音参数提取得到第一信息;
根据第一服务模型判断所述第一信息是否为所述第一预制信息;
将所述第一信息转换成文本信息;
根据第二服务模型判断所述文本信息是否为所述第二预制信息。
2.如权利要求1所述的家庭监控方法,其特征在于,所述将所述第一信息转换成文本信息包括:
将所述第一信息进行语音识别生成语言文本信息;
对所述语言文本信息进行语法语义处理生成语义文本信息;
将所述语义文本信息用作所述文本信息。
3.如权利要求1所述的家庭监控方法,其特征在于,所述对所述音频信息进行特征处理并根据预设服务模型判断是否为预制信息包括:
对所述音频信息进行语音参数提取得到第一信息;
将所述第一信息转换成文本信息;
根据服务模型判断所述文本信息是否为预制信息。
4.如权利要求3所述的家庭监控方法,其特征在于:
所述将所述第一信息转换成文本信息还包括:对所述文本信息进行文本情绪识别获取语音情绪信息;
所述根据服务模型判断所述文本信息是否为预制信息还包括:根据服务模型判断所述文本信息和语音情绪信息是否为预制信息。
5.一种家庭监控服务端,其特征在于,所述家庭监控服务端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的家庭监控方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有家庭监控程序,所述家庭监控程序被处理器执行时实现如权利要求1至4中任一项所述的家庭监控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374229.5A CN107122807B (zh) | 2017-05-24 | 2017-05-24 | 一种家庭监控方法、服务端及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374229.5A CN107122807B (zh) | 2017-05-24 | 2017-05-24 | 一种家庭监控方法、服务端及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122807A CN107122807A (zh) | 2017-09-01 |
CN107122807B true CN107122807B (zh) | 2021-05-21 |
Family
ID=59729477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710374229.5A Active CN107122807B (zh) | 2017-05-24 | 2017-05-24 | 一种家庭监控方法、服务端及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122807B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818787B (zh) * | 2017-10-31 | 2021-02-05 | 努比亚技术有限公司 | 一种语音信息的处理方法、终端及计算机可读存储介质 |
CN108376544B (zh) * | 2018-03-27 | 2021-10-15 | 京东方科技集团股份有限公司 | 一种信息处理方法、装置、设备及计算机可读存储介质 |
CN108922138A (zh) * | 2018-06-22 | 2018-11-30 | 张小勇 | 一种数据处理方法和系统 |
WO2019243400A1 (en) * | 2018-06-22 | 2019-12-26 | Koninklijke Philips N.V. | A method for enabling magnetic resonance imaging of a subject |
CN109871807B (zh) * | 2019-02-21 | 2023-02-10 | 百度在线网络技术(北京)有限公司 | 人脸图像处理方法和装置 |
CN110070893A (zh) * | 2019-03-25 | 2019-07-30 | 成都品果科技有限公司 | 一种利用婴儿哭声进行情感分析的系统、方法和装置 |
CN112037820B (zh) * | 2019-05-16 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 安防报警方法、装置、系统及设备 |
CN110532888A (zh) * | 2019-08-01 | 2019-12-03 | 悉地国际设计顾问(深圳)有限公司 | 一种监控方法、装置及系统 |
CN110415724A (zh) * | 2019-08-08 | 2019-11-05 | 中南大学湘雅二医院 | 报警数据的传输方法、装置、系统及计算机可读存储介质 |
CN112309397A (zh) * | 2020-09-30 | 2021-02-02 | 音数汇元(上海)智能科技有限公司 | 居家护理的违规行为取证方法、装置、设备和存储介质 |
CN112270932A (zh) * | 2020-10-22 | 2021-01-26 | 北京小米松果电子有限公司 | 用于智能设备的报警方法及装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240438A (zh) * | 2014-09-01 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 通过移动终端自动报警的方法、装置及移动终端 |
CN105069505A (zh) * | 2015-08-14 | 2015-11-18 | 北京农信互联科技有限公司 | 一种猪病知识库自动训练学习方法及猪病辅助诊断装置 |
CN106409283A (zh) * | 2016-08-31 | 2017-02-15 | 上海交通大学 | 基于音频的人机混合交互系统及方法 |
CN106652336A (zh) * | 2016-12-28 | 2017-05-10 | 北京小米移动软件有限公司 | 儿童声音监控的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160115196A (ko) * | 2015-03-26 | 2016-10-06 | 조용민 | 음성 인식을 이용한 안전 돌보미 시스템 및 방법 |
CN105898219B (zh) * | 2016-04-22 | 2019-05-21 | 北京小米移动软件有限公司 | 对象监控方法及装置 |
-
2017
- 2017-05-24 CN CN201710374229.5A patent/CN107122807B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240438A (zh) * | 2014-09-01 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 通过移动终端自动报警的方法、装置及移动终端 |
CN105069505A (zh) * | 2015-08-14 | 2015-11-18 | 北京农信互联科技有限公司 | 一种猪病知识库自动训练学习方法及猪病辅助诊断装置 |
CN106409283A (zh) * | 2016-08-31 | 2017-02-15 | 上海交通大学 | 基于音频的人机混合交互系统及方法 |
CN106652336A (zh) * | 2016-12-28 | 2017-05-10 | 北京小米移动软件有限公司 | 儿童声音监控的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107122807A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122807B (zh) | 一种家庭监控方法、服务端及计算机可读存储介质 | |
JP7025569B2 (ja) | 保険の録音による品質検査方法、装置、機器及びコンピュータ記憶媒体 | |
US10403282B2 (en) | Method and apparatus for providing voice service | |
WO2022134833A1 (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN105679310A (zh) | 一种用于语音识别方法及系统 | |
CN109492221B (zh) | 一种基于语义分析的信息回复方法及可穿戴设备 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN110972112B (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112825248A (zh) | 语音处理方法、模型训练方法、界面显示方法及设备 | |
CN104142831B (zh) | 应用程序搜索方法及装置 | |
CN107085717A (zh) | 一种家庭监控方法、服务端及计算机可读存储介质 | |
WO2016058425A1 (zh) | 一种语音搜索方法、装置、设备和计算机存储介质 | |
CN111583906A (zh) | 一种语音会话的角色识别方法、装置及终端 | |
CN110930643A (zh) | 一种防止婴幼儿遗落车内的智能安全系统及方法 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN109670148A (zh) | 基于语音识别的催收辅助方法、装置、设备和存储介质 | |
WO2014173325A1 (zh) | 喉音识别方法及装置 | |
CN111209373A (zh) | 基于自然语义的敏感文本识别方法和装置 | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN114996506B (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
CN109961789B (zh) | 一种基于视频及语音交互服务设备 | |
JP2022534003A (ja) | 音声処理方法、音声処理装置およびヒューマンコンピュータインタラクションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |