CN111597580B

CN111597580B - 机器人听觉隐私信息监听处理方法

Info

Publication number: CN111597580B
Application number: CN202010403143.2A
Authority: CN
Inventors: 杨观赐; 李杨; 李国政; 王怀豹; 胡耀; 林家丞; 袁庆霓
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2023-04-14
Anticipated expiration: 2040-05-13
Also published as: CN111597580A

Abstract

本发明公开了一种机器人听觉隐私信息监听处理方法，工作流程步骤如下：（1）获取听觉设备监听的语音数据S；（2）在机器人信息处理模块加载由基于卷积神经网络的听觉隐私信息分类算法获得的隐私特征模型W，（3）利用语音模块将语音数据S转化为文本数据T；（4）利用隐私特征模型M对文本数据T进行鉴定，从而判段所监听的语音信息中是否具有所关注的隐私信息，并输出隐私类别；（5）如果监听结束，则卸载隐私特征模型；否则转步骤（1）循环监听。本发明使机器人能判别语音数据的隐私类别，并对识别的隐私信息进行消除操作。

Description

机器人听觉隐私信息监听处理方法

技术领域

本发明涉及隐私保护领域，具体涉及一种机器人听觉隐私信息监听处理方法。

背景技术

随着人口老龄化趋势加快，越来越多的独居老人需要被照顾，人们对助老机器人的需求也越来越明显。

为辅助老年人日常生活，目前，薛同来等研究了基于激光SLAM的助老机器人，其拥有自主构建室内地图以及自主导航的功能，可以定位目标物体，并使用机械臂对物体进行抓取与移动。为解决老年人心理健康问题，刘策等构建了具有语音识别、手势识别、人脸识别和远程控制功能的多模式友好交互系统，实现了注册与验证、移动控制、新闻点播、日程提醒及语音对话5种功能。与此同时，为给老年人提供科学合理的饮食建议，苏志东等提出了基于服务机器人听觉的个体膳食构成自主感知算法，实现了对用户膳食构成的智能感知，为用户医疗诊断、饮食干预和机器人的主动服务等提供决策依据。为了应对老年人记忆力衰退的情况，AhnHo等提出了一种基于家庭服务机器人的大脑训练方法，将记忆训练部署到机器人上，以增强机器人功能性。为增强老年人的体质，降低老年人摔倒的风险，Foukarakis等提出了一种利用机器人视觉系统来识别和跟踪用户行为的方法，可以提供相关的练习和反馈来激励用户的训练。然而，智能家居系统和服务机器人广泛使用语音监听设备，这存在用户隐私泄露的风险，对语音数据的隐私识别和分类效果也不好。

发明内容

本发明的目的在于克服上述缺点而提出了一种能判别语音数据的隐私类别、且具有很好的识别和分类效果的机器人听觉隐私信息监听处理方法。

本发明的一种机器人听觉隐私信息监听处理方法，包括机器人的听觉设备、信息处理模块、语音模块，具体工作流程步骤如下：

(1)获取机器人听觉设备监听的语音数据S；

(2)在机器人信息处理模块加载隐私特征模型W，所述隐私特征模型W由基于卷积神经网络的听觉隐私信息分类算法获得；

(3)利用语音模块将语音数据S转化为文本数据T；

(4)利用隐私特征模型W对文本数据T进行鉴定，判断所监听的语音信息中是否具有所关注的隐私信息；

(5)如果存在隐私信息，输出隐私类别，采用听觉隐私保护决策方法对隐私信息进行消除，转至步骤7；

(6)如果不存在隐私信息，通过关键字匹配机制判断用户的行为意图，如果属于对机器人执行操作的指令范围，则调用执行模块；否则转至步骤7；

(7)如果监听结束，则卸载隐私特征模型W；否则转步骤(1)循环监听；

所述在步骤(2)中的基于卷积神经网络的听觉隐私信息分类算法：

输入：训练数据集I；

输出：隐私特征模型M；

步骤1.对训练数据集I进行数据预处理，生成批量训练数据集；

步骤2.输入批量数据集，经过Embedding层，利用word2vec生成相同维度的字向量，使每条文本数据的尺寸为(600,64)；

步骤3.经过卷积层，进行一维卷积，通过256个尺寸为(5，64)的卷积核，获得256个(596，1)的一维特征向量；

步骤4.经过最大池化层，得到256个最大特征向量值；

步骤5.经过第一个全连接层，后面接Dropout及Relu激活函数，防止过拟合同时增加神经网络模型的非线性。

步骤6.经过第二个全连接层，通过softmax函数计算出文本数据的预测概率分布及其相应的损失值；

步骤7.执行误差反向传播操作，用Adam算法优化更新特征模型，满足设置条件后输出隐私特征模型。

上述机器人听觉隐私信息监听处理方法，其中：所述基于卷积神经网络的听觉隐私信息分类算法的步骤1中，进行数据预处理时，在打开文本训练数据集时，把文本的格式编码成UTF-8格式，在处理文本时解码为Unicode格式，具体按以下步骤进行：1)读取训练数据集I，构建列表contents，列表中的每个元素即为一条文本数据中的字和符号；同时构建列表labels，列表中的每个元素即为对应文本数据的隐私类别；并构建字列表words，列表中的元素即为训练集中的字和符号；2)读取字列表words，由此构建{字：数字id}的字典D₁；3)读取分类目录，构建{隐私类别：数字id}的字典D₂；4)根据字典D₁，将列表contents中每个元素包含的字与符号进行编码，即为列表date_id；根据字典D₂，将列表labels中的每个元素进行编码，即为label_id；5)经过padding把列表date_id中的每一个元素填充为固定长度600，同时对标签进行独热(one-hot)编码；6)生成批量训练数据集。

上述机器人听觉隐私信息监听处理方法，其中：所述步骤(5)中的听觉隐私保护决策方法，首先对监听到的语音信息进行隐私信息判断时，若输出的数据类型为隐私数据类型，代表监听到的数据为隐私信息；然后对包含隐私信息的语句进行中文分析、词性分析和依存句法分析；最后采用决策模型，对隐私信息进行消除；

所述隐私数据类型为六种类型：

1)第1类隐私数据：对话内容涉及家庭人员出行计划的场景，其对话内容中包含：a)未来出行计划的时间名词；b)未来出行计划的地理名词；

2)第2类隐私数据：对话内容涉及家庭人员联系方式的场景，其对话内容中包含：a)联系方式的相关表达；b)有关联系方式的数字；

3)第3类隐私数据：对话内容涉及支付密码的场景，其对话内容中包含：a)支付密码的相关表达；b)有关支付密码的数字和字母；

4)第4类隐私数据：对话内容涉及宗教的场景，其对话内容中包含：a)某人是某宗教成员；b)某人表达愿意加入某宗教；b)某人喜欢、尊崇、信仰某宗教；

5)第5类隐私数据：对话内容涉及贵重物存放处的场景，其对话内容中包含：a)贵重物品的名称；b)对应贵重物品的存放地点；

6)第6类隐私数据：对话内容涉及言语批评朋友或者言语攻击双方父母的场景，其对话内容中包含批评或谩骂的朋友或父母的词汇。

所述决策模型：

(a)当输出的隐私数据类型为1类时，遍历整个语句，其中语句表示为sentence＝{word₁，word₂，...，word_i，...，word_N}，包含N个经过中文分词获得的基础中文词汇语言单位而构成的集合，其中i大于等于1小于等于N且为正整数，N为单个隐私语句中语言单位的个数，word_i为语句经过分词后第i个词语，当词性POS(word_i)为代词r、人名nh、时间名词nt、地名ns、地理名词nl、方向名词nd或一般名词n时，利用正则表达式re.sub()函数过滤掉word_i即可；

(b)当输出的隐私数据类型为2类时，遍历整个语句，当词性POS(word_i)为数字m时，利用正则表达式re.sub()函数过滤掉word_i即可；

(c)当输出的隐私数据类型为3类时，考虑到决策模型的简易性，直接使用正则表达式re.sub('[a-zA-Z0-9'！"#$％&\'()*+,-./:；<＝>？@，？★、…【】

《》？“”‘'！[\\]^_`{|}～\s]+'，“”，语句)过滤掉语句中的数字、字母和特殊符号；

(d)当输出的隐私数据类型为4类时，遍历整个语句，当词性POS(word_i)为一般名词n或组织名nz时，使用正则表达式中的re.sub()函数过滤掉word_i即可；

(e)当输出的隐私数据类型为5类时，遍历整个语句，当词性POS(word_i)为一般名词n或方向名词nd时，使用正则表达式中的re.sub()函数过滤掉word_i即可；

(f)当输出的隐私数据类型为6类时，遍历整个语句，当词性POS(wordi)的为一般名词n、形容词a、人名nh或成语i时，使用正则表达式中的re.sub

()函数过滤掉wordi即可。

本发明与现有技术的相比，具有明显的有益效果，由以上方案可知，机器人监听用户日常的对话信息，产生大量的语音数据，通过调用科大讯飞的语音识别API接口将语音信息转化为文本，然后根据事先定义的隐私场景对文本内容进行理解。若存在隐私，则对隐私信息进行消除，如果不存在隐私信息，则根据关键字匹配机制对用户的意图进行分析。因此，本发明能针对用户语音数据的监听处理，在去除隐私的同时理解用户的指令需求并执行相应的动作。

此外，基于卷积神经网络的听觉隐私信息分类算法，其卷积神经网络模型由1层Embedding层作为输入层，1层卷积层，一个最大池化层与2层全连接层，1个softmax分类器组成。在卷积层中，使用256个尺寸为(5，64)的卷积核对输入数据进行卷积操作。最大池化层主要用来提取每张特征图中最具有说服力的局部最优特征，而两个全连接层的作用是对经过卷积的数据进行分析计算，最终通过softmax函数计算输入数据所属类别的概率，能有效的判定语音数据的隐私类别，具有很好的识别和分类效果。

总之，本发明能针对机器人所监听到的语音数据，判定语音数据的隐私类别，并对识别的隐私信息进行消除操作，防止隐私数据泄露，对隐私数据的保护，同时使机器人能够在消除隐私信息的同时保证服务的有效性，提升机器人智能化水平。

以下通过具体实施方式，进一步说明本发明的有益效果。

附图说明

图1为本发明的工作流程示意图；

图2为本发明的听觉隐私信息分类算法的卷积神经网络模型图。

具体实施方式

以下结合附图及较佳实施例，对依据本发明提出的机器人听觉隐私信息监听处理方法的具体实施方式、特征及其功效，详细说明如后。

参见图1，本发明的一种机器人听觉隐私信息监听处理方法，包括机器人的听觉设备、信息处理模块、语音模块，具体工作流程步骤如下：

(1)获取机器人听觉设备监听的语音数据S；

(3)利用语音模块将语音数据S转化为文本数据T；

(7)如果监听结束，则卸载隐私特征模型W；否则转步骤1)循环监听；

参见图2，所述的基于卷积神经网络的听觉隐私信息分类算法：

输入：训练数据集I；

输出：隐私特征模型M；

步骤4.经过最大池化层，得到256个最大特征向量值；

其基于卷积神经网络的听觉隐私信息分类算法模型由1层Embedding层作为输入层，1层卷积层，一个最大池化层与2层全连接层，1个softmax分类器组成。

在基于卷积神经网络的听觉隐私信息分类算法的步骤1中，输入层(词嵌入层)进行文本预处理，即I＝{I₁，I₂，...，I_n}，考虑到程序在python2环境下运行的编码问题，在打开文本数据集时，把文本的格式编码成UTF-8格式，处理时解码为Unicode格式。然后按以下步骤进行：

1)首先去除所有的非中文字符、标点符号以及空格；

2)读取训练数据集I，构建列表contents，列表的每个元素即为一条文本数据中的字和符号；同时构建列表labels，列表的每个元素即为对应文本数据的隐私类别；并构建字列表words，列表中的元素即为训练集中的字和符号；3)读取字列表words，由此构建{字：数字id}的字典D₁；

4)读取分类目录，构建{隐私类别：数字id}的字典D₂；

5)根据字典D₁，将列表contents中每个元素包含的字与符号进行数字编码，即为列表date_id；根据字典D₂，将列表labels中的每个元素进行数字编码，即为列表label_id；

6)经过padding操作把列表date_id中的每一个元素填充为固定长度600，使得其维度一致，不够的地方补上<PAD/>符号；

7)同时对标签进行独热(one-hot)编码；

8)最后生成批量训练数据集。

本发明中的文本分类是有监督的任务，对文本的预处理是以字为单位，并进行词嵌入，同时对文本标签进行One-hot编码。

传统文本分类算法中，输入层在训练过程可能存在以下问题：1)大部分模型使用One-hot方法编码，这样得到的词向量维度很高也很稀疏。在自然语言处理(NLP)中，当字典存在大量的词时，使用One-hot编码需要用一个包含大量整数的向量来表示，而且除其中的1个有值外，其余位置都是0，若字典太大时，这种方法存在无效计算力过大的问题，其计算效率会大打折扣；2)在神经网络训练的过程中，参与训练的每个嵌入的向量都需要得到更新，这需要很大的计算力，不利于模型的应用与优化。

为解决这一问题，引入了一种基于Embedding层的输入层，通过使用嵌入层Embedding的对句子进行编码。使用词嵌入的好处有：1)通过词嵌入能够降低输入数据的维度；2)通过Embedding的方法的稠密表示比较适合深度学习，利于模型的训练；3)Embedding的使用为NLP中的所有问题提供了一个全新的视角，而不仅仅是解决一个输入层的问题。

在基于卷积神经网络的听觉隐私信息分类算法的全连接层中：

设x是神经元的输入，h_w，b(x)是神经元的输出，W是权重，b是偏置项，f(*)是激活函数。则全连接层的每个神经元的输出可以表示为：

h_W，b＝f(W^Tx+b)

本发明在模型的最后2层采用全连接层对经过卷积层和池化层的数据进行处理，在第一层全连接层中，数据进行一维卷积后，获得256个(596，1)的一维特征向量；再经过最大池化层，得到256个最大特征向量值；将得到的256个最大特征向量作为输入全连接层，后面接dropout及Relu激活函数。

在全连接层的输出节点连接池化输出的局部最优特征，并作为Softmax分类器的输入进行分类预测。

基于卷积神经网络的听觉隐私信息分类算法的损失值，通过定义损失函数计算获得。Cross-entropy损失函数在二分类与多分类的模型中表现出了较好的准确度与模型鲁棒性。基于此，本发明选择Cross-entropy损失函数作为损失函数。

模型的训练就是要最小化损失函数值，进而达到最大化模型的分类准确率。为准确的刻画原始标记的数据分布与预测数据分布之间的距离，使

的值达到最优，本发明对损失函数进行如下设置，损失函数表达式如下：

上式中，

为损失函数，E()为期望值函数，p_d(I₂)为标记的真实分布，

为预测的分布，实际工作中，

的交叉熵值越小，两个分布越相似。

基于卷积神经网络的听觉隐私信息分类算法的dropout函数，CNN网络被运用在训练小的数据集时，存在容易过拟合的问题。而dropout函数在面对此问题时能够发挥出极大的作用，其基本原理为在模型的训练过程中，随机选取一些网络节点不工作，这些不工作的神经元就不作为网络的一部分，这能够避免深度网络过拟合，是一种有效的随机正则化策略。

考虑到本发明算法所用数据集较小，本发明通过采用阻止特征检测器的方法来提高神经网络的性能。在网络模型，本发明增加了dropout，并把dropout率给定为0.5，从而使得每一次参数更新时都会随机更新全部参数的一半。

所述步骤(5)中的听觉隐私保护决策方法，首先对监听到的语音信息进行隐私信息判断时，若输出的数据类型为隐私数据类型，代表监听到的数据为隐私信息；然后对包含隐私信息的语句进行中文分析、词性分析和依存句法分析；最后采用决策模型，对隐私信息进行消除；

所述隐私数据类型为六种类型：

首先令sentence＝{word₁，word₂，...，word_i，...，word_N}表示待识别的语句，包含N个经过中文分词获得的基础中文词汇语言单位而构成的集合，其中i大于等于1小于等于N且为正整数，N为单个隐私语句中语言单位的个数。

令word_i为待识别语句经过分词后第i个词语，POS(word_i)表示其词性。Relation(word_i，word_j)表示第i个词语和第j个词语之间的依存关系。

1)当输出的数据类型为1时，代表对话内容涉及到了家庭人员出行计划的场景，此时对话内容中一定包含出行计划的目的地、出行计划的实施者或出行技术的时间，具体分析如下：

表1对数据类型为1的语句进行中文分词与词性分析的结果

从表1可知，对于隐私语句1，出行计划的目的地为“泰山”，其词性为ns(地名)；出行计划的实施者为“我”，其词性为r(代词)。

对于隐私语句2，出行计划的目的地是“少林寺”，其词性为ns(地名)；出行计划的实施者为“我”，其词性为r(代词)。

对于隐私语句3，出行计划的目的地为“天安门广场”，其中“天安门”的词性为ns(地名)，“广场”的词性为n(一般名词)；出行计划的实施者为“我”，其词性为r(代词)；出行计划的时间为“下周六”，其词性为nt(时间名词)。

对于隐私语句4，出行计划的实施者为“同事”，其词性为n(一般名词)；出行计划的时间为“明天下午”，其词性为nt(时间名词)；出行计划的交通工具为“飞机”，其词性为n(一般名词)。

对于隐私语句5，出行计划的目的地为“湖南”，其词性为ns(地名)；出行计划的实施者为“我”，其词性为r(代词)；出行计划的时间为“明天下午”，其词性为nt(时间名词)；出行计划的交通工具为“飞机”，其词性为n(一般名词)。

对于隐私语句6，出行计划的实施者为“我爸”，其词性为n(一般名词)；出行计划的时间为“明天下午”，其词性为nt(时间名词)；出行计划的交通工具为“飞机”，其词性为n(一般名词)。

对于隐私语句7，出行计划的目的地为“北京”，其词性为ns(地名)；出行计划的实施者为“儿子”，其词性为n(一般名词)。

对于隐私语句8，出行计划的目的地为“城东的溜冰场”，其中“城东”的词性为nl(地理名词)，“溜冰场”的词性为n(一般名词)；出行计划的实施者为“王强”，其词性为nh(人名)。Relation(城东，溜冰场)为ATT(定中关系)。

对于隐私语句9，出行计划的目的地为“东边的电影院”，其中“东边”的词性为nd(方向名词)，“电影院”的词性为n(一般名词)；出行计划的实施者为“我”，其词性为r(代词)。Relation(东边，电影院)为ATT(定中关系)。

对于隐私语句10，出行计划的目的地为“建设路上的溜冰场”，其中“建设路”的词性为n(一般名词)，“上”的词性为nd(方向名词)，溜冰场的词性为ns(地名)；出行计划的实施者为“我”，其词性为r(代词)。Relation(建设路，上)和Relation(上，溜冰场)为ATT(定中关系)。

总之由表1中可知，当输出数据类型为1时，遍历整个语句，当POS(word_i)的词性为r、nh、nt、ns、nl、nd或n时，利用正则表达式re.sub()函数过滤掉word_i即可。

2)当输出的数据类型为2时，代表对话内容涉及到了家庭人员联系方式的场景，此时对话内容中一定包含具体的电话号码，具体分析如下：

表2对数据类型为2的语句进行中文分词与词性分析的结果

由表2可知：对于隐私语句11，手机号码是“134********”，其“134********”的词性为m(数字)。

总之由表2可知，当输出的数据类型为2时，遍历整个语句，当POS(word_i)的词性为m时，利用正则表达式re.sub()函数过滤掉word_i即可。

3)当输出的数据类型为3时，代表对话内容涉及到了支付密码或取款密码的场景，此时对话内容中一定包含数字、字母或特殊符号(@、#、&等)，具体分析如下：

表3对数据类型为3的语句进行中文分词与词性分析的结果

由表3可知：对于隐私语句12，支付密码是“134346”，其“134346”的词性为m(数字)。

对于隐私语句13，登录密码是“134@a-b346”，其中“134”的词性为m(数字)，“@”的词性为nh(人名)，“a-b346”的词性为ws(外语词)。

对于隐私语句14，登录密码是“134@-ab346”，其中“134”的词性为m(数字)，“@”的词性为nh(人名)，“-ab346”的词性为m(数字)。

对于隐私语句15，登录密码是“bp346@#12ab”，其中“bp346”的词性为ws(外语词)，“@”的词性为nh(人名)，“#”的词性为wp(标点符号)，“12ab”的词性为m(数字)。

总之由表3可知，登录密码或支付密码中一定包含数字、字母或特殊符号。考虑到决策模型的简易型，当输出的数据类型为3时，直接使用正则表达式re.sub('[a-zA-Z0-9'！"#$％&\'()*+,-./:；<＝>？@，。？★、…【】《》？“”‘'！[\\]^_`{|}～\s]+'，“”，语句)过滤掉语句中的数字、字母和特殊符号。

4)当输出的数据类型为4时，代表对话内容是涉及到了宗教的场景，此时对话内容一定包含宗教名称，具体分析如下：

表4对数据类型为4的语句进行中文分词与词性分析的结果

由表4可知：对于隐私语句16，基督教的词性是nz(组织名)。

对于隐私语句17，新教的词性是n(一般名词)。

总之由表4可知，当输出的数据类型为4时，遍历整个语句，当POS(word_i)的词性为n或nz时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

5)当输出的数据类型为5时，代表对话内容涉及到了贵重物存放处的场景，且对话内容一定包含贵重物品和其存放处，具体分析如下：

表5对数据类型为5的语句进行中文分词与词性分析的结果

由表5可知：对于隐私语句18，贵重物品为“房产证书”，其词性为n(一般名词)；存放处为“书架上面”，其中“书架”的词性为n，“上面”的词性为nd(方向名词)。

对于隐私语句19，贵重物品为“支票”，其词性为n(一般名词)；存放处为“柜子里面”，其中“柜子”的词性为n，“里面”的词性为nd(方向名词)。

对于隐私语句20，贵重物品为“合同”，其词性为n(一般名词)；存放处为“书桌里面的第三层”，其中“书桌”的词性为n，“里面”的词性为nd(方向名词)，“第三层”的词性为n。

总之由表5可知，当输出的数据类型为5时，遍历整个语句，当POS(word_i)的词性为n或nd时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

6)当输出的数据类型为6时，代表对话内容涉及到了言语批评朋友或者言语攻击双方父母的场景，此时对话内容中一定包含不敬的言语或批评的词汇，具体分析如下：

由表6可知，对于隐私语句21，“父亲”的词性为n(一般名词)，“奸诈”的词性为a(形容词)，Relation(父亲，奸诈)为SBV(主谓关系)。

对于隐私语句22，“同事”的词性为n(一般名词)，“不要脸”的词性为i(成语)，Relation(哥哥，不要脸)为SBV(主谓关系)。

对于隐私语句23，“邻居”的词性为n(一般名词)，“老王”的词性为nh(人名)，“小人”的词性为n，Relation(邻居，老王)为ATT(定中关系)，Relation(老王，真是)为SBV(主谓关系)，Relation(真是，小人)为VOB(动宾关系)。

对于隐私语句24，“母亲”的词性为n(一般名词)，“脸皮”的词性为n，“厚”的词性为a(形容词)，Relation(母亲，真是)为SBV(主谓关系)，Relation(脸皮，真是)为SBV(主谓关系)，Relation(真是，厚)为VOB(动宾关系)。

总之由表6可知，当输出的数据类型为6时，遍历整个语句，当POS(word_i)的词性为n、a、nh或i时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

表6对数据类型为6的语句进行中文分词与词性分析的结果

综合所述，建立机器人决策模型：

(1)当输出的数据类型为1时，遍历整个语句，当POS(word_i)的词性为r、nh、nt、ns、nl、nd或n时，利用正则表达式re.sub()函数过滤掉word_i即可。

(2)当输出的数据类型为2时，遍历整个语句，当POS(word_i)的词性为m时，利用正则表达式re.sub()函数过滤掉word_i即可。

(3)当输出的数据类型为3时，考虑到决策模型的简易性，直接使用正则表达式re.sub('[a-zA-Z0-9'！"#$％&\'()*+,-./:；<＝>？@，。？★、…【】《》？“”‘'！[\\]^_`{|}～\s]+'，“”，语句)过滤掉语句中的数字、字母和特殊符号。

(4)当输出的数据类型为4时，遍历整个语句，当POS(word_i)的词性为n或nz时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

(5)当输出的数据类型为5时，遍历整个语句，当POS(word_i)的词性为n或nd时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

(6)当输出的数据类型为6时，遍历整个语句，当POS(word_i)的词性为n、a、nh或i时，使用正则表达式中的re.sub()函数过滤掉word_i即可。

具体实施例：

1训练数据集、测试数据集和性能指标

使用服务机器人的六麦环形麦克风阵列收集训练语音数据。与此同时，考虑到法律、文化习俗、认知心理学等与隐私信息形成有关的因素，调研相关文献资料，收集、整理、归纳出家庭生活中涉及语音隐私信息的特殊场景，研究确定不同场景下所涉及的语音隐私内容特征，设计了以下六种场景：1)对话内容涉及家庭人员出行计划的场景；2)对话内容涉及家庭人员联系方式的场景；3)对话内容涉及支付密码的场景；4)对话内容涉及宗教的场景；5)对话内容涉及贵重物存放处的聊天场景；6)对话内容涉及言语批评朋友或者攻击双方父母的场景。

基于上述六种场景构建了包括7种类别的训练数据集：

1)第1类数据：对话内容涉及家庭人员出行计划的场景，其对话内容中包含：a)未来出行计划的时间名词；b)未来出行计划的地理名词。

2)第2类数据：对话内容涉及家庭人员联系方式的场景，其对话内容中包含：a)联系方式的相关表达；b)有关联系方式的数字。

3)第3类数据：对话内容涉及支付密码的场景，其对话内容中包含：a)支付密码的相关表达；b)有关支付密码的数字和字母。

4)第4类数据：对话内容涉及宗教的场景，其对话内容中包含：a)某人是某宗教成员；b)某人表达愿意加入某宗教；b)某人喜欢、尊崇、信仰某宗教。

5)第5类数据：对话内容涉及贵重物存放处的场景，其对话内容中包含：a)贵重物品的名称；b)对应贵重物品的存放地点。

6)第6类数据：对话内容涉及言语批评朋友或者言语攻击双方父母的场景，其对话内容中包含批评或谩骂的朋友或父母的词汇。

7)第7类数据：不属于上述6种场景的对话，属于不包含隐私信息的数据。

测试数据集构建方面，对话内容通过网上收集和课题组成员构思获得。表7是训练数据集和测试数据的相关信息。

表7训练测试数据集信息

2测试结果与分析

将采用准确率Acc、精确率P、召回率R与综合评价指标F1值度量评估算法的性能。

在已搭建的服务机器人平台上，部署设计的算法，将超参数设置为：迭代次数为3000，卷积核数目为256，批处理参数为64，初始学习率为0.001，Dropout保留比例为0.5。测试数据识别结果的混淆矩阵如表8所示、精确率P、召回率R和综合评价指标F1值统计结果如表9所示。

表8测试数据识别结果的混淆矩阵

观察表8和表9可知：

1)第1类测试数据共75条，其中正确识别数为68条，错误识别的有7条，系统的精确率和召回率分别为93.15％和90.67％。核查识别错误的数据，发现识别错误的原因为：1)对话未出现具体的地理名词，而是通过其中一般名词和方向名词可以推理出地理名词；2)对话出现多个地理名词，且对话双方经过反复谈论出行计划但最终又否定出行计划。

2)第2类、第3类和第5类测试数据分别有72条、76条和48条，系统的精确率和召回率均为100％。

3)第4类测试数据共58条，其中有54条数据类型被正确识别，错误识别为类别7的有4条，精确率和召回率分别为96.43％和93.10％。核查识别错误的数据，发现识别错误的原因为：对话内容中存在否定是某个宗教人员的话语，如：“我不是佛教成员，我是基督教成员”。

4)第6类测试数据共58条，其中正确识别数为42条，错误识别为类别7的有16条，其精确率和召回率分别为95.45％和72.41％。核查识别错误的数据，发现识别错误的原因为：1)言语批评的对象为影视剧或历史人物；2)一些词语在不同的语句中含义不同，例：“我身体不舒服，有点想吐”与“我每次看到我们领导都想吐”，这两句话中的“吐”字，用在不同的地方具有不同的语义；3)语气导致的语义改变而导致识别错误。

5)第7类测试数据共238条，系统正确识别229条，错误识别为类别1、4、6的数据分别有5条、2条和2条，精确率和召回率分别为89.45％和96.22％。

表9P、R和F1值统计结果

综上，测试数据集共625条数据，系统正确识别数为589条，总体识别平均准确率为94.24％，平均精确率为96.35％，平均召回率为93.20％，平均F1得分为94.53％，系统具有很好的识别和分类效果。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种机器人听觉隐私信息监听处理方法，具体步骤为：

（1）获取机器人听觉设备监听的语音数据S；

（2）在机器人信息处理模块加载隐私特征模型W，所述隐私特征模型W由基于卷积神经网络的听觉隐私信息分类算法获得；

（3）利用语音模块将语音数据S转化为文本数据T；

（4）利用隐私特征模型W对文本数据T进行鉴定，判断所监听的语音信息中是否具有所关注的隐私信息；

（5）如果存在隐私信息，输出隐私类别，采用听觉隐私保护决策方法对隐私信息进行消除，转至步骤7；

（6）如果不存在隐私信息，通过关键字匹配机制判断用户的行为意图，如果属于对机器人执行操作的指令范围，则调用执行模块；否则转至步骤7；

（7）如果监听结束，则卸载隐私特征模型W；否则转步骤（1）循环监听；

所述步骤（2）中的基于卷积神经网络的听觉隐私信息分类算法：

输入：训练数据集I；

输出：隐私特征模型M；

步骤1. 对训练数据集I进行数据预处理，把文本训练数据集的格式编码成UTF-8格式，在处理文本时解码为Unicode格式，生成批量训练数据集；

步骤4.经过最大池化层，得到256个最大特征向量值；

步骤5.经过第一个全连接层，后面接Dropout及Relu激活函数，防止过拟合同时增加神经网络模型的非线性；

2.如权利要求1所述的机器人听觉隐私信息监听处理方法，其特征在于：所述基于卷积神经网络的听觉隐私信息分类算法的步骤1中，进行数据预处理时，把文本训练数据集的格式编码成UTF-8格式，在处理文本时解码为Unicode格式，具体步骤：1）读取训练数据集I，构建列表contents，列表中的每个元素即为一条文本数据中的字和符号；同时构建列表labels，列表中的每个元素即为对应文本数据的隐私类别；并构建字列表words，列表中的元素即为训练集中的字和符号；2）读取字列表words，由此构建{字：数字id}的字典D ₁；3）读取分类目录，构建{隐私类别：数字id}的字典D ₂；4）根据字典D ₁，将列表contents中每个元素包含的字与符号进行编码，即为列表date_id；根据字典D ₂，将列表labels中的每个元素进行编码，即为label_id；5）经过padding把列表date_id中的每一个元素填充为固定长度600，同时对标签进行独热编码；6）生成批量训练数据集。

3.如权利要求1或2所述的机器人听觉隐私信息监听处理方法，其特征在于：所述步骤（5）中的听觉隐私保护决策方法，首先对监听到的语音信息进行隐私信息判断时，若输出的数据类型为隐私数据类型，代表监听到的数据为隐私信息；然后对包含隐私信息的语句进行中文分析、词性分析和依存句法分析；最后采用决策模型，对隐私信息进行消除；

所述隐私数据类型为六种类型：

1）第1类隐私数据：对话内容涉及家庭人员出行计划的场景，其对话内容中包含：a)未来出行计划的时间名词；b)未来出行计划的地理名词；

2）第2类隐私数据：对话内容涉及家庭人员联系方式的场景，其对话内容中包含：a)联系方式的相关表达；b)有关联系方式的数字；

3）第3类隐私数据：对话内容涉及支付密码的场景，其对话内容中包含：a)支付密码的相关表达；b)有关支付密码的数字和字母；

4）第4类隐私数据：对话内容涉及宗教的场景，其对话内容中包含：a)某人是某宗教成员；b)某人表达愿意加入某宗教；b)某人喜欢、尊崇、信仰某宗教；

5）第5类隐私数据：对话内容涉及贵重物存放处的场景，其对话内容中包含：a)贵重物品的名称；b)对应贵重物品的存放地点；

6）第6类隐私数据：对话内容涉及言语批评朋友或者言语攻击双方父母的场景，其对话内容中包含批评或谩骂的朋友或父母的词汇。

4.如权利要求3所述的机器人听觉隐私信息监听处理方法，其特征在于：所述决策模型：

当输出的隐私数据类型为1类时，遍历整个语句，其中语句表示为sentence={ word₁，word₂，...，word_i，...，word_N}，包含N个经过中文分词获得的基础中文词汇语言单位而构成的集合，其中i大于等于1小于等于N且为正整数，N为单个隐私语句中语言单位的个数，word_i为语句经过分词后第i个词语，当词性POS（word_i）为代词r、人名nh、时间名词nt、地名ns、地理名词nl、方向名词nd或一般名词n时，利用正则表达式re.sub（）函数过滤掉word_i即可；

当输出的隐私数据类型为2类时，遍历整个语句，当词性POS（word_i）为数字m时，利用正则表达式re.sub（）函数过滤掉word_i即可；

当输出的隐私数据类型为3类时，考虑到决策模型的简易性，直接使用正则表达式re.sub（）过滤掉语句中的数字、字母和特殊符号；

当输出的隐私数据类型为4类时，遍历整个语句，当词性POS（word_i）为一般名词n或组织名nz时，使用正则表达式中的re.sub（）函数过滤掉word_i即可；

当输出的隐私数据类型为5类时，遍历整个语句，当词性POS（word_i）为一般名词n或方向名词nd时，使用正则表达式中的re.sub（）函数过滤掉word_i即可；

当输出的隐私数据类型为6类时，遍历整个语句，当词性POS（wordi）的为一般名词n、形容词a、人名nh或成语i时，使用正则表达式中的re.sub（）函数过滤掉wordi即可。