CN109656141A

CN109656141A - 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质

Info

Publication number: CN109656141A
Application number: CN201910027583.XA
Authority: CN
Inventors: 刘辉; 王波
Original assignee: Wuhan Tianyu Julian Network Co Ltd; Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Julian Network Co Ltd; Wuhan Tianyu Information Industry Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-04-19

Abstract

本发明涉及一种基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质，机器行为控制方法包括如下步骤：将待识别数据输入到已经训练好的学习模型中，使用已经训练好的学习模型对待识别数据进行识别，判断待识别数据是否符合预设的规定；若待识别数据符合预设规定，则将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出动作控制指令给对应机器，控制机器执行相应动作；若待识别数据部分不符合预设规定，则过滤掉不符合预设规定的待识别数据，并进行提示，然后将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出动作控制指令给对应机器，控制机器执行相应动作，使机器作出的动作满足要求。

Description

基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质

技术领域

本发明属于数据识别以及行为控制领域，尤其涉及一种基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质。

背景技术

现阶段的数据过滤主要使用的方法是关键字核对和人工审查，关键字核对是核对内容中有没有词语在违规关键字库中，而人工审查则是靠人工来判断违规内容。两种方法的缺点也非常明显，关键字核对不仅需要经常更新关键字库，而且误判率和漏判率也比较高；人工审核不仅受制于审核员的知识丰富度，而且效率也非常低。行为控制主要通过工业自动化的方法来控制机器做一些固定的动作，或者是通过传感器获取外界的信息后控制机器实现程序设定好的动作。

人工智能技术就是通过用人工的方法使机器具有与人类智慧有关的功能，如判断、推理、证明、思考、识别、设计、规划、问题求解等思维活动。随着人工智能技术的深入研究和开展，人工智能技术对人类的影响与日俱增，其用用领域也日益扩大，目前，人工智能技术已经用于机器翻译、医疗诊断、图像识别、语音识别、金融分析、无人驾驶等诸多技术领域，人工智能的应用在不断加深、不断成熟，甚至在某些领域已经超越人来。

将人工智能方法使用在内容过滤和动作控制，有着巨大的优势。由于人工智能具有自我学习能力，能解决关键字核对方法中经常要更新关键字库，误判和漏判的问题；还能解决人工审核标准不统一，审核员知识不足，效率低下的问题；也能在动作控制上按照人类的物权管理办法来控制机器对物体的使用。但本领域还没有一种基于人工智能技术的违规识别及机器行为控制方法。

发明内容

本发明的目的在于克服现有技术之缺陷，提供了一种基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质，其能自动识别不符合规定的数据等，效率高，且精确度高。

本发明是这样实现的：本发明提供一种基于人工智能技术的违规数据识别方法，包括如下步骤：

1)构建训练集；

2)构建用于识别违规数据的学习模型；

3)利用训练集中的训练样本训练学习模型，得到训练完成的学习模型；

4)使用训练完成的学习模型对输入的待识别数据进行计算识别，输出分类结果。

通过学习方法对训练集X中的训练样本行进训练，学得学习模型f:x→y，输入待行为判别内容，使用该学习模型计算得出相应的输出空间。

划分训练集X的属性，设定属性集D＝{D₁,D₂,D₃}，其中，D₁、D₂、D₃为属性子集，

D₁＝{d₁，d₂，d₃，d₄，d₅，d₆，d₇，d₈，d₉，d₁₀，d₁₁，d₁₂，d₁₃，d₁₄，d₁₅，

d₁₆，d₁₇，d₁₈}

＝{种族，年龄，学历，国籍，民族，性别，肤色，宗教，身高，体重，

服饰，疾病，视力，私车，住房，住址，职务，职业}；

D₂＝{d'₁，d'₂，d'₃，d'₄}＝{占有权，使用权，收益权，处分权}；

D₃＝{d″₁，d″₂，d″₃，d″₄}＝{角度，速度，力量，方向}；

一个对象包含26个属性，只是有些属性是空的，例如3个对象如下：

一个人的对象：{{东亚、18，大学，中国，汉族，男，黄色，无，180，120，正常，无，1.5，有，有，武汉，科长，公务员}，}

一个物体的对象：{{有，有，无，无}，}

一个动作的对象：{{30°，5m/s，60牛，东西向}}。

设定x为输入，x＝{x₁，x₂，…，x_m}，x_m代表第m个样本的输入，

x_i＝(x_i1；x_i2；…；x_i|D|)；|D|代表属性的个数，X_i1代表第i个样本的第一个属性；y为输出，y＝{y₁，y₂，…，y_m}＝{人身歧视、人身伤害、物体使用、物体拥有}，y_m代表第m个样本的输出，X1指的是第一个对象即第一个样本的输入，X2指的是第二个对象即第二个样本的输入，y1、y2...y_m对应人身歧视、人身伤害、物体使用、物体拥有中的其中一个或几个；例如一个机器人发出种族歧视的话，并动手打人，那么输出值就是{人身歧视，人身伤害，}；Xi1指的是第i个对象的第一个属性值，如一个人的样本：{{东亚、18，大学，中国，汉族，男，黄色，无，180，120，正常，无，1.5，有，有，武汉，科长，公务员}，}，那么Xi1就是东亚，xi2是18。

获取训练集为：X＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}。(X1，y1)为第一个样本。如X1是：{{东亚、18，大学，中国，汉族，男，黄色，无，180，120，正常，无，1.5，有，有，武汉，科长，公务员}，}，y1＝{无，无，}。表示的是X1这个对象，没有人身歧视，没有人身伤害，空，空。

进一步地，学习模型使用线性模型实现，学习模型为：f(x)＝wx_i+b，使得

其中：w＝(w₁；w₂；…；w_|D|)，|D|代表属性的个数；求系数w和b的解w*和b*，根据使用让均方误差最小化，即：

m是样本的个数，Xi是第i个对象，yi是第i个对象的输出；

使用最小二乘法对以上模型求解，得到：

进一步地，学习模型使用决策树模型实现，决策树模型包含一个根结点，若干个内部结点和若干个叶结点；叶结点对应决策结果，其他每个结点对应一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子节点中；根结点包含样本全集；整个决策树模型使用如下算法：

输入：训练集X，属性集D；

设定函数TreeGenerate(X，D)；生成结点node；如果X中样本属于同一类别C，则将node标记为C类叶结点；如果D＝φor X中样本在D上取值相同，则将node标记为叶结点，其类别标记为X中样本数最多的类；从D中选择最优划分属性a_*；

当前样本集合X中第k类样本所占的比例为Pk，其中k＝(1,2，|y|)，则X中的信息熵定义为：

假设离散属性a有V个可能的取值{a¹，a²，……，a^V}，若使用a来对样本集X进行划分，则会产生V个分支结点，其中第v个分支结点包含了X中所有在属性a上取值为a^V的样本，记为X^v，根据计算出X^v的信息熵，考虑到不同的分支结点所包含的样本数不同，分支结点权重为：|X^v|/|X|，即样本数越多的分支结点的影响越大，属性a对样本集X进行划分所获得的信息增益的计算公式为：

一般而言，信息增益越大，意味着使用属性a来进行划分所得的“纯度提升”越大，因此最优划分属性对于a_*的每一个值a_* ^v，为node生成一个分支；并令X_v表示X中在a_*上取值为的样本子集；如果X_v为空，则将分支结点标记为叶结点，其类别标记为X中样本最多的类；否则，继续按照函数TreeGenerate(X_v，D\{a_*})计算；输出以node为根节点的一棵决策树。

进一步地，学习模型使用神经网络模型实现，按照BP算法建立一个拥有|D|个输入神经元，|y|个输出神经元，q个隐层神经元的多层前馈网络结构，其中输出层第j个神经元的阈值用θ_j表示，隐层第h个神经元的阈值用γ_h表示，输入层第i个神经元与隐层第h个神经元之间的连接权为v_ih，隐层第h个神经元与输出层第j个神经元之间的连接权为w_hj，隐层第h个神经元接收到的输入为其中b_h为隐层第h个神经元的输出；

具体的过程采用以下算法：

输入：训练集学习率η；m是样本的个数；X_k指第k个样本的输入，y_K第k个样本的输出；

在(0,1)范围内随机初始化网络中所有连接权和阈值；

对于(x_k，y_k)∈X的每一个值，进行如下处理：

计算当前样本的输出集

计算输出层神经元的梯度项

计算隐层神经元的梯度项

更新连接权w_hj＝ηg_jb_h，v_ih＝ηe_hx_i与阈值θ_j＝-ηg_j，γ_h＝-ηe_h；直到累计误差最小化(最小化训练集X上的累积误差，误差越小，说明模型越精确)；

输出连接权与阈值确定的多层前馈神经网络。

本发明提供一种基于人工智能技术的机器行为控制方法，包括如下步骤：

1)获取待识别数据，将待识别数据的数据格式转换成用于识别违规数据的学习模型能够识别的数据格式；

2)将待识别数据输入到已经训练好的用于识别违规数据的学习模型中，使用已经训练好的学习模型对待识别数据进行识别，判断待识别数据是否符合预设的规定；

21)若待识别数据符合预设规定，则将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出给对应机器，机器根据接收的数据执行相应输出，包括内容显示、动作执行等；

22)若待识别数据部分不符合预设规定，则过滤掉不符合预设规定的待识别数据，并进行提示，然后将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出给对应机器，机器根据接收的数据执行相应输出，包括内容显示、动作执行等，使机器输出满足规定；

23)若待识别数据全部不符合预设规定，则过滤掉不符合预设规定的待识别数据，进行提示。

进一步地，待识别数据包括文字、图像、声音、视频、动作等。

本发明提供一种机器设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的机器行为控制方法。

本发明提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上所述的机器行为控制方法。

与现有技术相比，本发明具有以下有益效果：本发明采用人工智能技术识别违规数据的方法能解决关键字核对方法中经常要更新关键字库，误判和漏判的问题，本发明算法是根据训练集中的数据自动更新，能够实现自我学习；还能解决人工审核标准不统一，审核员知识不足，效率低下的问题。且采用基于人工智能技术的机器行为控制方法也可以对包括对文字、图像、声音、视频、动作等内容进行内容过滤，过滤掉不符合要求的内容，进而指导、控制机器输出符合要求的文字、图像、声音、视频、动作。

附图说明

图1为本发明的基于人工智能技术的违规数据识别方法的流程图；

图2为本发明基于决策树模型的数据识别方法的示意图；

图3为本发明基于神经网络BP算法的数据识别方法示意图；

图4本发明基于人工智能技术的机器行为控制方法的流程图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明提供本发明提供一种基于人工智能技术的违规数据识别方法，包括如下步骤：

1)构建训练集；

2)构建用于识别违规数据的学习模型；

4)使用训练完成的学习模型对输入的待识别数据进行计算识别，输出分类结果即可判断出数据是否违规。

实施例一

本实施例提供一种基于线性模型的数据识别方法，具体步骤包括：

d₁₆，d₁₇，d₁₈}

服饰，疾病，视力，私车，住房，住址，职务，职业}；

一个物体的对象：{{有，有，无，无}，}

一个动作的对象：{{30°，5m/s，60牛，东西向}}。

设定x为输入，x＝{x₁，x₂，…，x_m}，x_m代表第m个样本的输入，x_i＝(x_i1；x_i2；…；x_i|D|)；|D|代表属性的个数，X_i1代表第i个样本的第一个属性；y为输出，y_m代表第m个样本的输出，y1、y2...y_m对应人身歧视、人身伤害、物体使用、物体拥有中的其中一个或几个；例如一个机器人发出种族歧视的话，并动手打人，那么输出值就是{人身歧视，人身伤害， }；Xi1指的是第i个对象的第一个属性值，如一个人的样本：{{东亚、18，大学，中国，汉族，男，黄色，无，180，120，正常，无，1.5，有，有，武汉，科长，公务员}，}，那么Xi1就是东亚，xi2是18。

获取训练集为：X＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}。(X1，y1)为第一个样本。

本实施例学习模型使用线性模型实现，学习模型为：f(x)＝wx_i+b，使得

其中：w＝(w₁；w₂；…；w_|D|)；求w和b的解w*和b*，根据使用让均方误差最小化，即：

使用最小二乘法对以上模型求解，得到：

使用模型输入待判别用例的输入空间的属性值，输出输出空间的值。

实施例二

参见图2，本实施例提供一种基于决策树模型的数据识别方法，具体步骤包括：

d₁₆，d₁₇，d₁₈}

服饰，疾病，视力，私车，住房，住址，职务，职业}；

一个物体的对象：{{有，有，无，无}，}

一个动作的对象：{{30°，5m/s，60牛，东西向}}。

获取训练集为：X＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}。

本实施例的学习模型使用决策树模型实现，决策树模型包含一个根结点，若干个内部结点和若干个叶结点；叶结点对应决策结果，其他每个结点对应一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子节点中；根结点包含样本全集；整个决策树模型使用如下算法：

输入：训练集X，属性集D；

一般而言，信息增益越大，意味着使用属性a来进行划分所得的“纯度提升”越大，因此最优划分属性对于a_*的每一个值为node生成一个分支；并令X_v表示X中在a_*上取值为的样本子集；如果X_v为空，则将分支结点标记为叶结点，其类别标记为X中样本最多的类；否则，继续按照函数TreeGenerate(X_v，D\{a_*})计算；输出以node为根节点的一棵决策树。

实施例三

参见图3，本实施例提供一种基于神经网络BP算法的数据识别方法，具体步骤包括：

d₁₆，d₁₇，d₁₈}

服饰，疾病，视力，私车，住房，住址，职务，职业}；

一个物体的对象：{{有，有，无，无}，}

一个动作的对象：{{30°，5m/s，60牛，东西向}}。

学习模型使用神经网络模型实现，按照BP算法建立一个拥有|D|个输入神经元，|y|个输出神经元，q个隐层神经元的多层前馈网络结构，其中输出层第j个神经元的阈值用θ_j表示，隐层第h个神经元的阈值用γ_h表示，输入层第i个神经元与隐层第h个神经元之间的连接权为v_ih，隐层第h个神经元与输出层第j个神经元之间的连接权为w_hj，隐层第h个神经元接收到的输入为其中b_h为隐层第h个神经元的输出；

具体的过程采用以下算法：

输入：训练集学习率η；

在(0,1)范围内随机初始化网络中所有连接权和阈值；

对于(x_k，y_k)∈X的每一个值，进行如下处理：

计算当前样本的输出集

计算输出层神经元的梯度项

计算隐层神经元的梯度项

更新w_hj＝ηg_jb_h，v_ih＝ηe_hx_i，θ_j＝-ηg_j，γ_h＝-ηe_h；直到最小化(指的是累计误差，所有样本和算法计算值之间的累计误差，误差越小，说明算法越精准)；

输出连接权与阈值确定的多层前馈神经网络。

实施例四

参见图4，本发明提供一种基于人工智能技术的机器行为控制方法，包括如下步骤：

1)获取待识别数据(比如获取用户输入的数据)，将待识别数据的数据格式转换成用于识别违规数据的学习模型能够识别的数据格式；例如现有的语音识别，图像识别技术，将声音、图像数据转换成文字或者降维后图像等。

2)将转换数据格式后的待识别数据输入到已经训练好的用于识别违规数据的学习模型中，使用已经训练好的学习模型对待识别数据进行识别，判断待识别数据是否符合预设的规定；

实施例五

本发明提供一种机器设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例四所述的机器行为控制方法。

实施例六

本发明提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如实施例四所述的机器行为控制方法。

本发明可以根据需要选择相应的算法实现学习模型，以上所述的几种算法仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能技术的违规数据识别方法，其特征在于，包括如下步骤：

1)构建训练集；

2)构建用于识别违规数据的学习模型；

2.根据权利要求1所述的方法，其特征在于：划分训练集X的属性，设定属性集D＝{D₁,D₂,D₃}，其中，D₁、D₂、D₃为属性子集，

D₁＝{d₁，d₂，d₃，d₄，d₅，d₆，d₇，d₈，d₉，d₁₀，d₁₁，d₁₂，d₁₃，d₁₄，d₁₅，d₁₆，d₁₇，d₁₈}

＝{种族，年龄，学历，国籍，民族，性别，肤色，宗教，身高，体重，服饰，疾病，视力，私车，住房，住址，职务，职业}；

D₃＝{d”₁，d”₂，d”₃，d”₄}＝{角度，速度，力量，方向}；

设定x为输入，x＝{x₁，x₂，…，x_m}，x_m代表第m个样本的输入，x_i＝(x_i1；x_i2；…；x_i|D|)；|D|代表属性的个数，X_i1代表第i个样本的第一个属性；y为输出，

y＝{y₁，y₂，…，y_m}＝{人身歧视、人身伤害、物体使用、物体拥有}，

y_m代表第m个样本的输出，y1、y2...y_m对应人身歧视、人身伤害、物体使用、物体拥有中的其中一个或几个；

构建训练集为：X＝{(x₁，y₁)，(x₂，y₂)，……，(x_m，y_m)}。

3.根据权利要求1或2所述的方法，其特征在于：

学习模型使用线性模型实现，学习模型为：f(x)＝wx_i+b，使

其中：w＝(w₁；w₂；…；w_|D|)；|D|代表属性的个数，求w和b的解w*和b*，根据使用让均方误差最小化，即：

使用最小二乘法对以上模型求解，得到：

将w*和b*带入f(x)＝wx_i+b，得到最终的学习模型。

4.根据权利要求1或2所述的方法，其特征在于：学习模型使用决策树模型实现，决策树模型包含一个根结点，若干个内部结点和若干个叶结点；叶结点对应决策结果，其他每个结点对应一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子节点中；根结点包含样本全集；整个决策树模型使用如下算法：

输入：训练集X，属性集D；

设定函数TreeGenerate(X，D)；生成结点node；如果X中样本属于同一类别C，则将node标记为C类叶结点；如果D＝φorX中样本在D上取值相同，则将node标记为叶结点，其类别标记为X中样本数最多的类；从D中选择最优划分属性a_*；

当前样本集合X中第k类样本所占的比例为Pk，其中k＝(1,2，|y|)，|y|指y集合中元素的个数，则X中的信息熵定义为：

最优划分属性对于a_*的每一个值为node生成一个分支；并令X_v表示X中在a_*上取值为的样本子集；如果X_v为空，则将分支结点标记为叶结点，其类别标记为X中样本最多的类；否则，继续按照函数TreeGenerate(X_v，D\{a_*})计算；输出以node为根节点的一棵决策树。

5.根据权利要求1或2所述的方法，其特征在于：学习模型使用神经网络模型实现，按照BP算法建立一个拥有|D|个输入神经元，|D|代表属性的个数，|y|个输出神经元，q个隐层神经元的多层前馈网络结构，其中输出层第j个神经元的阈值用θ_j表示，隐层第h个神经元的阈值用γ_h表示，输入层第i个神经元与隐层第h个神经元之间的连接权为v_ih，隐层第h个神经元与输出层第j个神经元之间的连接权为w_hj，隐层第h个神经元接收到的输入为其中b_h为隐层第h个神经元的输出；

具体的过程采用以下算法：

输入：训练集学习率η；

在(0,1)范围内随机初始化网络中所有连接权和阈值；对于(x_k，y_k)∈X的每一个值，进行如下处理：

计算当前样本的输出集

计算输出层神经元的梯度项

计算隐层神经元的梯度项

更新连接权w_hj＝ηg_jb_h，v_ih＝ηe_hx_i与阈值θ_j＝-ηg_j，γ_h＝-ηe_h；直到累计误差最小化

输出连接权与阈值确定的多层前馈神经网络。

6.一种基于人工智能技术的机器行为控制方法，其特征在于，包括如下步骤：

1)获取待识别数据，将待识别数据的数据格式转换成权利要求1所述的用于识别违规数据的学习模型能够识别的数据格式；

2)将待识别数据输入到权利要求1所述的已经训练好的学习模型中，使用已经训练好的学习模型对待识别数据进行识别，判断待识别数据是否符合预设的规定；

21)若待识别数据符合预设规定，则将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出给对应机器，机器根据接收的数据执行相应输出；

22)若待识别数据部分不符合预设规定，则过滤掉不符合预设规定的待识别数据，并进行提示，然后将合规的待识别数据的数据格式转换成对应机器能够识别的数据格式，并输出给对应机器，机器根据接收的数据执行相应输出，使机器输出满足规定；

7.根据权利要求6中所述的方法，其特征在于：待识别数据包括文字、图像、声音、视频、动作。

8.一种机器设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求6至7中任一项所述的机器行为控制方法。

9.一种存储介质，其特征在于：所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求6-7任一项所述的机器行为控制方法。