CN101448048A

CN101448048A - 大容量电话簿智能检索方法

Info

Publication number: CN101448048A
Application number: CNA2007101710027A
Authority: CN
Inventors: 曾垂喜
Original assignee: Shanghai Simcom Ltd
Current assignee: Shanghai Simcom Ltd
Priority date: 2007-11-27
Filing date: 2007-11-27
Publication date: 2009-06-03

Abstract

本发明是在农讯通大容量电话簿检索中采用误差修正、记录数据量化及变换归一化处理、带动量项、自适应调节步长等方式的神经网络智能检索技术，从电话簿中直接提取记录对象的特征码，然后根据这些特征码的线索从大量存储在ROM中的电话簿记录进行查找，检索出用户所要的有用信息。本发明方法应用在中移动的终端产品农讯通上，可以大大提高检索速度。当电话簿容量达到1万条记录以上，分组测试多次，每组连续检索100次，应用传统的二分法检索时，平均需要检索时间为5～20秒，而本发明方法单次检索时间不会超过1秒，每组平均检索时间为0.4秒左右。

Description

大容量电话簿智能检索方法

技术领域

本发明涉及通信技术领域，尤其涉及一种大容量电话簿智能检索方法。

背景技术

农讯通，是为适应信息新时代，使农民定期获取到有关农业生产和农业科技等相关农业资讯包括政策法规、农情预测、病虫害预报、农村热点、农业气象、农产品市场每日报价、农产品流通信息、劳动用工信息、农产品供求信息、农技资讯信息、品种广告信息等的一种移动终端产品。

传统上的农讯通大容量电话簿检索，采用顺序检索，二分法检索，字典检索等方法，检索速度非常慢，效率极其低，低到用户无法接受。

神经网络智能检索技术已经成为有效的大容量信息搜索和信息浏览的一项具有实用价值的技术。它在数据库、信息检索和计算机搜索等领域受到广泛地关注。但目前为止该技术很少应用在嵌入式终端设备中。

发明内容

本发明的目的是提供一种大容量电话簿智能检索方法，采用神经网络智能检索技术，提高农讯通大容量电话簿的检索速度。

为了实现上述目的，本发明采用了如下的技术方案：

大容量电话簿智能检索方法包括如下步骤：

步骤一：设置网络结构参数及初始化，给各连接权及阈值赋予0.1～0.8之间的随机数；

步骤二：将预参加训练的电话簿记录数据进行量化并数据变换归一化处理，形成训练样本集；

步骤三：将电话簿中记录的特征码向量的分量随机输入给输入层对应的神经元，分别计算输出层与隐含层各单元的输出；

步骤四：通过导师信号，计算输出层与隐含层各单元的一般化误差；

步骤五：计算各层各单元的局部梯度；

步骤六：用一般化误差修正输出层与隐含层各单元的连接权和阈值；

步骤七：顺次选取下一个样本，返回步骤三直到训练集样本全部学习一遍；

步骤八：如果没有满足设定误差、设定次数，则修正误差并用带动量的自适应调节步长重新返回步骤三直到网络的总误差函数小于预先设定的值，即网络收敛或学习次数大于预先给定值；

步骤九：记录电话簿的智能检索训练网络的连接权值和阈值，保存并结束网络学习。

本发明就是在农讯通大容量电话簿检索中采用误差修正、记录数据量化及变换归一化处理、带动量项、自适应调节步长等方式的神经网络智能检索技术，从电话簿中直接提取记录对象的特征码(如名字、号码或其他)，然后根据这些特征码的线索从大量存储在ROM中的电话簿记录进行查找，检索出用户所要的有用信息。特别地由于神经网络的自学习、自适应、并行处理等特点，该方法会根据用户对检索结果的评价满意度，动态构造下一个神经网络，有效地缩小记录的搜索空间，进一步描述记录之间的相似性和相关性，记录间的这种相似性以及本次检索结果可以作为以后检索的历史信息保存在神经网络中，从而提高下一次检索的命中率，因而提高检索效率，加快检索速度。

本发明方法应用在中移动的终端产品农讯通上，可以大大提高检索速度。当电话簿容量达到1万条记录以上，分组测试多次，每组连续检索100次，应用传统的二分法检索(速度上比顺序检索要快，但是要求记录有序)时，平均需要检索时间为5～20秒，而本发明方法单次检索时间不会超过1秒，每组平均检索时间为0.4秒左右。

附图说明

图1是本发明神经网络智能检索网络结构图。

图2是本发明神经网络智能检索算法程序设计流程图。

图3是本发明农讯通大容量电话簿检索过程图。

具体实施方式

如图1所示，该图为神经网络智能检索网络结构图，它由输入层、隐含层和输出层组成，各层之间实行全连接，层内神经元之间无连接，对网络进行训练学习的过程亦即是对权重和阀值的调整过程。输入层的神经元节点对应于输入变量(参数)即电话簿记录的姓名，号码和其他特征码；输出层的神经元节点对应于输出变量(参数)即用户需要检索的信息如特定的姓名或号码。

如图2所示，该图为神经网络智能检索算法的程序设计流程图。具体程序设计的检索步骤如下：

(1)设置网络结构参数及初始化，给各连接权及阈值赋予(0.1～0.8)之间的随机数；

(2)将预参加训练的电话簿记录数据进行量化并数据变换归一化处理，形成训练样本集；

(3)将电话簿中记录的特征码向量X_k＝(X_k1，X_k2，...，X_kh，...，X_kn)的n个分量随机输入给输入层对应的n个神经元，用

Y_{j} = f (U_{j}) = \frac{2}{1 + e^{U_{j}}} - 1

和

O_{i} = f (I_{i}) = \frac{2}{1 + e^{I_{i}}} - 1

分别计算输出层与隐含层各单元的输出Y_j、O_i；

(4)通过导师信号，用

δ_{j} = - (Y_{j}^{'} - Y_{j}) . f' (U_{j}) = - \frac{1}{2} (Y_{j}^{'} - Y_{j}) (1 - Y_{j}^{2})

和

e_{i} = \frac{1}{2} (1 - {O^{2}}_{i}) Σ_{j = 1}^{m} δ_{j} V_{ij}

分别计算输出层与隐含层各单元的一般化误差δ_j、e_i；

(5)计算各层各单元的局部梯度

(6)一般化误差δ_j、e_i用W_hi(t+1)＝W_hi(t)+βe_iX_h+aΔW_hi(t)，θ_i(t+1)＝θ_i(t)+βe_i+aΔθ_i(t)，V_ij(t+1)＝V_ij(t)+βδ_jO_i+aΔV_ij(t)，γ_j(t+1)＝γ_j(t)+βδ_j+aΔγ_j(t)四式修正输出层与隐含层各单元的连接权W_hi、V_ij，阈值γ_j、θ_i；

(7)顺次选取下一个样本，返回步骤3直到训练集样本全部学习一遍；

(8)如果没有满足设定误差E、设定次数N，则用式

Δ W_{hi} (t) = β (\frac{&PartialD; E}{&PartialD; W_{hi}}) + αΔ W_{hi} (t - 1)

修正误差并用W_hi(t+1)＝W_hi(t)-η(t)Z(t)，

Z (t) = \frac{&PartialD; E}{&PartialD; W_{hi} (t)} + αZ (t - 1)

式带动量项的自适应调节步长从新返回3直到网络的总误差函数小于预先设定的值，即网络收敛或学习次数大于预先给定值；

(9)记录电话簿的智能检索训练网络的连接权值和阈值，保存并结束网络学习。

如图3所示，该图为农讯通大容量电话簿检索过程图，用户输入特征值之后，网络读取或修正训练好的网络参数并执行检索，找到用户的所要信息。如果检索结果不满意，则再次执行网络智能检索，直到用户满意为止。

Claims

1、一种大容量电话簿智能检索方法，其特征在于，所述方法包括如下步骤：

步骤一：设置网络结构参数及初始化，给各连接权及阈值赋予随机数；

步骤五：计算各层各单元的局部梯度；

步骤八：如果没有满足设定误差、设定次数，则修正误差并带动量项的自适应调节步长重新返回步骤三直到网络的总误差函数小于预先设定的值，即网络收敛或学习次数大于预先给定值；

2、如权利要求1所述的大容量电话簿智能检索方法，其特征是，所述步骤三中，将电话簿中记录的特征码向量X_k＝(X_k1，X_k2，...，X_kh，...，X_kn)的n个分量随机输入给输入层对应的n个神经元，用

Y_{j} = f (U_{j}) = \frac{2}{1 + e^{U_{j}}} - 1

和

O_{i} = f (I_{i}) = \frac{2}{1 + e^{I_{i}}} - 1

分别计算输出层与隐含层各单元的输出Y_j、O_i。

3、如权利要求2所述的大容量电话簿智能检索方法，其特征是，所述步骤四中，通过导师信号，用

δ_{j} = - (Y_{j}^{'} - Y_{j}) . f' (U_{j}) = - \frac{1}{2} (Y_{j}^{'} - Y_{j}) (1 - Y_{j}^{2})

和

e_{i} = \frac{1}{2} (1 - {O^{2}}_{i}) Σ_{j = 1}^{m} δ_{j} V_{ij}

分别计算输出层与隐含层各单元的一般化误差δ_j、e_i。

4、如权利要求3所述的大容量电话簿智能检索方法，其特征是，所述步骤五中，计算各层各单元的局部梯度公式为

5、如权利要求4所述的大容量电话簿智能检索方法，其特征是，所述步骤六中，一般化误差δ_j、e_i用W_hi(t+1)＝W_hi(t)+βe_iX_h+aΔW_hi(t)，θ_i(t+1)＝θ_i(t)+βe_i+aΔθ_i(t)，V_ij(t+1)＝V_ij(t)+βδ_jO_i+aΔV_ij(t)，γ_j(t+1)＝γ_j(t)+βδ_j+aΔγ_j(t)四式修正输出层与隐含层各单元的连接权W_hi、V_ij，阈值γ_j、θ_i。

6、如权利要求5所述的大容量电话簿智能检索方法，其特征是，所述步骤八中，如果没有满足设定误差E、设定次数N，则用式

{ΔW}_{hi} (t) = β (\frac{&PartialD; E}{{&PartialD; W}_{hi}}) + αΔ W_{hi} (t - 1)

修正误差并用W_hi(t+1)＝W_hi(t)-η(t)Z(t)，

Z (t) = \frac{&PartialD; E}{{&PartialD; W}_{hi} (t)} + αZ (t - 1)

式带动量项的自适应调节步长重新返回步骤三直到网络的总误差函数小于预先设定的值。

7、如权利要求1所述的大容量电话簿智能检索方法，其特征是，所述网络为神经网络智能检索网络，神经网络智能检索网络结构由输入层、隐含层和输出层组成，各层之间实行全连接，层内神经元之间无连接，对网络进行训练学习的过程亦即是对权重和阀值的调整过程。

8、如权利要求7所述的大容量电话簿智能检索方法，其特征是，输入层的神经元节点对应于输入变量即电话簿记录的姓名，号码和其他特征码，输出层的神经元节点对应于输出变量即用户需要检索的信息如特定的姓名或号码。

9、如权利要求1所述的大容量电话簿智能检索方法，其特征是，步骤一中给各连接权及阈值赋予0.1～0.8之间的随机数。