CN109344246A

CN109344246A - 一种电子问卷生成方法、计算机可读存储介质及终端设备

Info

Publication number: CN109344246A
Application number: CN201811119335.XA
Authority: CN
Inventors: 龙撷宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-02-15
Anticipated expiration: 2038-09-25
Also published as: CN109344246B

Abstract

本发明属于计算机技术领域，尤其涉及一种基于神经网络的电子问卷生成方法、计算机可读存储介质及终端设备。所述方法获取用户信息，并从所述用户信息中提取检索关键词；根据所述检索关键词在服务器中爬取信息，并将爬取到的各条信息构造为爬取信息集合；分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型；从所述爬取信息集合中选取指定句式类型的信息作为问卷源信息，并根据所述问卷源信息生成电子问卷。本发明实施例以用户自身的信息为基础，自动爬取与该用户相关的信息，并通过句式分析从中选取出适于作为问卷问题的信息，根据这些信息智能生成仅针对于该用户的个性化电子问卷，可以更加有效地对用户进行筛选。

Description

一种电子问卷生成方法、计算机可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种电子问卷生成方法、计算机可读存储介质及终端设备。

背景技术

金融机构在进行贷款审核前，会通过调查问卷的形式对用户进行初步的筛选，但一般地，对于众多的用户，金融机构都是使用同一份问卷，或者从有限的若干份问卷中随机选取一份问卷，对各个用户的特点缺乏针对性，对于筛选用户收效甚微。

发明内容

有鉴于此，本发明实施例提供了一种电子问卷生成方法、计算机可读存储介质及终端设备，以解决现有技术中的调查问卷对各个用户的特点缺乏针对性，对于筛选用户收效甚微的问题。

本发明实施例的第一方面提供了一种电子问卷生成方法，可以包括：

获取用户信息，并从所述用户信息中提取检索关键词；

根据所述检索关键词在服务器中爬取信息，并将爬取到的各条信息构造为爬取信息集合；

分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型；

从所述爬取信息集合中选取指定句式类型的信息作为问卷源信息，并根据所述问卷源信息生成电子问卷。

本发明实施例的第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

获取用户信息，并从所述用户信息中提取检索关键词；

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取用户信息，并从所述用户信息中提取检索关键词；

本发明实施例与现有技术相比存在的有益效果是：本发明实施例以用户自身的信息为基础，自动爬取与该用户相关的信息，并通过句式分析从中选取出适于作为问卷问题的信息，根据这些信息智能生成仅针对于该用户的个性化电子问卷，可以更加有效地对用户进行筛选。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种电子问卷生成方法的一个实施例流程图；

图2为分别对爬取信息集合中的各条信息进行句式分析的示意流程图；

图3为将各个分词的输入矩阵分别输入到词性分析模型中进行处理的示意流程图；

图4为本发明实施例中一种电子问卷生成装置的一个实施例结构图；

图5为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种电子问卷生成方法的一个实施例可以包括：

步骤S101、获取用户信息，并从所述用户信息中提取检索关键词。

所述用户信息为用户申请贷款所提供的个人基本信息，包括但不限于：姓名、身份证号、电话、学历、毕业院校、工作城市、工作单位、工作年限、逾期信息(信用卡/贷款)、车辆违章信息、紧急联系人、联系人电话等。

其中，院校、工作类的相关信息可以进一步挖掘出较多的相关信息，较有挖掘价值，可以提取其中的院校名称、工作单位名称等作为进行进一步信息挖掘的检索关键词。

步骤S102、根据所述检索关键词在服务器中爬取信息，并将爬取到的各条信息构造为爬取信息集合。

本实施例中，通过网络爬虫技术在互联网的各个服务器中爬取信息，网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上获取信息，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。在本实施例中，优选采用聚焦网络爬虫(FocusedWeb Crawler)来进行信息爬取，过滤与检索关键词无关的链接，保留与检索关键词相关的链接并将其放入等待抓取的URL队列。然后，聚焦网络爬虫将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的信息将会被系统存贮，进行一定的分析、过滤，并建立索引，构造为所述爬取信息集合。

步骤S103、分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型。

其中，句式类型为构成句子的语词的不同类别、序列、搭配方式等等，汉语的句式类型可分为主谓宾句、非主谓句、被动句、倒装句、兼语句、连动句等等。

步骤S103可以包括如图2所示的步骤：

步骤S1031、对所述爬取信息集合中的第s条信息进行切词处理，得到构成第s条信息的各个分词。

其中，1≤s≤S，S为所述爬取信息集合中的信息总数。

切词处理是指将一条信息中的语句文本切分成一个一个单独的词，也即各个所述分词，在本实施例中，可以根据通用词典对信息进行切分，保证分出的词语都是正常词汇，如词语不在词典内则分出单字。当前后方向都可以成词时，会根据统计词频的大小划分，选取词频较高的切分方式。

在拆分出每个分词后，如考虑二元组合词的话，则可将邻近的单词两两组合，增加“庆祝大会”，“大会顺利”，“顺利闭幕”等二元组合词语。优选地，还可以再根据词频对这些二元组合词进行筛选。预先设置一个筛选的频率阈值，获取各个二元组合词出现的频率，若某个二元组合词出现的频率大于或等于该频率阈值，则保留该二元组合词，若某个二元组合词出现的频率小于该频率阈值，则剔除掉该二元组合词，也即将其视为两个独立的一元词。若我们设定的频率阈值为5，则剔除所有出现次数在5以下的二元组合词。

步骤S1032、在预设的词向量数据库中分别查找各个分词的词向量，并根据各个分词的词向量构造输入矩阵。

所述词向量数据库为记录词语与词向量之间的对应关系的数据库。所述词向量可以是根据word2vec模型训练词语所得到对应的词向量。即根据词语的上下文信息来表示该词出现的概率。词向量的训练依然按照word2vec的思想，先将每个词表示成一个0-1向量(one-hot)形式，再用词向量进行word2vec模型训练，用n-1个词来预测第n个词，神经网络模型预测后得到的中间过程作为词向量。如“庆祝”的one-hot向量假设定为[1,0,0,0,……,0]，“大会”的one-hot向量为[0,1,0,0,……,0]，“顺利”的one-hot向量为[0,0,1,0,……,0],预测“闭幕”的向量[0,0,0,1,……,0]，模型经过训练会生成隐藏层的系数矩阵W，每个词的one-hot向量和系数矩阵的乘积为该词的词向量，最后的形式将是类似于“庆祝[-0.28,0.34,-0.02,…...,0.92]”这样的一个多维向量。

在查找到各个分词的词向量后，可以根据下式分别构建各个分词的输入矩阵：

其中，n为分词按照前后顺序依次排列的序号，1≤n≤N，N为分词的总数，cl为所述输入矩阵的行号，1≤cl≤CoupLen，CoupLen为预设的耦合长度，且CoupLen为奇数，wvl为所述输入矩阵的列号，1≤wvl≤wVecLen，wVecLen为任意一个分词的词向量的长度，第n个分词的词向量为WordVec_n，且WordVec_n＝(WdVecEm_n,1,WdVecEm_n,2,......,WdVecEm_n,vl,......,WdVecEm_n,wVecLen)，

第n个分词的输入矩阵。

由第n个分词的输入矩阵的构建过程可知，该输入矩阵是以第n个分词的词向量为中心，并分别考虑该分词之前的个分词的词向量，以及该分词之后的个分词的词向量，对于超出范围的情况，均以0进行填充。

步骤S1033、将各个分词的输入矩阵分别输入到预设的词性分析模型中，得到各个分词的词性类型。

所述词性分析模型为进行词性分析的神经网络模型，其具体处理过程可以包括如图3所示的步骤：

步骤S10331、分别计算各个分词的复合向量。

例如，可以根据下式分别计算各个分词的复合向量：

WdCpVec_n＝(WdCpEm_n,1,WdCpEm_n,2,......,WdCpEm_n,wvl,......,WdCpEm_n,wVecLen)

其中，

ln为自然对数函数，tanh为双曲正切函数，WdWt_wvl、WdWt′_wvl均为预设的权重系数。

步骤S10332、分别计算各个词性类型的概率值。

例如，可以根据下式分别计算各个词性类型的概率值：

其中，m为词性类型的序号，1≤m≤M，M为词性类型的个数，WdWtVec_m为预设的与第m个词性类型对应的权值向量，T为转置符号，WdProb_n,m为第n个分词是第m个词性类型的概率值。

步骤S10333、分别确定各个分词的词性类型。

例如，可以根据下式分别确定各个分词的词性类型：

CharSeq_n＝argmax(WdProbVec_n)

其中，argmax为最大自变量函数，WdProbVec_n为第n个分词的词性概率向量，且WdProbVec_n＝(WdProb_n,1,WdProb_n,2,......,WdProb_n,m,......,WdProb_n,M)，CharSeq_n为第n个分词的词性类型序号。

步骤S1034、将各个分词的词性类型组成第s条信息的词性向量。

例如，CharVec_s＝(CharSeq₁,CharSeq₂,...,CharSeq_n...,CharSeq_N)，其中，CharVec_s即为第s条信息的词性向量。

步骤S1035、将所述词性向量输入到预设的句式分析模型中，得到第s条信息的句式类型。

所述句式分析模型为进行句式分析的神经网络模型，其具体处理过程可以包括：

根据下式分别计算各个句式类型的概率值：

其中，CharVec_s第s条信息的词性向量，k为句式类型的序号，1≤k≤K，K为句式类型的个数，StWtVec_k为预设的与第k个句式类型对应的权值向量，T为转置符号，StProb_s,k为第s条信息是第k个句式类型的概率值。

根据下式分别确定第s条信息的句式类型：

StSeq_s＝argmax(StProbVec_s)

其中，argmax为最大自变量函数，WdProbVec_n为第n个分词的词性概率向量，且StProbVec_s＝(StProb_s,1,StProb_s,2,......,StProb_s,k,......,StProb_s,K)，StSeq_s为第s条信息的句式类型序号。

对所述爬取信息集合中的各条信息均通过上述过程进行句式分析，即可得到各条信息的句式类型。

步骤S104、从所述爬取信息集合中选取指定句式类型的信息作为问卷源信息，并根据所述问卷源信息生成电子问卷。

所述指定句式类型可以为主谓宾结构的句式类型，例如，若用户提供的院校名称为北京大学，则以北京大学作为检索关键词进行信息爬取，并从所述爬取信息集合中只选取如下所示的主谓宾结果的句式类型的信息作为问卷源信息：

北京大学第一任校长是严复。

北京大学校址是北京市西郊海淀镇东北部。

北京大学有6个校区。

……

根据所述问卷源信息生成电子问卷的最直接方法是使用替换函数，将所述问卷源信息中的人物、地点、数字等内容直接替换为“？”，从而得到一条问题，例如：

“北京大学第？任校长是严复。”

“北京大学第一任校长是？”

还可以将所述问卷源信息直接以判断题形式输出，生成另外一条问题，例如：

“北京大学第一任校长是严复？”

将根据各个问卷源信息所生产的问题进行汇总整合，得到针对所述用户的电子问卷。进一步地，还可以根据用户回答个性电子问卷后得到的分数，判断用户所填写信息的准确度，初步判断用户的诚信程度，如果正确率高于95％，则优先处理该用户的材料审核，并酌情增加贷款额度，如果正确率低于50％，直接筛掉该用户，不再进入材料审批流程，正确率低于20％直接加入黑名单，其余进行正常流程。

综上所述，本发明实施例以用户自身的信息为基础，自动爬取与该用户相关的信息，并通过句式分析从中选取出适于作为电子问卷问题的信息，根据这些信息智能生成仅针对于该用户的个性化电子问卷，可以更加有效地对用户进行筛选。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种电子问卷生成方法，图4示出了本发明实施例提供的一种电子问卷生成装置的一个实施例结构图。

本实施例中，一种电子问卷生成装置可以包括：

关键词提取模块401，用于获取用户信息，并从所述用户信息中提取检索关键词；

信息爬取模块402，用于根据所述检索关键词在服务器中爬取信息，并将爬取到的各条信息构造为爬取信息集合；

句式分析模块403，用于分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型；

电子问卷生成模块404，用于从所述爬取信息集合中选取指定句式类型的信息作为问卷源信息，并根据所述问卷源信息生成电子问卷。

进一步地，所述句式分析模块可以包括：

切词处理单元，用于对所述爬取信息集合中的第s条信息进行切词处理，得到构成第s条信息的各个分词，1≤s≤S，S为所述爬取信息集合中的信息总数；

词向量查找单元，用于在预设的词向量数据库中分别查找各个分词的词向量，所述词向量数据库为记录词语与词向量之间的对应关系的数据库；

输入矩阵构造单元，用于根据各个分词的词向量构造输入矩阵；

词性分析单元，用于将各个分词的输入矩阵分别输入到预设的词性分析模型中，得到各个分词的词性类型，所述词性分析模型为进行词性分析的神经网络模型；

句式分析单元，用于将各个分词的词性类型组成第s条信息的词性向量，并将所述词性向量输入到预设的句式分析模型中，得到第s条信息的句式类型，所述句式分析模型为进行句式分析的神经网络模型。

进一步地，所述输入矩阵构造单元具体用于根据下式分别构建各个分词的输入矩阵：

个分词的输入矩阵。

进一步地，所述词性分析单元可以包括：

复合向量计算子单元，用于根据下式分别计算各个分词的复合向量：

WdCpVec_n＝(WdCpEm_n,1,WdCpEm_n,2,......,WdCpEm_n,wvl,......,WdCpEm_n,wVecLen)

其中，

ln为自然对数函数，tanh为双曲正切函数，WdWt_wvl、WdWt′_wvl均为预设的权重系数；

词性概率值计算子单元，用于根据下式分别计算各个词性类型的概率值：

其中，m为词性类型的序号，1≤m≤M，M为词性类型的个数，WdWtVec_m为预设的与第m个词性类型对应的权值向量，T为转置符号，WdProb_n,m为第n个分词是第m个词性类型的概率值；

词性类型确定子单元，用于根据下式分别确定各个分词的词性类型：

CharSeq_n＝argmax(WdProbVec_n)

进一步地，所述句式分析单元可以包括：

句式概率值计算子单元，用于根据下式分别计算各个句式类型的概率值：

其中，CharVec_s第s条信息的词性向量，k为句式类型的序号，1≤k≤K，K为句式类型的个数，StWtVec_k为预设的与第k个句式类型对应的权值向量，T为转置符号，StProb_s,k为第s条信息是第k个句式类型的概率值；

句式类型确定子单元，用于根据下式分别确定第s条信息的句式类型：

StSeq_s＝argmax(StProbVec_s)

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图5示出了本发明实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52，例如执行上述的电子问卷生成方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个电子问卷生成方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至404的功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种电子问卷生成方法，其特征在于，包括：

获取用户信息，并从所述用户信息中提取检索关键词；

2.根据权利要求1所述的电子问卷生成方法，其特征在于，所述分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型包括：

对所述爬取信息集合中的第s条信息进行切词处理，得到构成第s条信息的各个分词，1≤s≤S，S为所述爬取信息集合中的信息总数；

在预设的词向量数据库中分别查找各个分词的词向量，并根据各个分词的词向量构造输入矩阵，所述词向量数据库为记录词语与词向量之间的对应关系的数据库；

将各个分词的输入矩阵分别输入到预设的词性分析模型中，得到各个分词的词性类型，所述词性分析模型为进行词性分析的神经网络模型；

将各个分词的词性类型组成第s条信息的词性向量，并将所述词性向量输入到预设的句式分析模型中，得到第s条信息的句式类型，所述句式分析模型为进行句式分析的神经网络模型。

3.根据权利要求2所述的电子问卷生成方法，其特征在于，所述根据各个分词的词向量构造输入矩阵包括：

根据下式分别构建各个分词的输入矩阵：

FwWdMatrix_n为第n个分词的输入矩阵。

4.根据权利要求3所述的电子问卷生成方法，其特征在于，所述词性分析模型的处理过程包括：

根据下式分别计算各个分词的复合向量：

WdCpVec_n＝(WdCpEm_n,1,WdCpEm_n,2,......,WdCpEm_n,wvl,......,WdCpEm_n,wVecLen)

其中，

根据下式分别计算各个词性类型的概率值：

根据下式分别确定各个分词的词性类型：

CharSeq_n＝argmax(WdProbVec_n)

5.根据权利要求2至4中任一项所述的电子问卷生成方法，其特征在于，所述句式分析模型的处理过程包括：

根据下式分别计算各个句式类型的概率值：

根据下式分别确定第s条信息的句式类型：

StSeq_s＝argmax(StProbVec_s)

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的电子问卷生成方法的步骤。

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取用户信息，并从所述用户信息中提取检索关键词；

8.根据权利要求7所述的终端设备，其特征在于，所述分别对所述爬取信息集合中的各条信息进行句式分析，得到各条信息的句式类型包括：

9.根据权利要求8所述的终端设备，其特征在于，所述根据各个分词的词向量构造输入矩阵包括：

根据下式分别构建各个分词的输入矩阵：

FwWdMatrix_n为第n个分词的输入矩阵。

10.根据权利要求9所述的终端设备，其特征在于，所述词性分析模型的处理过程包括：

根据下式分别计算各个分词的复合向量：

WdCpVec_n＝(WdCpEm_n,1,WdCpEm_n,2,......,WdCpEm_n,wvl,......,WdCpEm_n,wVecLen)

其中，

根据下式分别计算各个词性类型的概率值：

根据下式分别确定各个分词的词性类型：

CharSeq_n＝argmax(WdProbVec_n)