发明内容
本说明书提供一种关键词挖掘的方法,用以解决现有技术的关键词挖掘方式效率较低的问题。
本说明书提供了一种关键词挖掘的方法,包括:
采集各风险类别的历史风险咨询文本;
针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词;
确定各候选关键词集合对应的支持度;
根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,风险关键词集合中包含有至少一个风险关键词;
将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
本说明书提供一种关键词挖掘的装置,用以解决现有技术的关键词挖掘方式效率较低的问题。
本说明书提供了一种关键词挖掘的装置,包括:
采集模块,采集各风险类别的历史风险咨询文本;
第一确定模块,针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词;
第二确定模块,确定各候选关键词集合对应的支持度;
挖掘模块,根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,风险关键词集合中包含有至少一个风险关键词;
保存模块,将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
本说明书提供一种关键词挖掘的设备,用以解决现有技术的关键词挖掘方式效率较低的问题。
本说明书提供了一种关键词挖掘的设备,包括一个或多个存储器以及处理器,所述存储器存储程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采集各风险类别的历史风险咨询文本;
针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词;
确定各候选关键词集合对应的支持度;
根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,风险关键词集合中包含有至少一个风险关键词;
将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
本说明书提供一种风险反馈的方法,用以解决现有技术中无法有效向用户进行风险反馈的问题。
本说明书提供了一种风险反馈的方法,包括:
接收风险咨询请求;
从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合;
根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别;
根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
本说明书提供一种风险反馈的装置,用以解决现有技术中无法有效向用户进行风险反馈的问题。
本说明书提供了一种风险反馈的装置,包括:
接收模块,接收风险咨询请求;
提取模块,从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合;
确定模块,根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别;
反馈模块,根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
本说明书提供一种风险反馈的设备,用以解决现有技术中无法有效向用户进行风险反馈的问题。
本说明书提供了一种风险反馈的设备,包括一个或多个存储器以及处理器,所述存储器存储程序,并且被配置成由所述一个或多个处理器执行以下步骤:
接收风险咨询请求;
从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合;
根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别;
根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书中,可以采集各风险类别的历史风险咨询文本,并针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,而后,可以确定出各候选关键词集合对应的支持度,并基于各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,进而将挖掘出的各风险类别对应的风险关键词集合进行保存,得到风险关键词集合库。
通过从采集到的各风险类别的历史风险咨询文本中确定各候选关键词集合,以及确定这些候选关键词集合对应的支持度的方式,可以实现自动挖掘各风险类别对应的风险关键词集合,这样一来将极大的提高挖掘风险关键词集合的效率,降低了挖掘风险关键词集合所消耗的人力成本。同时,由于各风险关键词集合是通过确定各候选关键词集合的支持度挖掘出的,所以,这样则有效的降低了人为主观因素对挖掘风险关键词集合过程中所造成的影响,从而在后续的风险反馈过程中,可以基于挖掘出的风险关键词集合向用户准确的进行信息反馈,给用户带来了方便。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
在本说明书中,执行关键词挖掘以及风险反馈的执行主体可以是服务平台的服务器、电脑等设备,为了方便后续描述,下面将仅以服务器为执行主体,对本说明书提供的关键词挖掘以及风险反馈的方法进行说明。
图1为本说明书提供的关键词挖掘的过程示意图,具体包括以下步骤:
S100:采集各风险类别的历史风险咨询文本。
服务器可以采集各风险类别的历史风险咨询文本,其中,这里提到的历史风险咨询文本可以是预先已经确定出风险类别的文本信息,历史风险咨询文本可以是从各用户向服务器发送的历史风险咨询请求中提取出的。
历史风险咨询文本的风险类别可以通过人工的方式确定出来,当然,也可以将历史风险咨询文本输入到预设的模型中,以通过该模型确定出历史风险咨询文本对应的风险类别。
S102:针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合。
S104:确定各候选关键词集合对应的支持度。
S106:根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合。
服务器采集到各风险类别的历史风险咨询文本后,可以针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定出候选关键词集合。其中,服务器可以针对该风险类别对应的每个历史风险咨询文本,对该历史风险咨询文本进行处理,得到用于确定该风险类别的候选关键词集合的词集合。
具体的,对于每个历史风险咨询文本来说,该历史风险咨询文本中通常会包含各种常用字符,这些常用字符对于体现历史风险咨询文本的风险特征没有多少作用,因此可以作为“噪音”进行剔除。具体的剔除方式可以是:服务器可以通过预设的常用字符库,从该历史风险咨询文本中剔除各常用字符,从而得到不含“噪声”的处理后的历史风险咨询文本。
当然,服务器也可以通过其他的方式将这些“噪音”剔除。例如,服务器可以通过确定各词语的词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF),并将TF-IDF较低的词语进行剔除。再例如,服务器可以将历史风险咨询文本输入到预设的常用字符剔除模型中,从而得到去除“噪音”的处理后的历史风险咨询文本。当然,去除历史风险咨询文本中的“噪音”的方式还可以有很多,在此就不一一举例说明了。
在得到各处理后的历史风险咨询文本后,可以针对每个处理后的历史风险咨询文本进行分词,得到词集合,进而从得到的各词集合中,确定出各候选关键词集合。
在本说明书中,服务器可以将各词集合中包含的各词语作为各候选关键词,而后,将各候选关键词进行任意组合,得到各候选关键词集合。其中,每个候选关键词集合中包含有至少一个候选关键词。服务器可以针对每个候选关键词集合,根据该候选关键词集合在各词集合出现的次数,确定出该候选关键词集合的支持度。
例如,假设总共有15个词集合,候选关键词集合A在这15个词集合中出现了7次,则可以确定出该候选关键词集合的支持度为7/15。当然,也可以直接将该候选关键词集合在这15个词集合出现的次数:7,确定为该候选关键词集合的支持度。
在本说明书中,候选关键词集合在词集合中出现是指:一个候选关键词集合中包含的所有候选关键词在一个词集合出现。所以,在上述示例中,该候选关键词集合在这15个词集合中出现了7次是指有7个词集合都包含有该候选关键词集合中的所有候选关键词。
在确定出各候选关键词集合对应的支持度后,则可以将支持度不小于设定支持度的候选关键词集合作为该风险类别对应的风险关键词集合。其中,这里提到的设定支持度可以是人为通过实际需求而确定出的。在本说明书中,支持度小于设定支持度的候选关键词集合可以认定为不能有效体现出该风险类别的风险特征。所以,为了使确定出的风险关键词集合更能体现出该风险类别的风险特征,则可以将支持度不小于设定支持度的候选关键词集合作为风险关键词集合。
当然,服务器也可以逐步的筛选出该风险类别对应的风险关键词集合。具体的,服务器可以先将各候选关键词作为各第一候选关键词集合,确定出各第一候选关键词集合的支持度,并筛选出支持度不小于设定支持度的第一候选关键词集合作为第一轮筛选出的风险关键词集合。而后,服务器可以将各候选关键词进行两两组合,得到包含有两个候选关键词的第二候选关键词集合。服务器可以进一步的确定出各第二候选关键词集合的支持度,并从各第二候选关键词集合中筛选出支持度不小于设定支持度的第二候选关键词集合作为第二轮筛选出的风险关键词集合。进一步地,服务器可以将支持度不小于设定支持度的候选关键词中的任意三个进行组合,得到各第三候选关键词集合,而后,可确定出各第三候选关键词集合的支持度,并筛选出支持度不小于设定支持度的第三候选关键词集合作为第三轮筛选出的风险关键词集合,以此类推,具体过程如图2所示。
图2为本说明书提供的逐步筛选风险关键词集合的示意图。
假设,采集到的风险类别A的8个历史风险咨询文本,并从这8个历史风险咨询文本中分别得到了8个词集合,如图2所示。这8个词集合中共包含有A、B、C、D这4个词语,服务器可以将这4个词语作为4个候选关键词。将这4个候选关键词进行任意组合,可以得到如图2所示的15个组合结果,其中,Φ表示空集或不包含任何关键词的集合。
服务器可以先确定出A、B、C、D这4个候选关键词的支持度,从图2中可以看出,这4个候选关键词的支持度均不小于设定支持度2,则可以将这4个候选关键词作为第一轮确定出的4个风险关键词集合。在第二轮筛选中,服务器可以将任意两个候选关键词进行组合,并进一步地确定出组合得到的各候选关键词集合的支持度。经过第二轮的筛选,可以进一步的确定出风险关键词集合{A、B}、{A、C}、{B、C}、{B、D},以此类推。而经过4轮的筛选,服务器最终筛选出的该风险类别A对应的风险关键词集合为{A}、{B}、{C}、{D}、{A、B}、{A、C}、{B、C}、{B、D}、{A、B、C}。
需要说明的是,若是一个候选关键词的支持度小于设定支持度,则包含有该候选关键词的候选关键词集合的支持度均小于设定支持度。所以,对于支持度小于设定支持度的候选关键词,服务器可以直接忽略该候选关键词,这样一来,后续也将无需再确定包含有该候选关键词集合的候选关键词集合的支持度,从而提高挖掘风险关键词集合的效率。
除了上述说明的挖掘风险关键词集合的方式外,服务器还可以通过另一种方式来进行风险关键词集合的挖掘。具体的,服务器可以将各词集合中包含的各词语作为各候选关键词,并针对每个候选关键词,通过统计该候选关键词在各词集合中出现的次数,确定该候选关键词的支持度。支持度确定的具体过程与上述的确定方式基本相同,在此就不详细赘述了。
对于支持度小于设定支持度的候选关键词来说,包含有该候选关键词的候选关键词集合的支持度也将小于设定支持度。所以,服务器可以将支持度低于设定支持度的候选关键词从各词集合中去除,从而得到各处理后的词集合。这样将有效的降低需要确定支持度的候选关键词集合的数量,提高了风险关键词集合的挖掘效率。
服务器可以根据各处理后的词集合中包含的候选关键词以及各词集合,构建第一频繁模式树FP-Tree,具体的构建方式如图3A~3E所示。
图3A~3E为本说明书提供的通过构建频繁模式树FP-Tree挖掘风险关键词集合的示意图。
假设,服务器采集到风险类别B的9个历史风险咨询文本。服务器可以分别确定出这9个历史风险咨询文本对应的词集合,如图3A中的第一个表所示。从该表中可以看出,这9个词集合中共包含有A~E这5个词语,可以将这5个词语作为候选关键词,并根据这5个词语在这9个词集合中出现的次数,确定出这5个候选关键词的支持度。对于每个候选关键词来说,服务器可以将该候选关键词在这9个词集合中出现的次数直接作为该候选关键词的支持度。
在确定出这5个候选关键词的支持度后发现,这5个候选关键词的支持度均不小于设定支持度2,所以,无需从这9个词集合中去除任何一个候选关键词。服务器可以针对每个词集合,按照各候选关键词的支持度由大到小的顺序,将该词集合中的各候选关键词进行排序,得到处理后的词集合。其中,这里的处理后的词集合实际上与初始的词集合中包含的候选关键词是相同的,只是候选关键词的排列顺序有所不同。
对于第一个处理后的词集合,服务器可以Null为根节点向下进行遍历查询,看是否存在候选关键词B的节点。当确定根节点Null后没有候选关键词B的节点时,则可以在根节点Null的下面构建候选关键词B的节点,并将候选关键词B以及候选关键词E的节点按照这三个候选关键词在第一个处理后的词集合中的排列顺序,依次连接在候选关键词A的节点下方,如图3B的第一个图。
对于图3B的第一个图中候选关键词B节点旁边的计数count:1来说,该计数表示在当前构建出的FP-Tree中,候选关键词B出现了一次,同理,候选关键词A节点旁边的计数count:1以及候选关键词E节点旁边的计数count:1也表示在当前构建出的FP-Tree中,只出现了一次。
在图3B的第一个图的基础上,服务器可以根据第二个处理后的词集合,继续构建FP-Tree。服务器在确定根节点Null的下面直接连有候选关键词B的节点时,则可以将候选关键词D的节点连接在候选关键词B的节点下方,得到图3B的第二个图。此时,由于候选关键词B已经在这个FP-Tree中出现了两次,所以,候选关键词B节点旁边的计数变更为count:2。
同理,服务器可以在图3B的第二个图的基础上,根据第三个处理后的词集合,继续构建FP-Tree。其中,在确定出FP-Tree的根节点Null下方连有候选关键词B的节点时,则可以将第三个处理后的词集合中包含的候选关键词C的节点在该候选关键词A的节点下方进行连接,得到如图3C所述的FP-Tree。其中,由于此时候选关键词B已经在该FP-Tree中出现了3次,所以,候选关键词B节点旁边的计数变为count:2。
以此类推,服务器通过剩余的处理后的词集合,可以最终得到完成的FP-Tree,如图3D所示,并可以将最终得到的FP-Tree称之为第一FP-Tree。从该第一FP-Tree可以看出各候选关键词在该第一FP-Tree中出现的次数。
服务器在确定出第一FP-Tree后,可以针对每个候选关键词(这里提到的候选关键词是指各处理后的词集合中所包含的候选关键词),确定出第一FP-Tree中包含有该候选关键词的路径,并将这些路径上出现的其他候选关键词作为该候选关键词对应的候选关键词集合,其中,这里的各候选关键词集合即是各其他候选关键词。
针对每个候选关键词,服务器可以通过第一FP-Tree中包含有该候选关键词的路径,构建出针对该候选关键词的第二FP-Tree,进而根据该第二FP-Tree,确定出该候选关键词对应的各候选关键词集合的支持度。
具体的,从第一FP-Tree中可以看出,从根节点Null到候选关键词E的节点,总共有两个路径,因此,服务器可以将这两个路径中出现的其他候选关键词B、A、C分别作为该候选关键词E的候选关键词集合。
通过这两个路径上所包含的各候选关键词的节点,可以构建出针对该候选关键词E的第二FP-Tree,如图3E所示。其中,由于是针对候选关键词E的第二FP-Tree,所以,图3E所示的第二FP-Tree省略了候选关键词E。构建第二FP-Tree的方式与构建第一FP-Tree的方式相同,并且,第二FP-Tree中各候选关键词出现次数的确定方式与第一FP-Tree中各候选关键词出现次数的确定方式也相同,在此就不详细说明了。
在图3E所示的第二FP-Tree中,服务器可以将这三个候选关键词集合(即B、A、C)在该第二FP-Tree中出现的次数,确定为这三个候选关键词集合的支持度。从这三个候选关键词集合的支持度中可以看出,只有候选关键词C的支持度1小于设定支持度2,所以,可以将候选关键词C进行剔除。
服务器可以将候选关键词E与候选关键词集合A以及B进行组合,得到{A、E}、{B、E}、{A、B、E}这三个关键词组合,进而将这三个关键词组合作为针对候选关键词E对应的风险关键词集合。
以此类推,通过相同的方式,可以分别确定出各候选关键词对应的风险关键词集合,进而可以在后续的过程中,将这些风险关键词集合作为该风险类别的风险关键词集合并保存。
需要说明的是,从上述说明的确定各候选关键词集合对应的支持度的方式来看,一个风险类别的历史风险咨询文本的数量较少,则从该风险类别的历史风险咨询文本中挖掘出的一些候选关键词集合的支持度可能低于设定支持度而致使这些候选关键词集合不能作为该风险类别对应的风险关键词集合,但是,这些候选关键词集合很可能是能够体现出该风险类别的风险特征的风险关键词集合。
为了避免上述情况的出现,对于每个风险类别来说,若是服务器采集到的该风险类别的历史风险咨询文本的数量低于设定数量时,则可以将该风险类别对应的部分或是全部历史风险咨询文本进行复制,进而将复制得到的历史风险咨询文本以及采集到的该风险类别对应的历史风险咨询文本一同作为用于挖掘该风险类别对应的风险关键词集合的历史风险咨询文本。
S108:将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
在挖掘出各风险关键词集合后,可以按照各风险类别与各风险关键词集合的对应关系,将各风险关键词集合进行保存,得到风险关键词集合库中。这样一来,后续服务器可以通过该风险关键词集合库,来判断用户发送的风险咨询请求中包含的文本信息所对应的风险类别,进而向用户反馈该风险类别对应的反馈信息。
从上述方法中可以看出,通过从采集到的各风险类别的历史风险咨询文本中确定各候选关键词集合,以及确定这些候选关键词集合对应的支持度的方式,自动挖掘出各风险类别对应的风险关键词集合,这样一来将极大的提高挖掘风险关键词集合的效率,降低了挖掘风险关键词集合所消耗的人力成本。同时,由于各风险关键词集合是通过确定各候选关键词集合的支持度挖掘出的,所以,这样则有效的降低了人为主观因素对挖掘风险关键词集合过程中所造成的影响,从而在后续的风险反馈过程中,可以基于挖掘出的风险关键词集合向用户准确的进行信息反馈,给用户带来了方便。
服务器可以通过保存的风险关键词集合库,来对后续用户向服务器进行风险咨询进行有效的反馈,具体过程如图4所示。
图4为本说明书提供的风险反馈的过程示意图。
S400:接收风险咨询请求。
在本说明书中,用户可以向服务器发送风险咨询请求,其中,该风险咨询请求可以是用户通过终端(如手机、电脑等设备),基于已经完成的业务在处理过程中所涉及的实际数据而生成的。例如,假设用户完成了一笔交易,则用户可以通过终端,根据这笔交易涉及的实际金额、交易目的等数据,生成风险咨询请求,其中,该风险咨询请求中包含有描述这笔交易的实际金额、交易目的等数据的文本信息。
当然,该风险咨询请求也可以是指用户通过终端在执行业务之前,基于执行该业务的过程中可能会涉及到的数据而生成的。例如,假设用户在执行一笔交易之前,可以基于这笔交易在执行过程中可能涉及到的交易金额、交易目的等数据,生成风险咨询请求,以通过该风险咨询请求,向服务器咨询在执行这笔交易时是否存在风险以及相应的风险类别。
S402:从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合。
服务器在接收到该风险咨询请求后,可以确定出该风险咨询请求中包含的文本信息。其中,服务器可以将该风险咨询请求中包含的信息进行诸如常用字符剔除,错误字符修正等处理,从而从该风险咨询请求中提取出该文本信息。
服务器可以通过预先保存的风险关键词集合库中包含的各风险类别对应的风险关键词集合,对该文本信息进行匹配,以确定出哪些风险类别对应的风险关键词集合存在于该文本信息中。
需要说明的是,在本说明书中,对于每个风险类别来说,若是该风险类别越多的风险关键词集合存在于该文本信息中,则说明该文本信息描述的内容所涉及的风险状况与该风险类别越接近。因为,风险关键词集合包含可能并不是单个的风险关键词,也可能是多个风险关键词的组合,所以,一个风险类别对应的各风险关键词集合能够通过单个风险关键词以及多个风险关键词组合的方式,充分的体现出该风险类别的特征。因此,若是该风险类别越多的风险关键词集合存在于该文本信息中,则说明该文本信息的风险特征与该风险类别越接近,即,该文本信息中的内容所体现出的风险状况属于该风险类别的可能性越大。
S404:根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别。
服务器可以根据风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定出有哪些风险类别对应的风险关键词集合存在于该文本信息中,继而将确定出的风险类别作为该文本信息对应的风险类别。
其中,由于在实际过程中可能有多个风险类别对应的风险关键词集合存在于该文本信息中,则服务器可以针对每个风险类别,确定出该风险类别对应的风险关键词集合存在于该文本信息中的集合数,进而通过确定出的各集合数,进一步地确定出满足预设条件的风险类别,并将该风险类别作为该文本信息对应的风险类别。
具体的,服务器可以将风险关键词集合存在于该文本信息中集合数最高的风险类别确定为满足预设数量条件的风险类别,并将该风险类别作为该文本信息对应的风险类别。例如,假设有A、B、C三个风险类别的风险关键词集合存在于该文本信息,每个风险类别的风险关键词集合存在于该文本信息中的集合数如表1所示。
风险类别 |
风险关键词集合命中文本信息的数量 |
风险类别A |
5 |
风险类别B |
4 |
风险类别C |
6 |
表1
从表1可以看出,风险类别C的风险关键词集合存在于该文本信息中的集合数最高,则可以将风险类别C作为该文本信息对应的风险类别。
上述提到的满足预设条件的风险类别除了可以指风险关键词集合存在于该文本信息的集合数最高的风险类别外,还可以是其他的形式。例如,假设服务器确定出有N个风险类别对应的风险关键词集合存在于文本信息中,则可以分别确定出每个风险类别的风险关键词集合存在于该文本信息中的集合数,并按照集合数由大到小将N个风险类别进行排序,继而将设定排序之前的风险类别作为该文本信息对应的风险类别。其中,若是有在设定排序之前的风险类别达到了两个或两个以上,则后续在向用户进行风险反馈时,可以将设定排序之前的这些风险类别对应的反馈信息一并反馈给用户。
再例如,在确定出有哪些风险类别的风险关键词集合存在于该文本信息后,服务器可以分别确定出每个风险类别的风险关键词集合存在于该文本信息的集合数,以及在实际应用中每个风险类别出现的概率。其中,每个风险类别出现的概率可以通过统计各用户向服务器发起的历史风险咨询的总数,以及这些历史风险咨询中该风险类别出现的次数而计算出的。服务器可以针对每个风险类别,通过该风险类别出现的概率、该风险类别的风险关键词集合存在于该文本信息的集合数以及这两项数据分别对应的权重,确定出该文本信息属于该风险类别的分值,进而将分值最高的风险类别确定为满足预设分值条件的风险类别,并将该风险类别作为该文本信息对应的风险类别。当然,确定满足预设条件的风险类别的方式还可以有很多,在此就不一一举例说明了。
S406:根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
由于服务器预先保存有各风险类别对应的反馈信息,则服务器在确定出该文本信息对应的风险类别后,可以将该风险类别对应的反馈信息反馈给用户,以使该用户可以通过该反馈信息,获取到具体面临哪种风险状况,这种风险状况该如何应对、解决、防范等信息。
在本说明书中,服务器可以将该文本信息以及确定出的该文本信息对应的风险类别作为训练样本输入到预设的类别识别模型中,以对该类别识别模型中进行训练。这样一来,后续服务器再接收到用户发送的风险咨询请求时,在额可以将从该风险咨询请求中提取出的文本信息输入到训练好的类别识别模型,以通过该类别识别模型快速的确定出该文本信息所属的风险类别,进而将该风险类别对应的反馈信息反馈给用户,从而进一步地提高了风险反馈的效率,给用户带来了方便。
以上为本说明书的一个或多个实施例提供的关键词挖掘以及风险反馈的方法,基于同样的思路,本说明书还提供了相应的关键词挖掘以及风险反馈的装置,如图5、6所示。
图5为本说明书提供的一种关键词挖掘的装置示意图,具体包括:
采集模块501,采集各风险类别的历史风险咨询文本;
第一确定模块502,针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词;
第二确定模块503,确定各候选关键词集合对应的支持度;
挖掘模块504,根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,风险关键词集合中包含有至少一个风险关键词;
保存模块505,将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
所述第一确定模块502,针对该风险类别对应的每个历史风险咨询文本,通过预设的常用字符库,从该历史风险咨询文本中剔除各常用字符,得到处理后的历史风险咨询文本;针对得到的每个处理后的历史风险咨询文本,将该处理后的历史风险咨询文本进行分词,得到词集合;根据得到的各词集合,确定出各候选关键词集合。
所述第一确定模块502,将各词集合中包含的各词语作为各候选关键词;将各候选关键词进行任意组合,得到各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词。
所述第二确定模块503,针对每个候选关键词集合,根据该候选关键词集合在各词集合出现的次数,确定该候选关键词集合的支持度。
所述挖掘模块504,将支持度不小于设定支持度的候选关键词集合作为风险关键词集合。
所述第一确定模块502,将各词集合中包含的各词语作为各候选关键词;针对每个候选关键词,根据该候选关键词在各词集合中出现的次数,确定该候选关键词的支持度;从各词集合中去除支持度低于设定支持度的候选关键词,得到各处理后的词集合;根据得到的各处理后的词集合,构建第一频繁模式树FP-Tree;针对各处理后的词集合中的每个候选关键词,确定所述第一频繁模式树FP-Tree中包含有该候选关键词的路径,并将确定出的路径中包含的其他候选关键词作为该候选关键词对应的候选关键词集合。
所述第二确定模块503,针对各处理后的词集合中的每个候选关键词,根据从所述第一频繁模式树FP-Tree中确定出的包含有该候选关键词的路径,构建针对该候选关键词的第二频繁模式树FP-Tree;根据所述第二频繁模式树FP-Tree中各候选关键词集合出现的次数,确定该候选关键词对应的各候选关键词集合的支持度。
所述挖掘模块504,针对各处理后的词集合中的每个候选关键词,从该候选关键词对应的各候选关键词集合中确定出支持度不小于设定支持度的候选关键词集合;根据确定出的支持度不小于设定支持度的候选关键词集合以及该候选关键词,确定该候选关键词对应的风险关键词集合。
所述采集模块501,针对每个风险类别,当确定该风险类别对应的历史风险咨询文本的数量低于设定数量时,则将该风险类别对应的部分或全部历史风险咨询文本进行复制,并将复制得到的历史风险咨询文本以及采集到的该风险类别对应的历史风险咨询文本作为用于挖掘该风险类别对应的风险关键词集合的历史风险咨询文本。
图6为本说明书提供的一种风险反馈的装置示意图,具体包括:
接收模块601,接收风险咨询请求;
提取模块602,从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合;
确定模块603,根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别;
反馈模块604,根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
所述确定模块603,针对每个风险类别,确定该风险类别对应的各风险关键词集合存在于所述文本信息中的集合数;通过确定出的各集合数,确定满足预设条件的风险类别,并将满足所述预设条件的风险类别作为所述文本信息对应的风险类别。
所述确定模块603,将集合数最高的风险类别确定为满足预设数量条件的风险类别。
所述装置还包括:
训练模块605,将所述文本信息以及确定出的所述文本信息对应的风险类别作为训练样本输入到预设的类别识别模型中,以对所述类别识别模型进行训练。
基于上述说明的关键词挖掘的方法,本说明书还对应提供了一种用于关键词挖掘的设备,如图7所示。该设备包括一个或多个存储器以及处理器,所述存储器存储程序,并且被配置成由所述一个或多个处理器执行以下步骤:
采集各风险类别的历史风险咨询文本;
针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,每个候选关键词集合中包含有至少一个候选关键词;
确定各候选关键词集合对应的支持度;
根据确定出的各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,风险关键词集合中包含有至少一个风险关键词;
将挖掘出的各风险类别对应的各风险关键词集合进行保存,得到风险关键词集合库。
基于上述说明的风险反馈的方法,本说明书还对应提供了一种用于风险反馈的设备,如图8所示。该设备包括一个或多个存储器以及处理器,所述存储器存储程序,并且被配置成由所述一个或多个处理器执行以下步骤:
接收风险咨询请求;
从预先保存的风险关键词集合库中提取出存在于所述风险咨询请求中包含的文本信息的风险关键词集合;
根据所述风险关键词集合库中各风险关键词集合与各风险类别的对应关系,确定所述风险关键词集合对应的风险类别,并将确定出的风险类别作为所述文本信息对应的风险类别;
根据预先保存的各风险类别与各反馈信息的对应关系,将所述风险类别对应的反馈信息进行反馈。
在本说明书的一个或多个实施例中,可以采集各风险类别的历史风险咨询文本,并针对每个风险类别,从该风险类别对应的各历史风险咨询文本中确定各候选关键词集合,而后,可以确定出各候选关键词集合对应的支持度,并基于各候选关键词集合对应的支持度,挖掘出各风险类别对应的风险关键词集合,进而将挖掘出的各风险类别对应的风险关键词集合进行保存,得到风险关键词集合库。
通过从采集到的各风险类别的历史风险咨询文本中确定各候选关键词集合,以及确定这些候选关键词集合对应的支持度的方式,自动挖掘出各风险类别对应的风险关键词集合,这样一来将极大的提高挖掘风险关键词集合的效率,降低了挖掘风险关键词集合所消耗的人力成本。同时,由于各风险关键词集合是通过确定各候选关键词集合的支持度挖掘出的,所以,这样则有效的降低了人为主观因素对挖掘风险关键词集合过程中所造成的影响,从而在后续的风险反馈过程中,可以基于挖掘出的风险关键词集合向用户准确的进行信息反馈,给用户带来了方便。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。