CN111626760B

CN111626760B - 分配方法和设备、提取方法和设备及计算机可读记录介质

Info

Publication number: CN111626760B
Application number: CN202010116720.XA
Authority: CN
Inventors: 后藤启介; 浅井达哉; 岩下洋哲; 大堀耕太郎; 塩田好伸
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-28
Filing date: 2020-02-25
Publication date: 2023-09-08
Anticipated expiration: 2040-02-25
Also published as: EP3702977A2; US20230222367A1; EP3702977A3; JP2020140572A; US20200279178A1; JP7310171B2; CN111626760A

Abstract

本发明提供了分配方法和设备、提取方法和设备以及计算机可读记录介质。分配设备通过使用包括目标变量和与该目标变量对应的一个或更多个说明变量的数据的一部分作为训练数据，执行根据数据的说明变量预测目标变量的模型的训练。分配设备根据关于数据的说明变量的至少一部分的分类条件，将通过从数据中排除训练数据而获得的测试数据分类到组中。分配设备针对组中的每一个，使用所训练的模型根据测试数据的说明变量预测目标变量。分配设备基于在预测时预测的针对组中的每一个的目标变量，计算要分配给组中的每一个的预定资源量。

Description

分配方法和设备、提取方法和设备及计算机可读记录介质

技术领域

本文中讨论的实施方式涉及分配程序、提取程序、分配方法、提取方法、分配设备以及提取设备。

背景技术

迄今为止，用于优化广告放置的技术是已知的。特别地，在数字营销中，有时基于日志数据的分析结果来计划或实现用于优化的措施。

日本公开专利公报第2015-028732号

然而，以上技术具有以下问题：在一些情况下，难以更有效地计划和实现措施。例如，假定如下情况：通过诸如逻辑回归的技术计算日志数据的每个项目值的重要度，并且还基于重要度通过对多个项目值进行组合来进行分析。在这种情况下，组合数量将是巨大的。因此，难以使用相关技术在考虑到所有组合的情况下进行分析。因此，相关技术有时难以将日志数据的分析结果引入到措施的更有效的计划和实现中。

因此，本发明的实施方式的一个方面的目的是提供分配程序、提取程序、分配方法、提取方法、分配设备和提取设备，以使措施的计划和实现更有效。

发明内容

根据实施方式的方面，一种计算机可读记录介质，在所述计算机可读记录介质中存储分配程序，所述分配程序使计算机执行处理，所述处理包括：通过使用包括目标变量和与所述目标变量对应的一个或更多个说明变量的数据的一部分作为训练数据，执行根据所述数据的说明变量预测目标变量的模型的训练；根据关于所述数据的说明变量的至少一部分的分类条件，将通过从所述数据中排除训练数据而获得的测试数据分类到组中；针对在分类时已经执行了分类的组中的每一个，使用所训练的模型根据测试数据的说明变量预测目标变量；以及基于在预测时预测的针对组中的每一个的目标变量，计算要分配给组中的每一个的预定资源量。

附图说明

图1是示出根据第一实施方式的提取设备的功能配置的示例的图；

图2是示出日志数据的示例的图；

图3是示出关于假设的信息的示例的图；

图4是示出关于变量的信息的示例的图；

图5是说明训练技术的说明图；

图6是说明训练技术的说明图；

图7是说明变量与数据之间的关系的说明图；

图8是说明假设的生成的说明图；

图9是说明假设的生成的说明图；

图10是说明假设的生成的说明图；

图11是示出生成的假设的示例的说明图；

图12是说明通过逻辑回归计算重要度的说明图；

图13是示出根据第一实施方式的提取处理的流程的流程图；

图14是示出根据第二实施方式的提取设备的功能配置的示例的图；

图15是示出日志数据的示例的图；

图16是示出关于假设的信息的示例的图；

图17是示出关于组的信息的示例的图；

图18是说明所显示的每个组的假设的说明图；

图19是示出根据第二实施方式的提取处理的流程的流程图；

图20是说明预算分配的周期的说明图；

图21是示出根据第三实施方式的分配设备的功能配置的示例的图；

图22是说明预算分配的优化的说明图；

图23是说明数据的分类的说明图；

图24是说明CV得分的说明图；

图25是说明排名的说明图；

图26是示出根据第三实施方式的分配处理的流程的流程图；以及

图27是说明硬件配置示例的图。

具体实施方式

将参照附图说明优选实施方式。注意，实施方式将不限制本发明。在没有矛盾的情况下，可以对每个实施方式进行适当地组合。

[a]第一实施方式

功能配置

将参照图1来描述根据第一实施方式的提取设备的功能配置。图1是示出根据第一实施方式的提取设备的功能配置的示例的图。如图1中所示，提取设备10包括通信单元11、输入单元12、输出单元13、存储单元14和控制单元15。

通信单元11是用于与另一设备传送数据的接口。例如，通信单元11是网络接口卡(NIC)并且经由因特网传送数据。

输入单元12是用户用来输入信息的设备。输入单元12的示例包括鼠标和键盘。例如，输出单元13是显示屏幕的显示器。输入单元12和输出单元13可以是触摸面板显示器。

存储单元14是对数据、要由控制单元15执行的程序等进行存储的存储设备的示例。例如，存储单元14是硬盘、存储器等。存储单元14存储日志数据141、关于假设的信息142和关于变量的信息143。

日志数据141是具有目标变量和与该目标变量对应的多个说明变量作为项目值的数据。图2是示出日志数据的示例的图。如图2中所示，日志数据141具有日期和时间作为关键字。如刚刚描述的，日志数据141具有日期和时间作为关键字并且可以是时间序列数据，该时间序列数据中的数据随着时间的流逝而进一步增加。

在第一实施方式中，假定日志数据141是在预定日期和时间收集的数据，并且将关于已经被放置在网络上的广告的信息与已经针对该信息实现的措施相关联。

在一些情况下，日志数据141可以被用作用于训练模型的训练数据，该模型用于得到有效措施。因此，日志数据141中的措施可以是例如由熟练的计划者计划的措施。日志数据141也可以是在实现的措施已经成功的情况下收集的数据。

如图2中所示，日志数据141包括“点击数”、“某周的某日”、“某日的某时”、“最后事件”和“剩余预算”作为说明变量。日志数据141还包括“广告价格”作为目标变量。目标变量“广告价格”指示：措施是否意在提高、保持或降低广告价格。

例如，图2的第一行指示以下信息：在假日的下午，在某广告上的点击数为100并且该广告的剩余预算为10,000日元是在2019/6/5的10:00收集的。图2的第一行还指示：针对广告实现了降低广告价格的措施。

关于假设的信息142是将目标变量和关于与该目标变量对应的一个或更多个说明变量的条件的组合与重要度相关联的信息。图3是示出关于假设的信息的示例的图。在下文中，关于假设的信息142的组合有时被称为假设。稍后将描述计算重要度的方法。

例如，图3的第一行指示：假设“当剩余预算存在∧点击数≥100∧某周的某天＝假日时，广告价格上涨”的重要度为0.85。

在不区分说明变量和目标变量的情况下，假设可以被认为是关于多个项目值的条件的组合。在这种情况下，图3的第一行的假设可以被表示为“剩余预算存在∧点击数≥100∧某周的某天＝假日∧广告价格上涨”。

关于变量的信息143是每个变量的重要度。图4是示出关于变量的信息的示例的图。例如，图4的第一行指示变量“剩余预算”的重要度为0.91。每个变量的重要度可以通过与假设的重要度相同的方法来计算或者通过与假设的重要度不同的方法来计算。例如，可以通过诸如逻辑回归的已知技术来计算每个变量的重要度。

控制单元15例如以如下方式被实现：存储在内部存储设备中的程序由中央处理单元(CPU)、微处理单元(MPU)、图形处理单元(GPU)等在作为工作区域的RAM上执行。控制单元15可以例如通过诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的集成电路来实现。控制单元15包括生成单元151，计算单元152和提取单元153。

生成单元151生成关于数据中包括的多个项目值的条件的组合，即假设。生成单元151可以从具有说明变量和目标变量的数据如日志数据141生成假设。在这种情况下，生成单元151生成目标变量和关于与该目标变量对应的一个或更多个说明变量的条件的组合作为假设。

生成单元151还生成关于在随着时间的流逝而增加的数据中包括的多个项目值的条件的组合。例如，生成单元151可以从时间序列数据如日志数据141生成组合，随着时间的流逝，数据被添加到该时间序列数据。

在本文中，将描述提取设备10的训练技术的示例。提取设备10通过训练来生成将假设和重要度进行组合的模型。图5和图6是说明训练技术的图。深度学习通常将模拟人脑的神经电路的结构的神经网络堆叠成若干层，并且通过改进一个模型来实现准确度提高。因此，深度学习是对人类而言太复杂而无法理解的模型。同时，如图5中所示，提取设备10对数据项进行组合以提取大量假设，并且执行调整假设(知识块(在下文中，有时被简称为“块”))的重要度的机器训练(例如，广泛学习)并构造具有高准确度的分类模型。知识块是对人类而言足够简单而能够理解并且描述如下假设的模型，所述假设有可能被核准为具有逻辑表达的输入与输出之间的关系。

具体地，提取设备10将输入数据的数据项的所有组合模式视为假设(块)，并且通过分类标签对假设中的每个假设的命中率来决定假设的重要度。然后，提取设备10基于多个提取的知识块和标签(目标变量)来构造模型。此时，当构造知识块的项目主要包括构造另一知识块的相同项目时，提取设备10执行控制，使得重要度较小。

将参照图6描述具体示例。在本文中，把期望判断出购买某产品或服务的顾客的情况看做示例。顾客数据包括各种项目，例如“性别”、“许可的存在”、“婚姻状况”、“年龄”和“年收入”。将项目的所有组合看做假设，考虑假设中的每一个的重要度。例如，数据中存在十个顾客，对于这十个顾客而言，组合了项目““男性”、“具有”、“已婚””的假设是真的。当这十个人中有九个人购买了产品等时，假设““男性”、“具有”、“已婚”的人将购买”被认为是具有高命中率的假设并且被提取为知识块。在本文中，例如，指示产品是否已经被购买的二进制数充当标签，即目标变量。

同时，数据中存在100个顾客，针对这100个顾客，组合了项目““男性”、“具有””的假设是真的。当这100个人中只有60个人购买了产品等时，购买的命中率是60％并且小于阈值(例如，80)。因此，假设““男性”、“具有”的人将购买”被认为是具有低命中率的假设并且不被提取为知识块。

此外，数据中存在20个顾客，针对这20个顾客，组合了项目““男性”、“不具有”、“未婚””的假设是真的。当这20个人中有18个人未购买产品等时，未购买的命中率是90％并且大于或等于阈值(例如，80)。因此，假设““男性”、“不具有”、“未婚”的人将不购买”被认为是具有高命中率的假设并且被提取为知识块。

以这种方式，提取设备10得到支持购买或不购买的数千万或数亿的知识块并且执行模型的训练。因此所训练的模型列举了特征的组合作为假设(块)。作为指示概率的可能性的示例的重要度被添加到假设的每一个中。输入数据中出现的假设的重要度的总和充当得分。当得分大于或等于阈值时，模型的输出是正例。

换言之，得分是指示状态的概率和针对模型生成的块(假设)中满足所有所属特征的块的重要度的总值的指标。例如，假定如下情况：在块A对应于“重要度：20，特征(A1，A2)”的状态下，块B对应于“重要度：5，特征(B1)”，并且块C对应于“重要度：10，特征(C1，C2)”，在用户日志中存在动作(A1，A2，B1，C1)。此时，由于出现块A和块B的所有特征，因此得分为“20+5＝25”。在本文中，特征对应于用户的动作等。

将参照图7至图11描述由生成单元151生成模型的具体方法。图7是说明变量与数据之间的关系的说明图。在本文中，如图7中所示，假定存在关于日志数据141的说明变量的四个条件A、B、C和D。A的否定被表示为^-A(-紧接在A上方)。例如，当A表示条件“剩余预算存在”时，^-A表示条件“剩余预算不存在”。例如，当B表示条件“点击数≥100”时，^-B表示条件“点击数<100”。

P₁、P₂、P₃、P₄、N₁、N₂和N₃包括在日志数据141中，并且表示将目标变量与说明变量的条件相关联的数据。在本文中，P_i表示其目标变量为“上涨”的数据，N_j表示其目标变量为“下降”的数据(然而，i和j是任意整数)。如图2中所示，在日志数据141中，目标变量的值包括“保持”以及“上涨”和“下降”。然而，将在目标变量的值为“上涨”或“下降”的假定下进行描述。在以下描述中，“上涨”和“下降”有时可以分别被表示为+和-。

首先，如图8中所示，生成单元151针对在P₁、P₂、P₃、P₄、N₁、N₂和N₃中包括的说明变量中的每一个详尽地列举可能的值的组合。图8是说明假设的生成的说明图。在本文中，可能的值是*(未使用)、1(已使用)和0(使用条件的否定)。

生成单元151可以设置限制，使得要组合的说明变量的数量小于或等于预定数量。例如，生成单元151可以设置限制，使得在四个说明变量A至D的情况下，要组合的说明变量的数量为两个或更少。在这种情况下，生成单元151对四个说明变量中的为*(未使用)的至少两个说明变量进行组合。随着说明变量的数量增加(例如，1000)，组合的数量爆炸性地增加。因此，该限制可以初步地抑制要列举的组合的数量的增加。

生成单元151根据组合是P₁、P₂、P₃、P₄、N₁、N₂还是N₃对列举的组合进行分类，并且确定该组合是否是满足特定条件的有效组合。特定条件的示例是：关于说明变量的条件与日志数据141的大于或等于预定次数的数据一致。在这种情况下，生成单元151可以生成所述条件中与大于或等于预定次数的数据一致的条件的组合。

在图8的示例中，生成单元151列举使得所有四个说明变量A至D都为*的组合C01、^-C的组合C04、CD的组合C09(C和D为1，并且A和B为*)等。

如图8中所示，生成单元151基于P₁、P₂、P₃、P₄、N₁、N₂和N₃的说明变量来列举落入组合C01至C09中的每一个中的数据。例如，生成单元151列举P₂、N₁和N₂作为落入组合C02中的数据。在这种情况下，针对组合C02列举的数据混合地包括其目标变量为+的数据(P₂)和其目标变量为-的数据(N₁，N₂)。因此，组合C02成为正确描述目标变量是+还是-的假设的概率较低。因此，生成单元151不采用组合C02作为有效假设。

同时，生成单元151列举N₁和N₂作为落入组合C08中的数据。在这种情况下，针对组合C08列举的数据仅包括其目标变量为-的数据(N₁，N₂)。因此，生成单元151采用组合C08作为有效假设。

即使当不同的目标变量被混合时，生成单元151也可以根据混合比采用该组合作为有效假设。例如，当与某个组合对应的80％或更多的数据具有为+的目标变量时，生成单元151可以采用该组合作为有效假设。

生成单元151从所述假设中排除与某个组合的特殊情况相对应的组合。例如，图8的组合C05和C06是组合C04的特殊情况。这是因为组合C05和C06是通过仅将文字添加到组合C04而获得的。

生成单元151采用图9中示出的组合作为假设。也就是说，生成单元151采用组合C01、C02、C03、C04a、C07、C08和C09作为假设。组合C04a通过从满足^-C的组合中省略C04的特殊情况而获得。

图9是说明假设的生成的说明图。图9示出了表示图7和图8的内容的卡诺图(Karnaugh map)。如图9中所示，生成单元151按照顺序考虑A(B、C、D为*(未使用))(S31)、^-A(B、C、D为*(未使用))(S32)、……的组合的有效性，同时改变组合(S31至S35……)。

在本文中，其目标变量为+的数据(P₁、P₃、P₄)在S33中落入^-C的组合中。在S33中，要被分类到+类中的数据(P₁、P₃、P₄)的数量或比率大于或等于预定值。因此，生成单元151确定在S33中^-C的组合是要被分类到+类中的有效组合(假设)。在以下处理中，通过将文字添加到^-C所获得的组合被排除。

其次，在考虑了三个说明变量为*(未使用)的所有组合之后，生成单元151开始考虑两个说明变量为*(未使用)的组合(S34)。在本文中，其目标变量为+的训练数据(P₁、P₂)在S35中落入A^-B的组合中。在S35中，要被分类到+类中的训练数据(P₁、P₂)的数量或比率大于或等于预定值。因此，生成单元151在S35中确定A^-B的组合是要被分类到+类中的有效组合(假设)。

图10是示出生成的假设的示例的说明图。如图11中所示，生成单元151从P₁、P₂、P₃、P₄、N₁、N₂和N₃生成分类结果为+或-的假设H1至H11，并且将所生成的假设作为关于假设的信息142存储在存储单元14中。

假设H1至H11中的每一个是独立假设，该独立假设要求正确地说明数据的分类结果是+还是-。因此，在一些情况下，可能存在如假设H2和假设H6彼此矛盾的假设。

计算单元152使用从数据训练的模型来计算作为关于组合中的每一个的数据中的关联度的重要度。例如，计算单元152使用逻辑回归来计算假设中的每一个的重要度。图12是说明通过逻辑回归计算重要度的说明图。计算单元152将日志数据141应用于图12中示出的模型表达并计算最佳系数β₁至β₁₁。计算单元152利用通过计算确定的系数来更新关于假设的信息142的重要度。

然后，随着日志数据141中的关联度变大，假设中的每一个的重要度变大。此外，当满足说明变量中的每一个的条件时，重要度可以被称为目标变量的可能性。因此，计算单元152针对组合中的每一个计算关于满足条件的目标变量的可能性作为重要度。

提取单元153基于条件或重要度从组合中提取特定组合。换言之，提取单元153基于重要度从关于假设的信息142中提取被认为特别重要的假设。例如，提取单元153从组合中提取其重要度大于或等于预定值的组合。

由提取单元153提取的假设和假设的重要度由输出单元13以列表形式显示，该输出单元13用作诸如显示器的显示设备。此时，输出单元13突出显示关于变量的条件，该变量单独不重要但是当与另一变量组合时是重要的。

当作为第一条件和另一条件的组合的第一组合的重要度超过第一标准并且仅第一条件的重要度不超过第二标准时，与另一组合相比，输出单元13突出显示第一组合。

例如，假定第一标准是“假设的重要度大于或等于0.5”。此外，假定第二标准是“变量的重要度小于或等于0.1”。然后，如图3中所示，假设“当剩余预算不存在∧某日的某时＝早晨，价格下降时”的重要度为0.78并且超过第一标准。如图4中所示，变量“某日的某时”的重要度为0.03并且不超过第二标准。因此，例如，输出单元13通过改变字体或样式、标记等来突出显示部分“某日的某时＝早晨”。

将参照图13描述通过提取设备10的处理的流程。图13是示出根据第一实施方式的提取处理的流程的流程图。如图13中所示，首先，提取设备10列举目标变量和关于预定数量的说明变量的条件的组合，并且生成假设(步骤S11)。例如，提取设备10使列举的组合中不满足特定条件或作为特定组合的特殊情况的组合不被包括在假设中。

其次，提取设备10计算假设中的每一个的重要度(步骤S12)。然后，提取设备10显示假设和重要度的列表，并且突出显示仅其重要度小于或等于预定值的变量的条件(步骤S13)。

有益效果

如上所述，提取设备10生成关于数据中包括的多个项目值的条件的组合。提取设备10使用从数据训练的模型来计算作为关于组合中的每一个的数据中的关联度的重要度。提取设备10基于条件或重要度从组合中提取特定组合。以这种方式，提取设备10可以估计对多个项目值进行组合的条件的重要度。因此，根据实施方式，可以估计由项目值的组合产生的大量假设，并且使得措施的计划和实现更有效。

提取设备10生成目标变量和关于与该目标变量对应的一个或更多个说明变量的条件的组合。提取设备10针对组合中的每一个计算关于满足条件的目标变量的可能性作为重要度。因此，根据实施方式，可以基于用于根据说明变量估计目标变量的模型来估计假设。

提取设备10从组合中提取其重要度大于或等于预定值的组合。以这种方式，提取设备10在详尽地计算出组合的重要度之后提取被认为重要的组合。因此，提取设备10可以提供在计划措施中特别重要的假设。

当由提取单元提取的组合中的作为第一条件和另一条件的组合的第一组合的重要度超过第一标准并且仅第一条件的重要度不超过第二标准时，提取设备10显示由提取单元提取的组合的列表，并且与另一组合相比，提取设备10突出显示第一组合。对人类而言，检测包括仅其重要度不大的变量的假设是特别困难的。根据实施方式，可以在指示检测是困难的同时建议这样的假设。

提取设备10生成条件中与大于或等于预定次数的数据一致的条件的组合。以这种方式，提取设备10可以通过排除预先认为不重要的条件来使计算更有效。

提取设备10生成关于在随着时间的流逝而增加的数据中包括的多个项目值的条件的组合。即使当数据的量较小时，这也允许提取设备10提取假设。

在以上提到的实施方式中，已经描述了目标变量指示广告价格是升高、保持还是降低的情况。同时，目标变量可以指示广告的转换(CV)是否已经发生。在这种情况下，如在图8等的示例中，目标变量可以由二进制表示。

[b]第二实施方式

提取设备10可以将提取的假设分类到预定组中。作为第二实施方式，将描述在提取设备10根据分类条件对假设进行分类的情况下的示例。在第二实施方式的描述中，将适当地省略与第一实施方式共同的描述。

功能配置

将参照图14描述根据第二实施方式的提取设备的功能配置。图14是示出根据第二实施方式的提取设备的功能配置的示例的图。如图14中所示，提取设备10包括通信单元11、输入单元12、输出单元13、存储单元14和控制单元15。

存储单元14存储日志数据141、关于假设的信息142、关于变量的信息143以及关于组的信息144。在第二实施方式中，与第一实施方式不同，存储单元14存储关于组的信息144。第二实施方式中的日志数据141、关于假设的信息142和关于变量的信息143是出于与第一实施方式中相同的目的而使用的数据。

图15是示出日志数据的示例的图。如图15中所示，日志数据141包括“用户ID”、“性别”、“年龄”、“访问次数”、“某天的广告分发时间”和“住所”作为说明变量。日志数据141还包括“CV”作为目标变量。目标变量“CV”指示广告的CV是否已经发生。例如，当已经购买了与广告对应的产品或者已经执行了到与广告对应的产品购买页面的转变时，认为CV已经发生。

例如，图15的第一行指示：对于用户ID为“U001”的用户，性别为“女性”，年龄为“青年”，住所为“大都市”，某天的广告分发时间为“早晨”，访问次数为10次，并且CV不发生。例如，图15的第二行指示：对于用户ID为“U002”的用户，性别为“男性”，年龄为“中年”，住所为“北海道”，某天的广告分发时间为“下午”，访问次数为20次，并且CV发生。

图16是示出关于假设的信息的示例的图。此外，在第二实施方式中，以与第一实施方式中相同的方式基于日志数据生成假设。例如，图16的第一行指示：当“性别＝男性∧访问次数≥20∧住所＝北海道”、CV发生时的假设的重要度为20。注意，随着CV发生的概率变高，关于第二实施方式的假设的重要度变大。

关于组的信息144是用于将假设分类到组中的分类条件。图17是示出关于组的信息的示例的图。如图17中所示，关于组的信息144包括“组ID”和“分类条件”。

控制单元15包括生成单元151、计算单元152、提取单元153和更新单元154。生成单元151和计算单元152执行与第一实施方式中的处理相同的处理。生成单元151生成关于数据中包括的多个项目值的条件的组合，即假设。计算单元152使用从数据训练的模型来计算作为关于组合中的每一个的数据中的关联度的重要度。由生成单元151生成的假设和由计算单元152计算的重要度作为关于假设的信息142被存储在存储单元14中。

提取单元153针对已经根据作为条件中的至少一部分的分类条件进行分类的组中的每一个基于条件或重要度从组合中提取特定组合。提取单元153参考关于组的信息144并且将关于假设的信息142中的假设分类到组中。

图18是说明所显示的组中的每一个的假设的说明图。输出单元13可以显示已经由提取单元153提取并且被分类到如图18中的组中的假设。例如，组ID为“G001”的组的分类条件为“性别＝女性∧住所＝北海道”。因此，如图18中所示，提取单元153将包括“性别＝女性∧住所＝北海道”的假设分类到组ID为“G001”的组中。

更新单元154基于由生成单元151生成的假设来更新分类条件。例如，更新单元154将包括在由生成单元151生成的假设中并且不包括在分类条件中的条件添加到分类条件。

例如，假定不存在包括条件“住所＝关西”的分类条件。在这种情况下，当假设“性别＝男性Λ访问次数≥20Λ住所＝关西”被生成时，更新单元154添加包括条件“住所＝关西”的分类条件。例如，更新单元154可以转移用于添加诸如“性别＝女性∧住所＝关西”以及“性别＝男性∧住所＝关西”的分类条件的现有分类条件。

将参照图19描述通过提取设备10的处理的流程。图19是示出根据第二实施方式的提取处理的流程的流程图。如图19中所示，首先，提取设备10列举目标变量和关于预定数量的说明变量的条件的组合，并且生成假设(步骤S21)。例如，提取设备10使列举的组合中不满足特定条件或作为某个组合的特殊情况的组合不被包括在假设中。

其次，提取设备10计算假设中的每一个的重要度(步骤S22)。然后，提取设备10在根据分类条件将提取的假设分类到组中之后显示提取的假设的列表(步骤S23)。

有益效果

如上所述，提取设备10生成关于数据中包括的多个项目值的条件的组合。提取设备10使用从数据训练的模型来计算作为关于组合中的每一个的数据中的关联度的重要度。提取设备10针对已经根据作为条件中的至少一部分的分类条件进行分类的组中的每一个基于条件或重要度从组合中提取特定组合。以这种方式，提取设备10可以估计组合了多个项目值的条件的重要度，并且还将组合分类到组中。因此，根据实施方式，可以估计由项目值的组合产生的大量假设，并且以组为单位更容易理解假设的有效性。这可以使措施的计划和实现更有效。

提取设备10基于生成的组合来更新分类条件。这使得可以根据日志数据的累积和新假设的生成来优化分类条件，并且执行将进一步有助于计划措施的组分类。

更新单元154将包括在由生成单元151生成的组合中并且不包括在分类条件中的条件添加到分类条件。这使得即使当新生成了已经不存在的假设时，也可以添加分类条件。

[c]第三实施方式

在以上实施方式中，已经说明了基于重要度提取假设。同时，计算出的重要度可以被用于计划措施，使得目标变量被优化。

例如，如图20中所示，在广告放置的情况下，实施措施的人有时以预定周期调整对广告的预算分配，使得CV将更频繁地发生。图20是说明预算分配的周期的说明图。

尤其在早期周期中，可能需要基于有限的CV结果数据进行更有效的预算分配。因此，将描述使用从已知的CV结果数据训练的模型以高准确度预测数据的CV的方法作为第三实施方式。在本文中，已知的CV结果数据是通过第一实施方式的方法提取的假设和假设中的每一个的重要度。

功能配置

将参照图21描述根据第三实施方式的分配设备的功能配置。图21是示出根据第三实施方式的分配设备的功能配置的示例的图。如图21中所示，分配设备20包括通信单元21、输入单元22、输出单元23、存储单元24和控制单元25。

通信单元21是用于与另一设备传送数据的接口。例如，通信单元21是NIC并且经由因特网传送数据。

输入单元22是用户用来输入信息的设备。输入单元22的示例包括鼠标和键盘。例如，输出单元23是显示屏幕的显示器。输入单元22和输出单元23可以是触摸面板显示器。

存储单元24是对数据、要由控制单元25执行的程序等进行存储的存储设备的示例。例如，存储单元24是硬盘、存储器等。存储单元24存储关于模型的信息241和关于组的信息242。

关于模型的信息241是使得能够构造用于基于说明变量来预测目标变量的模型的信息。例如，随着CV更频繁地发生，第二实施方式中的重要度变大。因此，从关于模型的信息241构造的模型可以是根据图16中示出的说明变量的条件计算重要度的模型。在第三实施方式中，由模型计算的重要度被称为CV得分。

关于组的信息242是用于将假设分类到组中的分类条件。关于组的信息242是与第二实施方式的关于组的信息144相同的信息。

例如，控制单元25以如下方式被实现：存储在内部存储设备中的程序由CPU、MPU、GPU等在作为工作区域的RAM上执行。控制单元25可以例如通过诸如ASIC或FPGA的集成电路来实现。控制单元25包括学习单元251、预测单元252和计算单元253。

在本文中，学习单元251、预测单元252和计算单元253执行与预算分配的优化有关的处理。图22是说明预算分配的优化的说明图。如图22中所示，在广告分发之前，预算被均等地分配给组中的每一个。然后，例如，第二实施方式的提取设备从获取的日志数据生成关于假设的信息。

学习单元251执行模型的学习。预测单元252使用所学习的模型来根据未知数据的说明变量预测CV得分。然后，计算单元253根据预测的CV得分计算要分配的预算量。下面将描述通过单元的处理。

学习单元251通过使用包括目标变量和与该目标变量对应的一个或更多个说明变量的数据中的一部分作为学习数据来执行根据数据的说明变量预测目标变量的模型的学习。例如，学习单元251通过以上提到的广泛学习技术来执行模型的学习。

如图23中所示，学习单元251使用全部数据的一部分作为学习数据。图23是说明数据的分类的说明图。学习单元251使用例如由提取设备生成的关于假设的信息中的十分之八作为学习数据。注意，预测单元252还用作分类单元。

预测单元252根据关于数据的说明变量中的至少一部分的分类条件，将通过从数据中排除学习数据而获得的测试数据分类到组中。预测单元252使用例如由提取设备生成的关于假设的信息中的十分之二作为测试数据。预测单元252根据关于组的信息242的分类条件将假设分类到组中。

预测单元252针对组中的每一个使用学习的模型从测试数据的说明变量预测目标变量，即，CV得分。图24是说明CV得分的说明图。在本文中，预测的得分为正意味着CV发生的概率高(CV)。同时，预测的得分为负意味着CV不发生的概率高(非CV)。

预测单元252以组为单位计算CV得分的平均值。此外，如图25中所示，预测单元252计算各组之间的CV得分的平均值的排名。图25是说明排名的说明图。

计算单元253基于通过预测处理预测的关于组中的每一个的目标变量来计算要分配给组中的每一个的预算量。预算量举例说明资源量。资源量可以是负责人的数量、分发时间等。

计算单元253以如下方式进行计算：随着由预测单元252预测的组中的每一个的目标变量的大小排名变高，要分配的资源量变大。例如，计算单元253根据表达式(1)计算要分配的预算。注意，haibun是给某个组的分配量，rank是该组的排名，yosan是总预算，e是预设常数。在本文中，假定e＝3作为示例。

haibun(rank，yosan，e)＝(e-1)×yosan/erank (1)

表达式(1)意味着总预算的2/3被分配给排名第一的组，剩余预算的2/3被分配给排名第二的组，类似地，剩余预算的2/3被分配给下一个排名的组，如此等等。因此，如图25中所示，66万日元——它是总预算一百万日元的约2/3——被分配给排名第一的组2。此外，22万日元——它是剩余预算34万日元的约2/3——被分配给排名第二的组1。

将参照图26描述通过分配设备20的处理的流程。图26是示出根据第三实施方式的分配处理的流程的流程图。如图26中所示，首先，分配设备20通过使用数据中的一部分作为学习数据来学习CV预测模型(步骤S51)。其次，分配设备20将作为通过从数据中排除学习数据而获得的数据的测试数据分类到组中(步骤S52)。

分配设备20针对组中的每一个将测试数据输入到CV预测模型中并且预测CV得分(步骤S53)。然后，分配设备20基于组的CV得分的排名来计算要分配的预算(步骤S54)。

有益效果

如上所述，分配设备20通过使用包括目标变量和与该目标变量对应的一个或更多个说明变量的数据中的一部分作为学习数据，执行根据数据的说明变量预测目标变量的模型的学习。分配设备20根据关于数据的说明变量的至少一部分的分类条件，将通过从数据中排除学习数据而获得的测试数据分类到组中。分配设备20针对组中的每一个，使用所学习的模型根据测试数据的说明变量预测目标变量。分配设备20基于通过预测处理而预测的针对组中的每一个的目标变量，计算要分配给组中的每一个的预定资源量。以这种方式，分配设备20可以基于结果数据通过利用假设来预测目标变量。因此，根据实施方式，即使当结果数据受到限制时，也可以预测假设的结果并且计划有效的措施。

分配设备20以如下方式进行计算：随着由预测单元252预测的组中的每一个的目标变量的大小排名变高，要分配的资源量变大。这使得可以通过例如将诸如CV的发生的措施的最终目标设置为目标变量来直接计算实现目标的合适的预算分配。

系统

除非另外说明，否则以上描述或在附图中示出的处理过程、控制过程、特定名称以及包括各种数据和参数的信息可以任意地被改变。实施方式中描述的具体示例、分布、数值等仅是示例并且可以任意地被改变。

示出的设备的部件在功能上是概念性的，并且不一定在物理上如所示的那样被配置。换言之，设备的分布或集成的具体形式不限于示出的形式。根据各种各样的负载、使用条件等，全部或部分设备可以在功能上或在物理上被分布或集成在任意单元中。此外，在设备中实现的全部或任意部分的处理功能可以由CPU以及由CPU分析和执行的程序来实现，或者可以由有线逻辑实现为硬件。

硬件

图27是说明硬件配置示例的图。如图27中所示，提取设备10包括通信接口10a、硬盘驱动器(HDD)10b、存储器10c和处理器10d。图27中示出的单元经由总线等彼此连接。分配设备20也由具有图27中示出的硬件配置的设备来实现。

通信接口10a是网络接口卡等，并且与另一服务器进行通信。HDD 10b存储使图1中示出的功能运行的程序和DB。

处理器10d从HDD 10b等读取执行与图14中示出的处理单元相同的处理的程序，并且在存储器10c上展开程序。这使实现图1中示出的功能等的处理运行。换言之，该处理实现与提取设备10中包括的处理单元相同的功能。具体地，处理器10d从HDD 10b等读取具有与生成单元151、计算单元152、提取单元153和更新单元154相同的功能的程序。然后，处理器10d运行如下进程，所述进程执行与生成单元151、计算单元152、提取单元153、更新单元154等相同的处理。例如，处理器10d是诸如CPU、MPU或ASIC的硬件电路。

因此，提取设备10操作为信息处理设备，该信息处理设备通过读取并执行程序来实现分类方法。提取设备10还可以通过使用介质读取设备从记录介质读取程序并执行所读取的程序，实现与以上提到的实施方式中的功能相同的功能。在另一实施方式中提到的程序不限于由提取设备10执行。例如，本发明类似地可适用于如下情况：另一计算机或服务器执行程序或者另一计算机和服务器协作执行程序。

可以经由诸如因特网的网络来分发程序。程序可以被记录在诸如硬盘、软盘(FD)、CD-ROM、磁光盘(MO)和数字多功能盘(DVD)的计算机可读记录介质中，并且可以从记录介质被读取以由计算机执行。

根据一个方面，可以使措施的计划和实现更有效。

Claims

1.一种提取方法，包括：

生成关于日志数据中包括的多个项目值的条件的组合；

使用从所述日志数据训练的模型计算重要度，所述重要度是关于所述组合中的每一个的日志数据中的关联度；以及

从所述日志数据提取满足基于所述条件或所述重要度的来自所述组合的特定组合的数据，并且根据作为所述条件的至少一部分的分类条件将所提取的数据分类到组中的每一个中。

2.一种提取设备，包括：

生成单元，所述生成单元生成关于日志数据中包括的多个项目值的条件的组合；

计算单元，所述计算单元使用从所述日志数据训练的模型计算重要度，所述重要度是关于所述组合中的每一个的日志数据中的关联度；以及

提取单元，所述提取单元从所述日志数据提取满足基于所述条件或所述重要度的来自所述组合的特定组合的数据，并且根据作为所述条件的至少一部分的分类条件将所提取的数据分类到组中的每一个中。