CN111626761A

CN111626761A - 提取方法、提取设备和计算机可读记录介质

Info

Publication number: CN111626761A
Application number: CN202010120051.3A
Authority: CN
Inventors: 浅井达哉; 后藤启介; 岩下洋启; 大堀耕太郎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-28
Filing date: 2020-02-26
Publication date: 2020-09-04
Anticipated expiration: 2040-02-26
Also published as: JP7268402B2; US20200279141A1; US11562185B2; JP2020140581A; EP3702995A1; CN111626761B

Abstract

提供了提取方法、提取设备和计算机可读记录介质。提取设备生成与数据中包括的多个项目值相关的条件的多个组合。提取设备通过使用从多个项目值估计响应变量的机器学习模型计算指示指定的响应变量和所述多个组合中的每个组合之间的共现程度的索引值，该机器学习模型通过使用所述数据来训练。提取设备基于条件和索引值中的任何一个从多个组合中提取特定组合。

Description

提取方法、提取设备和计算机可读记录介质

技术领域

本文中讨论的实施方式涉及提取程序、提取方法和提取设备。

背景技术

已知优化广告放置的技术。特别地，在数字营销中，可以基于日志数据分析的结果来计划和实现用于优化的措施(例如，日本特开专利公报第2015-028732号)。

然而，以上技术存在难以提高计划和实现措施的效率的问题。例如，考虑如下情况：通过逻辑回归(logistic regression)等计算日志数据中的每个项目值的重要度，并且基于该重要度进一步执行分析以对多个项目值进行组合。在这种情况下，组合的数目极大，并且难以利用相关技术考虑所有各种组合来执行分析。因此，在相关技术中，难以将日志数据分析的结果用于提高计划和实现措施的效率。

因此，本发明的实施方式的一个方面的目的是提供一种提取程序、一种提取方法和一种提取设备以提高措施的计划和实现效率。

发明内容

根据实施方式的方面，计算机可读记录介质中存储有提取程序，该提取程序使计算机执行包括以下操作的处理：生成与数据中包括的多个项目值相关的条件的多个组合；通过使用从所述多个项目值估计响应变量的机器学习模型计算指示指定的响应变量和所述多个组合中的每个组合之间的共现程度的索引值，所述机器学习模型通过使用所述数据来训练；以及基于条件和索引值中的任何一个从多个组合中提取特定组合。

附图说明

图1示出了根据实施方式的提取设备的功能配置的示例；

图2示出了日志数据的示例；

图3示出了假设信息的示例；

图4示出了变量信息的示例；

图5是变量与数据之间的关系的图示；

图6是假设的生成的图示；

图7是假设的生成的图示；

图8是假设的生成的图示；

图9是生成的假设的示例的图示；

图10是通过逻辑回归计算重要度的图示；

图11是示出提取处理的流程的流程图；以及

图12是硬件配置示例的图示。

具体实施方式

将参照附图说明优选实施方式。注意，实施方式不旨在限制本发明。此外，可以在不引起矛盾的范围内组合实施方式。

功能配置

将使用图1描述根据实施方式的提取设备的功能配置。图1示出了根据实施方式的提取设备的功能配置的示例。如图1所示，提取设备10包括通信单元11、输入单元12、输出单元13、存储单元14和控制单元15。

通信单元11是用于与其他设备执行数据通信的接口。例如，通信单元11是网络接口卡(NIC)，并且通过因特网执行数据通信。

输入单元12是使用户输入信息的设备。例如，输入单元12是鼠标和键盘。此外，输出单元13是显示画面的显示器等。此外，输入单元12和输出单元13可以是触摸面板显示器。

存储单元14是存储数据、由控制单元15执行的程序等的存储设备的示例，并且是例如硬盘或存储器。存储单元14存储日志数据141、假设信息142和变量信息143。

日志数据141是具有响应变量和关于该响应变量的多个解释变量作为项目值的数据。图2示出了日志数据的示例。如图2所示，日志数据141具有日期作为关键字。日志数据141因此以日期作为关键字，并且可以是其数据随着时间经过而增加的时序数据。

在实施方式中，日志数据141是其中在预定日期收集的关于放置在网络上的广告的信息与对该信息采取的措施彼此关联的数据。

日志数据141有时用作训练数据来训练s模型以得出有效的措施。因此，例如，日志数据141中的措施可以是熟练的计划者所计划的措施。此外，日志数据141可以是已成功实现措施的情况的数据的集合。

如图2所示，日志数据141包括“点击计数”、“日期”、“时间段”、“先前事件”和“剩余预算”作为解释变量。此外，日志数据141包括“广告价格”作为响应变量。响应变量“广告价格”指示是提高广告价格、保持广告价格还是降低广告价格。

例如，在图2的第一行中，指示在2019年6月5日10:00收集了如下信息，该信息指示在假日下午一个广告的点击次数是100次，而广告的剩余预算是10,000日元。此外，在图2中的第一行中，指示针对广告已经采取了降低广告价格的措施。

假设信息142是如下信息：其中响应变量和与对应于响应变量的一个或更多个解释变量相关的条件的组合与重要度彼此相关联。本文中的重要度是索引值的示例。图3示出了假设信息的示例。在以下描述中，假设信息142中的组合可以被称为假设。此外，后面将描述重要度的计算方法。

例如，在图3的第一行中，指示“当剩余预算可用∧点击计数≥100∧日期＝假日时提高广告价格”的假设的重要度为0.85。

此外，在不区分解释变量和响应变量的情况下，假设可以是与多个项目值相关的条件的组合。在这种情况下，图3第一行中的假设可以被表示为“剩余预算可用∧点击计数≥100∧日期＝假日∧提高广告价格”。

变量信息143指示每个变量的重要度。图4示出了变量信息的示例。例如，在图4的第一行中，指示变量“剩余预算”的重要度为0.91。每个变量的重要度可以是通过与假设的重要度相同的方法计算的重要度，或者可以是通过不同于假设的重要度的方法计算的重要度。例如，每个变量的重要度可以是通过已知方法(例如逻辑回归)计算的重要度。

控制单元15是通过以下方式实现的：由中央处理单元(CPU)、微处理单元(MPU)、图形处理单元(GPU)等，使用随机存取存储器(RAM)作为工作区域来执行存储在内部存储设备中的程序。此外，控制单元15可以由诸如专用集成电路(ASIC)和现场可编程门阵列(FPGA)的集成电路来实现。控制单元15包括生成单元151、计算单元152和提取单元153。

生成单元151生成与数据中包括的多个项目值相关的条件的组合，即，假设。生成单元151可以根据包括解释变量和响应变量的数据(例如日志数据141)生成假设。在这种情况下，生成单元151生成响应变量和与对应于该响应变量的一个或更多个解释变量相关的条件的组合作为假设。

此外，生成单元151生成与随时间经过而增加的数据中包括的多个项目值相关的条件的组合。例如，生成单元151可以根据时序数据生成组合，随时间经过数据被添加到该时序数据(例如日志数据141)中。

将通过使用图5至图9来描述通过生成单元151进行生成的方法。图5是变量与数据之间的关系的图示。如图5所示，与日志数据141中的每个解释变量相关的条件包括A、B、C和D四个条件。此外，A的否定被表示为

(^-在A的正上方)。例如，当A指示条件“剩余预算可用”时，

指示条件“剩余预算不可用”。此外，例如，当B指示条件“点击计数≥100”时，B指示“点击计数＜100”。

此外，P1、P2、P3、P4、N1、N2、N3是日志数据141中包括的数据，并且表示其中响应变量和解释变量的条件彼此相关联的数据。在该示例中，P_i表示指示响应变量的值为“提高”的数据，并且P_j表示指示响应变量的值为“降低”的数据(其中i和j为任意正整数)。如图2所示，除了“提高”和“降低”之外，响应变量的值中还包括“保持”，但是在此处中说明，假定响应变量的值具有“提高”和“降低”两种。此外，在以下描述中，“提高”可以被表示为+，并且“降低”可以被表示为-。

首先，如图6所示，针对包括在P1、P2、P3、P4、N1、N2、N3中的每个解释变量，生成单元151全面列举值的可能组合。图6是假设的生成的图示。本文可能的值是*(不使用)、1(使用)和0(使用条件否定)。

生成单元151可以将要组合的解释变量的数目限制成等于或小于预定数目的数目。例如，在A至D的四个解释变量的情况下，生成单元151可以将要组合的解释变量的数目限制成两个或更少。在该情况下，生成单元151将要*(不使用)的四个解释变量中的至少两个与*(不使用)组合。当解释变量的数目增加(例如，1000个变量)时，组合的数目急剧增加。因此，通过限制数目，可以预先抑制要列举的组合的数目的增加。

生成单元151将列举的组合分类为P1、P2、P3、P4、N1、N2、N3中的任意组合，并且确定它是否是满足特定条件的有效组合。例如，特定条件是解释变量的条件与日志数据141中的数据之间的一致频率等于或高于预定值。在该情况下，生成单元151可以生成条件中与数据一致的频率等于或高于预定值的条件的组合。

在图6的示例中，列举了其中四个解释变量A至D全部为*的C01、为

的组合C04、为CD(C和D为1，并且A和B为*)的组合C09等。

如图6所示，生成单元151基于P1、P2、P3、P4、N1、N2、N3的解释变量列举与组合C01至C09中的每一个相对应的数据。例如，生成单元151将P2、N1、N2列举为与组合C02相对应的数据。在该情况下，针对组合CO2列举的数据以混合方式包括响应变量为+(P2)的数据和响应变量为-(N1、N2)的数据。因此，组合C02不太可能是正确解释响应变量是+还是-的假设。因此，生成单元151不采用组合CO2作为有效假设。

另一方面，生成单元151将N1、N2列举为与组合C08相对应的数据。在该情况下，针对组合C08列举的数据仅包括响应变量为-(N1，N2)的数据。因此，生成单元151采用组合C08作为有效假设。

此外，即使当以混合方式包括不同的响应变量时，生成单元151也可以根据混合变量的比率采用该组合作为有效假设。例如，当对应于一种组合的数据的响应变量的80％或更多是+时，生成单元151可以采用该组合作为有效假设。

此外，生成单元151从假设中排除与一种组合的特例相对应的组合。例如，图6中的组合C05和C06是组合C04的特例。这是因为组合C05和C06仅是将字面量(literal)添加到组合C04中的组合。

生成单元151采用图7所示的组合作为假设。也就是说，生成单元151采用组合C01、C02、C03、C04a、C07、C08和C09作为有效假设。注意，组合C04a是在满足

的组合中省略了C04的特例的组合。

图8是假设的生成的图示。图8以卡诺图示出了图5和图6的内容。如图8所示，生成单元151检查有效组合，同时按照A的组合(B、C、D是*(不使用))(S31)、

的组合(B、C、D是*(不使用))(S32)、...(S31至S35、...)的顺序改变组合。

响应变量为+(P1、P3、P4)的数据对应于S33处的

的组合。也就是说，在S33处，被分类为+(P1、P3、P4)类别的数据的数目或比率等于或大于预定值。因此，生成单元151确定在S33处的

的组合作为被分类为+类别的有效组合(假设)。注意，在以下处理中排除了将字面量添加到

的组合。

接下来，生成单元151在检查其中三个解释变量是*(不使用)的所有组合之后开始检查其中两个解释变量是*(不使用)的组合(S34)。响应变量为+(P1，P2)的训练数据对应于S35处的

的组合。也就是说，在S35处，被分类为+类别的训练数据(P1，P2)的数目或比率等于或高于预定值。因此，生成单元151确定在S35处的

的组合是被分类为+类别的有效组合(假设)。

图9是生成的假设的示例的图示。如图9所示，生成单元151从P1、P2、P3、P4、N1、N2、N3生成分类结果为+或-的假设H1至H11，并且将所生成的假设作为假设信息142存储在存储单元14中。

假设H1至H11中的每一个都是满足正确解释每个数据的分类结果为+或-的要求的独立的假设。因此，存在彼此矛盾的假设的情况，如假设H2和假设H6。

计算单元152通过使用已经学习数据的模型来计算有效度，该有效度是每个组合的数据的共现程度。例如，计算单元152通过逻辑回归计算每个假设的重要度。图10是通过逻辑回归计算重要度的图示。计算单元152将日志数据141应用于图10所示的模型表达式，以计算最佳系数β₁至β₁₁。计算单元152利用所计算的系数来更新假设信息142的重要度。

此时，每个假设的重要度是随着日志数据141中的共现增加而增加的索引值。此外，该重要度可以认为是当满足每个解释变量的条件时响应变量的似然性。因此，计算单元152计算满足响应变量的条件的似然性作为重要度。

提取单元153基于条件或重要度从组合中提取特定组合。也就是说，提取单元153基于重要度从假设信息142中提取被认为非常重要的假设。例如，提取单元153从组合中提取其重要度等于或高于预定值的组合。

此外，由提取单元153提取的假设以及每个假设的重要度由用作显示设备(例如显示器)的输出单元以列表形式进行显示。此时，输出单元13以突出的方式显示与单独不重要但是当与另一变量组合时变得重要的变量相关的条件。

当作为第一条件和另一条件的组合的第一组合的重要度高于第一标准并且仅第一条件的重要度等于或低于第二标准时，输出单元13与其他组合相比以突出的方式显示第一组合。

例如，假定第一标准是“假设的重要度为0.5或更高”。此外，假定第二标准是“变量的重要度为0.1或更低”。在该情况下，根据图3，假设“当剩余预算不可用∧时间段＝上午时，降低价格”的重要度为0.78，并且高于第一标准。此外，根据图4，变量“时间段”的重要度为0.03，并且等于或低于第二标准。因此，例如，输出单元13通过改变字体或样式以及通过标记等以突出的方式显示“时间段＝上午”的部分。

将使用图11描述由提取设备10执行的处理的流程。图11是示出提取处理的流程的流程图。如图11所示，首先，提取设备10列举响应变量和预定数目的解释变量的条件的组合，并且生成假设(步骤S11)。例如，提取设备10从假设中排除不满足特定条件的组合或者是一种组合的特例的组合。

接下来，提取设备计算每个假设的重要度(步骤S12)。然后，提取设备10以列表形式显示假设和重要度，并且以突出的方式显示其重要度单独等于或小于预定值的变量的条件(步骤S13)。

效果

如上所述，提取设备10生成与数据中包括的多个项目值相关的条件的组合。提取设备10通过使用已经学习数据的模型来计算重要度，该重要度是每个组合的数据的共现程度。提取设备10基于条件或重要度从组合中提取特定组合。如所述的，提取设备10可以针对组合了多个项目值的每个条件执行重要度评估。因此，根据实施方式，可以评估由项目值的组合生成的大量假设，并且可以提高措施的计划和实现效率。

提取设备10生成响应变量和与对应于该响应变量的一个或更多个解释变量相关的条件的组合。提取设备10针对每个组合计算响应变量满足条件的似然性作为重要度。因此，根据实施方式，使得能够基于从解释变量评估响应变量的模型来评估假设。

提取设备10从组合中提取重要度等于或高于预定值的组合。因此，提取设备10全面计算各个组合的重要度，并且然后提取被认为重要的组合。因此，提取设备10可以提供对于措施计划特别重要的假设。

当作为第一条件和另一条件的组合的第一组合的重要度高于第一标准并且仅第一条件的重要度等于或低于第二标准时，提取设备10通过与其他组合相比突出第一组合来显示由提取单元提取的组合的列表。包含在单独考虑时其重要度不高的变量的假设是人类特别难以发现的。根据实施方式，可以呈现这样的假设，同时指示其难以发现。

提取设备10生成条件中与数据匹配的频率等于或高于预定值的条件的组合。因此，提取设备10预先排除了被认为不重要的条件，并且因此可以提高计算效率。

提取设备10生成与随时间经过而增加的数据中包括的多个项目值相关的条件的组合。因此，当数据的数目仍然很少时，提取设备10可以执行假设的提取。

在以上实施方式中，已经描述了响应变量指示是提高、保持还是降低广告价格的情况。另一方面，响应变量可以指示每个广告中是否发生了转换(CV，conversion)。在该情况下，与图6等中的示例类似，响应变量可以以二进制值表示。

系统

除非另有说明，否则可以任意地改变上述文档和附图中描述的处理过程、控制过程、特定名称以及包括各种数据和参数的信息。此外，实施方式中描述的具体示例、分布、数值等仅是示例，并且可以任意改变。

此外，图示的各个设备的各个部件是功能概念，并且不一定要求如图所示物理地进行配置。也就是说，各个设备的分布和集成的具体形式不限于所示出的形式，而是其全部或者部分可以被配置成根据各种负荷和使用状况等，在功能上或者在物理上分布或集成在任意单元中。此外，关于由各个设备执行的各个处理功能，其全部或任意部分可以由CPU和由CPU分析并执行的程序来实现，或者可以由有线逻辑来实现为硬件。

硬件

图12是硬件配置示例的图示。如图12所示，提取设备10包括通信接口10a、硬盘驱动器(HDD)10b、存储器10c以及处理器10d。此外，图12所示的各个部分通过总线等彼此连接。

通信接口10a是网络接口卡等，并且执行与其他服务器的通信。HDD 10b存储程序和数据库(DB)以激活图1所示的功能。

处理器10d通过从HDD 10b等读取用于执行与图1所示的各个处理单元类似的处理的程序，并且在存储器10c上展开该程序，来执行用于实现图1等所描述的各个功能的处理。也就是说，该处理实现与提取设备10中包括的各个处理单元相似的功能。具体地，处理器10d从HDD 10b读取具有类似于生成单元151、计算单元152和提取单元153的功能的程序。然后，处理器10d执行用于实现类似于生成单元151、计算单元152、提取单元153等的处理。处理器10d是硬件电路，例如CPU、MPU和ASIC。

如所述的，提取设备10用作信息处理设备，该信息处理设备通过读取并执行程序来执行分类方法。此外，通过利用介质读取器设备从记录介质读取上述程序并且通过执行所读取的程序，提取设备10可以实现与上述实施方式相同的功能。其他实施方式中的程序不限于由提取设备10执行。例如，当程序由另一计算机或服务器执行时，或者以合作方式通过另一计算机和服务器执行该程序时，也可以类似地应用本发明。

可以通过诸如因特网的网络来分发该程序。此外，该程序可以记录在计算机可读记录介质上，例如硬盘、软盘(FD)、光盘只读存储器(CD-ROM)、磁光盘(MO)和数字多功能磁盘(DVD)，并且可以由计算机从记录介质中读取来执行。

在一个方面中，有可能提高计划和实现措施的效率。

Claims

1.一种计算机可读记录介质，所述计算机可读记录介质中存储有提取程序，所述提取程序使计算机执行包括以下操作的处理：

生成与数据中包括的多个项目值相关的条件的多个组合；

通过使用从所述多个项目值估计响应变量的机器学习模型计算指示指定的响应变量和所述多个组合中的每个组合之间的共现程度的索引值，所述机器学习模型通过使用所述数据来训练；以及

基于所述条件和所述索引值中的任何一个从所述多个组合中提取特定组合。

2.根据权利要求1所述的计算机可读记录介质，其中，

所述生成包括生成响应变量和与对应于所述响应变量的一个或更多个解释变量相关的条件的组合，以及

所述计算包括针对每个组合计算满足所述条件的所述响应变量的似然性作为所述索引值。

3.根据权利要求1或2所述的计算机可读记录介质，其中，所述提取包括从所述组合中提取所述索引值等于或大于预定值的组合。

4.根据权利要求1或2所述的计算机可读记录介质，其中，所述处理还包括：显示在所述提取处提取的组合的列表，同时在所述提取处提取的所述组合中当作为第一条件和另一条件的组合的第一组合的索引值高于第一标准并且仅所述第一条件的索引值等于或低于第二标准时与其他组合相比突出所述第一组合。

5.根据权利要求1或2所述的计算机可读记录介质，其中，所述生成包括生成所述条件中与所述数据匹配的频率等于或高于预定值的条件的组合。

6.根据权利要求1或2所述的计算机可读记录介质，其中，所述生成包括生成与随时间经过而增加的数据中包括的多个项目值相关的条件的组合。

7.一种提取方法，包括：

生成与数据中包括的多个项目值相关的条件的多个组合；

8.一种提取设备，包括：

生成单元，其生成与数据中包括的多个项目值相关的条件的多个组合；

计算单元，其通过使用从所述多个项目值估计响应变量的机器学习模型计算指示指定的响应变量和所述多个组合中的每个组合之间的共现程度的索引值，所述机器学习模型通过使用所述数据来训练；以及

提取单元，其基于所述条件和所述索引值中的任何一个从所述多个组合中提取特定组合。