CN113950692A - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN113950692A
CN113950692A CN202080041100.2A CN202080041100A CN113950692A CN 113950692 A CN113950692 A CN 113950692A CN 202080041100 A CN202080041100 A CN 202080041100A CN 113950692 A CN113950692 A CN 113950692A
Authority
CN
China
Prior art keywords
data
prediction
past
user
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202080041100.2A
Other languages
English (en)
Inventor
宫原正典
高松慎吾
饭田纮士
中田健人
堀口裕士
东出元辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN113950692A publication Critical patent/CN113950692A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

根据本公开的信息处理设备(100)包括:控制单元(130),其获取包括过去预测对象和用于对预测对象进行预测分析的分析数据集的过去事例;获取要用于预测分析的数据;在通过使用数据执行预测分析的情况下根据数据和过去事例提取预测对象,并且根据数据构建要用于对提取的预测对象进行预测分析的数据集。

Description

信息处理设备、信息处理方法和程序
技术领域
本公开涉及信息处理设备、信息处理方法和程序。
背景技术
近年来,在商业中积累了各种数据,并且在商业中利用积累的数据的重要性已经被很长时间地认识到。作为在商业中利用数据的方法,例如,使用利用机器学习从过去数据预测未来结果的预测分析技术的方法是已知的(参见例如专利文献1)。
引文列表
专利文献
专利文献1:JP 2017-16321 A
发明内容
技术问题
然而,在根据现有技术的上述技术中,预测的内容是预先确定的。如上所述,根据现有技术,用户需要确定预测什么,并且存在改进的空间在于用户更容易分析信息。
因此,本公开提出了一种使用户能够更容易地分析信息的信息处理设备、信息处理方法和程序。
问题的解决方案
根据本公开的信息处理设备包括:控制单元,获取包括过去预测对象和用于对该预测对象进行预测分析的分析数据集的过去事例;获取用于预测分析的数据;在通过使用该数据执行预测分析的情况下根据该数据和过去事例提取预测对象;并根据该数据构造将用于对提取的预测对象进行预测分析的数据集。
附图说明
图1是用于描述将预测分析引入商业的示图。
图2是示意性地示出根据本公开的实施例的分析处理的示图。
图3是用于描述根据本公开的实施例的过去事例的示例的示图。
图4是示出根据本公开的实施例的用户数据的示例的示图。
图5是示出呈现给用户的图像的示例的示图。
图6是示出根据本公开的实施例的信息处理系统的配置的示例的框图。
图7是示出根据本公开的实施例的信息处理设备的配置的示例的示图。
图8是示出根据本公开的实施例的过去事例存储单元的示例的示图。
图9是示出用于指定用户数据的获取源的图像的示例的示图。
图10是示出指示预测处理时间的计算情况的图像的示例的示图。
图11是示出指示预测模型的学习情况的图像的示例的示图。
图12是示出指示分析处理完成的图像的示例的示图。
图13是示出指示分析处理结果的图像的示例的示图。
图14是示出指示分析处理结果的图像的另一示例的示图(1)。
图15是示出指示分析处理结果的图像的另一示例的示图(2)。
图16是示出根据本公开的实施例的信息处理的过程的流程图。
图17是示出实现信息处理设备或终端设备的功能的计算机的示例的硬件配置图。
具体实施方式
在下文中,将参考附图详细描述本公开的实施例。注意,在以下每个实施例中,相同的附图标记表示相同的部分,并且将省略重复的描述。
此外,将按以下顺序描述本公开。
1.实施例
1-1.背景
1-2.根据实施例的信息处理的概述
1-3.根据实施例的信息处理系统的配置
1-4.根据实施例的信息处理设备的配置
1-5.根据实施例的信息处理过程
2.其他配置示例
3.硬件配置
(1.实施例)
[1-1.背景]
首先,在详细描述本公开的实施例之前,将描述用于在商业中利用预测分析的工作流程作为本公开的实施例的背景。
当在商业中利用预测分析时,用户根据累积的数据来确定要执行什么预测分析。此外,用户通过执行所确定的预测分析的实证实验来评价通过引入预测分析而获得的商业效果。通过执行实证实验并评价通过如上所述的预测分析获得的商业效果,用户可以将高效的预测分析引入商业,并且可以在商业中利用预测分析。
在商业中实际利用预测分析的工作流程的示例包括图1所示的流程。图1是用于描述将预测分析引入商业的示图。
具体地,在图1所示的示例中,首先,用户执行关于在累积数据中要使用哪些数据以及预测什么的问题设定(步骤S1)。问题设定的示例包括“通过使用诸如客户的年收入和总资产的数据来预测是否将发生贷款损失”、“通过使用诸如客户的过去销售和年龄范围的数据来预测未来销售”等。如上所述,适当的问题设定根据商业领域和用户而变化。因此,例如,用户根据他/她自己的知识或经验来执行问题设定。
接下来,用户根据来自累积数据的问题设定来构建数据集(步骤S2)。用户通过例如从累积的数据中提取用于预测分析的数据或根据预测分析解释或结构化数据来构建数据集。数据集的构建还可能需要例如用户的知识和经验。
随后,用户根据问题设定和数据集生成预测模型(步骤S3)。使用一般机器学习生成预测模型。在这种情况下,用户可以通过使用例如现有的信息处理设备等来生成预测模型。
用户评价所生成的预测模型的准确度(步骤S4)。使用诸如曲线下的面积(AUC)或准确度的一般评价指标来评价预测模型的准确度。在这种情况下,用户可以通过使用例如现有的信息处理设备等来评价预测模型的准确度。
接下来,已经执行预测模型的准确度的评价的用户使用所生成的预测模型来执行实证实验(步骤S5)。例如,用户收集具有有限范围(诸如有限时段或区域)的数据,并且通过使用所生成的预测模型对数据执行预测分析。用户在试用的基础上将预测分析引入商业(business,业务,交易)。例如,用户根据分析结果购买产品或改变商业伙伴。
随后,用户测量实证实验的效果(步骤S6)。用户通过比较实验前后的数据来测量效果,例如,将在实验引入预测分析的情况下的销售量与引入之前的销售量进行比较。此后,用户根据实证实验的结果和测量的效果将预测分析引入到实际业务中。
如上所述,在将预测分析引入实际业务的情况下,在问题设定和数据集构建中需要用户的知识和经验,这可能成为引入的瓶颈。此外,由于实证实验是昂贵的,因此难以进行实证实验,除非确认通过将预测分析引入商业中可以获得一定水平的效果。如上所述,在进行实证实验时,障碍也倾向于较高。
[1-2.根据实施例的信息处理的概要]
本公开集中于这一点,并且根据本公开,信息处理设备执行预测分析,包括提取问题设定和构建数据集。下面将参考图2至图4描述由信息处理设备执行的分析处理的概要。
图2是示意性地示出根据本公开的实施例的分析处理的示图。图3是用于描述根据本公开的实施例的过去事例的示例的示图。图4是示出根据本公开的实施例的用户数据的示例的示图。
根据本公开的分析处理由图2所示的信息处理设备100执行。信息处理设备100是执行根据本公开的信息处理的设备,并且例如是服务器设备、个人计算机(PC)等。
在图2的示例中,将描述参考过去事例执行使用用户数据的预测分析的情况。这里,用户数据是例如由用户收集的数据。用户数据包括例如各种数据,诸如客户信息和产品信息。用户例如使用用户数据对下一个月的销售执行预测分析。
通常,在使用用户数据执行预测分析的情况下,用户他/她自己必须执行关于“要使用哪些数据以及预测什么”的问题设定。可能需要用户的知识和经验来执行预测分析的问题设定,并且因此存在用户负担的可能性。因此,在根据实施例的分析处理中,参考过去的事例自动执行预测分析的问题设定,以减少用户的负担。
首先,信息处理设备100获取过去的事例(步骤S11)。这里,过去的事例包括过去执行的预测分析的问题设定。具体而言,过去的事例包括过去已经预测的预测对象(以下,也称为过去对象)和过去对象的预测分析所使用的分析数据集(以下,也称为过去数据集),即过去预测所使用的数据。
这里,将参考图3描述过去事例的示例。如图3所示,过去事例包括例如过去数据集12。过去数据集12包括例如“客户ID”、“贷款金额”、“贷款类型”、“服务年限”和“贷款损失”。此外,在图3中,用阴影线表示“贷款损失”是过去的对象。如上所述,过去事例包括过去数据集12和过去对象(这里是“贷款损失”)。
回到图2,信息处理设备100获取用户数据(步骤S12)。这里,将参考图4描述用户数据的示例。用户数据是由用户生成和收集的数据,并且是用于生成用于预测分析等的模型的数据。图4中所示的用户数据22包括例如“客户ID”、“贷款金额”、“贷款类型”、“服务年限”、“年收入”、“总账户余额”和“贷款损失”。
回到图2,信息处理设备100根据所获取的过去事例和用户数据22提取预测对象(步骤S13)。例如,信息处理设备100从过去的事例中选择与用户相关的过去对象。信息处理设备100通过使用根据关于用户的信息(诸如用户所属的部门和用户过去执行的预测分析)的推荐系统来选择过去对象。这里,假设信息处理设备100从过去事例中选择图3所示的过去数据集12的“贷款损失”作为过去对象。
信息处理设备100从用户数据22中提取与所选择的过去对象相同的项目,作为此次执行预测分析所针对的预测对象(以下,也称为提取对象)。在图3的示例中,由信息处理设备100选择的过去对象是“贷款损失”。因此,信息处理设备100从图4所示的用户数据22中提取“贷款损失”作为预测对象。在图4中,作为提取对象的“贷款损失”由阴影线表示。注意,稍后将参考图7描述对提取对象进行提取的方法的细节。
返回到图2,信息处理设备100根据用户数据22构造用于对提取对象进行预测分析的数据集(以下,也称为构造的数据集)(步骤S14)。例如,信息处理设备100提取与提取对象相关的项目作为构造的数据集。例如,信息处理设备100从图4所示的用户数据22中提取“客户ID”、“贷款金额”、“贷款类型”、“服务年限”和“贷款损失”,以生成构造的数据集。
注意,这里,信息处理设备100构造包括图4所示的用户数据22的一部分的数据集,但是本公开不限于此。还可以构造包括所有用户数据22的数据集。注意,稍后将参考图7描述构造数据集的方法的细节。
返回到图2,信息处理设备100根据提取对象和构造的数据集来学习预测模型(步骤S15)。信息处理设备100将构造的数据集的数据转换为特征向量。信息处理设备100通过根据特征向量和提取对象利用机器学习解决分类或回归问题来生成预测模型。
接下来,信息处理设备100通过评价所生成的预测模型来评价预测分析的准确度(步骤S16)。信息处理设备100通过使用预测模型和构造的数据集来评价预测模型。注意,在分类分析的情况下根据诸如AUC或准确度的分析方法选择评价指标,或者在回归分析的情况下根据平均绝对误差(MAE)选择评价指标。
信息处理设备100向用户呈现包括提取对象和评价结果的提取信息(步骤S17)。这里,将参考图5描述向用户呈现提取信息的示例。图5是示出呈现给用户的图像的示例的示图。
如图5所示,信息处理设备100向用户呈现问题设定和评价结果的组合。在图5中,显示了在信息处理设备100提取多个问题设定的情况下的提取结果。在这种情况下,信息处理设备100在图像IM1中显示问题设定和评价结果的组合的列表。
结果,用户可以参考例如评价结果来确定是否利用由信息处理设备100提供的问题设定来执行预测分析。
注意,由信息处理设备100呈现给用户的内容不限于问题设定和评价结果。信息处理设备100可以向用户呈现构造的数据集、提取对象或评价结果中的至少一个。或者,信息处理设备100可以在用户选择问题设定的情况下呈现参考信息,例如通过执行预测分析获得的效果。稍后将参考图13描述由信息处理设备100显示提取结果的方法的细节。
如上所述,由于信息处理设备100提取问题设定,所以用户不需要执行问题设定,并且可以更容易地执行预测分析。此外,当信息处理设备100执行预测分析的准确度的评价时,用户可以根据准确度评价选择要执行的预测分析,并且可以更容易地以高准确度执行预测分析。
[1-3.根据实施例的信息处理系统的配置]
将描述图6所示的信息处理系统1。图6是示出根据本公开的实施例的信息处理系统1的配置的示例的框图。如图6所示,信息处理系统1包括终端设备10和信息处理设备100。终端设备10和信息处理设备100经由预定通信网络(网络N)以有线或无线方式可通信地连接。注意,图6所示的信息处理系统1可包括多个终端设备10和多个信息处理设备100。
终端设备10是用户使用的信息处理设备。终端设备10用于提供与预测分析相关的服务。终端设备10可以是任何设备,只要可以实现实施例中的处理即可。终端设备10可以是任何设备,只要它向用户提供与预测分析相关的服务并且包括显示信息的显示器即可。此外,终端设备10可以是例如诸如笔记本PC、台式PC、平板终端、智能电话、移动电话或个人数字助理(PDA)的设备。
信息处理设备100用于向用户提供与预测分析相关的服务。信息处理设备100是执行控制以向用户显示关于根据用户数据的问题设定和预测分析评价结果的信息的信息处理设备。信息处理设备100生成指示关于问题设定和预测分析评价结果的信息的图像,并将该图像提供给终端设备10。
信息处理设备100控制在终端设备10中执行的显示。信息处理设备100是提供要在终端设备10上显示的信息的服务器设备。注意,信息处理设备100可以向终端设备10提供显示要提供的图像等的应用。信息处理设备100通过向终端设备10发送包括控制信息的图像来控制在终端设备10中执行的显示。这里,利用例如JavaScript(注册商标)、CSS等脚本语言来描述控制信息。注意,从信息处理设备100提供给终端设备10的应用本身可被视为控制信息。
[1-4.根据实施例的信息处理设备的配置]
接下来,将描述信息处理设备100的配置,信息处理设备100是执行根据实施例的分析处理的信息处理设备的示例。图7是示出根据本公开的实施例的信息处理设备100的配置的示例的示图。
如图7所示,信息处理设备100包括通信单元110、存储单元120和控制单元130。注意,信息处理设备100可以包括从信息处理设备100的管理员等接收各种操作的输入单元(例如,键盘、鼠标等),以及用于显示各种类型的信息的显示单元(例如,液晶显示器等)。
(通信单元)
通信单元110由例如网络接口卡(NIC)等实现。然后,通信单元110以有线或无线方式连接到网络N(参见图6),并且向诸如终端设备10或外部服务器的另一信息处理设备发送信息和从诸如终端设备10或外部服务器的另一信息处理设备接收信息。
(存储单元)
存储单元120由例如半导体存储器元件(诸如随机存取存储器(RAM)或闪存)或存储设备(诸如硬盘或光盘)来实现。如图7所示,根据实施例的存储单元120包括过去事例存储单元121、用户数据存储单元122和用户简档存储单元123。注意,尽管未示出,但是存储单元120可存储各种类型的信息,诸如用作要提供给终端设备10的图像的基础的图像。
(过去事例存储单元)
根据实施例的过去事例存储单元121存储过去事例。过去事例包括关于过去执行的预测分析的信息。过去事例存储单元121存储例如当预测分析在过去被引入到商业中时的事例。注意,过去的事例可以从外部服务器等适当地获取,而无需被信息处理设备100保持。
图8示出了根据实施例的过去事例存储单元121的示例。图8是示出根据本公开的实施例的过去的事例存储单元121的示例的示图。在图8所示的示例中,过去事例存储单元121存储关于每种事例的“问题设定”、“数据集”、“收集成本”、“预测模型”、“模型评价结果”、“实证实验”、“商业效果”等的信息。过去事例存储单元121存储多个过去事例,诸如过去事例A、过去事例B等。
“问题设定”是指示在预测分析中使用什么数据和预测什么的信息。“问题设定”包括例如指示“使用了什么数据”的多个“使用项目”(解释变量)和指示“预测了什么”的一个“预测对象”(客观变量)。例如,在图3所示的示例中,由阴影线指示的项目是预测对象,并且剩余的项目是使用的项目。
描述返回到图8。“数据集”是用于学习预测模型的过去数据集。例如,“数据集”是包括“输入数据”和“正确数据”的数据集。例如,图3所示的过去数据集12对应于这样的“数据集”。
图8所示的“收集成本”是收集预测分析中使用的数据所需的成本。“收集成本”包括例如收集每个项目的数据所需的周期和成本。
“预测模型”是使用存储的“问题设定”和“数据集”生成的过去预测模型(在下文中,也称为过去模型)。例如,“预测模型”是通过机器学习解决分类或回归问题而生成的模型。
“模型评价结果”是对所存储的“预测模型”的准确度进行评价的结果。“模型评价结果”包括使用诸如AUC或准确度的评价指标的评价结果。
“实证实验”是关于针对将预测分析引入商业而执行的实证实验的内容和结果的信息。“实证实验”包括例如诸如实验的周期和范围、用于实验的数据、通过实验获得的效果以及实验所需的成本的信息。
“商业效果”是关于在将预测分析引入商业之后获得的商业效果的信息。“商业效果”包括例如诸如利润量(诸如增加的销售量)和降低的成本量(诸如降低的人工成本)的信息。
如上所述,在图8所示的示例中,过去事例存储单元121针对多个过去事例中的每一个存储在过去将预测分析引入业务的情况下的各种类型的信息。注意,上述过去事例是示例,并且只要存储“问题设定”和“数据集”即可,过去事例存储单元121不必存储诸如“收集成本”、“模型评价结果”和“实证实验”的一些信息,或者可以存储除上述信息之外的信息。
(用户数据存储单元)
返回到图7,将描述用户数据存储单元122。用户数据是由用户创建或收集的各种数据。作为用户数据的数据格式,例如,假设如下所述的各种格式。
·文本-单词、句子、超文本标记语言(HTML)等。
·媒体-RGB图像、深度图像、向量图像、运动图像、声音等。
·复合文档-办公文档、PDF、网页、电子邮件等。
·传感器数据-当前位置、加速度、心率等。
·应用程序数据-启动日志、进程中的文件信息等。
·数据库-关系数据库、键值存储等。
注意,用户数据可以适当地从终端设备10、外部服务器等获取,而无需被信息处理设备100保持。此外,用户数据可以是从相机、传感器等直接获取的原始数据,或者可以是通过对原始数据执行诸如特征量提取的处理而获得的处理数据。或者,用户数据可以包括作为通过对原始数据或处理后的数据执行识别处理而获得的识别结果的元数据。
(用户简档存储单元)
接下来,将描述用户简档存储单元123。用户简档存储单元123存储关于用户的简档信息。简档信息包括例如用户信息和用户事例信息。
用户信息是关于用户的信息,并且包括例如用户ID和关于用户所属的公司、部门、行业等的名称的信息。用户信息可以包括与用户感兴趣或关注的那些相关的信息,诸如网站或数据库的搜索历史、网站浏览历史或邮件或办公文档中包括的关键字。
另外,用户事例信息包括关于用户执行的过去预测分析的信息。用户事例信息包括例如关于用户在过去执行的预测分析的信息、关于与用户相关的过去事例的信息等。注意,这样的预测分析可以是由用户他/她自己执行的预测分析,或者可以是由用户所属的部门或公司执行的预测分析。
(控制单元)
控制单元130由例如中央处理单元(CPU)、微处理单元(MPU)等以RAM等作为工作区域执行存储在信息处理设备100中的程序(例如,根据本公开的程序)来实现。此外,控制单元130是控制器,并且由例如诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)的集成电路实现。
如图7所示,控制单元130包括获取单元131、时间预测单元141、解释单元132、提取单元133、学习单元134、评价单元135、预测单元136、收集确定单元137、贡献度计算单元142和显示控制单元138,并且实现或执行下述信息处理的功能和动作。注意,控制单元130的内部结构不限于图7所示的配置,并且控制单元130可以具有其他配置,只要执行稍后描述的信息处理即可。此外,控制单元130中包括的各个处理单元之间的连接关系不限于图7所示的连接关系,并且可以是其他连接关系。
(获取单元)
获取单元131从存储单元120获取各种类型的信息。获取单元131从过去事例存储单元121获取多个过去事例。获取单元131从用户数据存储单元122获取用户数据。获取单元131从用户简档存储单元123获取简档信息。获取单元131可以从外部服务器、终端设备10(代替过去事例存储单元121、用户数据存储单元122和用户简档存储单元123)等获取各种类型的信息。
(时间预测单元)
时间预测单元141预测由控制单元130执行的分析处理所需的时间,该时间从获取单元131开始获取数据到将诸如问题设定提取的处理结果呈现给用户。
时间预测单元141通过使用由获取单元131在预定时间(例如,1秒)内获取的用户数据(在下文中,也称为部分数据)来执行诸如问题设定提取、学习和评价的分析处理。分析处理是由控制单元130的每个单元从获取单元131开始获取数据到将处理结果呈现给用户所执行的处理,并且稍后将描述其细节。
时间预测单元141测量使用部分数据执行的分析处理的处理时间。时间预测单元141根据测量的处理时间来预测分析处理所需的时间(预测的处理时间)。具体而言,时间预测单元141计算预测处理时间(预测处理时间=(测量处理时间)*(用户数据大小/部分数据大小))。
根据用户数据的类型和大小,分析处理可能需要几个小时或更长时间,并且在一些情况下,可能需要几天。因此,用户需要知道分析处理所需的时间。因此,时间预测单元141通过使用部分数据来计算预测处理时间。结果,可以向用户呈现分析处理所需的估计时间。此时,通过将用于计算预测处理时间的数据的大小限制为可以在例如一秒内获取的大小,可以缩短计算预测处理时间所需的时间。
此外,时间预测单元141不是简单地根据用户数据的大小计算预测处理时间,而是通过使用部分数据实际执行分析处理来计算预测处理时间。尽管可以容易地获取用户数据的大小,但是预测分析所需的时间不仅取决于用户数据的大小,而且取决于数据的性质。因此,时间预测单元141可以通过实际执行处理来计算预测处理时间,从而提高对预测的处理时间进行预测的准确度。
注意,这里,时间预测单元141通过使用在预定时间内获取的部分数据来计算预测的处理时间,但是本公开不限于此。例如,时间预测单元141可以通过使用具有预定大小(例如,100行至2000行)的部分数据来计算预测的处理时间。
或者,时间预测单元141可以通过使用预先准备的学习的处理时间预测模型来预测预测的处理时间。在这种情况下,例如,时间预测单元141从部分数据中提取诸如项目的数量(列数)、每个项目的欠缺率、每个项目的数据类型(字符串/数值/日期等)和机器学习的类型(二值分类/多值分类/回归等)的信息。时间预测单元141使用提取的信息通过学习的处理时间预测模型来预测预测的处理时间。
此外,时间预测单元141可以在预定的定时更新预测的处理时间,所述预定的定时诸如当经过特定的时间段或每个单元的处理结束时的定时。时间预测单元141通过使用部分数据来执行在预定定时尚未结束的处理。时间预测单元141通过根据所执行的处理所花费的时间再次计算预测的处理时间来更新预测的处理时间。
注意,用于更新预测处理时间的部分数据可以与更新之前用于计算预测处理时间的部分数据相同,或者可以是在当前更新时再次获取的用户数据。例如,在稍后将描述的解释单元132对所有用户数据执行结构化处理的情况下,可以从已经执行了结构化处理的所有用户数据获取具有预定大小的用户数据,并且可以将其用作部分数据。
(解释单元)
解释单元132分析并结构化由获取单元131从用户数据存储单元122获取的用户数据。首先,将描述由解释单元132执行的数据分析。
如上所述,用户数据具有各种数据格式。解释单元132通过使用例如用于每种类型的数据的识别器(未示出)来分析用户数据。假设识别器存储在例如存储单元120中。
具体地,例如,解释单元132通过使用图像识别器对包括在用户数据中的图像数据执行从图像中检测面部、字符串、一般物体等的识别处理。例如,在图像数据是指示购买产品的收据的图像的情况下,解释单元132从附加到图像的数据中检测用户ID(终端ID)、执行图像捕获的地点、执行图像捕获的时间等。此外,解释单元132从图像中检测字符串,并识别电话号码、公司名称、购买的产品、产品价格、总额、支付方法(现金/信用卡/电子货币/QR码(注册商标)支付等)等。解释单元132将识别结果作为元数据添加到作为原始数据的用户数据。
除了图像数据之外,例如,解释单元132使用语音识别器从包括在用户数据中的语音数据中识别说话者,并将话语内容转换为文本。或者,解释单元132从加速度数据识别用户每时刻的运动动作(步行、自行车、火车等)。另外,解释单元132校正符号变化或使用同义词字典将类似表达添加到文本数据。以这种方式,解释单元132针对每种类型的数据分析用户数据并添加元数据。
在上述示例中,已经描述了解释单元132通过使用一个识别器识别一种数据的情况。然而,例如,解释单元132可以通过使用多个识别器来识别一种数据。例如,在识别语音数据的情况下,解释单元132首先将语音数据转换为文本数据,并将转换的文本数据翻译为多种语言。随后,解释单元132校正所翻译的文本数据中的符号变化或添加类似的表达。如上所述,解释单元132可以通过在多个阶段中使用识别器来识别用户数据。
注意,上述数据识别是示例,并且解释单元132可以根据各种已知技术来识别用户数据。
随后,解释单元132根据分析结果结构化用户数据。解释单元132通过使用模板来结构化添加到用户数据的元数据。模板专门用于预测分析,并且例如,假设存储单元120预先存储多个模板。
一旦输入了添加有元数据的用户数据,则解释单元132通过将数据应用于最合适的模板来执行数据结构化。
例如,假设概念“用户”具有概念“年龄”和“性别”,并且概念“产品”具有概念“价格”。假设“用户”和“产品”具有“购买”的关系,并且概念“购买”具有概念“购买时间”。例如,通过使用具有这种数据结构的模板,解释单元132对作为非结构化数据的元数据进行结构化。
此外,解释单元132可以新添加元数据。当提取问题设定时,使用这里添加的元数据。例如,解释单元132可以根据添加到收据图像的“产品名称”来添加诸如“食品费用”或“杂项生活费用”的更高类别作为元数据。
注意,上述结构化是示例,并且解释单元132可以根据各种已知技术来结构化用户数据。此外,上述模板或更高类别是示例,并且解释单元132可以通过使用专门用于预测分析的各种模板、类别和元数据来结构化用户数据。此外,在已经对存储在用户数据存储单元122中的用户数据进行了结构化的情况下,可以省略由解释单元132执行的处理。
以这种方式,解释单元132分析和结构化用户数据,由此可以减少用户的负担。
(提取单元)
随后,提取单元133根据由解释单元132结构化的用户数据(在下文中,也称为结构化数据)和由获取单元131获取的过去事例来提取预测分析中的问题设定。问题设定包括指示“要使用什么数据项目”的多个“使用项目”(解释变量)和指示“预测什么”的一个“预测对象”(客观变量)。
提取单元133根据过去事例从结构化数据中提取“预测对象”。例如,提取单元133从结构化数据中提取与过去事例中包括的过去对象相同的项目(变量)作为“预测对象”。
此时,提取单元133例如根据简档信息提取被认为与用户相关或用户高度感兴趣的“预测对象”。例如,在用户进行与产品销售相关的业务的情况下,认为“销售”的预测是用户非常感兴趣的。因此,在这种情况下,提取单元133提取“销售”作为预测对象。
具体地,提取单元133通过使用根据例如简档信息的推荐系统从过去事例的过去对象中提取候选。提取单元133将所提取的候选中的也包括在用户数据中的项目设定为问题设定的“预测对象”。推荐系统的示例包括排序学习、根据内容的过滤、协作过滤或其中它们被组合的系统。
注意,提取单元133可以提取多个“预测对象”。例如,在如在排序学习中那样以排序格式提取多个过去对象的情况下,提取单元133从排序的顶部提取预定数量的“预测对象”。如上所述,由于提取单元133提取多个“预测对象”,因此提取单元133可以提取与用户相关的宽范围的“预测对象”。
提取单元133为每个提取的“预测对象”(提取对象)提取多个“使用项目”。提取单元133将与结构化数据中与提取对象相关的项目(变量)设定为“使用项目”(解释变量)。提取单元133可以将甚至与提取对象稍微相关的项目设定为“使用项目”。在这种情况下,信息处理设备100可以提高在提取之后进行处理的预测模型学习中的学习准确度。或者,提取单元133可以按照与提取对象相关的降序将预定数量的项目设定为“使用项目”。在这种情况下,信息处理设备100可以减少预测模型学习中的处理负荷。
提取单元133根据所提取的“使用项目”(以下,也称为所提取的项目)来构造数据集。提取单元133通过从结构化数据中提取与提取的项目相对应的数据来构造数据集。由于提取单元133以这种方式构造数据集,因此用户不必根据问题设定来构造数据集,并且可以减少用户的负担。
如上所述,提取单元133可以提取例如多个问题设定。在这种情况下,提取单元133提取“预测对象”和与“预测对象”对应的多个“使用项目”的多个组合。另外,提取单元133根据提取的问题设定来构造数据集。因此,在提取多个问题设定的情况下,提取单元133构造与每个问题设定相对应的多个数据集。以这种方式,当提取单元133构造数据集时,即使在存在多个问题设定的情况下,用户也不需要构造每个对应的数据集,并且可以减少用户的负担。
(学习单元)
学习单元134根据由提取单元133提取的问题设定和构造的数据集来学习预测模型。在提取单元133提取多个问题设定的情况下,学习单元134学习与多个问题设定中的每一个相对应的预测模型。
学习单元134将构造的数据集分成学习数据和测试数据。学习单元134将学习数据转换为向量。学习单元134通过例如根据特征向量和预测对象利用机器学习解决分类或回归问题来生成预测模型。注意,上述机器学习是示例,并且学习单元134可以根据各种已知技术来学习预测模型。
这里,学习单元134划分构造的数据集,但是这是示例,并且例如,提取单元133可以构造学习数据集和测试数据集中的每一个。
(评价单元)
评价单元135评价由学习单元134生成的预测模型。在学习单元134生成多个预测模型的情况下,评价单元135评价多个预测模型中的每一个。
评价单元135通过使用根据预测模型和测试数据的评价指标来评价预测模型。评价指标是例如二值分类情况下的AUC,多值分类情况下的准确度,以及回归情况下的MAE。注意,上述评价指标是示例,并且评价单元135可以根据各种已知技术来评价预测模型。例如,用户可以指定评价指标。
(预测单元)
预测单元136预测当预测模型被引入到商业中时的商业效果。在学习单元134生成多个预测模型的情况下,预测单元136预测当多个预测模型被引入到商业中时的商业效果(在下文中,也称为预测效果)。
预测单元136从过去事例存储单元121中选择过去事例,在该过去事例中,与提取单元133提取的提取对象相同的项目是过去对象。预测单元136执行预测分析,其中包括在所选择的过去事例中的“商业效果”是新的“预测对象”(在下文中,也称为效果预测对象)。
具体而言,首先,预测单元136将“商业效果”设定为“效果预测对象”。接下来,预测单元136将在过去事例下与“商业效果”相关的项目设定为“使用项目”。注意,例如,预测单元136可以设定包括在过去事例和结构化用户数据(或构造的数据集)两者中的项目中的“使用项目”。
预测单元136通过从过去事例中提取与“使用项目”相对应的数据来构造数据集(在下文中,也称为效果学习数据集)。预测单元136根据效果预测数据集和“效果预测对象”,通过例如利用机器学习求解回归问题来生成预测模型(以下,也称为效果预测模型)。
随后,预测单元136从结构化的用户数据中提取对应于“使用项目”的数据,并构造数据集(下文中,也称为效果预测数据集)。预测单元136根据效果预测数据集和所生成的效果预测模型来预测在将由学习单元134生成的预测模型引入商业的情况下的商业效果。
注意,上述方法是示例,并且预测单元136可以根据各种已知技术来预测商业效果。此外,可以使用提取单元133和学习单元134的一些功能来执行由预测单元136执行的效果预测数据集的构造、效果预测模型的学习等。
(收集确定单元)
收集确定单元137根据针对每个提取的问题设定的过去事例和用户数据来确定建议用户进行收集的数据项目(在下文中,也称为建议项目)。在存在多个问题设定的情况下,收集确定单元137针对多个问题设定中的每一个确定建议项目。注意,收集确定单元137可以针对一个问题设定确定多个建议项目。
收集确定单元137将过去事例的数据集(过去数据集)与由提取单元133构造的数据集(构造的数据集)进行比较。收集确定单元137提取包括在过去数据集中而不包括在构造的数据集中的“使用项目”(在下文中,也称为“未收集项目”)。
首先,收集确定单元137预测在过去事例中没有使用“未收集项目”的情况下的商业效果。具体地,收集确定单元137通过使用排除“未收集项目”的过去数据集来学习预测模型,并评价预测模型的准确度。收集确定单元137再次计算具有所评价的预测准确度的商业效果。注意,这里的预测模型的学习、评价和商业效果的计算类似于由学习单元134、评价单元135和预测单元136执行的处理,因此省略其描述。
根据所计算的商业效果,收集确定单元137将导致效果降低的“未收集的项目”确定为建议项目。
注意,在收集确定单元137提取多个"未收集项目"的情况下,收集确定单元137重新计算每个"未收集项目"的商业效果。然后,收集确定单元137将具有最大商业效果减少量的“未收集项目”确定为建议项目。或者,收集确定单元137可以将商业效果减少量等于或大于阈值的“未收集项目”确定为建议项目,或者可以将预定数量的“未收集项目”确定为建议项目。
此外,在过去的事例中包括在数据收集上花费的“收集成本”的情况下,收集确定单元137可以根据再次计算的商业效果和收集成本来确定建议项目。在这种情况下,收集确定单元137计算通过在具有“未收集项目”的情况下从预测单元136计算出的商业效果中减去收集成本而获得的引入效果与不具有“未收集项目”的情况下而计算出的商业效果之间的差。收集确定单元137将已经显示出大的计算差异的“未收集项目”确定为建议项目。
这样,当收集确定单元137确定包括数据的“收集成本”的建议项目时,信息处理设备100可以优先考虑收集成本低且数据收集容易的未收集项目,并向用户建议该未收集项目。或者,信息处理设备100可以向用户建议对收集成本高并且在使用时增加商业效果的未收集项目的数据的收集。
注意,这里,尽管收集确定单元137在不使用“未收集项目”的情况下执行预测模型的学习、准确度评价和商业效果的计算,但是本公开不限于此。例如,学习单元134、评价单元135和预测单元136可以分别执行预测模型的学习、准确度评价和商业效果的计算。在这种情况下,收集确定单元137根据来自每个单元的结果来确定建议项目。
此外,这里,收集确定单元137根据商业效果确定建议项目,但是本公开不限于此。收集确定单元137可以根据例如预测模型评价结果来确定建议项目。在这种情况下,收集确定单元137评价不使用“未收集项目”的情况下的学习的预测模型的准确度,并且将导致评价的小幅降低的“未使用的项目”确定为建议项目。
(贡献度计算单元)
贡献度计算单元142计算贡献度,该贡献度指示在输入到由学习单元134学习的预测模型的测试数据的特征量中特征量对预测结果的贡献多少以及哪些特征量对预测结果有贡献。具体地,贡献度计算单元142从预测模型的输入中去除作为贡献度计算对象的特征量,并且根据去除之前和之后的预测结果的变化来计算贡献度。
这里,由贡献度计算单元142计算的贡献度具有正值和负值。具有正值的贡献度意味着一组特征量对预测有积极贡献,即,增加了由预测模型预测的预测概率。此外,具有负值的贡献度意味着一组特征量对预测具有消极贡献,即,降低了由预测模型预测的预测概率。
另外,贡献度计算单元142计算贡献度被计算的特征量在一组特征量中(项目)中的比例。在计算出的比例低的情况下,即使贡献度高,也很少发生特征量贡献的情况。因此,其对于用户的效用价值低。因此,在本公开的实施例中,贡献度计算单元142计算贡献度被计算的特征量的比例,并且还将该比例呈现给用户,如稍后参考图14所述。结果,用户可以考虑出现频率来检查数据的贡献度。
注意,这里,预测单元136、贡献度计算单元142和收集确定单元137分别计算商业效果和贡献度,并且确定建议项目,但是不需要执行所有的计算和确定。例如,贡献度计算单元142可以计算贡献度,并且可以省略预测单元136对商业效果的计算和收集确定单元137对建议项目的确定。或者,可以执行贡献度计算单元142对贡献度的计算和预测单元136对商业效果的计算,并且可以省略收集确定单元137对建议项目的确定。另外,可以允许用户选择用于计算/确定的处理。
(显示控制单元)
图7的显示控制单元138控制各种类型的信息的显示。显示控制单元138控制终端设备10上的各种类型的信息的显示。显示控制单元138生成包括用于控制显示模式的控制信息的图像。利用诸如JavaScript(注册商标)、CSS等的脚本语言来描述该控制信息。显示控制单元138向终端设备10提供包括如上所述的控制信息的图像,从而使终端设备10根据控制信息执行上述显示处理。注意,显示控制单元138不限于上述内容,并且可通过适当地使用根据现有技术的各种技术来控制在终端设备10中执行的显示。
将参照图9到图15描述显示控制单元138使终端设备10显示的画面的示例。图9是示出用于指定用户数据的获取源的图像的示例的示图。例如,当获取单元131获取用户数据时,在终端设备10上显示图9所示的图像。
在图9的示例中,显示控制单元138使终端设备10显示图像IM11。图像IM11是接受用户对用户数据的获取源的选择的图像。在图像IM11中,用户通过仅选择包括“自动扫描PC中的文件”或“手动指定数据源”的两个选项中的一个来选择一个获取源。
在图像IM11中,显示外部数据库的图标DB1到DB9。在用户选择“手动指定数据源”的情况下,用户通过例如拖放操作将任意图标移动到选择区域R11以指定数据源。在用户指定用户数据的获取源并选择“下一个”按钮B11的情况下,信息处理设备100的获取单元131从指定的获取源获取用户数据。注意,用于指定数据库的操作不限于拖放操作,并且例如,可以通过用户点击图标DB1至DB9来执行数据库的指定。
注意,这里,已经描述了显示控制单元138使用户选择PC或外部数据源作为获取源的示例,但是本公开不限于此。例如,显示控制单元138可以使用户选择信息处理设备100的存储单元120作为获取源。或者,例如,显示控制单元138可以使用户选择外部安装的存储介质(诸如硬盘、磁盘、磁光盘、光盘、USB存储器或存储卡)作为获取源。显示控制单元138可以接收指示用户数据的存储目的地的地址的直接输入。
随后,显示控制单元138向用户呈现显示由控制单元130的每个单元执行的处理的进程的画面。将参考图10至图13描述示出进度并由显示控制单元138呈现的画面的示例。图10是示出指示预测处理时间的计算情况的图像的示例的示图。例如,在时间预测单元141计算预测的处理时间的同时,在终端设备10上显示图10所示的图像IM31。
在图10的示例中,显示控制单元138使终端设备10显示图像IM31。如图10所示,在图像IM31的左侧区域R31中显示处理的概要。作为处理的概要,显示由控制单元130的每个单元执行的处理(诸如由学习单元134执行的模型学习)的概要。在所显示的概要中,显示控制单元138以深色显示完成或正在执行的处理,并且以浅色显示尚未执行的处理。图10的图像IM31表示正在读取数据,并且此后将执行数据预处理、模型学习等。
另外,在图10的图像IM31的右侧区域R32中显示由控制单元130的每个单元实际执行的处理的细节。在图10的示例中,由于时间预测单元141计算预测的处理时间,因此显示“数据读取/学习时间估计处理的开始”。
接下来,将参考图11描述在分析处理继续并且控制单元130的学习单元134正在学习预测模型的情况下由显示控制单元138呈现的画面。图11是示出指示预测模型的学习情况的图像的示例的示图。
在图11的示例中,显示控制单元138使终端设备10显示图像IM41。如图11所示,显示控制单元138以具有复选标记M41的深色显示颜色显示已经完成的“数据读取”和“数据预处理”(对应于由解释单元132执行的结构化数据生成处理)。
另外,显示控制单元138以深色显示颜色与图标M42一起显示正在执行的“模型学习”(对应于由学习单元134执行的预测模型学习处理)。圆形图标M42例如是指示学习处理的进展的圆形指示符。
在图11的示例中,显示控制单元138在图像IM41的下侧显示分析处理的剩余所需时间T43。另外,显示控制单元138显示表示与剩余所需时间T43对应的进度的进度条B44以及剩余所需时间T43。
随后,将参考图12描述当分析处理完成时由显示控制单元138呈现的画面。图12是示出指示分析处理完成的图像的示例的示图。
在图12的示例中,显示控制单元138使终端设备10显示图像IM51。如图12所示,显示控制单元138以具有复选标记的深色显示颜色显示所有完成的处理。另外,例如,显示控制单元138在图像IM51中显示好(OK)按钮B51。例如,一旦用户按下好按钮B51,显示控制单元138就将分析处理结果呈现给用户。
接下来,将参考图13描述显示控制单元138使终端设备10显示信息处理设备100的分析处理结果的示例。图13是示出指示分析处理结果的图像的示例的示图。这里,例如,在评价单元135、预测单元136和收集确定单元137执行各个处理的情况下,除了由提取单元133执行的提取处理之外,图13所示的图像作为指示处理结果的图像显示在终端设备10上。
在图13的示例中,显示控制单元138使终端设备10显示图像IM21。图像IM21是将信息处理设备100的处理结果呈现给用户的图像。显示控制单元138将关于由提取单元133提取的多个问题设定的信息作为推荐问题设定分别显示在区域R21、R22等中。例如,显示控制单元138以预测单元136预测的商业效果的降序显示问题设定。
注意,上述显示控制单元138显示问题设定的顺序是示例。例如,显示控制单元138可以以通过评价单元135执行的评价获得的预测模型的评价值的降序显示问题设定。或者,在提取单元133通过使用排序学习来提取问题设定的情况下,显示控制单元138可以根据关于用户的信息按顺序显示问题设定。例如,显示控制单元138可以根据排序显示问题设定。注意,由于在各区域R21、R22等中显示的内容相同,所以下面将仅详细描述区域R21。
如图13所示,显示控制单元138在图像IM21的区域R21中显示问题设定RS11和评价结果RS12。注意,在图13中,假设显示控制单元138显示包括“使用的项目”的一部分和“预测对象”的句子作为问题设定RS11,诸如“根据职业类型、年收入等预测是否将发生贷款损失”。另外,显示控制单元138将预测模型的准确度显示为评价结果RS12。此时,在图13中,显示控制单元138除了准确度之外还显示评价评论,如“82.6%的准确度,这是相当好的”。通过如上所述呈现句子和评价评论,可以以易于理解的方式向用户呈现提取结果。注意,在图13中,为了区分多个问题设定和评价结果,问题设定和评价结果用数字标示,如“问题设定1”和“评价结果1”。
另外,显示控制单元138在问题设定RS11附近显示指示问题设定RS11是可编辑的编辑图标C21。以这种方式,通过显示编辑图标C21,用户可以直接改变问题设定,例如,可以在问题设定中添加或删除“使用项目”或改变“预测对象”。
接下来,在图13的示例中,显示控制单元138将构造的数据集M21显示为用于预测的数据。显示控制单元138将例如构造的数据集M21显示为矩阵。此时,例如,显示控制单元138可以通过改变项目的显示颜色来突出显示与“预测对象”相对应的项目。“预测对象”的突出显示不限于显示颜色的改变,并且可以以各种方式进行,只要以与“使用项目”的显示模式不同的显示模式显示“预测对象”即可。例如,“预测对象”的突出显示可以以“预测对象”具有比“使用项目”大的字符大小或用下划线显示的方式进行。“预测对象”的突出显示可以以突出显示目标闪烁的方式进行。
另外,显示控制单元138在构造的数据集M21附近显示指示构造的数据集M21是可编辑的编辑图标C22。通过选择编辑图标C22,用户可以直接改变问题设定,例如,可以添加或删除问题设定中的“使用项目”或改变“预测对象”。可替代地,用户可以执行编辑,例如,添加、校正或删除包括在构造的数据集中的数据。
以这种方式,当显示控制单元138在图像IM21中显示构造的数据集时,可以向用户呈现什么数据集已经被用于预测分析。注意,图13中所示的构造的数据集的显示是示例,并且本公开不限于此。例如,在构造的数据集较大并且因此不能完全显示在屏幕上的情况下,显示控制单元138可以显示构造的数据集的一部分,诸如代表性项目和数据。可选地,显示控制单元138可以在用户执行例如滚动操作时显示整个构造的数据集M21。
注意,例如,假设用户选择编辑图标C21和C22并改变问题设定或构造的数据集。在这种情况下,显示控制单元138可以显示使用户选择是否利用改变的内容再次执行诸如预测模型的生成、评价和商业效果的计算的处理的图像。在用户选择再次执行处理的情况下,信息处理设备100根据用户改变的内容再次执行诸如预测模型的生成、评价和商业效果的计算的处理。
显示控制单元138显示各种图表和表格作为评价结果。在图13所示的示例中,显示控制单元138显示混淆矩阵M22和指示预测概率的分布的图表G21。
注意,由显示控制单元138显示的各种图表和表格不限于图13所示的示例。显示控制单元138可以显示各种图表和表格,诸如指示时间序列的预测分析结果的图表。或者,用户可以指定要显示的图表或表格。注意,用于由显示控制单元138显示的图表或表格的数据例如由评价单元135计算。
随后,显示控制单元138显示商业效果R23。显示控制单元138显示由预测单元136计算的商业效果量。此时,如图13所示,显示控制单元138可以显示预定的计算量范围,或者可以在显示计算量时执行将计算量四舍五入到预定数字的四舍五入处理。
显示控制单元138显示添加项目R24作为要添加的数据,从而向用户呈现包括在添加项目R24中的建议项目。添加项目R24包括由收集确定单元137确定的建议项目。此外,显示控制单元138可以显示当添加建议项目时将增加的商业效果的量。显示控制单元138根据由收集确定单元137计算出的商业效果的减少量来显示增加量。
此时,如图13所示,显示控制单元138可以执行将增加量四舍五入到预定数字的四舍五入处理,并显示处理后的增加量。替代地,例如,在显示具有不同增加量的多个建议项目的情况下,显示控制单元138可以显示预定增加量范围。
另外,显示控制单元138显示当采用使用建议问题设定的预测分析时选择的采用按钮B21。一旦用户选择采用按钮B21,显示控制单元138就显示用于在实际执行所采用的预测分析的情况下接收诸如实证实验结果、商业效果等的输入的图像。以这种方式,信息处理设备100可以通过在实际引入商业的情况下接收数据来获取预测分析的过去事例。
或者,显示控制单元138可以显示实证实验的示例,例如周期或区域。根据例如过去事例中包括的实证实验来显示实证实验的示例。结果,用户可以参考过去的事例执行实证实验。
除了上述之外,显示控制单元138在图像IM21中显示各种类型的信息。例如,显示控制单元138显示句子或图标,其中设定了到图像IM21中显示的信息的详细信息的链接。
在图13中,在用户执行用于显示细节的切换操作的情况下,例如,用户选择下划线为“更多细节”的句子,显示控制单元138显示细节以及相应的内容。
例如,在执行显示评价结果的细节的操作的情况下,显示控制单元138可以显示混淆矩阵M22或图表G21的放大版本,或者可以另外显示在图像IM21中未显示的表格或图表。
此外,在执行显示商业效果的细节的操作的情况下,显示控制单元138可以显示例如详细计算的金额或显示引入商业的具体示例。另外,在执行显示要添加的数据的细节的操作的情况下,显示控制单元138可以显示详细计算量或显示除了图像IM21中显示的建议项目之外的建议项目。
另外,显示控制单元138通过下划线突出显示例如问题设定RS11的使用项目、添加项目R24的建议项目和评价结果RS12的准确度值。例如,用户能够通过选择突出显示的部分来检查所使用的项目的细节和准确度值的细节。注意,突出显示对象的突出显示不局限于下划线,而可以以各种方式进行,只要以与其他的显示模式不同的显示模式显示突出显示对象即可。例如,突出显示对象的突出显示可以以突出显示对象具有比其他对象具有更大的字符大小或者以与其他对象不同的颜色显示的方式进行。此外,可以以突出显示对象闪烁的方式进行突出显示对象的突出显示。
此外,在图13的示例中,除了信息处理设备100的处理结果之外,显示控制单元138还显示从用户接收问题等的文本框TB21。以这种方式,显示控制单元138可以显示除了关于处理结果的信息之外的信息。
接下来,将参照图14和图15描述显示控制单元138使终端设备10显示的分析处理结果的另一示例。图14是示出指示分析处理结果的图像的另一示例的示图(1)。图15是示出指示分析处理结果的图像的另一示例的示图(2)。这里,将描述在分析处理中指示贡献度计算单元142的计算处理结果的情况。在图14和图15中,将作为示例描述执行用于预测在工厂中操作的机器是否将发生故障的预测分析的结果。
在图14的示例中,显示控制单元138使终端设备10显示图像IM61。在图14中,显示控制单元138在图像IM61的左侧区域R61中以条形图显示诸如“运行月数”或“生产工厂”的每个项目的贡献度。如上所述,贡献度具有正值和负值。因此,显示控制单元138将通过组合正值的总和和负值的总和而获得的值显示为条形图。
注意,这里,由于预测机器是否将发生故障,所以增加机器将发生故障的预测概率的特征量具有正值,并且增加机器不发生故障(=正常)的预测概率的特征量具有负值。在图14中,可以看出,“运行月数”对预测结果为“故障”的预测概率的贡献度和“运行月数”对预测结果为“正常”的预测概率的贡献度都很高。以这种方式,通过显示每个项目具有正值和负值的贡献度,可以清楚地显示哪个项目对预测分析有很大贡献。
注意,其中显示贡献度的显示形式不限于条形图,并且贡献度可以使用饼图、线图或其他指示符来显示,或者可以通过各种显示方法来显示,诸如显示贡献度本身的数值。
另外,显示控制单元138在图像IM61的右侧区域R62中显示特定项目的贡献度的细节。在图14的示例中,显示控制单元138显示“运行月数”的贡献度和每个特征量(项目内容)的比例作为“运行月数”的贡献度的细节。贡献度和比例由贡献度计算单元142计算。
在图14中,显示控制单元138以贡献度的降序方式显示例如对预测结果“故障”有贡献的预定数量的特征量(项目内容)和对预测结果“正常”有贡献的特征量(项目内容),作为贡献度的细节。
此时,显示控制单元138可以显示贡献度的数值,或者可以显示与贡献度相对应的指示符,如图14所示。例如,在图14中,布置了包括多个条的指示符,并且随着贡献度增加,显示控制单元138从左侧到右侧显示更长的条。
另外,显示控制单元138显示项目中的特征量的比例以及贡献度。在图14的示例中,显示控制单元138显示与贡献于故障的项目内容“99.00至110.0”的贡献度相对应的指示符M63和与比例相对应的饼图M64。图14示出了“机器操作后的99个月至110个月”的数据对用于预测“故障”的预测分析具有最高的贡献度。此外,表明“机器操作后的99个月至110个月”的数据占运行月数中包括的数据的9%。
另外,在图14的示例中,可以看出对故障有贡献的项目内容“110.0到116.0”具有第二高的贡献度,但是项目中的比例是3%,即,包括在运行月数中的数据中的比例低。以这种方式,通过显示每个项目内容的贡献度和比例,可以以易于理解的方式向用户呈现每个项目内容的贡献度有多高以及项目内容出现的频率有多高。
此外,在特征量(项目内容)是数值的情况下,显示控制单元138可以指示每个项目内容的数值范围R65。在图14的示例中,显示控制单元138显示每个项目内容的数值范围的一个曲线图,其中水平轴表示运行月数。结果,可以以视觉上易于理解的方式向用户呈现项目内容的数值范围。
接下来,将参考图15描述指示分析处理结果的图像的另一示例。在图15的示例中,显示控制单元138使终端设备10显示图像IM71。例如,假设用户选择在左侧区域R61中显示的项目的“生产工厂”。在这种情况下,如图15所示,显示控制单元138在右侧区域R62中显示“生产工厂”的贡献度的细节。在图15的示例中,显示控制单元138显示作为“生产工厂”的特征量(项目内容)的“鸟取市”和“新潟市“中的每一个的项目的贡献度和比例的指示符。
注意,其中显示贡献度或比例的显示形式不限于上述示例,并且贡献度或比例可以使用各种图形或指示符来显示,或者可以通过各种显示方法来显示,诸如显示贡献度本身的数值。
[1-5.根据实施例的信息处理过程]
接下来,将参考图16描述根据实施例的信息处理的过程。图16是示出根据本公开的实施例的分析处理的过程的流程图。
如图16所示,信息处理设备100从存储单元120获取过去的事例和用户数据(步骤S101)。信息处理设备100通过使用所获取的用户数据的一部分来预测分析处理所需的处理时间(预测的处理时间)(步骤S110)。信息处理设备100通过对用户数据进行分析和结构化来生成结构化数据(步骤S102)。
信息处理设备100根据结构化数据和过去事例提取问题设定(步骤S103)。信息处理设备100根据所提取的问题设定来构造数据集(步骤S104)。
信息处理设备100根据问题设定和构造的数据集学习预测模型(步骤S105)。信息处理设备100将数据集划分为学习数据和测试数据,并通过使用学习数据生成预测模型。
随后,信息处理设备100通过使用测试数据评价预测模型(步骤S106)。信息处理设备100在将预测模型引入商业的情况下预测商业效果(步骤S107)。
根据过去的事例,信息处理设备100确定如果添加到数据集中则可以增加商业效果的项目作为建议项目(步骤S108)。信息处理设备100计算测试数据的特征量的贡献度(步骤S111)。信息处理设备100将处理结果呈现给用户(步骤S109)。
注意,在用户改变问题设定或数据的情况下,信息处理设备100可以返回到步骤S105并再次执行预测模型的学习、评价或商业效果的计算。此外,信息处理设备100可以在每个步骤的处理结束的时刻预测处理时间。此外,在提取单元133提取多个问题设定的情况下,可以通过针对每个问题设定重复执行步骤S104至S111来执行针对所有问题设定的分析处理。
[2.其他配置示例]
上述每种配置都是示例,并且信息处理系统1可以具有任何系统配置,只要它可以提取问题设定并根据过去的事例和用户数据构造数据集即可。例如,信息处理设备100和终端设备10可以被集成。
此外,在上述实施例中描述的各个处理中,可以手动执行被描述为自动执行的所有或一些处理。或者,被描述为手动执行的所有或一些处理可以通过已知方法自动执行。另外,除非另有说明,否则可以任意地改变说明书和附图中所示的处理过程、具体名称、包括各种数据和参数的信息。例如,每个附图中所示的各种信息不限于所示信息。
此外,每个设备的每个所示组件在功能上是概念性的,并且不一定必须如附图所示进行物理配置。也就是说,各个设备的分布/集成的具体模式不限于附图中所示的那些。取决于各种负载或使用状态,所有或一些设备可以在功能上或物理上分布/集成在任何任意单元中。
此外,本说明书中描述的每个实施例中的效果仅仅是示例。本公开的效果不限于此,并且可以获得其他效果。
[3.硬件配置]
通过例如具有如图17所示的配置的计算机1000来实现根据上述每个实施例或变型例的诸如信息处理设备100或终端设备10的信息设备。图17是示出实现诸如信息处理设备100或终端设备10的信息处理设备的功能的计算机1000的示例的硬件配置图。在下文中,将描述根据实施例的信息处理设备100作为示例。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500和输入/输出接口1600。计算机1000的每个组件通过总线1050连接。
CPU 1100根据存储在ROM 1300或HDD 1400中的程序操作,并控制每个组件。例如,CPU 1100将存储在ROM 1300或HDD 1400中的程序加载到RAM 1200上,并执行与各种程序相对应的处理。
ROM 1300存储诸如当计算机1000启动时由CPU 1100执行的基本输入输出系统(BIOS)的引导程序、取决于计算机1000的硬件的程序等。
HDD 1400是计算机可读的记录介质,其中非临时记录CPU 1100执行的程序、该程序使用的数据等。具体地,HDD 1400是记录根据本公开的程序的记录介质,该程序是程序数据1450的示例。
通信接口1500是计算机1000连接到外部网络1550(例如,因特网)的接口。例如,CPU 1100经由通信接口1500从另一设备接收数据或者将由CPU 1100生成的数据发送到另一设备。
输入/输出接口1600是用于将输入/输出设备1650和计算机1000彼此连接的接口。例如,CPU 1100经由输入/输出接口1600从诸如键盘或鼠标的输入设备接收数据。此外,CPU1100经由输入/输出接口1600将数据发送到诸如显示器、扬声器或打印机的输出设备。此外,输入/输出接口1600可以用作用于读取记录在预定记录介质中的程序等的媒介接口。介质的示例包括诸如数字通用盘(DVD)或相变可重写盘(PD)的光学记录介质、诸如磁光盘(MO)的磁光记录介质、磁带介质、磁记录介质和半导体存储器。
例如,在计算机1000用作根据该实施例的信息处理设备100的情况下,计算机1000的CPU 1100通过执行装载在RAM 1200上的信息处理程序来实现控制单元130等的功能。另外,HDD 1400将根据本公开的程序和数据存储在存储单元120中。注意,CPU 1100从HDD1400读取程序数据1450并执行程序数据1450,但是作为另一示例,可以经由外部网络1550从另一设备获取这些程序。
注意,本技术还可以具有以下配置。
(1)一种信息处理设备,包括:
控制单元,用于:获取包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集的过去事例;获取用于预测分析的数据;在通过使用所述数据进行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象;以及根据所述数据,构造要用于对所提取的预测对象进行预测分析的数据集。
(2)根据(1)所述的信息处理设备,其中,所述控制单元根据关于用户的信息从所述过去事例中选择所述过去预测对象,以及包括在数据中并且与所选择的过去预测对象对应的变量被提取作为预测对象。
(3)根据(1)或(2)所述的信息处理设备,其中,所述控制单元根据所提取的预测对象和所述数据来提取多个解释变量,以及根据所提取的预测对象和所述多个解释变量来构造所述数据集。
(4)根据(1)至(3)中任一项所述的信息处理设备,其中,所述控制单元提取多个所述预测对象,并为提取的所述多个预测对象中的每一个构造所述数据集。
(5)根据(1)至(4)中任一项所述的信息处理设备,其中,所述控制单元根据所述过去事例预测在将针对所提取的预测对象的预测分析引入商业的情况下获得的效果。
(6)根据(5)所述的信息处理设备,其中,所述过去事例包括在将针对所述过去预测对象的所述预测分析引入商业的情况下获得的事例效果,以及控制单元通过使用分析数据集学习效果预测模型并通过使用效果预测模型和构造的数据集执行预测分析来预测效果,在效果预测模型中,过去事例中包括的事例效果被设定为预测对象。
(7)根据(6)所述的信息处理设备,其中,所述控制单元按照根据效果或/和关于用户的信息的顺序向用户呈现所提取的多个预测对象。
(8)根据(1)至(7)中任一项所述的信息处理设备,其中,所述控制单元将包括在所述分析数据集中并且不包括在所述构造的数据集中的所述解释变量作为用于建议附加收集的数据呈现给所述用户。
(9)一种由处理器执行的信息处理方法,所述信息处理方法包括:
获取过去事例,所述过去事例包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集;
获取用于预测分析的数据;
在通过使用所述数据执行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象;以及
根据所述数据,构造用于对所提取的预测对象进行预测分析的数据集。
(10)用于使计算机起以下作用的程序:
控制单元获取包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集的过去事例,获取用于预测分析的数据,在通过使用所述数据进行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象,以及根据所述数据,构造用于对所提取的预测对象进行预测分析的数据集。
附图标记列表
1信息处理系统
100信息处理设备
110通信单元
120存储单元
121过去事例存储单元
122用户数据存储单元
123用户简档存储单元
130控制单元
131获取单元
132解释单元
133提取单元
134学习单元
135评价单元
136预测单元
137收集确定单元
138显示控制单元
10终端设备

Claims (10)

1.一种信息处理设备,包括:
控制单元,获取过去事例,所述过去事例包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集;获取用于预测分析的数据,在通过使用所述数据进行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象;以及根据所述数据构造用于对所提取的预测对象进行所述预测分析的数据集。
2.根据权利要求1所述的信息处理设备,其中,所述控制单元根据关于用户的信息从所述过去事例中选择所述过去预测对象,并且
包括在所述数据中并且与所选择的所述过去预测对象对应的变量被提取作为所述预测对象。
3.根据权利要求2所述的信息处理设备,其中,
所述控制单元根据所提取的预测对象和所述数据来提取多个解释变量;以及根据所提取的预测对象和所述多个解释变量来构造所述数据集。
4.根据权利要求3所述的信息处理设备,其中,所述控制单元提取多个所述预测对象,并针对所提取的多个所述预测对象中的每一个构造所述数据集。
5.根据权利要求4所述的信息处理设备,其中,所述控制单元根据所述过去事例预测在将对所提取的预测对象的预测分析引入商业的情况下获得的效果。
6.根据权利要求5所述的信息处理设备,其中,
所述过去事例包括在将针对所述过去预测对象的所述预测分析引入商业的情况下获得的事例效果,以及
所述控制单元通过使用所述分析数据集学习效果预测模型并通过使用所述效果预测模型和构造的所述数据集执行预测分析来预测效果,在所述效果预测模型中,所述过去事例中包括的所述事例效果被设定为预测对象。
7.根据权利要求6所述的信息处理设备,其中,所述控制单元根据所述效果或/和关于所述用户的信息按顺序向所述用户呈现提取的多个所述预测对象。
8.根据权利要求7所述的信息处理设备,其中,所述控制单元将包括在所述分析数据集中而不包括在构造的数据集中的所述解释变量作为用于建议附加收集的数据呈现给所述用户。
9.一种由处理器执行的信息处理方法,所述信息处理方法包括:
获取过去事例,所述过去事例包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集;
获取用于预测分析的数据;
在通过使用所述数据执行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象;以及
根据所述数据构造用于针对所提取的预测对象的预测分析的数据集。
10.一种用于使计算机起以下作用的程序:
控制单元,获取过去事例,所述过去事例包括过去预测对象和用于对所述过去预测对象进行预测分析的分析数据集;获取用于预测分析的数据;在通过使用所述数据进行所述预测分析的情况下根据所述数据和所述过去事例提取预测对象;以及根据所述数据构造用于对所提取的预测对象进行所述预测分析的数据集。
CN202080041100.2A 2019-06-11 2020-06-04 信息处理设备、信息处理方法和程序 Withdrawn CN113950692A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-109117 2019-06-11
JP2019109117 2019-06-11
PCT/JP2020/022183 WO2020250810A1 (ja) 2019-06-11 2020-06-04 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
CN113950692A true CN113950692A (zh) 2022-01-18

Family

ID=73780753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080041100.2A Withdrawn CN113950692A (zh) 2019-06-11 2020-06-04 信息处理设备、信息处理方法和程序

Country Status (4)

Country Link
US (1) US20220230193A1 (zh)
EP (1) EP3985580A1 (zh)
CN (1) CN113950692A (zh)
WO (1) WO2020250810A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114781766B (zh) * 2022-06-22 2022-09-13 长江水利委员会长江科学院 水文站点的水文信息预测方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8417715B1 (en) * 2007-12-19 2013-04-09 Tilmann Bruckhaus Platform independent plug-in methods and systems for data mining and analytics
US9280739B2 (en) * 2012-11-30 2016-03-08 Dxcontinuum Inc. Computer implemented system for automating the generation of a business decision analytic model
US10496927B2 (en) * 2014-05-23 2019-12-03 DataRobot, Inc. Systems for time-series predictive data analytics, and related methods and apparatus
JP5905651B1 (ja) * 2014-07-30 2016-04-20 株式会社Ubic 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP6604054B2 (ja) 2015-06-30 2019-11-13 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6784612B2 (ja) * 2017-03-02 2020-11-11 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法
US11010393B2 (en) * 2017-04-06 2021-05-18 Hitachi, Ltd. Library search apparatus, library search system, and library search method
CN108846520B (zh) * 2018-06-22 2021-08-03 京东数字科技控股有限公司 贷款逾期预测方法、装置以及计算机可读存储介质
JP7318646B2 (ja) * 2018-06-27 2023-08-01 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
EP3985580A4 (en) 2022-04-20
EP3985580A1 (en) 2022-04-20
US20220230193A1 (en) 2022-07-21
WO2020250810A1 (ja) 2020-12-17

Similar Documents

Publication Publication Date Title
CN109783632B (zh) 客服信息推送方法、装置、计算机设备及存储介质
CN108320171B (zh) 热销商品预测方法、系统及装置
CN113935434A (zh) 一种数据分析处理系统及自动建模方法
KR101531970B1 (ko) 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
KR101544450B1 (ko) 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템
CN112328869A (zh) 一种用户贷款意愿的预测方法、装置及计算机系统
KR20140133185A (ko) 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
Jain et al. E-commerce review sentiment score prediction considering misspelled words: A deep learning approach
KR102311107B1 (ko) 딥러닝 모델을 자동으로 생성하는 딥러닝 솔루션 플랫폼과 연동 가능한 고객 이탈 방지 시스템에 의해서 수행되는, 고객의 이탈을 방지하기 위한 솔루션을 제공하는 고객 이탈 방지 방법
US20220230193A1 (en) Information processing apparatus, information processing method, and program
WO2023153082A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN115828914A (zh) 一种考虑用户属性偏好的满意度评估方法
US11789983B2 (en) Enhanced data driven intelligent cloud advisor system
KR20150077957A (ko) 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템
CN114860918A (zh) 一种融合多源可靠信息的移动应用推荐方法及装置
KR101511709B1 (ko) 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법 및 이를 적용한 종합주가 관련지수 예측 시스템
KR102284440B1 (ko) 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법
CN116415548A (zh) 标签预测模型的训练方法及装置
EP4089598A1 (en) Information processing device, information processing method, and program
Juliane Implementation of Naive Bayes Algorithm on Sentiment Analysis Application
JP2017188025A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN110837595A (zh) 一种企业信息资讯数据处理方法、系统、终端及存储介质
CN112182165B (zh) 基于在线评论的新产品质量规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220118

WW01 Invention patent application withdrawn after publication