CN114926204A

CN114926204A - 基于数据价值的数据处理装置及其方法

Info

Publication number: CN114926204A
Application number: CN202210532391.6A
Authority: CN
Inventors: 宋洁; 赵越; 王衍之
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-19
Also published as: US20230368223A1

Abstract

提供一种基于数据价值的数据处理装置及其方法，包括：高价值数据获取单元，用于从原始数据中获取至少一部分高价值数据；以及预估单元，用于基于获取的高价值数据来进行业务预测；其中，高价值数据获取单元根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。这样，通过从大量的历史数据中筛选出具有高价值的数据，并基于筛选出的这些高价值数据进行业务预测，不仅能够降低业务系统的运算负担，也能够提高业务预测的准确性。

Description

基于数据价值的数据处理装置及其方法

技术领域

本发明涉及海量数据处理，更具体地说，涉及一种基于数据价值的数据处理装置及其方法

背景技术

目前，各类行业都在进行数字化转型，数字平台利用数据进行智能化的业务决策，但大数据也导致了计算成本过高、数据管理缺乏抓手等问题。

由于普遍缺乏对数据的有效管理，通常利用的是全量数据，既会受到计算资源的限制，也会受到噪声数据的影响。

例如，一个在线医疗平台希望建立起对每位医生问诊需求的预测模型，优化资源配置。如果采用全量数据训练，计算成本较大，而且在线平台中存在着刷单等噪声数据影响，即一些医生为了获得更高利润，鼓动患者进行虚假评价，或是在平台中刷文章礼物等等。

然而，现有方式难以在实践中厘清数据点的价值，无法对数据进行针对性的管理，数据的使用效率不高。

发明内容

根据本发明的一方面，提供一种基于数据价值的数据处理装置，包括：高价值数据获取单元，用于从原始数据中获取至少一部分高价值数据；以及预估单元，用于基于获取的高价值数据来进行业务预测；其中，高价值数据获取单元根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

可选地，所述预估单元包括：训练单元，用于使用获取的高价值数据来训练业务模型；以及预测单元，用于利用由训练单元训练出的业务模型进行业务预测。

可选地，高价值数据获取单元根据与业务收益相关联的效用函数，计算各个原始数据的数据沙普利值，以作为各个原始数据的价值。

可选地，所述效用函数与使用至少一部分原始数据训练出的业务模型的预测误差相关联。

可选地，所述高价值数据获取单元在计算效用函数的每次迭代中，对所有原始数据的集合进行随机排序，并在由任一原始数据及其之前元素构成的集合的效用函数值与所有原始数据的集合的效用函数值之间的差异小于预设阈值的情况下，将所述任一原始数据对于由所述之前元素构成的集合的效用函数值保持不变。

可选地，高价值数据获取单元通过以下处理来计算各个原始数据的数据沙普利值：基于所有原始数据的集合训练出全集业务模型，并记录每个原始数据在全集业务模型下的全集预测结果，在计算效用函数的每次迭代中，根据与原始数据距离较近的至少一个原始数据的全集预测结果来获取所述原始数据的预测结果。

可选地，所述原始数据包括在当前时刻之前发生的至少一期历史数据，并且，预估单元基于获取的高价值数据来针对与当前时刻对应的预测数据进行下一时期的业务预测。

可选地，高价值数据获取单元根据业务人群、业务逻辑、外界环境、时间变化中的至少一个来调整与业务收益相关联的效用函数。

可选地，所述数据处理装置还包括：价值展示单元，用于基于获取的高价值数据构建图形化展示界面，以向用户解释业务模型。

可选地，业务模型涉及在线医疗平台，业务预测用于基于在线医生医疗平台上的各个医生的属性信息来预测所述各个医生在下一时期即将承接的诊疗次数。

根据本发明示例性实施例的另一方面，提供一种基于数据价值的数据处理方法，包括：从原始数据中获取至少一部分高价值数据；以及基于获取的高价值数据来进行业务预测；其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

可选地，在上述任一方法中，所述基于获取的高价值数据来进行业务预测的步骤包括：使用获取的高价值数据来训练业务模型；以及利用训练出的业务模型进行业务预测。

可选地，在上述任一方法中，根据与业务收益相关联的效用函数，计算各个原始数据的数据沙普利值，以作为各个原始数据的价值。

可选地，在上述任一方法中，所述效用函数与使用至少一部分原始数据训练出的业务模型的预测误差相关联。

可选地，在上述任一方法中，在计算效用函数的每次迭代中，对所有原始数据的集合进行随机排序，并在由任一原始数据及其之前元素构成的集合的效用函数值与所有原始数据的集合的效用函数值之间的差异小于预设阈值的情况下，将所述任一原始数据对于由所述之前元素构成的集合的效用函数值保持不变。

可选地，在上述任一方法中，通过以下处理来计算各个原始数据的数据沙普利值：基于所有原始数据的集合训练出全集业务模型，并记录每个原始数据在全集业务模型下的全集预测结果，在计算效用函数的每次迭代中，根据与原始数据距离较近的至少一个原始数据的全集预测结果来获取所述原始数据的预测结果。

可选地，在上述任一方法中，所述原始数据包括在当前时刻之前发生的至少一期历史数据，并且，基于获取的高价值数据来针对与当前时刻对应的预测数据进行下一时期的业务预测。

可选地，在上述任一方法中，根据业务人群、业务逻辑、外界环境、时间变化中的至少一个来调整与业务收益相关联的效用函数。

可选地，在上述任一方法中，还包括：基于获取的高价值数据构建图形化展示界面，以向用户解释业务模型。

可选地，在上述任一方法中，业务模型涉及在线医疗平台，业务预测用于基于在线医生医疗平台上的各个医生的属性信息来预测所述各个医生在下一时期即将承接的诊疗次数。

根据本发明示例性实施例的另一方面，提供给一种用于基于数据价值的数据处理装置，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：从原始数据中获取至少一部分高价值数据；以及基于获取的高价值数据来进行业务预测；其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

根据本发明示例性实施例的另一方面，提供一种基于数据价值进行数据处理的计算机介质，其中，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：从原始数据中获取至少一部分高价值数据；以及基于获取的高价值数据来进行业务预测；其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

附图说明

图1是示出根据本发明示例性实施例的数据处理装置的框图；

图2是示出根据本发明示例性实施例的预估单元的框图；

图3是示出根据本发明示例性实施例的数据处理方法的流程图；

图4示出根据本发明示例性实施例的针对在线医疗平台的预测系统；

图5示出不同医生信息变量之间的相关关系；

图6示出平台额外成本&收益与预测误差的联系；以及

图7示出逐步删去数据模型表现的变化。

具体实施方式

通过以下借助附图的详细描述，将会更容易地理解本发明，其中，相同的标号指定相同结构的单元。

根据本发明的总体构思，能够在业务系统中基于过往数据进行智能化的业务决策，通过从大量的历史数据中筛选出具有高价值的数据，并基于筛选出的这些高价值数据进行业务预测，不仅能够降低业务系统的运算负担，也能够提高业务预测的准确性。

根据本发明的示例性实施例，将业务收益作为衡量数据价值的基础，从而将业务提升与数据价值进行了有效的关联，能够更为有效地筛选出有助于提升业务平台决策效果的数据，也便于对决策机制进行解释。

作为示例，图1示出根据本发明示例性实施例的数据处理装置的框图。图1所示的数据处理装置10包括高价值数据获取单元100和预估单元200。

如图1所示，高价值数据获取单元100用于从原始数据中获取至少一部分高价值数据。

这里，原始数据可以是在线产生的数据、预先生成并存储的数据、也可以是通过输入装置或传输媒介而从外部接收的数据。这些数据可涉及个人、企业或组织的属性信息，例如，身份、学历、职业、资产、联系方式、负债、收入、盈利、纳税等信息。或者，这些数据也可涉及业务相关项目的其他属性信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。应注意，本发明的示例性实施例中提到的数据内容可涉及任何对象或事务在业务中某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。

所述原始数据可以是不同来源的结构化或非结构化数据，例如，文本数据或数值数据等。这些数据可来源于期望进行业务预测的实体内部，例如，来源于期望获取预测结果的银行、企业、学校等；这些数据也可来源于上述实体以外，例如，来源于数据提供商、互联网(例如，社交网站)、移动运营商、APP运营商、快递公司、信用机构等。可选地，上述内部数据和外部数据可组合使用，以形成携带更多信息的原始数据。

上述原始数据可通过输入装置输入到高价值数据获取单元100，或者由高价值数据获取单元100根据已有的数据来自动生成，或者可由高价值数据获取单元100从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于高价值数据获取单元100从外部数据源获取相应的数据。这里，获取的数据可被高价值数据获取单元100 中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，高价值数据获取单元100可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

根据本发明的示例性实施例，高价值数据获取单元100可以根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取其中的至少一部分高价值数据。这里，高价值数据获取单元100在筛选高价值数据时，以业务收益作为衡量要素，实现了数据质量与业务运营的统一，使得能够在降低运算负担的同时，更为有效地改善预测效果。

此外，图1所示的数据处理装置10还可以包括价值展示单元(未示出)，用于基于获取的高价值数据构建图形化展示界面，以向用户解释业务模型。这里，价值展示单元能够基于获取的高价值数据，单独或结合其他相关数据，绘制成诸如曲线图等图形化展示界面，从而帮助用户查看高价值数据在模型中起到的作用，更好地理解业务逻辑。

如图1所示，预估单元200用于基于获取的高价值数据来进行业务预测。这里，预估单元200可以根据各种方式来基于高价值数据进行业务预测，例如，基于高价值数据所呈现的统计特性来生成相应规则，进而利用这些规则对未来的数据做出预测。

根据本发明的示例性实施例，所述原始数据可以包括在当前时刻之前发生的至少一期历史数据，相应地，预估单元200基于获取的高价值数据来针对与当前时刻对应的预测数据进行下一时期的业务预测。

此外，图1所示的数据处理装置10还可以包括反馈单元(未示出)，用于收集与上述预测数据相对应的真实业务结果，从而形成新增的历史数据样本，进而基于更新的历史数据再次获得高价值数据，如此循环，形成业务运营系统的数据闭环。

在本发明中，预估单元200可以基于高质量数据进行智能决策，例如，利用高质量数据训练出模型(例如，机器学习等人工智能(AI)模型)，然后利用训练出的模型进行业务预测。

图2是示出根据本发明示例性实施例的预估单元的框图。作为示例，预估单元200包括训练单元210和预测单元220。

这里，训练单元210用于使用获取的高价值数据来训练业务模型。作为示例，训练单元可以使用获取的高价值数据来训练机器学习模型。这里，机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的情况时，模型会提供相应的判断，即，预测结果。机器学习可被实现为“有监督学习”、“无监督学习”或“半监督学习”的形式，应注意，本发明的示例性实施例对具体的机器学习算法并不进行特定限制。此外，还应注意，在训练和应用模型的过程中，还可结合统计算法等其他手段。

预测单元220可以利用由训练单元210训练出的业务模型进行业务预测。这里，训练单元210对模型的训练可以离线进行，也可以在线进行，这里的训练不仅包括模型的首次训练，也包括模型的更新。相应地，预测单元220 可以利用训练出的业务模型进行离线或在线的预测，本发明的示例性实施例对此不进行任何限制。

图1和图2所示出的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的单元或模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

以下参照图3来描述根据本发明示例性实施例的数据处理方法。

这里，作为示例，图3所示的方法可由图1所示的装置来执行，也可完全通过计算机程序以软件方式实现，还可通过特定配置的计算装置来执行图 3所示的方法。为了描述方便，假设图3所示的方法由图1所示的装置来执行。

如图所示，在步骤S100中，由高价值数据获取单元100从原始数据中获取至少一部分高价值数据。

这里，作为示例，高价值数据获取单元100可通过手动、半自动或全自动的方式来采集原始数据，或对采集的原始数据进行处理，使得处理后的数据记录具有适当的格式或形式。作为示例，高价值数据获取单元100可批量地采集原始数据。

这里，高价值数据获取单元100可通过输入装置(例如，工作站)接收用户手动输入的原始数据记录。此外，高价值数据获取单元100可通过全自动的方式从数据源系统地取出原始数据记录，例如，通过以软件、固件、硬件或其组合实现的定时器机制来系统地请求数据源并从响应中得到所请求的原始数据。所述数据源可包括一个或多个数据库或其他服务器。可经由内部网络和/或外部网络来实现全自动获取数据的方式，其中可包括通过互联网来传送加密的数据。在服务器、数据库、网络等被配置为彼此通信的情况下，可在没有人工干预的情况下自动进行数据采集，但应注意，在这种方式下仍旧可存在一定的用户输入操作。半自动方式介于手动方式与全自动方式之间。半自动方式与全自动方式的区别在于由用户激活的触发机制代替了例如定时器机制。在这种情况下，在接收到特定的用户输入的情况下，才产生提取数据的请求。每次获取原始数据时，优选地，可将捕获的数据存储在非易失性存储器中。作为示例，可利用数据仓库来存储在获取期间采集的原始数据以及处理后的数据。

上述获取的原始数据记录可来源于相同或不同的数据源，也就是说，每条数据记录也可以是不同数据记录的拼接结果。例如，除了获取客户向银行申请开通信用卡时填写的信息数据记录(其包括收入、学历、职务、资产情况等属性信息字段)之外，作为示例，高价值数据获取单元100可还获取该客户在该银行的其他数据记录，例如，贷款记录、日常交易数据等，这些获取的数据记录可拼接为完整的数据记录。此外，高价值数据获取单元100还可获取来源于其他私有源或公共源的数据，例如，来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。

可选地，高价值数据获取单元100可借助硬件集群(诸如Hadoop集群、 Spark集群等)对采集到的数据进行存储和/或处理，例如，存储、分类和其他离线操作。此外，高价值数据获取单元100也可对采集的数据进行在线的流处理。

作为示例，高价值数据获取单元100中可包括文本分析模块等数据转换模块，相应地，在步骤S100中，高价值数据获取单元100可将文本等非结构化数据转换为更易于使用的结构化数据以在后续进行进一步的处理或引用。基于文本的数据可包括电子邮件、文档、网页、图形、电子数据表、呼叫中心日志、交易报告等。

作为示例而非限制，本发明的示例性实施例可使用涉及以下项中的至少一个的业务数据：图像识别(例如，OCR、人脸识别(安防)、物体识别(交通标志)、图片分类)、语音识别(例如，融合自然语言处理，包括语音助手等)、自然语言处理(例如，审查文本(如合同、法律文书、客服记录)、垃圾内容识别、文本分类(情感、意图、主题))、自动控制(例如，能源行业 (矿井、风力发电机组)、节能(空调系统))、智能问答(例如，聊天机器人、智能客服)、运营决策(例如，金融科技，包括营销与获客、反欺诈、反洗钱、承保和信用评分等)、医疗(例如，疾病筛查和预防、个性化健康管理、辅助诊断)、市政(例如，社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市等)、推荐业务(例如，广告、咨询、音乐、视频、金融产品(理财、保险)等)。

在步骤S100中，在获取原始数据之后，高价值数据获取单元100从原始数据中获取至少一部分高价值数据，这里，高价值数据获取单元100可以根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

在本发明的示例性实施例中，高价值数据获取单元100计算数据价值的基础是与业务收益有关的效用函数。这里，高价值数据获取单元100可以基于业务预测的周期来构建业务收益的计算方式，解析其中的各个组成部分，从中提取与数据贡献有关的部分，以此为基础来构建用于计算数据价值的效用函数。作为示例，高价值数据获取单元100可以基于数据沙普利值来计算原始数据的价值，具体说来，高价值数据获取单元100可以根据与业务收益相关联的效用函数，计算各个原始数据的数据沙普利值，以作为各个原始数据的价值。

接着，在步骤S200中，由预估单元200基于由高价值数据获取单元100 获取的高价值数据来进行业务预测。这里，预估单元200可以仅依靠筛选出的高价值数据来进行预测。作为示例，可以由预估单元200中的训练单元210 使用获取的高价值数据来训练业务模型。这里，所使用的高价值数据可以仅包括当期获取的高价值数据，也可以包括历史上获取的全部高价值数据，还可以是其中任意或经过筛选的某几期高价值数据。作为示例，训练单元210 可使用任何适用的机器学习算法来训练业务模型。然后，由预估单元200中的预测单元220利用由训练单元210训练出的业务模型进行业务预测，这里，预测单元220可以将需要预测的全体数据分别输入业务模型，从而获得每个待预测数据所对应的预测结果。进而，可以基于该预测结果进行相应的业务决策，例如，业务资源分配等。

以下，以在线医疗平台作为示例来描述本发明的示例性实施例，然而，应理解，本发明的示例性实施例并不受限于在线医疗平台，而是可以应用于任何类似的业务预测系统，诸如，机场客流量分布预测、音乐流行趋势预测、需求预测与仓储规划方案、新浪微博互动量预测、货币基金资金流入流出预测、电影票房预测、农产品价格预测分析、基于多源数据的青藏高原湖泊面积预测、微博传播规模和传播深度预测、鲍鱼年龄预测、学生成绩排名预测、网约车出行流量预测、红酒品质评分、搜索引擎的搜索量和股价波动、农村居民收入增长预测、房地产销售影响因素分析、股价走势预测、全国综合运输总量预测、地震预报等等。

根据本发明的示例性实施例，业务模型可以涉及在线医疗平台，相应地，业务预测用于基于在线医生医疗平台上的各个医生的属性信息来预测所述各个医生在下一时期即将承接的诊疗次数。图4示出根据本发明示例性实施例的针对在线医疗平台的预测系统。

在数字经济飞速发展的今天，传统医疗资源与数字平台结合催生了新兴的医疗模式——在线医疗平台。在线平台较于传统医院，为患者消除了与医疗资源的空间距离，在新冠流行的时代给患者更多求医选择。不仅如此，平台还能利用平台数据对资源进行充分整合利用，大大提高了医疗资源配置的效率。比如在线医疗平台在运营中积累产生大量数据，并根据数据进行个性化推荐、需求匹配提升平台效率，继而获得更多数据，从而构成数据-运营的 “良性循环”。

这种平台的典型服务模式如下：患者结合自身疾病症状表现，在平台上检索需要的医生，再通过平台返回的医生列表，结合医生静态数据选择心仪的医生进行问诊。比如针对用户检索“高血压”疾病的推荐医生，根据医生主页信息与数据如“医生性别”、“年龄”、“心意礼物”、“感谢信”等，患者选择恰当的医生进行问诊。

在线医疗平台将数据与传统医疗行业进行融合，为传统行业注入新的动力，平台数据的治理问题也日益被关注。一方面，大数据将平台中的医疗行为刻画的更加清晰，平台据此实现更细颗粒度的精准营销，但平台也需平衡数据计算成本、实效性；另一方面，平台中也存在着“刷数据”的现象(比如恶意刷单、诱导不真实评价)，造成数据的失真。因此对平台而言，对数据进行合适的价值评估，筛选出高价值数据是十分重要的。一来能在不降低算法效果的前提下有较降低数据的计算成本，二来能筛选出不实数据，构建更好的平台生态。

目前，现有技术中评估数据的价值依然是一个有挑战的问题。数据价值的厘定也能促进数据融通，为数据治理提供依据。当前关于数据价值的研究主要是自上而下基于经济学的视角，主要的测算方法有成本法、市场法和收入法。这三种方法受限于数据规制、数据市场的不健全，数据产生的价值较难拆分等现实约束，导致数据价值的衡量偏差较大。

根据本发明的示例性实施例，在线医疗平台中，平台雇佣医生完成在线问诊服务，对平台而言，恰当配置医生资源是非常重要的(与需求多的医生签订需要在线时间更长的合约，反之亦然)，由此需要利用数据预估医生未来面临的需求量。例如，使用机器学习方式，利用医生一段时间内积累的静态数据：医生年龄、性别、医院级别、心意礼物、感谢信、患者报到、等待时长、患者投票等预测医生一段时期内的需求总数(单量)，据此进行决策(医生资源配置)。但预测所用数据量较大且存在噪声数据——存在医生刷单、刷评论等行为，简单使用全量数据会造成精度与计算成本上两方面的损失；而且平台所用黑盒模型较为复杂，缺乏对黑盒模型的有效解释。此外，作为示例，在机器学习的过程中对所用数据的价值进行评估能为平台的数据管理提供指导，降低平台计算成本、提高学习进度，也能解释黑盒模型的底层逻辑。其中，对于模型的解释：高价值数据点反映对模型预测效果显著的数据，体现正常业务模式下的数据分布，比如高问诊量对应高感谢信数量，能从此看出什么样的数据分布有助于模型得到好结果。

在图4所示的在线医疗平台中在线更新的数据价值评估框架中，首先将时间离散化，为1、2、…、T期，该框架将每期为平台运营积累的数据进行评估与更新，辅助平台运营。流程图中展示了T-1、T两期完整的高价值数据更新与评估框架。

这里对平台的预测+运营过程进行阐述：为了合理分配医生资源，平台利用上期积累的医生静态数据对医生面临的需求进行预测，预测使用的数据如下所示：

平台可以根据上述预测结果来决策当期资源配置方式，进而积累得到数据。

首先需要将平台的运营与机器学习的预测行为结合起来，构造出相应的效用函数。

如：对于医疗平台，假设时间是离散且无限的t∈{0，1，...}，医生 i∈{1，2，...n}的服务一位患者的平均时间为τ_i，这里假设τ_i＝τ,平台从一次服务获得的收益分成为r_i＞0。平台在第t期根据历史数据决定第t+1期与医生签订的合作协议：第t期需要在线服务时长为S_it，单位时长薪资为w_i＞0。记第t期平台可以收集到的数据为X_t，而该医生的患者需求为随机变量D_it。对于医生，超出工作时长需求的患者无法被服务，需要由平台花费成本α＞0服务这部分患者，则第t期平台的总收益为：

从上面的公式可以看出，平台对单个医生患者需求的估计越准确，其收获的利润也就更多。我们假设平台通过历史数据，利用机器学习的方式对每位医生的下一期需求进行估计，据此建立合作协议，对医生下一期的工作时长即为：

其中，

为第t期前获取的全部历史数据集合，这也就体现出从数据到预测到决策再到价值这一完整的价值链条。

进一步，令

整理(3.1)式，有：

令

若

则R_ti＝r_iD_it-w_iS_it＝(r_i-w_iτ)D_it，令

若

则

若

则

在平台对需求的估计产生偏差时，会临时进行资源的调整配置，弥补需求预测的失误，当平台对于需求的预测偏大时，会额外付给医生多余的薪资，从而利润受损。当需求预测不足，平台需要临时额外调整资源配置，我们假设调配资源的成本也无法为平台带来正收益，促使平台预先做出更准确的预测。所以自然的可以有

注意到，平台的利润损失是ΔD_it息息相关的，也就是预测的绝对误差。具体说来，平台因为预测误差带来的收益损失

故可以利用预测的平均绝对误差(MAE)定义效用函数，如下所示：

也就是说，根据本发明的示例性格实施例，效用函数与使用至少一部分原始数据训练出的业务模型的预测误差相关联。通过该效用函数，将平台数据在机器学习学习中展现的准确度与平台价值联系在一起。

此外，可选地，根据本发明的示例性实施例，高价值数据获取单元可以按照类似的方式来构建不同的效用函数，例如，可以根据业务人群、业务逻辑、外界环境、时间变化中的至少一个来调整与业务收益相关联的效用函数。

接下来可以基于上述效用函数对数据价值进行测算。根据本发明的示例性实施例，能够根据与业务收益相关联的效用函数，计算各个原始数据的数据沙普利值(ShapleyValue)，以作为各个原始数据的价值。

具体说来，Shapley Value是劳埃德·沙普里为了解决公平分配合作收益提出的。Shapley Value源自博弈论中的理论，依据参与者个体的“边际贡献” 来决定，而在合作博弈中，边际贡献可视为一个参与者加入之后对合作收益的影响，遍历所有参与者的组合，就能计算每位参与者的贡献，具体公式如下：

其中，K为全集，n＝|K|，i∈K，v是效用函数体现合作博弈的收益。则

表示元素z在效用函数v定义下的贡献，也就是元素z的Shapley Value。

根据本发明的示例性实施例，可以将z视为模型中每个数据点或者特征， v则是衡量模型效果的损失函数或准确率(如效用函数)。那么在这个设定下，

就是数据点或特征z对于整个模型的损失函数或者准确率的贡献，这种价值评估方式保留了shapleyvalue的完备、公平、可加性，能从机器学习场景中将数据点的价值有效的提取出来。

从以上公式可以看出，Shapley Value的计算复杂度是指数级的，且每一次的计算模型的“效用”v(U)都意味利用数据子集或特征子集U重新训练模型，这对于基于大量数据进行学习的模型运算负担极大。

为此，作为可选方式，高价值数据获取单元可以在计算效用函数的每次迭代中，对所有原始数据的集合进行随机排序，并在由任一原始数据及其之前元素构成的集合的效用函数值与所有原始数据的集合的效用函数值之间的差异小于预设阈值的情况下，将所述任一原始数据对于由所述之前元素构成的集合的效用函数值保持不变。

也就是说，对数据或特征排列形式的简化来实施对算法复杂性的控制。例如，可以将Shapley Value的表达式以数据点或特征排列的方式写出为：

中π∈Π(K)是一种全集中所有元素的排序方式，

是排序中在元素i前的元素构成的集合。换句话说，也就是

其中π[j+1]＝{i}。首先，对元素的集合进行随机排列。其次，从第一个元素扫描到最后一个元素，并定义对于某元素及其所有之前元素构成集合的效用与全集的效用差小于某一个阈值时，将此元素对于之前元素构成集合效用的边际贡献定义为0。

最后，利用平均值的思想对元素的Shapley Value进行更新。伪代码如下：

该方法如果满足阈值之后，数据节点边际效用视为0，而且每一次元素集合的排序是任意的。此外，该方法使用到了Shapley Value的一种性质，即在某种假设下，随着数据或特征量的增加，数据集合的效用会收敛到数据或特征全集的效用：lim_i→nv_i＝V(D，A)。换句话说，当拥有数据量小时，新增的数据对于模型的贡献较高；但当数据量大时，新增数据对于模型的贡献会下降，并趋近于0。

事实上，通过调控上述算法的迭代次数与阈值，我们能通过较短的时间得到近似的Shapley Value。相比之前的沙普利值法的计算效率有了一定的提升。

作为另一示例，考虑到大部分机器学习模型在特征空间中的表现是连续的，所以相邻很近的数据点往往有相同的预测结果。基于这一性质，高价值数据获取单元可以通过以下处理来计算各个原始数据的数据沙普利值：基于所有原始数据的集合训练出全集业务模型，并记录每个原始数据在全集业务模型下的全集预测结果，在计算效用函数的每次迭代中，根据与原始数据距离较近的至少一个原始数据的全集预测结果来获取所述原始数据的预测结果。通过这种方式，可以避免重新训练模型。

作为示例，在完整训练集中训练一次模型，可以记录每个数据点的预测。进一步，在每次迭代需要计算预测集中的预测结果时，利用K个距离最近的训练集预测值的平均进行估计。即对于测试集S′中的任意数据点(x，y)∈S′，设其在训练集中，x的K近邻集合为D_x，预测模型为f，则对于y的预测值y_pre有：

最后，根据预测集中所有的近似预测结果计算效用函数v，算法便无需重新训练模型，可以大幅缩减计算时间。

应理解，上述两种优化的处理方式可单独使用，也可结合使用。

假设在线医疗平台拥有约20万医生数据，并可以获取2018、2019、2020 年的医生数据，为降低计算的复杂度，抽取其中的5000条医生信息及其对应的问诊订单信息进行实证研究，构建利用医生静态信息、平台行为信息对医生下一年需求量的预测模型，据此对医生数据的价值进行研究。

基于数据特点，本文选取进行医生数据可分为以下2类：一类是医生注册信息，为医生在互联网医疗平台注册时所提供的信息，包括医生的性别、职称、所在医院级别，反映医生静态提供问诊能力的情况。第二类是医生平台行为信息，均为基于医生在平台中的问诊行为统计得到的信息，包括“总单量”、“文章数”、“诊后患者报到数”、“患者投票”、“感谢信”、“心意礼物”、 “一般等待时长”、“综合推荐热度”。

表1中详细介绍了数据的实际意义。

表1医生信息变量介绍

作为示例，抽取了其中5000条数据，随机抽取4000条作为训练样本，其余作为测试集。如图5所示，对于定量变量，通过散点图矩阵展示其分布与相关性情况，对角线为单一数据的分布情况，上三角部分为两两数据的相关系数，下三角部分为两两数据的散点图分布情况。从分布上看，除综合推荐热度外，其他数据具备长尾分布。整体来看，这些定量数据是平台行为的指标数据，彼此均呈现较为明显的正相关关系，而文章数由于其分布集中于 0附近，与其余变量的正相关性不显著。

对于定性变量“性别”、“医院级别”，“一般等待时长”，体现了平台的医生构成与服务舒适度。从表2中看出，男女比例在医院级别与等待时长这个两个定性变量中的分布是较为稳定的；医生则集中在最高等级的三甲医院中，而医生问诊的等待时间大都为“无”，可以看出平台中医生服务效率较高。

表1医生信息定性变量的的分布统计

根据本发明的示例性实施例，可以使用XGBoost根据19年初的医生行为信息、注册信息(表1除去总单量的其余变量)对19-20年医生总单量进行预测。按照上述优选方式，估算不同数据集或数据点的价值，以应对平台中面临的不同数据问题，下面本文将分几个部分进行介绍。

A.数据集大小对价值的影响

大数据背景下，越大的数据量意味着机器学习更高的精准度，因此数据的积累对平台的价值积累是至关重要的。在线平台中，冷启动问题就是因为平台参与者的数据量积累较少，平台对其认知存在困难，导致运营策略出现较大的误差。当数据量足够大是，平台的精准匹配是比较轻松的，但由于在线平台需要充分快的回应用户的需求，数据量就会收到算力的制约。因此如何对平衡不同数据集的价值与计算成本对平台较为重要。

利用在线平台的实际数据，分别取不同数量的数据集，计算其 ShapleyValue，以衡量不同大小数据集的价值如何，并与经典的信息熵进行对比(使用Kozachenko-Leonenko估计)。对平台而言，数据集的质量与预测精度MAE直接相关，可以看出，随着数据集的增大，预测误差逐步减小，沙普利值逐步增大——即数据的价值增大，即沙普利能较好的刻画出了数据集增大是的价值增加。而熵是随机变量的函数，被其概率分布直接决定，因此不同数据集的熵应该是相通的。但在实际的计算中，需要使用数值方法(Kozachenko-Leonenko)对其进行估计，数据量的增加使其分布更接近于真实值，因此呈现出了逐步收敛下降的趋势。因此ShapleyValue对数据量的价值捕获是更直接的。

B.预测精度与平台实际效用的关系

上一部分中，沙普利值成功捕获了数据量增大带来的价值增加，进而带来预测精度的提高。在这一部分，我们选择了若干不同的训练集，比较其预测误差(MAE)与平台总收益(R_t)的关系。

图6示出平台额外成本&收益与预测误差的联系。如图6所示，左图展示了随着预测误差的增大，平台运营所带来的成本损失，分为两部分，一部分为需求不足所付出的额外雇佣成本，另一部分为需求过剩平台的处理成本；右图为平台单期总收益与预测误差的关系，总体上预测误差越小，额外成本减小，收益增大。

C.平台需求预测模型解释

基于前两个部分，ShapleyValue成功的将平台的收益与数据的价值评估联系在了一起。此外，还可以观察模型中的每个数据点是如何对模型造成影响的，也就是如何对平台收益造成影响，从而对模型进行解读，辅助平台运营策略的制定。

根据定义的效用函数，可以计算出训练集中每个数据点的沙普利值。如表3所示，SV_分位数代表将沙普利值从低到高排序，再根据每20％的分位数分为5组，0％-20％代表沙普利值最低的一组，80％-100％为最高的一组。表格其余变量代表组内对应数值的平均。

首先观察极端的两组数据，与其他组数据相比，“价值”最高的一组 (80％-100％)数据具备礼物、感谢信较高，且总单量较高的特点，即符合在图3中展示的变量间的高相关性；但“价值”最低的数据(20％-40％)中，礼物、感谢信等较低，但单量也较高，数据的整体分布不符。

表2沙普利值与数据分布

整体来看五组数据，20-60％的两组数据较为接近，反应大量数据的基本情况，60-100％的数据则更多体现了单量较多数据的情况。结合数据的长尾分布，正确预测出总单量较高的数据点，这对效用函数的贡献是比较大的，因此其数据价值高。体现于实际业务中，也就是帮助平台从医生中正确挑选出服务需求较高的数据点的价值是比较高的。

在上述模型计算中，“价值”较高的数据能成功反应数据分布中感谢信礼物等定量变量与单量的正相关关系，这种关系的捕捉将帮助平台正确的建立医生数据与其服务能力的关系；而低价值数据却与整体数据分布情况相违背，将对平台指定策略产生干扰——降低预测模型的准确性，平台需要删去这部分数据的干扰来保证平台策略在整体样本下的收益最大。

D.噪声数据检测

在线平台中的恶意刷单、刷点评是普遍存在的问题。医生在平台中积累的荣誉如：文章数、心意礼物是吸引患者的重要因素，也有部分医生会刻意刷高这部分数据。由此就会造成需求预测的失真，造成平台运营的困难。而沙普利值能够识别数据在模型中的贡献，有恶意刷单行为的用户将对模型造成负面作用，从而获得较低的沙普利值。根据这一点，平台可以适当删去一些低价值的数据点以提高平台使用数据的质量。

在本部分的实验中，对删去低价值数据的模型效果进行验证，将训练集中的数据点按沙普利值排列，并从低到高删去，每删去一个数据点就重新训练模型，并观察模型效果(MAE，预测与实际的绝对误差)的变化。并于随机顺序删去数据点进行对比，以反应沙普利值对于模型预测的修正效果。实验结果如图7所示，其中纵轴为MAE，横轴为删去数据点的比例。

图7逐步删去数据模型表现的变化。整体来看，在删去数据的两种种顺序中，模型表现上根据本发明的数据价值删除强于随机删除，说明Shapley 思想在模型的改进中发挥了作用。单独观察根据本发明的算法的表现，在删除50％数据的范围内，该删除方式都会减少预测的误差。而一般来说，删去数据点都会使模型效果变差，在图中可以看到，使用本发明删去较低价值的数据点后反而让损失函数进一步下降。

这说明“低价值”数据点影响了整体模型的表现，这部分低价值数据也就极有可能对应与平台中数据造假的一些参与者。因此，平台对低价值数据进行筛选是有意义的，这为进一步基于医生需求数据价值测算，来实现未来精准医生推荐，医生患者资源匹配提供了高质量的数据学习样本。

在本发明中，针对在线医疗平台的资源配置场景，能有效的衡量平台所用各个数据点的价值，为平台提升从数据到模型预测再到平台决策的运行效果，提出了一套可行的方案。

以上参照图1到图7描述了根据本发明示例性实施例的数据处理装置及其方法。应理解，上述方法可通过记录在计算可读介质上的程序来实现，例如，根据本发明的示例性实施例，可提供一种基于数据价值进行数据处理的计算机介质，其中，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：从原始数据中获取至少一部分高价值数据；以及基于获取的高价值数据来进行业务预测；其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图1到图7进行了描述，这里为了避免重复将不再进行赘述。

应注意，根据本发明示例性实施例的数据处理装置可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图1到图2所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本发明的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行根据本发明示例性格实施例的数据处理方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本发明示例性实施例的数据处理方法所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本发明示例性实施例的数据处理方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

例如，如上所述，根据本发明示例性实施例的用于基于数据价值的数据处理装置可包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：从原始数据中获取至少一部分高价值数据；以及基于获取的高价值数据来进行业务预测；其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

以上描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种基于数据价值的数据处理装置，包括：

高价值数据获取单元，用于从原始数据中获取至少一部分高价值数据；以及

预估单元，用于基于获取的高价值数据来进行业务预测；

其中，高价值数据获取单元根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。

2.如权利要求1所述的数据处理装置，其中，所述预估单元包括：

训练单元，用于使用获取的高价值数据来训练业务模型；以及

预测单元，用于利用由训练单元训练出的业务模型进行业务预测。

3.如权利要求1-2任一项所述的数据处理装置，其中，高价值数据获取单元根据与业务收益相关联的效用函数，计算各个原始数据的数据沙普利值，以作为各个原始数据的价值。

4.如权利要求1-3任一项所述的数据处理装置，其中，所述效用函数与使用至少一部分原始数据训练出的业务模型的预测误差相关联。

5.如权利要求1-4任一项所述的数据处理装置，其中，所述高价值数据获取单元在计算效用函数的每次迭代中，对所有原始数据的集合进行随机排序，并在由任一原始数据及其之前元素构成的集合的效用函数值与所有原始数据的集合的效用函数值之间的差异小于预设阈值的情况下，将所述任一原始数据对于由所述之前元素构成的集合的效用函数值保持不变。

6.如权利要求1-5任一项所述的数据处理装置，其中，高价值数据获取单元通过以下处理来计算各个原始数据的数据沙普利值：基于所有原始数据的集合训练出全集业务模型，并记录每个原始数据在全集业务模型下的全集预测结果，在计算效用函数的每次迭代中，根据与原始数据距离较近的至少一个原始数据的全集预测结果来获取所述原始数据的预测结果。

7.如权利要求1-6任一项所述的数据处理装置，其中，所述原始数据包括在当前时刻之前发生的至少一期历史数据，并且，预估单元基于获取的高价值数据来针对与当前时刻对应的预测数据进行下一时期的业务预测。

8.如权利要求1-7任一项所述的数据处理装置，其中，高价值数据获取单元根据业务人群、业务逻辑、外界环境、时间变化中的至少一个来调整与业务收益相关联的效用函数。

9.如权利要求1-8任一项所述的数据处理装置，还包括：

价值展示单元，用于基于获取的高价值数据构建图形化展示界面，以向用户解释业务模型。

10.一种基于数据价值的数据处理方法，包括：

从原始数据中获取至少一部分高价值数据；以及

基于获取的高价值数据来进行业务预测；

其中，根据与业务收益相关联的效用函数来计算各个原始数据的价值，并基于计算结果来获取所述至少一部分高价值数据。