CN105531704A - 数据处理方法以及数据处理服务器 - Google Patents

数据处理方法以及数据处理服务器 Download PDF

Info

Publication number
CN105531704A
CN105531704A CN201480050607.9A CN201480050607A CN105531704A CN 105531704 A CN105531704 A CN 105531704A CN 201480050607 A CN201480050607 A CN 201480050607A CN 105531704 A CN105531704 A CN 105531704A
Authority
CN
China
Prior art keywords
file
data processing
combination
data
user terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480050607.9A
Other languages
English (en)
Other versions
CN105531704B (zh
Inventor
鬼头大介
北原圭
下间直树
山本暖
屋代聪
古田和博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN105531704A publication Critical patent/CN105531704A/zh
Application granted granted Critical
Publication of CN105531704B publication Critical patent/CN105531704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

即使是文件构造不类似的文件或形式不同的文件,也能够将数据适当地组合来处理,另外,在进行数据的组合或处理时,即使是知识少的用户也能够容易地执行。从用户终端接收第一文件和第二文件的指定、与特定功能有关的数据处理的执行请求,从所述存储部获取所指定的所述第一文件和所述第二文件,对所获取的所述第一文件和所述第二文件的构造进行分析,在分别构成所述第一文件和所述第二文件的各要素是个数相同的要素的情况下,将该要素之间相组合来执行所述数据处理,将该执行结果发送到所述用户终端。

Description

数据处理方法以及数据处理服务器
技术领域
本发明涉及一种将多个文件恰当地组合来进行数据处理的技术。
背景技术
近年来,在企业、社会活动中产生的数据爆发性增加。另一方面,随着信息通信技术的发展,大量数据的收集、存储、分析等变得容易。另外,最近,作为多种多样的数据之一,越来越期待通过有效利用公共数据来创造新服务。在这种背景下,期望政府开放公共数据,在民间简单地对公共数据进行再利用,由此提高政府的透明性,并且实现公共服务的品质提高等。作为有效利用公共数据的服务的一例,由能够实时地搜索城镇中的出租用公用自行车的空闲状况的服务等。通过公共数据的公开、有效利用,能够实现如上所述的有益服务,但在处理公共数据时,存在以下的问题:不知道在哪里有什么样的数据,使用方便度低,难以判断将多种多样的数据如何组合来处理较好等。
作为将多个数据相组合来处理的公知技术,有专利文献1和专利文献2。根据专利文献1,对多个文件进行分割,将文件的一部分之间组合为一对。具体地说,将各文件分割为适当大小的部分树,基于各文件之间的该部分树的叶节点的类似度(同一叶节点数相对于所有叶节点的比例),来判断是否将上述部分树组合为一对。另外,根据专利文献2,利用文件的标签构造(母子关系、兄弟关系等)的类似度,来判断将哪个文件之间组合为一对。
现有技术文献
专利文献1:日本专利第4992072号
专利文献2:日本专利第4878624号
发明内容
发明要解决的课题
上述公知技术面向将文件的叶节点的类似度高或者标签构造的类似度高等内容的类似度高的文件相组合来处理的情况,但是难以使不符合这种情况的文件相组合来处理。另外,对于形式不同的文件之间相,存在无法组合来处理的问题。
基于以上,本发明的目的在于提供如下的一种数据处理方法以及实施该方法的数据处理服务器:即使是文件构造不类似的文件或形式不同的文件,也能够将数据恰当地组合来处理,另外,在进行数据的组合或处理时,即使是知识少的用户也能够容易地执行。
用于解决课题的手段
本发明的代表性一例如下所示。即,本发明的特征在于,数据处理服务器具备:存储部,其存储多个文件;以及处理器,其进行如下处理:从用户终端接收第一文件和第二文件的指定、与特定功能有关的数据处理的执行请求,从所述存储部获取所指定的所述第一文件和所述第二文件,对所获取的所述第一文件和所述第二文件的构造进行分析,在分别构成所述第一文件和所述第二文件的各要素是个数相同的要素的情况下,将该要素之间相组合来执行所述数据处理,将该执行结果发送到所述用户终端。
发明效果
根据本发明,即使是文件构造不类似的文件或形式不同的文件,也能够将数据恰当地组合来处理,另外,在进行数据的组合或处理时,即使是知识少的用户也能够容易地执行。
附图说明
图1是表示本发明的第一实施例所涉及的数据处理系统的硬件和软件结构的一例的框图。
图2(A)是表示本发明的第一实施例所涉及的所公开的公共数据(神奈川县的人口信息)的一例的说明图。
图2(B)是表示本发明的第一实施例所涉及的所公开的公共数据(政府机关的所在地信息)的一例的说明图。
图2(C)是表示本发明的第一实施例所涉及的所公开的公共数据(都道府县的边界线信息)的一例的说明图。
图3是表示本发明的第一实施例所涉及的文件之间的数据的组合方法的一例的说明图。
图4是表示本发明的第一实施例所涉及的数据组合信息111的一例的图。
图5是表示本发明的第一实施例所涉及的数据获取目的地信息112的一例的图。
图6是表示本发明的第一实施例所涉及的组合历史信息113的一例的图。
图7是表示本发明的第一实施例所涉及的数据处理服务器101所执行的、与基本的数据组合(配对生成)有关的处理的一例的流程图。
图8是表示本发明的第一实施例所涉及的数据处理服务器101所执行的、与数据组合推定有关的处理的一例的流程图。
图9是表示本发明的第一实施例所涉及的数据处理服务器101所执行的、与基于用户关联的数据组合有关的处理的一例的流程图。
图10是表示本发明的第一实施例所涉及的数据处理服务器101所执行的、与数据组合信息111的登记有关的处理的一例的流程图。
图11是表示本发明的第一实施例所涉及的数据处理服务器101所执行的、与关联数据的获取有关的处理的一例的流程图。
图12是表示本发明的第二实施例所涉及的数据处理服务器101所执行的、与输入途中的数据处理有关的处理的一例的流程图。
图13是表示本发明的第二实施例所涉及的向数据处理服务器101的数据输入的指定方法的一例的说明图。
具体实施方式
下面,说明本发明的实施方式。此外,下面说明的实施方式是一个例子,本发明并不限定于此。
使用图1~图11来说明第一实施例。
图1是表示本发明的第一实施例所涉及的数据处理系统的硬件和软件结构的框图。数据处理系统具备一个以上的数据处理服务器(数据处理装置)101、一个以上的数据公开服务器(数据公开装置)141以及一个以上的用户终端(计算机)121。此外,数据公开服务器是指一般地公开、保持各种数据的服务器,用于以下目的:一般市民、专门的数据加工业者等使用该数据来提供新的服务等。作为公开的数据,例如是都道府县的地图信息、学校和政府机关等公共机构的信息等公共数据,或者独自对这些公开数据进行加工而得到的结果等。图2(A)~图2(C)是表示本发明的第一实施例所涉及的所公开的公共数据的一例的图,分别是表示神奈川县的人口信息、政府机关的所在地信息、都道府县的边界线信息的一例的图。
数据处理服务器101、用户终端121分别经由接口(以下记载为I/F)104、I/F123与网络连接。数据处理服务器101经由I/F104来针对用户终端121等外部设备进行与特定功能有关的数据处理的执行请求的接收或数据处理执行结果的应答等。
数据处理服务器101具备CPU(中央运算处理装置)103、存储器(存储装置)102以及I/F104。CPU103经由I/F104接收来自用户终端121等外部设备的数据处理执行请求以及执行所请求的数据处理,对请求源外部设备发送数据处理执行结果等。存储器102由功能执行部105、数据组合管理部106、数据分析部107、数据获取部108、数据转换部109、用户协作部110、数据组合信息111、数据获取目的地信息112、组合历史信息113、文件信息114构成,并与CPU103、I/F104相连接。功能执行部105、数据组合管理部106、数据分析部107、数据获取部108、数据转换部109、用户协作部110是被CPU103执行的程序。
用户终端121具备CPU124、存储器122、I/F123以及显示装置125。CPU124经由I/F123来进行与对数据处理服务器101等的特定功能有关的数据处理的执行请求、来自数据处理服务器101等的执行结果的接收等。存储器122由服务器协作部126、用户协作部127构成,并与CPU124、I/F123相连接。服务器协作部126和用户协作部127是被CPU124执行的程序。显示装置125显示从数据处理服务器101等接收到的执行结果等。
接着,说明本实施方式的数据处理系统的软件结构的细节(数据管理服务器101的存储器102、用户终端121的存储器122的存储信息)。
首先,说明存储在数据管理服务器101的存储器102中的程序以外的信息(111~114),之后,说明存储在存储器102中的程序(105~110)。
数据组合信息111是与数据处理服务器101所管理的数据的组合有关的信息。图4是表示本发明的第一实施例所涉及的数据组合信息111的一例的图。数据组合信息111包括项目401、402这两个数据项目。项目401、402表示作为数据的组合候补而登记在数据处理服务器101中的信息。例如,在来自用户终端的指定数据(文件)为一个的情况下,将数据组合信息111用作用于进行是否组合数据的判断等的信息。在图4中,例如示出了以下情况:“神奈川人口.csv”和“神奈川地图.xml”为组合候补,“a.csv”的各行的要素和“b.xml”的<place>标签的要素为组合候补。此外,关于组合候补的指定,除了上述以外,例如也可以指定URL来将位于上述URL的数据之间设为组合候补,或者不是指定文件名而是仅指定文件形式及其要素来设为组合候补。另外,也可以将三个以上的数据设为组合候补。
数据获取目的地信息112表示与用于数据处理服务器101获取公开数据的获取目的地有关的信息。图5是表示本发明的第一实施例的数据获取目的地信息112的一例的图。数据获取目的地信息112包括项目501、502这两个数据项目。项目501表示数据获取目的地的名称。项目502表示数据获取目的地的场所信息,例如表现为URL等。例如,在图5中,第4个记录表示数据处理服务器101能够从“http://dataprocessor1.xx”获取数据加工业者所公开的数据。
组合历史信息113表示与数据处理服务器101过去根据来自用户终端121的请求等执行的数据的组合处理的执行结果有关的历史信息。图6是表示本发明的第一实施例所涉及的组合历史信息113的一例的图。组合历史信息113包括项目601、602、603这三个数据项目。项目601表示进行数据的组合的日期时间。项目602、603表示成为组合的对象的数据。例如在图6中,表示在2013/7/112:00组合“神奈川地价.csv”与“神奈川地图.xml”并处理。此外,作为组合历史信息113,也可以使用上述以外的信息,例如某数据的组合是否恰当的信息等。例如,也可以在将某个数据相组合,并将该组合数据通过预定的处理程序进行了处理时,通过用户终端121向用户询问是否能够得到所期望的结果,即是否能够通过该处理程序正确地处理数据而得到有意义的结果,并将该询问结果也作为组合历史信息113存储在存储器102等中。由此,能够在之后参照历史来将某个能够得到有利用价值的处理结果的数据的组合作为参考。
文件信息114是与在数据处理服务器101的存储器102等中存储的文件等数据有关的信息,例如是从数据公开服务器141获取到的数据,或者表示用户独自生成的存储数据等。
接着,说明在数据管理服务器101的存储器102中存储的程序(105~110)。功能执行部105执行基于数据处理服务器101所提供的各种功能的处理。功能也可以有多个,例如也可以是在地图上显示特定设施的功能,或者掌握各种公共的交通机构的信息的功能等。功能执行部105根据来自用户终端121的与特定功能有关的数据处理的执行请求等来执行数据处理。另外,在执行数据处理时,也可以接受数据的输入来执行处理。数据组合管理部106进行对数据组合信息111的新的组合候补的追加或删除。另外,在执行功能执行部105时,数据组合管理部106进行组合哪些数据的判断等。数据分析部107对所输入的数据进行分析。例如,在输入了xml文件的情况下,数据分析部107对构成文件的标签构造进行分析等。数据获取部108从数据公开服务器141等外部获取数据。关于数据的获取,既可以基于用户终端121的请求等来进行,也可以与功能执行部105的执行对应地进行。数据转换部109例如进行将xml文件转换为csv文件等数据的转换。用户协作部110进行来自用户终端121的数据处理执行请求的接收或向用户终端121的执行结果的响应等。
接着,说明在用户终端121的存储器122中存储的信息。服务器协作部126与数据处理服务器101等外部服务器协作,将输入到用户终端121的数据、数据处理执行请求发送到外部服务器。另外,服务器协作部126接收来自外部服务器的应答结果等。当用户使用用户终端121进行所期望的操作时,用户协作部127接受所输入的操作信息作为操作请求,进行用户所请求的操作的执行、操作结果的显示等处理。
以上,说明了本实施例中的数据处理系统的硬件和软件结构。接着,基于上述的硬件和软件结构来说明第一实施例中的、基本的数据组合处理、数据组合推定处理、基于用户关联的数据组合处理、数据组合信息的登记处理、关联数据的获取处理。在从用户终端121对数据处理服务器101存在数据的发送和数据处理执行请求时等,进行数据组合处理或数据组合推定处理。在任意或特定的定时,基于来自用户终端121的请求进行数据组合信息的登记,或者,由数据处理服务器101判断来进行数据组合信息的登记。基于来自用户终端121的请求来进行关联数据的获取,或者,与基于数据处理服务器101中的特定功能的数据处理的执行对应地自动进行关联数据的获取。下面示出各处理的细节。
<基本的数据组合处理>
图7是表示本发明的第一实施例所涉及的数据处理服务器101所执行的基本的数据组合处理的一例的流程图。首先,数据处理服务器101的CPU103从用户终端121接受多个文件(输入数据)的指定以及与特定功能有关的数据处理的执行请求(步骤701)。例如,当用户使用用户终端121将数据处理服务器101上的文件a和文件b指定为输入数据,并指示基于特定功能的数据处理的执行时,数据处理服务器101的CPU103接受作为输入数据的文件a和文件b的指定以及与特定功能有关的数据处理执行请求。接着,CPU103判断是否指定了多个文件(步骤702),在未指定多个文件的情况下(步骤702中“否”),对所指定的文件执行所请求的数据处理(步骤703),将其执行结果发送到用户终端121(步骤704),结束处理。在指定了多个文件的情况下(步骤702中“是”),CPU103从存储器102等获取指定文件,对文件的构造进行分析,求出构成文件的各要素的个数(步骤705)。然后,CPU103判断在文件之间是否存在个数相同、同一或不同的要素(步骤706),在不存在符合的要素的情况下(步骤706中“否”),将无法组合并处理数据等执行结果发送到用户终端121,结束处理。另一方面,在步骤706中存在符合的要素的情况下(步骤706中“是”),CPU103判断是否存在多个这种要素的组合(步骤707)。例如假设文件为a.xml和b.xml来具体地说明。例如在a.xml的<place>要素为5个、b.xml的<school>要素为5个的情况下,在步骤706中,由CPU103判断为在文件之间存在个数相同的要素。并且,在a.xml的<place2>要素为10个、b.xml的<station>要素为10个的情况下,在步骤707中,由CPU103判断为存在多个要素的组合。在不存在多个要素的组合的情况下(步骤707中“否”),CPU103将通过步骤706判断出的要素相组合,执行从用户终端121请求的数据处理(步骤703),将其执行结果发送到用户终端121(步骤704),结束处理。在存在多个要素的组合的情况下(步骤707中“是”),CPU103将它们作为要素组合候补而发送到用户终端121(步骤708)。用户终端121的CPU124将经由I/F123接收到的要素的组合候补显示在显示装置125上。当用户从在显示装置125上显示的多个要素组合候补中选择输入了所期望的要素组合时,数据处理服务器101的CPU103接收从用户终端121选择输入的要素组合数据,执行在步骤701中请求的数据处理(步骤709),将其执行结果发送到用户终端121(步骤704)。结束处理。
此外,在步骤708中,除了使用户选择输入要素组合候补并进行处理外,例如也可以在组合历史信息113中还登记各组合的好坏的信息,使数据处理服务器101选择其评价好的要素组合。关于组合的好坏的信息,例如用户也可以根据在步骤703中执行的数据处理的结果来进行评价,将其评价结果登记到组合历史信息113。另外,在步骤706中,在文件之间不存在个数相同的要素的情况下,也可以使一方的文件的组合对象的要素与另一方的文件的特定要素的个数对应地进行填充(追加值为空的要素等)并进行处理。另外,例如,即使在如文件a的<bigcity>要素为50个、文件b的<coast>要素为100个那样要素的个数不同的情况下,当在<bigcity>要素中存在“横滨市”值,在<coast>要素中也存在“横滨市”这共同的值时,也可以仅针对该共同的部分将数据相组合来执行处理等,对于想要组合的要素,即使在双方的个数不同的情况下,若作为要素值存在共同的值,则仅针对该要素值为共同的部分将数据相组合来执行处理。
接着,说明本发明的第一实施例所涉及的数据组合推定处理。参照事先登记的数据(要素)的组合候补信息、过去的组合历史信息113来推定数据的组合候补,由此能够提高数据组合精度,得到更有意义的处理结果。
<数据组合推定处理>
图8是表示本发明的第一实施例所涉及的数据处理服务器101所执行的数据组合推定处理的一例的流程图。说明如下的处理:在图7的步骤702中,在指定文件不是多个的情况下,通过数据处理服务器101的CPU103,参照存储器102上的数据组合信息111(图4),推定数据(要素)的组合候补。首先,数据处理服务器101的CPU103从用户终端121接受一个文件(输入数据)的指定以及与特定功能有关的数据处理的执行请求(步骤801)。接着,CPU103参照存储器102上的数据组合信息111来推定数据的组合候补(步骤802)。具体地说,CPU103参照图4所示的数据组合信息111来判断是否存在能够与指定文件相组合的文件,如果存在能够组合的文件,则将该文件数据组合推定为组合候补。此外,除了该推定方法以外,例如也可以参照组合历史信息113来判断是否存在针对指定文件经常进行的组合,如果存在这种组合,则将该组合作为组合候补。在不存在组合候补的情况下(步骤803中“否”),CPU103将该宗旨发送到用户终端121(步骤804),结束处理。在步骤803中存在组合候补的情况下(步骤803中“是”),将组合候补发送到用户终端121(步骤805)。组合候补被显示在用户终端121的显示装置125上。当用户从显示于显示装置125上的组合候补中选择输入所期望的组合候补时,数据处理服务器101的CPU103对所选择输入的组合文件的构造进行分析,判断在文件之间要素的个数是否相同(步骤806)。例如,将包含数据组合信息111(图4)的第4个记录即c.xml文件的<population>要素和d.xml文件的<map>要素的组合的要素组合信息作为要素组合候补显示在用户终端121的显示装置125上,在用户选择输入了<population>要素和<map>要素作为组合候补的情况下,数据处理服务器101的CPU103判断所选择输入的c.xml文件的<population>要素的个数是否与d.xml文件的<map>要素的个数相同。在要素的个数不相同的情况下(步骤806中“否”),CPU103与个数少的一方的要素对应地执行所请求的数据处理(步骤807),将该执行结果发送到用户终端121(步骤808),结束处理。例如,在上述的<population>要素为10个,<map>要素为20个的情况下,针对个数少的一方的要素即10个要素,执行所请求的数据处理。在要素的个数相同的情况下(步骤806中“是”),CPU103执行所请求的数据处理(步骤809),将该执行结果发送到用户终端121,结束处理。通过以上说明的数据组合推定处理,数据处理服务器101能够推定要素的组合候补并将该组合候补显示在用户终端121的显示装置125上,因此即使是对数据的组合方法没有什么知识的用户也能够容易地进行操作。
接着,说明本实施例中的基于用户关联的数据组合处理。假定对数据的组合方法、数据构造有某种程度知识的用户进行本处理的情况,从而能够更自由地定制数据的组合。
<基于用户关联的数据组合处理>
图9是表示本发明的第一实施例所涉及的数据处理服务器101所执行的基于用户关联的数据组合处理的一例的流程图。首先,数据处理服务器101的CPU103从用户接受文件的指定以及与特定功能有关的数据处理的执行请求(步骤901)。接着,CPU103对指定文件的构造进行分析(步骤902)。例如,如图3所示,在指定文件为b.kml的情况下,CPU103查看文件内容来确认其构造为图3所示的形式。CPU103将文件构造的分析结果发送到用户终端121(步骤903)。文件构造的分析结果被显示在用户终端121的显示装置125上,用户指定将哪个要素和哪个要素相组合。关于该处理,以图3为例进行说明。图3是以a.csv和b.kml为输入,将两个文件相组合后使数据处理服务器101的CPU103进行处理的例子。例如,在浏览器等GUI上,以如图3所示的形式向用户提示各输入文件的构造的分析结果。用户基于所提示的信息,进行将哪个要素与哪个要素相组合的关联。例如,可以通过在GUI上用线将要素与要素连接等来进行关联。例如,在图3中,将a.csv的各行的要素与b.kml的<placemark(地标)>要素关联起来。这样,从用户接受要素组合的指定。此外,关于组合的指定,例如既可以如a.csv的第一行要素和b.kml的第一个<placemark(地标)>要素那样以一对一的关系指定,也可以如a.csv的各行的要素的集合和b.kml的<placemark(地标)>要素的集合那样以组为单位来指定。
接着,CPU103判断由用户指定的要素组合是否为以组为单位的指定(步骤904)。在不是以组为单位的指定的情况下(步骤904中“否”),CPU103执行所请求的数据处理(步骤906),将该执行结果发送到用户终端121(步骤907),结束处理。是以组为单位的指定的情况下(步骤904中“是”),CPU103判断所指定的组合要素的个数是否相同(步骤905)。在个数相同的情况下(步骤905中“是”),CPU103执行所请求的数据处理,将该执行结果发送到用户终端121,结束处理。在个数不相同的情况下(步骤905中“否”),CPU103与个数较少一方的要素对应地执行所请求的数据处理(步骤908),将该执行结果发送到用户终端121,结束处理。
以上为基于用户关联的数据组合处理的内容。此外,在此,通过基于用户的关联来进行了数据组合指定,但是也可以使用上述数据组合推定处理流程来进行同样的指定。在该情况下,例如在图3的例子中,数据处理服务器101将a.csv的各行视作一个要素来确定与该要素个数相同的b.kml的要素。在图3的例子中,<placemark>要素符合。并且,关于a.csv的各要素与哪个<placemark>要素对应,例如判断为具有共同的值的要素之间相对应来组合并处理数据。在图3的例子中,a.csv的最初的要素具有“户冢区”这个值,b.kml的第一个<placemark>要素具有相同的“户冢区”这个值,因此判断为双方相对应。但是,除了上述处理方法以外,也可以通过由用户进行的指定来进行该对应。
接着,说明本发明的第一实施例所涉及的数据组合候补的登记处理。在以后用户进行数据的组合时,能够参照通过本处理登记的数据组合候补。
<数据组合候补的登记处理>
图10是表示本发明的第一实施例所涉及的数据处理服务器101所执行的数据组合候补的登记处理的一例的流程图。数据处理服务器101的CPU103判断是否自动进行组合候补的登记(步骤1001)。关于此,例如也可以设置自动进行对数据处理服务器101的登记、由用户手动进行、对应于双方等模式,并根据这些模式来进行判断。不是自动地进行登记的情况下(步骤1001中“否”),CPU103从用户终端121接受组合候补的登记请求,将用户所指定的候补登记在存储器102上的数据组合信息111中(步骤1002)。在自动地进行登记的情况下(步骤1001中“是”),CPU103参照存储器102上的组合历史信息113(步骤1003),将组合频率高且尚未登记的候补登记在存储器102上的数据组合信息111中(步骤1004)。此外,在步骤1002中,关于组合候补的登记,实际使用上述组合候补来执行数据处理的结果,也可以仅在没有产生错误等地正确进行数据处理的情况下进行登记。另外,在登记时,不仅登记组合候补的信息,也可以登记对应的功能的信息(例如,在数据处理服务器101具备大量的数据处理功能的情况下,表示其中的哪些功能使用所登记的各组合候补信息的信息)。另外,也可以登记通过组合并进行处理能够得到什么样的结果的概要信息。
接着,说明本发明的第一实施例所涉及的关联数据的获取处理。例如,存在数据的组合不同但是处理内容相同的情况。例如,当横滨市的住民将某个数据相组合来进行了处理时,可能会发生川崎市的住民、横须贺市的住民也想要进行与其同样的处理的情况。因具备这种可能性,数据处理服务器101模式化地管理如上所述的处理,能够使大量的用户均能够使用,由此能够提高用户的便利性。在实现上述时,例如用户终端121根据用户的操作使用横滨市的数据来实施了某个处理的情况下,数据处理服务器101针对关联的数据(例如川崎市、横须贺市的同样的数据)也进行获取来事先准备数据,以备以后来自用户的同样的处理的询问。另外,也可以基于事先获取到的数据,例如将针对其它城市也能够进行同样的处理的情况作为候补而经由用户终端121提示给用户。下面示出关联数据的获取处理的细节。
<关联数据的获取处理>
图11是表示本发明的第一实施例所涉及的数据处理服务器101所执行的关联数据的获取处理的一例的流程图。首先,数据处理服务器101的CPU103接受文件和组合数据的指定以及与特定功能有关的数据处理的执行请求(步骤1101)。接着,CPU103执行所请求的数据处理,判断是否不产生错误等地正确执行了数据处理(步骤1102)。在没有正确执行处理的情况下(步骤1102中“否”),将该数据处理的结果发送到用户终端121(步骤1104),结束处理。在正确执行了处理的情况下(步骤1102中“是”),CPU103经由用户终端121向用户询问等来判断是否对被用户终端121请求的数据处理进行模式化(步骤1103)。在不对数据处理进行模式化的情况下(步骤1103中“否”),CPU103将数据处理结果发送到用户终端121,结束处理。在步骤1103中,CPU103从用户终端121得到对通过用户的操作输入到用户终端121的处理进行模式化的宗旨的回答等来判断为进行模式化的情况下,从用户接受在步骤1101中指定的文件和组合数据的输入源信息的提供,基于该信息来进行关联数据的搜索、获取(步骤1105)。关于关联数据的获取,例如也可以从用户提供公开了文件的URL等输入源信息,获取位于该URL的其他数据来实现。例如在用户所指定的文件是横滨市.csv,公开了该输入文件的URL中存在横须贺市.csv等其他文件的情况下,作为关联数据而获取这些信息等。另外,在获取关联数据时,例如也可以参考文件名信息等来对获取对象进行过滤。例如,如果用户所指定的文件是神奈川县.csv,则查找作为关联数据的东京都.csv等数据是否在用户提供的输入源信息的场所来获取,如果用户所指定的文件是横滨市.csv,则查找是否存在作为关联数据的川崎市.csv等数据并提取。例如作为神奈川县的城市信息,也可以以词典信息那样的形式对横滨市和川崎市相关联的情况进行管理,参照该信息来进行判断。在步骤1105中进行了关联数据的搜索的结果,CPU103判断是否存在关联数据(步骤1106),在不存在关联数据的情况下(步骤1106中“否”),将数据处理结果发送到用户终端121,结束处理。在存在关联数据的情况下(步骤1106中“是”),CPU103获取上述关联数据并保存在存储器102等中(步骤1107)。然后,CPU103使所获取的关联数据以后能够作为数据的组合候补而使用于向用户的提示等(步骤1108),将处理结果发送到用户终端121,结束处理。此外,在步骤1103的数据处理的模式化中,例如也可以在数据处理服务器101内定义表示进行什么样的数据处理的处理模式信息等,与作为用户所指定的文件或其关联的数据的由数据处理服务器101获取到的数据对应起来进行管理。然后,也可以在存在来自用户终端121的请求等时,适当地进行调用。
以上为第一实施例的基本的数据组合处理、数据组合推定处理、基于用户关联的数据组合处理、数据组合信息的登记处理、关联数据的获取处理的说明。
接着,说明本发明的第二实施例。在第一实施例中,以用户指定全部文件后开始基于数据处理服务器101的数据处理为例子进行了说明。在第二实施例中,不是在用户指定全部文件后开始执行基于数据处理服务器101的数据处理,而是当用户指定一个文件时也开始基于数据处理服务器101的数据处理。用户既可以例如使用控制台、浏览器等来指定文件名等后进行,也可以例如使如图13所示的数据处理组件显示在Web浏览器等浏览器上,并将该数据处理组件与表示文件等数据的数据对象连接来实现。例如在图13的例子中,当对数据处理组件连接数据A、数据B的数据对象时,这些数据被输入到数据处理组件等。
下面说明本实施例中的数据组合处理(下面称为输入途中的数据组合处理)。在本处理中,当用户指定了一个输入时,数据处理服务器101判断该输入在执行预定功能时是否适当,或搜索能够成为该输入的组合候补的数据而向用户进行提示。由此,例如在决定了某一个输入,并想要对其组合其他数据(其他输入)来进行某种处理的情况下,与在用户完成全部输入的指定后进行处理的方法相比,能够在较早的阶段辅助用户的组合候补选定的判断,能够削减搜索组合候补的用户的时间。此外,本实施例的数据处理系统的硬件和软件结构与第一实施例相同,因此省略说明。
<输入途中的数据组合处理>
图12是表示本发明的第二实施例所涉及的数据处理服务器101所执行的输入途中的数据组合处理的一例的流程图。首先,数据处理服务器101的CPU103等待从用户终端121指定数据(步骤1201)。CPU103判断是否接受了数据的指定(步骤1201),在未接受数据的指定的情况下(步骤1202中“否”),返回到步骤1201,在接受到数据的指定的情况下(步骤1202中“是”),参照存储器102上的组合历史信息113等来搜索被认为与在步骤1202中指定的数据关系深的数据(步骤1203)。例如,CPU103从组合历史信息113提取与指定数据经常组合使用的数据,并将该数据判断为是与上述指定数据关系深的数据。除了上述以外,例如CPU103也可以参照存储器102上的数据组合信息111来判断是否存在上述指定数据,在登记有上述指定数据的情况下,将被当作其组合对象的数据判断为是与指定数据关系深的数据。
然后,CPU103判断是否从用户终端121接收了数据处理的执行请求(步骤1204)。对此,例如也可以在如图13所示的功能组件中设置处理的执行按钮等,数据处理服务器101的CPU103在未检测到执行按钮的按下的情况下判断为尚未接收到执行请求,在检测到执行按钮的按下的情况下判断为已接收到执行请求。在接收到数据处理的执行请求的情况下(步骤1204中“是”),CPU103将所请求的数据处理的执行结果发送到用户终端121(步骤1205),结束处理。在尚未接收到数据处理的执行请求的情况下(步骤1204中“否”),CPU103将在步骤1203的搜索处理中判断为与指定数据关系深的数据作为要与指定数据组合的数据的候补而发送到用户终端121(步骤1206)。经由用户终端121的显示装置125向用户进行提示要组合的数据的候补。以上的处理例如是考虑到以下情况的处理:在用户想要使用某个数据来进行某种处理时,不知道与其他什么样的数据组合来进行处理较好的情况下,到数据处理服务器101接收数据处理的执行请求为止是需要时间的。除了像这样根据接收到数据处理的执行请求为止所需的时间等来将要组合的数据的候补向用户提示或不提示的处理方法以外,也可以进行如下处理:经由用户终端121直接接收用户针对关联数据的询问,并进行应答。例如,数据处理服务器101也可以经由用户终端121接收与某个数据关联的数据是哪个或使用某个数据能够做什么事等用户的询问,对此,基于此前的组合历史信息113或数据组合信息111来求出关联的数据或使用数据能够做的事的候补,并将这些候补经由用户终端121提示给用户,使用户进行选择。
当用户从在步骤1206中提示的候补中选择输入了组合对象时,CPU103从用户终端121接收由用户选择输入的组合对象的数据处理执行请求(步骤1207),执行所请求的数据处理(步骤1208),将该执行结果发送到用户终端121,结束处理。
以上为本发明的第二实施例的说明。
根据以上说明的本发明的实施方式,例如,在包括数据处理服务器和用户终端的数据处理系统中,数据处理服务器具备与数据组合相关的信息即数据组合信息、用于获取公开数据的获取目的地相关的信息及数据获取目的地信息、与数据处理服务器过去进行的数据的组合处理相关的历史信息即组合历史信息以及与数据处理服务器所保持的文件等数据相关的信息即文件信息。
数据处理服务器基于来自用户的输入文件、操作请求的指示,对输入文件进行分析,在各输入文件中按每个要素来统计个数,判断在输入文件之间是否存在个数相同、同一或不同的要素,在存在相应的要素的情况下,判断这种要素之间的组合候补是否有多个,如果有多个则将上述候补提示给用户,基于用户的选择结果来进行数据处理。另外,数据处理服务器基于组合历史信息等来进行数据组合的候补的推定。并且,在数据处理服务器中,关于用户对数据组合的指定,除了从数据组合的候补进行选择以外,还可以通过基于输入文件的构造分析结果而得到的要素之间的关联来进行。作为数据处理服务器的其他方式,数据处理服务器还等待从用户发来输入文件的指定,只要有一个输入文件的指定,就以组合历史信息等为参考来搜索与上述输入关联深的数据,在尚未进行来自用户的操作请求的情况下,将被判断为关联深的上述数据提示给用户,基于用户的选择结果来进行数据处理。
由此,根据本发明的一实施方式,即使是文件构造不类似的文件、形式不同的文件,也能够将数据恰当地组合来进行处理。另外,通过进行数据的组合候补的提示等,即使是对数据的组合方法没有什么知识的用户也能够容易地进行处理。另一方面,对于对数据构造、组合方法有某种程度知识的用户,能够定制更自由的数据的组合。
以上,说明了本发明的实施方式,但是本发明并不限定于这种实施方式,当然,在不脱离本发明的宗旨的范围内能够以各种方式实施。
符号说明
101:数据处理服务器;102、122:存储器;103、124:CPU;104、123:1/F;105:功能执行部;106:数据组合管理部;107:数据分析部;108:数据获取部;109:数据转换部;110:用户协作部;111:数据组合信息;112:数据获取目的地信息;113:组合历史信息;114:文件信息;121:用户终端;125:显示装置;126:服务器协作部;127:用户协作部;141:数据公开服务器。

Claims (12)

1.一种数据处理服务器,其特征在于,具备:
存储部,其存储多个文件;以及
处理器,其进行如下处理:
从用户终端接收第一文件和第二文件的指定、与特定功能有关的数据处理的执行请求,
从所述存储部获取所指定的所述第一文件和所述第二文件,
对所获取的所述第一文件和所述第二文件的构造进行分析,
在分别构成所述第一文件和所述第二文件的各要素中存在个数相同的要素的情况下,将该要素之间相组合来执行所述数据处理,
将该执行的结果发送到所述用户终端。
2.根据权利要求1所述的数据处理服务器,其特征在于,
在所述第一文件和所述第二文件中存在多种所述个数相同的要素的情况下,所述处理器将该要素之间的组合作为组合候补信息而发送到所述用户终端,从所述用户终端接受组合候补的指定,将该指定的要素之间相组合来执行所述数据处理。
3.根据权利要求1所述的数据处理服务器,其特征在于,
所述存储部还存储数据的组合历史信息,
所述处理器在从所述用户终端接收到文件的指定和所述数据处理的执行请求时,参照所述存储部的所述组合历史信息来判断是否存在组合频率高的文件的组合,在存在组合频率高的文件的情况下,将该文件的组合作为组合候补而发送到所述用户终端,从所述用户终端接受组合候补的指定,针对该指定的文件的组合,将分别构成该文件的要素之间相组合来执行所述数据处理。
4.根据权利要求3所述的数据处理服务器,其特征在于,
所述处理器从所述用户终端接受所述组合候补的指定,针对该指定的文件的组合,判断分别构成该文件的要素的个数是否相同,在个数相同的情况下,将该要素之间相组合来执行所述数据处理,在个数不相同的情况下,按照少的一方的要素的个数将要素之间相组合来执行所述数据处理。
5.根据权利要求1所述的数据处理服务器,其特征在于,
所述处理器执行所请求的所述数据处理,判断是否正确地进行了该数据处理,在正确地进行了该数据处理的情况下,从所述用户终端接受对所述数据处理进行模式化的指示,从所述用户终端接收所指定的所述第一文件和所述第二文件的获取源信息,基于所述获取源信息来获取分别与所述第一文件和所述第二文件有关联的数据,并将该获取到的数据作为组合候补而发送到所述用户终端。
6.根据权利要求3所述的数据处理服务器,其特征在于,
所述处理器接受所述文件的指定,参照所述组合历史信息,判别在所述组合历史信息中以高频率进行的文件的组合,判断其中是否存在与所述指定文件相关联的文件的组合,在存在与所述指定文件相关联的文件的组合的情况下,将该文件判断为与所述指定文件关联深的文件,并将该关联深的文件作为与所述指定的文件相组合的文件的候补而发送到所述用户终端,从所述用户终端接受组合候补的指定,针对该指定的文件的组合,将分别构成该文件的要素之间相组合来执行所述数据处理。
7.一种数据处理方法,用于与用户终端连接的数据处理服务器,其特征在于,该数据处理方法进行如下处理:
从用户终端接收第一文件和第二文件的指定、与特定功能有关的数据处理的执行请求,
从存储部获取所指定的所述第一文件和所述第二文件,
对所获取的所述第一文件和所述第二文件的构造进行分析,
在分别构成所述第一文件和所述第二文件的各要素中存在个数相同的要素的情况下,将该要素之间相组合来执行所述数据处理,
将该执行的结果发送到所述用户终端。
8.根据权利要求7所述的数据处理方法,其特征在于,
在所述第一文件和所述第二文件中存在多种所述个数相同的要素的情况下,将该要素之间的组合作为组合候补信息而发送到所述用户终端,从所述用户终端接受组合候补的指定,将该指定的要素之间相组合来执行所述数据处理。
9.根据权利要求7所述的数据处理方法,其特征在于,
在从所述用户终端接收到文件的指定和所述数据处理的执行请求时,参照在所述存储部中存储的组合历史信息来判断是否存在组合频率高的文件的组合,在存在组合频率高的文件的组合的情况下,将该文件的组合作为组合候补而发送到所述用户终端,从所述用户终端接受组合候补的指定,针对该指定的文件的组合,将分别构成该文件的要素之间相组合来执行所述数据处理。
10.根据权利要求9所述的数据处理方法,其特征在于,
从所述用户终端接受所述组合候补的指定,针对该指定的文件的组合,判断分别构成该文件的要素的个数是否相同,在个数相同的情况下,将该要素之间相组合来执行所述数据处理,在个数不相同的情况下,按照少的一方的要素的个数将要素之间相组合来执行所述数据处理。
11.根据权利要求7所述的数据处理方法,其特征在于,
执行所请求的所述数据处理,判断是否正确地进行了该数据处理,在正确地进行了该数据处理的情况下,从所述用户终端接受对所述数据处理进行模式化的指示,从所述用户终端接收所指定的所述第一文件和所述第二文件的获取源信息,基于所述获取源信息来获取分别与所述第一文件和所述第二文件有关联的数据,并将该获取到的数据作为组合候补而发送到所述用户终端。
12.根据权利要求9所述的数据处理方法,其特征在于,
接受所述文件的指定,参照所述组合历史信息,判别在所述组合历史信息中以高频率进行的文件的组合,判断其中是否存在与所述指定文件相关联的文件的组合,在存在与所述指定文件相关联的文件的组合的情况下,将该文件判断为与所述指定文件关联深的文件,并将该关联深的文件作为与所述指定文件相组合的文件的候补而发送到所述用户终端,从所述用户终端接受组合候补的指定,针对该指定的文件的组合,将分别构成该文件的要素之间相组合来执行所述数据处理。
CN201480050607.9A 2013-12-10 2014-10-29 数据处理方法以及数据处理服务器 Active CN105531704B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013254626A JP6173896B2 (ja) 2013-12-10 2013-12-10 データ処理方法およびデータ処理サーバ
JP2013-254626 2013-12-10
PCT/JP2014/078682 WO2015087632A1 (ja) 2013-12-10 2014-10-29 データ処理方法およびデータ処理サーバ

Publications (2)

Publication Number Publication Date
CN105531704A true CN105531704A (zh) 2016-04-27
CN105531704B CN105531704B (zh) 2019-05-10

Family

ID=53370949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480050607.9A Active CN105531704B (zh) 2013-12-10 2014-10-29 数据处理方法以及数据处理服务器

Country Status (4)

Country Link
US (1) US20160224582A1 (zh)
JP (1) JP6173896B2 (zh)
CN (1) CN105531704B (zh)
WO (1) WO2015087632A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595523B (zh) * 2018-03-27 2021-12-17 广东电网有限责任公司广州供电局 设备数据检索模型构建方法、装置及计算机设备
GB201818997D0 (en) * 2018-11-22 2019-01-09 Palantir Technologies Inc Providing external access to a prcoessing platform
EP4049161A4 (en) * 2019-10-24 2023-11-01 Canopy Software Inc. SYSTEMS AND METHODS FOR IDENTIFYING COMPLIANCE-RELATED INFORMATION ASSOCIATED WITH DATA BREACH EVENTS

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1268847A (zh) * 1999-03-25 2000-10-04 索尼公司 编辑设备和编辑方法
CN1813632A (zh) * 2005-01-31 2006-08-09 富士通株式会社 个人认证设备和个人认证方法
CN101040292A (zh) * 2004-10-13 2007-09-19 日生信息技术株式会社 数据管理装置及其方法
CN102340429A (zh) * 2011-10-12 2012-02-01 北京锐安科技有限公司 一种互联网协议还原自动化检测方法
CN102375847A (zh) * 2010-08-17 2012-03-14 富士通株式会社 形成用于生成文档模板的合并树的方法以及装置
CN102792706A (zh) * 2010-01-13 2012-11-21 高通股份有限公司 交互应用在移动广播网络上的动态生成、传送和执行
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111936A1 (en) * 2001-01-19 2002-08-15 Ec Outlook, Inc. System and method for analyzing computer intelligible electronic data
JP2003337728A (ja) * 2002-05-17 2003-11-28 Hitachi Ltd データファイル履歴管理方法およびその装置
US7426520B2 (en) * 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
JP2005135221A (ja) * 2003-10-31 2005-05-26 Turbo Data Laboratory:Kk 表形式データの結合方法、結合装置およびプログラム
JP4992072B2 (ja) * 2005-08-16 2012-08-08 国立大学法人東京工業大学 複数のxml文書の類似性検出システム、および、複数のxml文書の統合システム
JP4829317B2 (ja) * 2009-02-06 2011-12-07 株式会社東芝 構造化文書間整合管理装置及びプログラム
JP5458880B2 (ja) * 2009-03-02 2014-04-02 富士通株式会社 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
US8219596B2 (en) * 2010-03-08 2012-07-10 Sap Ag System and method of optimizing performance of schema matching
US9098550B2 (en) * 2012-05-17 2015-08-04 Sap Se Systems and methods for performing data analysis for model proposals

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1268847A (zh) * 1999-03-25 2000-10-04 索尼公司 编辑设备和编辑方法
CN101040292A (zh) * 2004-10-13 2007-09-19 日生信息技术株式会社 数据管理装置及其方法
CN103258291A (zh) * 2004-10-13 2013-08-21 日生信息技术株式会社 数据管理装置及其方法
US20140012845A1 (en) * 2004-10-13 2014-01-09 Nissay Information Technology Co., Ltd. Data management apparatus and method thereof
CN1813632A (zh) * 2005-01-31 2006-08-09 富士通株式会社 个人认证设备和个人认证方法
CN102792706A (zh) * 2010-01-13 2012-11-21 高通股份有限公司 交互应用在移动广播网络上的动态生成、传送和执行
CN102375847A (zh) * 2010-08-17 2012-03-14 富士通株式会社 形成用于生成文档模板的合并树的方法以及装置
CN102340429A (zh) * 2011-10-12 2012-02-01 北京锐安科技有限公司 一种互联网协议还原自动化检测方法
CN103324646A (zh) * 2012-03-19 2013-09-25 株式会社东芝 检索支援装置及检索支援方法

Also Published As

Publication number Publication date
US20160224582A1 (en) 2016-08-04
WO2015087632A1 (ja) 2015-06-18
JP6173896B2 (ja) 2017-08-02
CN105531704B (zh) 2019-05-10
JP2015114743A (ja) 2015-06-22

Similar Documents

Publication Publication Date Title
CN104268664B (zh) 一种推荐拼车路线的方法及装置
US9576046B2 (en) Methods for integrating semantic search, query, and analysis across heterogeneous data types and devices thereof
EP3316586A1 (en) Information pushing method and device
CN103425741A (zh) 一种信息展示方法和装置
JP2015204103A (ja) 対話型の検索及び推奨方法並びにその装置
Hu et al. Spatial data infrastructures
EA201300375A1 (ru) Способ организации поисковой базы данных с использованием нечетких критериев
US20090276398A1 (en) Search server
CN103677866A (zh) 应用程序扩展工具推送方法及系统
CN104965847A (zh) 信息展示方法及装置
CN106407377A (zh) 基于人工智能的搜索方法和装置
CN108197242A (zh) 搜索推荐词的推送方法、装置及服务器
US20180129660A1 (en) Method and apparatus for pushing information
CN103812906B (zh) 一种网址推荐方法、装置和通信系统
CN109408701A (zh) 一种网络爬虫爬取路径的展示方法和装置
CN103177025A (zh) 一种互动问答信息系统回答信息的推荐方法和装置
CN105531704A (zh) 数据处理方法以及数据处理服务器
CN103226567A (zh) 旅行管理
CN103793495A (zh) 应用信息检索方法及系统和应用信息获取方法及系统
CN105893396A (zh) 基于附近位置来解释用户查询
CN111177589A (zh) 一种地址信息的查询方法、装置、设备及存储介质
RU2014107354A (ru) Способ, система и компьютерная программа для управления информацией из социальных сетей
JP2018529149A (ja) 情報をプッシュ配信する方法及び装置
CN106796599A (zh) 基于附近位置解释用户查询
CN105940398B (zh) 一种信息搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant