WO2016129124A1 - Data analysis system, data analysis method, and data analysis program - Google Patents

Data analysis system, data analysis method, and data analysis program Download PDF

Info

Publication number
WO2016129124A1
WO2016129124A1 PCT/JP2015/054041 JP2015054041W WO2016129124A1 WO 2016129124 A1 WO2016129124 A1 WO 2016129124A1 JP 2015054041 W JP2015054041 W JP 2015054041W WO 2016129124 A1 WO2016129124 A1 WO 2016129124A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
evaluation
classification
analysis system
classify
Prior art date
Application number
PCT/JP2015/054041
Other languages
French (fr)
Japanese (ja)
Inventor
秀樹 武田
彰晃 花谷
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to PCT/JP2015/054041 priority Critical patent/WO2016129124A1/en
Publication of WO2016129124A1 publication Critical patent/WO2016129124A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a data analysis system that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user.
  • a business operator who conducts consulting services summarizes the results of various projects, such as business consulting related to company personnel and accounting, management consulting related to corporate acquisitions, integration, etc., and industry consulting specialized in specific industries. It is preferable to be able to refer to and use the reports from time to time so that the quality of consulting can be improved and the project can be carried out efficiently. To be able to see the project results, it is necessary to evaluate the project and record the evaluation results.
  • JP 2010-033424 As a system related to project evaluation, for example, there is one described in JP 2010-033424. This system is intended to help project managers understand the situation and create documents by simply presenting information and documents on the project activity status and results at the end of the project or during a specific period.
  • a project management system that manages the execution of tasks, and a task database that subdivides the tasks performed in a project and records the tasks and information related to the tasks together with the time when the information related to the tasks was created
  • a document database for storing documents related to tasks, and an information extraction unit for extracting specific information for extracting information representing a project at a specific point in time from the task database and the document database. .
  • the perspectives for classifying project evaluations include, for example, the passage of time, such as where the social significance of a project used to be important, but now customer satisfaction is emphasized. However, it usually changes depending on the situation, and when trying to use the evaluation of the project, there was a problem that a case suitable for the purpose of use was not selected accurately.
  • the present invention provides a data analysis system, a method for the same, and a computer program capable of accurately selecting useful data suitable for the purpose of utilization that can change dynamically from a data group. With the goal.
  • a first invention is a data analysis system including a controller that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user, The controller extracts a part of the data from the data group, and classifies the part of the evaluation criteria having contents related to the purpose when trying to classify the desired data.
  • Set for the partial data classify the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria, and use the classification result for the partial data
  • the target data other than the extracted partial data in the data group are evaluated in order according to the classification of the partial data, and the evaluation result for the target data Using, characterized in that said desired data is to be separated from the data group.
  • a second invention is a data analysis method in which a controller executes a process for separating desired data from a data group stored in a memory in accordance with a predetermined purpose of the user.
  • the evaluation criteria having the contents related to the purpose are classified.
  • Set classify the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria, and extract the data group using the classification result for the partial data
  • the target data other than a part of the data is ranked and evaluated in accordance with the classification of the part of the data, and the desired data is converted into the desired data using the result of the evaluation on the target data. It was set to be fractionated from over data group, characterized in that.
  • a third invention is a data analysis program for causing a computer to execute processing for separating desired data from a data group according to a predetermined purpose of the user, and extracts a part of the data from the data group,
  • an evaluation criterion having contents related to the purpose is set for the partial data in order to classify the partial data, and based on the evaluation criterion
  • the partial data is classified according to the evaluation result of the extracted partial data, and the target data other than the extracted partial data in the data group using the classification result for the partial data. So that the desired data can be separated from the data group using the result of the evaluation on the target data. It was characterized by.
  • the data when trying to classify desired data, since the evaluation criteria having contents related to the purpose of the user are set each time, the data is classified in advance from a specific viewpoint, Compared to the case where the data to be referred to must be selected from the range, a data analysis system, method and computer capable of accurately selecting useful data suitable for the purpose of use from the data group A program can be provided.
  • FIG. 1 is a block diagram showing a hardware configuration of the data analysis system.
  • the data analysis system includes a business server 14 capable of executing core processing of data processing, one or a plurality of client devices 10 capable of executing peripheral processing of data analysis, and document data, image data, and audio data relating to project results.
  • a management computer that executes a management function for data analysis on a storage system 18 including a database 22 that records project-related data, evaluations on project-related data, and classification results, and a client device 10 and a business server 14 12.
  • the client device 10 provides a part of project-related data of an existing project as sampling data to a user who is authorized to evaluate and classify the project results, and the authorized user evaluates and classifies the sampling data. To be able to.
  • the client device 10 includes known computer hardware resources. Specifically, the client device 10 includes an input device such as a memory (HDD, flash memory, etc.), a controller (CPU), a bus, a keyboard, and an output such as a display. An input / output interface for the apparatus and a communication interface between the business server 14 and the management computer 12 are provided. The client device 10 is connected to the business server 14 and the management computer 12 by communication means 20 such as a LAN.
  • communication means 20 such as a LAN.
  • the application program necessary for evaluation and classification of sampling data is stored in the memory.
  • the controller can perform input / output necessary for classification and evaluation processing to authorized users. To.
  • the business server 14 performs classification on relational data related to project results other than the sampling data using the classification result on the sampling data.
  • the management computer 12 includes the client device 10 and the business Necessary management processing is executed for the server 14. Similar to the client device 10, the business server 14 and the management computer 12 are configured to include a memory (HDD, flash memory, etc.), a controller (CPU), and a communication interface as hardware resources.
  • an application program for executing classification on related data is stored, and the controller executes data search, arithmetic processing, and the like based on the program.
  • the memory of the management computer 12 stores an application program for the controller to execute management processing.
  • the storage system 18 is composed of, for example, a disk array system, and includes a data group including related data relating to project results, and a database 22 that records evaluation and classification results for the related data.
  • the business server 14 and the storage device 18 are connected (16) by the DAS method or SAN.
  • Related data relating to the results of each of a plurality of projects exists for each of a plurality of projects as events in the field of consulting business, and the database 22 stores a plurality of related data as a data set.
  • the hardware configuration shown in FIG. 1 is merely an example, and the data analysis system can be realized by other hardware configurations.
  • a configuration in which part or all of the processing executed in the business server 14 is executed in the client device 10 may be performed, or the storage system 18 may be built in the business server 14.
  • the hardware configuration is not limited to any one (for example, the configuration illustrated in FIG. 1). .
  • the business server 14 extracts an extraction unit 102 that extracts a part of data (sampling data) based on a predetermined standard from relation data of project results stored in the database 22.
  • a display processing unit 103 that displays sampling data and the like on the screen of the client device 10;
  • a classification code receiving unit 104 that receives a classification code setting (tagging) request from a user with evaluator authority for the sampling data;
  • the extracted sampling data is classified for each classification code, and the characteristics of the sampling data, for example, related data elements are analyzed and selected from the classified sampling data, and the degree of influence of the characteristics (related The evaluation unit for the data element), the selected data element,
  • the storage execution unit 201 for storing the value in the database 22 and a search process for the database are performed, and the data element is searched from the relational data related to the project result other than the sampling data (hereinafter referred to as unknown data).
  • a score corresponding to the relevance between the classification code and the unknown data is obtained for each unknown data using the search unit 106, the search result obtained by the search unit 106, the data element determined by the selection unit 105, and the evaluation value.
  • a learning unit 110 that increases or decreases the evaluation value of the data element.
  • the configuration described as the **** unit such as the extraction unit, is a functional configuration realized by the controller based on the program, and thus the **** unit may be rephrased as **** processing.
  • the **** part can be replaced with hardware resources as necessary. That is, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
  • Sampling data is relational data related to the results of a predetermined number of projects extracted based on a predetermined standard among a plurality of projects recorded in the database 22.
  • the evaluator authority user refers to the contents of the sampling data and evaluates the sampling data, and the business server 14 classifies the sampling data based on the evaluation result of the sampling data, that is, classifies the sampling data.
  • the relationship data related to the remaining project results other than the sampling data is the target data to be analyzed by the data analysis system, but it has not undergone the evaluation and classification work of the evaluator authority user. In other words, it can be abbreviated as unknown data.
  • the data analysis system learns the evaluation and classification results of evaluator-authorized users in the sampling data and executes classification on the target data consisting of unknown data. For the analysis system, it has meaning as training data.
  • the classification code is an identifier (tag) for classifying sampling data and unknown data.
  • An evaluation criterion is whether or not a tag is given to sampling data.
  • the evaluation criteria may be rephrased as an evaluation viewpoint or an evaluation axis.
  • the evaluation criterion is to classify the data in the database 22 for any purpose, for example, a project in which a user is judged as an optimum result for achievement of his / her own project among a large number of past projects.
  • the contents change in relation to the purpose when the user wants to obtain the data separately for reference, that is, when the user desires to separate the data desired from other data.
  • evaluation index 1 to a customer was the degree of influence large?
  • evaluation index 2 was the project's social attractiveness high?
  • evaluation index 3 was the customer's contribution to human resource development large?
  • evaluation index 4 Is the project highly efficient?
  • evaluation index 5 Is the compatibility with the customer's management strategy and business strategy high? As long as it is easy to be conscious by consulting firms whose main business is advice on various corporate activities, such as, one or more can be set.
  • the data analysis system sets evaluation criteria when attempting to classify data in a database, which is a data analysis target, for a predetermined purpose.
  • the business server 14 sets a tag (flag) corresponding to the evaluation standard. For example, if the evaluator authority user affirms all the evaluation indexes 1-5, five types of tags are set for the sampling data.
  • the selection unit classifies the sampling data based on tagging of the sampling data. For example, the first sampling data is classified as “yes” for all of the evaluation indexes 1-5, and the second sampling data is “yes” for the evaluation indexes 1-4 and “no” for the evaluation item 5. And so on.
  • the correspondence mode between the set number of tags and the number of classification items is appropriately determined, for example, the sampling data is classified as “relevant”.
  • One tag is not limited to 1: 1 correspondence with one classification item.
  • the evaluation policy for the evaluation index varies depending on the evaluator authority users, so a tag is set for each evaluator authority user. Therefore, in addition to the evaluation index, the evaluator authority user itself is a specific example of the evaluation standard.
  • the data analysis system can ensure the diversity of evaluation, that is, satisfy the change in the utilization purpose of data and the diversity thereof.
  • Data is mainly document data, but widely includes image data, audio data, video data, and the like.
  • Document data is digital information including at least text information. For example, e-mails, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, etc., have incomplete structural definitions. Wide-ranging data (unstructured data such as natural language).
  • a data element is a meaningful element that forms at least part of the related data.
  • a typical data element is a keyword of document data.
  • a keyword is a group of character strings having a certain meaning in a certain language, that is, a morpheme.
  • sentences and paragraphs can also be data elements.
  • a partial image of the entire image, a partial audio of the entire audio, and a partial frame of all the frames of the video correspond to data elements.
  • the data analysis system extracts useful data elements from a plurality of sampling data classified according to a predetermined classification code and assigned the same classification code, and classifies unknown data in the same way as sampling data based on the data elements. Analyze whether it can be done. Data elements are extracted for each of a plurality of classification codes.
  • the data elements including the keyword selected by the selection unit 105 are recorded in the database 22. Further, the business server 14 determines in advance the data elements that can be classified as excellent if the result of the project is highly relevant to the superiority or inferiority of the project and is included in the relational data, Can be registered in the database.
  • the database data elements that are highly relevant to the relational data to which the code relating to the excellence of the project has been assigned.
  • the keywords once registered in the database 201 are increased or decreased according to the learning result by the learning unit 110, and can be additionally registered and deleted manually.
  • a management user having administrator authority executes a request 300 for extracting sampling data to the management computer 12.
  • a form of the extraction request a form in which relational data of a predetermined number of projects is randomly sampled from relational data related to the result of the project recorded in the database 22, relational data of a predetermined range of projects, for example, projects
  • relational data of a predetermined range of projects for example, projects
  • a predetermined number of project-related data is sampled in order from the latest end date and time.
  • the predetermined number can be appropriately set by the management user, such as a predetermined percentage of the total number of projects.
  • the management computer 12 generates an extraction command based on the extraction request and transmits it to the business server 10 (302).
  • the extraction unit 102 of the business server 14 extracts a predetermined number of sampling data from the database 22 based on the management command from the management computer 12 (304).
  • FIG. 4 shows an interface (input screen) of the evaluation criteria setting tool, which includes a plurality of evaluation index input fields 400 and a user ID input field 402 to which classification evaluation authority is given.
  • the management user can input one or a plurality of evaluation indexes. Furthermore, the management user can freely define the content of the evaluation index without limitation as in the above-described evaluation index 1-5. Therefore, even if the purpose of using project deliverables may change depending on the environment and individual preferences, the data analysis system can dynamically change the evaluation index (evaluation criteria) accordingly. .
  • the results of the project that can be consistent with the current utilization purpose are always presented to the user.
  • the management user may be allowed to select a desired one from those of a prescribed evaluation index from a pull-down menu.
  • the evaluation and classification policies and positions for sampling data differ for each evaluator. For example, evaluator A wants to sort out projects that have a large “degree of influence on customers”, while evaluator B wants to sort out projects that have a large “social attractiveness of projects”. This is when you have a purpose. The same applies when the background of the evaluator is different.
  • a development manager (a tendency to evaluate with emphasis on the technical aspects of the project), a finance manager (a tendency to evaluate with a focus on the cost management of the project), a planning manager (an evaluation with emphasis on the significance of the project theme) ), A customer response manager (a tendency to evaluate with an emphasis on customer satisfaction of the project), and a labor manager (a tendency to evaluate with an emphasis on labor management in the project process).
  • the reason why the data analysis system allowed the participation of multiple evaluators for the same evaluation index is to give diversity to the data classification results.
  • the purpose of utilizing project results varies from individual to individual. However, if there are diversity in the classification results of data, individuals who intend to utilize the results of the project will be evaluated by evaluators who tend to follow their own purpose of utilization.
  • the classification result can be referred to.
  • an individual who wants to use what is related to the outcome of a project in a project he / she is working on is more than the result of evaluator A who emphasizes the “degree of influence on customers”. This is a case where an evaluation and classification result by an evaluator B who places emphasis on "is desired.
  • the management computer 12 When the management computer 12 receives the evaluation standard setting information from the management user, the management computer 12 sends it to the client device 10 (specific client device) of the evaluator authority user (310), and also sends it to the business server (308).
  • the business server 10 sends the sampling data extracted by the extraction unit 102 to the specific client device (312).
  • the specific client device executes the classification evaluation setting program to activate the evaluation classification input interface, and presents the evaluation classification input screen to the evaluator authority user.
  • FIG. 5 shows an example of the screen, which includes a sampling data list 500, contents 504 for each of a plurality of evaluation indices, and a check box 502 for each evaluation index.
  • the list of sampling data is presented as a project ID 510 and a project name 512 (for example, **** Construction of a personnel evaluation system for a company).
  • Details 506 include text data including an outline of the contents of the project and an evaluation of the project.
  • the evaluator authority user reviews each of the evaluation indexes in order while referring to the sampling data details 506, and evaluates whether or not each evaluation index is established. For example, when the evaluator authority user determines that the sampling data (evaluation index 1) has a large influence on the customer, the check box corresponding to the evaluation index 1 is checked.
  • evaluation index 2 evaluates that the project's social attractiveness is not large.
  • the check box corresponding to evaluation index 2 is not checked.
  • a tag for the checked evaluation index is set by the business server 14.
  • the client device 10 transmits evaluation classification input information to the business server 14 (314).
  • the business server 14 determines the necessity of tag setting for each evaluation index and each evaluator user based on the evaluation classification input information obtained from all evaluator authority users, and registers the result in the database 22.
  • the selection unit 105 of the business server 14 refers to the tag setting information in the database 22 and automatically classifies unknown data from a collection of sampling data in which tags are set for each evaluation index and for each evaluator user.
  • useful data elements that are characteristic of the above are extracted according to a predetermined selection criterion.
  • “beneficial” means that it is effective for evaluating whether or not the same tag should be set for unknown data having content similarity with the sampling data in which the tag is set. .
  • the selection unit 105 of the business server 14 extracts useful data elements for the classification evaluator A based on the sampling data in which the tag of the first evaluation index is set, and uses this for all evaluations after the second evaluation index. Repeat for indicators. Further, the selection unit 105 repeats this for the remaining evaluator authority users. Therefore, the selection unit 105 extracts useful data elements for each evaluation index and for each evaluator authority user.
  • useful data elements include a plurality of sampling data with a tag, or a keyword that appears at a predetermined frequency or more in a predetermined number of sampling data. Note that useful data elements may be set by an administrative user.
  • the selection unit 105 evaluates the usefulness level of each of the plurality of data elements according to a predetermined evaluation criterion.
  • a predetermined evaluation criterion a data element can be evaluated using a transmission information amount indicating a dependency relationship with an evaluation index. For example, when a selection unit extracts a keyword as a data element from document information (text), the keyword is evaluated by calculating a keyword weight. “Weight” refers to the degree of the evaluation value, such as the magnitude, degree, superiority, inferiority, etc. of the data element, regardless of the type of the data element, such as a keyword, partial sound, partial image, or partial video. That's what it says.
  • the learning unit 110 calibrates the weight of each keyword according to a predetermined algorithm.
  • the learning unit 110 includes a plurality of data elements constituting at least a part of training data in a training data set (a data set including a plurality of combinations of training data and classification information (tags) for classifying the training data).
  • the degree of contribution to a plurality of combinations included is evaluated as the weight based on a predetermined criterion (for example, the amount of transmitted information).
  • the learning unit 110 repeatedly reevaluates the weight of each keyword until the score of the sampling data with the tag set is higher than the score of the sampling data with no tag set, and determines the weight. It can be recalculated.
  • the learning unit 110 calculates a score for sampling data for which the evaluator has already performed setting and non-setting of tags based on the weights calculated once, and arranges the sampling data according to the magnitude of the score. . At this time, it is desirable that the sampling data with the tag set be arranged in a higher rank than the sampling data with no tag set.
  • the learning unit 110 continues to correct the weights until such a sequence is obtained. Then, the learning unit 110 determines whether or not the tag is set for the unknown data, with an intermediate value between the lowest score of the sampling data with the tag set and the highest score of the sampling data with no tag set. Is a threshold for automatic determination. The learning unit 110 calculates the weight wgt of the data element using, for example, the following equation (1).
  • wgt indicates the initial value of the weight of the i-th selected keyword before learning.
  • Wgt represents the weight of the i-th selected keyword after the L-th learning.
  • means a learning parameter in the L-th learning, and ⁇ means a learning effect threshold.
  • the business server 14 stores the data element extracted by the selection unit 105, the evaluation value for each data element, and the threshold value in the database.
  • the data element, the evaluation value of the data element, and the threshold value are stored in the database for each evaluation index and each classification evaluator.
  • the business server 14 compares the data element with the unknown data, and evaluates and determines the degree of relevance between the classification result of the sampling data and the unknown data, and the classification of the unknown data is input by the user.
  • the search unit 106 takes in a plurality of unknown data to be automatically classified from the database 22 and sequentially reads a plurality of data elements recorded from the database for the unknown data of each project. The presence or absence is searched (320).
  • the score calculation unit 107 calculates a score of unknown data based on an evaluation value corresponding to the searched data element when there is a data element searched by the search unit 106 for each unknown data.
  • the data is ordered (322).
  • the score calculation unit 107 can calculate a score from the following formula based on the weight of the keyword.
  • the score is a quantitative evaluation of the strength of association of unknown data with a classification code.
  • the score calculation unit 107 calculates the result of evaluating the first data element included in the data (weight of the first data element) and the result of evaluating the second data element included in the data (second data element). The score may be calculated based on the weight. That is, when the first data element appears in the data, the score calculation unit 107 also refers to the frequency at which the second data element appears in the data (that is, the correlation or co-occurrence between the first data element and the second data element). ) Can be taken into account. Thereby, since the data analysis system can calculate the score in consideration of the correlation between the data elements, it can extract the unknown data related to the training data with higher accuracy.
  • the score calculation unit 107 not only ranks the data by calculating a score for each data (assuming the evaluation result of the data), but also, for example, scores for each sentence or paragraph included in the data. Calculate and integrate the scores (for example, by extracting the maximum score value or adding a predetermined number of scores in descending order), and the integrated score is used as the evaluation result of the data You can also. Thereby, the data analysis system can more accurately select useful data suitable for the purpose of use from the data group.
  • the score calculation unit 107 represents the emotion of the user who generated the data and the emotion for the event generated based on the evaluation. Can be extracted from.
  • the score calculation unit 107 can also cluster the data for each context included in common in the data. Further, the score calculation unit 107 is provided for each phase (for example, a proposal stage, an execution stage, etc.) that is an index indicating each stage in which a predetermined action (for example, an action in which a consultant proposes a solution to a problem to a customer) progresses. It is also possible to evaluate the data and identify the current phase based on the result of the evaluation.
  • a predetermined action for example, an action in which a consultant proposes a solution to a problem to a customer
  • the automatic classification unit 108 automatically evaluates the unknown data based on the evaluation of the sampling data, the digitized index related to the relationship between the classification result and the unknown data, that is, the calculated score, and is the same as the data element. Decide whether to set tags. If the score is equal to or greater than the above-described threshold, a tag is set for unknown data.
  • the business server 14 may exclude, in advance from unknown data, unknown data that does not include keywords registered in the database 22 in advance, related terms, and data elements selected by the selection unit 105 from the target of score calculation. Is possible.
  • the business server 14 registers a score in the database 22 for each unknown data.
  • FIG. 7 shows an example of a table registered in the database. For each unknown data (data 1, 2, 3,...), For each evaluation index (evaluation index 1-5), for each evaluator (evaluator A). , B), the score is recorded. Each of Ad represents a score value.
  • the business server 14 determines the establishment of the tag based on the score value, and the tag information is a database for each of the unknown data for each evaluation index (evaluation index 1-5) and for each evaluator (evaluation A, B). May be registered. Evaluation of unknown data on the business server is based on the superiority or inferiority of multiple unknown data such as the above-mentioned score. Tags are set for each of multiple unknown data, and multiple unknown data are identified based on the magnitude of the score. It includes predetermined calculation processing based on the degree of relevance of a plurality of unknown data to the sampling data, such as enabling the data to be performed.
  • An evaluation index one or more of the evaluation indexes 1-5) and an evaluator (one evaluator or a plurality of evaluators) may be designated and transmitted to the business server 14.
  • the business server 14 extracts project-related data in which a classification tag is assigned to the evaluation index specified with reference to the database 22 and the score is evaluated using the evaluation by the specified evaluator. And the score value of each evaluation index is transmitted to the client device 10.
  • the client device sorts and displays the project related data in descending order of score values.
  • FIG. 8 is an example of the display screen, and shows the score value of the evaluator A who has selected the evaluation index 1-5.
  • Each aj is a score.
  • the total value is an index that comprehensively evaluates the selected evaluation index, and is, for example, the total value or average value of the scores of the evaluation index. In this case, the higher the data, the higher the score in terms of the selected evaluation items.
  • the weight of each evaluation value may be changed. For example, the evaluation index 1 is regarded as important, the weight is set to 40%, and the rest is set to 15%. Further, the score values may be sorted for each evaluation index.
  • the data analysis system uses the gradation corresponding to the ratio that the data associated with the predetermined classification information (tag) occupies for all the data, and the ratio of the ratio to the result of evaluating each of the plurality of data.
  • the distribution can be displayed so as to be visible. For example, in the data analysis system, the percentage of data that was judged by the evaluator as “the degree of influence on the customer was large” (that is, the tag for the evaluation criterion 1 was set) increased in all data.
  • the distribution of the ratio with respect to the score calculated with respect to the data can be displayed using a gradation that changes from green to red.
  • the data analysis system can also evaluate data based on a plurality of evaluation criteria and display a radar chart showing the plurality of evaluation results with the plurality of evaluation criteria as axes.
  • the data analysis system is described as being realized by the client device and the server, but may be realized by the client device.
  • the system that can evaluate and classify the project results and select the most suitable for utilizing the results of past projects has been explained. Therefore, the present invention can be applied to other technical fields in which electronic medical records are utilized in hospitals.
  • the feature of the present invention is that when trying to classify desired data, Since the evaluation criteria having contents related to the purpose of the user are set each time, the data is classified in advance from a specific viewpoint, and the data to be referred to must be selected from the range. In comparison, useful data suitable for the purpose of utilization can be accurately selected from the data group, and therefore the number of evaluators and evaluation criteria may be singular.
  • a data analysis system can be applied to an information asset utilization system that utilizes information stored in a company.
  • this data analysis system is realized as a system that utilizes (dynamically) information assets possessed by companies / experts according to the situation, and, for example, (1) it is desired to shorten the development period.
  • information on products developed in the past can be reused according to the requirements of the development, or (2) useful information assets can be identified based on the expertise possessed by skilled engineers.
  • the evaluation criteria of the data analysis system are appropriately changed according to the characteristics of the target, such as the technical field to which the target for utilizing the target data belongs, the technical or economic characteristics of the target, etc.
  • the useful data thus selected can be accurately selected from a large group of data. This also applies to other technical fields described below.
  • the data analysis system of the present invention can also be applied to Internet application systems.
  • the data analysis system uses data (for example, a message posted by the user to the SNS, recommended information posted on the website, a profile of the user or organization, etc.) as a predetermined evaluation criterion (for example, the user's preference). For example, whether the user's preference is similar to the user's preference, whether the user's preference matches the restaurant attribute, etc. It is possible to display a list of other users, present restaurant information that suits the user's preferences, and warn organizations that may harm the user. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to a driving support system.
  • the data analysis system determines whether the data (for example, data acquired from an in-vehicle sensor, a camera, a microphone, or the like) is information that the skilled driver has focused on during a predetermined evaluation standard (for example, driving by the skilled driver). For example, useful information that can make driving safe and comfortable can be automatically extracted. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to financial related systems.
  • the data analysis system uses the data (for example, a report document to the bank, the market price of the stock price, etc.) for a predetermined evaluation standard (for example, whether there is a risk of fraud or whether the stock price increases).
  • a report having an unauthorized purpose can be detected, or a future stock price can be predicted.
  • the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to a medical application system (a system that estimates whether or not a specific dangerous behavior of a victim is caused by using electronic medical records, nursing records, patient diaries, etc. as data).
  • the data analysis system evaluates data (e.g., electronic medical record, nursing record, patient diary, etc.) based on a predetermined evaluation standard (e.g., whether or not to take a specific dangerous action of the patient).
  • a predetermined evaluation standard e.g., whether or not to take a specific dangerous action of the patient.
  • a predetermined evaluation standard e.g., whether or not to take a specific dangerous action of the patient.
  • the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to a smart mail system.
  • the data analysis system evaluates the data (for example, e-mail, attached file, etc.) based on a predetermined evaluation standard (for example, whether it is necessary to reply to the e-mail), For example, important mails (mails that require action) can be extracted from a large number of mails. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can also be applied to a discovery support system.
  • the data analysis system evaluates the data (eg, document, e-mail, spreadsheet data, etc.) based on a predetermined evaluation standard (eg, whether or not to submit to the lawsuit), for example, Only documents related to this case may be submitted to the court. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to a forensic system.
  • the data analysis system uses data (eg, documents, e-mails, spreadsheet data, etc.) based on predetermined evaluation criteria (eg, whether the data is evidence that can prove criminal activity). For example, evidence that proves the criminal act can be extracted. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to an email audit system.
  • the data analysis system uses the data (for example, e-mail, attached file, etc.) based on a predetermined evaluation standard (for example, whether or not the user who sent / received the e-mail tried to cheat) By evaluating, for example, a sign of fraud such as information leakage or collusion can be found.
  • a sign of fraud such as information leakage or collusion can be found.
  • the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system can be applied to a patent search system.
  • the data analysis system can use the data (eg, patent literature, documents summarizing the invention, etc.) for a predetermined evaluation standard (eg, the patent literature can provide evidence that the given patent is rejected / invalidated).
  • the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
  • the data analysis system is not only a project evaluation system but also a forensic system, a discovery support system, a medical application system, an email audit system, an Internet application system, a driving support system, a financial system, a patent research system, etc.
  • the present invention can be applied to any system that achieves an object by evaluating based on a predetermined evaluation standard.
  • the present invention can be widely applied to arbitrary computers such as personal computers, servers, workstations, mainframes, and the like.
  • Client device 12 Management computer 14
  • Business server 18 Storage system 22 Database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention is a data analysis system provided with a controller for executing a process to separate desired data in accordance with the prescribed purpose of a user from a data constellation stored in memory, wherein the data analysis system is configured such that, when extracting part of the data from the data constellation and separating the desired data, the controller can set an evaluation criterion having content associated with the aforementioned purpose for the aforementioned part of the data in order to classify the aforementioned part of the data, classify the aforementioned part of the data in accordance with the evaluation result of the extracted part of the data on the basis of the evaluation criterion, rank and evaluate object data among the data constellation other than the extracted part of the data in conformity with the classification of the aforementioned part of the data by utilizing the classification result of the aforementioned part of the data, and separate the desired data from the data constellation by utilizing the result of evaluation of the object data.

Description

データ分析システム、データ分析方法、およびデータ分析プログラムData analysis system, data analysis method, and data analysis program
 本発明は、メモリに記憶されたデータ群から、ユーザの所定目的にしたがって所望のデータを分別するための処理を実行するデータ分析システムに関するものである。 The present invention relates to a data analysis system that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user.
 近年の知的情報産業の発展に伴って、知的情報産業に関係する事業者は多量の情報を取り扱い、それに伴い、多量の情報を事業者内外のコンピュータシステムに蓄積するだけでなく、蓄積した情報を有効に活用しなければならない状況になってきている。 With the development of the intellectual information industry in recent years, operators related to the intellectual information industry handle a large amount of information, and in addition to this, a large amount of information has been accumulated not only in the computer system inside and outside the operator. It is becoming a situation where information must be used effectively.
 例えば、コンサルティング業務を行う事業者は、企業の人事や会計等に係る業務コンサルティング、企業買収、統合等に係る経営コンサルティング、特定の業種に特化した業種コンサルティング等各種プロジェクトの結果を報告書として纏め、コンサルティングの品質を向上させたり、プロジェクトを効率的に進めたりできるように、報告書を随時参照して活用できるようにすることが好ましい。プロジェクトの結果を参照できるようにするには、プロジェクトを評価し、評価結果を記録しておくことが必要である。 For example, a business operator who conducts consulting services summarizes the results of various projects, such as business consulting related to company personnel and accounting, management consulting related to corporate acquisitions, integration, etc., and industry consulting specialized in specific industries. It is preferable to be able to refer to and use the reports from time to time so that the quality of consulting can be improved and the project can be carried out efficiently. To be able to see the project results, it is necessary to evaluate the project and record the evaluation results.
 プロジェクトの評価に係るシステムとして、例えば、特開2010-033424号公報に記載されたものが存在する。このシステムは、プロジェクト終了時や特定期間でのプロジェクトの活動状況や成果に関する情報や文書を簡単に提示することで、プロジェクト管理者の状況把握や文書の作成を支援することを目的として、プロジェクトのタスクの遂行を管理するプロジェクト管理システムであって、プロジェクトで実施するタスクを細分化し、タスクと当該タスクに関わる情報とを、タスクと当該タスクに関わる情報が作成された時間とともに記録するタスクデータベースと、タスクに関わる文書を格納する文書データベースと、タスクデータベースと文書データベースとから、特定の時点でのプロジェクトを代表する情報を抽出する特定の情報を抽出する情報抽出部と、を備えるというものである。 As a system related to project evaluation, for example, there is one described in JP 2010-033424. This system is intended to help project managers understand the situation and create documents by simply presenting information and documents on the project activity status and results at the end of the project or during a specific period. A project management system that manages the execution of tasks, and a task database that subdivides the tasks performed in a project and records the tasks and information related to the tasks together with the time when the information related to the tasks was created A document database for storing documents related to tasks, and an information extraction unit for extracting specific information for extracting information representing a project at a specific point in time from the task database and the document database. .
特開2010-033424号公報JP 2010-033424
 プロジェクトの成果を活用できるようにするためには、事前に、プロジェクトの成果を評価することに留まらず、評価結果をできるだけ細分化して分類し記録しておくことが必要である。このようにすることによって、プロジェクトの成果を活用しようとする者は、活用目的に適した事例を数多くのプロジェクトの中から適格、かつ、効率よく選択できるようになる。 In order to be able to utilize the project results, it is necessary to classify and record the evaluation results in advance as much as possible, rather than just evaluating the project results. By doing so, a person who intends to utilize the results of the project can qualify and efficiently select a case suitable for the purpose of utilization from among many projects.
 しかしながら、プロジェクトの評価を分類するための観点は、例えば、以前は、プロジェクトの社会的な意義が重視されていたものが、現在では顧客の満足が重視されるようになるなど、時間の経過や、状況に応じて変わってくることが普通であり、プロジェクトの評価をいざ利用しようとしたときには、活用目的に適した事例が的確に選択されない、という課題があった。 However, the perspectives for classifying project evaluations include, for example, the passage of time, such as where the social significance of a project used to be important, but now customer satisfaction is emphasized. However, it usually changes depending on the situation, and when trying to use the evaluation of the project, there was a problem that a case suitable for the purpose of use was not selected accurately.
 そこで、本発明は、動的に変化し得る活用目的に適した有用データを、データ群のなかから的確に選択できるようにしたデータ分析システム、及び、その方法、並びに、計算機プログラムを提供することを目的とする。 Therefore, the present invention provides a data analysis system, a method for the same, and a computer program capable of accurately selecting useful data suitable for the purpose of utilization that can change dynamically from a data group. With the goal.
 前記目的を達成するために、第1の発明は、メモリに記憶されたデータ群からユーザの所定目的にしたがって所望のデータを分別するための処理を実行するコントローラを備えるデータ分析システムであって、前記コントローラは、前記データ群から一部のデータを抽出し、前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにしたことを特徴とする。 In order to achieve the above object, a first invention is a data analysis system including a controller that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user, The controller extracts a part of the data from the data group, and classifies the part of the evaluation criteria having contents related to the purpose when trying to classify the desired data. Set for the partial data, classify the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria, and use the classification result for the partial data, The target data other than the extracted partial data in the data group are evaluated in order according to the classification of the partial data, and the evaluation result for the target data Using, characterized in that said desired data is to be separated from the data group.
 第2の発明は、コントローラが、メモリに記憶されたデータ群からユーザの所定目的にしたがって所望のデータを分別するための処理を実行するデータ分析方法であって、前記コントローラは、前記データ群から一部のデータを抽出し、前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにした、ことを特徴とする。 A second invention is a data analysis method in which a controller executes a process for separating desired data from a data group stored in a memory in accordance with a predetermined purpose of the user. In order to classify the part of the data to extract the part of the data, and to classify the part of the data, the evaluation criteria having the contents related to the purpose are classified. Set, classify the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria, and extract the data group using the classification result for the partial data The target data other than a part of the data is ranked and evaluated in accordance with the classification of the part of the data, and the desired data is converted into the desired data using the result of the evaluation on the target data. It was set to be fractionated from over data group, characterized in that.
 第3の発明は、データ群からユーザの所定目的にしたがって所望のデータを分別するための処理をコンピュータに実行させるためのデータ分析プログラムであって、前記データ群から一部のデータを抽出し、前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにした、ことを特徴とする。 A third invention is a data analysis program for causing a computer to execute processing for separating desired data from a data group according to a predetermined purpose of the user, and extracts a part of the data from the data group, When classifying the desired data, an evaluation criterion having contents related to the purpose is set for the partial data in order to classify the partial data, and based on the evaluation criterion The partial data is classified according to the evaluation result of the extracted partial data, and the target data other than the extracted partial data in the data group using the classification result for the partial data. So that the desired data can be separated from the data group using the result of the evaluation on the target data. It was characterized by.
 本発明によれば、所望のデータを分別しようとする際に、ユーザの目的に関連する内容を持つ評価基準をその都度設定するようにしたため、予め、特定の観点でデータが分類されていて、その範囲の中から参照すべきデータを選択しなければならない場合と比較して、活用目的に適した有用データをデータ群の中から的確に選択できるデータ分析システム、及び、その方法、並びに、計算機プログラムを提供することができる。 According to the present invention, when trying to classify desired data, since the evaluation criteria having contents related to the purpose of the user are set each time, the data is classified in advance from a specific viewpoint, Compared to the case where the data to be referred to must be selected from the range, a data analysis system, method and computer capable of accurately selecting useful data suitable for the purpose of use from the data group A program can be provided.
データ分析システムのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of a data analysis system. 業務サーバの機能ブロック図である。It is a functional block diagram of a business server. データ分析システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of a data analysis system. 評価基準設定ツールのインターフェース(入力画面)である。It is an interface (input screen) of an evaluation standard setting tool. 特定クライアント装置の評価分類入力画面の一例である。It is an example of the evaluation classification input screen of a specific client apparatus. 特定クライアント装置の評価分類入力画面の他の例である。It is another example of the evaluation classification input screen of a specific client apparatus. 業務サーバが未知データの夫々についてスコアをデータベースに登録する際のテーブルの一例である。クライアント装置は、スコア値が大きい順に、プロジェクト関係データをソートして表示する。It is an example of a table when a business server registers a score for each unknown data in a database. The client device sorts and displays the project related data in descending order of score values. クライアント装置に表示される表示画面の一例である。It is an example of the display screen displayed on a client apparatus.
 次に、本発明の実施形態を、コンサルティング事業者におけるデータ分析システムを例として、図面に基づいて説明する。図1は、データ分析システムのハードウェア構成を示すブロック図である。データ分析システムは、データ処理の中核処理を実行可能な業務サーバ14と、データ分析の周辺処理を実行可能な一つ又は複数のクライアント装置10と、プロジェクト成果に係る文書データ、画像データ、音声データ等のプロジェクト関係データや、プロジェクト関係データに対する評価、分類結果を記録したデータベース22を備えるストレージシステム18と、クライアント装置10と業務サーバ14に対して、データ分析のための管理機能を実行する管理計算機12とを備えて構成されている。 Next, an embodiment of the present invention will be described based on the drawings, taking a data analysis system in a consulting company as an example. FIG. 1 is a block diagram showing a hardware configuration of the data analysis system. The data analysis system includes a business server 14 capable of executing core processing of data processing, one or a plurality of client devices 10 capable of executing peripheral processing of data analysis, and document data, image data, and audio data relating to project results. A management computer that executes a management function for data analysis on a storage system 18 including a database 22 that records project-related data, evaluations on project-related data, and classification results, and a client device 10 and a business server 14 12.
 クライアント装置10は、プロジェクトの成果に対する評価、分類を行う権限があるユーザに対して、既存のプロジェクトのプロジェクト関係データの一部をサンプリングデータとして提供し、権限ユーザがサンプリングデータに対して評価、分類ができるようにしている。 The client device 10 provides a part of project-related data of an existing project as sampling data to a user who is authorized to evaluate and classify the project results, and the authorized user evaluates and classifies the sampling data. To be able to.
 そして、クライアント装置10は、公知のコンピュータハードウェア資源を備えて構成されており、詳しくは、メモリ(HDD、フラッシュメモリ等)、コントローラ(CPU)、バス、キーボード等の入力装置とディスプレイ等の出力装置のための入出力インターフェース、業務サーバ14と管理計算機12との通信インターフェースとを備えている。クライアント装置10はLAN等の通信手段20によって業務サーバ14と管理計算機12と接続されている。 The client device 10 includes known computer hardware resources. Specifically, the client device 10 includes an input device such as a memory (HDD, flash memory, etc.), a controller (CPU), a bus, a keyboard, and an output such as a display. An input / output interface for the apparatus and a communication interface between the business server 14 and the management computer 12 are provided. The client device 10 is connected to the business server 14 and the management computer 12 by communication means 20 such as a LAN.
 メモリには、サンプリングデータに対する評価、分類のために必要なアプリケーションプログラムが記憶されており、コントローラは同プログラムを実行することにより、分類、評価の処理に必要な入出力を権限ユーザに対して可能にする。 The application program necessary for evaluation and classification of sampling data is stored in the memory. By executing this program, the controller can perform input / output necessary for classification and evaluation processing to authorized users. To.
 業務サーバ14は、サンプリングデータに対する分類の結果を利用して、サンプリングデータ以外の、プロジェクトの成果に関する関係データに対して分類を実行するものであり、管理計算機12は、クライアント装置10、及び、業務サーバ14に対して、必要な管理処理を実行する。業務サーバ14、及び、管理計算機12とも、クライアント装置10と同様に、ハードウェア資源としてのメモリ(HDD、フラッシュメモリ等)、コントローラ(CPU)、通信インターフェースとを備えて構成されている。 The business server 14 performs classification on relational data related to project results other than the sampling data using the classification result on the sampling data. The management computer 12 includes the client device 10 and the business Necessary management processing is executed for the server 14. Similar to the client device 10, the business server 14 and the management computer 12 are configured to include a memory (HDD, flash memory, etc.), a controller (CPU), and a communication interface as hardware resources.
 業務サーバ14のメモリには、関係データに対する分類を実行するためのアプリケーションプログラムが記憶されており、コントローラは同プログラムに基づいて、データの検索、演算処理等を実行する。管理計算機12のメモリには、コントローラが管理処理を実行するためのアプリケーションプログラムが記憶されている。 In the memory of the business server 14, an application program for executing classification on related data is stored, and the controller executes data search, arithmetic processing, and the like based on the program. The memory of the management computer 12 stores an application program for the controller to execute management processing.
 ストレージシステム18は、例えば、ディスクアレイシステムから構成され、プロジェクトの成果に係る関係データを含むデータ群、そして、関係データに対する評価、分類結果を記録するデータベース22を備えて構成されている。業務サーバ14とストレージ装置18とは、DAS方式、又は、SANによって接続(16)されている。複数のプロジェクトの夫々の成果に係る関係データが、コンサルティング事業の分野における事象としてのプロジェクトの複数の夫々毎に存在し、データベース22には複数の関係データがデータセットとして記憶されている。 The storage system 18 is composed of, for example, a disk array system, and includes a data group including related data relating to project results, and a database 22 that records evaluation and classification results for the related data. The business server 14 and the storage device 18 are connected (16) by the DAS method or SAN. Related data relating to the results of each of a plurality of projects exists for each of a plurality of projects as events in the field of consulting business, and the database 22 stores a plurality of related data as a data set.
 なお、図1に示されるハードウェア構成は、あくまで例示に過ぎず、データ分析システムは、他のハードウェア構成によっても実現され得る。例えば、業務サーバ14において実行される処理の一部または全部がクライアント装置10において実行される構成であってもよいし、ストレージシステム18が業務サーバ14に内蔵される構成であってもよい。データ分析システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、いずれか(例えば、図1に例示されるような構成)に限定されるものではない。 Note that the hardware configuration shown in FIG. 1 is merely an example, and the data analysis system can be realized by other hardware configurations. For example, a configuration in which part or all of the processing executed in the business server 14 is executed in the client device 10 may be performed, or the storage system 18 may be built in the business server 14. It is understood by those skilled in the art that there are various hardware configurations that can implement the data analysis system, and the hardware configuration is not limited to any one (for example, the configuration illustrated in FIG. 1). .
 図2に示すように、業務サーバ14は、データベース22に保存されたプロジェクト成果の関係データから、所定の基準に基づいて一部のデータ(サンプリングデータ)を抽出する抽出部102と、抽出されたサンプリングデータ等をクライアント装置10の画面に表示させる表示処理部103と、サンプリングデータに対して、評価者権限を持ったユーザからの分類符号設定(タグ付け)要求を受け付ける分類符号受付部104と、分類符号に基づいて、抽出されたサンプリングデータを分類符号ごとに分類し、分類されたサンプリングデータからサンプリングデータの特徴、例えば、関連データ要素を解析して選定するとともに、当該特徴の影響度(関連データ要素に対する評価値)を決定する選定部105と、選定したデータ要素と評価値とをデータベース22に記憶させる記憶実行部201と、データベースに対する検索処理を行って、データ要素をサンプリングデータ以外のプロジェクト成果に係る関係データ(以後、これを、未知データ、と称する。)から探索する探索部106と、探索部106によって得られた探索結果と選定部105で決定されたデータ要素と評価値とを用いて、分類符号と未知データとの関連性に相当するスコアを未知データ毎に算出するスコア算出部107と、算出されたスコアに基づいて自動で未知データに対して分類符号を付与する自動分類部108と、スコア算出部107の算出したスコアに基づいて選定部105が選定したデータ要素の評価値を増減させる学習部110と、を備えている。なお、抽出部等****部と表記した構成は、コントローラがプログラムに基づいて実現する機能構成であるため、****部を****処理と言い換えてもよい。また、****部を必要に応じてハードウェア資源によって代替することもできる。すなわち、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。 As shown in FIG. 2, the business server 14 extracts an extraction unit 102 that extracts a part of data (sampling data) based on a predetermined standard from relation data of project results stored in the database 22. A display processing unit 103 that displays sampling data and the like on the screen of the client device 10; a classification code receiving unit 104 that receives a classification code setting (tagging) request from a user with evaluator authority for the sampling data; Based on the classification code, the extracted sampling data is classified for each classification code, and the characteristics of the sampling data, for example, related data elements are analyzed and selected from the classified sampling data, and the degree of influence of the characteristics (related The evaluation unit for the data element), the selected data element, The storage execution unit 201 for storing the value in the database 22 and a search process for the database are performed, and the data element is searched from the relational data related to the project result other than the sampling data (hereinafter referred to as unknown data). A score corresponding to the relevance between the classification code and the unknown data is obtained for each unknown data using the search unit 106, the search result obtained by the search unit 106, the data element determined by the selection unit 105, and the evaluation value. The score calculation unit 107 to be calculated, the automatic classification unit 108 that automatically assigns a classification code to unknown data based on the calculated score, and the selection unit 105 to select based on the score calculated by the score calculation unit 107 And a learning unit 110 that increases or decreases the evaluation value of the data element. Note that the configuration described as the **** unit, such as the extraction unit, is a functional configuration realized by the controller based on the program, and thus the **** unit may be rephrased as **** processing. The **** part can be replaced with hardware resources as necessary. That is, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
 サンプリングデータとは、データベース22に記録されている複数のプロジェクトのうち所定の基準で抽出された所定数のプロジェクトの成果に関係する関係データである。評価者権限ユーザはサンプリングデータの内容を参照して、サンプリングデータを評価し、業務サーバ14は、サンプリングデータの評価結果に基づいてサンプリングデータを分類、即ち、サンプリングデータに分類符号付けを行う。 Sampling data is relational data related to the results of a predetermined number of projects extracted based on a predetermined standard among a plurality of projects recorded in the database 22. The evaluator authority user refers to the contents of the sampling data and evaluates the sampling data, and the business server 14 classifies the sampling data based on the evaluation result of the sampling data, that is, classifies the sampling data.
 サンプリングデータ以外の残りのプロジェクト成果に係る関係データは、データ分析システムの分析対象となる対象データであるものの、評価者権限ユーザの評価、分類の作業を受けていないため、ユーザ視点からいえば、いわば未知データと略称され得るものである。データ分析システムは、サンプリングデータにおける評価者権限ユーザの評価、分類の結果を学習し、未知データからなる対象データに対する分類を実行するため、評価者権限ユーザの評価、分類を受けたサンプリングデータはデータ分析システムにとっては訓練データとしての意味を持つことになる。 The relationship data related to the remaining project results other than the sampling data is the target data to be analyzed by the data analysis system, but it has not undergone the evaluation and classification work of the evaluator authority user. In other words, it can be abbreviated as unknown data. The data analysis system learns the evaluation and classification results of evaluator-authorized users in the sampling data and executes classification on the target data consisting of unknown data. For the analysis system, it has meaning as training data.
 分類符号は、サンプリングデータ、未知データを分類する際の識別子(タグ)である。サンプリングデータにタグを与えるか否かの基準となるのが評価基準である。評価基準は、評価観点、又は、評価軸と言い換えられてもよい。評価基準は、データベース22内のデータをどのような目的で分別するか、例えば、ユーザが自己のプロジェクトの達成のために、最適な成果として判定されるプロジェクトを過去の膨大な数のプロジェクトの中から区別取得して参考にしたい等、即ち、ユーザが所望するデータをそれ以外のデータから分別しようとする場合の目的に関連してその内容が変わるものである。 The classification code is an identifier (tag) for classifying sampling data and unknown data. An evaluation criterion is whether or not a tag is given to sampling data. The evaluation criteria may be rephrased as an evaluation viewpoint or an evaluation axis. The evaluation criterion is to classify the data in the database 22 for any purpose, for example, a project in which a user is judged as an optimum result for achievement of his / her own project among a large number of past projects. The contents change in relation to the purpose when the user wants to obtain the data separately for reference, that is, when the user desires to separate the data desired from other data.
 本実施形態のように、コンサルティング事業者において、過去のプロジェクトのうち、評価が高かった所定の事例のものを抽出したいという目的の下では、評価基準としては、例えば、(評価指標1)顧客への影響度合が大きかったか?、(評価指標2)プロジェクトの社会的な魅力度が大きかったか、(評価指標3)顧客の人材育成への寄与度が大きかったか?、(評価指標4)プロジェクトの効率性が高かったか?、(評価指標5)顧客の経営戦略・事業戦略との適合性が高かったか?、のように、企業の様々な活動に対する助言を主な業務とするコンサルティング事業者が意識し易い、プロジェクト成果物の活用目的に即した観点で、一つ又は複数設定されるものであればよい。データ分析システムは、データ分析対象である、データベース内のデータを所定の目的の下で分別しようとする際に、評価基準を設定する。 As in the present embodiment, in the consulting company, for the purpose of extracting a predetermined case having a high evaluation among past projects, as an evaluation standard, for example, (evaluation index 1) to a customer Was the degree of influence large? (Evaluation index 2) Was the project's social attractiveness high? (Evaluation index 3) Was the customer's contribution to human resource development large? (Evaluation index 4) Is the project highly efficient? (Evaluation index 5) Is the compatibility with the customer's management strategy and business strategy high? As long as it is easy to be conscious by consulting firms whose main business is advice on various corporate activities, such as, one or more can be set. . The data analysis system sets evaluation criteria when attempting to classify data in a database, which is a data analysis target, for a predetermined purpose.
 評価者権限ユーザは、複数のサンプリングデータの夫々を、各評価基準に基づいて評価し、評価基準を肯定すると、業務サーバ14によって、評価基準に対応するタグ(フラグ)がセットされる。例えば、評価者権限ユーザが評価指標1―5を全て肯定すると、サンプリングデータに対して5種類のタグがセットされることになる。選定部は、サンプリングデータに対するタグ付けに基づいて、サンプリングデータを分類する。例えば、第1のサンプリングデータは、評価指標1―5の全てについて“イエス”のものとして分類され、第2のサンプリングデータは、評価指標1―4が“イエス”、評価項目5が“ノー”のものとして分類される等である。なお、評価項目1-5の3つ以上が“イエス”の場合に、サンプリングデータを“関連性あり”のように分類する等、タグの設定数と分類項目数との対応態様は適宜決定され得るものであり、一つのタグが一つの分類項目に1:1の対応に限定されるものではない。 When the evaluator authority user evaluates each of the plurality of sampling data based on each evaluation standard and affirms the evaluation standard, the business server 14 sets a tag (flag) corresponding to the evaluation standard. For example, if the evaluator authority user affirms all the evaluation indexes 1-5, five types of tags are set for the sampling data. The selection unit classifies the sampling data based on tagging of the sampling data. For example, the first sampling data is classified as “yes” for all of the evaluation indexes 1-5, and the second sampling data is “yes” for the evaluation indexes 1-4 and “no” for the evaluation item 5. And so on. In addition, when three or more of the evaluation items 1-5 are “Yes”, the correspondence mode between the set number of tags and the number of classification items is appropriately determined, for example, the sampling data is classified as “relevant”. One tag is not limited to 1: 1 correspondence with one classification item.
 さらに、評価者権限ユーザが複数存在する場合には、評価者権限ユーザの違いよって評価指標に対する評価方針も異なるため、評価者権限ユーザ毎にタグが設定さることになる。したがって、評価指標の他、評価者権限ユーザ自体も評価基準の具体例である。データ分析システムは、複数の評価基準を備えることによって、評価の多様性の担保、即ち、データの活用目的の変化やその多様性を満足させることができる。 Furthermore, when there are a plurality of evaluator authority users, the evaluation policy for the evaluation index varies depending on the evaluator authority users, so a tag is set for each evaluator authority user. Therefore, in addition to the evaluation index, the evaluator authority user itself is a specific example of the evaluation standard. By providing a plurality of evaluation criteria, the data analysis system can ensure the diversity of evaluation, that is, satisfy the change in the utilization purpose of data and the diversity thereof.
 関係データとは、データが帰属する対象に関係するデータのことであり、対象とは、例えば、本実形態に係る、コンサルティング事業者におけるプロジェクトの成果のことである。データとは、主として文書データであるが、画像データ、音声データ、映像データ等広く包含する。文書データとは、少なくともテキスト情報を含むデジタル情報であり、例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等、少なくとも一部において構造定義が不完全なデータ(自然言語などの非構造化データ)を広く含む。 Related data is data related to the object to which the data belongs, and the object is, for example, the result of the project in the consulting business according to this embodiment. Data is mainly document data, but widely includes image data, audio data, video data, and the like. Document data is digital information including at least text information. For example, e-mails, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, etc., have incomplete structural definitions. Wide-ranging data (unstructured data such as natural language).
 データ要素とは関係データの少なくとも一部を構成する、意味を持った要素である。データ要素として代表的なものが、文書データのキーワードである。キーワードは、ある言語において、一定の意味を持つ文字列のまとまり、即ち、形態素のことである。 A data element is a meaningful element that forms at least part of the related data. A typical data element is a keyword of document data. A keyword is a group of character strings having a certain meaning in a certain language, that is, a morpheme.
 キーワードの他、センテンス、パラグラフもデータ要素に成り得る。関係データが文書データ以外である場合には、全体画像の一部画像、全体音声の一部音声、映像の全フレームのうちの一部フレームがデータ要素に相当する。データ分析システムは、所定の分類符号にしたがって分類され、同じ分類符号が付された複数のサンプリングデータから有用なデータ要素を抽出し、このデータ要素に基づいて未知データをサンプリングデータと同じように分類できるか否かを解析する。データ要素の抽出は、複数の分類符号の夫々について行われる。  In addition to keywords, sentences and paragraphs can also be data elements. When the related data is other than the document data, a partial image of the entire image, a partial audio of the entire audio, and a partial frame of all the frames of the video correspond to data elements. The data analysis system extracts useful data elements from a plurality of sampling data classified according to a predetermined classification code and assigned the same classification code, and classifies unknown data in the same way as sampling data based on the data elements. Analyze whether it can be done. Data elements are extracted for each of a plurality of classification codes.
 既述のとおり、選定部105で選定されたキーワードを始めとするデータ要素は、データベース22に記録される。また、業務サーバ14は、過去の分類処理の結果から、プロジェクトの優劣との関連性が高く、関係データに含まれていれば、プロジェクトの結果が優良と分類され得るデータ要素を、事前に、データベースに登録することができる。 As described above, the data elements including the keyword selected by the selection unit 105 are recorded in the database 22. Further, the business server 14 determines in advance the data elements that can be classified as excellent if the result of the project is highly relevant to the superiority or inferiority of the project and is included in the relational data, Can be registered in the database.
 また、過去の分類処理の結果から、プロジェクトの優良に係る符号が付与された関係データと関連性が高いデータ要素をデータベースに登録しておくことも可能である。一度データベース201に登録されたキーワードは、学習部110による学習結果によって増減される他、手動によっても追加登録及び削除が可能である。 Also, based on the results of past classification processing, it is possible to register in the database data elements that are highly relevant to the relational data to which the code relating to the excellence of the project has been assigned. The keywords once registered in the database 201 are increased or decreased according to the learning result by the learning unit 110, and can be additionally registered and deleted manually.
 次に、データ分析システムの動作を図3に基づいて説明する。管理者権限を有する管理ユーザは、管理計算機12に対してサンプリングデータを抽出するリクエスト300を実行する。抽出リクエストの形態としては、データベース22に記録されている、プロジェクの成果に係る関係データの中から所定数のプロジェクトの関係データをランダムにサンプリングする形態、所定範囲のプロジェクトの関係データ、例えば、プロジェクトの終了日時が新しいものから順に所定数のプロジェクト関係データをサンプリングする等の形態がある。 Next, the operation of the data analysis system will be described with reference to FIG. A management user having administrator authority executes a request 300 for extracting sampling data to the management computer 12. As a form of the extraction request, a form in which relational data of a predetermined number of projects is randomly sampled from relational data related to the result of the project recorded in the database 22, relational data of a predetermined range of projects, for example, projects There is a form in which a predetermined number of project-related data is sampled in order from the latest end date and time.
 所定数としては、全プロジェクト数の所定数パーセント等、管理ユーザによって適宜設定可能である。管理計算機12は抽出リクエストに基づいて抽出コマンドを生成して、これを業務サーバ10に送信する(302)。業務サーバ14の抽出部102は、管理計算機12からの管理コマンドに基づいて、データベース22から所定数のサンプリングデータを抽出する(304)。 The predetermined number can be appropriately set by the management user, such as a predetermined percentage of the total number of projects. The management computer 12 generates an extraction command based on the extraction request and transmits it to the business server 10 (302). The extraction unit 102 of the business server 14 extracts a predetermined number of sampling data from the database 22 based on the management command from the management computer 12 (304).
 さらに、管理ユーザは管理計算機12の評価基準設定ツールに基づいて、評価者権限ユーザがサンプリングデータを評価、分類する際の評価基準を、管理計算機12に対して設定する(306)。図4は、評価基準設定ツールのインターフェース(入力画面)であり、複数の評価指標の入力欄400、分類評価権限が与えられるユーザIDの入力欄402が設けられている。 Further, the management user sets an evaluation standard for the management computer 12 based on the evaluation standard setting tool of the management computer 12 when the evaluator authority user evaluates and classifies the sampling data (306). FIG. 4 shows an interface (input screen) of the evaluation criteria setting tool, which includes a plurality of evaluation index input fields 400 and a user ID input field 402 to which classification evaluation authority is given.
 前者の入力欄400には、管理ユーザは一つ又は複数の評価指標を入力できる。さらに、管理ユーザは、既述の評価指標1-5のように、評価指標の内容を制限なく自由に定めることができる。したがって、プロジェクトの成果物の利用目的が環境や、個人の嗜好等によって変わり得ることがあっても、データ分析システムは、評価指標(評価基準)をこれに合わせて動的に変動させることができる。 In the former input field 400, the management user can input one or a plurality of evaluation indexes. Furthermore, the management user can freely define the content of the evaluation index without limitation as in the above-described evaluation index 1-5. Therefore, even if the purpose of using project deliverables may change depending on the environment and individual preferences, the data analysis system can dynamically change the evaluation index (evaluation criteria) accordingly. .
 この評価指標に基づいて関係データを分類することにより、常に、現在での活用目的に合致し得るプロジェクトの成果がユーザに提示されるようになっている。管理ユーザが、プルダウンメニューから規定の評価指標のものから所望のものを選択できるようにしてよい。 分類 By classifying the relational data based on this evaluation index, the results of the project that can be consistent with the current utilization purpose are always presented to the user. The management user may be allowed to select a desired one from those of a prescribed evaluation index from a pull-down menu.
 一方、サンプリングデータに対する評価、分類の方針や立場等は、評価者毎に異なってくる。例えば、評価者Aは、「顧客への影響度合い」が大きかったプロジェクトを分別したいという目的を持ち、一方、評価者Bは、「プロジェクトの社会的な魅力度」が大きかったプロジェクトを分別したいという目的を持っている場合である。また、評価者のバックグランドが違う場合でも同様である。 On the other hand, the evaluation and classification policies and positions for sampling data differ for each evaluator. For example, evaluator A wants to sort out projects that have a large “degree of influence on customers”, while evaluator B wants to sort out projects that have a large “social attractiveness of projects”. This is when you have a purpose. The same applies when the background of the evaluator is different.
 例えば、開発マネージャ(プロジェクトの技術的側面を重視して評価する傾向)、財務マネージャ(プロジェクトのコスト管理の観点を重視して評価する傾向)、企画マネージャ(プロジェクトのテーマの意義を重視して評価する傾向)、顧客対応マネージャ(プロジェクトの顧客の満足度を重視して評価する傾向)、労務マネージャ(プロジェクトの過程での労務管理を重視して評価する傾向)が想定される。 For example, a development manager (a tendency to evaluate with emphasis on the technical aspects of the project), a finance manager (a tendency to evaluate with a focus on the cost management of the project), a planning manager (an evaluation with emphasis on the significance of the project theme) ), A customer response manager (a tendency to evaluate with an emphasis on customer satisfaction of the project), and a labor manager (a tendency to evaluate with an emphasis on labor management in the project process).
 データ分析システムが、同じ評価指標に対して、複数の評価者の関与を許容したのは、データの分類結果に多様性を持たせるためである。プロジェクトの成果の活用目的は個人毎に異なってくるが、データの分類結果に多様性があれば、プロジェクトの成果を活用しようとする個人は、自身の活用目的に沿った傾向を持つ評価者の分類結果を参照することができるようになる。 The reason why the data analysis system allowed the participation of multiple evaluators for the same evaluation index is to give diversity to the data classification results. The purpose of utilizing project results varies from individual to individual. However, if there are diversity in the classification results of data, individuals who intend to utilize the results of the project will be evaluated by evaluators who tend to follow their own purpose of utilization. The classification result can be referred to.
 例えば、プロジェクトの成果として関係するものを自身が手掛けているプロジェクトに活用しようとする個人が、「顧客への影響度合い」を重視する評価者Aによる結果よりも、「プロジェクトの社会的な魅力度」を重視する評価者Bによる評価、分類結果を望む場合である。 For example, an individual who wants to use what is related to the outcome of a project in a project he / she is working on is more than the result of evaluator A who emphasizes the “degree of influence on customers”. This is a case where an evaluation and classification result by an evaluator B who places emphasis on "is desired.
 管理計算機12が、管理ユーザから評価基準設定情報を受け取ると、これを評価者権限ユーザのクライアント装置10(特定クライアント装置)に送り(310)、そして、業務サーバにも送る(308)。業務サーバ10は、抽出部102が抽出したサンプリングデータを特定クライアント装置に送る(312)。特定クライアント装置は、分類評価設定プログラムを実行して評価分類入力インターフェースを起動させて、評価分類入力画面を評価者権限ユーザに提示する。図5はその画面の一例であり、サンプリングデータのリスト500と、複数の評価指標夫々の内容504と、各評価指標に対するチェックボックス502が含まれている。 When the management computer 12 receives the evaluation standard setting information from the management user, the management computer 12 sends it to the client device 10 (specific client device) of the evaluator authority user (310), and also sends it to the business server (308). The business server 10 sends the sampling data extracted by the extraction unit 102 to the specific client device (312). The specific client device executes the classification evaluation setting program to activate the evaluation classification input interface, and presents the evaluation classification input screen to the evaluator authority user. FIG. 5 shows an example of the screen, which includes a sampling data list 500, contents 504 for each of a plurality of evaluation indices, and a check box 502 for each evaluation index.
 評価者権限ユーザが、サンプリングデータのリストを選択すると、図6に示されるように、選択されたサンプリングデータの詳細506が表示されるようになっている。サンプリングデータのリストは、プロジェクトID510と、プロジェクトの名称512(例:****会社用人事評価システムの構築)として提示される。詳細506としては、プロジェクトの内容の概要と、プロジェクトに対する評価を含むテキストデータがある。 When the evaluator authority user selects the sampling data list, the details 506 of the selected sampling data are displayed as shown in FIG. The list of sampling data is presented as a project ID 510 and a project name 512 (for example, **** Construction of a personnel evaluation system for a company). Details 506 include text data including an outline of the contents of the project and an evaluation of the project.
 評価者権限ユーザはサンプリングデータの詳細506を参照しながら、評価指標の夫々を順番にレビューし、評価指標毎にその成立、又は、不成立を評価する。例えば、評価者権限ユーザが、サンプリングデータを(評価指標1)顧客への影響度合が大きいものであったと判定する場合には、評価指標1に対応するチェックボックスにチェックを入れる。 The evaluator authority user reviews each of the evaluation indexes in order while referring to the sampling data details 506, and evaluates whether or not each evaluation index is established. For example, when the evaluator authority user determines that the sampling data (evaluation index 1) has a large influence on the customer, the check box corresponding to the evaluation index 1 is checked.
 一方、サンプリングデータを、(評価指標2)プロジェクトの社会的な魅力度が大きくなかったと評価する場合には、評価指標2に対応するチェックボックスにチェックを入れない。チェックボックスにチェックを入れると、チェックが入れられた評価指標に対するタグが業務サーバ14によってセットされる。 On the other hand, if sampling data (evaluation index 2) evaluate that the project's social attractiveness is not large, the check box corresponding to evaluation index 2 is not checked. When the check box is checked, a tag for the checked evaluation index is set by the business server 14.
 評価者権限ユーザがサンプリングデータに対する評価、分類を終えると、クライアント装置10は、評価分類入力情報を業務サーバ14に送信する(314)。業務サーバ14は、全ての評価者権限ユーザから得た評価分類入力情報に基づいて、評価指標毎及び評価者ユーザ毎にタグのセットの要否を判断し、結果をデータベース22に登録する。 When the evaluator authority user finishes the evaluation and classification of the sampling data, the client device 10 transmits evaluation classification input information to the business server 14 (314). The business server 14 determines the necessity of tag setting for each evaluation index and each evaluator user based on the evaluation classification input information obtained from all evaluator authority users, and registers the result in the database 22.
 業務サーバ14の選定部105は、データベース22のタグ設定情報を参照して、評価指標毎、及び、評価者ユーザ毎に、タグがセットされたサンプリングデータの集合から、未知データを自動分類する際に特徴となる、有益なデータ要素を所定の選定基準にしたがって抽出する(316)。ここで、「有益」とは、タグがセットされたサンプリングデータと内容的な類似性を有する未知データについて、同一のタグをセットすべきであるか否かの評価に有効な、という意味である。 The selection unit 105 of the business server 14 refers to the tag setting information in the database 22 and automatically classifies unknown data from a collection of sampling data in which tags are set for each evaluation index and for each evaluator user. In step 316, useful data elements that are characteristic of the above are extracted according to a predetermined selection criterion. Here, “beneficial” means that it is effective for evaluating whether or not the same tag should be set for unknown data having content similarity with the sampling data in which the tag is set. .
 業務サーバ14の選定部105は、分類評価者Aについて、第1の評価指標のタグがセットされたサンプリングデータに基づいて有益なデータ要素を抽出し、これを第2の評価指標以降全ての評価指標に対して繰り返す。さらに、選定部105は、これを残りの評価者権限ユーザについて繰り返す。したがって、選定部105によって、評価指標毎、及び、評価者権限ユーザ毎に有益なデータ要素が抽出される。 The selection unit 105 of the business server 14 extracts useful data elements for the classification evaluator A based on the sampling data in which the tag of the first evaluation index is set, and uses this for all evaluations after the second evaluation index. Repeat for indicators. Further, the selection unit 105 repeats this for the remaining evaluator authority users. Therefore, the selection unit 105 extracts useful data elements for each evaluation index and for each evaluator authority user.
 有益なデータ要素として、タグが付された複数のサンプリングデータの夫々、又は、所定数のサンプリングデータに所定頻度以上で出現するキーワードを例示することができる。なお、有益なデータ要素は、管理ユーザによって設定されてもよい。 Examples of useful data elements include a plurality of sampling data with a tag, or a keyword that appears at a predetermined frequency or more in a predetermined number of sampling data. Note that useful data elements may be set by an administrative user.
 選定部105は、複数のデータ要素の夫々の有益程度を予め定められた所定の評価基準に従って評価する。所定の評価基準として、データ要素を評価指標との依存関係を示す伝達情報量を用いて評価することができる。例えば、選定部が文書情報(テキスト)からデータ要素としてキーワードを抽出した場合に、キーワードの重み(weight)を算出することによってキーワードを評価する。「重み」とは、データ要素がキーワード、部分音声、部分画像、又は、部分映像等、データ要素の種別に拘わらず、データ要素の評価値の大小、程度、優劣等、当該評価値の程度をいうものである。 The selection unit 105 evaluates the usefulness level of each of the plurality of data elements according to a predetermined evaluation criterion. As a predetermined evaluation criterion, a data element can be evaluated using a transmission information amount indicating a dependency relationship with an evaluation index. For example, when a selection unit extracts a keyword as a data element from document information (text), the keyword is evaluated by calculating a keyword weight. “Weight” refers to the degree of the evaluation value, such as the magnitude, degree, superiority, inferiority, etc. of the data element, regardless of the type of the data element, such as a keyword, partial sound, partial image, or partial video. That's what it says.
 学習部110は、各キーワードの重みを所定のアルゴリズムに従って校正する。例えば、学習部110は、訓練データの少なくとも一部を構成する複数のデータ要素が、訓練データセット(訓練データと当該訓練データを分類する分類情報(タグ)との組み合わせを複数含むデータセット)に含まれる複数の組み合わせに寄与する度合いを、所定の基準(例えば、伝達情報量)に基づいて、上記重みとしてそれぞれ評価する。また、学習部110は、タグが設定されたサンプリングデータのスコアが、タグが設定されないサンプリングデータのスコアよりも上位に位置するようになるまで、各キーワードの重みを繰り返し再評価し、その重みを算出し直すことができる。 The learning unit 110 calibrates the weight of each keyword according to a predetermined algorithm. For example, the learning unit 110 includes a plurality of data elements constituting at least a part of training data in a training data set (a data set including a plurality of combinations of training data and classification information (tags) for classifying the training data). The degree of contribution to a plurality of combinations included is evaluated as the weight based on a predetermined criterion (for example, the amount of transmitted information). Further, the learning unit 110 repeatedly reevaluates the weight of each keyword until the score of the sampling data with the tag set is higher than the score of the sampling data with no tag set, and determines the weight. It can be recalculated.
 具体的には、まず、学習部110は、一度算出した重みに基づいて、評価者がタグの設定、非設定を実行済みのサンプリングデータについてスコアを算出し、スコアの大小に従って、サンプリングデータを並べる。このとき、タグが設定されたサンプリングデータが、タグが設定されないサンプリングデータの上位に並ぶようになることが望ましい。 Specifically, first, the learning unit 110 calculates a score for sampling data for which the evaluator has already performed setting and non-setting of tags based on the weights calculated once, and arranges the sampling data according to the magnitude of the score. . At this time, it is desirable that the sampling data with the tag set be arranged in a higher rank than the sampling data with no tag set.
 そこで、学習部110は、このような並びになるまで重みの修正を継続する。そして、学習部110は、タグが設定されたサンプリングデータのスコアの最低値と、タグが設定されなかったサンプリングデータのスコアの最高値との中間値を、未知データに対してタグの設定の有無を自動判定する際の閾値とする。学習部110は、データ要素の重みwgtについて、例えば、以下の式(1)を用いて算出する。 Therefore, the learning unit 110 continues to correct the weights until such a sequence is obtained. Then, the learning unit 110 determines whether or not the tag is set for the unknown data, with an intermediate value between the lowest score of the sampling data with the tag set and the highest score of the sampling data with no tag set. Is a threshold for automatic determination. The learning unit 110 calculates the weight wgt of the data element using, for example, the following equation (1).
Figure JPOXMLDOC01-appb-M000001
 wgtは、学習前のi番目の選定キーワードの重みの初期値を示す。また、wgtは、L回目学習後のi番目の選定キーワードの重みを示す。γはL回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。
Figure JPOXMLDOC01-appb-M000001
wgt indicates the initial value of the weight of the i-th selected keyword before learning. Wgt represents the weight of the i-th selected keyword after the L-th learning. γ means a learning parameter in the L-th learning, and θ means a learning effect threshold.
 業務サーバ14は選定部105が抽出したデータ要素とデータ要素ごとの評価値と閾値とをデータベースに記憶する。データ要素、データ要素の評価値、そして、閾値は、評価指標毎、分類評価者毎にデータベースに記憶される。 The business server 14 stores the data element extracted by the selection unit 105, the evaluation value for each data element, and the threshold value in the database. The data element, the evaluation value of the data element, and the threshold value are stored in the database for each evaluation index and each classification evaluator.
 次に、業務サーバ14は、データ要素と未知データとを比較して、サンプリングデータの分類結果と未知データとの関連性の程度を評価、判定等の処理し、未知データの分類を、ユーザ入力を必要することなく実行する。即ち、探索部106は、データベース22から自動分類の対象となる複数の未知データを取り込み、各プロジェクトの未知データについて、データベースから記録されている複数のデータ要素を順番に読み込んで、各データ要素の有無を探索する(320)。スコア算出部107は、未知データの夫々について、探索部106によって探索されたデータ要素がある場合、探索されたデータ要素に対応する評価値に基づいて未知データのスコアを算出して、複数の未知データを序列化する(322)。 Next, the business server 14 compares the data element with the unknown data, and evaluates and determines the degree of relevance between the classification result of the sampling data and the unknown data, and the classification of the unknown data is input by the user. Run without the need. That is, the search unit 106 takes in a plurality of unknown data to be automatically classified from the database 22 and sequentially reads a plurality of data elements recorded from the database for the unknown data of each project. The presence or absence is searched (320). The score calculation unit 107 calculates a score of unknown data based on an evaluation value corresponding to the searched data element when there is a data element searched by the search unit 106 for each unknown data. The data is ordered (322).
 スコア算出部107は、データ要素がキーワードである場合には、キーワードの持つ重みによって、以下の式からスコアを算出することが可能である。スコアとは、未知データの分類別符号に対する結びつきの強さを定量的に評価したものである。 When the data element is a keyword, the score calculation unit 107 can calculate a score from the following formula based on the weight of the keyword. The score is a quantitative evaluation of the strength of association of unknown data with a classification code.
Figure JPOXMLDOC01-appb-M000002
 または、スコア算出部107は、データに含まれる第1データ要素が評価された結果(第1データ要素の重み)と、当該データに含まれる第2データ要素が評価された結果(第2データ要素の重み)とに基づいて、スコアを算出してもよい。すなわち、スコア算出部107は、第1データ要素がデータに出現した場合、当該データにおいて第2データ要素が出現する頻度(すなわち、第1データ要素と第2データ要素との相関、共起ともいう)を考慮して、スコアを計算できる。これにより、データ分析システムは、データ要素間の相関関係を考慮してスコアを算出できるため、より高い精度で訓練データと関係する未知データを抽出できる。
Figure JPOXMLDOC01-appb-M000002
Alternatively, the score calculation unit 107 calculates the result of evaluating the first data element included in the data (weight of the first data element) and the result of evaluating the second data element included in the data (second data element). The score may be calculated based on the weight. That is, when the first data element appears in the data, the score calculation unit 107 also refers to the frequency at which the second data element appears in the data (that is, the correlation or co-occurrence between the first data element and the second data element). ) Can be taken into account. Thereby, since the data analysis system can calculate the score in consideration of the correlation between the data elements, it can extract the unknown data related to the training data with higher accuracy.
 また、スコア算出部107は、データごとにスコアを算出することによって当該データを序列化する(当該データの評価結果とする)だけでなく、例えば、当該データに含まれるセンテンスまたは段落ごとにスコアを算出し、当該スコアを(例えば、スコアの最大値を抽出したり、スコアの大きい順から所定数のスコアを合算したりすることによって)統合し、統合されたスコアを当該データの評価結果とすることもできる。これにより、データ分析システムは、活用目的に適した有用データをデータ群の中からより的確に選択することができる。また、スコア算出部107は、データが事象に対するユーザの評価を少なくとも含むデータである場合、当該データを生成したユーザの感情であって、当該評価に基づいて生じた当該事象に対する感情を、当該データから抽出することができる。また、スコア算出部107は、データに共通して含まれるコンテキストごとに、当該データをクラスタリングすることもできる。さらに、スコア算出部107は、所定の行為(例えば、コンサルタントが顧客に問題の解決策を提案する行為など)が進展する各段階を示す指標であるフェーズ(例えば、提案段階、実行段階など)ごとにデータを評価し、当該評価した結果に基づいて現在のフェーズを特定することもできる。 Further, the score calculation unit 107 not only ranks the data by calculating a score for each data (assuming the evaluation result of the data), but also, for example, scores for each sentence or paragraph included in the data. Calculate and integrate the scores (for example, by extracting the maximum score value or adding a predetermined number of scores in descending order), and the integrated score is used as the evaluation result of the data You can also. Thereby, the data analysis system can more accurately select useful data suitable for the purpose of use from the data group. In addition, when the data is data including at least a user's evaluation of the event, the score calculation unit 107 represents the emotion of the user who generated the data and the emotion for the event generated based on the evaluation. Can be extracted from. The score calculation unit 107 can also cluster the data for each context included in common in the data. Further, the score calculation unit 107 is provided for each phase (for example, a proposal stage, an execution stage, etc.) that is an index indicating each stage in which a predetermined action (for example, an action in which a consultant proposes a solution to a problem to a customer) progresses. It is also possible to evaluate the data and identify the current phase based on the result of the evaluation.
 自動分類部108は、サンプリングデータに対する評価、分類結果と未知データとの関連性に係る数値化された指標、即ち、算出されたスコアに基づいて、未知データに対して自動で、データ要素と同じタグの設定の要否を決定する。スコアが既述の閾値以上であれば、未知データに対してタグが設定される。業務サーバ14は、未知データのうち、データベース22に事前に登録されたキーワードや、関連用語、選定部105において選定されたデータ要素を含まない未知データをスコア算出の対象から事前に排除することが可能である。 The automatic classification unit 108 automatically evaluates the unknown data based on the evaluation of the sampling data, the digitized index related to the relationship between the classification result and the unknown data, that is, the calculated score, and is the same as the data element. Decide whether to set tags. If the score is equal to or greater than the above-described threshold, a tag is set for unknown data. The business server 14 may exclude, in advance from unknown data, unknown data that does not include keywords registered in the database 22 in advance, related terms, and data elements selected by the selection unit 105 from the target of score calculation. Is possible.
 業務サーバ14は、未知データの夫々についてスコアをデータベース22に登録する。図7はデータベースに登録されるテーブルの一例であり、未知データの夫々(データ1,2,3・・・・)について、評価指標毎(評価指標1-5)、評価者毎(評価者A,B)に、スコアが記録されている。A-dの夫々がスコアの値を表している。業務サーバ14はスコアの値に基づいてタグの成立を判定し、タグの情報は未知データの夫々について、評価指標毎(評価指標1-5)、評価者毎(評価A,B)に、データベースに登録されるようにしてもよい。業務サーバにおける未知データに対する評価とは、既述のスコア等複数の未知データの優劣に基づいて、複数の未知データの夫々にタグを設定したり、複数の未知データをスコアの大小に基づいて識別できるようにさせたり等、複数の未知データの前記サンプリングデータに対する関連性の度合いに基づく所定の演算処理を含むものである。 The business server 14 registers a score in the database 22 for each unknown data. FIG. 7 shows an example of a table registered in the database. For each unknown data ( data 1, 2, 3,...), For each evaluation index (evaluation index 1-5), for each evaluator (evaluator A). , B), the score is recorded. Each of Ad represents a score value. The business server 14 determines the establishment of the tag based on the score value, and the tag information is a database for each of the unknown data for each evaluation index (evaluation index 1-5) and for each evaluator (evaluation A, B). May be registered. Evaluation of unknown data on the business server is based on the superiority or inferiority of multiple unknown data such as the above-mentioned score. Tags are set for each of multiple unknown data, and multiple unknown data are identified based on the magnitude of the score. It includes predetermined calculation processing based on the degree of relevance of a plurality of unknown data to the sampling data, such as enabling the data to be performed.
 プロジェクト成果に関する関係データの分類結果を利用して、プロジェクト成果を参照し、これを活用したいユーザは、クライアント装置10を介して、既述の通り説明するように、データの分類が終わった後、評価指標(評価指標1-5の一つ以上)と評価者(一人の評価者又は複数の評価者)とを指定して業務サーバ14に伝えればよい。 The user who wants to refer to the project result using the classification result of the relational data related to the project result and utilize the result, as described above, after the data classification is completed, as described above, via the client device 10 An evaluation index (one or more of the evaluation indexes 1-5) and an evaluator (one evaluator or a plurality of evaluators) may be designated and transmitted to the business server 14.
 業務サーバ14は、データベース22を参照して指定された評価指標に対して分類タグが付与され、かつ、指定された評価者による評価を利用してスコアが評価された、プロジェクト関係データを抽出し、各評価指標のスコア値とともにクライアント装置10に送信する。クライアント装置は、スコア値が大きい順に、プロジェクト関係データをソートして表示する。 The business server 14 extracts project-related data in which a classification tag is assigned to the evaluation index specified with reference to the database 22 and the score is evaluated using the evaluation by the specified evaluator. And the score value of each evaluation index is transmitted to the client device 10. The client device sorts and displays the project related data in descending order of score values.
 図8はその表示画面の一例で、評価指標1-5が選択された評価者Aのスコア値を示している。a-jは、夫々スコアである。総合値は、選択された評価指標を総合的に評価する指標であり、例えば、評価指標のスコアの合計値、又は、平均値等である。この場合、上位に来るデータほど、選択された評価項目を合わせて点において成績が高いものになる。総合値としては、その他、各評価値の重みを変えるようにしてもよい。例えば、評価指標1を重要視してその重みを40パーセントとし、残りを、15パーセントにする等である。また、評価指標ごとにスコア値をソートしてもよい。さらに、データ分析システムは、所定の分類情報(タグ)が対応付けられたデータが、すべてのデータに対して占める割合に応じたグラデーションを用いて、複数のデータをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。例えば、データ分析システムは、評価者によって「顧客への影響度合が大きかった」と判断された(すなわち、評価基準1に対するタグがセットされた)データが、すべてのデータに対して占める割合が増加するほど、緑色から赤色に変化するグラデーションを用いて、当該データに対して算出したスコアに対する当該割合の分布を表示することができる。さらに、データ分析システムは、複数の評価基準に基づいてデータを評価し、当該複数の評価基準を軸として当該複数の評価結果を示すレーダーチャートを表示することもできる。 FIG. 8 is an example of the display screen, and shows the score value of the evaluator A who has selected the evaluation index 1-5. Each aj is a score. The total value is an index that comprehensively evaluates the selected evaluation index, and is, for example, the total value or average value of the scores of the evaluation index. In this case, the higher the data, the higher the score in terms of the selected evaluation items. In addition, as the total value, the weight of each evaluation value may be changed. For example, the evaluation index 1 is regarded as important, the weight is set to 40%, and the rest is set to 15%. Further, the score values may be sorted for each evaluation index. Furthermore, the data analysis system uses the gradation corresponding to the ratio that the data associated with the predetermined classification information (tag) occupies for all the data, and the ratio of the ratio to the result of evaluating each of the plurality of data. The distribution can be displayed so as to be visible. For example, in the data analysis system, the percentage of data that was judged by the evaluator as “the degree of influence on the customer was large” (that is, the tag for the evaluation criterion 1 was set) increased in all data. The distribution of the ratio with respect to the score calculated with respect to the data can be displayed using a gradation that changes from green to red. Furthermore, the data analysis system can also evaluate data based on a plurality of evaluation criteria and display a radar chart showing the plurality of evaluation results with the plurality of evaluation criteria as axes.
 既述の実施形態では、データ分析システムを、クライアント装置とサーバによって実現されるとして説明したが、クライアント装置によって実現されるものとしてもよい。また、プロジェクトの成果を評価分類し、過去のプロジェクトの成果を活用する上で、最適なものを選択できるシステムについて説明したが、これに限らず、データが保存されており、最適なデータの選択が期待される他の技術分野、例えば、病院内での電子カルテを活用するシステムにも本発明を応用することができる。 In the above-described embodiment, the data analysis system is described as being realized by the client device and the server, but may be realized by the client device. In addition, the system that can evaluate and classify the project results and select the most suitable for utilizing the results of past projects has been explained. Therefore, the present invention can be applied to other technical fields in which electronic medical records are utilized in hospitals.
 またさらに、既述の実施形態では、評価者を複数とし、評価基準を複数としたシステムについて説明したが、既述の通り、本発明の特徴は、所望のデータを分別しようとする際に、ユーザの目的に関連する内容を持つ評価基準をその都度設定するようにしたため、予め、特定の観点でデータが分類されていて、その範囲の中から参照すべきデータを選択しなければならない場合と比較して、データ群の中から活用目的に適した有用データを的確に選択できるようにしたことにあるため、評価者、評価基準を夫々単数にしてもよい。 Furthermore, in the above-described embodiment, a system having a plurality of evaluators and a plurality of evaluation criteria has been described. However, as described above, the feature of the present invention is that when trying to classify desired data, Since the evaluation criteria having contents related to the purpose of the user are set each time, the data is classified in advance from a specific viewpoint, and the data to be referred to must be selected from the range. In comparison, useful data suitable for the purpose of utilization can be accurately selected from the data group, and therefore the number of evaluators and evaluation criteria may be singular.
 〔その他の応用例〕
 上記実施の形態においては、データ分析システムが「プロジェクト評価システム」として実現される例(すなわち、データ分析システムが分析する対象が、プロジェクト成果に係る関係データである例)を説明したが、データ分析システムは、以下の実施の目的、或いは、実施の形態にも適用することができる。
[Other application examples]
In the above embodiment, an example in which the data analysis system is realized as a “project evaluation system” (that is, an example in which the object to be analyzed by the data analysis system is related data related to project results) has been described. The system can also be applied to the following purposes or embodiments.
 例えば、データ分析システムが、企業に蓄積された情報を活用する情報資産活用システムに適用されることもできる。すなわち、このデータ分析システムは、企業・熟練者が有する情報資産を、状況に応じて(動的に)活用するシステムとして実現され、これにより、例えば、(1)開発期間の短縮化が望まれる開発現場を効率化するために、過去に開発した製品に関する情報を当該開発の要件に応じて再利用したり、(2)熟練技術者が有する専門知識に基づいて、有用な情報資産を特定したりすることができる。より具体的には、上記データ分析システムの評価基準を、目的のデータを活用するための対象が属する技術分野、当該対象の技術的或いは経済的な特徴等、対象の特徴に合わせて適宜変更することにより、現在の個別、具体的な要件にも十分に合致する可能性が高い情報を動的に抽出することができることになり、したがって、データの活用目的が変化されても、この変化に適合した有用データが多量のデータの群の中から的確に選択され得る。このことは、以下に説明する、他の技術分野でも同様である。 For example, a data analysis system can be applied to an information asset utilization system that utilizes information stored in a company. In other words, this data analysis system is realized as a system that utilizes (dynamically) information assets possessed by companies / experts according to the situation, and, for example, (1) it is desired to shorten the development period. In order to make the development site more efficient, information on products developed in the past can be reused according to the requirements of the development, or (2) useful information assets can be identified based on the expertise possessed by skilled engineers. Can be. More specifically, the evaluation criteria of the data analysis system are appropriately changed according to the characteristics of the target, such as the technical field to which the target for utilizing the target data belongs, the technical or economic characteristics of the target, etc. As a result, it is possible to dynamically extract information that is highly likely to meet current individual and specific requirements. The useful data thus selected can be accurately selected from a large group of data. This also applies to other technical fields described below.
 本発明のデータ分析システムは、さらに、インターネット応用システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、ユーザがSNSに投稿したメッセージ、ウェブサイトに掲載されたお勧め情報、ユーザまたは団体のプロフィールなど)を所定の評価基準(例えば、当該ユーザの嗜好と他のユーザの嗜好とが類似しているか否か、当該ユーザの嗜好とレストランの属性とが一致しているか否かなど)に基づいて評価することによって、例えば、当該ユーザと気の合いそうな他のユーザを一覧表示させたり、当該ユーザの嗜好に合ったレストランの情報を提示したり、当該ユーザに危害を与えかねない団体を警告したりすることができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 The data analysis system of the present invention can also be applied to Internet application systems. In this case, the data analysis system uses data (for example, a message posted by the user to the SNS, recommended information posted on the website, a profile of the user or organization, etc.) as a predetermined evaluation criterion (for example, the user's preference). For example, whether the user's preference is similar to the user's preference, whether the user's preference matches the restaurant attribute, etc. It is possible to display a list of other users, present restaurant information that suits the user's preferences, and warn organizations that may harm the user. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、ドライビング支援システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、車載センサ・カメラ・マイクなどから取得されるデータ)を所定の評価基準(例えば、熟練ドライバによる運転中に、当該熟練ドライバが着目した情報か否かなど)に基づいて評価することによって、例えば、運転を安全・快適にし得る有用な情報を自動的に抽出することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to a driving support system. In this case, the data analysis system determines whether the data (for example, data acquired from an in-vehicle sensor, a camera, a microphone, or the like) is information that the skilled driver has focused on during a predetermined evaluation standard (for example, driving by the skilled driver). For example, useful information that can make driving safe and comfortable can be automatically extracted. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、金融関連システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、銀行に対する届け出書類、株価の時価など)を所定の評価基準(例えば、不正目的のおそれがあるか否か、株価が上昇するか否かなど)に基づいて評価することによって、例えば、不正目的を有する届け出を摘発したり、将来の株価を予測したりすることができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to financial related systems. In this case, the data analysis system uses the data (for example, a report document to the bank, the market price of the stock price, etc.) for a predetermined evaluation standard (for example, whether there is a risk of fraud or whether the stock price increases). For example, a report having an unauthorized purpose can be detected, or a future stock price can be predicted. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、医療応用システム(電子カルテ、看護記録、患者の日記などをデータとして、傷病者の特定の危険行動を起こすか否かを推定するシステム)に適用することもできる。この場合、当該データ分析システムは、データ(例えば、電子カルテ、看護記録、患者の日記など)を所定の評価基準(例えば、患者の特定の危険行動を取るか否かなど)に基づいて評価することによって、例えば、患者が危険な状態(例えば、転倒するなど)に陥ることを予測することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to a medical application system (a system that estimates whether or not a specific dangerous behavior of a victim is caused by using electronic medical records, nursing records, patient diaries, etc. as data). In this case, the data analysis system evaluates data (e.g., electronic medical record, nursing record, patient diary, etc.) based on a predetermined evaluation standard (e.g., whether or not to take a specific dangerous action of the patient). Thus, for example, it can be predicted that the patient falls into a dangerous state (for example, falls). Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、スマートメールシステムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、電子メール、添付ファイルなど)を所定の評価基準(例えば、当該電子メールに返信する必要があるか否かなど)に基づいて評価することによって、例えば、大量のメールの中から重要なメール(アクションを要するメール)を抽出することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to a smart mail system. In this case, the data analysis system evaluates the data (for example, e-mail, attached file, etc.) based on a predetermined evaluation standard (for example, whether it is necessary to reply to the e-mail), For example, important mails (mails that require action) can be extracted from a large number of mails. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、ディスカバリ支援システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、ドキュメント、電子メール、表計算データなど)を所定の評価基準(例えば、本件訴訟に提出すべきか否かなど)に基づいて評価することによって、例えば、本件訴訟に関連する文書のみを法廷に提出することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 The data analysis system can also be applied to a discovery support system. In this case, the data analysis system evaluates the data (eg, document, e-mail, spreadsheet data, etc.) based on a predetermined evaluation standard (eg, whether or not to submit to the lawsuit), for example, Only documents related to this case may be submitted to the court. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、フォレンジックシステムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、ドキュメント、電子メール、表計算データなど)を所定の評価基準(例えば、当該データが犯罪行為を立証可能な証拠であるか否かなど)に基づいて評価することによって、例えば、当該犯罪行為を立証する証拠を抽出することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to a forensic system. In this case, the data analysis system uses data (eg, documents, e-mails, spreadsheet data, etc.) based on predetermined evaluation criteria (eg, whether the data is evidence that can prove criminal activity). For example, evidence that proves the criminal act can be extracted. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、メール監査システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、電子メール、添付ファイルなど)を所定の評価基準(例えば、当該電子メールを送受信したユーザが不正行為を行おうとしているか否かなど)に基づいて評価することによって、例えば、情報漏洩・談合などの不正行為の予兆を発見することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to an email audit system. In this case, the data analysis system uses the data (for example, e-mail, attached file, etc.) based on a predetermined evaluation standard (for example, whether or not the user who sent / received the e-mail tried to cheat) By evaluating, for example, a sign of fraud such as information leakage or collusion can be found. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 また、データ分析システムは、特許調査システムに適用することもできる。この場合、当該データ分析システムは、データ(例えば、特許文献、発明を要約した文書など)を所定の評価基準(例えば、当該特許文献は所与の特許を拒絶・無効にする証拠となり得るか否かなど)に基づいて評価することによって、例えば、大量の特許文献の中から無効資料を抽出することができる。これにより、上記データ分析システムは、活用目的に適した有用データをデータ群の中から的確に選択できる。 Also, the data analysis system can be applied to a patent search system. In this case, the data analysis system can use the data (eg, patent literature, documents summarizing the invention, etc.) for a predetermined evaluation standard (eg, the patent literature can provide evidence that the given patent is rejected / invalidated). For example, invalid materials can be extracted from a large number of patent documents. Thereby, the data analysis system can accurately select useful data suitable for the purpose of use from the data group.
 このように、データ分析システムは、プロジェクト評価システムだけでなく、フォレンジックシステム、ディスカバリ支援システム、医療応用システム、メール監査システム、インターネット応用システム、ドライビング支援システム、金融関連システム、特許調査システムなど、データを所定の評価基準に基づいて評価することによって目的を達成する任意のシステムに適用することができる。 In this way, the data analysis system is not only a project evaluation system but also a forensic system, a discovery support system, a medical application system, an email audit system, an Internet application system, a driving support system, a financial system, a patent research system, etc. The present invention can be applied to any system that achieves an object by evaluating based on a predetermined evaluation standard.
 本発明は、パーソナルコンピュータ、サーバ、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。 The present invention can be widely applied to arbitrary computers such as personal computers, servers, workstations, mainframes, and the like.
 10 クライアント装置
 12 管理計算機
 14 業務サーバ
 18 ストレージシステム
 22 データベース
10 Client device 12 Management computer 14 Business server 18 Storage system 22 Database

Claims (11)

  1.  メモリに記憶されたデータ群からユーザの所定目的にしたがって所望のデータを分別するための処理を実行するコントローラを備えるデータ分析システムであって、
     前記コントローラは、
     前記データ群から一部のデータを抽出し、
     前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、
     前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、
     当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、
     前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにしたデータ分析システム。
    A data analysis system comprising a controller that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user,
    The controller is
    Extracting some data from the data group;
    In order to classify the part of the data in order to classify the part of the data in order to classify the part of the data, in order to classify the desired data,
    Classifying the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria;
    Using the classification result for the partial data, the target data other than the extracted partial data in the data group is ranked according to the classification of the partial data and evaluated,
    A data analysis system in which the desired data can be separated from the data group using a result of evaluation on the target data.
  2.  前記コントローラは、
     ユーザによって前記所望のデータが分別されようとする際に、ユーザによる入力に基づいて所定の内容を持った前記評価基準を設定する、
     請求項1記載のデータ分析システム。
    The controller is
    When the desired data is to be sorted by the user, the evaluation criterion having a predetermined content is set based on the input by the user.
    The data analysis system according to claim 1.
  3.  前記コントローラは、
     前記評価基準に対して複数の評価者からの評価入力を許容し、
     前記複数の評価者毎の評価結果に基づいて、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価する、
     請求項1記載のデータ分析システム。
    The controller is
    Permitting evaluation inputs from a plurality of evaluators with respect to the evaluation criteria,
    Based on the evaluation results for each of the plurality of evaluators, the target data other than some of the extracted data in the data group is ranked and evaluated according to the classification of the partial data.
    The data analysis system according to claim 1.
  4.  前記コントローラは、
     夫々異なる内容の評価基準を複数設定し、
     前記複数の評価基準毎の評価結果に基づいて、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価する、
     請求項1記載のデータ分析システム。
    The controller is
    Set multiple evaluation criteria with different contents,
    Based on the evaluation results for each of the plurality of evaluation criteria, the target data other than the extracted part of the data group is ranked and evaluated according to the classification of the part of the data,
    The data analysis system according to claim 1.
  5.  前記コントローラは、前記評価基準に対して複数の評価者からの評価入力を許容するとともに、当該評価基準を夫々内容が異なるように複数設定し、
     前記複数の評価者毎及び前記複数の評価基準毎の評価結果に基づいて、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価する、
     請求項1記載のデータ分析システム。
    The controller allows an evaluation input from a plurality of evaluators with respect to the evaluation criteria, and sets a plurality of the evaluation criteria so that the contents are different from each other,
    Based on the evaluation results for each of the plurality of evaluators and for each of the plurality of evaluation criteria, the target data other than the extracted part of the data group is ranked according to the classification of the part of the data. evaluate,
    The data analysis system according to claim 1.
  6.  前記コントローラは、
     前記複数の評価者から所定の評価者を選択する第1の選択入力、及び/又は、前記複数の評価基準から所定の評価基準を選択する第2の選択入力に基づいて、選択された範囲で分類された前記対象データを参照できるようにした、
     請求項5記載のデータ分析システム。
    The controller is
    In a selected range based on a first selection input for selecting a predetermined evaluator from the plurality of evaluators and / or a second selection input for selecting a predetermined evaluation criterion from the plurality of evaluation criteria. The classified target data can be referred to.
    The data analysis system according to claim 5.
  7.  前記コントローラは、
     前記評価基準が肯定されると、当該評価基準に対する分類符号を前記一部のデータに付与し、
     当該分類符号が付与された当該一部のデータと前記対象データとの関連性を数値化して評価し、
     当該評価された数値が所定以上の場合に、前記対象データが前記評価基準に合致していると判定する、
     請求項1記載のデータ分析システム。
    The controller is
    When the evaluation criterion is affirmed, a classification code for the evaluation criterion is given to the partial data,
    Evaluate the relationship between the target data and the part of the data to which the classification code is assigned,
    When the evaluated numerical value is greater than or equal to a predetermined value, it is determined that the target data matches the evaluation criteria;
    The data analysis system according to claim 1.
  8.  前記コントローラは、
     前記分類符号が付与された前記一部のデータから前記評価基準に関連するデータ要素を抽出し、
     前記抽出されたデータ要素を所定の基準に基づいて評価し、
     当該データ要素と前記評価結果に応じて、前記分類符号が付与された前記一部のデータと前記対象データとの関連性の数値化を実行する、
     請求項7記載のデータ分析システム。
    The controller is
    Extracting a data element related to the evaluation criterion from the partial data to which the classification code is assigned;
    Evaluating the extracted data elements based on predetermined criteria;
    In accordance with the data element and the evaluation result, quantification of relevance between the partial data to which the classification code is assigned and the target data is executed.
    The data analysis system according to claim 7.
  9.  メモリに記憶されたデータ群からユーザの所定目的にしたがって所望のデータを分別するための処理を実行するコントローラを備えるデータ分析システムであって、
     前記データ群は夫々独立した事象に対する複数のデータセットを有し、
     前記コントローラは、
     当該データ群から所定数のデータセットを抽出し、
     前記所望のデータセットを分別しようとする際に、前記目的に関連する内容を持つ複数の評価基準を前記所定数のデータセットに対して設定し、
     前記複数の評価基準の夫々に対して複数の評価者からの評価入力を許容し、
     前記複数の評価基準の夫々に基づく評価結果毎、そして、前記複数の評価者の評価結果毎に基づく前記所定数のデータセットの評価結果に従って、当該所定数のデータセット夫々を分類符号との対応付けによって分類し、
     当該分類された所定数のデータセット毎に、所定のデータ要素を抽出して評価し、
     前記抽出されたデータ要素を所定の基準に基づいて評価し、
     当該データ要素と前記評価結果とに基づいて、前記所定数のデータセットと当該所定数のデータセット以外の対象データセットとの関連性の数値化を実行し、
     当該実行された数値化に基づいて前記対象データセットを序列化して評価し、
     当該対象データセットに対する評価の結果に基づいて、当該対象データセットを前記分類符号に基づいて分類し、
    当該対象データセットに対する分類結果を利用して、前記所望のデータを前記データ群から分別し得るようにした、
     データ分析システム。
    A data analysis system comprising a controller that executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user,
    The data group includes a plurality of data sets for independent events,
    The controller is
    Extract a predetermined number of data sets from the data group,
    When trying to classify the desired data set, a plurality of evaluation criteria having contents related to the purpose are set for the predetermined number of data sets,
    Allowing an evaluation input from a plurality of evaluators for each of the plurality of evaluation criteria,
    Corresponding to each evaluation result based on each of the plurality of evaluation criteria and corresponding to the classification code according to the evaluation result of the predetermined number of data sets based on the evaluation result of the plurality of evaluators Classify by attaching
    For each predetermined number of classified data sets, a predetermined data element is extracted and evaluated,
    Evaluating the extracted data elements based on predetermined criteria;
    Based on the data element and the evaluation result, quantification of the relationship between the predetermined number of data sets and a target data set other than the predetermined number of data sets,
    Rank and evaluate the target data set based on the performed quantification,
    Classifying the target data set based on the classification code based on the result of the evaluation on the target data set;
    Using the classification result for the target data set, the desired data can be separated from the data group.
    Data analysis system.
  10.  コントローラが、メモリに記憶されたデータ群からユーザの所定目的にしたがって所望のデータを分別するための処理を実行するデータ分析方法であって、
     前記コントローラは、
     前記データ群から一部のデータを抽出し、
     前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、
     前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、
     当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、
     前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにした、
     データ分析方法。
    A data analysis method in which a controller executes processing for separating desired data from a data group stored in a memory according to a predetermined purpose of a user,
    The controller is
    Extracting some data from the data group;
    In order to classify the part of the data in order to classify the part of the data in order to classify the part of the data, in order to classify the desired data,
    Classifying the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria;
    Using the classification result for the partial data, the target data other than the extracted partial data in the data group is ranked according to the partial data classification and evaluated,
    Using the result of evaluation on the target data, the desired data can be separated from the data group.
    Data analysis method.
  11.  データ群からユーザの所定目的にしたがって所望のデータを分別するための処理をコンピュータに実行させるためのデータ分析プログラムであって、
     前記データ群から一部のデータを抽出し、
     前記所望のデータを分別しようとする際に、前記目的に関連する内容を持つ評価基準を前記一部のデータを分類するために、当該一部のデータに対して設定し、
     前記評価基準に基づく前記抽出された一部のデータの評価結果に従って当該一部のデータを分類し、
     当該一部のデータに対する分類結果を利用して、前記データ群のうち抽出された一部のデータ以外の対象データを前記一部のデータの分類に合わせて序列化して評価し、
     前記対象データに対する評価の結果を利用して、前記所望のデータを前記データ群から分別し得るようにした、
     データ分析プログラム。
    A data analysis program for causing a computer to execute processing for separating desired data from a data group according to a predetermined purpose of a user,
    Extracting some data from the data group;
    In order to classify the part of the data in order to classify the part of the data in order to classify the part of the data, in order to classify the desired data,
    Classifying the partial data according to the evaluation result of the extracted partial data based on the evaluation criteria;
    Using the classification result for the partial data, the target data other than the extracted partial data in the data group is ranked according to the classification of the partial data and evaluated,
    Using the result of evaluation on the target data, the desired data can be separated from the data group.
    Data analysis program.
PCT/JP2015/054041 2015-02-13 2015-02-13 Data analysis system, data analysis method, and data analysis program WO2016129124A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/054041 WO2016129124A1 (en) 2015-02-13 2015-02-13 Data analysis system, data analysis method, and data analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/054041 WO2016129124A1 (en) 2015-02-13 2015-02-13 Data analysis system, data analysis method, and data analysis program

Publications (1)

Publication Number Publication Date
WO2016129124A1 true WO2016129124A1 (en) 2016-08-18

Family

ID=56614313

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/054041 WO2016129124A1 (en) 2015-02-13 2015-02-13 Data analysis system, data analysis method, and data analysis program

Country Status (1)

Country Link
WO (1) WO2016129124A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6415681B1 (en) * 2017-12-29 2018-10-31 株式会社経営人事パートナーズ HR evaluation method and HR evaluation system
CN111612336A (en) * 2020-05-20 2020-09-01 中国安全生产科学研究院 Oil and gas pipeline failure factor correction method based on big data
CN113554271A (en) * 2020-09-29 2021-10-26 中国传媒大学 Method and device for analyzing influence degree of standard adoption relation on organization

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305950A (en) * 1999-04-26 2000-11-02 Ricoh Co Ltd Document sorting device and document sorting method
JP2009163303A (en) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp Retrieval filtering device and retrieval filtering program
WO2012095971A1 (en) * 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP5454827B1 (en) * 2012-02-24 2014-03-26 日本電気株式会社 Document evaluation apparatus, document evaluation method, and program
JP5603468B1 (en) * 2013-07-31 2014-10-08 株式会社Ubic Document sorting system, document sorting method, and document sorting program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305950A (en) * 1999-04-26 2000-11-02 Ricoh Co Ltd Document sorting device and document sorting method
JP2009163303A (en) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp Retrieval filtering device and retrieval filtering program
WO2012095971A1 (en) * 2011-01-13 2012-07-19 三菱電機株式会社 Classification rule generation device, classification rule generation method, classification rule generation program and recording medium
JP5454827B1 (en) * 2012-02-24 2014-03-26 日本電気株式会社 Document evaluation apparatus, document evaluation method, and program
JP5603468B1 (en) * 2013-07-31 2014-10-08 株式会社Ubic Document sorting system, document sorting method, and document sorting program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6415681B1 (en) * 2017-12-29 2018-10-31 株式会社経営人事パートナーズ HR evaluation method and HR evaluation system
JP2019148840A (en) * 2017-12-29 2019-09-05 株式会社経営人事パートナーズ Personnel evaluation method and personnel evaluation system
CN111612336A (en) * 2020-05-20 2020-09-01 中国安全生产科学研究院 Oil and gas pipeline failure factor correction method based on big data
CN113554271A (en) * 2020-09-29 2021-10-26 中国传媒大学 Method and device for analyzing influence degree of standard adoption relation on organization

Similar Documents

Publication Publication Date Title
CN107851097B (en) Data analysis system, data analysis method, data analysis program, and storage medium
KR101658794B1 (en) Document classification system, document classification method, and document classification program
JP5823943B2 (en) Forensic system, forensic method, and forensic program
JP6144427B2 (en) Data analysis system, data analysis method, and data analysis program
KR20200023259A (en) Method, apparatus and program for providing specialist matching service using artificial intelligence model
US20100042613A1 (en) Method and system for automated search engine optimization
TW200832158A (en) Implicit, specialized search of business objects using unstructured text
JP5603468B1 (en) Document sorting system, document sorting method, and document sorting program
KR102034303B1 (en) Method, apparatus and program for providing specialist matching service
Al-Obeidat et al. The opinion management framework: Identifying and addressing customer concerns extracted from online product reviews
US20150347926A1 (en) Fast Naive Bayesian Framework with Active-Feature Ordering
JP5905651B1 (en) Performance evaluation apparatus, performance evaluation apparatus control method, and performance evaluation apparatus control program
WO2016203652A1 (en) System related to data analysis, control method, control program, and recording medium therefor
JP2010039605A (en) Person search system, person search method, program and recording medium
WO2016129124A1 (en) Data analysis system, data analysis method, and data analysis program
JP5986687B2 (en) Data separation system, data separation method, program for data separation, and recording medium for the program
Obulaporam et al. GCRITICPA: A CRITIC and grey relational analysis based service ranking approach for cloud service selection
WO2016189605A1 (en) Data analysis system, control method, control program, and recording medium
JP2017201543A (en) Data analysis system, data analysis method, data analysis program, and recording media
Pillaerds et al. Assessing suitability of adaptive case management
CN114493851A (en) Risk processing method and device
CN113610504A (en) Data processing method and device, computer equipment and storage medium
WO2016056095A1 (en) Data analysis system, data analysis system control method, and data analysis system control program
JP5685675B2 (en) Document sorting system, document sorting method, and document sorting program
US20160217426A1 (en) Systems, methods, and devices for generating connectivity metrics associated with a referral processor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15881998

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15881998

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP