WO2023090510A1 - Electronic device for performing data selection based on data supplementation condition, and executing method thereof - Google Patents

Electronic device for performing data selection based on data supplementation condition, and executing method thereof Download PDF

Info

Publication number
WO2023090510A1
WO2023090510A1 PCT/KR2021/017884 KR2021017884W WO2023090510A1 WO 2023090510 A1 WO2023090510 A1 WO 2023090510A1 KR 2021017884 W KR2021017884 W KR 2021017884W WO 2023090510 A1 WO2023090510 A1 WO 2023090510A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
missing
processor
missing data
processing
Prior art date
Application number
PCT/KR2021/017884
Other languages
French (fr)
Korean (ko)
Inventor
문재원
금승우
오승택
유미선
황지수
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210159210A external-priority patent/KR20230072698A/en
Priority claimed from KR1020210160938A external-priority patent/KR20230074886A/en
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2023090510A1 publication Critical patent/WO2023090510A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode

Definitions

  • the present invention relates to an electronic device for performing data selection and processing missing data and a method for performing the same.
  • the amount of data to be deleted varies depending on the location of the missing data, and in some cases, a large amount of data may be deleted.
  • An object of the present invention is to provide a method and apparatus for selecting data using data supplementation conditions to variably determine the degree of utilization of missing data.
  • An object of the present invention is to provide a data selection method and apparatus capable of more efficiently recovering and utilizing data by selecting and selecting even if missing data is included in time series data based on a quality desired by a user.
  • An object of the present invention is to provide an electronic device and method for processing missing data in consideration of the purpose of utilizing data or the quantity and quality of data.
  • An object of the present invention is to provide an electronic device and a method for processing the same, which can selectively apply different missing data preprocessing techniques according to missing data situations since the purposes of using data are different.
  • An object of the present invention is to provide an application method for single data as well as data in which a plurality of single data are combined.
  • a section of first data to be processed is set among data collected for at least one characteristic, and missing data included in the section of the first data is reset. and a processor for generating 2 data and processing the second data based on a data supplement condition prepared to select data requiring supplementation.
  • the processor sets the data supplementation condition based on at least one of the ratio, period, and number of missing data included in the second data, and selects third data that satisfies the data supplementation condition from among the second data. can do.
  • the processor may process the second data when a ratio of missing data included in the second data is higher than a predefined value.
  • the processor may process the second data when a period of missing data included in the second data is higher than a predefined value.
  • the processor may process the second data when the number of missing data included in the second data is higher than a predefined value.
  • the processor may set a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data.
  • the processor may set the first section of the first data based on the consecutive number of missing data included in the first section or the summed number of missing data included in the first section.
  • a method for performing data selection based on a data complement condition comprising: setting a section of first data to be processed among data collected for at least one characteristic; generating second data by resetting missing data included in the section of the first data; and processing the second data based on data supplementation conditions prepared to select data requiring supplementation.
  • the processing of the second data may include setting the data supplementation condition based on at least one of a ratio, period, and number of missing data included in the second data;
  • the method may include selecting third data that satisfies the data supplementation condition from among the second data.
  • the processing of the second data may include processing the second data when a ratio of missing data included in the second data is higher than a predefined value.
  • the processing of the second data may include processing the second data when a period of missing data included in the second data is higher than a predefined value.
  • the processing of the second data may include processing the second data when the number of missing data included in the second data is higher than a predefined value.
  • Setting the section of the first data may include setting a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data.
  • the setting of the first section may include setting the first section of the first data based on the continuous number of missing data included in the first section or the summed number of missing data included in the first section. steps may be included.
  • abnormal data among collected data is processed, information on missing data including the processed abnormal data among the collected data is identified, and information about the missing data is determined. and a processor processing the missing data using at least one missing data processing method based on information.
  • the processor may identify information about the missing data including at least one of information about a location of the missing data and information about continuity of the missing data.
  • the processor may identify abnormal data including certain abnormal data and uncertain abnormal data among the collected data, and process the certain abnormal data and uncertain abnormal data, respectively.
  • the processor may identify at least one missing data processing method to process missing data corresponding to at least one section based on the missing data information.
  • the electronic device may further include an input unit, and the processor may receive a user input related to at least one missing data processing method to process missing data corresponding to the at least one section through the input unit.
  • the processor obtains a plurality of processed data by respectively processing the collected data including a plurality of collected data, combines the plurality of processed data, processes abnormal data among the combined data, and processes the combined data.
  • information on missing data including the processed abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data.
  • the processor may perform upsampling or downsampling of each of the plurality of processed data and combine them based on a data collection period of the plurality of processed data.
  • the processor may set a combining section for combining the plurality of processed data, and reset missing data included in the combined section of each processed data according to the combining section.
  • a method for processing missing data comprising: processing abnormal data among collected data; identifying information about missing data including the processed abnormal data among the collected data; and processing the missing data using at least one missing data processing method based on the information on the missing data.
  • the identifying information on the missing data may include identifying information on the missing data including at least one of information about a location of the missing data and information about continuity of the missing data. .
  • the processing of the abnormal data may include identifying abnormal data including certain abnormal data and uncertain abnormal data among the collected data;
  • the method may further include processing the definite anomaly data and the uncertain anomaly data, respectively.
  • the processing of the missing data may include identifying the at least one missing data processing method to process the missing data corresponding to at least one section based on the information on the missing data.
  • the identifying of the at least one missing data processing method may include receiving a user input regarding at least one missing data processing method to process the missing data corresponding to the at least one section.
  • the processing of the missing data includes a step of obtaining a plurality of processed data by respectively processing the collected data including a plurality of collected data, wherein the method comprises: combining the plurality of processed data; processing abnormal data among the combined data; identifying information about missing data including the processed abnormal data among the combined data; The method may further include processing the missing data using at least one missing data processing method based on the information on the missing data.
  • the combining of the plurality of processed data may include upsampling or downsampling each of the plurality of processed data based on a data collection period of the plurality of processed data and combining the plurality of processed data.
  • the combining of the plurality of processed data may include setting a combining section for combining the plurality of processed data, and resetting missing data included in the combining section of each of the processed data according to the combining section.
  • the generating of the second data includes processing abnormal data among the first data, and the processing of the second data identifies information about missing data including the processed abnormal data. doing; and processing the missing data included in the second data using at least one missing data processing method based on the information on the missing data.
  • data to be supplemented is selected based on the situation of missing data included in the data and the task is performed, more rational and high-quality data processing is possible.
  • the present invention can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when combining data.
  • 1 is a diagram illustrating data including missing data.
  • FIG. 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating how to set a section of first data according to a method according to an embodiment of the present invention.
  • FIG. 5 is a diagram showing how to generate second data according to a method according to an embodiment of the present invention.
  • FIG. 6 is a diagram illustrating processing of second data based on a data complement condition according to a method according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating an operation of an electronic device according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating an operation of an electronic device according to another embodiment of the present invention.
  • 1 is a diagram showing data 1 including missing data.
  • Data (1) of FIG. 1 is a table of data collected according to time (T) for each feature (N), and is composed of 10 different features and 10 times. For example, when climate change in a specific city is analyzed, temperature, humidity, precipitation, traffic volume, and population density of the specific city over time may be the characteristics. Alternatively, when comparing the amount of fine dust in each city, Seoul, Busan, Cheongju, etc. may correspond to the characteristics.
  • Missing data is comprehensively defined as data that cannot be converted and displayed in any way, such as numbers and letters, and data that cannot be defined or does not exist. It means that there is no data collected at that time, or data that is collected but omitted in the process of transmitting to a device such as a server.
  • the value of the missing data can be expressed in various ways, such as expressing an extreme value such as "-999" or expressing a predetermined character such as "NaN" or "NA".
  • representative libraries that process data mark missing data as "NaN” or "NA” for reasons of simplicity and functionality.
  • Abnormal data is data that adversely affects the result value in analyzing the collected data. For example, it means error data such as the collected data having abnormal values or exceeding the allowable measurement range of the sensor that collects the data. do.
  • abnormal data among collected data may be replaced with missing data and processed, or may be interpolated with appropriate data using data collected before and after the abnormal data.
  • abnormal data is marked as "NaN" or "NA” and replaced with missing data.
  • missing data 11
  • the method of deleting data in bulk a complete data set that prevents contamination of missing data can be obtained, but the degree of deletion depending on the location of missing data is large, so it is used as data may be insufficient to do so. For example, if rows including missing data (11) are collectively deleted from data (1), rows T1 and rows T10 remain, which may be insufficient to obtain useful information using data (1). .
  • data can be preserved as much as possible by recovering the missing data arbitrarily based on adjacent data or past data of the missing data.
  • the recovered data is not accurate data, excessive interpolation may contaminate the results of analysis and learning due to poor data quality.
  • data in column N3 is interpolated using only the data obtained in rows T1 and T10, so The quality of the data may be degraded. Also, in the case of data in columns N7, N8, and N10, interpolation accuracy cannot be guaranteed because missing data occurs irregularly.
  • the present invention determines the degree of recovery of data including missing data, selects recoverable data, and proposes an electronic device and method for processing the data.
  • FIG. 2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
  • An electronic device 100 includes an input unit 110, a communication unit 120, a display unit 130, a memory 140, and a processor 150.
  • the input unit 110 generates input data in response to a user input of the electronic device 100 .
  • the user input may include user input regarding data to be processed by the electronic device 100, user input regarding data complement conditions, and user input regarding at least one missing data processing method to process missing data.
  • the input unit 110 includes at least one input means.
  • the input unit 110 includes a keyboard, a key pad, a dome switch, a touch panel, a touch key, a mouse, a menu button, and the like. can include
  • the communication unit 120 communicates with an external device such as a server or a data collection device to receive data. To this end, the communication unit 120 may perform communication such as 5th generation communication (5G), long term evolution-advanced (LTE-A), long term evolution (LTE), and wireless fidelity (Wi-Fi).
  • 5G 5th generation communication
  • LTE-A long term evolution-advanced
  • LTE long term evolution
  • Wi-Fi wireless fidelity
  • the display unit 130 displays display data according to the operation of the electronic device 100 .
  • the display unit 130 may display display data necessary for selecting data based on the data complementation conditions, for example, a screen for setting data complementation conditions, a screen for displaying data processing results, and the like.
  • the display unit 130 may display data required to process missing data, for example, a screen for processing abnormal data among collected data, a screen for identifying information on missing data, a screen for receiving user input, A screen for displaying data processing results can be displayed.
  • the display unit 130 may include a liquid crystal display (LCD), a light emitting diode (LED) display, an organic LED (OLED) display, and a micro electro mechanical systems (MEMS) display. and electronic paper displays.
  • the display unit 130 may be combined with the input unit 110 and implemented as a touch screen.
  • the memory 140 stores operating programs of the electronic device 100 .
  • the memory 140 is a non-volatile storage that can retain data (information) regardless of whether or not power is provided, and data to be processed by the processor 150 is loaded. It includes memory of volatile properties that cannot preserve . Storage includes flash-memory, hard-disc drive (HDD), solid-state drive (SSD), read-only memory (ROM), and buffer and random access memory (RAM). etc.
  • the memory 140 may store data collected from an external device, data on data complement conditions, information on abnormal data, information on how to process missing data, and the like. In addition, the memory 140 learns to identify at least one missing data processing method based on information on a model learned to set a section of first data to be processed according to the quality of data or information on missing data. information about the model can be stored.
  • the processor 150 may execute software such as a program to control at least one other component (eg, a hardware or software component) of the electronic device 100 and perform various data processing or calculations.
  • software such as a program to control at least one other component (eg, a hardware or software component) of the electronic device 100 and perform various data processing or calculations.
  • the processor 150 sets a section of the first data to be processed among data collected for at least one characteristic, resets missing data included in the section of the first data to generate second data, Based on data supplementation conditions prepared to select data requiring supplementation, at least some of data analysis, processing, and result information generation for processing the second data are rule-based or artificial intelligence (AI) algorithms, machine learning, This may be performed using at least one of a neural network and a deep learning algorithm.
  • AI artificial intelligence
  • the processor 150 processes abnormal data among the collected data, identifies information on missing data including the processed abnormal data among the collected data, and performs at least one missing data processing method based on the information on the missing data.
  • CNN Convolutional Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • FIG. 3 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
  • the processor 150 sets a section of first data to be processed among data collected for at least one characteristic (S310).
  • the characteristics refer to the contents of collected data, and the collected data is time-sequentially collected for at least one characteristic.
  • the processor 150 may receive data collected from an external device such as a server, but may be data collected by the electronic device 100, and is not limited thereto.
  • the processor 150 may set a section of the first data based on a necessary time section. At this time, the first data becomes a target to be processed among the collected data.
  • the processor 150 may set a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data. For example, when setting a time interval using collected data, a plurality of intervals that can be set as the first data may exist. If the number of missing data included in a specific section among a plurality of sections is small, it can be evaluated that the quality of data is good compared to other sections. Accordingly, the processor 150 may set a section having the smallest number of missing data among a plurality of sections of the first data as the first section of the first data.
  • the processor 150 may set the first section of the first data based on the number of consecutive missing data included in the first section or the summed number of missing data included in the first section. For example, in the case of a section including three consecutive missing data and a section including three missing data but data that are distributed and can be supplemented by interpolation, the latter section is the first as more valid data. It is likely to be set as an interval.
  • the processor 150 identifies the total number of missing data in the collected data, and assigns a section in which the number of missing data included in the corresponding section is small compared to the total number of missing data in the first section of the first data. can be set to
  • the processor 150 resets the missing data included in the section of the first data to generate second data (S320).
  • the section of the first data may include missing data as well as uncollected data.
  • Non-collected data refers to cases in which there is no collected data, except for data omitted during data collection, when the data collection start time or collection end time is different when different data are listed in chronological order.
  • resetting missing data means setting uncollected data included in the section of the first data as missing data. This is to unify the data processing so that they receive the same processing by changing the format of the existing missing data and uncollected data to be the same.
  • the processor 150 processes the second data based on a data supplementation condition prepared to select data requiring supplementation (S330).
  • the processor 150 may set a data complement condition based on at least one of the ratio, period, and number of missing data included in the second data.
  • the data complement condition may be applied to one data set among data collected according to at least one characteristic. For example, in the case of data collected for a plurality of characteristics, it may be applied to a data set corresponding to each characteristic. Alternatively, in the case of data collected under two or more different conditions for one characteristic, it may be applied to data sets collected corresponding to each condition.
  • the processor 150 may receive and set a user input for the data supplementation condition through the input unit 110 or may receive data on the data supplementation condition from an external device through the communication unit 120 .
  • the processor 150 performs at least a part of data analysis, processing, and result information generation for setting optimized data complement conditions for processing the collected data or second data as a rule-based or artificial intelligence algorithm, such as machine learning and neural networks. It may be performed using at least one of a network and a deep learning algorithm.
  • processing the second data means performing various data processing, such as selecting third data that satisfies the data complement condition from the second data, deleting the second data or the selected third data, or interpolating.
  • the processor 150 may process the second data when the ratio of missing data included in the second data is higher than a predefined value.
  • the processor 150 may process the second data when the period of missing data included in the second data is higher than a predefined value.
  • the period of the missing data may mean a period for consecutive missing data or a period obtained by summing the periods corresponding to the missing data scattered in the second data.
  • the processor 150 may process the second data when the number of missing data included in the second data is higher than a predefined value.
  • data to be supplemented is selected based on the situation of missing data included in the data, rather than data being deleted or interpolated in batches, and thus data processing is performed more rationally and with higher quality. is possible
  • the time series data includes missing data based on the quality desired by the user, only good quality data can be used by efficiently selecting and selecting the time series data.
  • FIGS. 4 to 7 sequentially illustrate one embodiment of processing the collected data according to the operation flow described in FIG. 3 above.
  • D1 to D7 data collected for one characteristic are processed.
  • the present invention is not limited to this embodiment, and may process data collected for a plurality of characteristics.
  • the data shown in FIGS. 4 to 7 exist for each characteristic, or D1 to D7 are each different. It may be a different characteristic.
  • 4 is a diagram illustrating how to set a section of first data according to a method according to an embodiment of the present invention. 4 is described in relation to S310 of FIG. 3 .
  • the processor 150 may set a section 430 of the first data to be processed in the collected data 400 .
  • the processor 150 sets a first section 430 of the first data among a plurality of sections of the first data in consideration of the entire missing data 410 and the uncollected data 420.
  • the number of missing data and uncollected data is 7, whereas if the section is set forward by one column, the number of missing data and uncollected data is 9.
  • the number of consecutive missing data increases to three, such as the D3 row, and the quality of the data is further deteriorated.
  • the present invention by setting a section of the first data among the collected data, as part of a preprocessing process for selecting data that satisfies the data supplementation condition, it can contribute to further improving data quality.
  • 5 is a diagram showing how to generate second data according to a method according to an embodiment of the present invention. 5 is described in relation to S320 of FIG. 3 .
  • FIG. 5 shows second data 500 generated by processing the first data previously set in FIG. 4 .
  • the processor 140 generates the second data 500 by resetting the missing data 410 included in the section 430 of the first data.
  • resetting the missing data means setting the uncollected data 420 included in the section 430 of the first data as the missing data 410 . This is to unify the existing missing data 410 and the uncollected data 420 to receive the same processing by changing the same format.
  • 6 is a diagram illustrating processing of second data based on a data complement condition according to a method according to an embodiment of the present invention.
  • 7 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention. 6 and 7 are described in relation to S330 of FIG. 3 .
  • the processor 150 may set a data complement condition based on at least one of the ratio, period, and number of missing data 410 included in the second data 500 .
  • the processor 150 may process the second data 500 when the ratio of the missing data 410 included in the second data 500 is higher than a predefined value. there is.
  • the processor 150 may process the second data 500 when the period of the missing data 410 included in the second data 500 is higher than a predefined value.
  • the period of the missing data 410 may mean a period for consecutive missing data 410 or a period obtained by adding the periods corresponding to the scattered missing data 410 to the second data 500 .
  • the processor 150 may process the second data 500 when the number of missing data 410 included in the second data 500 is higher than a predefined value.
  • processing the second data 500 by the processor 150 includes selecting third data 510 that satisfies a data complement condition from the second data 500 .
  • the number of missing data 410 is two or more, and the processor 150 supplements data that satisfies the data supplementation condition. It is possible to select necessary third data 510 .
  • the data complement condition may be applied to one data set among data collected according to at least one characteristic.
  • the second data 500 is data measuring the amount of fine dust for each city
  • rows D1 to D7 are data for the amount of fine dust collected in different cities.
  • the data complement condition for identifying cities in which the number of missing data 410 is two or more is applied to rows D1 to D7, respectively, so that the processor 150 determines that the data in rows D3 and D5 of the second data 500 is data. It can be selected as the third data 510 that needs supplementation.
  • the processor 150 may delete or interpolate the selected third data 510 .
  • the selected third data 510 is deleted.
  • the processor 150 identifies missing data among remaining data after third data selection and processing accordingly as data 710 requiring interpolation.
  • the processor may perform interpolation on data 710 requiring interpolation, and may perform analysis using the restored data 700 .
  • data requiring supplementation is selected based on data supplementation conditions, high-quality data can be provided.
  • the selected data is analyzed based on the processed data, it is possible to avoid unreasonable deletion or interpolation operations, thereby enabling higher quality data analysis.
  • FIG. 8 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
  • the processor 150 processes abnormal data among the collected data (S810).
  • the operation of the processor 150 in step S810 may be an operation of processing abnormal data among the first data in relation to the step S320 of FIG. 3 .
  • the collected data is time-sequentially collected for at least one characteristic.
  • it may be temperature data collected from a temperature sensor.
  • the processor 150 may receive data collected from an external device such as a server, but may be data collected by the electronic device 100, and is not limited thereto.
  • Abnormal data is data that adversely affects the result value in analyzing the collected data. For example, it means error data such as the collected data having abnormal values or exceeding the allowable measurement range of the sensor that collects the data. do.
  • the processor 150 may replace abnormal data among collected data with missing data for processing, or may interpolate appropriate data using data collected before and after the abnormal data.
  • Missing data is comprehensively defined as data that cannot be converted and displayed in any way, such as numbers and letters, and data that cannot be defined or does not exist. It means that there is no data collected at that time, or data that is collected but omitted in the process of transmitting to a device such as a server.
  • the value of missing data can be expressed in various ways, such as expressing an extreme value such as "-999” or expressing a predetermined character such as "NaN” or "NA".
  • abnormal data is marked as "NaN” or "NA” and replaced with missing data.
  • the processor 150 identifies information about missing data including processed abnormal data among the collected data (S820). In step S820, the processor 150 identifies information on missing data including the processed abnormal data among the first data in relation to step S330 of FIG. 3, and based on the information on the identified missing data, at least It may be an operation of processing missing data included in the second data using one missing data processing method.
  • collected data may include missing data as well as abnormal data.
  • the missing data includes missing data substituted from abnormal data in step S810 and missing data previously included in collected data.
  • information on missing data includes at least one of information about a location of missing data and information about continuity of missing data.
  • the information about the location of missing data includes, for example, information about rows and columns where missing data is located in tabular data.
  • the information on the continuity of the missing data includes information on the degree (time) of the continuity of the missing data and information capable of identifying the tendency or pattern of the missing data, such as the distribution of the missing data.
  • the processor 150 may identify information about the missing data including at least one of information about the location of the missing data and information about continuity of the missing data.
  • the processor 150 processes the missing data using at least one missing data processing method based on information on the missing data (S830).
  • the processor 150 may supplement missing data based on information about the location of the missing data and/or information about the continuity of the missing data.
  • the processor 150 may identify at least one missing data processing method to process the missing data corresponding to at least one section based on the missing data information.
  • the processor 150 may complement the missing data by considering parameter information for adjusting the processing degree of the missing data according to information on the missing data.
  • Parameter information according to the present embodiment may include information on a section including missing data, information on a method for processing missing data, conditions for processing missing data, and the like.
  • a section including 10 consecutive missing data may be processed by applying one missing data processing method.
  • a section including 10 consecutive pieces of missing data may be divided into three sections, and different missing data processing methods may be applied to each section for processing.
  • a plurality of missing data processing methods are applied to each section, and the final supplemented data value may be derived by applying an average value or a predetermined ratio of supplemented data values according to each processing method.
  • the processor 150 may process the missing data based on a condition for determining whether to process the missing data, that is, a condition for determining whether to supplement data. For example, complementation is performed only when missing data is 20% or less of the total data, or complementation is performed only for 10 or fewer consecutive missing data and the missing data does not exceed 30% of the total data. Missing data can be handled accordingly.
  • a condition for determining whether to process the missing data that is, a condition for determining whether to supplement data. For example, complementation is performed only when missing data is 20% or less of the total data, or complementation is performed only for 10 or fewer consecutive missing data and the missing data does not exceed 30% of the total data. Missing data can be handled accordingly.
  • the missing data processing method includes, for example, “mean”, “median”, “frequent”, “ffill”, “bfill”, “linear_interpolation”, “spline_interpolation”, “stineman_interpolation” , “KNN”, “ARIMA”, “Randomforest”, “NAOMI”, “BRITS”, etc., but are not limited thereto.
  • the processor 150 performs at least a part of data analysis, processing, and result information generation for adjusting the processing degree of missing data according to information on the missing data as a rule-based or artificial intelligence algorithm. It may be performed using at least one of machine learning, neural network, and deep learning algorithms.
  • the processor 150 receives user input regarding at least one missing data processing method for processing missing data corresponding to at least one section through the input unit 110. can be received through Accordingly, the processor 150 may supplement missing data by applying at least one missing data processing method according to parameter information defined by a user.
  • FIG. 9 is a diagram illustrating an operation of an electronic device according to an embodiment of the present invention.
  • the process 900 of processing missing data will be described, and since the contents overlapping with those described in FIG. 8 are applied in the same manner as in FIG. 8, a detailed description thereof will be omitted.
  • Processor 150 processes abnormal data 20 among collected data (hereinafter, referred to as collected data 10) (910).
  • abnormal data 20 includes certain abnormal data 21 and uncertain abnormal data 22 .
  • abnormal data 21 means error data that is clearly determined, such as having a value exceeding a minimum-maximum range that the value of the collected data 10 can have.
  • Uncertain abnormal data 22 refers to abnormal data that appears uncertain as abnormal data, such as showing a clear difference when compared with data acquired before and after the corresponding data, although it is not a clear error.
  • the processor 150 identifies abnormal data 20 including certain abnormal data 21 and uncertain abnormal data 22 among the collected data 10, and collects certain abnormal data 21 and uncertain abnormal data 22. process each. For example, the processor 150 replaces certain abnormal data 21 of the collected data 10 with missing data for processing, or replaces uncertain abnormal data 22 with missing data for processing, or replaces certain abnormal data 22 with missing data. Data collected before and after can be used to interpolate to appropriate data. At this time, the processor 150 may receive a user input for determining a value of the abnormal abnormal data 22 through the input unit 110 .
  • Processor 150 identifies information about missing data 30 including processed abnormal data among collected data 10 (920).
  • the processor 150 processes the missing data 30 using at least one missing data processing method based on information on the missing data 30 (930). As a result, processed data 40 obtained by processing the collected data 10 is obtained.
  • abnormal data can be processed more precisely because abnormal data is classified into certain abnormal data and uncertain abnormal data.
  • FIG. 10 is a diagram illustrating an operation of an electronic device according to another embodiment of the present invention.
  • the operation of FIG. 10 describes a method 1000 for integrating a plurality of processed data 40 obtained by processing a plurality of collected data 10 respectively.
  • the data processing (900) described in FIGS. 8 and 9 for each collected data ) should be preceded.
  • the processed data 40 obtained through the data processing 900 process for each collected data 10 includes Data1', Data2', ..., DataN'.
  • the processor 150 according to an embodiment of the present invention combines the acquired processed data 40 (1010).
  • the processor 150 may set a combination period of the plurality of processed data 40 as shown in Table 2.
  • the processor 150 may reset missing data according to the combining interval.
  • resetting the missing data means setting the non-collected data as missing data when non-collected data occurs beyond the time period in which the collected data is collected. This is to unify the data processing so that they receive the same processing by changing the format of the existing missing data and uncollected data to be the same.
  • the combination period is set to combination period 1, some data of data 1, all data of data 2, and some data of data 3 are used, so resetting additional missing data is unnecessary.
  • the processor 150 may combine data based on a data collection period of the plurality of processed data 40 .
  • the processor 150 may reindex data based on a data collection period of the plurality of processed data 40 .
  • the processor 150 may perform upsampling or downsampling of each of the plurality of processed data 40 and combine them based on the data collection period of the plurality of processed data 40 .
  • the combining period is 1 minute
  • data 2 and data 3 need to be upsampled
  • the combining period is 1 hour
  • data 1 needs to be downsampled
  • data 3 needs to be upsampled.
  • downsampling can utilize a well-known statistical calculation method such as an average, but upsampling has a wide variety of processing methods, and the resulting data restoration effect is also very different, so at least one of the missing data processing methods described in FIG. You can do this by applying one.
  • the method of performing upsampling and downsampling can be applied without limitation.
  • the processor 150 may perform data processing 1020 again on the combined data.
  • the data processing 1020 may be the same as the data processing 900, and the data processing 1020 and the data processing 900 may be performed by the same processor or different processors.
  • the processor 150 processes a plurality of collected data, respectively, obtains a plurality of processed data, combines the plurality of processed data, processes abnormal data among the combined data, and processes the processed data among the combined data.
  • Information on missing data including abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data.
  • the processor 150 may process the missing data and integrate the data ( 1030 ).
  • the present invention can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when combining data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

An electronic device according to an embodiment of the present invention comprises a processor which: configures a period of first data to be processed among data collected for at least one property; reconfigures missing data included in the period of first data to generate second data; and processes the second data on the basis of a data supplementation condition provided for selection of data which needs to be supplemented.

Description

데이터 보완 조건에 기반한 데이터 선별을 수행하는 전자장치 및 그 수행 방법Electronic device for performing data selection based on data complement conditions and method for performing the same
본 발명은 데이터 선별을 수행하고, 누락 데이터를 처리하는 전자장치 및 그 수행 방법에 관한 것이다.The present invention relates to an electronic device for performing data selection and processing missing data and a method for performing the same.
산업 기술과 정보 통신 기술의 발달에 따라 데이터의 양이 폭발적으로 늘어나고, 이를 활용하는 데이터 마이닝이나 기계학습과 같은 데이터 활용 기술의 성능도 점점 좋아지고 있다. 이때, 데이터 활용 기술을 이용하여 좋은 결과를 얻기 위해서는 데이터가 무결하다는 전제 조건을 만족해야 한다. 그러나 실제 환경에서는 다양한 이유로 빈번하게 누락되거나 이상 데이터가 발생하고 있다. With the development of industrial technology and information and communication technology, the amount of data is explosively increasing, and the performance of data utilization technologies such as data mining or machine learning that utilizes them is getting better and better. At this time, in order to obtain a good result using the data utilization technology, the precondition that the data is flawless must be satisfied. However, in a real environment, for various reasons, frequently missing or abnormal data occurs.
누락 데이터나 이상 데이터를 포함하는 데이터를 처리하는 경우, 데이터로부터 도출할 수 있는 결론에 상당한 영향을 미칠 수 있다. The processing of data containing missing or outlier data can significantly affect the conclusions that can be drawn from the data.
누락 데이터를 처리하는 방법으로, 예를 들어, 테이블 형식으로 이루어진 데이터에서 각각의 행이 독립적인 경우, 누락 데이터를 포함하는 행을 일괄 삭제하는 방법이 가장 널리 쓰이고 있으며 간단하게 처리가 가능하다. 그러나, 이 방법은 시간의 흐름에 의존하는 시계열 데이터의 경우 데이터가 획득된 시간이 중요하기 때문에 임의로 특정 행을 삭제하면 데이터의 연속성을 보장하기 어렵다. 따라서, 시계열 데이터의 경우, 누락 데이터를 부분적으로 삭제하는 것보다 누락 데이터가 발생된 시점의 전후의 데이터 전부를 삭제하는 것이 바람직하다.As a method of handling missing data, for example, when each row is independent in tabular data, a method of collectively deleting rows including missing data is the most widely used and can be easily processed. However, in this method, it is difficult to guarantee data continuity if a specific row is arbitrarily deleted because the time at which the data was acquired is important in the case of time series data that depends on the passage of time. Therefore, in the case of time series data, it is preferable to delete all data before and after the point in time at which the missing data occurs rather than partially deleting the missing data.
이렇게 일괄적으로 누락 데이터를 삭제하는 방법을 활용하는 경우, 누락 데이터의 위치에 따라 삭제되는 데이터의 양이 달라지며, 경우에 따라 많은 데이터가 삭제될 수 있다. When using this method of deleting missing data in batches, the amount of data to be deleted varies depending on the location of the missing data, and in some cases, a large amount of data may be deleted.
그러므로 일반적으로 시계열 데이터는 누락 데이터를 최대한 보간하여 누락 값을 없애는 방법을 적용한다. 그러나, 이 방법 또한 시계열 데이터가 어느 이상의 임계치를 넘어선 양의 누락 데이터를 포함할 경우, 무리한 보간 작업으로 인해 오히려 품질이 낮은 데이터를 생산하게 되어 복구하는 의미가 낮아질 수 있다. Therefore, in general, for time series data, a method of eliminating missing values by interpolating the missing data as much as possible is applied. However, this method also produces low-quality data due to unreasonable interpolation if the time-series data includes missing data in an amount exceeding a certain threshold, and thus the meaning of recovery may be lowered.
또한 일괄적으로 누락 데이터를 삭제 및 보간 등으로 인해 서로 다른 복수의 데이터 결합 시 필연적으로 나타나는 누락 데이터에 대한 고려가 없는 바, 데이터간 결합으로 인해 나타나는 누락 데이터에 대한 유연한 처리 방법이 필요하다. In addition, there is no consideration for missing data that inevitably appears when combining a plurality of different data due to batch deletion and interpolation of missing data, so a flexible processing method for missing data that appears due to combining data is required.
본 발명의 목적은 누락 데이터에 대해 활용 가능한 정도를 가변적으로 판단할 수 있도록 데이터 보완 조건을 이용하는 데이터 선별 방법 및 장치를 제공하는 것이다.An object of the present invention is to provide a method and apparatus for selecting data using data supplementation conditions to variably determine the degree of utilization of missing data.
본 발명의 목적은 사용자가 원하는 품질에 기반하여 시계열 데이터에 누락 데이터가 포함되더라도 취사 선택하여 데이터를 보다 효율적으로 복구 및 활용할 수 있는 데이터 선별 방법 및 장치를 제공하는 것이다.An object of the present invention is to provide a data selection method and apparatus capable of more efficiently recovering and utilizing data by selecting and selecting even if missing data is included in time series data based on a quality desired by a user.
본 발명의 목적은 데이터를 활용하는 목적이나 데이터의 양과 질을 고려하여 누락 데이터를 처리하는 전자장치 및 그 처리 방법을 제공하는 것이다.An object of the present invention is to provide an electronic device and method for processing missing data in consideration of the purpose of utilizing data or the quantity and quality of data.
본 발명의 목적은 데이터를 활용하는 목적이 서로 다르기 때문에 다른 누락 데이터 전처리 기법을 누락 데이터 상황에 따라 선택적으로 적용할 수 있는 전자장치 및 그 처리 방법을 제공하는 것이다.An object of the present invention is to provide an electronic device and a method for processing the same, which can selectively apply different missing data preprocessing techniques according to missing data situations since the purposes of using data are different.
본 발명의 목적은 단일 데이터뿐만 아니라 복수의 단일 데이터가 결합된 데이터에 대한 적용 방법을 제공하는 것이다.An object of the present invention is to provide an application method for single data as well as data in which a plurality of single data are combined.
본 발명의 일 실시예에 따른 전자장치에 있어서, 적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정하고, 상기 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성하고, 보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 상기 제2데이터를 처리하는 프로세서를 포함한다.In an electronic device according to an embodiment of the present invention, a section of first data to be processed is set among data collected for at least one characteristic, and missing data included in the section of the first data is reset. and a processor for generating 2 data and processing the second data based on a data supplement condition prepared to select data requiring supplementation.
상기 프로세서는, 상기 제2데이터에 포함된 누락 데이터의 비율, 기간 및 개수 중 적어도 하나에 기초하여 상기 데이터 보완 조건을 설정하고, 상기 제2데이터 중 상기 데이터 보완 조건을 만족하는 제3데이터를 선별할 수 있다.The processor sets the data supplementation condition based on at least one of the ratio, period, and number of missing data included in the second data, and selects third data that satisfies the data supplementation condition from among the second data. can do.
상기 프로세서는, 상기 제2데이터에 포함된 누락 데이터의 비율이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리할 수 있다.The processor may process the second data when a ratio of missing data included in the second data is higher than a predefined value.
상기 프로세서는, 상기 제2데이터에 포함된 누락 데이터의 기간이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리할 수 있다. The processor may process the second data when a period of missing data included in the second data is higher than a predefined value.
상기 프로세서는, 상기 제2데이터에 포함된 누락 데이터의 개수가 기 정의된 값보다 높을 경우 상기 제2데이터를 처리할 수 있다.The processor may process the second data when the number of missing data included in the second data is higher than a predefined value.
상기 프로세서는, 제1데이터의 복수의 구간 중 각 구간에 포함되는 누락 데이터의 개수에 기초하여 제1데이터의 제1구간을 설정할 수 있다.The processor may set a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data.
상기 프로세서는, 상기 제1구간에 포함된 누락 데이터의 연속된 개수나, 상기 제1구간에 포함된 누락 데이터의 합산 개수에 기초하여 상기 제1데이터의 제1구간을 설정할 수 있다.The processor may set the first section of the first data based on the consecutive number of missing data included in the first section or the summed number of missing data included in the first section.
본 발명의 일 실시예에 따른 데이터 보완 조건에 기반한 데이터 선별을 수행하는 방법에 있어서, 적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정하는 단계; 상기 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성하는 단계; 및 보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 상기 제2데이터를 처리하는 단계를 포함한다.A method for performing data selection based on a data complement condition according to an embodiment of the present invention, comprising: setting a section of first data to be processed among data collected for at least one characteristic; generating second data by resetting missing data included in the section of the first data; and processing the second data based on data supplementation conditions prepared to select data requiring supplementation.
상기 제2데이터를 처리하는 단계는, 상기 제2데이터에 포함된 누락 데이터의 비율, 기간 및 개수 중 적어도 하나에 기초하여 상기 데이터 보완 조건을 설정하는 단계; 상기 제2데이터 중 상기 데이터 보완 조건을 만족하는 제3데이터를 선별하는 단계를 포함할 수 있다.The processing of the second data may include setting the data supplementation condition based on at least one of a ratio, period, and number of missing data included in the second data; The method may include selecting third data that satisfies the data supplementation condition from among the second data.
상기 제2데이터를 처리하는 단계는, 상기 제2데이터에 포함된 누락 데이터의 비율이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 단계를 포함할 수 있다.The processing of the second data may include processing the second data when a ratio of missing data included in the second data is higher than a predefined value.
상기 제2데이터를 처리하는 단계는, 상기 제2데이터에 포함된 누락 데이터의 기간이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 단계를 포함할 수 있다.The processing of the second data may include processing the second data when a period of missing data included in the second data is higher than a predefined value.
상기 제2데이터를 처리하는 단계는, 상기 제2데이터에 포함된 누락 데이터의 개수가 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 단계를 포함할 수 있다.The processing of the second data may include processing the second data when the number of missing data included in the second data is higher than a predefined value.
상기 제1데이터의 구간을 설정하는 단계는, 제1데이터의 복수의 구간 중 각 구간에 포함되는 누락 데이터의 개수에 기초하여 제1데이터의 제1구간을 설정하는 단계를 포함할 수 있다.Setting the section of the first data may include setting a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data.
상기 제1구간을 설정하는 단계는, 상기 제1구간에 포함된 누락 데이터의 연속된 개수나, 상기 제1구간에 포함된 누락 데이터의 합산 개수에 기초하여 상기 제1데이터의 제1구간을 설정하는 단계를 포함할 수 있다.The setting of the first section may include setting the first section of the first data based on the continuous number of missing data included in the first section or the summed number of missing data included in the first section. steps may be included.
본 발명의 일 실시예에 따른 전자장치에 있어서, 수집된 데이터 중 이상 데이터를 처리하고, 상기 수집된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리하는 프로세서를 포함한다.In an electronic device according to an embodiment of the present invention, abnormal data among collected data is processed, information on missing data including the processed abnormal data among the collected data is identified, and information about the missing data is determined. and a processor processing the missing data using at least one missing data processing method based on information.
상기 프로세서는, 상기 누락 데이터의 위치에 관한 정보 및 상기 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함하는 상기 누락 데이터에 대한 정보를 식별할 수 있다.The processor may identify information about the missing data including at least one of information about a location of the missing data and information about continuity of the missing data.
상기 프로세서는, 상기 수집된 데이터 중 확실 이상 데이터 및 불확실 이상 데이터를 포함하는 이상 데이터를 식별하고, 상기 확실 이상 데이터 및 불확실 이상 데이터를 각각 처리할 수 있다.The processor may identify abnormal data including certain abnormal data and uncertain abnormal data among the collected data, and process the certain abnormal data and uncertain abnormal data, respectively.
상기 프로세서는, 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 상기 적어도 하나의 누락 데이터 처리 방법을 식별할 수 있다.The processor may identify at least one missing data processing method to process missing data corresponding to at least one section based on the missing data information.
상기 전자장치에 있어서, 입력부를 더 포함하고, 상기 프로세서는, 상기 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 상기 입력부를 통해 수신할 수 있다.The electronic device may further include an input unit, and the processor may receive a user input related to at least one missing data processing method to process missing data corresponding to the at least one section through the input unit.
상기 프로세서는, 복수의 수집 데이터를 포함하는 상기 수집 데이터를 각각 처리하여 복수의 처리 데이터를 획득하고, 상기 복수의 처리 데이터를 결합하고, 상기 결합된 데이터 중 이상 데이터를 처리하고, 상기 결합된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리할 수 있다.The processor obtains a plurality of processed data by respectively processing the collected data including a plurality of collected data, combines the plurality of processed data, processes abnormal data among the combined data, and processes the combined data. Among them, information on missing data including the processed abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data.
상기 프로세서는, 상기 복수의 처리 데이터의 데이터 수집 주기에 기초하여 상기 복수의 처리 데이터 각각을 업샘플링 또는 다운샘플링하여 결합할 수 있다.The processor may perform upsampling or downsampling of each of the plurality of processed data and combine them based on a data collection period of the plurality of processed data.
상기 프로세서는, 상기 복수의 처리 데이터를 결합하는 결합 구간을 설정하고, 상기 결합 구간에 따라 상기 각 처리 데이터의 결합 구간에 포함된 누락 데이터를 재설정할 수 있다.The processor may set a combining section for combining the plurality of processed data, and reset missing data included in the combined section of each processed data according to the combining section.
본 발명의 일 실시예에 따른 누락 데이터를 처리하는 방법에 있어서, 수집된 데이터 중 이상 데이터를 처리하는 단계; 상기 수집된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하는 단계; 및 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리하는 단계를 포함한다.A method for processing missing data according to an embodiment of the present invention, comprising: processing abnormal data among collected data; identifying information about missing data including the processed abnormal data among the collected data; and processing the missing data using at least one missing data processing method based on the information on the missing data.
상기 누락 데이터에 대한 정보를 식별하는 단계는, 상기 누락 데이터의 위치에 관한 정보 및 상기 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함하는 상기 누락 데이터에 대한 정보를 식별하는 단계를 포함할 수 있다.The identifying information on the missing data may include identifying information on the missing data including at least one of information about a location of the missing data and information about continuity of the missing data. .
상기 이상 데이터를 처리하는 단계는, 상기 수집된 데이터 중 확실 이상 데이터 및 불확실 이상 데이터를 포함하는 이상 데이터를 식별하는 단계; 상기 확실 이상 데이터 및 불확실 이상 데이터를 각각 처리하는 단계를 포함할 수 있다.The processing of the abnormal data may include identifying abnormal data including certain abnormal data and uncertain abnormal data among the collected data; The method may further include processing the definite anomaly data and the uncertain anomaly data, respectively.
상기 누락 데이터를 처리하는 단계는, 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 상기 적어도 하나의 누락 데이터 처리 방법을 식별하는 단계를 포함할 수 있다.The processing of the missing data may include identifying the at least one missing data processing method to process the missing data corresponding to at least one section based on the information on the missing data.
상기 적어도 하나의 누락 데이터 처리 방법을 식별하는 단계는, 상기 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 수신하는 단계를 포함할 수 있다.The identifying of the at least one missing data processing method may include receiving a user input regarding at least one missing data processing method to process the missing data corresponding to the at least one section.
상기 누락 데이터를 처리하는 단계는, 복수의 수집 데이터를 포함하는 상기 수집 데이터를 각각 처리하여 복수의 처리 데이터를 획득하는 단계를 포함하고, 상기 방법에 있어서, 상기 복수의 처리 데이터를 결합하는 단계; 상기 결합된 데이터 중 이상 데이터를 처리하는 단계; 상기 결합된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하는 단계; 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리하는 단계를 더 포함할 수 있다.The processing of the missing data includes a step of obtaining a plurality of processed data by respectively processing the collected data including a plurality of collected data, wherein the method comprises: combining the plurality of processed data; processing abnormal data among the combined data; identifying information about missing data including the processed abnormal data among the combined data; The method may further include processing the missing data using at least one missing data processing method based on the information on the missing data.
상기 복수의 처리 데이터를 결합하는 단계는, 상기 복수의 처리 데이터의 데이터 수집 주기에 기초하여 상기 복수의 처리 데이터 각각을 업샘플링 또는 다운샘플링하여 결합하는 단계를 포함할 수 있다.The combining of the plurality of processed data may include upsampling or downsampling each of the plurality of processed data based on a data collection period of the plurality of processed data and combining the plurality of processed data.
상기 복수의 처리 데이터를 결합하는 단계는, 상기 복수의 처리 데이터를 결합하는 결합 구간을 설정하는 단계, 상기 결합 구간에 따라 상기 각 처리 데이터의 결합 구간에 포함된 누락 데이터를 재설정하는 단계를 포함할 수 있다.The combining of the plurality of processed data may include setting a combining section for combining the plurality of processed data, and resetting missing data included in the combining section of each of the processed data according to the combining section. can
상기 제2데이터를 생성하는 단계는, 상기 제1데이터 중 이상 데이터를 처리하는 단계를 포함하고, 상기 제2데이터를 처리하는 단계는, 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하는 단계; 및 상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 제2데이터에 포함된 누락 데이터를 처리하는 단계를 포함할 수 있다.The generating of the second data includes processing abnormal data among the first data, and the processing of the second data identifies information about missing data including the processed abnormal data. doing; and processing the missing data included in the second data using at least one missing data processing method based on the information on the missing data.
본 발명의 일 실시예에 따르면, 데이터에 포함된 누락 데이터의 상황에 기초하여 보완할 데이터를 선별하여 작업을 수행하므로, 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, since data to be supplemented is selected based on the situation of missing data included in the data and the task is performed, more rational and high-quality data processing is possible.
본 발명의 일 실시예에 따르면, 데이터 보완 조건에 기초하여 양질의 데이터를 제공하므로 무리한 삭제 작업이나, 보간 작업을 피할 수 있어 보다 높은 품질의 데이터 분석을 수행할 수 있다. According to an embodiment of the present invention, since high-quality data is provided based on data supplementation conditions, unreasonable deletion or interpolation operations can be avoided, and thus higher-quality data analysis can be performed.
본 발명의 일 실시예에 따르면, 누락 데이터를 포함하는 구간의 상태에 따라 최적화된 방법을 적용하여 보완하여 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, more reasonable and high-quality data processing is possible by applying and supplementing an optimized method according to the state of a section including missing data.
본 발명의 일 실시예에 따르면, 데이터 활용 용도에 따라 보간 및 치환 방법을 달리 적용할 수 있으므로, 보다 품질 높은 데이터 보완을 수행할 수 있다.According to an embodiment of the present invention, since interpolation and substitution methods may be differently applied according to data utilization purposes, higher quality data supplementation may be performed.
본 발명의 일 실시예에 따르면, 복수의 단일 데이터가 결합된 데이터에 대해 적용할 수 있어, 데이터를 결합하는 경우에도 품질 높은 데이터 보완을 수행할 수 있다.According to an embodiment of the present invention, it can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when combining data.
도 1은 누락 데이터를 포함하는 데이터를 도시한 도면이다.1 is a diagram illustrating data including missing data.
도 2는 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블럭도이다.2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.3 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 수행 방법에 따라 제1데이터의 구간을 설정하는 모습을 도시한 도면이다.4 is a diagram illustrating how to set a section of first data according to a method according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 수행 방법에 따라 제2데이터를 생성하는 모습을 도시한 도면이다.5 is a diagram showing how to generate second data according to a method according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 수행 방법에 따라 데이터 보완 조건에 기초하여 제2데이터를 처리하는 모습을 도시한 도면이다.6 is a diagram illustrating processing of second data based on a data complement condition according to a method according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2데이터를 처리하는 모습을 도시한 도면이다.7 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.8 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.9 is a diagram illustrating an operation of an electronic device according to an embodiment of the present invention.
도 10은 본 발명의 다른 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다.10 is a diagram illustrating an operation of an electronic device according to another embodiment of the present invention.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings. The detailed description set forth below in conjunction with the accompanying drawings is intended to describe exemplary embodiments of the present invention and is not intended to represent the only embodiments in which the present invention may be practiced. In order to clearly describe the present invention in the drawings, parts irrelevant to the description may be omitted, and the same reference numerals may be used for the same or similar components throughout the specification.
도 1은 누락 데이터를 포함하는 데이터(1)를 도시한 도면이다.1 is a diagram showing data 1 including missing data.
도 1의 데이터(1)는 각 특성(Feature, N) 별로 시간(Time, T)에 따라 수집된 데이터를 테이블화 한 것으로, 10개의 서로 다른 특성, 10개의 시간으로 구성된다. 예를 들어, 특정 도시의 기후 변화에 대해 분석하는 경우, 특정 도시의 시간에 따른 온도, 습도, 강수량, 교통량, 인구 밀집도 등이 그 특성이 될 수 있다. 혹은 각 도시의 미세먼지 양에 대해 비교하는 경우, 서울시, 부산시, 청주시 등이 특성에 대응될 수 있다.Data (1) of FIG. 1 is a table of data collected according to time (T) for each feature (N), and is composed of 10 different features and 10 times. For example, when climate change in a specific city is analyzed, temperature, humidity, precipitation, traffic volume, and population density of the specific city over time may be the characteristics. Alternatively, when comparing the amount of fine dust in each city, Seoul, Busan, Cheongju, etc. may correspond to the characteristics.
데이터를 분석함에 있어서 무결성을 전제로 하지만 실제 데이터를 수집하는 과정에서 다양한 이유로 빈번하게 누락되거나 이상 데이터가 발생하고 있다. 본 발명의 일 실시예에 따른 누락 데이터는 숫자, 문자 등 어떤 방법으로도 변환되어 표기할 수 없는 데이터로, 정의할 수 없거나, 존재하지 않는 데이터라고 포괄적으로 정의한다. 해당 시간에 수집된 데이터가 없거나, 수집하였으나 서버 등 장치로 전송하는 과정에서 누락된 데이터를 의미한다. 누락 데이터의 값은 "-999"와 같은 극단적인 값을 표기하거나 "NaN", "NA"와 같이 정해진 문자를 표현하는 등의 다양한 방법으로 표현될 수 있다. 그러나 표준화되지 않은 누락 데이터의 표기법은 데이터가 기록된 후 정상 데이터와 비정상 데이터를 명확하게 판단해 내기 어려운 경우가 존재한다. 따라서, 데이터를 처리하는 대표적인 라이브러리들은 누락 데이터를 단순성과 기능상의 이유로 "NaN" 혹은 "NA" 등으로 표기한다.In analyzing data, integrity is premised, but in the process of collecting actual data, for various reasons, frequently missing or abnormal data occurs. Missing data according to an embodiment of the present invention is comprehensively defined as data that cannot be converted and displayed in any way, such as numbers and letters, and data that cannot be defined or does not exist. It means that there is no data collected at that time, or data that is collected but omitted in the process of transmitting to a device such as a server. The value of the missing data can be expressed in various ways, such as expressing an extreme value such as "-999" or expressing a predetermined character such as "NaN" or "NA". However, there are cases in which it is difficult to clearly determine normal data and abnormal data after data are recorded in the notation of non-standardized missing data. Therefore, representative libraries that process data mark missing data as "NaN" or "NA" for reasons of simplicity and functionality.
이상 데이터는 수집된 데이터를 분석함에 있어 결과값에 악영향을 미치는 데이터로써, 예를 들어, 수집된 데이터가 비정상적인 수치를 가지거나, 데이터를 수집하는 센서 등의 허용 측정 범위를 벗어나는 등 오류 데이터를 의미한다. 본 발명에서는, 수집된 데이터 중 이상 데이터는 누락 데이터로 치환하여 처리하거나, 이상 데이터 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간될 수 있다. 본 발명에서는 이상 데이터를 "NaN" 혹은 "NA" 등으로 표기하여 누락 데이터로 치환한다.Abnormal data is data that adversely affects the result value in analyzing the collected data. For example, it means error data such as the collected data having abnormal values or exceeding the allowable measurement range of the sensor that collects the data. do. In the present invention, abnormal data among collected data may be replaced with missing data and processed, or may be interpolated with appropriate data using data collected before and after the abnormal data. In the present invention, abnormal data is marked as "NaN" or "NA" and replaced with missing data.
누락 데이터(11)를 처리하기 위해, 데이터를 일괄 삭제하는 방법을 사용하는 경우, 누락 데이터에 대한 오염을 방지한 완벽한 데이터 셋을 얻을 수 있으나 누락 데이터의 위치에 따라 삭제하는 정도가 커서 데이터로 활용하기에 부족할 수 있다. 예를 들어, 데이터(1)에서 누락 데이터(11)를 포함하는 행을 일괄적으로 삭제하게 되면, T1 행과 T10행이 남는 바, 데이터(1)를 활용하여 유용한 정보를 얻기에 부족할 수 있다. In order to handle missing data (11), if the method of deleting data in bulk is used, a complete data set that prevents contamination of missing data can be obtained, but the degree of deletion depending on the location of missing data is large, so it is used as data may be insufficient to do so. For example, if rows including missing data (11) are collectively deleted from data (1), rows T1 and rows T10 remain, which may be insufficient to obtain useful information using data (1). .
혹은 누락 데이터(11)를 처리하기 위해, 데이터를 일괄 보간하는 방법을 사용하는 경우, 누락데이터의 근접 데이터나 과거 데이터를 바탕으로 누락 데이터를 임의로 복구하면 데이터를 최대한 보존할 수 있다. 그러나, 복구된 데이터는 정확한 데이터는 아니므로 무리한 보간을 한다면 데이터의 품질이 좋지 않아 분석 및 학습의 결과를 오염시킬 수 있다.Alternatively, when using a method of batch interpolating data to process the missing data 11, data can be preserved as much as possible by recovering the missing data arbitrarily based on adjacent data or past data of the missing data. However, since the recovered data is not accurate data, excessive interpolation may contaminate the results of analysis and learning due to poor data quality.
예를 들어, 데이터(1)에서 누락 데이터(11)를 포함하는 행을 일괄적으로 보간하게 되면, N3 열의 데이터는 T1 행, T10 행에 획득된 데이터만 활용하여 보간하기 때문에, 보간하여 생성된 데이터에 대한 품질이 떨어질 수 있다. 또한, N7 열, N8 열, N10 열의 데이터의 경우에도 불규칙적으로 누락 데이터가 발생하였기 때문에 보간의 정확도를 보장할 수 없다.For example, when interpolating rows including missing data (11) in data (1) in batches, data in column N3 is interpolated using only the data obtained in rows T1 and T10, so The quality of the data may be degraded. Also, in the case of data in columns N7, N8, and N10, interpolation accuracy cannot be guaranteed because missing data occurs irregularly.
따라서, N3 열, N7 열, N8 열, N10 열의 각 데이터들은 데이터를 복구할 수 있는지, 데이터를 복구하는 것이 데이터의 품질을 더 높이는 것인지 등에 대한 판단 방법이 필요하다.Accordingly, a method for determining whether the data of columns N3, N7, N8, and N10 can be restored or whether restoring the data improves data quality is required.
이하 본 발명에서는 누락 데이터를 포함하는 데이터의 복구 가능한 정도에 대해 판단하며, 복구가 가능한 데이터를 선별하여 데이터를 처리하는 전자장치 및 수행 방법에 대해서 제안한다. Hereinafter, the present invention determines the degree of recovery of data including missing data, selects recoverable data, and proposes an electronic device and method for processing the data.
도 2는 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블럭도이다.2 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 전자장치(100)는 입력부(110), 통신부(120), 표시부(130), 메모리(140) 및 프로세서(150)를 포함한다.An electronic device 100 according to an embodiment of the present invention includes an input unit 110, a communication unit 120, a display unit 130, a memory 140, and a processor 150.
입력부(110)는 전자장치(100)의 사용자 입력에 대응하여 입력데이터를 발생시킨다. 사용자 입력은 전자장치(100)가 처리하고자 하는 데이터에 관한 사용자 입력이나, 데이터 보완 조건에 관한 사용자 입력, 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 포함할 수 있다. The input unit 110 generates input data in response to a user input of the electronic device 100 . The user input may include user input regarding data to be processed by the electronic device 100, user input regarding data complement conditions, and user input regarding at least one missing data processing method to process missing data.
입력부(110)는 적어도 하나의 입력수단을 포함한다. 입력부(110)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치패널(touch panel), 터치 키(touch key), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있다.The input unit 110 includes at least one input means. The input unit 110 includes a keyboard, a key pad, a dome switch, a touch panel, a touch key, a mouse, a menu button, and the like. can include
통신부(120)는 데이터를 수신하기 위해 서버나 데이터 수집 장치 등 외부장치와의 통신을 수행한다. 이를 위해, 통신부(120)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), Wi-Fi(wireless fidelity) 등의 통신을 수행할 수 있다.The communication unit 120 communicates with an external device such as a server or a data collection device to receive data. To this end, the communication unit 120 may perform communication such as 5th generation communication (5G), long term evolution-advanced (LTE-A), long term evolution (LTE), and wireless fidelity (Wi-Fi).
표시부(130)는 전자장치(100)의 동작에 따른 표시 데이터를 표시한다. 표시부(130)는 데이터 보완 조건에 기초하여 데이터를 선별하기 위해 필요한 표시 데이터, 예를 들면, 데이터 보완 조건을 설정하는 화면, 데이터의 처리 결과를 표시하는 화면 등을 표시할 수 있다. 또는, 표시부(130)는 누락 데이터를 처리하기 위해 필요한 표시 데이터, 예를 들면, 수집된 데이터 중 이상 데이터를 처리하는 화면, 누락 데이터에 대한 정보를 식별하는 화면, 사용자 입력을 수신하기 위한 화면, 데이터의 처리 결과를 표시하는 화면 등을 표시할 수 있다. 표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(110)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.The display unit 130 displays display data according to the operation of the electronic device 100 . The display unit 130 may display display data necessary for selecting data based on the data complementation conditions, for example, a screen for setting data complementation conditions, a screen for displaying data processing results, and the like. Alternatively, the display unit 130 may display data required to process missing data, for example, a screen for processing abnormal data among collected data, a screen for identifying information on missing data, a screen for receiving user input, A screen for displaying data processing results can be displayed. The display unit 130 may include a liquid crystal display (LCD), a light emitting diode (LED) display, an organic LED (OLED) display, and a micro electro mechanical systems (MEMS) display. and electronic paper displays. The display unit 130 may be combined with the input unit 110 and implemented as a touch screen.
메모리(140)는 전자장치(100)의 동작 프로그램들을 저장한다. 메모리(140)는 전원의 제공 유무와 무관하게 데이터(정보)를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(150)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다.The memory 140 stores operating programs of the electronic device 100 . The memory 140 is a non-volatile storage that can retain data (information) regardless of whether or not power is provided, and data to be processed by the processor 150 is loaded. It includes memory of volatile properties that cannot preserve . Storage includes flash-memory, hard-disc drive (HDD), solid-state drive (SSD), read-only memory (ROM), and buffer and random access memory (RAM). etc.
메모리(140)는 외부장치로부터 수집한 데이터를 저장하거나, 데이터 보완 조건에 관한 데이터, 이상 데이터에 관한 정보, 누락 데이터 처리 방법에 관한 정보 등을 저장할 수 있다. 또한, 메모리(140)는 데이터의 품질에 따라 처리하고자 하는 제1데이터의 구간을 설정하도록 학습된 모델에 관한 정보나, 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 식별하도록 학습된 모델에 관한 정보를 저장할 수 있다.The memory 140 may store data collected from an external device, data on data complement conditions, information on abnormal data, information on how to process missing data, and the like. In addition, the memory 140 learns to identify at least one missing data processing method based on information on a model learned to set a section of first data to be processed according to the quality of data or information on missing data. information about the model can be stored.
프로세서(150)는 프로그램 등 소프트웨어를 실행하여 전자장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다.The processor 150 may execute software such as a program to control at least one other component (eg, a hardware or software component) of the electronic device 100 and perform various data processing or calculations.
한편, 프로세서(150)는 적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정하고, 상기 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성하고, 보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 상기 제2데이터를 처리하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. Meanwhile, the processor 150 sets a section of the first data to be processed among data collected for at least one characteristic, resets missing data included in the section of the first data to generate second data, Based on data supplementation conditions prepared to select data requiring supplementation, at least some of data analysis, processing, and result information generation for processing the second data are rule-based or artificial intelligence (AI) algorithms, machine learning, This may be performed using at least one of a neural network and a deep learning algorithm.
프로세서(150)는 수집된 데이터 중 이상 데이터를 처리하고, 수집된 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터를 처리하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network)과 같은 모델을 포함할 수 있다.The processor 150 processes abnormal data among the collected data, identifies information on missing data including the processed abnormal data among the collected data, and performs at least one missing data processing method based on the information on the missing data. At least one of machine learning, neural network, or deep learning algorithm as a rule-based or artificial intelligence algorithm for at least part of data analysis, processing, and result information generation for processing missing data using This can be done using Examples of the neural network may include models such as a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), and a Recurrent Neural Network (RNN).
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.3 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 프로세서(150)는 적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정한다(S310).The processor 150 according to an embodiment of the present invention sets a section of first data to be processed among data collected for at least one characteristic (S310).
본 발명의 일 실시예에 따르면, 특성은 앞서 도 1과 관련하여 설명한 바와 같이, 수집한 데이터의 내용을 의미하며, 수집된 데이터는 적어도 하나의 특성에 대해 시계열적으로 수집된 것이다.According to one embodiment of the present invention, as described above with respect to FIG. 1, the characteristics refer to the contents of collected data, and the collected data is time-sequentially collected for at least one characteristic.
프로세서(150)는 서버 등 외부장치로부터 수집된 데이터를 수신할 수 있으나, 전자장치(100)가 수집한 데이터일 수 있고, 어느 하나에 한정되지 않는다. The processor 150 may receive data collected from an external device such as a server, but may be data collected by the electronic device 100, and is not limited thereto.
프로세서(150)는 필요한 시간 구간을 기준으로 제1데이터의 구간을 설정할 수 있다. 이때, 제1데이터는 수집된 데이터 중 처리하고자 하는 대상이 된다. The processor 150 may set a section of the first data based on a necessary time section. At this time, the first data becomes a target to be processed among the collected data.
수집된 데이터에 대해 분석을 진행할 경우 예를 들어, 클러스트링을 적용한 데이터 패턴 분류 적용 시, 누락 데이터가 많은 데이터는 분석에서 제외하는 것이 성능을 높일 수 있다. 그러나 어느 정도의 누락데이터를 포함하는 데이터일 경우에는 보간 등을 이용하여 데이터를 복구한 후 최대한 활용하는 것이 성능을 높일 수 있다. 즉 누락 데이터를 포함하는 데이터에 대해서 어느 정도까지 허용하여 선별할 것인지에 대한 기준이 필요하다. 따라서, 제1데이터를 적절히 설정하는 것은 수집된 데이터의 처리 품질을 높이는 데 기여할 수 있고 올바른 결과를 도출할 수 있다.When performing analysis on the collected data, for example, when applying clustering-applied data pattern classification, excluding data with many missing data from analysis can improve performance. However, in the case of data that includes missing data to a certain extent, performance can be improved by recovering the data using interpolation or the like and then maximally utilizing it. In other words, a criterion is needed to determine the extent to which data including missing data is allowed and selected. Therefore, properly setting the first data can contribute to improving the processing quality of the collected data and can lead to correct results.
본 발명의 일 실시예에 따르면, 프로세서(150)는 제1데이터의 복수의 구간 중 각 구간에 포함되는 누락 데이터의 개수에 기초하여 제1데이터의 제1구간을 설정할 수 있다. 예를 들어, 수집된 데이터를 이용하여 시간 구간을 설정하는 경우, 제1데이터로 설정할 수 있는 구간은 복수 개 존재할 수 있다. 복수의 구간 중에서 특정 구간에 포함되는 누락 데이터의 개수가 적으면, 다른 구간에 비해서 데이터의 품질이 좋다고 평가할 수 있다. 따라서, 프로세서(150)는 제1데이터의 복수의 구간 중 포함되는 누락 데이터의 개수가 가장 적은 구간을 제1데이터의 제1구간으로 설정할 수 있다. According to an embodiment of the present invention, the processor 150 may set a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data. For example, when setting a time interval using collected data, a plurality of intervals that can be set as the first data may exist. If the number of missing data included in a specific section among a plurality of sections is small, it can be evaluated that the quality of data is good compared to other sections. Accordingly, the processor 150 may set a section having the smallest number of missing data among a plurality of sections of the first data as the first section of the first data.
또한, 프로세서(150)는 제1구간에 포함된 누락 데이터의 연속된 개수나, 제1구간에 포함된 누락 데이터의 합산 개수에 기초하여 제1데이터의 제1구간을 설정할 수 있다. 예를 들어, 누락 데이터가 3개 연속된 데이터를 포함하는 구간과, 누락 데이터가 3개 있으나 각각 산포되어 보간으로 보완이 가능한 데이터를 포함하는 구간의 경우, 후자의 구간이 보다 유효한 데이터로 제1구간으로 설정될 가능성이 높다.In addition, the processor 150 may set the first section of the first data based on the number of consecutive missing data included in the first section or the summed number of missing data included in the first section. For example, in the case of a section including three consecutive missing data and a section including three missing data but data that are distributed and can be supplemented by interpolation, the latter section is the first as more valid data. It is likely to be set as an interval.
또 다른 실시예로, 프로세서(150)는 수집된 데이터 내 전체 누락 데이터의 개수를 식별하고, 전체 누락 데이터의 개수 대비 해당 구간에 포함된 누락 데이터의 개수가 적은 구간을 제1데이터의 제1구간으로 설정할 수 있다. In another embodiment, the processor 150 identifies the total number of missing data in the collected data, and assigns a section in which the number of missing data included in the corresponding section is small compared to the total number of missing data in the first section of the first data. can be set to
본 발명의 일 실시예에 따른 프로세서(150)는 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성한다(S320).The processor 150 according to an embodiment of the present invention resets the missing data included in the section of the first data to generate second data (S320).
제1데이터의 구간에는 누락 데이터뿐 아니라, 미수집 데이터를 포함할 수 있다. 미수집 데이터는 데이터를 수집하는 도중 누락이 된 데이터를 제외하고, 서로 다른 데이터를 시계열적으로 나열하였을 때, 데이터 수집 시작 시간이나 수집 종료 시간이 달라 수집된 데이터가 없는 경우를 의미한다.The section of the first data may include missing data as well as uncollected data. Non-collected data refers to cases in which there is no collected data, except for data omitted during data collection, when the data collection start time or collection end time is different when different data are listed in chronological order.
본 발명의 일 실시예에 따르면, 누락 데이터를 재설정한다는 것은 제1데이터의 구간에 포함된 미수집 데이터를 누락 데이터로 설정하는 것을 의미한다. 기존 누락 데이터와 미수집 데이터의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.According to an embodiment of the present invention, resetting missing data means setting uncollected data included in the section of the first data as missing data. This is to unify the data processing so that they receive the same processing by changing the format of the existing missing data and uncollected data to be the same.
본 발명의 일 실시예에 따른 프로세서(150)는 보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 제2데이터를 처리한다(S330).The processor 150 according to an embodiment of the present invention processes the second data based on a data supplementation condition prepared to select data requiring supplementation (S330).
본 발명의 일 실시예에 따르면, 프로세서(150)는 제2데이터에 포함된 누락 데이터의 비율, 기간 및 개수 중 적어도 하나에 기초하여 데이터 보완 조건을 설정할 수 있다. 이때, 데이터 보완 조건은 적어도 하나의 특성에 따라 수집된 데이터 중 하나의 데이터 셋에 적용될 수 있다. 예를 들어, 복수의 특성에 대해 수집한 데이터의 경우, 각 특성에 대응하여 수집된 데이터 셋에 적용될 수 있다. 또는, 하나의 특성에 대해 2 이상의 서로 다른 조건에서 수집한 데이터의 경우, 각 조건에 대응하여 수집된 데이터 셋에 적용될 수 있다.According to an embodiment of the present invention, the processor 150 may set a data complement condition based on at least one of the ratio, period, and number of missing data included in the second data. In this case, the data complement condition may be applied to one data set among data collected according to at least one characteristic. For example, in the case of data collected for a plurality of characteristics, it may be applied to a data set corresponding to each characteristic. Alternatively, in the case of data collected under two or more different conditions for one characteristic, it may be applied to data sets collected corresponding to each condition.
이때, 프로세서(150)는 입력부(110)를 통해 데이터 보완 조건에 대한 사용자 입력을 수신하여 설정하거나, 통신부(120)를 통해 외부장치로부터 데이터 보완 조건에 대한 데이터를 수신할 수 있다. 또한, 프로세서(150)는 수집된 데이터 혹은 제2데이터를 처리하는 최적화된 데이터 보완 조건을 설정하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능알고리즘으로서 기계학습, 신경망 네트워크, 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. At this time, the processor 150 may receive and set a user input for the data supplementation condition through the input unit 110 or may receive data on the data supplementation condition from an external device through the communication unit 120 . In addition, the processor 150 performs at least a part of data analysis, processing, and result information generation for setting optimized data complement conditions for processing the collected data or second data as a rule-based or artificial intelligence algorithm, such as machine learning and neural networks. It may be performed using at least one of a network and a deep learning algorithm.
이때, 제2데이터를 처리하는 것은, 제2데이터에서 데이터 보완 조건을 만족하는 제3데이터를 선별하거나, 제2데이터 혹은 선별된 제3데이터를 삭제하거나, 보간하는 등 다양한 데이터 처리를 수행하는 것을 포함한다.At this time, processing the second data means performing various data processing, such as selecting third data that satisfies the data complement condition from the second data, deleting the second data or the selected third data, or interpolating. include
보다 구체적으로, 데이터 보완 조건에 대해서 살펴보면, 프로세서(150)는 제2데이터에 포함된 누락 데이터의 비율이 기 정의된 값보다 높을 경우 제2데이터를 처리할 수 있다. More specifically, looking at the data complement condition, the processor 150 may process the second data when the ratio of missing data included in the second data is higher than a predefined value.
프로세서(150)는 제2데이터에 포함된 누락 데이터의 기간이 기 정의된 값보다 높을 경우 제2데이터를 처리할 수 있다. 이때, 누락 데이터의 기간은 연속된 누락 데이터에 대한 기간이거나, 제2데이터에 산포된 누락 데이터에 대응하는 기간을 합산한 기간을 의미할 수 있다.The processor 150 may process the second data when the period of missing data included in the second data is higher than a predefined value. In this case, the period of the missing data may mean a period for consecutive missing data or a period obtained by summing the periods corresponding to the missing data scattered in the second data.
프로세서(150)는 제2데이터에 포함된 누락 데이터의 개수가 기 정의된 값보다 높을 경우 제2데이터를 처리할 수 있다.The processor 150 may process the second data when the number of missing data included in the second data is higher than a predefined value.
본 발명의 일 실시예에 따르면, 데이터를 일괄적으로 삭제하거나, 보간하지 않고, 데이터에 포함된 누락 데이터의 상황에 기초하여 보완할 데이터를 선별하여 작업을 수행하므로, 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, data to be supplemented is selected based on the situation of missing data included in the data, rather than data being deleted or interpolated in batches, and thus data processing is performed more rationally and with higher quality. is possible
본 발명의 일 실시예에 따르면, 시계열 데이터를 사용자가 원하는 품질에 기반하여 누락 데이터를 포함하더라도 이를 효율적으로 취사 선택하여 양질의 데이터만 사용할 수 있다.According to an embodiment of the present invention, even if the time series data includes missing data based on the quality desired by the user, only good quality data can be used by efficiently selecting and selecting the time series data.
도 4 내지 도 7은 앞서 도 3에서 설명한 동작 흐름에 따라 수집된 데이터를 처리하는 하나의 실시예를 순서대로 도시한 것이다. 본 실시예에서는 하나의 특성에 대해 수집된 D1 내지 D7 데이터를 처리한다. 다만, 본 발명은 이 실시예에 한정되지 않고, 복수의 특성에 대해 수집된 데이터를 처리할 수 있으며, 그 경우 도 4 내지 도 7에 도시된 데이터가 특성 별로 존재하거나, D1 내지 D7이 각각 서로 다른 특성일 수 있다. 4 to 7 sequentially illustrate one embodiment of processing the collected data according to the operation flow described in FIG. 3 above. In this embodiment, D1 to D7 data collected for one characteristic are processed. However, the present invention is not limited to this embodiment, and may process data collected for a plurality of characteristics. In this case, the data shown in FIGS. 4 to 7 exist for each characteristic, or D1 to D7 are each different. It may be a different characteristic.
도 4는 본 발명의 일 실시예에 따른 수행 방법에 따라 제1데이터의 구간을 설정하는 모습을 도시한 도면이다. 도 4는 도 3의 S310과 관련하여 서술한다. 4 is a diagram illustrating how to set a section of first data according to a method according to an embodiment of the present invention. 4 is described in relation to S310 of FIG. 3 .
도 4는 누락 데이터(410)와 미수집 데이터(420)를 포함하는 데이터(400)를 도시한다. 프로세서(150)는 수집된 데이터(400)에서 처리하고자 하는 제1데이터의 구간(430)을 설정할 수 있다. 본 발명의 일 실시예에 따르면, 프로세서(150)는 전체 누락 데이터(410)와 미수집 데이터(420)를 고려하여 제1데이터의 복수의 구간 중 제1데이터의 제1구간(430)을 설정할 수 있다.4 shows data 400 including missing data 410 and uncollected data 420 . The processor 150 may set a section 430 of the first data to be processed in the collected data 400 . According to an embodiment of the present invention, the processor 150 sets a first section 430 of the first data among a plurality of sections of the first data in consideration of the entire missing data 410 and the uncollected data 420. can
예를 들어, 현재 설정된 구간(430)의 경우, 누락 데이터 및 미수집 데이터의 개수가 7개인 반면, 한 칸씩 앞으로 구간을 설정하면, 누락 데이터 및 미수집 데이터의 개수가 9개이다. 또한, D3 행과 같이 연속된 누락데이터의 개수가 3개로 늘어나 데이터의 품질이 더욱 저하되는 것을 알 수 있다.For example, in the case of the currently set section 430, the number of missing data and uncollected data is 7, whereas if the section is set forward by one column, the number of missing data and uncollected data is 9. In addition, it can be seen that the number of consecutive missing data increases to three, such as the D3 row, and the quality of the data is further deteriorated.
본 발명의 일 실시예에 따르면, 수집된 데이터 중 제1데이터의 구간을 설정함으로써, 데이터 보완 조건을 만족하는 데이터를 선별하는 전처리 과정의 일환으로 데이터 품질을 더욱 높이는 데 기여할 수 있다. According to an embodiment of the present invention, by setting a section of the first data among the collected data, as part of a preprocessing process for selecting data that satisfies the data supplementation condition, it can contribute to further improving data quality.
도 5는 본 발명의 일 실시예에 따른 수행 방법에 따라 제2데이터를 생성하는 모습을 도시한 도면이다. 도 5는 도 3의 S320과 관련하여 서술한다. 5 is a diagram showing how to generate second data according to a method according to an embodiment of the present invention. 5 is described in relation to S320 of FIG. 3 .
도 5는 앞서 도 4에서 설정된 제1데이터를 가공하여 생성된 제2데이터(500)를 도시한다. 본 발명의 일 실시예에 따르면, 프로세서(140)는 제1데이터의 구간(430)에 포함된 누락 데이터(410)를 재설정하여 제2데이터(500)를 생성한다. FIG. 5 shows second data 500 generated by processing the first data previously set in FIG. 4 . According to an embodiment of the present invention, the processor 140 generates the second data 500 by resetting the missing data 410 included in the section 430 of the first data.
이때, 누락 데이터를 재설정한다는 것은 제1데이터의 구간(430)에 포함된 미수집 데이터(420)들을 누락 데이터(410)로 설정하는 것을 의미한다. 기존 누락 데이터(410)와 미수집 데이터(420)의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.At this time, resetting the missing data means setting the uncollected data 420 included in the section 430 of the first data as the missing data 410 . This is to unify the existing missing data 410 and the uncollected data 420 to receive the same processing by changing the same format.
도 6은 본 발명의 일 실시예에 따른 수행 방법에 따라 데이터 보완 조건에 기초하여 제2데이터를 처리하는 모습을 도시한 도면이다. 도 7은 본 발명의 일 실시예에 따른 수행 방법에 따라 제2데이터를 처리하는 모습을 도시한 도면이다. 도 6 및 도 7은 도 3의 S330과 관련하여 서술한다. 6 is a diagram illustrating processing of second data based on a data complement condition according to a method according to an embodiment of the present invention. 7 is a diagram illustrating processing of second data according to a method according to an embodiment of the present invention. 6 and 7 are described in relation to S330 of FIG. 3 .
본 발명의 일 실시예에 따르면, 프로세서(150)는 제2데이터(500)에 포함된 누락 데이터(410)의 비율, 기간 및 개수 중 적어도 하나에 기초하여 데이터 보완 조건을 설정할 수 있다. According to an embodiment of the present invention, the processor 150 may set a data complement condition based on at least one of the ratio, period, and number of missing data 410 included in the second data 500 .
보다 구체적으로, 데이터 보완 조건에 대해서 살펴보면, 프로세서(150)는 제2데이터(500)에 포함된 누락 데이터(410)의 비율이 기 정의된 값보다 높을 경우 제2데이터(500)를 처리할 수 있다. More specifically, looking at the data complement condition, the processor 150 may process the second data 500 when the ratio of the missing data 410 included in the second data 500 is higher than a predefined value. there is.
프로세서(150)는 제2데이터(500)에 포함된 누락 데이터(410)의 기간이 기 정의된 값보다 높을 경우 제2데이터(500)를 처리할 수 있다. 이때, 누락 데이터(410)의 기간은 연속된 누락 데이터(410)에 대한 기간이거나, 제2데이터(500)에 산포된 누락 데이터(410)에 대응하는 기간을 합산한 기간을 의미할 수 있다.The processor 150 may process the second data 500 when the period of the missing data 410 included in the second data 500 is higher than a predefined value. In this case, the period of the missing data 410 may mean a period for consecutive missing data 410 or a period obtained by adding the periods corresponding to the scattered missing data 410 to the second data 500 .
프로세서(150)는 제2데이터(500)에 포함된 누락 데이터(410)의 개수가 기 정의된 값보다 높을 경우 제2데이터(500)를 처리할 수 있다.The processor 150 may process the second data 500 when the number of missing data 410 included in the second data 500 is higher than a predefined value.
이때, 프로세서(150)가 제2데이터(500)를 처리하는 것은, 제2데이터(500)에서 데이터 보완 조건을 만족하는 제3데이터(510)를 선별하는 것을 포함한다. At this time, processing the second data 500 by the processor 150 includes selecting third data 510 that satisfies a data complement condition from the second data 500 .
예를 들어, 도 6에 도시된 제2데이터(500)에 대해 설정된 데이터 보완 조건은 누락 데이터(410)의 개수가 2개 이상이고, 프로세서(150)는 데이터 보완 조건을 만족하는 데이터를 보완이 필요한 제3데이터(510)로 선별할 수 있다.For example, in the data complementation condition set for the second data 500 shown in FIG. 6, the number of missing data 410 is two or more, and the processor 150 supplements data that satisfies the data supplementation condition. It is possible to select necessary third data 510 .
이때, 데이터 보완 조건은 적어도 하나의 특성에 따라 수집된 데이터 중 하나의 데이터 셋에 적용될 수 있다. 예를 들어, 제2데이터(500)가 도시 별 미세먼지 양을 측정한 데이터로써, D1 행 내지 D7 행은 서로 다른 도시에서 수집된 미세먼지 양에 대한 데이터로 가정한다. 누락 데이터(410)의 개수가 2개 이상인 도시를 식별하는 데이터 보완 조건은 D1 행 내지 D7 행 각각에 적용되어, 프로세서(150)는 제2데이터(500) 중 D3 행과 D5 행의 데이터가 데이터 보완이 필요한 제3데이터(510)로 선별할 수 있다.In this case, the data complement condition may be applied to one data set among data collected according to at least one characteristic. For example, it is assumed that the second data 500 is data measuring the amount of fine dust for each city, and rows D1 to D7 are data for the amount of fine dust collected in different cities. The data complement condition for identifying cities in which the number of missing data 410 is two or more is applied to rows D1 to D7, respectively, so that the processor 150 determines that the data in rows D3 and D5 of the second data 500 is data. It can be selected as the third data 510 that needs supplementation.
본 발명의 일 실시예에 따른 프로세서(150)는 선별된 제3데이터(510)를 삭제하거나, 보간할 수 있다. 본 실시예에서는 선별된 제3데이터(510)를 삭제하였다.The processor 150 according to an embodiment of the present invention may delete or interpolate the selected third data 510 . In this embodiment, the selected third data 510 is deleted.
프로세서(150)는 제3데이터 선별 및 그에 따른 처리 후 남아있는 데이터 중 누락 데이터는 보간이 필요한 데이터(710)로 식별한다. 프로세서는 보간이 필요한 데이터710)에 대해 보간을 수행하고, 복구된 데이터(700)를 활용하여 분석을 수행할 수 있다. The processor 150 identifies missing data among remaining data after third data selection and processing accordingly as data 710 requiring interpolation. The processor may perform interpolation on data 710 requiring interpolation, and may perform analysis using the restored data 700 .
본 발명의 일 실시예에 따르면, 데이터 보완 조건에 기초하여 보완이 필요한 데이터를 선별하므로, 양질의 데이터를 제공할 수 있다. 또한, 선별된 데이터를 처리한 데이터를 기초로 분석하므로 무리한 삭제 작업이나, 보간 작업을 피할 수 있어 보다 높은 품질의 데이터 분석을 수행할 수 있다. According to an embodiment of the present invention, since data requiring supplementation is selected based on data supplementation conditions, high-quality data can be provided. In addition, since the selected data is analyzed based on the processed data, it is possible to avoid unreasonable deletion or interpolation operations, thereby enabling higher quality data analysis.
도 8은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.8 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 프로세서(150)는 수집된 데이터 중 이상 데이터를 처리한다(S810). S810 단계에서 프로세서(150)의 동작은 도 3의 S320의 단계와 관련하여 제1데이터 중 이상 데이터를 처리하는 동작일 수 있다. The processor 150 according to an embodiment of the present invention processes abnormal data among the collected data (S810). The operation of the processor 150 in step S810 may be an operation of processing abnormal data among the first data in relation to the step S320 of FIG. 3 .
수집된 데이터는 적어도 하나의 특성에 대해 시계열적으로 수집된 것이다. 예를 들어 온도 센서로부터 수집된 온도 데이터일 수 있다. 프로세서(150)는 서버 등 외부장치로부터 수집된 데이터를 수신할 수 있으나, 전자장치(100)가 수집한 데이터일 수 있고, 어느 하나에 한정되지 않는다. The collected data is time-sequentially collected for at least one characteristic. For example, it may be temperature data collected from a temperature sensor. The processor 150 may receive data collected from an external device such as a server, but may be data collected by the electronic device 100, and is not limited thereto.
데이터를 분석함에 있어서 무결성을 전제로 하지만 실제 데이터를 수집하는 과정에서 다양한 이유로 빈번하게 누락되거나 이상 데이터가 발생하고 있다.In analyzing data, integrity is premised, but in the process of collecting actual data, for various reasons, frequently missing or abnormal data occurs.
이상 데이터는 수집된 데이터를 분석함에 있어 결과값에 악영향을 미치는 데이터로써, 예를 들어, 수집된 데이터가 비정상적인 수치를 가지거나, 데이터를 수집하는 센서 등의 허용 측정 범위를 벗어나는 등 오류 데이터를 의미한다.Abnormal data is data that adversely affects the result value in analyzing the collected data. For example, it means error data such as the collected data having abnormal values or exceeding the allowable measurement range of the sensor that collects the data. do.
본 발명의 일 실시예에 따르면, 프로세서(150)는 수집된 데이터 중 이상 데이터를 누락 데이터로 치환하여 처리하거나, 이상 데이터 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간할 수 있다. According to an embodiment of the present invention, the processor 150 may replace abnormal data among collected data with missing data for processing, or may interpolate appropriate data using data collected before and after the abnormal data.
본 발명의 일 실시예에 따른 누락 데이터는 숫자, 문자 등 어떤 방법으로도 변환되어 표기할 수 없는 데이터로, 정의할 수 없거나, 존재하지 않는 데이터라고 포괄적으로 정의한다. 해당 시간에 수집된 데이터가 없거나, 수집하였으나 서버 등 장치로 전송하는 과정에서 누락된 데이터를 의미한다.Missing data according to an embodiment of the present invention is comprehensively defined as data that cannot be converted and displayed in any way, such as numbers and letters, and data that cannot be defined or does not exist. It means that there is no data collected at that time, or data that is collected but omitted in the process of transmitting to a device such as a server.
일반적으로, 누락 데이터의 값은 "-999"와 같은 극단적인 값을 표기하거나 "NaN", "NA"와 같이 정해진 문자를 표현하는 등의 다양한 방법으로 표현될 수 있다. 그러나 표준화되지 않은 누락 데이터의 표기법은 데이터가 기록된 후 정상 데이터와 비정상 데이터(이상 데이터)를 명확하게 판단해 내기 어려운 경우가 존재한다. 따라서, 본 발명에서는 이상 데이터를 "NaN" 혹은 "NA" 등으로 표기하여 누락 데이터로 치환한다.In general, the value of missing data can be expressed in various ways, such as expressing an extreme value such as "-999" or expressing a predetermined character such as "NaN" or "NA". However, there are cases in which it is difficult to clearly determine normal data and abnormal data (abnormal data) after the data are recorded in the notation of non-standardized missing data. Therefore, in the present invention, abnormal data is marked as "NaN" or "NA" and replaced with missing data.
본 발명의 일 실시예에 따른 프로세서(150)는 수집된 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별한다(S820). S820 단계에서 프로세서(150)의 동작은 도 3의 S330의 단계와 관련하여 제1데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 식별된 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 제2데이터에 포함된 누락 데이터를 처리하는 동작일 수 있다.The processor 150 according to an embodiment of the present invention identifies information about missing data including processed abnormal data among the collected data (S820). In step S820, the processor 150 identifies information on missing data including the processed abnormal data among the first data in relation to step S330 of FIG. 3, and based on the information on the identified missing data, at least It may be an operation of processing missing data included in the second data using one missing data processing method.
본 발명의 일 실시예에 따르면, 수집된 데이터는 이상 데이터뿐 아니라, 누락 데이터를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 누락 데이터는 S810 단계에서 이상 데이터로부터 치환된 누락 데이터와, 수집 데이터에 기 포함된 누락 데이터를 포함한다.According to an embodiment of the present invention, collected data may include missing data as well as abnormal data. According to an embodiment of the present invention, the missing data includes missing data substituted from abnormal data in step S810 and missing data previously included in collected data.
본 발명의 일 실시예에 따르면, 누락 데이터에 대한 정보는 누락 데이터의 위치에 관한 정보 및 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함한다. 본 발명의 일 실시예에 따르면, 누락 데이터의 위치에 관한 정보란, 예를 들어, 테이블 형식으로 이루어진 데이터에서 누락 데이터가 위치한 행, 열에 관한 정보 등을 포함한다. 또한, 누락 데이터의 연속성에 관한 정보란 누락 데이터가 연속된 정도(시간)에 관한 정보, 누락 데이터의 분포 양상 등 누락 데이터의 경향성이나 패턴을 식별할 수 있는 정보 등을 포함한다.According to an embodiment of the present invention, information on missing data includes at least one of information about a location of missing data and information about continuity of missing data. According to an embodiment of the present invention, the information about the location of missing data includes, for example, information about rows and columns where missing data is located in tabular data. In addition, the information on the continuity of the missing data includes information on the degree (time) of the continuity of the missing data and information capable of identifying the tendency or pattern of the missing data, such as the distribution of the missing data.
따라서, 프로세서(150)는 누락 데이터의 위치에 관한 정보 및 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함하는 누락 데이터에 대한 정보를 식별할 수 있다. Accordingly, the processor 150 may identify information about the missing data including at least one of information about the location of the missing data and information about continuity of the missing data.
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터를 처리한다(S830).The processor 150 according to an embodiment of the present invention processes the missing data using at least one missing data processing method based on information on the missing data (S830).
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터의 위치에 관한 정보 및/또는 누락 데이터의 연속성에 관한 정보에 기초하여 누락 데이터의 보완을 수행할 수 있다.The processor 150 according to an embodiment of the present invention may supplement missing data based on information about the location of the missing data and/or information about the continuity of the missing data.
이때, 프로세서(150)는 누락 데이터에 대한 정보에 기초하여 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 상기 적어도 하나의 누락 데이터 처리 방법을 식별할 수 있다. 프로세서(150)는 누락 데이터에 대한 정보에 따라 누락 데이터의 처리 정도를 조정하는 파라미터 정보를 함께 고려하여 누락 데이터를 보완할 수 있다. 본 실시예에 따른 파라미터 정보는 누락 데이터를 포함하는 구간에 관한 정보나, 누락 데이터 처리 방법에 관한 정보, 누락 데이터 처리 조건 등을 포함할 수 있다. In this case, the processor 150 may identify at least one missing data processing method to process the missing data corresponding to at least one section based on the missing data information. The processor 150 may complement the missing data by considering parameter information for adjusting the processing degree of the missing data according to information on the missing data. Parameter information according to the present embodiment may include information on a section including missing data, information on a method for processing missing data, conditions for processing missing data, and the like.
일 예로, 10개의 연속된 누락 데이터를 포함하는 구간에 대해 하나의 누락 데이터 처리 방법을 적용하여 처리할 수 있다. 또 다른 예로, 10개의 연속된 누락 데이터를 포함하는 구간을 세 구간으로 나누고, 각 구간에 대해 서로 다른 누락 데이터 처리 방법을 적용하여 처리할 수 있다. 추가로, 각 구간에 대해서도 복수의 누락 데이터 처리 방법을 적용하여 각 처리 방법에 따라 보완된 데이터 값의 평균값이나, 일정 비율을 적용하여 최종 보완 데이터 값을 도출할 수 있다.For example, a section including 10 consecutive missing data may be processed by applying one missing data processing method. As another example, a section including 10 consecutive pieces of missing data may be divided into three sections, and different missing data processing methods may be applied to each section for processing. In addition, a plurality of missing data processing methods are applied to each section, and the final supplemented data value may be derived by applying an average value or a predetermined ratio of supplemented data values according to each processing method.
이때, 프로세서(150)는 누락 데이터를 처리할 지 여부를 결정하는 조건, 즉 데이터 보완 여부를 결정하는 조건에 기초하여 누락 데이터를 처리할 수 있다. 예를 들어, 전체 데이터 중 누락 데이터가 20% 이하인 경우에만 보완을 진행하거나, 전체 데이터 중 누락 데이터가 30%를 넘지 않고, 10개 이하의 연속되는 누락 데이터에 대해서만 보완을 수행하는 등의 조건에 따라 누락 데이터를 처리할 수 있다. In this case, the processor 150 may process the missing data based on a condition for determining whether to process the missing data, that is, a condition for determining whether to supplement data. For example, complementation is performed only when missing data is 20% or less of the total data, or complementation is performed only for 10 or fewer consecutive missing data and the missing data does not exceed 30% of the total data. Missing data can be handled accordingly.
본 발명의 일 실시예에 따르면, 누락 데이터 처리 방법은, 예를 들어, "mean", "median", "frequent", "ffill", "bfill", "linear_interpolation", "spline_interpolation", "stineman_interpolation", "KNN", "ARIMA", "Randomforest", "NAOMI", "BRITS" 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. According to an embodiment of the present invention, the missing data processing method includes, for example, "mean", "median", "frequent", "ffill", "bfill", "linear_interpolation", "spline_interpolation", "stineman_interpolation" , "KNN", "ARIMA", "Randomforest", "NAOMI", "BRITS", etc., but are not limited thereto.
본 발명의 일 실시예에 따르면, 프로세서(150)는 누락 데이터에 대한 정보에 따라 누락 데이터의 처리 정도를 조정하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능 알고리즘으로서 기계학습, 신경망 네트워크, 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. According to an embodiment of the present invention, the processor 150 performs at least a part of data analysis, processing, and result information generation for adjusting the processing degree of missing data according to information on the missing data as a rule-based or artificial intelligence algorithm. It may be performed using at least one of machine learning, neural network, and deep learning algorithms.
또한, 사용자의 요구에 적응적으로 누락 데이터 보완을 수행하기 위해, 프로세서(150)는 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 입력부(110)를 통해 수신할 수 있다. 따라서, 프로세서(150)는 사용자가 정의한 파라미터 정보에 따라 적어도 하나의 누락 데이터 처리 방법을 적용하여 누락 데이터를 보완할 수 있다.In addition, in order to compensate for missing data adaptively to a user's request, the processor 150 receives user input regarding at least one missing data processing method for processing missing data corresponding to at least one section through the input unit 110. can be received through Accordingly, the processor 150 may supplement missing data by applying at least one missing data processing method according to parameter information defined by a user.
본 발명의 일 실시예에 따르면, 누락 데이터를 포함하는 구간의 상태에 따라 최적화된 방법을 적용하여 보완하므로 보다 합리적이고 품질 높은 데이터 처리가 가능하다. According to an embodiment of the present invention, since an optimized method is applied and supplemented according to the state of a section including missing data, more reasonable and high-quality data processing is possible.
본 발명의 일 실시예에 따르면, 데이터 활용 용도에 따라 보간 및 치환 방법을 달리 적용할 수 있으므로, 보다 품질 높은 데이터 보완을 수행할 수 있다.According to an embodiment of the present invention, since interpolation and substitution methods may be differently applied according to data utilization purposes, higher quality data supplementation may be performed.
도 9는 본 발명의 일 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다. 본 실시예에서는 누락 데이터를 처리하는 과정(900)에 대해서 설명하고, 도 8에서 설명한 내용과 중복되는 내용은 도 8과 동일하게 적용되는 바, 이에 대해서 구체적인 설명은 생략한다.9 is a diagram illustrating an operation of an electronic device according to an embodiment of the present invention. In this embodiment, the process 900 of processing missing data will be described, and since the contents overlapping with those described in FIG. 8 are applied in the same manner as in FIG. 8, a detailed description thereof will be omitted.
본 발명의 일 실시예에 따른 프로세서(150)는 수집된 데이터(이하, 수집 데이터(10)라 한다.) 중 이상 데이터(20)를 처리한다(910). Processor 150 according to an embodiment of the present invention processes abnormal data 20 among collected data (hereinafter, referred to as collected data 10) (910).
보다 구체적으로, 이상 데이터(20)는 확실 이상 데이터(21) 및 불확실 이상 데이터(22)를 포함한다. 확실 이상 데이터(21)는 수집 데이터(10)의 값이 가질 수 있는 최소-최대 범위를 넘어선 값을 가지는 등 명확하게 판단되는 오류 데이터를 의미한다. 불확실 이상 데이터(22)는 명확한 오류는 아니지만 해당 데이터 전후로 획득된 데이터와 비교 시 확연한 차이를 보이는 등과 같이 이상 데이터인지 불확실해 보이는 이상 데이터를 의미한다. More specifically, the abnormal data 20 includes certain abnormal data 21 and uncertain abnormal data 22 . Certainly abnormal data 21 means error data that is clearly determined, such as having a value exceeding a minimum-maximum range that the value of the collected data 10 can have. Uncertain abnormal data 22 refers to abnormal data that appears uncertain as abnormal data, such as showing a clear difference when compared with data acquired before and after the corresponding data, although it is not a clear error.
프로세서(150)는, 수집 데이터(10) 중 확실 이상 데이터(21) 및 불확실 이상 데이터(22)를 포함하는 이상 데이터(20)를 식별하고, 확실 이상 데이터(21) 및 불확실 이상 데이터(22)를 각각 처리한다. 일 예로, 프로세서(150)는 수집 데이터(10) 중 확실 이상 데이터(21)는 누락 데이터로 치환하여 처리하거나, 불확실 이상 데이터(22)는 누락 데이터로 치환하여 처리하거나, 불확실 이상 데이터(22) 전후로 수집된 데이터를 이용하여 적절한 데이터로 보간할 수 있다. 이때, 프로세서(150)는 입력부(110)를 통해 불확실 이상 데이터(22)의 값을 결정하는 사용자입력을 수신할 수 있다.The processor 150 identifies abnormal data 20 including certain abnormal data 21 and uncertain abnormal data 22 among the collected data 10, and collects certain abnormal data 21 and uncertain abnormal data 22. process each. For example, the processor 150 replaces certain abnormal data 21 of the collected data 10 with missing data for processing, or replaces uncertain abnormal data 22 with missing data for processing, or replaces certain abnormal data 22 with missing data. Data collected before and after can be used to interpolate to appropriate data. At this time, the processor 150 may receive a user input for determining a value of the abnormal abnormal data 22 through the input unit 110 .
본 발명의 일 실시예에 따른 프로세서(150)는 수집 데이터(10) 중 처리된 이상 데이터를 포함하는 누락 데이터(30)에 대한 정보를 식별한다(920). Processor 150 according to an embodiment of the present invention identifies information about missing data 30 including processed abnormal data among collected data 10 (920).
본 발명의 일 실시예에 따른 프로세서(150)는 누락 데이터(30)에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터(30)를 처리한다(930). 결과적으로, 수집 데이터(10)를 처리한 처리 데이터(40)를 획득하게 된다. The processor 150 according to an embodiment of the present invention processes the missing data 30 using at least one missing data processing method based on information on the missing data 30 (930). As a result, processed data 40 obtained by processing the collected data 10 is obtained.
본 발명의 일 실시예에 따르면, 이상 데이터를 확실 이상 데이터 및 불확실 이상 데이터로 구별하여 처리하므로 보다 정밀하게 이상 데이터를 처리할 수 있다. According to an embodiment of the present invention, abnormal data can be processed more precisely because abnormal data is classified into certain abnormal data and uncertain abnormal data.
도 10은 본 발명의 다른 실시예에 따른 전자장치의 동작 모습을 도시한 도면이다. 도 10의 동작 모습은 복수의 수집 데이터(10)를 각각 처리하여 획득한 복수의 처리 데이터(40)를 통합하는 방법(1000)에 대해서 설명한다.10 is a diagram illustrating an operation of an electronic device according to another embodiment of the present invention. The operation of FIG. 10 describes a method 1000 for integrating a plurality of processed data 40 obtained by processing a plurality of collected data 10 respectively.
본 발명의 일 실시예에 따르면, Data1, Data2, ..., DataN을 포함하는 복수의 수집 데이터(10)를 통합하기 위해서, 각각의 수집 데이터에 대해 도 8 및 도 9에서 설명한 데이터 처리(900)가 선행되어야 한다. 각 수집 데이터(10)에 대해 데이터 처리(900) 과정을 거쳐 획득된 처리 데이터(40)는 Data1', Data2', ..., DataN'을 포함한다. According to one embodiment of the present invention, in order to integrate a plurality of collected data 10 including Data1, Data2, ..., DataN, the data processing (900) described in FIGS. 8 and 9 for each collected data ) should be preceded. The processed data 40 obtained through the data processing 900 process for each collected data 10 includes Data1', Data2', ..., DataN'.
본 발명의 일 실시예에 따른 프로세서(150)는 획득한 처리 데이터(40)를 결합한다(1010). The processor 150 according to an embodiment of the present invention combines the acquired processed data 40 (1010).
처리 데이터(40)를 결합하는 과정에 대해 표 1의 데이터를 참조하여 구체적으로 살펴본다. 표 1에 나타난 데이터 1, 데이터 2, 데이터 3은 개별적으로 데이터 처리(900)가 완료된 처리 데이터(40)라고 가정한다.The process of combining the processed data 40 will be described in detail with reference to the data in Table 1. It is assumed that data 1, data 2, and data 3 shown in Table 1 are processed data 40 for which data processing 900 has been completed individually.
데이터 1data 1 1/1일 0시 0분 ~ 1/10일 24시 0분January 1st 0:00 - January 10th 24:00 1분 단위로 측정Measured in 1 minute increments
데이터 2data 2 1/1일 3시~ 1/10일 23시January 1st 3:00 - January 10th 23:00 1시간 단위로 측정Measured in 1 hour increments
데이터 3data 3 1/1일 0시~ 1/11일 24시January 1st 0:00 - January 11th 24:00 3시간 단위로 측정Measured in 3-hour increments
본 발명의 일 실시예에 따르면, 프로세서(150)는 복수의 처리 데이터(40)의 결합구간을 표 2와 같이 설정할 수 있다.According to an embodiment of the present invention, the processor 150 may set a combination period of the plurality of processed data 40 as shown in Table 2.
결합구간 1coupling section 1 1/1일 3시~ 1/10일 23시January 1st 3:00 - January 10th 23:00
결합구간 2coupling section 2 1/1일 0시 0분 ~ 1/10일 24시 0분January 1st 0:00 - January 10th 24:00
본 발명의 일 실시예에 따르면, 프로세서(150)는 결합 구간에 따라 누락 데이터를 재설정할 수 있다. 본 발명의 일 실시예에 따르면, 누락 데이터를 재설정한다는 것은 수집 데이터를 수집한 시간 구간보다 확장하여 미수집 데이터가 발생하는 경우, 미수집 데이터를 누락 데이터로 설정하는 것을 의미한다. 기존 누락 데이터와 미수집 데이터의 형식을 동일하게 변경함으로써 데이터 처리 시 동일한 처리를 받도록 통일하기 위함이다.According to an embodiment of the present invention, the processor 150 may reset missing data according to the combining interval. According to an embodiment of the present invention, resetting the missing data means setting the non-collected data as missing data when non-collected data occurs beyond the time period in which the collected data is collected. This is to unify the data processing so that they receive the same processing by changing the format of the existing missing data and uncollected data to be the same.
예를 들어, 결합구간을 결합구간 1로 설정하는 경우, 데이터 1의 일부 데이터, 데이터 2의 전체 데이터, 데이터 3의 일부 데이터를 사용하게 되어 추가적인 누락 데이터의 재설정이 불필요하다. For example, when the combination period is set to combination period 1, some data of data 1, all data of data 2, and some data of data 3 are used, so resetting additional missing data is unnecessary.
그러나, 결합구간을 결합구간 2로 설정하는 경우, 데이터 1은 전체 데이터, 데이터 3은 일부 데이터를 사용하여 누락 데이터 설정이 불필요한 반면, 데이터 2는 1/1일 0시 이후 1/1일 3시 이전과, 1/10일 23시 이후 1/10일 24시 이전의 데이터가 없으므로, 해당 시간에 대응하는 미수집 데이터에 대해 누락 데이터의 재설정이 필요하다. However, when setting the combination period to combination period 2, data 1 uses all data and data 3 uses some data, so missing data setting is unnecessary, while data 2 is 0:00 on 1/1 and 3:00 on 1/1. Since there is no data before and after 23:00 on January 10th and before 24:00 on January 10th, it is necessary to reset missing data for uncollected data corresponding to that time.
본 발명의 일 실시예에 따르면, 프로세서(150)는 복수의 처리 데이터(40)의 데이터 수집 주기에 기초하여 데이터를 결합할 수 있다. 일 예로, 프로세서(150)는 복수의 처리 데이터(40)의 데이터 수집 주기에 기초하여 데이터의 인덱싱을 다시 수행(reindexing) 할 수 있다. 보다 구체적으로, 프로세서(150)는 복수의 처리 데이터(40)의 데이터 수집 주기에 기초하여 복수의 처리 데이터(40) 각각을 업샘플링(upsampling) 또는 다운샘플링(downsampling)하여 결합할 수 있다. According to an embodiment of the present invention, the processor 150 may combine data based on a data collection period of the plurality of processed data 40 . For example, the processor 150 may reindex data based on a data collection period of the plurality of processed data 40 . More specifically, the processor 150 may perform upsampling or downsampling of each of the plurality of processed data 40 and combine them based on the data collection period of the plurality of processed data 40 .
예를 들어, 결합 주기를 1분 단위로 할 경우 데이터 2와 데이터 3에 대한 업샘플링이 필요하고, 결합 주기를 1시간 단위로 할 경우 데이터 1은 다운샘플링, 데이터 3은 업샘플링이 필요하다.For example, if the combining period is 1 minute, data 2 and data 3 need to be upsampled, and if the combining period is 1 hour, data 1 needs to be downsampled and data 3 needs to be upsampled.
이때, 다운샘플링은 평균과 같은 널리 알려진 통계적 계산 방법을 활용할 수 있으나, 업샘플링은 처리 하는 방법이 매우 다양하며, 이에 따른 데이터 복원 효과도 매우 다르기 때문에 앞서 도 10에서 서술한 누락 데이터 처리 방법 중 적어도 하나를 적용하여 수행할 수 있다. 다만, 이는 예시에 불과한 바, 업샘플링과 다운샘플링을 수행하는 방법은 제한없이 적용 가능하다.At this time, downsampling can utilize a well-known statistical calculation method such as an average, but upsampling has a wide variety of processing methods, and the resulting data restoration effect is also very different, so at least one of the missing data processing methods described in FIG. You can do this by applying one. However, since this is only an example, the method of performing upsampling and downsampling can be applied without limitation.
데이터를 결합하고 난 뒤, 프로세서(150)는 결합한 데이터에 다시 데이터 처리(1020)를 수행할 수 있다. 이때, 데이터 처리(1020)는 데이터 처리(900)와 동일할 수 있으며, 데이터 처리(1020)와 데이터 처리(900)는 동일 프로세서 혹은 서로 다른 프로세서에서 수행될 수 있다. 보다 구체적으로, 프로세서(150)는, 복수의 수집 데이터를 각각 처리하여 복수의 처리 데이터를 획득하고, 복수의 처리 데이터를 결합하고, 결합된 데이터 중 이상 데이터를 처리하고, 결합된 데이터 중 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 누락 데이터를 처리할 수 있다. 프로세서(150)는 누락 데이터를 처리하여 데이터를 통합(1030)할 수 있다. After combining the data, the processor 150 may perform data processing 1020 again on the combined data. In this case, the data processing 1020 may be the same as the data processing 900, and the data processing 1020 and the data processing 900 may be performed by the same processor or different processors. More specifically, the processor 150 processes a plurality of collected data, respectively, obtains a plurality of processed data, combines the plurality of processed data, processes abnormal data among the combined data, and processes the processed data among the combined data. Information on missing data including abnormal data may be identified, and the missing data may be processed using at least one missing data processing method based on the information on the missing data. The processor 150 may process the missing data and integrate the data ( 1030 ).
본 발명의 일 실시예에 따르면, 복수의 단일 데이터가 결합된 데이터에 대해 적용할 수 있어, 데이터를 결합하는 경우에도 품질 높은 데이터 보완을 수행할 수 있다. According to an embodiment of the present invention, it can be applied to data in which a plurality of single data are combined, so that high-quality data supplementation can be performed even when combining data.

Claims (15)

  1. 전자장치에 있어서,In electronic devices,
    적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정하고,Setting a section of first data to be processed among data collected for at least one characteristic;
    상기 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성하고,resetting the missing data included in the section of the first data to generate second data;
    보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 상기 제2데이터를 처리하는 프로세서를 포함하는 전자장치.An electronic device including a processor that processes the second data based on a data supplementation condition prepared to select data requiring supplementation.
  2. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 제2데이터에 포함된 누락 데이터의 비율, 기간 및 개수 중 적어도 하나에 기초하여 상기 데이터 보완 조건을 설정하고,Setting the data complement condition based on at least one of the ratio, period, and number of missing data included in the second data;
    상기 제2데이터 중 상기 데이터 보완 조건을 만족하는 제3데이터를 선별하는 전자장치.An electronic device for selecting third data that satisfies the data complement condition among the second data.
  3. 제2항에 있어서,According to claim 2,
    상기 프로세서는,the processor,
    상기 제2데이터에 포함된 누락 데이터의 비율이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 전자장치.The electronic device processing the second data when a ratio of missing data included in the second data is higher than a predefined value.
  4. 제2항에 있어서,According to claim 2,
    상기 프로세서는,the processor,
    상기 제2데이터에 포함된 누락 데이터의 기간이 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 전자장치.An electronic device that processes the second data when a period of missing data included in the second data is higher than a predefined value.
  5. 제2항에 있어서,According to claim 2,
    상기 프로세서는,the processor,
    상기 제2데이터에 포함된 누락 데이터의 개수가 기 정의된 값보다 높을 경우 상기 제2데이터를 처리하는 전자장치. The electronic device processing the second data when the number of missing data included in the second data is higher than a predefined value.
  6. 제2항에 있어서,According to claim 2,
    상기 프로세서는,the processor,
    제1데이터의 복수의 구간 중 각 구간에 포함되는 누락 데이터의 개수에 기초하여 제1데이터의 제1구간을 설정하는 전자장치.An electronic device that sets a first section of the first data based on the number of missing data included in each section among a plurality of sections of the first data.
  7. 제6항에 있어서,According to claim 6,
    상기 프로세서는,the processor,
    상기 제1구간에 포함된 누락 데이터의 연속된 개수나, 상기 제1구간에 포함된 누락 데이터의 합산 개수에 기초하여 상기 제1데이터의 제1구간을 설정하는 전자장치.The electronic device that sets a first section of the first data based on the number of consecutive missing data included in the first section or the summed number of missing data included in the first section.
  8. 제1항에 있어서,According to claim 1,
    상기 프로세서는,the processor,
    상기 수집된 데이터 중 이상 데이터를 처리하고, Processing abnormal data among the collected data,
    상기 수집된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, Identifying information about missing data including the processed abnormal data among the collected data;
    상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리하는 전자장치.An electronic device that processes the missing data by using at least one missing data processing method based on the information on the missing data.
  9. 제8항에 있어서,According to claim 8,
    상기 프로세서는, the processor,
    상기 누락 데이터의 위치에 관한 정보 및 상기 누락 데이터의 연속성에 관한 정보 중 적어도 하나를 포함하는 상기 누락 데이터에 대한 정보를 식별하는 전자장치.An electronic device that identifies information about the missing data including at least one of information about a location of the missing data and information about continuity of the missing data.
  10. 제8항에 있어서,According to claim 8,
    상기 프로세서는, the processor,
    상기 수집된 데이터 중 확실 이상 데이터 및 불확실 이상 데이터를 포함하는 이상 데이터를 식별하고,Identifying abnormal data including certain abnormal data and uncertain abnormal data among the collected data;
    상기 확실 이상 데이터 및 불확실 이상 데이터를 각각 처리하는 전자장치.An electronic device that processes the sure-abnormal data and the uncertain-abnormal data, respectively.
  11. 제1항에 있어서,According to claim 1,
    상기 프로세서는, the processor,
    상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 상기 적어도 하나의 누락 데이터 처리 방법을 식별하는 전자장치.An electronic device for identifying at least one missing data processing method to process missing data corresponding to at least one section based on the missing data information.
  12. 제11항에 있어서,According to claim 11,
    입력부를 더 포함하고,Including more input,
    상기 프로세서는, the processor,
    상기 적어도 하나의 구간에 대응되는 누락 데이터를 처리할 적어도 하나의 누락 데이터 처리 방법에 관한 사용자 입력을 상기 입력부를 통해 수신하는 전자장치.An electronic device that receives a user input related to at least one missing data processing method to process the missing data corresponding to the at least one section through the input unit.
  13. 제8항에 있어서,According to claim 8,
    상기 프로세서는,the processor,
    복수의 수집 데이터를 포함하는 상기 수집 데이터를 각각 처리하여 복수의 처리 데이터를 획득하고,Acquiring a plurality of processed data by respectively processing the collected data including a plurality of collected data;
    상기 복수의 처리 데이터를 결합하고,combining the plurality of processed data;
    상기 결합된 데이터 중 이상 데이터를 처리하고,Processing abnormal data among the combined data;
    상기 결합된 데이터 중 상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하고, Identifying information about missing data including the processed abnormal data among the combined data;
    상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 누락 데이터를 처리하는 전자장치.An electronic device that processes the missing data by using at least one missing data processing method based on the information on the missing data.
  14. 데이터 보완 조건에 기반한 데이터 선별을 수행하는 방법에 있어서,In the method for performing data selection based on data supplementation conditions,
    적어도 하나의 특성에 대해 수집된 데이터 중 처리하고자 하는 제1데이터의 구간을 설정하는 단계;setting a section of first data to be processed among data collected for at least one characteristic;
    상기 제1데이터의 구간에 포함된 누락 데이터를 재설정하여 제2데이터를 생성하는 단계; 및generating second data by resetting missing data included in the section of the first data; and
    보완이 필요한 데이터를 선별하기 위해 마련된 데이터 보완 조건에 기초하여 상기 제2데이터를 처리하는 단계를 포함하는 방법.and processing the second data based on data supplementation conditions prepared to select data requiring supplementation.
  15. 제14항에 있어서,According to claim 14,
    상기 제2데이터를 생성하는 단계는,The step of generating the second data,
    상기 제1데이터 중 이상 데이터를 처리하는 단계를 포함하고,Processing abnormal data among the first data;
    상기 제2데이터를 처리하는 단계는,The step of processing the second data,
    상기 처리된 이상 데이터를 포함하는 누락 데이터에 대한 정보를 식별하는 단계; 및identifying information about missing data including the processed abnormal data; and
    상기 누락 데이터에 대한 정보에 기초하여 적어도 하나의 누락 데이터 처리 방법을 이용하여 상기 제2데이터에 포함된 누락 데이터를 처리하는 단계를 포함하는 방법.and processing missing data included in the second data using at least one missing data processing method based on the missing data information.
PCT/KR2021/017884 2021-11-18 2021-11-30 Electronic device for performing data selection based on data supplementation condition, and executing method thereof WO2023090510A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0159210 2021-11-18
KR1020210159210A KR20230072698A (en) 2021-11-18 2021-11-18 Electronic device for data selection based on data complementation conditions and method for performing the same
KR10-2021-0160938 2021-11-22
KR1020210160938A KR20230074886A (en) 2021-11-22 2021-11-22 Electronic device for processing missing data and method for processing the same

Publications (1)

Publication Number Publication Date
WO2023090510A1 true WO2023090510A1 (en) 2023-05-25

Family

ID=86397168

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/017884 WO2023090510A1 (en) 2021-11-18 2021-11-30 Electronic device for performing data selection based on data supplementation condition, and executing method thereof

Country Status (1)

Country Link
WO (1) WO2023090510A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101264120B1 (en) * 2005-08-04 2013-05-14 테라다인 인코퍼레이티드 Obtaining test data for a device
JP2016005180A (en) * 2014-06-18 2016-01-12 シャープ株式会社 Notification control system, controller, and notification control method
CN108427698A (en) * 2017-08-29 2018-08-21 平安科技(深圳)有限公司 Updating device, method and the computer readable storage medium of prediction model
US10496466B2 (en) * 2015-06-22 2019-12-03 Hitachi Power Solutions Co., Ltd. Preprocessor of abnormality sign diagnosing device and processing method of the same
CN111597080A (en) * 2020-05-22 2020-08-28 广东省生态环境技术研究所 Method for repairing underground water level missing data based on ground statistics and neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101264120B1 (en) * 2005-08-04 2013-05-14 테라다인 인코퍼레이티드 Obtaining test data for a device
JP2016005180A (en) * 2014-06-18 2016-01-12 シャープ株式会社 Notification control system, controller, and notification control method
US10496466B2 (en) * 2015-06-22 2019-12-03 Hitachi Power Solutions Co., Ltd. Preprocessor of abnormality sign diagnosing device and processing method of the same
CN108427698A (en) * 2017-08-29 2018-08-21 平安科技(深圳)有限公司 Updating device, method and the computer readable storage medium of prediction model
CN111597080A (en) * 2020-05-22 2020-08-28 广东省生态环境技术研究所 Method for repairing underground water level missing data based on ground statistics and neural network

Similar Documents

Publication Publication Date Title
WO2020096099A1 (en) Machine learning method and device
KR100850843B1 (en) Indicator, and recording medium storing program for functioning computer as indicator
WO2020022639A1 (en) Deep learning-based evaluation method and apparatus
WO2016171341A1 (en) Cloud-based pathology analysis system and method
WO2024096146A1 (en) User recommendation method using production data and use data, and apparatus therefor
WO2019216199A1 (en) Analysis assistance device and analysis assistance method
WO2022196945A1 (en) Apparatus for predicting population dispersion on basis of population dispersion simulation model, and method for predicting population dispersion by using same
WO2017160028A1 (en) Object management and visualization using a computing device
WO2023090510A1 (en) Electronic device for performing data selection based on data supplementation condition, and executing method thereof
WO2018048117A1 (en) Display apparatus and control method thereof
WO2022039366A1 (en) Electronic device and control method thereof
WO2022158628A1 (en) System for determining defect in display panel on basis of machine learning model
WO2020235854A1 (en) Apparatus and method for generating defect image
WO2019124770A1 (en) Terminal apparatus and control method of terminal apparatus
WO2019098732A1 (en) Method and system for management and operation over image in a computing system
EP3707646A1 (en) Electronic apparatus and control method thereof
WO2022139479A1 (en) Method and device for predicting subsequent event to occur
WO2013118971A1 (en) Method and system for completing schedule information, and computer-readable recording medium having recorded thereon program for executing the method
WO2022250190A1 (en) Defect determination system for image inspection object by using deep learning model
WO2024029659A1 (en) Electronic apparatus for performing quality verification of time series data and performing method therefor
WO2019172718A1 (en) Electronic device and on-device method for enhancing user experience in electronic device
WO2020071692A1 (en) Refrigerator, server, and object recognition method of refrigerator
WO2020251172A1 (en) Data generation method
JP2021060749A (en) Facility management assisting system and facility management assisting method
KR20230074886A (en) Electronic device for processing missing data and method for processing the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21964896

Country of ref document: EP

Kind code of ref document: A1