KR101637504B1 - System and method for processing informal data - Google Patents

System and method for processing informal data Download PDF

Info

Publication number
KR101637504B1
KR101637504B1 KR1020150007975A KR20150007975A KR101637504B1 KR 101637504 B1 KR101637504 B1 KR 101637504B1 KR 1020150007975 A KR1020150007975 A KR 1020150007975A KR 20150007975 A KR20150007975 A KR 20150007975A KR 101637504 B1 KR101637504 B1 KR 101637504B1
Authority
KR
South Korea
Prior art keywords
data
pattern
unit
rule
information
Prior art date
Application number
KR1020150007975A
Other languages
Korean (ko)
Inventor
이경일
김아로
김선호
Original Assignee
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 솔트룩스 filed Critical 주식회사 솔트룩스
Priority to KR1020150007975A priority Critical patent/KR101637504B1/en
Application granted granted Critical
Publication of KR101637504B1 publication Critical patent/KR101637504B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are a system and a method for processing unstructured data. The system for processing unstructured data according to an exemplary embodiment of the present invention comprises: a pattern providing portion which provides a pattern of the unstructured data based on a format of the unstructured data; a regulation providing portion which makes at least one item match the pattern, and provides regulation including a relationship between the item and the pattern; and a regulation execution engine which generates characteristics by adapting the regulation to the unstructured data.

Description

비정형 데이터 처리 시스템 및 방법{SYSTEM AND METHOD FOR PROCESSING INFORMAL DATA}[0001] SYSTEM AND METHOD FOR PROCESSING INFORMAL DATA [0002]

본 발명의 기술적 사상은 비정형 데이터를 처리하는 시스템 및 방법에 관한것으로서, 자세하게는 비정형 데이터로부터 특성을 추출하는 시스템 및 방법에 관한 것이다.The technical idea of the present invention relates to a system and method for processing unstructured data, and more particularly to a system and method for extracting characteristics from unstructured data.

본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 ㈜솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2014.05.01~2015.02.28, 연구관리 전문기관: 정보통신기술연구진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]The present invention is derived from research conducted and conducted by Saltlux Co., Ltd. as part of the SW Technology Computing Industry Source Technology Development Project (SW) of the future creation science department. [Research period: 2014.05.01 ~ 2015.02.28, Research institute: Information and Communication Technology Promotion Center, Research title: WiseKB: Big data understanding based self-learning knowledge base and reasoning technology development, task number: 10044494]

지식 베이스(Knowledge Base) 구축은 수집된 데이터(자료)를 어휘 체계로 분류하고 이를 데이터 베이스에 저장함으로써 수행될 수 있다. 지식 베이스 구축을 위하여 수집되는 데이터는 그 출처가 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 뉴스, 학술정보, 사전 등의 내용을 인터넷을 통해서 수집되는 데이터일 수도 있고, 기 구축된 다른 지식 베이스(예컨대, 전문 지식 베이스)부터 온 라인 또는 오프 라인으로 수집되는 데이터일 수도 있고, 사용자가 직접 입력한 데이터일 수도 있다. 또한, 수집되는 데이터는 그 형식이 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 텍스트 기반 데이터일 수도 있고, 이미지 기반 데이터일 수도 있고, 음성 및 동영상 기반 데이터일 수도 있다. 이와 같이, 다양한 종류의 데이터로부터 필요한 정보를 추출하고 추출된 정보를 관리하는 것이 지식 베이스 구축에서 매우 중요할 수 있다.Knowledge base construction can be performed by classifying the collected data (data) into a lexical system and storing it in a database. Data collected for building a knowledge base can have a wide variety of sources. For example, the data collected for building a knowledge base may be data collected via the Internet, such as news, academic information, dictionaries, etc., from other established knowledge bases (e.g., expert knowledge base) Data that is collected offline, or data that is directly input by the user. Also, the data collected can be in a wide variety of formats. For example, data collected for knowledge base construction may be text-based data, image-based data, or voice and video-based data. Thus, extracting necessary information from various types of data and managing the extracted information may be very important in building a knowledge base.

본 발명의 기술적 사상은, 비정형 데이터로부터 특성을 효과적으로 추출하는 비정형 데이터 처리 시스템 및 방법을 제공한다.The technical idea of the present invention provides an unstructured data processing system and method for effectively extracting characteristics from unstructured data.

상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상의 일측면에 따른 비정형 데이터 처리 시스템은, 외부로부터 비정형 데이터를 수신하는 데이터 인터페이스부, 및 상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함할 수 있고, 상기 특성 추출부는 상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부, 적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부, 및 상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함할 수 있다.According to an aspect of the present invention, there is provided an unstructured data processing system including a data interface unit for receiving unstructured data from outside, a characteristic extracting unit for extracting characteristics of the unstructured data, And a characteristic information generating unit that generates characteristic information by setting relation information on the characteristic of the atypical data based on the format of the atypical data, A rule providing unit for associating at least one item with the pattern and providing a rule including a correspondence relationship of the item and a pattern, and a rule execution engine for generating the characteristic by applying the rule to the atypical data .

본 발명의 예시적 실시예에 따라, 상기 비정형 데이터 처리 시스템은 복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부, 및 사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장할 수 있고, 상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장할 수 있다.According to an exemplary embodiment of the present invention, the atypical data processing system includes a data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules, The pattern providing unit may generate a pattern based on the input signal and store the pattern in the pattern storing unit. The rule providing unit may generate a pattern based on the input signal, And store it in the rule storage unit.

본 발명의 예시적 실시예에 따라, 상기 패턴 제공부는 상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부, 및 상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함할 수 있다.According to an exemplary embodiment of the present invention, the pattern providing unit may include a pattern recommendation unit that provides at least one recommended pattern among a plurality of patterns stored in the pattern storage unit based on the format of the atypical data, And a pattern execution unit that extracts data included in the information area from the irregular data based on the pattern defined by the pattern definition unit, . ≪ / RTI >

본 발명의 예시적 실시예에 따라, 상기 패턴 추천부는 상기 지식 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택할 수 있다.According to an exemplary embodiment of the present invention, the pattern recommendation unit can select the recommendation pattern based on the type or source of the knowledge data.

본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별할 수 있고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시킬 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may identify at least one information area by analyzing the format of the atypical data, and may determine the information area as a pattern based on the input signal and / Or may be excluded from the pattern.

본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may group a plurality of information areas having the same format.

본 발명의 예시적 실시예에 따라, 상기 규칙 제공부는 상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부, 및 상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the rule providing unit provides at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the irregular data according to the pattern And a rule defining unit that defines rules corresponding to the irregular data based on the input signal and / or the recommendation rule.

본 발명의 예시적 실시예에 따라, 상기 규칙 추천부는 상기 지식 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택할 수 있다.According to an exemplary embodiment of the present invention, the rule recommendation section may select the recommendation rule based on the type or source of the knowledge data.

본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별할 수 있고, 상기 정보 영역을 상기 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining unit can identify an item corresponding to the information area by analyzing the extracted data, and associate the information area with the item.

본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 복수개의 후보 항목들을 저장할 수 있고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신할 수 있고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining section may store a plurality of candidate items, may update the candidate items based on the input signal, and may map the information region to one of the candidate items .

본 발명의 예시적 실시예에 따라, 상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함할 수 있고, 상기 비정형 데이터 처리 시스템은 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함할 수 있다.According to an exemplary embodiment of the present invention, the data storage unit may further include a knowledge data storage unit for storing knowledge data, and the unstructured data processing system may include external knowledge data received from the interface, And a knowledge data management unit for converting the characteristic information into knowledge data based on the stored knowledge data and verifying the converted knowledge data.

본 발명의 예시적 실시예에 따라, 상기 특성 정보 생성부는 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석할 수 있다.According to an exemplary embodiment of the present invention, the characteristic information generation unit may further include a characteristic extraction management unit that classifies the atypical data according to the data type and generates a control signal to change the extraction method according to the corresponding data type , The pattern providing unit may analyze the format of the atypical data based on the control signal.

본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 비정형 데이터에 포함된 정보를 패턴 및 규칙을 사용함으로써 효과적으로 추출할 수 있다.According to the unstructured data processing system and method according to the technical idea of the present invention, information included in the unstructured data can be effectively extracted by using patterns and rules.

또한, 본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 복수개의 패턴들 및 규칙들을 구비하고, 수신된 비정형 데이터에 적합한 규칙 및 패턴을 추천함으로써 비정형 데이터로부터 유효한 정보가 자동으로 추출될 수 있다.Further, according to the unstructured data processing system and method according to the technical idea of the present invention, a plurality of patterns and rules are provided, and valid information is automatically extracted from unstructured data by recommending rules and patterns suitable for received unstructured data .

도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템을 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부의 구현예를 나타내는 블록도이다.
도 3 내지 도 5는 도 1의 특성 추출부의 동작을 설명하기 위한 도면들이다.
도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부의 구현예를 나타내는 블록도이다.
도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부의 구현예를 나타내는 블록도이다.
도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법을 개략적으로 나타내는 순서도이다.
1 is a block diagram illustrating an unstructured data processing system in accordance with an exemplary embodiment of the present invention.
FIG. 2 is a block diagram showing an embodiment of the characteristic extracting unit of FIG. 1 according to an exemplary embodiment of the present invention.
3 to 5 are diagrams for explaining the operation of the characteristic extracting unit of FIG.
Figure 6 is a block diagram illustrating an embodiment of the pattern provider of Figure 2, in accordance with an exemplary embodiment of the present invention.
Figure 7 is a block diagram illustrating an implementation of the rule provider of Figure 2, in accordance with an exemplary embodiment of the present invention.
8 is a flowchart schematically showing a method for processing unstructured data according to an exemplary embodiment of the present invention.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. Embodiments of the present invention are provided to more fully describe the present invention to those skilled in the art. The present invention is capable of various modifications and various forms, and specific embodiments are illustrated and described in detail in the drawings. It should be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for similar elements in describing each drawing. In the accompanying drawings, the dimensions of the structures are enlarged or reduced from the actual dimensions for the sake of clarity of the present invention.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprises", "having", and the like are used to specify that a feature, a number, a step, an operation, an element, a part or a combination thereof is described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be construed to have meanings consistent with the contextual meanings of the related art and are not to be construed as ideal or overly formal meanings as are expressly defined in the present application .

도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)을 나타내는 블록도이다. 도 1에 도시된 바와 같이, 비정형 데이터 처리 시스템(10)은 데이터 인터페이스부(100), 특성 정보 생성부(200), 사용자 인터페이스(300), 데이터 저장부(400)을 포함할 수 있다. 도 1에 도시된 비정형 데이터. 처리 시스템(10)은 지식 베이스 구축 시스템으로 지칭될 수도 있다. 이하에서, 각각의 구성요소들은 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 각각의 구성요소들은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.Figure 1 is a block diagram illustrating an unstructured data processing system 10 in accordance with an exemplary embodiment of the present invention. 1, the atypical data processing system 10 may include a data interface unit 100, a characteristic information generation unit 200, a user interface 300, and a data storage unit 400. The atypical data shown in Fig. The processing system 10 may also be referred to as a knowledge base building system. In the following, each component may be a hardware block or a software block. For example, each of the components may be an independent hardware block that sends and receives signals to each other, or may be a software block that executes on one processor.

데이터 인터페이스부(100)는 비정형 데이터 처리 시스템(10)의 외부의 데이터 풀(data pool)로부터 데이터를 수신할 수 있다. 데이터 풀은 인터넷(internet), 데이터 베이스(database), 클라우드 소싱(cloud sourcing) 또는 소셜 네트워크(social network) 등 데이터가 생성되고 보유되고 유통될 수 있는 것을 나타낼 수 있다. 또한, 데이터 풀은 대중 또는 개인에 의해 비정형 데이터 처리 시스템(10)으로 직접 제공되는 데이터를 포함할 수도 있다.The data interface unit 100 may receive data from a data pool external to the atypical data processing system 10. [ Data pools can indicate that data can be created, maintained, and distributed, such as the Internet, databases, cloud sourcing, or social networks. The data pool may also include data provided directly to the unstructured data processing system 10 by the public or individuals.

데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터(informal data 또는 unstructured data) 또는 지식 데이터를 수신할 수 있다. 비정형 데이터는 고정된 형태로 구현되지 아니하는 데이터로, 대응되는 필드(field)에 대응되는 콘텐츠(contents)가 포함되는 정형 데이터(formal data 또는 structured data)와 대비된다. 예를 들어, 데이터 베이스(database) 또는 스프레드시트(spreadsheet) 등은 정형 데이터이고, 텍스트 문서, 음성 데이터 및 영상 데이터 등은 비정형 데이터일 수 있다. 고정된 필드에 저장되지는 않지만, 메타데이터(metadata)나 스키마(schema) 등을 포함하는 데이터로, XML이나 HTML은 반정형 데이터로 분류될 수는 있으나, 본 발명은 반정형 데이터를 비정형 데이터의 일 유형으로 전제될 수 있음을 알려둔다. 비정형 데이터는 전술된 데이터 풀의 예 중, 클라우드 소싱 또는 소셜 네트워크 등을 통해 생성, 보유 및 유통될 수 있다. The data interface unit 100 may receive informal data or unstructured data or knowledge data from the data pool. Unstructured data is data that is not implemented in a fixed form and is compared with formal data (structured data) containing contents corresponding to a corresponding field. For example, a database or a spreadsheet may be regular data, and a text document, voice data, image data, and the like may be unstructured data. Although XML or HTML may not be stored in a fixed field but may include metadata or schema, XML or HTML may be classified as semi-structured data, but the present invention is not limited to semi-structured data, It can be assumed that it is assumed to be a work type. Unstructured data can be created, retained and distributed through cloud sourcing or social networks, among other examples of data pools described above.

전술된 정형 데이터 또는 비정형 데이터를 가공 전의 데이터라 하고, 이를 유의미하게 가공한 2차 데이터를 정보(information)이라 할 수 있다. 데이터 인터페이스부(100)에서 수신하는 지식 데이터는 정보를 어떻게 이용하는지에 대한 메타정보일 수 있다. 예를 들어, 기후를 관측함에 있어서 획득되는 풍속, 풍향 및 습도 등은 데이터에 해당될 수 있고, 이를 모델링(modeling)하여 예측되는 날씨는 정보에 해당될 수 있다. 이때, 지식은 시행 착오 및 누적 정보의 분석 등을 통해, 예를 들어, 눈이 올 경우 운전사고 발생률이 높아진다는 결론을 얻을 수 있는데, 이것이 지식 데이터에 해당될 수 있다. 이하에서는 외부로부터 입력되는 지식 데이터와 비정형 데이터 처리 시스템(10)에 의해 생성 및 관리되는 지식 데이터를 구분하기 위해, 전자를 외부 지식 데이터로, 후자를 내부 지식 데이터로 구분한다. 데이터 인터페이스부(100)는 위키(Wiki), 디비피디아(DBpedia), 프리 베이스(FreeBase) 등으로부터 외부 지식 데이터를 수신할 수 있다. The above-described fixed data or unstructured data is referred to as data before processing, and the secondary data obtained by processing the data may be referred to as information. The knowledge data received by the data interface unit 100 may be meta information on how to use the information. For example, the wind speed, wind direction and humidity obtained in observing the climate may correspond to data, and the predicted weather may be information. At this time, it can be concluded that knowledge, such as trial and error and analysis of cumulative information, for example, leads to a higher incidence of accidents in case of snow, which may correspond to knowledge data. Hereinafter, in order to distinguish knowledge data inputted from the outside and knowledge data generated and managed by the unstructured data processing system 10, the former is divided into external knowledge data and the latter is divided into internal knowledge data. The data interface unit 100 may receive external knowledge data from a wiki, DBpedia, FreeBase, or the like.

이와 같이, 데이터 인터페이스부(100)는 외부로부터 비정형 데이터 또는 외부 지식 데이터를 검색 엔진 등을 통해 자동적으로 수신할 수 있다. 또한, 특성 정보 생성부(200) 또는 지식 데이터 관리부(500)의 요청, 또는 비정형 데이터 처리 시스템(10)의 다른 기능 블록에 의해 발생한 요청에 응답하여 데이터 풀로부터 비정형 데이터 또는 외부 지식 데이터를 수신할 수 있다. In this manner, the data interface unit 100 can automatically receive irregular data or external knowledge data from the outside through a search engine or the like. In response to a request made by the characteristic information generation unit 200 or the knowledge data management unit 500 or a request made by another function block of the unstructured data processing system 10, unstructured data or external knowledge data is received from the data pool .

사용자 인터페이스부(300)는 비정형 데이터 처리 시스템(10)의 외부 사용자와 신호를 주고 받을 수 있다. 예를 들면, 사용자는 사용자 인터페이스부(300)를 통해서 비정형 데이터를 분석하는 방식을 설정하는 입력 신호를 입력할 수 있다. 또한, 사용자 인터페이스부(300)는 비정형 데이터가 분석된 결과를 나타내는 출력 신호를 사용자에게 제공할 수 있다.The user interface unit 300 can exchange signals with external users of the unstructured data processing system 10. [ For example, the user can input an input signal for setting a method of analyzing unstructured data through the user interface unit 300. [ In addition, the user interface unit 300 may provide the user with an output signal indicating the result of analyzing the unstructured data.

비록 도 1에 도시된 예시에서 데이터 인터페이스부(100) 및 사용자 인터페이스부(300)는 독립적인 구성요소로서 각각 도시되었으나, 이는 예시일 뿐이며 본 발명의 기술적 사상이 이에 제한되지 않는 점은 이해될 것이다. 예를 들면, 비정형 데이터 처리 시스템(10)이 인터넷을 통해서 데이터를 수신하고, 인터넷을 통해서 사용자와 신호를 주고 받는 경우 비정형 데이터 처리 시스템(10)은 하나의 인터페이스부를 통해서 비정형 데이터 처리 시스템(10)의 외부와 정보를 주고 받을 수 있다.Although the data interface unit 100 and the user interface unit 300 are shown as independent components in the example shown in FIG. 1, it is to be understood that this is merely an example, and the technical idea of the present invention is not limited thereto . For example, when the atypical data processing system 10 receives data through the Internet and transmits and receives signals to the user via the Internet, the atypical data processing system 10 accesses the atypical data processing system 10 via one interface, The information can be exchanged with the outside.

특성 정보 생성부(200)는 입력된 비정형 데이터의 특성을 추출하고, 특성에 대한 관계 정보를 설정하여, 비정형 데이터에 대한 특성 정보로 생성한다. 비정형 데이터 특성 정보 생성부(200)는 특성 추출 관리부(220), 특성 추출부(240) 및 특성 관계 설정부(260)를 포함할 수 있다. The characteristic information generation unit 200 extracts the characteristics of the inputted irregular data and sets the relationship information about the characteristic to generate characteristic information about the unstructured data. The atypical data characteristic information generation unit 200 may include a characteristic extraction management unit 220, a characteristic extraction unit 240, and a characteristic relation setting unit 260.

특성 추출 관리부(220)는 비정형 데이터를 데이터 종류에 따라 분류하여, 대응되는 데이터 종류에 따라 특성을 추출하는 방법을 달리하도록 제어 신호를 생성할 수 있다. 예를 들면, 특성 추출 관리부(220)는, 비정형 데이터가 텍스트(text) 기반 데이터인 경우, 비정형 데이터에 포함된 단어의 빈도수에 근거하여 특성이 추출되도록 제어 신호를 생성할 수 있다. 또는, 특성 추출 관리부(220)는 비정형 데이터의 데이터 종류가 음성 또는 영상인 경우, 비정형 데이터의 주파수 스펙트럼에 근거하여 상기 특성이 추출되도록 제어 신호를 생성할 수 있다.The characteristic extraction management unit 220 may classify the irregular data according to the data type and generate the control signal so that the method of extracting the characteristic according to the corresponding data type is different. For example, when the unstructured data is text-based data, the characteristic extraction management unit 220 may generate the control signal so that the characteristics are extracted based on the frequency of the words included in the unstructured data. Alternatively, when the data type of the irregular data is audio or video, the characteristic extraction management unit 220 can generate the control signal so that the characteristic is extracted based on the frequency spectrum of the irregular data.

특성 추출부(240)는 제어 신호에 응답하여 비정형 데이터로부터 특성을 추출할 수 있다. 예를 들어, 특성 추출부(240)는 발생 빈도수가 많은 단어들을 특성으로 추출할 수 있다. 또는 특성 추출부(240)는 주파수 스펙트럼에 대한 분석 결과에 따른 영상 내의 객체를 정의할 수 있다. 이 경우, 특성 추출부(240)는 얼굴 이미지에 대해 눈, 코 및 입 등의 객체를 특성으로 추출할 수 있다. 특성 추출부(240)는 이를 위해 주파수 스펙트럼으로부터 객체로 포맷을 변환시키는 모듈(미도시)을 포함할 수 있다. The characteristic extracting unit 240 may extract the characteristic from the unstructured data in response to the control signal. For example, the characteristic extraction unit 240 can extract words having a high frequency of occurrence as characteristics. Or the characteristic extracting unit 240 may define an object in the image according to the analysis result of the frequency spectrum. In this case, the characteristic extracting unit 240 can extract objects such as eyes, nose, and mouth with respect to the face image. The property extractor 240 may include a module (not shown) for converting the format from the frequency spectrum to the object.

특성 관계 설정부(260)는 특성 추출부(240)로부터 추출된 특성에 의미 정보를 부여하여 특성에 대한 관계 정보를 설정할 수 있다. 예를 들어, 특성 관계 설정부(260)는 발생 빈도수가 많은 단어에 어휘 사전을 이용하여 개체명을 태깅(tagging)함으로써 의미 정보를 부여할 수 있다. 나아가 특성 관계 설정부(260)는 특성에 적어도 둘 이상의 의미 정보 사이의 연관 관계를 분석하여 새로이 설정 또는 생성된 의미 정보를 특성에 부여할 수 있다. 예를 들어, 특성 관계 설정부(260)는 텍스트에 포함된 단어가 핸드폰 및 가전제품 등일 때, 이들 특성에 전자제품이라는 의미 정보를 부여할 수 있다. 이때, 특성 관계 설정부(260)는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된 내부 지식 데이터를 활용하여 상기의 분석을 수행할 수 있다. The characteristic relation setting unit 260 may set the relationship information on the characteristic by giving semantic information to the characteristic extracted from the characteristic extracting unit 240. [ For example, the characteristic relation setting unit 260 may assign semantic information to a word having a high frequency of occurrence by tagging an object name using a vocabulary dictionary. Further, the characteristic-relation setting unit 260 may analyze the association between at least two pieces of semantic information in the characteristic, and assign the newly set or generated semantic information to the characteristic. For example, when the words included in the text are mobile phones and household appliances, the characteristic relation setting unit 260 may assign semantic information such as an electronic product to these characteristics. At this time, the characteristic relation setting unit 260 can perform the above analysis using the internal knowledge data stored in the knowledge data storage unit 420 of the data storage unit 400. [

이와 같이 생성된 특성 정보는 지식 데이터 관리부(500)로 전송된다. 지식 데이터 관리부(500)는 데이터 인터페이스부(100)로부터 수신되는 지식 데이터에 기초하여, 특성 정보 생성부(200)로부터 수신되는 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증한다. 이를 위해, 지식 데이터 관리부(500)는 지식 데이터 변환부(미도시) 및 변환 검증부(미도시)를 포함할 수 있다. The characteristic information thus generated is transmitted to the knowledge data management unit 500. The knowledge data management unit 500 converts the characteristic information received from the characteristic information generation unit 200 into internal knowledge data based on the knowledge data received from the data interface unit 100, The verification method is used. To this end, the knowledge data management unit 500 may include a knowledge data conversion unit (not shown) and a conversion verification unit (not shown).

지식 데이터 변환부는 특성 정보를 시맨틱 기술(semantic technology)을 이용하여 정형 데이터로 변환할 수 있다. 시맨틱 기술은 사람이 화면을 읽고 의미를 이해하는 것처럼 컴퓨터가 이해할 수 있는 언어와 규칙들을 정해 놓아 컴퓨터 사이의 의사소통을 가능하게 하는 지능형 기술을 의미한다. 시맨틱 기술에서는 해당 환경에 속하는 객체들 간의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 것을 목표로 하고 있다. 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 도메인을 표현하는 데이터 모델로서 특정한 도메인(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형 데이터로 정의된다. 온톨로지는 시맨틱 기술을 구현할 수 있는 도구로써, 데이터를 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.The knowledge data conversion unit may convert the characteristic information into the formal data using a semantic technology. Semantic technology is an intelligent technology that enables communication between computers by defining the language and rules that a computer understands, such as a person reading the screen and understanding the meaning. Semantic technology aims to express the relationship - semanteme between the objects belonging to the environment in the form of ontology that can be processed by a machine, that can be processed by a computer, and to be processed by an automated machine. An ontology is a model that abstracts and shares what people think about things, and is a formalized and explicitly defined type of concept or constraint of use. In computer science, an ontology is a data model that represents a particular domain and is defined as a formal data describing the relationship between concepts and concepts belonging to a particular domain. Ontology is a tool to implement semantic technology. It is used as a tool to connect data semantically. It can process the concept of a human being in a computer in the form of a database.

이러한 시맨틱 기술 분야에서는 관계를 표현하기 위한 수단으로서 트리플(triple)이라는 표현 형태를 사용한다. 트리플이란, 주어(subject), 술어(predicate), 객체(object)의 형태로 개념을 표현하는 것을 말한다. 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있으며, 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.In the field of semantic technology, the expression form of a triple is used as means for expressing a relationship. A triple is a representation of a concept in the form of a subject, a predicate, or an object. Each subject, predicate, and object can be represented by a URI (Uniform Resource Identifier) of XML. Currently, RDF, OWL proposed by W3C and TopicMaps proposed by ISO are standard languages that describe semantic web ontology at present.

지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 특성 정보에 포함되는 주어, 술어 및 객체의 관계를 형성하여 내부 지식 데이터를 형성하거나 추가적인 객체 등을 연결함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 사람 A, 사람 B 및 결혼이라는 특성 정보를 "A는 B와 결혼했다"와 같은 변환할 수 있는데, 위키피디아의 A와 B의 결혼식에 관한 지식 데이터를 활용하여 "A와 B는 2013년 8월 10일 하얏트 호텔에서 결혼했다"와 같은 내부 지식 데이터로 변환할 수 있다. 상기 예는 예시를 위한 것이므로 전술된 데이터와 지식 등의 구분에 따른 지식 데이터와 무관할 수 있다. The knowledge data conversion unit may use the external knowledge data in converting the characteristic information into the internal knowledge data in the triple form. For example, the knowledge data conversion unit may use the external knowledge data in forming the internal knowledge data or connecting the additional objects, etc. by forming the relationship between subject, predicate, and object included in the characteristic information. For example, the knowledge data conversion unit can convert characteristics information of person A, person B, and marriage to "A married to B", using knowledge data about weddings of Wikipedia A and B, And B were married at a Hyatt hotel on August 10, 2013 ". Since the above example is for illustrative purposes, it may be independent of the knowledge data classified according to the data and knowledge described above.

지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 특성 정보(또는 특성) 또는 외부 지식 데이터에 가중치를 부여할 수 있다. 예를 들어, 임의의 텍스트에 포함된 가구 및 가전제품 등의 특성에 대해 집이라는 의미 정보를 부여한 특성 정보에 대해, 해당 텍스트에 포함된 다른 특성들을 고려하여 가구보다 가전제품에 대한 가중치를 가구보다 높이 하여, 신혼과 관련된 내부 지식 데이터로 생성할 수 있다. 또는, 지식 데이터 변환부는 사람 A, 사람 C, 연애 및 A는 미혼이라는 외부 지식 데이터보다, 사람 A, 사람 B 및 결혼이라는 특성 정보에 가중치를 더 부여하여, A는 미혼이라는 외부 지식 데이터와 모순되는 특성 정보에 근거하여 A는 기혼이라는 내부 지식 데이터를 생성할 수 있다. 이때, 지식 데이터 변환부는 A는 기혼여부에 대해 일단 미확인 등과 같은 보류된 내부 지식 데이터를 생성한 후, 추후 누적되는 특성 정보 또는 외부 지식 데이터에 근거하여 A는 기혼여부에 대한 최종적인 내부 지식 데이터를 생성할 수 있다. In converting the characteristic information into the triple-type internal knowledge data, the knowledge data conversion unit may assign weight to the characteristic information (or characteristic) or the external knowledge data. For example, for property information that gives semantic information of home about the characteristics of furniture and household appliances included in arbitrary text, we consider the weight of household appliances to be higher than that of furniture And can be generated as internal knowledge data related to the newlyweds. Alternatively, the knowledge data conversion section may further assign a weight to characteristic information of the person A, the person B, and the marriage, rather than the external knowledge data that the person A, the person C, the love and the A are unmarried, Based on the characteristic information, A can generate internal knowledge data of married. At this time, the knowledge data conversion unit A generates the pending internal knowledge data such as unconfirmed whether married or not, and then, based on the accumulated characteristic information or the external knowledge data, A calculates the final internal knowledge data on married status Can be generated.

변환 검증부는 지식 데이터 변환부로부터 생성된 내부 지식 데이터(임시의 내부 지식 데이터)는 이종의 검증 방법으로 검증하여, 검증된 내부 지식 데이터로 처리할 수 있다. 변환 검증부에 의해 검증된 내부 지식 데이터는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된다.The conversion verification unit can verify the internal knowledge data (temporary internal knowledge data) generated from the knowledge data conversion unit using a different verification method and process it as the verified internal knowledge data. The internal knowledge data verified by the conversion verification unit is stored in the knowledge data storage unit 420 of the data storage unit 400.

도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부(240)의 구현예를 나타내는 블록도이다. 또한, 도 3 내지 도 5는 도 1의 특성 추출부(240)의 동작을 설명하기 위한 도면들이다. 구체적으로, 도 3은 패턴의 예시를 나타내는 도면이고, 도 4는 규칙의 예시를 나타내는 도면이고, 도 5는 규칙을 실행함으로써 비정형 데이터로부터 생성된 특성을 나타내는 도면이다.2 is a block diagram showing an embodiment of the characteristic extracting unit 240 of FIG. 1 according to an exemplary embodiment of the present invention. 3 to 5 are views for explaining the operation of the characteristic extracting unit 240 of FIG. Specifically, FIG. 3 is a diagram showing an example of a pattern, FIG. 4 is a diagram showing an example of a rule, and FIG. 5 is a diagram showing characteristics generated from unstructured data by executing a rule.

전술한 바와 같이, 특성 추출부(240)는 비정형 데이터의 특성을 추출할 수 있다. 도 2에 도시된 바와 같이, 특성 추출부(240)는 패턴 제공부(242), 규칙 제공부(244) 및 규칙 실행 엔진(246)을 포함할 수 있다. 또한, 도 2에 도시된 바와 같이, 데이터 저장부(400)는 지식 데이터 저장부(420)뿐만 아니라 패턴 저장부(440) 및 규칙 저장부(460)를 더 포함할 수 있다. 이하에서, 데이터 인터페이스부(100)로부터 수신된 비정형 데이터는 텍스트 기반 문서인 실시예가 설명되나 이는 예시일 뿐이며, 전술한 바와 같이 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템은 다양한 종류의 비정형 데이터에 적용될 수 있음은 이해될 것이다.As described above, the characteristic extracting unit 240 can extract the characteristics of the irregular data. 2, the characteristic extracting unit 240 may include a pattern providing unit 242, a rule providing unit 244, and a rule execution engine 246. [ 2, the data storage unit 400 may further include a pattern storage unit 440 and a rule storage unit 460 as well as a knowledge data storage unit 420. Hereinafter, an unstructured data processing system according to an exemplary embodiment of the present invention, as described above, may be applied to various types of atypical data processing systems, It will be understood that the present invention can be applied to data.

본 발명의 예시적 실시예에 따라, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공할 수 있다. 패턴은 비정형 데이터에 포함된 정보 영역을 추출하는데 사용되는 기준(reference)으로서 기능할 수 있고, 정보 영역은 비정형 데이터에서 유용한 정보를 포함하는 영역을 지칭할 수 있다. 예를 들면, 비정형 데이터의 일종인 HTML 문서에서 정보 영역은 텍스트 영역일 수 있다. 정보 영역은 비정형 데이터에 패턴에 따라 비정형 데이터로부터 추출될 수 있다. 비정형 데이터로부터 정보 영역을 추출하기 위하여 사용되는 패턴은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 패턴 저장부(440)에 저장된 복수개의 패턴들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, pattern providing 242 may provide a pattern corresponding to unstructured data based on the format of the unstructured data. The pattern may function as a reference used to extract the information area included in the unstructured data, and the information area may refer to an area containing useful information in the unstructured data. For example, in an HTML document which is a kind of unstructured data, the information area may be a text area. The information region can be extracted from the unstructured data according to the pattern in the unstructured data. The pattern used to extract the information area from the irregular data may be defined by the user through the user interface unit 300 or may be selected from a plurality of patterns stored in the pattern storage unit 440 of the data storage unit 400 It is possible.

도 3을 참조하면, 비정형 데이터의 일종으로서 소셜 네트워크의 HTML 문서에서 패턴은 텍스트 영역을 추출하는데 사용될 수 있다. 도 3의 좌측에 도시된 바와 같이, 소셜 네트워크의 HTML 문서는 서로 분리된 복수개의 텍스트 영역들을 포함할 수 있고, 패턴은 총 7개의 텍스트 영역들을 클래스(class)에 포함된 키워드로서 분류할 수 있다. 도 3의 우측에 도시된 바와 같이, 패턴을 사용하여 소셜 네트워크의 HTML 문서로부터 추출된 정보 영역들, 즉 텍스트 영역들은 각각 텍스트를 포함할 수 있다. 이와 같이, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공함으로써 비정형 데이터로부터 정보 영역을 추출할 수 있다. 패턴 제공부(242)의 동작에 대한 자세한 설명은 도 6에서 후술한다.Referring to FIG. 3, as a kind of unstructured data, a pattern in an HTML document of a social network can be used to extract a text region. As shown in the left side of FIG. 3, the HTML document of the social network may include a plurality of text regions separated from each other, and the pattern may classify a total of seven text regions as keywords included in a class . As shown on the right side of FIG. 3, the information areas, i.e., text areas, extracted from the HTML document of the social network using the pattern may each contain text. As described above, the pattern providing unit 242 can extract the information area from the unstructured data by providing a pattern corresponding to the unstructured data based on the format of the unstructured data. A detailed description of the operation of the pattern providing unit 242 will be described later with reference to FIG.

한편, 본 발명의 예시적 실시예에 따라 비정형 데이터가 음성이나 동영상 기반 데이터인 경우, 특정 기준치와 관련된 데이터를 비정형 데이터로부터 정보 영역으로서 추출할 수 있고, 패턴은 이러한 기준치를 결정할 수 있다. 예를 들면, 음성 기반 데이터의 경우, 특정 db 이상의 소리 또는 특정 주파수를 포함하는 소리를 추출하도록 패턴이 사용될 수 있다.Meanwhile, according to an exemplary embodiment of the present invention, when the unstructured data is audio or video based data, data associated with a specific reference value can be extracted as an information region from unstructured data, and the pattern can determine the reference value. For example, in the case of speech-based data, the pattern may be used to extract sound above a certain db or sound containing a certain frequency.

본 발명의 예시적 실시예에 따라, 규칙 제공부(244)는 패턴 제공부(242)에 의해 제공된 패턴에 적어도 하나의 항목을 대응시키고, 항목 및 패턴의 대응관계를 포함하는 규칙을 제공할 수 있다. 즉, 규칙은 적어도 하나의 항목을 포함할 수 있고, 항목은 패턴 제공부(242)에 의해 제공된 패턴에 대응될 수 있다. 또한, 규칙은 패턴에 의해 추출된 정보 영역으로부터 필요한 데이터만을 추출하는 방식을 각 정보 영역마다 결정할 수 있다. 규칙은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 규칙 저장부(460)에 저장된 복수개의 규칙들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, the rule providing unit 244 may correspond to at least one item in the pattern provided by the pattern providing unit 242, and may provide a rule including a correspondence relationship of items and patterns have. That is, the rule may include at least one item, and the item may correspond to the pattern provided by the pattern providing unit 242. Also, the rule can determine a method of extracting only necessary data from the information area extracted by the pattern for each information area. The rules may be defined by the user through the user interface unit 300 or may be selected from a plurality of rules stored in the rule storage unit 460 of the data storage unit 400. [

도 4에 도시된 예시에서, 규칙은 복수개의 항목들을 도 3의 패턴에 대응시킬 수 있다. 즉, 도 4의 좌측 컬럼에 도시된 바와 같이, 규칙은 'fullname', 'username', 'time', 'tweet-text', 'reply', 'retweet', favorite'와 같이 총 7개의 항목들을 포함할 수 있고, 각각의 항목들은 항목을 키워드로서 포함하는 도 3의 정보 영역(또는 텍스트 영역)에 대응될 수 있다. 또한, 규칙은 정보 영역에 포함된 데이터 중에서 필요한 데이터만을 추출할 수 있도록, 도 4의 우측 컬럼에 도시된 바와 같이, 정보 영역의 데이터를 처리하는 방식을 결정할 수 있다. 예를 들면, 규칙은 'fullname' 항목에 대응하는 데이터는 텍스트 영역에 포함된 텍스트 전체를 추출하는 것으로 결정하는 반면, 'retweet' 항목에 대응하는 데이터는 숫자만을 추출하는 것으로 결정할 수 있다.In the example shown in Fig. 4, the rule may map a plurality of items to the pattern of Fig. That is, as shown in the left column of FIG. 4, the rule includes seven items such as 'fullname', 'username', 'time', 'tweet-text', 'reply', 'retweet' , And each item may correspond to the information area (or text area) of Fig. 3 including the item as a keyword. In addition, the rule can determine the method of processing data of the information area, as shown in the right column of Fig. 4, so that only necessary data can be extracted from the data included in the information area. For example, the rule may determine that the data corresponding to the 'fullname' item is to extract the entire text contained in the text area, while the data corresponding to the 'retweet' item may be determined to extract only the numbers.

본 발명의 예시적 실시예에 따라, 규칙 실행 엔진(246)은 규칙을 비정형 데이터에 적용함으로써 비정형 데이터의 특성을 생성할 수 있다. 즉, 도 5에 도시된 바와 같이, 규칙 실행 엔진(246)은 도 4의 규칙을 실행함으로써 각각의 항목에 값 (즉, 정보 영역에 포함된 데이터를 처리한 결과)을 대응시킴으로써 특성을 생성할 수 있다. 도 5에 도시된 예시에서, 소셜 네트워크의 HTML 문서의 특성은 7개의 항목들 및 항목들에 대응하는 값을 포함할 수 있다. 도 1에서 설명한 바와 같이, 규칙 실행 엔진(246)이 생성한 비정형 데이터의 특성은 특성 관계 설정부(260)에 의해 특성 정보를 생성하는데 사용될 수 있고, 특성 정보는 지식 데이터 관리부(500)에 의해 지식 데이터로 변환될 수 있다.In accordance with an exemplary embodiment of the present invention, the rule enforcement engine 246 may generate properties of unstructured data by applying rules to unstructured data. That is, as shown in FIG. 5, the rule execution engine 246 generates the characteristic by associating each item with a value (i.e., a result of processing the data included in the information area) by executing the rule of FIG. . In the example shown in Fig. 5, the characteristics of the HTML document of the social network may include seven items and values corresponding to the items. 1, the characteristics of the irregular data generated by the rule execution engine 246 may be used by the property relationship setting unit 260 to generate property information, and the property information may be used by the knowledge data management unit 500 Knowledge data.

이와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)은 비정형 데이터는 비정형 데이터의 형식에 기초하여 비정형 데이터에서 유용한 정보 영역을 정의하는 패턴 및 정보 영역의 데이터를 처리하고 정보 영역의 데이터에 기초하여 정보 영역을 항목에 대응시키는 규칙을 사용하여 비정형 데이터로부터 특성을 추출할 수 있다. 이에 따라, 비정형 데이터는 효과적으로 분석될 수 있고, 지식 데이터를 생성하기 위한 비정형 데이터의 특성이 효과적으로 추출될 수 있다.As described above, the atypical data processing system 10 according to the exemplary embodiment of the present invention processes the data of the pattern and information area defining the useful information area in the unstructured data based on the format of the unstructured data, It is possible to extract the characteristic from the unstructured data using the rule that associates the information area with the item based on the data of the unregulated data. Thus, the atypical data can be analyzed effectively, and the characteristics of the atypical data for generating the knowledge data can be extracted effectively.

도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부(242)의 구현예를 나타내는 블록도이다. 도 6에 도시된 바와 같이, 패턴 제공부(242)는 패턴 추천부(242_2), 패턴 정의부(242_4) 및 패턴 실행 엔진(242_6)을 포함할 수 있다.Figure 6 is a block diagram illustrating an embodiment of pattern remover 242 of Figure 2, in accordance with an exemplary embodiment of the present invention. 6, the pattern providing unit 242 may include a pattern recommending unit 242_2, a pattern defining unit 242_4, and a pattern execution engine 242_6.

패턴 추천부(242_2)는 비정형 데이터에 적합하다고 판단되는 추천 패턴을 제공할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 비정형 데이터를 수신할 수 있고, 패턴 저장부(420)에 엑세스할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터의 형식에 기초하여 패턴 저장부(440)에 저장된 복수개의 패턴들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다. The pattern recommendation unit 242_2 can provide a recommendation pattern judged to be suitable for the irregular data. The pattern recommendation unit 242_2 can receive the atypical data from the data interface unit 100 and access the pattern storage unit 420. [ The pattern recommendation unit 242_2 may select at least one of a plurality of patterns stored in the pattern storage unit 440 based on the format of the unstructured data received from the data interface unit 100, It can be provided to the pattern defining section 242_4 as a pattern.

본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수 있다. 예를 들면, 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터가 HTML 문서이고, HTML 문서의 출처, 예컨대 도메인 정보를 분석할 수 있다. 도메인 정보가 소셜 네트워크를 제공하는 서비스에 대응하는 경우, 패턴 저장부(420)에 저장된 복수개의 패턴들 중 도 3에 도시된 패턴을 선택할 수 있고, 선택한 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다.According to the exemplary embodiment of the present invention, the pattern recommending section 242_2 can select a recommendation pattern based on the type and / or source of the unstructured data. For example, the pattern recommendation unit 242_2 can analyze the source of the HTML document, for example, domain information, because the unstructured data received from the data interface unit 100 is an HTML document. When the domain information corresponds to the service providing the social network, the pattern shown in FIG. 3 among the plurality of patterns stored in the pattern storage unit 420 can be selected, and the selected pattern is used as the recommendation pattern in the pattern definition unit 242_4. As shown in FIG.

패턴 정의부(242_4)는 비정형 데이터에 적용될 패턴을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신되는 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 결정할 수 있다. 예를 들면, 패턴 정의부(242_4)는 비정형 데이터의 형식을 분석함으로써 비정형 데이터에 포함된 적어도 하나의 정보 영역을 식별할 수 있다. 예를 들면, 패턴 정의부(242_4)는 HTML 문서에서 복수개의 텍스트 영역들을 식별할 수 있다. 패턴 정의부(242_4)는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 따른 복수개의 정보 영역들 중 일부를 입력 신호에 기초하여 제외시킬 수도 있고, 추가적인 정보 영역을 추천 패턴에 설정할 수도 있다. 예를 들면, 패턴 정의부(242_4)는 사용자의 입력 신호에 기초하여 비정형 데이터에 포함된 불필요한 정보 영역, 예컨대 광고 정보를 포함하는 정보 영역이 추출되지 않도록 패턴을 정의할 수 있다. 이에 따라, 새로운 패턴이 정의될 수 있고, 패턴 정의부(242_4)는 새로운 패턴을 패턴 저장부(420)에 저장할 수 있다.The pattern definition unit 242_4 can determine a pattern to be applied to the irregular data. That is, the pattern corresponding to the atypical data can be determined based on the input signal received from the user through the user interface unit 300 and / or the recommendation pattern received from the pattern recommendation unit 242_2. For example, the pattern defining unit 242_4 can identify at least one information region included in the atypical data by analyzing the format of the atypical data. For example, the pattern definition unit 242_4 can identify a plurality of text areas in an HTML document. The pattern defining section 242_4 may exclude some of the plurality of information areas according to the recommendation pattern received from the pattern recommending section 242_2 based on the input signal or may set an additional information area in the recommendation pattern. For example, the pattern defining section 242_4 can define a pattern such that an unnecessary information region included in the atypical data, for example, an information region including advertisement information, is not extracted based on the input signal of the user. Accordingly, a new pattern can be defined, and the pattern definition unit 242_4 can store a new pattern in the pattern storage unit 420. [

패턴 정의부(242_4)는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다. 예를 들면, 검색 엔진이 도출한 복수개의 검색 결과들 또는 소셜 네트워크에서 사용자들의 답글들은 하나의 비정형 데이터에서 복수로서 존재할 수 있고, 서로 동일한 형식을 가질 수 있다. 패턴 정의부(242_4)는 이러한 동일한 형식을 가지는 정보 영역들을 그룹화 또는 계층화 할 수 있다.The pattern definition unit 242_4 may group a plurality of information areas having the same format. For example, a plurality of search results derived by a search engine or users' replies in a social network may exist as a plurality in one unstructured data, and may have the same format as each other. The pattern definition unit 242_4 can group or layer the information areas having this same format.

패턴 실행 엔진(242_6)은 비정형 데이터에 패턴을 적용한 결과를 생성할 수 있다. 즉, 패턴 실행 엔진(242_6)은 패턴 정의부(242_4)에서 정의된 패턴에 기초하여 비정형 데이터로부터 정보 영역의 데이터를 추출할 수 있다. 패턴 실행 엔진(242_6)은 추출된 데이터를 사용자 인터페이스부(300)를 통해서 사용자에게 제공할 수 있고, 제공된 데이터에 대하여 사용자가 사용자 인터페이스부(300)를 통해서 피드백한 입력 신호는 패턴 정의부(242_4)가 정의하는 패턴에 반영될 수 있다. 이에 따라, 사용자는 비정형 데이터에 패턴이 적용된 결과를 확인하면서 패턴을 설정할 수 있다. 뿐만 아니라, 패턴 실행 엔진(242_6)에서 추출된 데이터는 규칙 제공부(244)에 제공될 수 있다.The pattern execution engine 242_6 can generate the result of applying the pattern to the irregular data. That is, the pattern execution engine 242_6 can extract the data of the information area from the irregular data based on the pattern defined by the pattern defining part 242_4. The pattern execution engine 242_6 can provide the extracted data to the user through the user interface unit 300. The input signal fed back by the user through the user interface unit 300 to the provided data is supplied to the pattern definition unit 242_4 ) May be reflected in the pattern defined by the user. Accordingly, the user can set the pattern while confirming the result of applying the pattern to the atypical data. In addition, data extracted from the pattern execution engine 242_6 may be provided to the rule providing unit 244. [

도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부(244)의 구현예를 나타내는 블록도이다. 도 7에 도시된 바와 같이, 규칙 제공부(244)는 규칙 추천부(244_2) 및 규칙 정의부(244_4)를 포함할 수 있다. FIG. 7 is a block diagram illustrating an embodiment of the rule providing unit 244 of FIG. 2, according to an exemplary embodiment of the present invention. As shown in FIG. 7, the rule providing unit 244 may include a rule recommending unit 244_2 and a rule defining unit 244_4.

규칙 추천부(244_2)는 비정형 데이터에 적합하다고 판단되는 추천 규칙을 제공할 수 있다. 규칙 추천부(244_2)는 패턴 제공부(242)의 패턴 실행 엔진(242_6)으로부터 패턴 및 추출된 데이터를 수신할 수 있고, 규칙 저장부(460)에 엑세스할 수 있다. 규칙 추천부(244_2)는 패턴 및 추출된 데이터에 기초하여 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 규칙을 추천 규칙으로서 규칙 정의부(244_4)에 제공할 수 있다. 예를 들면, 도 3 및 도 4에 도시된 바와 같이, 규칙 추천부(244_2)는 클래스에 포함된 키워드에 기초하여 유추된 각 정보 영역의 특징 또는 복수개의 키워드들의 조합에 기초하여, 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 즉, 규칙 추천부(244_2)는 도 3에 도시된 7개의 키워드 조합에 기초하여 비정형 데이터는 소셜 네트워크의 HTML 문서인 것으로 판단할 수 있고, 이에 따라 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수도 있다.The rule recommendation unit 244_2 may provide a recommendation rule judged to be suitable for the unstructured data. The rule recommendation unit 244_2 can receive the pattern and extracted data from the pattern execution engine 242_6 of the pattern providing unit 242 and can access the rule storage unit 460. [ The rule recommendation unit 244_2 may select at least one of a plurality of rules stored in the rule storage unit 460 based on the pattern and the extracted data, and the at least one rule selected as the recommendation rule is defined as the rule definition unit 244_4. As shown in FIG. For example, as shown in FIGS. 3 and 4, the rule recommendation unit 244_2 may classify the rules stored in the rule storage unit 244_2, based on the characteristics of each information region or a combination of a plurality of keywords, At least one of the plurality of rules stored in the memory 460 may be selected. That is, the rule recommending unit 244_2 can determine that the unstructured data is the HTML document of the social network based on the seven keyword combinations shown in FIG. 3, and accordingly, the plurality of rules stored in the rule storage unit 460 Can be selected. According to the exemplary embodiment of the present invention, the pattern recommendation section 242_2 may select a recommendation pattern based on the type and / or source of the unstructured data.

규칙 정의부(244_4)는 비정형 데이터에 적용될 규칙을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신되는 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 결정할 수 있다. 예를 들면, 규칙 정의부(244_4)는 비정형 데이터로부터 추출된 정보 영역에 포함된 정보를 분석함으로써(예컨대, 도 3에서 클래스에 포함된 키워드를 분석하거나, 텍스트의 형식이 날짜를 나타내는지 여부 또는 개수를 나타내는지 여부를 분석함으로써) 정보 영역에 대응하는 항목을 식별할 수 있고, 정보 영역을 항목에 대응시킬 수 있다.The rule definition unit 244_4 can determine a rule to be applied to the irregular data. That is, the rule corresponding to the unstructured data can be determined based on the input signal received from the user through the user interface unit 300 and / or the recommendation rule received from the rule recommendation unit 244_2. For example, the rule defining unit 244_4 may analyze the information contained in the information area extracted from the unstructured data (for example, by analyzing the keyword included in the class in FIG. 3, or determining whether the format of the text indicates the date, It is possible to identify the item corresponding to the information area, and to associate the information area with the item).

본 발명의 예시적 실시예에 따라, 규칙 정의부(244_4)는 복수개의 후보 항목들을 저장할 수 있고, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호에 기초하여 후보 항목들을 갱신할 수 있고, 정보 영역을 후보 항목들 중 하나에 대응시킬수 있다. 예를 들면, 도 4의 예시에서 "10월 31일"은 "time" 항목에 대응되었으나, 규칙 정의부(244_4)에 저장된 후보 항목들 중 "date"가 있는 경우 규칙 정의부(244_4)는 비정형 데이터에서 클래스에 "time"을 포함하는 텍스트 영역을 "date" 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining unit 244_4 may store a plurality of candidate items, update the candidate items based on the input signal received from the user through the user interface unit 300 , The information area can be mapped to one of the candidate items. For example, in the example of FIG. 4, "October 31" corresponds to the "time" item, but if there is "date" among the candidate items stored in the rule definition unit 244_4, In the data, a text area containing "time" in the class can be mapped to the "date" item.

이와 같이, 비정형 데이터 처리 시스템(10)은 복수개의 패턴들 및 복수개의 규칙들을 저장하고, 비정형 데이터에 적합하다고 판단한 추천 패턴 및 추천 규칙을 제공할 수 있다. 또한, 사용자로부터 패턴 및 규칙을 정의하는 인터페이스를 제공함으로써 비정형 데이터에 적합한 패턴 및 규칙을 정의할 수 있고, 결과적으로 비정형 데이터로부터 특성을 효과적으로 추출할 수 있다.As described above, the atypical data processing system 10 may store a plurality of patterns and a plurality of rules, and may provide a recommendation pattern and a recommendation rule determined to be suitable for the unstructured data. In addition, by providing an interface for defining patterns and rules from the user, it is possible to define patterns and rules suitable for the unstructured data, and as a result, the characteristics can be effectively extracted from the unstructured data.

도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)을 개략적으로 나타내는 순서도이다. 도 8에 도시된 바와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)은 비정형 데이터를 수신하는 단계(S10)를 포함할 수 있다. 도 1을 참조하면, 데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터를 수신할 수 있다.8 is a flowchart schematically showing a method 20 for processing unstructured data according to an exemplary embodiment of the present invention. As shown in FIG. 8, the atypical data processing method 20 according to the exemplary embodiment of the present invention may include receiving (S10) unstructured data. Referring to FIG. 1, the data interface unit 100 may receive unstructured data from a data pool.

비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 패턴에 기초하여 패턴을 정의하는 단계(S20)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S30)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 정의된 패턴을 패턴 저장부(440)에 저장할 수 있고, 패턴 실행 엔진(242_6)은 정의된 패턴을 실행함으로써 정보 영역을 추추할 수 있다.The atypical data processing method 20 may include defining a pattern based on the input signal and / or a recommendation pattern (S20). Referring to FIG. 6, the pattern definition unit 242_4 may generate a pattern corresponding to irregular data based on an input signal received from a user through the user interface unit 300 and / or a recommendation pattern received from the pattern recommendation unit 242_2. Can be defined. Next, the atypical data processing method 20 may include storing and executing the defined pattern (S30). Referring to FIG. 6, the pattern definition unit 242_4 may store the defined pattern in the pattern storage unit 440, and the pattern execution engine 242_6 may extract the information region by executing the defined pattern.

비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 규칙에 기초하여 규칙을 정의하는 단계(S40)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신된 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S50)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 정의된 규칙을 규칙 저장부(460)에 저장할 수 있고, 규칙 실행 엔진(246)은 정의된 규칙을 실행함으로써 비정형 데이터의 특성을 추출할 수 있다.The atypical data processing method 20 may include defining a rule based on the input signal and / or the recommendation rule (S40). Referring to FIG. 7, the rule defining unit 244_4 may generate a rule corresponding to the unstructured data based on the input signal received from the user through the user interface unit 300 and / or the recommendation rule received from the rule recommending unit 244_2 Can be defined. Next, the atypical data processing method 20 may include storing and executing the defined pattern (S50). Referring to FIG. 7, the rule defining unit 244_4 may store the defined rule in the rule storing unit 460, and the rule executing engine 246 may extract the characteristic of the unstructured data by executing the defined rule .

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, exemplary embodiments have been disclosed in the drawings and specification. While the embodiments have been described herein with reference to specific terms, it should be understood that they have been used only for purposes of describing the technical idea of the invention and not for limiting the scope of the invention as defined in the claims . Therefore, those skilled in the art will appreciate that various modifications and equivalent embodiments are possible without departing from the scope of the present invention. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.

10: 비정형 데이터 처리 시스템 20: 비정형 데이터 처리 방법
100: 데이터 인터페이스부 200: 특성 정보 생성부
220: 특성 추출 관리부 240: 특성 추출부
242: 패턴 제공부 242_2: 패턴 추천부
242_4: 패턴 정의부 242_6: 패턴 실행 엔진
244: 규칙 제공부 244_2: 규칙 추천부
244_4: 규칙 정의부 246: 규칙 실행 엔진
260: 특성 관계 설정부 300: 사용자 인터페이스부
400: 데이터 저장부 420: 지식 데이터 저장부
440: 패턴 저장부 460: 규칙 저장부
500: 지식 데이터 관리부
10: atypical data processing system 20: atypical data processing method
100: data interface unit 200: characteristic information generating unit
220: characteristic extraction management section 240: characteristic extraction section
242: pattern providing part 242_2: pattern recommending part
242_4: Pattern definition section 242_6: Pattern execution engine
244: Rule providing unit 244_2: Rule recommending unit
244_4: Rule definition section 246: Rule execution engine
260: characteristic relation setting unit 300: user interface unit
400: data storage unit 420: knowledge data storage unit
440: pattern storage unit 460: rule storage unit
500: Knowledge data management unit

Claims (12)

외부로부터 비정형 데이터를 수신하는 데이터 인터페이스부; 및
상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 의미 정보를 부여하여 상기 의미 정보와 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함하고,
상기 특성 추출부는,
상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부;
적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부; 및
상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
A data interface unit for receiving atypical data from outside; And
A characteristic extracting unit for extracting the characteristics of the atypical data and a characteristic information generating unit for generating characteristic information by assigning semantic information to the characteristic and setting relation information about the characteristic and the characteristic, ,
Wherein the characteristic extracting unit comprises:
A pattern providing unit for providing a pattern of the atypical data based on the format of the atypical data;
A rule providing unit for associating at least one item with the pattern and providing a rule including a correspondence relationship of the item and the pattern; And
And a rule execution engine that generates the property by applying the rule to the atypical data.
제1항에 있어서,
상기 비정형 데이터 처리 시스템은,
복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부; 및
사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함하고,
상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장하고,
상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
The method according to claim 1,
Wherein the atypical data processing system comprises:
A data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules; And
Further comprising a user interface unit for receiving an input signal from a user and providing an output signal to the user,
Wherein the pattern providing unit generates a pattern based on the input signal and stores the pattern in the pattern storing unit,
Wherein the rule providing unit generates a rule based on the input signal and stores the generated rule in the rule storing unit.
제2항에 있어서,
상기 패턴 제공부는,
상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부;
상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부; 및
상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
3. The method of claim 2,
Wherein the pattern providing unit comprises:
A pattern recommending unit for providing at least one recommended pattern among a plurality of patterns stored in the pattern storage unit based on the format of the atypical data;
A pattern defining unit that determines a pattern corresponding to the irregular data based on the input signal and / or the recommendation pattern; And
And a pattern execution engine for extracting data included in the information area from the irregular data based on the pattern defined by the pattern defining section.
제3항에 있어서,
상기 패턴 추천부는 상기 비정형 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
The method of claim 3,
Wherein the pattern recommendation unit selects the recommendation pattern based on the kind or origin of the atypical data.
제3항에 있어서,
상기 패턴 정의부는, 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별하고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.
The method of claim 3,
Wherein the pattern definition section identifies at least one information area by analyzing the format of the atypical data and sets or excludes the information area from the pattern based on the input signal and / An unstructured data processing system.
제5항에 있어서,
상기 패턴 정의부는, 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
6. The method of claim 5,
Wherein the pattern definition unit groups the plurality of information areas having the same format.
제2항에 있어서,
상기 규칙 제공부는,
상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부; 및
상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
3. The method of claim 2,
The rule-
A rule recommendation unit for providing at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the irregular data according to the pattern; And
And a rule defining unit that defines rules corresponding to the irregular data based on the input signal and / or the recommendation rule.
제7항에 있어서,
상기 규칙 추천부는 상기 비정형 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
8. The method of claim 7,
Wherein the rule recommendation unit selects the recommendation rule based further on the type or source of the unstructured data.
제7항에 있어서,
상기 규칙 정의부는, 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별하고, 상기 정보 영역을 상기 항목에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.
8. The method of claim 7,
Wherein the rule defining unit identifies an item corresponding to the information area by analyzing the extracted data, and associates the information area with the item.
제7항에 있어서,
상기 규칙 정의부는 복수개의 후보 항목들을 저장하고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신하고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.
8. The method of claim 7,
Wherein the rule defining unit stores a plurality of candidate items, updates the candidate items based on the input signal, and maps the information region to one of the candidate items.
제2항에 있어서,
상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함하고,
상기 비정형 데이터 처리 시스템은, 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
3. The method of claim 2,
Wherein the data storage unit further comprises a knowledge data storage unit for storing knowledge data,
The atypical data processing system further includes a knowledge data management unit that converts the characteristic information into knowledge data based on external knowledge data received from the interface and knowledge data stored in the knowledge data storage unit and verifies the converted knowledge data And an unstructured data processing system.
제1항에 있어서,
상기 특성 정보 생성부는, 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함하고,
상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석하는 것을 특징으로 하는 비정형 데이터 처리 시스템.
The method according to claim 1,
Wherein the characteristic information generation unit further includes a characteristic extraction management unit for classifying the atypical data according to a data type and generating a control signal to change an extraction method according to a corresponding data type,
Wherein the pattern providing unit analyzes the format of the atypical data based on the control signal.
KR1020150007975A 2015-01-16 2015-01-16 System and method for processing informal data KR101637504B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150007975A KR101637504B1 (en) 2015-01-16 2015-01-16 System and method for processing informal data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150007975A KR101637504B1 (en) 2015-01-16 2015-01-16 System and method for processing informal data

Publications (1)

Publication Number Publication Date
KR101637504B1 true KR101637504B1 (en) 2016-07-07

Family

ID=56500141

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150007975A KR101637504B1 (en) 2015-01-16 2015-01-16 System and method for processing informal data

Country Status (1)

Country Link
KR (1) KR101637504B1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180080408A (en) * 2017-01-03 2018-07-12 주식회사 페이스시스템 Structured data and unstructured data extraction system and method
KR102123286B1 (en) 2019-12-23 2020-06-16 (주)수소프트 System and method for processing data
US10776748B2 (en) * 2015-02-18 2020-09-15 Cargo Chief Acquisition Inc. Communication analysis for obtaining loads
KR20210034446A (en) * 2019-09-20 2021-03-30 주식회사 헥사콘 Apparatus and method for processing unstructured construction data
KR102390009B1 (en) * 2020-12-30 2022-04-22 추철민 Ai-based syntax analysis research note system
WO2022145524A1 (en) * 2020-12-30 2022-07-07 (주)누리텔레콤 Method and apparatus for structuring different types of data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040045164A (en) * 2002-11-22 2004-06-01 에스케이텔레텍주식회사 Method for filtering short message automatically and mobile communication terminal implementing the same
KR20110080966A (en) * 2010-01-07 2011-07-13 충북대학교 산학협력단 An associative classification method for detecting useful knowledge from huge multi-attributes dataset

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040045164A (en) * 2002-11-22 2004-06-01 에스케이텔레텍주식회사 Method for filtering short message automatically and mobile communication terminal implementing the same
KR20110080966A (en) * 2010-01-07 2011-07-13 충북대학교 산학협력단 An associative classification method for detecting useful knowledge from huge multi-attributes dataset

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776748B2 (en) * 2015-02-18 2020-09-15 Cargo Chief Acquisition Inc. Communication analysis for obtaining loads
KR20180080408A (en) * 2017-01-03 2018-07-12 주식회사 페이스시스템 Structured data and unstructured data extraction system and method
KR20210034446A (en) * 2019-09-20 2021-03-30 주식회사 헥사콘 Apparatus and method for processing unstructured construction data
KR102363481B1 (en) * 2019-09-20 2022-02-16 주식회사 헥사콘 Apparatus and method for processing unstructured construction data
KR102123286B1 (en) 2019-12-23 2020-06-16 (주)수소프트 System and method for processing data
KR102390009B1 (en) * 2020-12-30 2022-04-22 추철민 Ai-based syntax analysis research note system
WO2022145524A1 (en) * 2020-12-30 2022-07-07 (주)누리텔레콤 Method and apparatus for structuring different types of data

Similar Documents

Publication Publication Date Title
KR101637504B1 (en) System and method for processing informal data
CN107341215B (en) Multi-source vertical knowledge graph classification integration query system based on distributed computing platform
KR101542195B1 (en) System And Method For Building Knowledge Base Using Extracting Property Of Informal Data
US10339158B2 (en) Generating a mapping rule for converting relational data into RDF format data
Ferrández et al. The QALL-ME Framework: A specifiable-domain multilingual Question Answering architecture
US20170116203A1 (en) Method of automated discovery of topic relatedness
KR101775742B1 (en) Contextual queries
US8954360B2 (en) Semantic request normalizer
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
KR101751113B1 (en) Method for dialog management based on multi-user using memory capacity and apparatus for performing the method
US10102246B2 (en) Natural language consumer segmentation
CN102193994B (en) Method for searching Web services according to non-functional requirements of user
CN102279894A (en) Method for searching, integrating and providing comment information based on semantics and searching system
EP3598436A1 (en) Structuring and grouping of voice queries
CN110852095B (en) Statement hot spot extraction method and system
US9418058B2 (en) Processing method for social media issue and server device supporting the same
Hsu et al. Integrating machine learning and open data into social Chatbot for filtering information rumor
Mirtalaie et al. Sentiment analysis of specific product’s features using product tree for application in new product development
KR101301077B1 (en) Method for Aligning Ontology and Ontology Alignment System thereof
Maté et al. A novel multidimensional approach to integrate big data in business intelligence
KR20210063878A (en) A method and an apparatus for providing chatbot services of analyzing marketing information
CN114996549A (en) Intelligent tracking method and system based on active object information mining
KR101684579B1 (en) System and method for generating knowledge
KR20180113444A (en) Method, apparauts and system for named entity linking and computer program thereof
Chen et al. Automating construction of a domain ontology using a projective adaptive resonance theory neural network and Bayesian network

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 4