KR101637504B1 - System and method for processing informal data - Google Patents
System and method for processing informal data Download PDFInfo
- Publication number
- KR101637504B1 KR101637504B1 KR1020150007975A KR20150007975A KR101637504B1 KR 101637504 B1 KR101637504 B1 KR 101637504B1 KR 1020150007975 A KR1020150007975 A KR 1020150007975A KR 20150007975 A KR20150007975 A KR 20150007975A KR 101637504 B1 KR101637504 B1 KR 101637504B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- pattern
- unit
- rule
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명의 기술적 사상은 비정형 데이터를 처리하는 시스템 및 방법에 관한것으로서, 자세하게는 비정형 데이터로부터 특성을 추출하는 시스템 및 방법에 관한 것이다.The technical idea of the present invention relates to a system and method for processing unstructured data, and more particularly to a system and method for extracting characteristics from unstructured data.
본 발명은 미래창조과학부 SW컴퓨팅산업원천기술개발사업(SW)의 일환으로 ㈜솔트룩스가 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2014.05.01~2015.02.28, 연구관리 전문기관: 정보통신기술연구진흥센터, 연구과제명: WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발, 과제 고유번호: 10044494]The present invention is derived from research conducted and conducted by Saltlux Co., Ltd. as part of the SW Technology Computing Industry Source Technology Development Project (SW) of the future creation science department. [Research period: 2014.05.01 ~ 2015.02.28, Research institute: Information and Communication Technology Promotion Center, Research title: WiseKB: Big data understanding based self-learning knowledge base and reasoning technology development, task number: 10044494]
지식 베이스(Knowledge Base) 구축은 수집된 데이터(자료)를 어휘 체계로 분류하고 이를 데이터 베이스에 저장함으로써 수행될 수 있다. 지식 베이스 구축을 위하여 수집되는 데이터는 그 출처가 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 뉴스, 학술정보, 사전 등의 내용을 인터넷을 통해서 수집되는 데이터일 수도 있고, 기 구축된 다른 지식 베이스(예컨대, 전문 지식 베이스)부터 온 라인 또는 오프 라인으로 수집되는 데이터일 수도 있고, 사용자가 직접 입력한 데이터일 수도 있다. 또한, 수집되는 데이터는 그 형식이 매우 다양할 수 있다. 예를 들면, 지식 베이스 구축을 위하여 수집되는 데이터는 텍스트 기반 데이터일 수도 있고, 이미지 기반 데이터일 수도 있고, 음성 및 동영상 기반 데이터일 수도 있다. 이와 같이, 다양한 종류의 데이터로부터 필요한 정보를 추출하고 추출된 정보를 관리하는 것이 지식 베이스 구축에서 매우 중요할 수 있다.Knowledge base construction can be performed by classifying the collected data (data) into a lexical system and storing it in a database. Data collected for building a knowledge base can have a wide variety of sources. For example, the data collected for building a knowledge base may be data collected via the Internet, such as news, academic information, dictionaries, etc., from other established knowledge bases (e.g., expert knowledge base) Data that is collected offline, or data that is directly input by the user. Also, the data collected can be in a wide variety of formats. For example, data collected for knowledge base construction may be text-based data, image-based data, or voice and video-based data. Thus, extracting necessary information from various types of data and managing the extracted information may be very important in building a knowledge base.
본 발명의 기술적 사상은, 비정형 데이터로부터 특성을 효과적으로 추출하는 비정형 데이터 처리 시스템 및 방법을 제공한다.The technical idea of the present invention provides an unstructured data processing system and method for effectively extracting characteristics from unstructured data.
상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상의 일측면에 따른 비정형 데이터 처리 시스템은, 외부로부터 비정형 데이터를 수신하는 데이터 인터페이스부, 및 상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함할 수 있고, 상기 특성 추출부는 상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부, 적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부, 및 상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함할 수 있다.According to an aspect of the present invention, there is provided an unstructured data processing system including a data interface unit for receiving unstructured data from outside, a characteristic extracting unit for extracting characteristics of the unstructured data, And a characteristic information generating unit that generates characteristic information by setting relation information on the characteristic of the atypical data based on the format of the atypical data, A rule providing unit for associating at least one item with the pattern and providing a rule including a correspondence relationship of the item and a pattern, and a rule execution engine for generating the characteristic by applying the rule to the atypical data .
본 발명의 예시적 실시예에 따라, 상기 비정형 데이터 처리 시스템은 복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부, 및 사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장할 수 있고, 상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장할 수 있다.According to an exemplary embodiment of the present invention, the atypical data processing system includes a data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules, The pattern providing unit may generate a pattern based on the input signal and store the pattern in the pattern storing unit. The rule providing unit may generate a pattern based on the input signal, And store it in the rule storage unit.
본 발명의 예시적 실시예에 따라, 상기 패턴 제공부는 상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부, 및 상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함할 수 있다.According to an exemplary embodiment of the present invention, the pattern providing unit may include a pattern recommendation unit that provides at least one recommended pattern among a plurality of patterns stored in the pattern storage unit based on the format of the atypical data, And a pattern execution unit that extracts data included in the information area from the irregular data based on the pattern defined by the pattern definition unit, . ≪ / RTI >
본 발명의 예시적 실시예에 따라, 상기 패턴 추천부는 상기 지식 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택할 수 있다.According to an exemplary embodiment of the present invention, the pattern recommendation unit can select the recommendation pattern based on the type or source of the knowledge data.
본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별할 수 있고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시킬 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may identify at least one information area by analyzing the format of the atypical data, and may determine the information area as a pattern based on the input signal and / Or may be excluded from the pattern.
본 발명의 예시적 실시예에 따라, 상기 패턴 정의부는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다.According to an exemplary embodiment of the present invention, the pattern definition unit may group a plurality of information areas having the same format.
본 발명의 예시적 실시예에 따라, 상기 규칙 제공부는 상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부, 및 상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the rule providing unit provides at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the irregular data according to the pattern And a rule defining unit that defines rules corresponding to the irregular data based on the input signal and / or the recommendation rule.
본 발명의 예시적 실시예에 따라, 상기 규칙 추천부는 상기 지식 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택할 수 있다.According to an exemplary embodiment of the present invention, the rule recommendation section may select the recommendation rule based on the type or source of the knowledge data.
본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별할 수 있고, 상기 정보 영역을 상기 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining unit can identify an item corresponding to the information area by analyzing the extracted data, and associate the information area with the item.
본 발명의 예시적 실시예에 따라, 상기 규칙 정의부는 복수개의 후보 항목들을 저장할 수 있고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신할 수 있고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining section may store a plurality of candidate items, may update the candidate items based on the input signal, and may map the information region to one of the candidate items .
본 발명의 예시적 실시예에 따라, 상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함할 수 있고, 상기 비정형 데이터 처리 시스템은 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함할 수 있다.According to an exemplary embodiment of the present invention, the data storage unit may further include a knowledge data storage unit for storing knowledge data, and the unstructured data processing system may include external knowledge data received from the interface, And a knowledge data management unit for converting the characteristic information into knowledge data based on the stored knowledge data and verifying the converted knowledge data.
본 발명의 예시적 실시예에 따라, 상기 특성 정보 생성부는 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함할 수 있고, 상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석할 수 있다.According to an exemplary embodiment of the present invention, the characteristic information generation unit may further include a characteristic extraction management unit that classifies the atypical data according to the data type and generates a control signal to change the extraction method according to the corresponding data type , The pattern providing unit may analyze the format of the atypical data based on the control signal.
본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 비정형 데이터에 포함된 정보를 패턴 및 규칙을 사용함으로써 효과적으로 추출할 수 있다.According to the unstructured data processing system and method according to the technical idea of the present invention, information included in the unstructured data can be effectively extracted by using patterns and rules.
또한, 본 발명의 기술적 사상에 따른 비정형 데이터 처리 시스템 및 방법에 의하면, 복수개의 패턴들 및 규칙들을 구비하고, 수신된 비정형 데이터에 적합한 규칙 및 패턴을 추천함으로써 비정형 데이터로부터 유효한 정보가 자동으로 추출될 수 있다.Further, according to the unstructured data processing system and method according to the technical idea of the present invention, a plurality of patterns and rules are provided, and valid information is automatically extracted from unstructured data by recommending rules and patterns suitable for received unstructured data .
도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템을 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부의 구현예를 나타내는 블록도이다.
도 3 내지 도 5는 도 1의 특성 추출부의 동작을 설명하기 위한 도면들이다.
도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부의 구현예를 나타내는 블록도이다.
도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부의 구현예를 나타내는 블록도이다.
도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법을 개략적으로 나타내는 순서도이다.1 is a block diagram illustrating an unstructured data processing system in accordance with an exemplary embodiment of the present invention.
FIG. 2 is a block diagram showing an embodiment of the characteristic extracting unit of FIG. 1 according to an exemplary embodiment of the present invention.
3 to 5 are diagrams for explaining the operation of the characteristic extracting unit of FIG.
Figure 6 is a block diagram illustrating an embodiment of the pattern provider of Figure 2, in accordance with an exemplary embodiment of the present invention.
Figure 7 is a block diagram illustrating an implementation of the rule provider of Figure 2, in accordance with an exemplary embodiment of the present invention.
8 is a flowchart schematically showing a method for processing unstructured data according to an exemplary embodiment of the present invention.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. Embodiments of the present invention are provided to more fully describe the present invention to those skilled in the art. The present invention is capable of various modifications and various forms, and specific embodiments are illustrated and described in detail in the drawings. It should be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for similar elements in describing each drawing. In the accompanying drawings, the dimensions of the structures are enlarged or reduced from the actual dimensions for the sake of clarity of the present invention.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprises", "having", and the like are used to specify that a feature, a number, a step, an operation, an element, a part or a combination thereof is described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, components, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be construed to have meanings consistent with the contextual meanings of the related art and are not to be construed as ideal or overly formal meanings as are expressly defined in the present application .
도 1은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)을 나타내는 블록도이다. 도 1에 도시된 바와 같이, 비정형 데이터 처리 시스템(10)은 데이터 인터페이스부(100), 특성 정보 생성부(200), 사용자 인터페이스(300), 데이터 저장부(400)을 포함할 수 있다. 도 1에 도시된 비정형 데이터. 처리 시스템(10)은 지식 베이스 구축 시스템으로 지칭될 수도 있다. 이하에서, 각각의 구성요소들은 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 각각의 구성요소들은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.Figure 1 is a block diagram illustrating an unstructured
데이터 인터페이스부(100)는 비정형 데이터 처리 시스템(10)의 외부의 데이터 풀(data pool)로부터 데이터를 수신할 수 있다. 데이터 풀은 인터넷(internet), 데이터 베이스(database), 클라우드 소싱(cloud sourcing) 또는 소셜 네트워크(social network) 등 데이터가 생성되고 보유되고 유통될 수 있는 것을 나타낼 수 있다. 또한, 데이터 풀은 대중 또는 개인에 의해 비정형 데이터 처리 시스템(10)으로 직접 제공되는 데이터를 포함할 수도 있다.The
데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터(informal data 또는 unstructured data) 또는 지식 데이터를 수신할 수 있다. 비정형 데이터는 고정된 형태로 구현되지 아니하는 데이터로, 대응되는 필드(field)에 대응되는 콘텐츠(contents)가 포함되는 정형 데이터(formal data 또는 structured data)와 대비된다. 예를 들어, 데이터 베이스(database) 또는 스프레드시트(spreadsheet) 등은 정형 데이터이고, 텍스트 문서, 음성 데이터 및 영상 데이터 등은 비정형 데이터일 수 있다. 고정된 필드에 저장되지는 않지만, 메타데이터(metadata)나 스키마(schema) 등을 포함하는 데이터로, XML이나 HTML은 반정형 데이터로 분류될 수는 있으나, 본 발명은 반정형 데이터를 비정형 데이터의 일 유형으로 전제될 수 있음을 알려둔다. 비정형 데이터는 전술된 데이터 풀의 예 중, 클라우드 소싱 또는 소셜 네트워크 등을 통해 생성, 보유 및 유통될 수 있다. The
전술된 정형 데이터 또는 비정형 데이터를 가공 전의 데이터라 하고, 이를 유의미하게 가공한 2차 데이터를 정보(information)이라 할 수 있다. 데이터 인터페이스부(100)에서 수신하는 지식 데이터는 정보를 어떻게 이용하는지에 대한 메타정보일 수 있다. 예를 들어, 기후를 관측함에 있어서 획득되는 풍속, 풍향 및 습도 등은 데이터에 해당될 수 있고, 이를 모델링(modeling)하여 예측되는 날씨는 정보에 해당될 수 있다. 이때, 지식은 시행 착오 및 누적 정보의 분석 등을 통해, 예를 들어, 눈이 올 경우 운전사고 발생률이 높아진다는 결론을 얻을 수 있는데, 이것이 지식 데이터에 해당될 수 있다. 이하에서는 외부로부터 입력되는 지식 데이터와 비정형 데이터 처리 시스템(10)에 의해 생성 및 관리되는 지식 데이터를 구분하기 위해, 전자를 외부 지식 데이터로, 후자를 내부 지식 데이터로 구분한다. 데이터 인터페이스부(100)는 위키(Wiki), 디비피디아(DBpedia), 프리 베이스(FreeBase) 등으로부터 외부 지식 데이터를 수신할 수 있다. The above-described fixed data or unstructured data is referred to as data before processing, and the secondary data obtained by processing the data may be referred to as information. The knowledge data received by the
이와 같이, 데이터 인터페이스부(100)는 외부로부터 비정형 데이터 또는 외부 지식 데이터를 검색 엔진 등을 통해 자동적으로 수신할 수 있다. 또한, 특성 정보 생성부(200) 또는 지식 데이터 관리부(500)의 요청, 또는 비정형 데이터 처리 시스템(10)의 다른 기능 블록에 의해 발생한 요청에 응답하여 데이터 풀로부터 비정형 데이터 또는 외부 지식 데이터를 수신할 수 있다. In this manner, the
사용자 인터페이스부(300)는 비정형 데이터 처리 시스템(10)의 외부 사용자와 신호를 주고 받을 수 있다. 예를 들면, 사용자는 사용자 인터페이스부(300)를 통해서 비정형 데이터를 분석하는 방식을 설정하는 입력 신호를 입력할 수 있다. 또한, 사용자 인터페이스부(300)는 비정형 데이터가 분석된 결과를 나타내는 출력 신호를 사용자에게 제공할 수 있다.The
비록 도 1에 도시된 예시에서 데이터 인터페이스부(100) 및 사용자 인터페이스부(300)는 독립적인 구성요소로서 각각 도시되었으나, 이는 예시일 뿐이며 본 발명의 기술적 사상이 이에 제한되지 않는 점은 이해될 것이다. 예를 들면, 비정형 데이터 처리 시스템(10)이 인터넷을 통해서 데이터를 수신하고, 인터넷을 통해서 사용자와 신호를 주고 받는 경우 비정형 데이터 처리 시스템(10)은 하나의 인터페이스부를 통해서 비정형 데이터 처리 시스템(10)의 외부와 정보를 주고 받을 수 있다.Although the
특성 정보 생성부(200)는 입력된 비정형 데이터의 특성을 추출하고, 특성에 대한 관계 정보를 설정하여, 비정형 데이터에 대한 특성 정보로 생성한다. 비정형 데이터 특성 정보 생성부(200)는 특성 추출 관리부(220), 특성 추출부(240) 및 특성 관계 설정부(260)를 포함할 수 있다. The characteristic
특성 추출 관리부(220)는 비정형 데이터를 데이터 종류에 따라 분류하여, 대응되는 데이터 종류에 따라 특성을 추출하는 방법을 달리하도록 제어 신호를 생성할 수 있다. 예를 들면, 특성 추출 관리부(220)는, 비정형 데이터가 텍스트(text) 기반 데이터인 경우, 비정형 데이터에 포함된 단어의 빈도수에 근거하여 특성이 추출되도록 제어 신호를 생성할 수 있다. 또는, 특성 추출 관리부(220)는 비정형 데이터의 데이터 종류가 음성 또는 영상인 경우, 비정형 데이터의 주파수 스펙트럼에 근거하여 상기 특성이 추출되도록 제어 신호를 생성할 수 있다.The characteristic
특성 추출부(240)는 제어 신호에 응답하여 비정형 데이터로부터 특성을 추출할 수 있다. 예를 들어, 특성 추출부(240)는 발생 빈도수가 많은 단어들을 특성으로 추출할 수 있다. 또는 특성 추출부(240)는 주파수 스펙트럼에 대한 분석 결과에 따른 영상 내의 객체를 정의할 수 있다. 이 경우, 특성 추출부(240)는 얼굴 이미지에 대해 눈, 코 및 입 등의 객체를 특성으로 추출할 수 있다. 특성 추출부(240)는 이를 위해 주파수 스펙트럼으로부터 객체로 포맷을 변환시키는 모듈(미도시)을 포함할 수 있다. The characteristic extracting
특성 관계 설정부(260)는 특성 추출부(240)로부터 추출된 특성에 의미 정보를 부여하여 특성에 대한 관계 정보를 설정할 수 있다. 예를 들어, 특성 관계 설정부(260)는 발생 빈도수가 많은 단어에 어휘 사전을 이용하여 개체명을 태깅(tagging)함으로써 의미 정보를 부여할 수 있다. 나아가 특성 관계 설정부(260)는 특성에 적어도 둘 이상의 의미 정보 사이의 연관 관계를 분석하여 새로이 설정 또는 생성된 의미 정보를 특성에 부여할 수 있다. 예를 들어, 특성 관계 설정부(260)는 텍스트에 포함된 단어가 핸드폰 및 가전제품 등일 때, 이들 특성에 전자제품이라는 의미 정보를 부여할 수 있다. 이때, 특성 관계 설정부(260)는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된 내부 지식 데이터를 활용하여 상기의 분석을 수행할 수 있다. The characteristic
이와 같이 생성된 특성 정보는 지식 데이터 관리부(500)로 전송된다. 지식 데이터 관리부(500)는 데이터 인터페이스부(100)로부터 수신되는 지식 데이터에 기초하여, 특성 정보 생성부(200)로부터 수신되는 특성 정보를 내부 지식 데이터로 변환하고, 변환된 내부 지식 데이터에 대한 이종의 검증 방법으로 검증한다. 이를 위해, 지식 데이터 관리부(500)는 지식 데이터 변환부(미도시) 및 변환 검증부(미도시)를 포함할 수 있다. The characteristic information thus generated is transmitted to the knowledge
지식 데이터 변환부는 특성 정보를 시맨틱 기술(semantic technology)을 이용하여 정형 데이터로 변환할 수 있다. 시맨틱 기술은 사람이 화면을 읽고 의미를 이해하는 것처럼 컴퓨터가 이해할 수 있는 언어와 규칙들을 정해 놓아 컴퓨터 사이의 의사소통을 가능하게 하는 지능형 기술을 의미한다. 시맨틱 기술에서는 해당 환경에 속하는 객체들 간의 관계-의미 정보(semanteme)를 기계, 즉 컴퓨터가 처리할 수 있는 온톨로지(ontology) 형태로 표현하고, 이를 자동화된 기계가 처리하도록 하는 것을 목표로 하고 있다. 온톨로지란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로서, 정형화되고 개념의 유형이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 컴퓨터 과학 분야에서 온톨로지는 특정한 도메인을 표현하는 데이터 모델로서 특정한 도메인(domain)에 속하는 개념과 개념 사이의 관계를 기술하는 정형 데이터로 정의된다. 온톨로지는 시맨틱 기술을 구현할 수 있는 도구로써, 데이터를 의미적으로 연결할 수 있는 도구로 사용되며, 컴퓨터에서 사람이 갖고 있는 사물에 대한 개념을 일종의 데이터베이스의 형태로 가공하여 처리할 수 있도록 해 준다.The knowledge data conversion unit may convert the characteristic information into the formal data using a semantic technology. Semantic technology is an intelligent technology that enables communication between computers by defining the language and rules that a computer understands, such as a person reading the screen and understanding the meaning. Semantic technology aims to express the relationship - semanteme between the objects belonging to the environment in the form of ontology that can be processed by a machine, that can be processed by a computer, and to be processed by an automated machine. An ontology is a model that abstracts and shares what people think about things, and is a formalized and explicitly defined type of concept or constraint of use. In computer science, an ontology is a data model that represents a particular domain and is defined as a formal data describing the relationship between concepts and concepts belonging to a particular domain. Ontology is a tool to implement semantic technology. It is used as a tool to connect data semantically. It can process the concept of a human being in a computer in the form of a database.
이러한 시맨틱 기술 분야에서는 관계를 표현하기 위한 수단으로서 트리플(triple)이라는 표현 형태를 사용한다. 트리플이란, 주어(subject), 술어(predicate), 객체(object)의 형태로 개념을 표현하는 것을 말한다. 각각의 주어, 술어, 객체는 XML의 URI(Uniform Resource Identifier)로 표현될 수 있으며, 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있다.In the field of semantic technology, the expression form of a triple is used as means for expressing a relationship. A triple is a representation of a concept in the form of a subject, a predicate, or an object. Each subject, predicate, and object can be represented by a URI (Uniform Resource Identifier) of XML. Currently, RDF, OWL proposed by W3C and TopicMaps proposed by ISO are standard languages that describe semantic web ontology at present.
지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 특성 정보에 포함되는 주어, 술어 및 객체의 관계를 형성하여 내부 지식 데이터를 형성하거나 추가적인 객체 등을 연결함에 있어서, 외부 지식 데이터를 이용할 수 있다. 예를 들어, 지식 데이터 변환부는 사람 A, 사람 B 및 결혼이라는 특성 정보를 "A는 B와 결혼했다"와 같은 변환할 수 있는데, 위키피디아의 A와 B의 결혼식에 관한 지식 데이터를 활용하여 "A와 B는 2013년 8월 10일 하얏트 호텔에서 결혼했다"와 같은 내부 지식 데이터로 변환할 수 있다. 상기 예는 예시를 위한 것이므로 전술된 데이터와 지식 등의 구분에 따른 지식 데이터와 무관할 수 있다. The knowledge data conversion unit may use the external knowledge data in converting the characteristic information into the internal knowledge data in the triple form. For example, the knowledge data conversion unit may use the external knowledge data in forming the internal knowledge data or connecting the additional objects, etc. by forming the relationship between subject, predicate, and object included in the characteristic information. For example, the knowledge data conversion unit can convert characteristics information of person A, person B, and marriage to "A married to B", using knowledge data about weddings of Wikipedia A and B, And B were married at a Hyatt hotel on August 10, 2013 ". Since the above example is for illustrative purposes, it may be independent of the knowledge data classified according to the data and knowledge described above.
지식 데이터 변환부는 특성 정보를 트리플 형태의 내부 지식 데이터로 변환함에 있어서, 특성 정보(또는 특성) 또는 외부 지식 데이터에 가중치를 부여할 수 있다. 예를 들어, 임의의 텍스트에 포함된 가구 및 가전제품 등의 특성에 대해 집이라는 의미 정보를 부여한 특성 정보에 대해, 해당 텍스트에 포함된 다른 특성들을 고려하여 가구보다 가전제품에 대한 가중치를 가구보다 높이 하여, 신혼과 관련된 내부 지식 데이터로 생성할 수 있다. 또는, 지식 데이터 변환부는 사람 A, 사람 C, 연애 및 A는 미혼이라는 외부 지식 데이터보다, 사람 A, 사람 B 및 결혼이라는 특성 정보에 가중치를 더 부여하여, A는 미혼이라는 외부 지식 데이터와 모순되는 특성 정보에 근거하여 A는 기혼이라는 내부 지식 데이터를 생성할 수 있다. 이때, 지식 데이터 변환부는 A는 기혼여부에 대해 일단 미확인 등과 같은 보류된 내부 지식 데이터를 생성한 후, 추후 누적되는 특성 정보 또는 외부 지식 데이터에 근거하여 A는 기혼여부에 대한 최종적인 내부 지식 데이터를 생성할 수 있다. In converting the characteristic information into the triple-type internal knowledge data, the knowledge data conversion unit may assign weight to the characteristic information (or characteristic) or the external knowledge data. For example, for property information that gives semantic information of home about the characteristics of furniture and household appliances included in arbitrary text, we consider the weight of household appliances to be higher than that of furniture And can be generated as internal knowledge data related to the newlyweds. Alternatively, the knowledge data conversion section may further assign a weight to characteristic information of the person A, the person B, and the marriage, rather than the external knowledge data that the person A, the person C, the love and the A are unmarried, Based on the characteristic information, A can generate internal knowledge data of married. At this time, the knowledge data conversion unit A generates the pending internal knowledge data such as unconfirmed whether married or not, and then, based on the accumulated characteristic information or the external knowledge data, A calculates the final internal knowledge data on married status Can be generated.
변환 검증부는 지식 데이터 변환부로부터 생성된 내부 지식 데이터(임시의 내부 지식 데이터)는 이종의 검증 방법으로 검증하여, 검증된 내부 지식 데이터로 처리할 수 있다. 변환 검증부에 의해 검증된 내부 지식 데이터는 데이터 저장부(400)의 지식 데이터 저장부(420)에 저장된다.The conversion verification unit can verify the internal knowledge data (temporary internal knowledge data) generated from the knowledge data conversion unit using a different verification method and process it as the verified internal knowledge data. The internal knowledge data verified by the conversion verification unit is stored in the knowledge
도 2는 본 발명의 예시적 실시예에 따라 도 1의 특성 추출부(240)의 구현예를 나타내는 블록도이다. 또한, 도 3 내지 도 5는 도 1의 특성 추출부(240)의 동작을 설명하기 위한 도면들이다. 구체적으로, 도 3은 패턴의 예시를 나타내는 도면이고, 도 4는 규칙의 예시를 나타내는 도면이고, 도 5는 규칙을 실행함으로써 비정형 데이터로부터 생성된 특성을 나타내는 도면이다.2 is a block diagram showing an embodiment of the characteristic extracting
전술한 바와 같이, 특성 추출부(240)는 비정형 데이터의 특성을 추출할 수 있다. 도 2에 도시된 바와 같이, 특성 추출부(240)는 패턴 제공부(242), 규칙 제공부(244) 및 규칙 실행 엔진(246)을 포함할 수 있다. 또한, 도 2에 도시된 바와 같이, 데이터 저장부(400)는 지식 데이터 저장부(420)뿐만 아니라 패턴 저장부(440) 및 규칙 저장부(460)를 더 포함할 수 있다. 이하에서, 데이터 인터페이스부(100)로부터 수신된 비정형 데이터는 텍스트 기반 문서인 실시예가 설명되나 이는 예시일 뿐이며, 전술한 바와 같이 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템은 다양한 종류의 비정형 데이터에 적용될 수 있음은 이해될 것이다.As described above, the characteristic extracting
본 발명의 예시적 실시예에 따라, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공할 수 있다. 패턴은 비정형 데이터에 포함된 정보 영역을 추출하는데 사용되는 기준(reference)으로서 기능할 수 있고, 정보 영역은 비정형 데이터에서 유용한 정보를 포함하는 영역을 지칭할 수 있다. 예를 들면, 비정형 데이터의 일종인 HTML 문서에서 정보 영역은 텍스트 영역일 수 있다. 정보 영역은 비정형 데이터에 패턴에 따라 비정형 데이터로부터 추출될 수 있다. 비정형 데이터로부터 정보 영역을 추출하기 위하여 사용되는 패턴은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 패턴 저장부(440)에 저장된 복수개의 패턴들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, pattern providing 242 may provide a pattern corresponding to unstructured data based on the format of the unstructured data. The pattern may function as a reference used to extract the information area included in the unstructured data, and the information area may refer to an area containing useful information in the unstructured data. For example, in an HTML document which is a kind of unstructured data, the information area may be a text area. The information region can be extracted from the unstructured data according to the pattern in the unstructured data. The pattern used to extract the information area from the irregular data may be defined by the user through the
도 3을 참조하면, 비정형 데이터의 일종으로서 소셜 네트워크의 HTML 문서에서 패턴은 텍스트 영역을 추출하는데 사용될 수 있다. 도 3의 좌측에 도시된 바와 같이, 소셜 네트워크의 HTML 문서는 서로 분리된 복수개의 텍스트 영역들을 포함할 수 있고, 패턴은 총 7개의 텍스트 영역들을 클래스(class)에 포함된 키워드로서 분류할 수 있다. 도 3의 우측에 도시된 바와 같이, 패턴을 사용하여 소셜 네트워크의 HTML 문서로부터 추출된 정보 영역들, 즉 텍스트 영역들은 각각 텍스트를 포함할 수 있다. 이와 같이, 패턴 제공부(242)는 비정형 데이터의 형식에 기초하여 비정형 데이터에 대응하는 패턴을 제공함으로써 비정형 데이터로부터 정보 영역을 추출할 수 있다. 패턴 제공부(242)의 동작에 대한 자세한 설명은 도 6에서 후술한다.Referring to FIG. 3, as a kind of unstructured data, a pattern in an HTML document of a social network can be used to extract a text region. As shown in the left side of FIG. 3, the HTML document of the social network may include a plurality of text regions separated from each other, and the pattern may classify a total of seven text regions as keywords included in a class . As shown on the right side of FIG. 3, the information areas, i.e., text areas, extracted from the HTML document of the social network using the pattern may each contain text. As described above, the
한편, 본 발명의 예시적 실시예에 따라 비정형 데이터가 음성이나 동영상 기반 데이터인 경우, 특정 기준치와 관련된 데이터를 비정형 데이터로부터 정보 영역으로서 추출할 수 있고, 패턴은 이러한 기준치를 결정할 수 있다. 예를 들면, 음성 기반 데이터의 경우, 특정 db 이상의 소리 또는 특정 주파수를 포함하는 소리를 추출하도록 패턴이 사용될 수 있다.Meanwhile, according to an exemplary embodiment of the present invention, when the unstructured data is audio or video based data, data associated with a specific reference value can be extracted as an information region from unstructured data, and the pattern can determine the reference value. For example, in the case of speech-based data, the pattern may be used to extract sound above a certain db or sound containing a certain frequency.
본 발명의 예시적 실시예에 따라, 규칙 제공부(244)는 패턴 제공부(242)에 의해 제공된 패턴에 적어도 하나의 항목을 대응시키고, 항목 및 패턴의 대응관계를 포함하는 규칙을 제공할 수 있다. 즉, 규칙은 적어도 하나의 항목을 포함할 수 있고, 항목은 패턴 제공부(242)에 의해 제공된 패턴에 대응될 수 있다. 또한, 규칙은 패턴에 의해 추출된 정보 영역으로부터 필요한 데이터만을 추출하는 방식을 각 정보 영역마다 결정할 수 있다. 규칙은 사용자 인터페이스부(300)를 통해서 사용자로부터 정의될 수도 있고, 데이터 저장부(400)의 규칙 저장부(460)에 저장된 복수개의 규칙들로부터 선택될 수도 있다.According to an exemplary embodiment of the present invention, the
도 4에 도시된 예시에서, 규칙은 복수개의 항목들을 도 3의 패턴에 대응시킬 수 있다. 즉, 도 4의 좌측 컬럼에 도시된 바와 같이, 규칙은 'fullname', 'username', 'time', 'tweet-text', 'reply', 'retweet', favorite'와 같이 총 7개의 항목들을 포함할 수 있고, 각각의 항목들은 항목을 키워드로서 포함하는 도 3의 정보 영역(또는 텍스트 영역)에 대응될 수 있다. 또한, 규칙은 정보 영역에 포함된 데이터 중에서 필요한 데이터만을 추출할 수 있도록, 도 4의 우측 컬럼에 도시된 바와 같이, 정보 영역의 데이터를 처리하는 방식을 결정할 수 있다. 예를 들면, 규칙은 'fullname' 항목에 대응하는 데이터는 텍스트 영역에 포함된 텍스트 전체를 추출하는 것으로 결정하는 반면, 'retweet' 항목에 대응하는 데이터는 숫자만을 추출하는 것으로 결정할 수 있다.In the example shown in Fig. 4, the rule may map a plurality of items to the pattern of Fig. That is, as shown in the left column of FIG. 4, the rule includes seven items such as 'fullname', 'username', 'time', 'tweet-text', 'reply', 'retweet' , And each item may correspond to the information area (or text area) of Fig. 3 including the item as a keyword. In addition, the rule can determine the method of processing data of the information area, as shown in the right column of Fig. 4, so that only necessary data can be extracted from the data included in the information area. For example, the rule may determine that the data corresponding to the 'fullname' item is to extract the entire text contained in the text area, while the data corresponding to the 'retweet' item may be determined to extract only the numbers.
본 발명의 예시적 실시예에 따라, 규칙 실행 엔진(246)은 규칙을 비정형 데이터에 적용함으로써 비정형 데이터의 특성을 생성할 수 있다. 즉, 도 5에 도시된 바와 같이, 규칙 실행 엔진(246)은 도 4의 규칙을 실행함으로써 각각의 항목에 값 (즉, 정보 영역에 포함된 데이터를 처리한 결과)을 대응시킴으로써 특성을 생성할 수 있다. 도 5에 도시된 예시에서, 소셜 네트워크의 HTML 문서의 특성은 7개의 항목들 및 항목들에 대응하는 값을 포함할 수 있다. 도 1에서 설명한 바와 같이, 규칙 실행 엔진(246)이 생성한 비정형 데이터의 특성은 특성 관계 설정부(260)에 의해 특성 정보를 생성하는데 사용될 수 있고, 특성 정보는 지식 데이터 관리부(500)에 의해 지식 데이터로 변환될 수 있다.In accordance with an exemplary embodiment of the present invention, the
이와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 시스템(10)은 비정형 데이터는 비정형 데이터의 형식에 기초하여 비정형 데이터에서 유용한 정보 영역을 정의하는 패턴 및 정보 영역의 데이터를 처리하고 정보 영역의 데이터에 기초하여 정보 영역을 항목에 대응시키는 규칙을 사용하여 비정형 데이터로부터 특성을 추출할 수 있다. 이에 따라, 비정형 데이터는 효과적으로 분석될 수 있고, 지식 데이터를 생성하기 위한 비정형 데이터의 특성이 효과적으로 추출될 수 있다.As described above, the atypical
도 6은 본 발명의 예시적 실시예에 따라, 도 2의 패턴 제공부(242)의 구현예를 나타내는 블록도이다. 도 6에 도시된 바와 같이, 패턴 제공부(242)는 패턴 추천부(242_2), 패턴 정의부(242_4) 및 패턴 실행 엔진(242_6)을 포함할 수 있다.Figure 6 is a block diagram illustrating an embodiment of pattern remover 242 of Figure 2, in accordance with an exemplary embodiment of the present invention. 6, the
패턴 추천부(242_2)는 비정형 데이터에 적합하다고 판단되는 추천 패턴을 제공할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 비정형 데이터를 수신할 수 있고, 패턴 저장부(420)에 엑세스할 수 있다. 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터의 형식에 기초하여 패턴 저장부(440)에 저장된 복수개의 패턴들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다. The pattern recommendation unit 242_2 can provide a recommendation pattern judged to be suitable for the irregular data. The pattern recommendation unit 242_2 can receive the atypical data from the
본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수 있다. 예를 들면, 패턴 추천부(242_2)는 데이터 인터페이스부(100)로부터 수신된 비정형 데이터가 HTML 문서이고, HTML 문서의 출처, 예컨대 도메인 정보를 분석할 수 있다. 도메인 정보가 소셜 네트워크를 제공하는 서비스에 대응하는 경우, 패턴 저장부(420)에 저장된 복수개의 패턴들 중 도 3에 도시된 패턴을 선택할 수 있고, 선택한 패턴을 추천 패턴으로서 패턴 정의부(242_4)에 제공할 수 있다.According to the exemplary embodiment of the present invention, the pattern recommending section 242_2 can select a recommendation pattern based on the type and / or source of the unstructured data. For example, the pattern recommendation unit 242_2 can analyze the source of the HTML document, for example, domain information, because the unstructured data received from the
패턴 정의부(242_4)는 비정형 데이터에 적용될 패턴을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신되는 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 결정할 수 있다. 예를 들면, 패턴 정의부(242_4)는 비정형 데이터의 형식을 분석함으로써 비정형 데이터에 포함된 적어도 하나의 정보 영역을 식별할 수 있다. 예를 들면, 패턴 정의부(242_4)는 HTML 문서에서 복수개의 텍스트 영역들을 식별할 수 있다. 패턴 정의부(242_4)는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 따른 복수개의 정보 영역들 중 일부를 입력 신호에 기초하여 제외시킬 수도 있고, 추가적인 정보 영역을 추천 패턴에 설정할 수도 있다. 예를 들면, 패턴 정의부(242_4)는 사용자의 입력 신호에 기초하여 비정형 데이터에 포함된 불필요한 정보 영역, 예컨대 광고 정보를 포함하는 정보 영역이 추출되지 않도록 패턴을 정의할 수 있다. 이에 따라, 새로운 패턴이 정의될 수 있고, 패턴 정의부(242_4)는 새로운 패턴을 패턴 저장부(420)에 저장할 수 있다.The pattern definition unit 242_4 can determine a pattern to be applied to the irregular data. That is, the pattern corresponding to the atypical data can be determined based on the input signal received from the user through the
패턴 정의부(242_4)는 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화할 수 있다. 예를 들면, 검색 엔진이 도출한 복수개의 검색 결과들 또는 소셜 네트워크에서 사용자들의 답글들은 하나의 비정형 데이터에서 복수로서 존재할 수 있고, 서로 동일한 형식을 가질 수 있다. 패턴 정의부(242_4)는 이러한 동일한 형식을 가지는 정보 영역들을 그룹화 또는 계층화 할 수 있다.The pattern definition unit 242_4 may group a plurality of information areas having the same format. For example, a plurality of search results derived by a search engine or users' replies in a social network may exist as a plurality in one unstructured data, and may have the same format as each other. The pattern definition unit 242_4 can group or layer the information areas having this same format.
패턴 실행 엔진(242_6)은 비정형 데이터에 패턴을 적용한 결과를 생성할 수 있다. 즉, 패턴 실행 엔진(242_6)은 패턴 정의부(242_4)에서 정의된 패턴에 기초하여 비정형 데이터로부터 정보 영역의 데이터를 추출할 수 있다. 패턴 실행 엔진(242_6)은 추출된 데이터를 사용자 인터페이스부(300)를 통해서 사용자에게 제공할 수 있고, 제공된 데이터에 대하여 사용자가 사용자 인터페이스부(300)를 통해서 피드백한 입력 신호는 패턴 정의부(242_4)가 정의하는 패턴에 반영될 수 있다. 이에 따라, 사용자는 비정형 데이터에 패턴이 적용된 결과를 확인하면서 패턴을 설정할 수 있다. 뿐만 아니라, 패턴 실행 엔진(242_6)에서 추출된 데이터는 규칙 제공부(244)에 제공될 수 있다.The pattern execution engine 242_6 can generate the result of applying the pattern to the irregular data. That is, the pattern execution engine 242_6 can extract the data of the information area from the irregular data based on the pattern defined by the pattern defining part 242_4. The pattern execution engine 242_6 can provide the extracted data to the user through the
도 7은 본 발명의 예시적 실시예에 따라, 도 2의 규칙 제공부(244)의 구현예를 나타내는 블록도이다. 도 7에 도시된 바와 같이, 규칙 제공부(244)는 규칙 추천부(244_2) 및 규칙 정의부(244_4)를 포함할 수 있다. FIG. 7 is a block diagram illustrating an embodiment of the
규칙 추천부(244_2)는 비정형 데이터에 적합하다고 판단되는 추천 규칙을 제공할 수 있다. 규칙 추천부(244_2)는 패턴 제공부(242)의 패턴 실행 엔진(242_6)으로부터 패턴 및 추출된 데이터를 수신할 수 있고, 규칙 저장부(460)에 엑세스할 수 있다. 규칙 추천부(244_2)는 패턴 및 추출된 데이터에 기초하여 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있고, 선택된 적어도 하나의 규칙을 추천 규칙으로서 규칙 정의부(244_4)에 제공할 수 있다. 예를 들면, 도 3 및 도 4에 도시된 바와 같이, 규칙 추천부(244_2)는 클래스에 포함된 키워드에 기초하여 유추된 각 정보 영역의 특징 또는 복수개의 키워드들의 조합에 기초하여, 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 즉, 규칙 추천부(244_2)는 도 3에 도시된 7개의 키워드 조합에 기초하여 비정형 데이터는 소셜 네트워크의 HTML 문서인 것으로 판단할 수 있고, 이에 따라 규칙 저장부(460)에 저장된 복수개의 규칙들 중 적어도 하나를 선택할 수 있다. 본 발명의 예시적 실시예에 따라, 패턴 추천부(242_2)는 비정형 데이터의 종류 및/또는 출처에 기초하여 추천 패턴을 선택할 수도 있다.The rule recommendation unit 244_2 may provide a recommendation rule judged to be suitable for the unstructured data. The rule recommendation unit 244_2 can receive the pattern and extracted data from the pattern execution engine 242_6 of the
규칙 정의부(244_4)는 비정형 데이터에 적용될 규칙을 결정할 수 있다. 즉, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신되는 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 결정할 수 있다. 예를 들면, 규칙 정의부(244_4)는 비정형 데이터로부터 추출된 정보 영역에 포함된 정보를 분석함으로써(예컨대, 도 3에서 클래스에 포함된 키워드를 분석하거나, 텍스트의 형식이 날짜를 나타내는지 여부 또는 개수를 나타내는지 여부를 분석함으로써) 정보 영역에 대응하는 항목을 식별할 수 있고, 정보 영역을 항목에 대응시킬 수 있다.The rule definition unit 244_4 can determine a rule to be applied to the irregular data. That is, the rule corresponding to the unstructured data can be determined based on the input signal received from the user through the
본 발명의 예시적 실시예에 따라, 규칙 정의부(244_4)는 복수개의 후보 항목들을 저장할 수 있고, 사용자 인터페이스부(300)를 통해서 사용자로부터 수신되는 입력 신호에 기초하여 후보 항목들을 갱신할 수 있고, 정보 영역을 후보 항목들 중 하나에 대응시킬수 있다. 예를 들면, 도 4의 예시에서 "10월 31일"은 "time" 항목에 대응되었으나, 규칙 정의부(244_4)에 저장된 후보 항목들 중 "date"가 있는 경우 규칙 정의부(244_4)는 비정형 데이터에서 클래스에 "time"을 포함하는 텍스트 영역을 "date" 항목에 대응시킬 수 있다.According to an exemplary embodiment of the present invention, the rule defining unit 244_4 may store a plurality of candidate items, update the candidate items based on the input signal received from the user through the
이와 같이, 비정형 데이터 처리 시스템(10)은 복수개의 패턴들 및 복수개의 규칙들을 저장하고, 비정형 데이터에 적합하다고 판단한 추천 패턴 및 추천 규칙을 제공할 수 있다. 또한, 사용자로부터 패턴 및 규칙을 정의하는 인터페이스를 제공함으로써 비정형 데이터에 적합한 패턴 및 규칙을 정의할 수 있고, 결과적으로 비정형 데이터로부터 특성을 효과적으로 추출할 수 있다.As described above, the atypical
도 8은 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)을 개략적으로 나타내는 순서도이다. 도 8에 도시된 바와 같이, 본 발명의 예시적 실시예에 따른 비정형 데이터 처리 방법(20)은 비정형 데이터를 수신하는 단계(S10)를 포함할 수 있다. 도 1을 참조하면, 데이터 인터페이스부(100)는 데이터 풀로부터 비정형 데이터를 수신할 수 있다.8 is a flowchart schematically showing a
비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 패턴에 기초하여 패턴을 정의하는 단계(S20)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 패턴 추천부(242_2)로부터 수신된 추천 패턴에 기초하여 비정형 데이터에 대응하는 패턴을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S30)를 포함할 수 있다. 도 6을 참조하면, 패턴 정의부(242_4)는 정의된 패턴을 패턴 저장부(440)에 저장할 수 있고, 패턴 실행 엔진(242_6)은 정의된 패턴을 실행함으로써 정보 영역을 추추할 수 있다.The atypical
비정형 데이터 처리 방법(20)은 입력 신호 및/또는 추천 규칙에 기초하여 규칙을 정의하는 단계(S40)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 사용자 인터페이스부(300)를 통해서 사용자로부터 수신된 입력 신호 및/또는 규칙 추천부(244_2)로부터 수신된 추천 규칙에 기초하여 비정형 데이터에 대응하는 규칙을 정의할 수 있다. 그 다음에, 비정형 데이터 처리 방법(20)은 정의된 패턴을 저장 및 실행하는 단계(S50)를 포함할 수 있다. 도 7을 참조하면, 규칙 정의부(244_4)는 정의된 규칙을 규칙 저장부(460)에 저장할 수 있고, 규칙 실행 엔진(246)은 정의된 규칙을 실행함으로써 비정형 데이터의 특성을 추출할 수 있다.The atypical
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.As described above, exemplary embodiments have been disclosed in the drawings and specification. While the embodiments have been described herein with reference to specific terms, it should be understood that they have been used only for purposes of describing the technical idea of the invention and not for limiting the scope of the invention as defined in the claims . Therefore, those skilled in the art will appreciate that various modifications and equivalent embodiments are possible without departing from the scope of the present invention. Accordingly, the true scope of the present invention should be determined by the technical idea of the appended claims.
10: 비정형 데이터 처리 시스템 20: 비정형 데이터 처리 방법
100: 데이터 인터페이스부 200: 특성 정보 생성부
220: 특성 추출 관리부 240: 특성 추출부
242: 패턴 제공부 242_2: 패턴 추천부
242_4: 패턴 정의부 242_6: 패턴 실행 엔진
244: 규칙 제공부 244_2: 규칙 추천부
244_4: 규칙 정의부 246: 규칙 실행 엔진
260: 특성 관계 설정부 300: 사용자 인터페이스부
400: 데이터 저장부 420: 지식 데이터 저장부
440: 패턴 저장부 460: 규칙 저장부
500: 지식 데이터 관리부10: atypical data processing system 20: atypical data processing method
100: data interface unit 200: characteristic information generating unit
220: characteristic extraction management section 240: characteristic extraction section
242: pattern providing part 242_2: pattern recommending part
242_4: Pattern definition section 242_6: Pattern execution engine
244: Rule providing unit 244_2: Rule recommending unit
244_4: Rule definition section 246: Rule execution engine
260: characteristic relation setting unit 300: user interface unit
400: data storage unit 420: knowledge data storage unit
440: pattern storage unit 460: rule storage unit
500: Knowledge data management unit
Claims (12)
상기 비정형 데이터의 특성을 추출하는 특성 추출부 및 상기 특성에 의미 정보를 부여하여 상기 의미 정보와 상기 특성에 대한 관계 정보를 설정함으로써 특성 정보를 생성하는 특성 관계 설정부를 포함하는 특성 정보 생성부를 포함하고,
상기 특성 추출부는,
상기 비정형 데이터의 형식에 기초하여 상기 비정형 데이터의 패턴을 제공하는 패턴 제공부;
적어도 하나의 항목을 상기 패턴에 대응시키고, 상기 항목 및 패턴의 대응관계를 포함하는 규칙을 제공하는 규칙 제공부; 및
상기 규칙을 상기 비정형 데이터에 적용함으로써 상기 특성을 생성하는 규칙 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.A data interface unit for receiving atypical data from outside; And
A characteristic extracting unit for extracting the characteristics of the atypical data and a characteristic information generating unit for generating characteristic information by assigning semantic information to the characteristic and setting relation information about the characteristic and the characteristic, ,
Wherein the characteristic extracting unit comprises:
A pattern providing unit for providing a pattern of the atypical data based on the format of the atypical data;
A rule providing unit for associating at least one item with the pattern and providing a rule including a correspondence relationship of the item and the pattern; And
And a rule execution engine that generates the property by applying the rule to the atypical data.
상기 비정형 데이터 처리 시스템은,
복수개의 패턴들을 저장하는 패턴 저장부 및 복수개의 규칙들을 저장하는 규칙 저장부를 포함하는 데이터 저장부; 및
사용자로부터 입력 신호를 수신하고 사용자에게 출력 신호를 제공하는 사용자 인터페이스부를 더 포함하고,
상기 패턴 제공부는 상기 입력 신호에 기초하여 패턴을 생성하여 상기 패턴 저장부에 저장하고,
상기 규칙 제공부는 상기 입력 신호에 기초하여 규칙을 생성하여 상기 규칙 저장부에 저장하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The method according to claim 1,
Wherein the atypical data processing system comprises:
A data storage unit including a pattern storage unit for storing a plurality of patterns and a rule storage unit for storing a plurality of rules; And
Further comprising a user interface unit for receiving an input signal from a user and providing an output signal to the user,
Wherein the pattern providing unit generates a pattern based on the input signal and stores the pattern in the pattern storing unit,
Wherein the rule providing unit generates a rule based on the input signal and stores the generated rule in the rule storing unit.
상기 패턴 제공부는,
상기 비정형 데이터의 형식에 기초하여 상기 패턴 저장부에 저장된 복수개의 패턴들 중 선택된 적어도 하나의 추천 패턴을 제공하는 패턴 추천부;
상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 비정형 데이터에 대응하는 패턴을 결정하는 패턴 정의부; 및
상기 패턴 정의부에서 정의된 패턴에 기초하여 상기 비정형 데이터로부터 정보 영역에 포함된 데이터를 추출하는 패턴 실행 엔진을 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.3. The method of claim 2,
Wherein the pattern providing unit comprises:
A pattern recommending unit for providing at least one recommended pattern among a plurality of patterns stored in the pattern storage unit based on the format of the atypical data;
A pattern defining unit that determines a pattern corresponding to the irregular data based on the input signal and / or the recommendation pattern; And
And a pattern execution engine for extracting data included in the information area from the irregular data based on the pattern defined by the pattern defining section.
상기 패턴 추천부는 상기 비정형 데이터의 종류 또는 출처에 기초하여 상기 추천 패턴을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The method of claim 3,
Wherein the pattern recommendation unit selects the recommendation pattern based on the kind or origin of the atypical data.
상기 패턴 정의부는, 상기 비정형 데이터의 형식을 분석함으로써 적어도 하나의 정보 영역을 식별하고, 상기 입력 신호 및/또는 상기 추천 패턴에 기초하여 상기 정보 영역을 패턴에 설정하거나 상기 패턴에서 제외시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.The method of claim 3,
Wherein the pattern definition section identifies at least one information area by analyzing the format of the atypical data and sets or excludes the information area from the pattern based on the input signal and / An unstructured data processing system.
상기 패턴 정의부는, 동일한 형식을 가지는 복수개의 정보 영역들을 그룹화하는 것을 특징으로 하는 비정형 데이터 처리 시스템.6. The method of claim 5,
Wherein the pattern definition unit groups the plurality of information areas having the same format.
상기 규칙 제공부는,
상기 패턴에 따라 상기 비정형 데이터의 정보 영역으로부터 추출된 데이터에 기초하여 상기 규칙 저장부에 저장된 복수개의 규칙들 중 선택된 적어도 하나의 추천 규칙을 제공하는 규칙 추천부; 및
상기 입력 신호 및/또는 상기 추천 규칙에 기초하여 상기 비정형 데이터에 대응하는 규칙을 정의하는 규칙 정의부를 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.3. The method of claim 2,
The rule-
A rule recommendation unit for providing at least one recommendation rule selected from a plurality of rules stored in the rule storage unit based on data extracted from the information area of the irregular data according to the pattern; And
And a rule defining unit that defines rules corresponding to the irregular data based on the input signal and / or the recommendation rule.
상기 규칙 추천부는 상기 비정형 데이터의 종류 또는 출처에 더 기초하여 상기 추천 규칙을 선택하는 것을 특징으로 하는 비정형 데이터 처리 시스템.8. The method of claim 7,
Wherein the rule recommendation unit selects the recommendation rule based further on the type or source of the unstructured data.
상기 규칙 정의부는, 상기 추출된 데이터를 분석함으로써 상기 정보 영역에 대응하는 항목을 식별하고, 상기 정보 영역을 상기 항목에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.8. The method of claim 7,
Wherein the rule defining unit identifies an item corresponding to the information area by analyzing the extracted data, and associates the information area with the item.
상기 규칙 정의부는 복수개의 후보 항목들을 저장하고, 상기 입력 신호에 기초하여 상기 후보 항목들을 갱신하고, 상기 정보 영역을 상기 후보 항목들 중 하나에 대응시키는 것을 특징으로 하는 비정형 데이터 처리 시스템.8. The method of claim 7,
Wherein the rule defining unit stores a plurality of candidate items, updates the candidate items based on the input signal, and maps the information region to one of the candidate items.
상기 데이터 저장부는 지식 데이터를 저장하는 지식 데이터 저장부를 더 포함하고,
상기 비정형 데이터 처리 시스템은, 상기 인터페이스로부터 수신되는 외부 지식 데이터 및 상기 지식 데이터 저장부에 저장된 지식 데이터에 기초하여 상기 특성 정보를 지식 데이터로 변환하고 변환된 지식 데이터를 검증하는 지식 데이터 관리부를 더 포함하는 것을 특징으로 하는 비정형 데이터 처리 시스템.3. The method of claim 2,
Wherein the data storage unit further comprises a knowledge data storage unit for storing knowledge data,
The atypical data processing system further includes a knowledge data management unit that converts the characteristic information into knowledge data based on external knowledge data received from the interface and knowledge data stored in the knowledge data storage unit and verifies the converted knowledge data And an unstructured data processing system.
상기 특성 정보 생성부는, 상기 비정형 데이터를 데이터 종류에 따라 분류하고 대응되는 데이터 종류에 따라 추출방법을 달리하도록 제어 신호를 생성하는 특성 추출 관리부를 더 포함하고,
상기 패턴 제공부는 상기 제어 신호에 기초하여 상기 비정형 데이터의 형식을 분석하는 것을 특징으로 하는 비정형 데이터 처리 시스템.The method according to claim 1,
Wherein the characteristic information generation unit further includes a characteristic extraction management unit for classifying the atypical data according to a data type and generating a control signal to change an extraction method according to a corresponding data type,
Wherein the pattern providing unit analyzes the format of the atypical data based on the control signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150007975A KR101637504B1 (en) | 2015-01-16 | 2015-01-16 | System and method for processing informal data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150007975A KR101637504B1 (en) | 2015-01-16 | 2015-01-16 | System and method for processing informal data |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101637504B1 true KR101637504B1 (en) | 2016-07-07 |
Family
ID=56500141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150007975A KR101637504B1 (en) | 2015-01-16 | 2015-01-16 | System and method for processing informal data |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101637504B1 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180080408A (en) * | 2017-01-03 | 2018-07-12 | 주식회사 페이스시스템 | Structured data and unstructured data extraction system and method |
KR102123286B1 (en) | 2019-12-23 | 2020-06-16 | (주)수소프트 | System and method for processing data |
US10776748B2 (en) * | 2015-02-18 | 2020-09-15 | Cargo Chief Acquisition Inc. | Communication analysis for obtaining loads |
KR20210034446A (en) * | 2019-09-20 | 2021-03-30 | 주식회사 헥사콘 | Apparatus and method for processing unstructured construction data |
KR102390009B1 (en) * | 2020-12-30 | 2022-04-22 | 추철민 | Ai-based syntax analysis research note system |
WO2022145524A1 (en) * | 2020-12-30 | 2022-07-07 | (주)누리텔레콤 | Method and apparatus for structuring different types of data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040045164A (en) * | 2002-11-22 | 2004-06-01 | 에스케이텔레텍주식회사 | Method for filtering short message automatically and mobile communication terminal implementing the same |
KR20110080966A (en) * | 2010-01-07 | 2011-07-13 | 충북대학교 산학협력단 | An associative classification method for detecting useful knowledge from huge multi-attributes dataset |
-
2015
- 2015-01-16 KR KR1020150007975A patent/KR101637504B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040045164A (en) * | 2002-11-22 | 2004-06-01 | 에스케이텔레텍주식회사 | Method for filtering short message automatically and mobile communication terminal implementing the same |
KR20110080966A (en) * | 2010-01-07 | 2011-07-13 | 충북대학교 산학협력단 | An associative classification method for detecting useful knowledge from huge multi-attributes dataset |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10776748B2 (en) * | 2015-02-18 | 2020-09-15 | Cargo Chief Acquisition Inc. | Communication analysis for obtaining loads |
KR20180080408A (en) * | 2017-01-03 | 2018-07-12 | 주식회사 페이스시스템 | Structured data and unstructured data extraction system and method |
KR20210034446A (en) * | 2019-09-20 | 2021-03-30 | 주식회사 헥사콘 | Apparatus and method for processing unstructured construction data |
KR102363481B1 (en) * | 2019-09-20 | 2022-02-16 | 주식회사 헥사콘 | Apparatus and method for processing unstructured construction data |
KR102123286B1 (en) | 2019-12-23 | 2020-06-16 | (주)수소프트 | System and method for processing data |
KR102390009B1 (en) * | 2020-12-30 | 2022-04-22 | 추철민 | Ai-based syntax analysis research note system |
WO2022145524A1 (en) * | 2020-12-30 | 2022-07-07 | (주)누리텔레콤 | Method and apparatus for structuring different types of data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101637504B1 (en) | System and method for processing informal data | |
CN107341215B (en) | Multi-source vertical knowledge graph classification integration query system based on distributed computing platform | |
KR101542195B1 (en) | System And Method For Building Knowledge Base Using Extracting Property Of Informal Data | |
US10339158B2 (en) | Generating a mapping rule for converting relational data into RDF format data | |
Ferrández et al. | The QALL-ME Framework: A specifiable-domain multilingual Question Answering architecture | |
US20170116203A1 (en) | Method of automated discovery of topic relatedness | |
KR101775742B1 (en) | Contextual queries | |
US8954360B2 (en) | Semantic request normalizer | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
KR101751113B1 (en) | Method for dialog management based on multi-user using memory capacity and apparatus for performing the method | |
US10102246B2 (en) | Natural language consumer segmentation | |
CN102193994B (en) | Method for searching Web services according to non-functional requirements of user | |
CN102279894A (en) | Method for searching, integrating and providing comment information based on semantics and searching system | |
EP3598436A1 (en) | Structuring and grouping of voice queries | |
CN110852095B (en) | Statement hot spot extraction method and system | |
US9418058B2 (en) | Processing method for social media issue and server device supporting the same | |
Hsu et al. | Integrating machine learning and open data into social Chatbot for filtering information rumor | |
Mirtalaie et al. | Sentiment analysis of specific product’s features using product tree for application in new product development | |
KR101301077B1 (en) | Method for Aligning Ontology and Ontology Alignment System thereof | |
Maté et al. | A novel multidimensional approach to integrate big data in business intelligence | |
KR20210063878A (en) | A method and an apparatus for providing chatbot services of analyzing marketing information | |
CN114996549A (en) | Intelligent tracking method and system based on active object information mining | |
KR101684579B1 (en) | System and method for generating knowledge | |
KR20180113444A (en) | Method, apparauts and system for named entity linking and computer program thereof | |
Chen et al. | Automating construction of a domain ontology using a projective adaptive resonance theory neural network and Bayesian network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190624 Year of fee payment: 4 |