KR101985900B1 - A method and computer program for inferring metadata of a text contents creator - Google Patents

A method and computer program for inferring metadata of a text contents creator Download PDF

Info

Publication number
KR101985900B1
KR101985900B1 KR1020170166201A KR20170166201A KR101985900B1 KR 101985900 B1 KR101985900 B1 KR 101985900B1 KR 1020170166201 A KR1020170166201 A KR 1020170166201A KR 20170166201 A KR20170166201 A KR 20170166201A KR 101985900 B1 KR101985900 B1 KR 101985900B1
Authority
KR
South Korea
Prior art keywords
vector
meta information
syllable
author
morpheme
Prior art date
Application number
KR1020170166201A
Other languages
Korean (ko)
Inventor
박외진
오성식
오세진
하헌규
Original Assignee
(주)아크릴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아크릴 filed Critical (주)아크릴
Priority to KR1020170166201A priority Critical patent/KR101985900B1/en
Priority to PCT/KR2018/001409 priority patent/WO2019112117A1/en
Application granted granted Critical
Publication of KR101985900B1 publication Critical patent/KR101985900B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F17/2765
    • G06F17/2755

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

One embodiment of the present invention relates to a method for inferring metadata of a text content creator. The method may comprise the steps of: receiving text content; dividing the text content into one or more morphemes and determining a morpheme vector from the divided morphemes based on a morpheme-vector converter; dividing the text content into one or more syllables and determining a syllable vector from the divided syllables based on a syllable-vector converter; and determining a metadata vector corresponding to metadata of a creator based on the morpheme vector, the syllable vector, and a creator recognizer.

Description

텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램{A METHOD AND COMPUTER PROGRAM FOR INFERRING METADATA OF A TEXT CONTENTS CREATOR}A METHOD AND COMPUTER PROGRAM FOR INFERRING METADATA OF A TEXT CONTENTS CREATOR}

본 발명의 실시예들은 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램에 관한 것으로, 보다 구체적으로 텍스트 콘텐츠의 형태소 및 음절에 기초하여 콘텐츠 작성자의 메타정보를 추론하는 방법에 관한 것이다.Embodiments of the present invention relate to a method and a computer program for inferring meta information of a text content creator, and more particularly to a method for inferring meta information of a content creator based on morphemes and syllables of the text content.

정보통신 기술의 비약적인 발전으로 인해 이동통신 단말, 개인용 컴퓨터 등과 같은 다양한 종류의 단말들은 다양한 기능을 수행할 수 있도록 구현되고 있다.Due to the rapid development of information and communication technology, various types of terminals such as mobile communication terminals and personal computers have been implemented to perform various functions.

특히 이러한 단말들은 단순히 정보를 수신하여 표시하는 종래의 기능에서, 수신 받은 정보로부터 2차 정보를 생성하는 등의 다양한 기능들을 이용할 수 있도록 구현되고 있다. 이러한 환경에서, 웹 상에 게시되는 콘텐츠의 양은 기하급수적으로 증가하고 있으며, 이에 따라 개별 콘텐츠에 대한 속성 파악(가령 작성자의 연령대, 성별 파악 등)이 어려운 실정이다.In particular, these terminals are implemented to use various functions such as generating secondary information from the received information in the conventional function of simply receiving and displaying information. In such an environment, the amount of content posted on the web is increasing exponentially, and thus, it is difficult to grasp the attributes of individual content (for example, the age range and gender of the author).

본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론하고자 한다.The present invention seeks to infer the meta information of the author based on the morphological features of the text content.

또한 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론하고자 하며, 보다 높은 정확도로 작성자의 메타정보를 추론하고자 한다.In addition, the present invention is to infer the meta information of the author based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and to infer the meta information of the author with higher accuracy.

또한 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론하고자 한다.In addition, the present invention intends to infer the meta information of the author in consideration of both the morphological features and the syllable features of the text contents.

본 발명의 일 실시예에 따른 텍스트 콘텐츠(Text Contents) 작성자의 메타정보를 추론하는 방법은, 텍스트 콘텐츠를 수신하는 단계; 상기 텍스트 콘텐츠를 하나 이상의 형태소로 분할하고, 형태소-벡터 변환기에 기초하여 상기 분할된 하나 이상의 형태소로부터 형태소 벡터를 결정하는 단계; 상기 텍스트 콘텐츠를 하나 이상의 음절로 분할하고, 음절-벡터 변환기에 기초하여 상기 분할된 하나 이상의 음절로부터 음절 벡터를 결정하는 단계; 및 상기 형태소 벡터, 상기 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정하는 단계;를 포함할 수 있다. 이때 상기 형태소-벡터 변환기는 복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트이고, 상기 음절-벡터 변환기는 복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트이고, 상기 작성자 인식기는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다.According to an embodiment of the present invention, a method for inferring meta information of a text content creator includes: receiving text content; Dividing the text content into one or more morphemes and determining a morpheme vector from the segmented one or more morphemes based on a morpheme-vector converter; Dividing the text content into one or more syllables and determining a syllable vector from the divided one or more syllables based on a syllable-vector converter; And determining a meta information vector corresponding to the meta information of the writer based on the morpheme vector, the syllable vector, and the writer recognizer. The morpheme-vector converter is a data set representing a correlation between a plurality of morphemes and a plurality of morpheme vectors, and the syllable-vector converter is a data set representing a correlation between a plurality of syllables and a plurality of syllable vectors. May be a data set representing a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors.

상기 작성자의 메타정보를 추론하는 방법은 상기 텍스트 콘텐츠를 수신하는 단계 이후에 상기 텍스트 콘텐츠를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성하는 단계;를 더 포함할 수 있다. 이때 상기 형태소 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정하고, 상기 음절 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정하고, 상기 메타정보 벡터를 결정하는 단계는 상기 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 상기 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다.The method of inferring meta information of the author may further include generating one or more divided contents by dividing the text contents into predetermined units after receiving the text contents. The determining of the morpheme vector may include determining a morpheme vector for each of the one or more divided contents, and determining the syllable vector for determining a syllable vector for each of the one or more divided contents, and determining the meta information vector. The determining may determine the meta information vector corresponding to the meta information of the creator based on the morpheme vector of each of the one or more pieces of divided content, the syllable vector of each of the one or more pieces of divided content, and the author recognizer.

상기 작성자의 메타정보를 추론하는 방법은 상기 메타정보 벡터를 결정하는 단계 이후에 상기 하나 이상의 분할 콘텐츠 각각에 대한 메타정보 벡터에 기초하여 상기 하나 이상의 분할 콘텐츠 별로 작성자의 메타정보를 결정하는 단계; 및 상기 하나 이상의 분할 콘텐츠 별 작성자의 메타정보에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함할 수 있다. 이때 상기 소정의 단위는 문장 단위일 수 있다.The method of inferring the meta information of the creator may include determining meta information of the creator for each of the one or more pieces of divided content based on the meta information vector for each of the one or more pieces of divided contents after determining the meta information vector; And determining the meta information of the text content creator based on the meta information of the creator for each of the one or more pieces of divided content. In this case, the predetermined unit may be a sentence unit.

상기 작성자의 메타정보를 추론하는 방법은 상기 메타정보 벡터를 결정하는 단계 이후에 상기 결정된 메타정보 벡터에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함할 수 있다.The method of inferring meta information of the creator may further include determining meta information of the text content creator based on the determined meta information vector after determining the meta information vector.

상기 텍스트 콘텐츠 작성자의 메타정보는 상기 작성자의 연령대, 상기 작성자의 성별, 상기 작성자과 관련된 지역, 상기 작성자의 정치성향, 상기 작성자의 학력 및 상기 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다.The meta information of the author of the text content may include at least one of the age group of the author, the gender of the author, a region associated with the author, the political propensity of the author, the educational background of the author, and whether the author is married.

상기 작성자의 메타정보를 결정하는 단계는 복수의 후보 연령대에 상기 작성자가 속할 확률의 형태로 상기 텍스트 콘텐츠 작성자의 연령대를 결정하고, 상기 작성자가 남성일 확률 및 상기 작성자가 여성일 확률의 형태로 상기 텍스트 콘텐츠 작성자의 성별을 결정할 수 있다.The determining of the meta information of the author may include determining the age group of the text content creator in the form of a probability that the creator belongs to a plurality of candidate age groups, and in the form of a probability that the creator is a male and a probability that the creator is a female. The gender of the text content creator can be determined.

상기 작성자의 메타정보를 추론하는 방법은 제1 테스트 형태소 및 상기 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터에 기초하여 상기 형태소-벡터 변환기를 학습시키는 단계; 제1 테스트 음절 및 상기 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터에 기초하여 상기 음절-벡터 변환기를 학습시키는 단계; 및 제2 형태소 벡터, 제2 음절 벡터 및 상기 제2 형태소 벡터와 상기 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 제3 학습 데이터에 기초하여 상기 작성자 인식기를 학습시키는 단계;를 더 포함할 수 있다.The method of inferring meta information of the creator may include: training the morpheme-vector converter based on a plurality of first training data including a first test morpheme and a first morpheme vector corresponding to the first test morpheme; Training the syllable-vector converter based on a plurality of second training data including a first test syllable and a first syllable vector corresponding to the first test syllable; And training the creator recognizer based on a third learning data including a second morpheme vector, a second syllable vector, and a meta information vector corresponding to the second morpheme vector and the second syllable vector. Can be.

상기 메타정보 벡터를 결정하는 단계는 상기 형태소 벡터 및 상기 음절 벡터를 병합하여 콘텐츠 벡터를 생성하는 단계; 및 상기 콘텐츠 벡터 및 상기 작성자 인식기에 기초하여 상기 메타정보 벡터를 결정하는 단계;를 포함할 수 있다.The determining of the meta information vector may include generating a content vector by merging the morpheme vector and the syllable vector; And determining the meta information vector based on the content vector and the creator recognizer.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다. Other aspects, features, and advantages other than those described above will become apparent from the following drawings, claims, and detailed description of the invention.

본 발명의 실시예들에 따르면 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있다.According to the embodiments of the present invention, the meta information of the author may be inferred based on the morpheme feature of the text content.

또한 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있으며, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있다.In addition, the meta information of the author may be inferred based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and the meta information of the author may be inferred with higher accuracy.

또한 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론할 수 있다.In addition, the meta information of the author can be inferred by considering both the morphological features and the syllable features of the text contents.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템을 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치의 구성을 개략적으로 도시한다.
도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치가 형태소-벡터 변환기, 음절-벡터 변환기 및 작성자 인식기를 생성하거나 /학습 시키는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 제어부가 복수의 문장을 포함하는 텍스트 콘텐츠를 분할 콘텐츠로 분할하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제어부가 텍스트 콘텐츠(또는 분할 콘텐츠)로부터 작성자의 메타정보를 추론하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치가 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 사용자 단말의 디스플레이부에 표시되는 화면의 예시이다.
1 schematically illustrates a content creator meta information inference system according to an embodiment of the present invention.
2 schematically illustrates a configuration of an author meta information inference apparatus according to an embodiment of the present invention.
3A to 3C are diagrams for describing a method of generating or learning a morpheme-vector converter, a syllable-vector converter, and a writer recognizer by a writer meta information inference apparatus according to an embodiment of the present invention.
FIG. 4 is a diagram for describing a method of dividing text content including a plurality of sentences into divided content by a controller according to an exemplary embodiment of the present invention.
FIG. 5 is a diagram for describing a method of inferring meta information of an author from text content (or fragmented content) by a control unit according to an embodiment of the present invention.
6 is a flowchart illustrating a method of inferring meta information of a text content creator by an apparatus for inferring meta information of an author according to an embodiment of the present invention.
7 is an example of a screen displayed on the display unit of the user terminal according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. Effects and features of the present invention, and methods of achieving them will be apparent with reference to the embodiments described below in detail together with the drawings. However, the present invention is not limited to the embodiments disclosed below but may be implemented in various forms.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings, and the same or corresponding components will be denoted by the same reference numerals, and redundant description thereof will be omitted. .

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 형태는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다. In the following embodiments, the terms first, second, etc. are used for the purpose of distinguishing one component from other components rather than a restrictive meaning. In the following examples, the singular forms "a", "an" and "the" include plural forms unless the context clearly indicates otherwise. In the following examples, the terms including or having have meant that there is a feature or component described in the specification and does not preclude the possibility of adding one or more other features or components. In the drawings, components may be exaggerated or reduced in size for convenience of description. For example, the size and shape of each component shown in the drawings are arbitrarily shown for convenience of description, and thus the present invention is not necessarily limited to the illustrated.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템을 개략적으로 도시한다.1 schematically illustrates a content creator meta information inference system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템은 서버(100), 사용자 단말(200), 외부장치(300) 및 이들을 연결하는 통신망(400)을 포함할 수 있다. Referring to FIG. 1, a content creator meta information inference system according to an embodiment of the present invention may include a server 100, a user terminal 200, an external device 300, and a communication network 400 connecting them. .

본 발명의 일 실시예에 따른 콘텐츠 작성자 메타정보 추론 시스템은 서버(100)가 사용자 단말(200) 및/또는 외부장치(300)로부터 텍스트 콘텐츠를 수신하고, 수신된 콘텐츠의 작성자의 메타정보를 추론할 수 있다. 또한 콘텐츠 작성자 메타정보 추론 시스템은 서버(100)가 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보를 미리 알고 있는 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 학습시킬 수 있다. 보다 상세한 설명은 후술한다.In the content creator meta information inference system according to an embodiment of the present invention, the server 100 receives text content from the user terminal 200 and / or the external device 300, and infers meta information of the creator of the received content. can do. In addition, the content creator meta-information inference system, the server 100 may obtain the content that knows the meta information of the author in advance from the user terminal 200 and / or the external device 300, and can learn the author recognizer based on this. . A more detailed description will be described later.

본 발명에서 '작성자의 메타정보' 작성자의 연령대, 성별, 거주지역, 정치성향 등과 같은 작성자에 대한 개인정보 또는 신상정보를 의미할 수 있다.In the present invention, 'the author's meta information' may refer to personal information or personal information about the author such as the age group, gender, residence area, political orientation, etc. of the creator.

본 발명에서 '텍스트 콘텐츠'는 콘텐츠의 적어도 일 부분에 텍스트를 포함하는 다양한 콘텐츠를 의미할 수 있다. 가령 텍스트 콘텐츠는 텍스트만 포함된 콘텐츠를 의미할 수 있다. 이러한 경우 본 발명의 일 실시예에 따른 서버(100)는 전체 텍스트 콘텐츠를 분석하여 작성자의 메타정보를 추론할 수 있다. 한편 텍스트 콘텐츠는 텍스트 외에 이미지, 영상 등의 콘텐츠를 더 포함하는 콘텐츠를 의미할 수도 있다. 이러한 경우 본 발명의 일 실시예에 따른 서버(100)는 콘텐츠에서 텍스트 만을 분리하고, 이로부터 콘텐츠 작성자의 메타정보를 추론할 수도 있다. 다만 이하에서는 설명의 편의를 위하여 텍스트 콘텐츠가 텍스트만을 포함하는 것을 전제로 설명한다.In the present invention, 'text content' may mean various contents including text in at least a portion of the content. For example, the text content may mean content including only text. In this case, the server 100 according to an embodiment of the present invention may infer meta information of the author by analyzing the full text content. The text content may mean content that further includes content such as an image or an image in addition to the text. In this case, the server 100 according to an embodiment of the present invention may separate only the text from the content and infer meta information of the content creator from the content. In the following description, the text content includes only text for convenience of explanation.

본 발명에서 사용자 단말(200)은 전술한 텍스트 콘텐츠를 서버(100)와 송수신 할 수 있는 다양한 장치를 의미할 수 있다. 이 때 단말은 퍼스널 컴퓨터(202)일 수도 있고 또는 휴대용 단말(201)일 수도 있다. 도 1에서는 휴대용 단말(201)이 스마트폰(Smart Phone)으로 도시되었지만, 본 발명의 사상은 이에 제한되지 않는다.In the present invention, the user terminal 200 may refer to various devices capable of transmitting and receiving the above-described text content with the server 100. In this case, the terminal may be a personal computer 202 or a portable terminal 201. In FIG. 1, the portable terminal 201 is illustrated as a smart phone, but the inventive concept is not limited thereto.

한편 사용자 단말(200)은 콘텐츠를 표시하기 위한 표시수단, 이러한 콘텐츠에 대한 사용자의 입력을 획득하기 위한 입력수단을 구비할 수 있다. 이 때 입력수단 및 표시수단은 다양하게 구성될 수 있다. 가령 입력수단은 키보드, 마우스, 트랙볼, 마이크, 버튼, 터치패널 등을 포함할 수 있으나 이에 한정되지 않는다. Meanwhile, the user terminal 200 may include display means for displaying content and input means for obtaining a user input for such content. In this case, the input means and the display means may be configured in various ways. For example, the input means may include a keyboard, a mouse, a trackball, a microphone, a button, a touch panel, and the like, but is not limited thereto.

본 발명에서 외부장치(300)는 서버(100) 및/또는 사용자 단말(200)과 통신망(400)을 통하여 데이터를 송수신 하는 다양한 장치를 의미할 수 있다.In the present invention, the external device 300 may refer to various devices for transmitting and receiving data through the server 100 and / or the user terminal 200 and the communication network 400.

본 발명의 일 실시예에 따르면, 외부장치(300)는 서버(100)에 구비되는 작성자 인식기를 학습시키기 위한 학습 데이터를 제공하는 장치일 수 있다. 가령 외부장치(300)는 콘텐츠(가령 신문 기사 또는 기사에 대한 댓글)와 해당 콘텐츠의 작성자의 메타정보(가령 해당 기사를 쓴 기자의 메타정보 또는 댓글을 작성한 사용자의 메타정보)를 제공하는 서버일 수 있다. 이와 같은 외부장치(300)는 단수일 수도 있고, 복수일 수도 있다. According to an embodiment of the present invention, the external device 300 may be a device that provides training data for learning the creator identifier provided in the server 100. For example, the external device 300 is a server that provides content (for example, a newspaper article or a comment on an article) and meta information of the creator of the content (for example, meta information of a reporter who wrote the article or meta information of a user who created a comment). Can be. The external device 300 may be singular or plural.

본 발명의 다른 실시예에 따르면, 외부장치(300)는 외부장치(300) 자신이 사용자 단말(200)에 제공할 텍스트 콘텐츠에 대한 식별정보를 서버(100)에 전송하고, 서버(100)로부터 해당 텍스트 콘텐츠 작성자의 메타정보를 수신하는 장치일 수도 있다. 가령 외부장치(300)는 사용자들이 작성자의 메타정보를 알고자 하는 글에 대해 메타정보를 제공하는 서비스를 제공하고자 하는 서비스 주체의 서버일 수 있다. 다만 전술한 두 가지 경우는 모두 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.According to another embodiment of the present invention, the external device 300 transmits identification information on text content to be provided to the user terminal 200 by the external device 300 itself to the server 100, and from the server 100. It may be a device for receiving the meta information of the text content creator. For example, the external device 300 may be a server of a service subject that wants to provide a service for providing meta information on an article for which users want to know the meta information of the author. However, the above two cases are exemplary and the spirit of the present invention is not limited thereto.

본 발명에서 통신망(400)은 서버(100), 사용자 단말(200) 및 외부장치(300)를 연결하는 역할을 수행한다. 예를 들어, 통신망(400)은 사용자 단말(200)이 서버(100)에 접속한 후 패킷 데이터를 송수신할 수 있도록 접속 경로를 제공한다. 통신망(400)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.In the present invention, the communication network 400 serves to connect the server 100, the user terminal 200 and the external device 300. For example, the communication network 400 provides a connection path for transmitting and receiving packet data after the user terminal 200 accesses the server 100. The communication network 400 may be, for example, wired networks such as local area networks (LANs), wide area networks (WANs), metropolitan area networks (MANs), integrated service digital networks (ISDNs), wireless LANs, CDMA, Bluetooth, satellite communications, and the like. Although it may encompass a wireless network, the scope of the present invention is not limited thereto.

본 발명에서 서버(100)는 사용자 단말(200) 및/또는 외부장치(300)로부터 텍스트 콘텐츠를 수신하고, 수신된 콘텐츠 작성자의 메타정보를 추론할 수 있다. 또한 서버(100)는 사용자 단말(200) 및/또는 외부장치(300)로부터 메타정보가 표지된 하나 이상의 학습 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 트레이닝 시킬수도 있다. 이를 위하여 서버(100)는 도 2에 도시된 바와 같은 작성자 메타정보 추론 장치를 포함할 수 있다.In the present invention, the server 100 may receive text content from the user terminal 200 and / or the external device 300 and infer meta information of the content creator. In addition, the server 100 may obtain one or more learning contents labeled with meta information from the user terminal 200 and / or the external device 300, and train the creator recognizer based thereon. To this end, the server 100 may include a creator meta information inference apparatus as shown in FIG. 2.

도 2는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 구성을 개략적으로 도시한다.2 schematically illustrates a configuration of an author meta information inference apparatus 110 according to an embodiment of the present invention.

도 2를 참조하면, 본 실시예에 따른 작성자 메타정보 추론 장치(110)는 통신부(111), 제어부(112) 및 메모리(113)를 포함할 수 있다. 또한 도면에는 도시되지 않았으나, 본 실시예에 따른 작성자 메타정보 추론 장치(110)는 입/출력부, 프로그램 저장부 등을 더 포함할 수 있다. 2, the creator meta information inference apparatus 110 according to the present embodiment may include a communication unit 111, a control unit 112, and a memory 113. In addition, although not shown in the drawing, the creator meta information inference apparatus 110 according to the present embodiment may further include an input / output unit, a program storage unit, and the like.

통신부(111)는 작성자 메타정보 추론 장치(110)가 사용자 단말(200) 및/또는 외부장치(300)와 같은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. The communication unit 111 is necessary for the creator meta information inference apparatus 110 to transmit and receive a signal such as a control signal or a data signal through a wired or wireless connection with another network device such as the user terminal 200 and / or the external device 300. It may be a device including hardware and software.

제어부(112)는 프로세서(Processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(Processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(Microprocessor), 중앙처리장치(Central Processing Unit: CPU), 프로세서 코어(Processor Core), 멀티프로세서(Multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.The controller 112 may include all kinds of devices capable of processing data, such as a processor. Here, 'processor' may refer to a data processing apparatus embedded in hardware having, for example, a physically structured circuit for performing a function represented by code or instructions included in a program. As an example of the data processing unit embedded in the hardware, a microprocessor, a central processing unit (CPU), a processor core, a multiprocessor, and an application-specific integrated (ASIC) Circuits, field programmable gate arrays (FPGAs), and the like, but may include a processing device, but the scope of the present invention is not limited thereto.

메모리(113)는 작성자 메타정보 추론 장치(110)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행한다. 메모리(113)는 자기 저장 매체(Magnetic Storage Media) 또는 플래시 저장 매체(Flash Storage Media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. The memory 113 performs a function of temporarily or permanently storing data processed by the creator meta information inference apparatus 110. The memory 113 may include a magnetic storage medium or a flash storage medium, but the scope of the present invention is not limited thereto.

이하에서는 작성자 메타정보 추론 장치(110)가 서버(100)에 구비되는 것을 전제로 설명하지만, 역할배분에 따라 작성자 메타정보 추론 장치(110)는 서버(100)와 별도로 구비될 수도 있다.Hereinafter, the author meta information inference apparatus 110 will be described on the premise that the server 100 is provided. However, the author meta information inference apparatus 110 may be provided separately from the server 100 according to role allocation.

한편 전술한 바와 같이 서버(100), 즉 작성자 메타정보 추론 장치(110)는 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 수신하고, 수신된 텍스트 콘텐츠의 작성자의 메타정보를 추론할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 사용자 단말(200) 및/또는 외부장치(300)로부터 작성자의 메타정보가 표지된 하나 이상의 학습 콘텐츠를 획득하고, 이에 기초하여 작성자 인식기를 트레이닝 시킬수도 있다. Meanwhile, as described above, the server 100, that is, the author meta information inference apparatus 110 receives text content from which the meta information of the author is to be inferred from the user terminal 200 and / or the external device 300, and is received. Meta information of the author of the text content can be inferred. In addition, the creator meta information inference apparatus 110 may obtain one or more learning contents labeled with metadata of the creator from the user terminal 200 and / or the external device 300, and train the creator recognizer based on the learning content.

이하에서는 작성자 메타정보 추론 장치(110)가 하나 이상의 학습 콘텐츠로부터 작성자 인식기를 생성 및/또는 학습하는 방법에 대해서 먼저 설명하고, 생성 및/또는 학습된 작성자 인식기에 기초하여 수신된 텍스트 콘텐츠에 대한 작성자의 메타정보를 추론하는 방법을 나중에 설명한다.Hereinafter, the author meta information inference apparatus 110 will first describe how to create and / or learn an author recognizer from one or more learning contents, and the creator of the received text content based on the created and / or learned author recognizer. We will explain later how to deduce the meta information of.

본 발명에서 '작성자 인식기'는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다. 즉 작성자 인식기는 '복수의 형태소 벡터 및 복수의 음절 벡터'와 '복수의 메타정보 벡터' 간의 대응관계를 나타낸 것일 수 있다. 이때 형태소 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 형태소 분석에 기초하여 생성된 벡터일 수 있다. 또한 음절 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 음절 분석에 기초하여 생성된 벡터일 수 있다. 한편 메타정보 벡터는 텍스트 콘텐츠의 작성자의 메타정보와 대응되는 벡터로, 다양한 항목(가령 연령대, 성별, 거주지역, 정치성향 등)에 대한 정보를 포함하는 벡터일 수 있다.In the present invention, the 'writer recognizer' may be a data set representing a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors. That is, the author recognizer may indicate a correspondence relationship between 'plural morpheme vectors and plural syllable vectors' and 'plural meta information vectors'. In this case, the morpheme vector may be a vector generated based on the morpheme analysis of the text content to infer the meta information of the author. In addition, the syllable vector may be a vector generated based on the syllable analysis of the text content to infer the meta information of the author. Meanwhile, the meta information vector is a vector corresponding to the meta information of the creator of the text content and may be a vector including information on various items (eg, age group, gender, residential area, political orientation, etc.).

이와 같은 '작성자 인식기'는 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 이때 학습 데이터는 전술한 외부장치(300)로부터 수신된 것일 수 있다. 물론 학습 데이터는 메타정보 추론 장치(110)의 메모리(113)에 저장된 것일 수도 있다.The 'writer recognizer' may be generated by machine learning based on a plurality of learning data. In this case, the learning data may be received from the above-described external device 300. Of course, the learning data may be stored in the memory 113 of the meta-information inference apparatus 110.

한편 작성자 인식기는 전술한 바와 같이 데이터 셋트(Data set)일 수 있다. 가령 작성자 인식기는 행렬(Matrix)과 같이 복수개의 숫자로 구성된 데이터 셋트일 수 있다. 다만 이는 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.Meanwhile, the creator recognizer may be a data set as described above. For example, the author recognizer may be a data set composed of a plurality of numbers, such as a matrix. However, this is merely exemplary and the spirit of the present invention is not limited thereto.

전술한 작성자 인식기와 유사하게, '형태소-벡터 변환기'는 복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다. 또한 '음절-벡터 변환기'는 복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다.Similar to the author recognizer described above, the 'morpheme-vector converter' may be a data set representing a correlation between a plurality of stems and a plurality of stem vectors. Also, the syllable-vector converter may be a data set representing a correlation between a plurality of syllables and a plurality of syllable vectors.

상술한 형태소-벡터 변환기 및 음절-벡터 변환기 모두 작성자 인식기와 유사하게 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 가령 형태소-벡터 변환기의 경우, 어떤 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다. 또한 이와 유사하게 음절-벡터 변환기의 경우, 어떤 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다.Both the morpheme-vector converter and the syllable-vector converter described above may be generated by machine learning based on a plurality of learning data similarly to the author recognizer. For example, a morpheme-vector converter may be generated based on learning data including a morpheme and a morpheme vector corresponding to the morpheme. Similarly, in the case of a syllable-vector converter, the syllable-vector converter may be generated based on learning data including a syllable and a syllable vector corresponding to the syllable.

도 3a 내지 도 3c는 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)가 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성하거나 /학습 시키는 방법을 설명하기 위한 도면이다. 3A to 3C illustrate that the author meta information inference apparatus 110 generates or learns a morpheme-vector converter 520, a syllable-vector converter 620, and a creator recognizer 720 according to an embodiment of the present invention. It is a figure for demonstrating a method.

먼저 도 3a를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 제어부(112)는 형태소-벡터 변환기(520)의 생성을 위해 제1 테스트 형태소 및 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터(500)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터를 획득할 수 있다. 가령 첫 번째 학습 데이터(510)의 경우, 형태소와 형태소에 대응되는 형태소 벡터(511)를 포함할 수 있다. 이때 어느 하나의 형태소 벡터에 대응되는 형태소의 수는 단수일 수도 있고, 복수일 수도 있다.First, referring to FIG. 3A, the controller 112 of the author meta information inference apparatus 110 according to an embodiment of the present invention may be configured to the first test morpheme and the first test morpheme for the generation of the morpheme-vector converter 520. The plurality of first training data 500 including the corresponding first morpheme vector may be received and / or obtained. In other words, the controller 112 according to an embodiment of the present invention may acquire learning data including a morpheme and a morpheme vector corresponding to the morpheme. For example, the first learning data 510 may include a morpheme and a morpheme vector 511 corresponding to the morpheme. In this case, the number of morphemes corresponding to any one morpheme vector may be singular or plural.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제1 학습 데이터(500)에 기초하여 형태소-벡터 변환기(520)를 학습시킬 수 있다.Subsequently, the controller 112 according to an embodiment of the present invention may train the morpheme-vector converter 520 based on the received and / or obtained first training data 500.

전술한 바와 같이 형태소-벡터 변환기(520)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소와 복수의 형태소 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the morpheme-vector converter 520 may be a correlation between a plurality of morphemes and a plurality of morpheme vectors generated by machine learning, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)의 데이터 셋트를 업데이트(Update)하는 방식으로 형태소-벡터 변환기(520)를 학습시킬 수 있다.Accordingly, the controller 112 according to an embodiment of the present invention may set the data set of the morpheme-vector converter 520 so that the morpheme of the first training data 500 and the morpheme vector corresponding to the morpheme may be mapped to each other. The morpheme-to-vector converter 520 can be trained in such a manner as to update a.

가령 형태소-벡터 변환기(520)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 형태소-벡터 변환기(520)를 획득할 수 있다.For example, when the data set of the morpheme-vector converter 520 is composed of a plurality of coefficients, the controller 112 corresponds to a morpheme of the first training data 500 and a morpheme vector corresponding to the morpheme. The coefficients constituting the morpheme-vector converter 520 may be adjusted accordingly. In this case, the controller 112 may obtain the morpheme-vector converter 520 having improved accuracy by updating the coefficients based on the plurality of training data.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있다.Accordingly, the present invention can infer the meta information of the author based on the morpheme feature of the text content.

도 3b를 참조하면, 본 발명의 일 실시예에 따른 제어부(112)는 음절-벡터 변환기(620)의 생성을 위해 제1 테스트 음절 및 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터(600)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 제2 학습 데이터(600)를 획득할 수 있다. 가령 첫 번째 학습 데이터(610)의 경우, 음절과 음절에 대응되는 음절 벡터(611)를 포함할 수 있다. 이때 어느 하나의 음절 벡터에 대응되는 음절의 수는 단수일 수도 있고, 복수일 수도 있다. Referring to FIG. 3B, the control unit 112 according to an embodiment of the present invention includes a plurality of first syllable vectors and first syllable vectors corresponding to the first test syllables to generate the syllable-vector converter 620. May receive and / or obtain the second training data 600. In other words, the controller 112 according to an embodiment of the present invention may acquire the second learning data 600 including the syllable and the syllable vector corresponding to the syllable. For example, the first learning data 610 may include syllable vectors and syllable vectors 611 corresponding to syllables. In this case, the number of syllables corresponding to any one syllable vector may be singular or plural.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제2 학습 데이터(600)에 기초하여 음절-벡터 변환기(620)를 학습시킬 수 있다.Subsequently, the controller 112 according to an exemplary embodiment may train the syllable-vector converter 620 based on the received and / or obtained second training data 600.

전술한 바와 같이 음절-벡터 변환기(620)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 음절과 복수의 음절 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the syllable-vector converter 620 may be a correlation between a plurality of syllables and a plurality of syllable vectors generated by machine learning, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)의 데이터 셋트를 업데이트(Update)하는 방식으로 음절-벡터 변환기(620)를 학습시킬 수 있다.Accordingly, the controller 112 according to an embodiment of the present invention may set the data set of the syllable-vector converter 620 so that the syllable vector of the second training data 600 and the syllable vector corresponding to the syllable are mapped to each other. The syllable-vector converter 620 may be trained in such a manner as to update a.

가령 음절-벡터 변환기(620)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 음절-벡터 변환기(620)를 획득할 수 있다.For example, when the data set of the syllable-vector converter 620 is composed of a plurality of coefficients, the controller 112 maps a syllable vector of the second training data 600 and a syllable vector corresponding to the syllable. Coefficients constituting the syllable-vector converter 620 may be appropriately adjusted. In this case, the controller 112 may obtain the syllable-vector converter 620 having more accuracy by updating the coefficients based on the plurality of learning data.

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있도록 할 수 있다.As a result, the present invention can infer the meta information of the author based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and can infer the meta information of the author with higher accuracy. have.

한편 도 3c를 참조하면, 본 발명의 일 실시예에 따른 제어부(112)는 작성자 인식기(720)의 생성을 위해 제2 형태소 벡터, 제2 음절 벡터 및 제2 형태소 벡터와 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 복수의 제3 학습 데이터(700)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 제어부(112)는 형태소 벡터 및 음절 벡터와 이러한 형태소 벡터 및 음절 벡터와 대응되는 메타정보 벡터를 포함하는 학습 데이터를 획득할 수 있다.Meanwhile, referring to FIG. 3C, the control unit 112 according to an embodiment of the present invention corresponds to the second morpheme vector, the second syllable vector, the second morpheme vector, and the second syllable vector to generate the creator recognizer 720. The plurality of third training data 700 including the meta information vector may be received and / or obtained. In other words, the controller 112 according to an embodiment of the present invention may acquire training data including a morpheme vector and a syllable vector, and a meta information vector corresponding to the morpheme vector and the syllable vector.

가령 첫 번째 학습 데이터(710)의 경우 형태소 벡터(Vm2), 음절 벡터(Vs2) 및 이에 대응되는 메타정보 벡터(711)를 포함할 수 있다. For example, the first training data 710 may include a morpheme vector Vm2, a syllable vector Vs2, and a meta information vector 711 corresponding thereto.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 수신 및/또는 획득된 제3 학습 데이터(700)에 기초하여 작성자 인식기(720)를 학습시킬 수 있다.Subsequently, the controller 112 according to an embodiment of the present invention may train the creator recognizer 720 based on the received and / or obtained third learning data 700.

전술한 바와 같이 작성자 인식기(720)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the author recognizer 720 may be a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors generated by a machine learning technique, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 제어부(112)는 학습 데이터의 형태소 벡터 및 음절 벡터와 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)의 데이터 셋트를 업데이트(Update)하는 방식으로 작성자 인식기(720)를 학습시킬 수 있다.Accordingly, the controller 112 according to an embodiment of the present invention updates the data set of the author recognizer 720 so that the stemming vector, the syllable vector, and the meta information vector of the training data can be mapped to each other (mapping). The creator recognizer 720 can be learned.

가령 작성자 인식기(720)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 제어부(112)는 학습 데이터의 형태소 벡터 및 음절 벡터와 이에 대응되는 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 제어부(112)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 작성자 인식기(720)를 획득할 수 있다.For example, when the data set of the creator recognizer 720 is composed of a plurality of coefficients, the controller 112 may correspond to (map) the morpheme vector and syllable vector of the training data and the corresponding meta information vector. Coefficients constituting the author recognizer 720 may be appropriately adjusted. In this case, the controller 112 may obtain the creator recognizer 720 having improved accuracy by updating the coefficients based on the plurality of learning data.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론하도록 할 수 있다.Thus, the present invention can infer the meta information of the author in consideration of both the morphological features and the syllable features of the text content.

이상 서술한 과정에 의해서 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠로부터 작성자의 메타정보를 추론하기 위한 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성 및/또는 학습 시킬 수 있다.By the above-described process, the controller 112 according to an embodiment of the present invention is a morpheme-vector converter 520, a syllable-vector converter 620, and an author recognizer 720 for deducing meta information of an author from text contents. ) And / or learn.

이하에서는 전술한 과정에 의해서 생성 및/또는 학습된 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)에 기초하여 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명한다.Hereinafter, a method of inferring meta information of a text content creator based on the morpheme-vector converter 520, the syllable-vector converter 620, and the author recognizer 720 generated and / or learned by the above-described process will be described. .

본 발명의 일 실시예에 따른 제어부(112)는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 사용자 단말(200) 및/또는 외부장치(300)로부터 수신할 수 있다. 이때 텍스트 콘텐츠는 전술한 바와 같이 텍스트 콘텐츠 외에 다양한 종류의 콘텐츠(가령 이미지, 영상 등)를 포함할 수 있다.The controller 112 according to an embodiment of the present invention may receive the text content from which the user wants to infer the meta information of the creator from the user terminal 200 and / or the external device 300. In this case, as described above, the text content may include various types of content (for example, an image or an image) in addition to the text content.

한편 텍스트 콘텐츠는 하나의 문장만을 포함할 수도 있고, 복수의 문장을 포함할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠가 복수의 문장을 포함하는 경우, 이를 복수개의 콘텐츠로 분할하여 작성자의 메타정보를 추론할 수도 있다.Meanwhile, the text content may include only one sentence or may include a plurality of sentences. If the text content includes a plurality of sentences, the controller 112 according to an embodiment of the present invention may infer meta information of the author by dividing the text content into a plurality of contents.

도 4는 본 발명의 일 실시예에 따른 제어부(112)가 복수의 문장을 포함하는 텍스트 콘텐츠(800)를 분할 콘텐츠(810, 820, 830)로 분할하는 방법을 설명하기 위한 도면이다.FIG. 4 is a diagram for describing a method of dividing text content 800 including a plurality of sentences into divided contents 810, 820, and 830 by the control unit 112 according to an exemplary embodiment.

설명의 편의를 위하여, 텍스트 콘텐츠(800)가 전술한 바와 같이 복수의 문장을 포함하는 것으로 가정한다. 이러한 경우 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(800)를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠(810, 820, 830)를 생성할 수 있다. 이때 소정의 단위는 문장 단위일 수도 있고, 단락 단위일 수도 있고, 주제 단위일 수도 있다. 다만 이는 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.For convenience of explanation, it is assumed that the text content 800 includes a plurality of sentences as described above. In this case, the controller 112 according to an embodiment of the present invention may divide the text content 800 into predetermined units to generate one or more divided contents 810, 820, and 830. In this case, the predetermined unit may be a sentence unit, a paragraph unit, or a subject unit. However, this is merely exemplary and the spirit of the present invention is not limited thereto.

이하에서는 설명의 편의를 위하여 한 개의 분할 콘텐츠(810)에 대한 작성자의 메타정보를 추론하는 방법을 중심으로 설명한다.Hereinafter, for convenience of description, a description will be given based on a method of inferring the meta information of the creator for one divided content 810.

도 5는 본 발명의 일 실시예에 따른 제어부(112)가 텍스트 콘텐츠(810)(또는 분할 콘텐츠)로부터 작성자의 메타정보를 추론하는 방법을 설명하기 위한 도면이다.FIG. 5 is a diagram for describing a method of the controller 112 inferring meta information of an author from text content 810 (or divided content) according to an embodiment of the present invention.

전술한 바와 같이 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠를 수신하거나 획득하고, 필요에 따라서 이를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성할 수도 있다.As described above, the controller 112 according to an embodiment of the present invention may receive or acquire text content, and generate one or more divided contents by dividing the text content into predetermined units as necessary.

이어서 본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(810)를 하나 이상의 형태소(811)로 분할할 수 있다. 가령 제어부(112)는 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, '대한민국', '평화를', '위해서', '힘내주세요'와 같이 콘텐츠를 하나 이상의 형태소로 분할할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 형태소-벡터 변환기(520)에 기초하여 분할된 하나 이상의 형태소(811)로부터 형태소 벡터(821)를 결정할 수 있다. Subsequently, the controller 112 according to an embodiment of the present invention may divide the text content 810 into one or more morphemes 811. For example, when the text content is 'Give it for the peace of Korea', the controller 112 may divide the content into one or more morphemes such as 'South Korea', 'Peace', 'For the sake of', 'Give it'. . The controller 112 according to an embodiment of the present invention may determine the morpheme vector 821 from one or more morphemes 811 divided based on the morpheme-vector converter 520.

전술한 바와 같이 형태소-벡터 변환기(520)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소와 복수의 형태소 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the morpheme-vector converter 520 may be a correlation between a plurality of morphemes and a plurality of morpheme vectors generated by machine learning, that is, mapping information of both.

따라서 제어부(112)는 형태소-벡터 변환기(520)에 하나 이상의 형태소(811)를 입력하고, 그 결과로써 하나 이상의 형태소(811)와 대응되는 형태소 벡터(821)를 획득할 수 있다. Accordingly, the controller 112 may input one or more morphemes 811 into the morpheme-vector converter 520, and as a result, obtain a morpheme vector 821 corresponding to the one or more morphemes 811.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있다.Thus, the present invention can infer the meta information of the author based on the morphological characteristics of the text content.

본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠(810)를 하나 이상의 음절(812)로 분할할 수 있다. 가령 전술한 예시에서와 같이 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, 제어부(112)는 '대', '한', '민', '국' 등과 같이 콘텐츠를 하나 이상의 음절로 분할할 수 있다. 본 발명의 일 실시예에 따른 제어부(112)는 음절-벡터 변환기(620)에 기초하여 분할된 하나 이상의 음절(812)로부터 음절 벡터(822)를 결정할 수 있다.The controller 112 according to an embodiment of the present invention may divide the text content 810 into one or more syllables 812. For example, as in the above example, if the text content is 'Come for the peace of Korea', the control unit 112 converts the content into one or more syllables such as 'large', 'han', 'min', 'guk', and the like. Can be divided The controller 112 according to an embodiment of the present invention may determine the syllable vector 822 from the divided syllables 812 based on the syllable-vector converter 620.

전술한 바와 같이 음절-벡터 변환기(620)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 음절과 복수의 음절 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the syllable-vector converter 620 may be a correlation between a plurality of syllables and a plurality of syllable vectors generated by machine learning, that is, mapping information of both.

따라서 제어부(112)는 음절-벡터 변환기(620)에 하나 이상의 음절(812)을 입력하고, 그 결과로써 하나 이상의 음절(812)과 대응되는 음절 벡터(822)를 획득할 수 있다. Accordingly, the controller 112 may input one or more syllables 812 to the syllable-vector converter 620, and as a result, obtain a syllable vector 822 corresponding to the one or more syllables 812.

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있다.As a result, the present invention can infer the meta information of the author based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and can infer the meta information of the author with higher accuracy.

본 발명의 일 실시예에 따른 제어부(112)는 전술한 과정에 의해서 결정된 형태소 벡터(821), 음절 벡터(822) 및 작성자 인식기(720)에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터(830)를 결정할 수 있다.The control unit 112 according to an embodiment of the present invention is based on the morpheme vector 821, the syllable vector 822, and the author recognizer 720 determined by the above-described process. 830 may be determined.

앞서 설명한 형태소-벡터 변환기(520) 및 음절-벡터 변환기(620)와 유사하게, 작성자 인식기(720) 또한 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.Similar to the morpheme-vector converter 520 and syllable-vector converter 620 described above, the author recognizer 720 also includes a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta generated by machine learning techniques. Correlation of information vectors, that is, mapping information of both.

따라서 제어부(112)는 작성자 인식기(720)에 형태소 벡터(821) 및 음절 벡터(822)를 입력하고, 그 결과로써 형태소 벡터(821) 및 음절 벡터(822)에 대응되는 메타정보 벡터(830)를 획득할 수 있다. Accordingly, the controller 112 inputs the morpheme vector 821 and the syllable vector 822 to the author recognizer 720, and as a result, the meta information vector 830 corresponding to the morpheme vector 821 and the syllable vector 822. Can be obtained.

한편 본 발명의 일 실시예에 따른 제어부(112)는 형태소 벡터 및 음절 벡터를 병합하여 콘텐츠 벡터를 생성하고, 생성된 콘텐츠 벡터 및 작성자 인식기(720)에 기초하여 메타정보 벡터(830)를 결정할 수도 있다. 이때 벡터를 병합하는 것은 두 벡터의 차원수의 합에 해당하는 새로운 벡터를 생성하는 것을 의미할수도 있고, 소정의 연산을 통해 새로운 차원(두 벡터의 차원수의 합 이하의 차원)의 벡터를 생성하는 것을 의미할 수도 있다.Meanwhile, the controller 112 according to an embodiment of the present invention may generate a content vector by merging a morpheme vector and a syllable vector, and determine the meta information vector 830 based on the generated content vector and the author recognizer 720. have. In this case, merging a vector may mean creating a new vector corresponding to the sum of the number of dimensions of the two vectors, and generating a vector of a new dimension (dimensions less than or equal to the sum of the number of dimensions of the two vectors) through a predetermined operation. It might mean doing.

본 발명의 일 실시예에 따른 제어부(112)는 텍스트 콘텐츠를 소정의 단위로 분할하여 생성한 분할 콘텐츠에 대해서도 전술한 일련의 과정(형태소 벡터, 음절 벡터 및 메타정보 벡터를 결정하는 과정)을 동일하게 수행할 수 있다. 바꾸어 말하면, 제어부(112)는 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정할 수 있다. 또한 제어부(112)는 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정할 수 있다. 또한 제어부(112)는 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다. 이와 같이 제어부(112)는 각 분할 콘텐츠 별 메타정보 벡터를 결정할 수 있다. 한편 이로부터 전체 콘텐츠에 대한 작성자의 메타정보를 결정하는 방법은 후술한다.The control unit 112 according to an embodiment of the present invention performs the same series of processes (determining a morpheme vector, a syllable vector, and a meta-information vector) for the divided content generated by dividing the text content into predetermined units. Can be done. In other words, the controller 112 may determine a morpheme vector for each of the one or more pieces of divided content. In addition, the controller 112 may determine a syllable vector for each of the one or more pieces of divided content. In addition, the controller 112 may determine the meta information vector corresponding to the meta information of the creator based on the morpheme vector of each of the one or more pieces of divided content, the syllable vector of each of the one or more pieces of divided content, and the author recognizer. As such, the controller 112 may determine the meta information vector for each divided content. On the other hand, the method of determining the meta information of the author for the entire content from this will be described later.

본 발명의 일 실시예에 따른 제어부(112)는 전술한 과정에 의해서 결정된 메타정보 벡터(830)에 기초하여 텍스트 콘텐츠(810) 작성자의 메타정보(840)를 결정할 수 있다. 이때 콘텐츠 작성자의 메타정보는 작성자의 연령대, 작성자의 성별, 작성자와 관련된 지역, 작성자의 정치성향, 작성자의 학력 및 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다. 물론 상술한 항목들은 예시적인 것으로 어떤 사람의 메타정보로써 사용될 수 있는 항목이라면, 본 발명의 메타정보로써 사용될 수 있다.The controller 112 according to an embodiment of the present invention may determine the meta information 840 of the creator of the text content 810 based on the meta information vector 830 determined by the above-described process. In this case, the meta information of the content creator may include at least one of the age group of the creator, the gender of the creator, a region related to the creator, the political propensity of the creator, the educational background of the creator, and whether the creator is married. Of course, the above-described items are exemplary and may be used as the meta information of the present invention as long as the items can be used as meta information of a person.

본 발명의 일 실시예에 따른 제어부(112)는 메타정보의 각 항목에 대해서, 각 항목에 대한 복수의 선택지의 확률 형태로 메타정보를 결정할 수 있다. 가령 제어부(112)는 복수의 후보 연령대(10대, 20대, 30대, 40대, 50대 이상 등)에 작성자가 속할 확률의 형태로 텍스트 콘텐츠 작성자의 연령대를 결정할 수 있다. 또한 이와 유사하게 제어부(112)는 작성자가 남성일 확률 및 작성자가 여성일 확률의 형태로 작성자의 성별을 결정할 수 있다. 다만 전술한 연령대 및 성별 항목은 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.The control unit 112 according to an embodiment of the present invention may determine the meta information with respect to each item of the meta information in the form of probability of a plurality of options for each item. For example, the controller 112 may determine the age group of the text content creator in the form of a probability that the creator belongs to a plurality of candidate age groups (for example, teenagers, 20s, 30s, 40s, 50s or more). Similarly, the controller 112 may determine the gender of the creator in the form of a probability that the creator is a male and a probability that the creator is a female. However, the above-mentioned age group and gender items are exemplary, and the spirit of the present invention is not limited thereto.

한편 분할 콘텐츠 각각에 대해 메타정보 벡터를 결정한 경우, 본 발명의 일 실시예에 따른 제어부(112)는 각각의 분할 콘텐츠에 대한 메타정보를 결정할 수 있다. On the other hand, when the meta-information vector is determined for each of the divided contents, the control unit 112 according to an embodiment of the present invention may determine the meta information about each of the divided contents.

이때 본 발명의 일 실시예에 따른 제어부(112)는 각각의 분할 콘텐츠에 대한 메타정보를 병합하여 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수도 있다. 가령 분할 콘텐츠 각각에 대해서 복수의 후보 연령대에 작성자가 속할 확률이 결정된 경우, 제어부(112)는 연령대 별 확률의 합(가령 10대에 속할 확률의 합, 20대에 속할 확률의 합 등)으로 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수 있다. 다만 이는 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.At this time, the control unit 112 according to an embodiment of the present invention may determine the meta information for the full text content by merging the meta information for each divided content. For example, when the probability that the creator belongs to the plurality of candidate ages is determined for each of the divided contents, the controller 112 may determine the total as the sum of the probabilities for each age group (for example, the sum of probabilities belonging to the teenager, the sum of probabilities belonging to the 20s, etc.). Meta information about the text content may be determined. However, this is merely illustrative and the spirit of the present invention is not limited thereto.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론할 수 있다.Accordingly, the present invention can infer the meta information of the author in consideration of both the morpheme features and the syllable features of the text content.

도 6은 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)가 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법을 설명하기 위한 흐름도이다. 이하에서는 도 1 내지 도 5에서 설명한 내용과 중복하는 내용의 설명은 생략한다.FIG. 6 is a flowchart illustrating a method of inferring meta information of a text content creator by the creator meta information inference apparatus 110 according to an embodiment of the present invention. Hereinafter, descriptions of contents overlapping with those described in FIGS. 1 to 5 will be omitted.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기, 음절-벡터 변환기 및 작성자 인식기를 생성하거나 /학습 시킬 수 있다.(S61)Author meta-information inference apparatus 110 according to an embodiment of the present invention may generate or learn a morpheme-vector converter, syllable-vector converter, and author recognizer (S61).

본 발명에서 '작성자 인식기'는 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트일 수 있다. 즉 작성자 인식기는 '복수의 형태소 벡터 및 복수의 음절 벡터'와 '복수의 메타정보 벡터' 간의 대응관계를 나타낸 것일 수 있다. 이때 형태소 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 형태소 분석에 기초하여 생성된 벡터일 수 있다. 음절 벡터는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠에 대한 음절 분석에 기초하여 생성된 벡터일 수 있다. 한편 메타정보 벡터는 텍스트 콘텐츠의 작성자의 메타정보와 대응되는 벡터로, 다양한 항목(가령 연령대, 성별, 거주지역 등)에 대한 정보를 포함하는 벡터일 수 있다.In the present invention, the 'writer recognizer' may be a data set representing a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors. That is, the author recognizer may indicate a correspondence relationship between 'plural morpheme vectors and plural syllable vectors' and 'plural meta information vectors'. In this case, the morpheme vector may be a vector generated based on the morpheme analysis of the text content to infer the meta information of the author. The syllable vector may be a vector generated based on the syllable analysis of text content to infer meta information of the author. Meanwhile, the meta information vector is a vector corresponding to the meta information of the creator of the text content and may be a vector including information on various items (eg, age group, gender, residential area, etc.).

이와 같은 '작성자 인식기'는 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 이때 학습 데이터는 전술한 외부장치(300)로부터 수신된 것일 수 있다. 물론 학습 데이터는 메타정보 추론 장치(110)의 메모리(113)에 저장된 것일 수도 있다.The 'writer recognizer' may be generated by machine learning based on a plurality of learning data. In this case, the learning data may be received from the above-described external device 300. Of course, the learning data may be stored in the memory 113 of the meta-information inference apparatus 110.

한편 작성자 인식기는 전술한 바와 같이 데이터 셋트(Data set)일 수 있다. 가령 작성자 인식기는 행렬(Matrix)과 같이 복수개의 숫자로 구성된 데이터 셋트일 수 있다. 다만 이는 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.Meanwhile, the creator recognizer may be a data set as described above. For example, the author recognizer may be a data set composed of a plurality of numbers, such as a matrix. However, this is merely exemplary and the spirit of the present invention is not limited thereto.

전술한 작성자 인식기와 유사하게, '형태소-벡터 변환기'는 복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다. 또한 '음절-벡터 변환기'는 복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트일 수 있다.Similar to the author recognizer described above, the 'morpheme-vector converter' may be a data set representing a correlation between a plurality of stems and a plurality of stem vectors. Also, the syllable-vector converter may be a data set representing a correlation between a plurality of syllables and a plurality of syllable vectors.

상술한 형태소-벡터 변환기 및 음절-벡터 변환기 모두 작성자 인식기와 유사하게 복수의 학습 데이터에 기반한 머신 러닝(Machine Learning)에 의하여 생성된 것일 수 있다. 가령 형태소-벡터 변환기의 경우, 어떤 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다. 또한 이와 유사하게 음절-벡터 변환기의 경우, 어떤 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 학습 데이터에 기초하여 생성된 것일 수 있다.Both the morpheme-vector converter and the syllable-vector converter described above may be generated by machine learning based on a plurality of learning data similarly to the author recognizer. For example, a morpheme-vector converter may be generated based on learning data including a morpheme and a morpheme vector corresponding to the morpheme. Similarly, in the case of a syllable-vector converter, the syllable-vector converter may be generated based on learning data including a syllable and a syllable vector corresponding to the syllable.

다시 도 3a 내지 도 3c를 참조하여 메타정보 추론 장치(110)가 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성하거나 /학습 시키는 방법을 설명한다.3A to 3C, the meta information inference apparatus 110 generates / learns the morpheme-vector converter 520, the syllable-vector converter 620, and the author recognizer 720.

먼저 도 3a를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)의 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기(520)의 생성을 위해 제1 테스트 형태소 및 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터(500)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소와 해당 형태소에 대응되는 형태소 벡터를 포함하는 학습 데이터를 획득할 수 있다. 가령 첫 번째 학습 데이터(510)의 경우, 형태소와 형태소에 대응되는 형태소 벡터(511)를 포함할 수 있다. 이때 어느 하나의 형태소 벡터에 대응되는 형태소의 수는 단수일 수도 있고, 복수일 수도 있다.First, referring to FIG. 3A, the author meta information inference apparatus 110 of the author meta information inference apparatus 110 according to an embodiment of the present invention may include a first test morpheme and a first test morpheme for generating the morpheme-vector converter 520. A plurality of first training data 500 including a first morpheme vector corresponding to one test morpheme may be received and / or obtained. In other words, the creator meta information inference apparatus 110 according to an embodiment of the present invention may acquire learning data including a morpheme and a morpheme vector corresponding to the morpheme. For example, the first learning data 510 may include a morpheme and a morpheme vector 511 corresponding to the morpheme. In this case, the number of morphemes corresponding to any one morpheme vector may be singular or plural.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제1 학습 데이터(500)에 기초하여 형태소-벡터 변환기(520)를 학습시킬 수 있다.Subsequently, the apparatus for inferring meta information 110 according to an embodiment of the present invention may train the morpheme-vector converter 520 based on the received and / or obtained first training data 500.

전술한 바와 같이 형태소-벡터 변환기(520)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소와 복수의 형태소 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the morpheme-vector converter 520 may be a correlation between a plurality of morphemes and a plurality of morpheme vectors generated by machine learning, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)의 데이터 셋트를 업데이트(Update)하는 방식으로 형태소-벡터 변환기(520)를 학습시킬 수 있다.Accordingly, the author meta information inference apparatus 110 according to the embodiment of the present invention may correspond to a morpheme of the first training data 500 and a morpheme vector corresponding to the morpheme, so that the morpheme-vector converter 520 can be mapped. The morpheme-vector converter 520 can be trained in such a manner as to update the data set.

가령 형태소-벡터 변환기(520)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 제1 학습 데이터(500)의 형태소와 해당 형태소에 대응되는 형태소 벡터를 서로 대응(매핑)시킬 수 있도록 형태소-벡터 변환기(520)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 형태소-벡터 변환기(520)를 획득할 수 있다.For example, when the data set of the morpheme-vector converter 520 is composed of a plurality of coefficients, the creator meta information inference apparatus 110 may determine a morpheme of the first training data 500 and a morpheme vector corresponding to the morpheme. The coefficients constituting the morpheme-vector converter 520 may be appropriately adjusted to correspond to each other (map). In this case, the creator meta information inference apparatus 110 may obtain the morpheme-vector converter 520 having improved accuracy by updating the coefficients based on the plurality of learning data.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있다.Accordingly, the present invention can infer the meta information of the author based on the morpheme feature of the text content.

도 3b를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 음절-벡터 변환기(620)의 생성을 위해 제1 테스트 음절 및 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터(600)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 음절과 해당 음절에 대응되는 음절 벡터를 포함하는 제2 학습 데이터(600)를 획득할 수 있다. 가령 첫 번째 학습 데이터(610)의 경우, 음절과 음절에 대응되는 음절 벡터(611)를 포함할 수 있다. 이때 어느 하나의 음절 벡터에 대응되는 음절의 수는 단수일 수도 있고, 복수일 수도 있다. Referring to FIG. 3B, the creator meta information inference apparatus 110 according to an embodiment of the present invention may include a first test syllable and a first syllable vector corresponding to the first test syllable for generating the syllable-vector converter 620. A plurality of second learning data 600 including a may be received and / or obtained. In other words, the author meta information inference apparatus 110 according to an embodiment of the present invention may acquire the second training data 600 including the syllable and the syllable vector corresponding to the syllable. For example, the first learning data 610 may include syllable vectors and syllable vectors 611 corresponding to syllables. In this case, the number of syllables corresponding to any one syllable vector may be singular or plural.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제2 학습 데이터(600)에 기초하여 음절-벡터 변환기(620)를 학습시킬 수 있다.Subsequently, the apparatus for inferring meta information 110 according to an embodiment of the present invention may train the syllable-vector converter 620 based on the received and / or obtained second training data 600.

전술한 바와 같이 음절-벡터 변환기(620)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 음절과 복수의 음절 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the syllable-vector converter 620 may be a correlation between a plurality of syllables and a plurality of syllable vectors generated by machine learning, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)의 데이터 셋트를 업데이트(Update)하는 방식으로 음절-벡터 변환기(620)를 학습시킬 수 있다.Accordingly, the apparatus for inferring meta information 110 according to an exemplary embodiment of the present invention is a syllable-vector converter 620 so that the syllable vector of the second training data 600 and the syllable vector corresponding to the syllable can be mapped to each other. The syllable-vector converter 620 may be trained by updating a data set of the ().

가령 음절-벡터 변환기(620)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 제2 학습 데이터(600)의 음절과 해당 음절에 대응되는 음절 벡터를 서로 대응(매핑)시킬 수 있도록 음절-벡터 변환기(620)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 음절-벡터 변환기(620)를 획득할 수 있다.For example, when the data set of the syllable-vector converter 620 is composed of a plurality of coefficients, the creator meta information inference apparatus 110 may generate a syllable vector corresponding to the syllable of the second training data 600 and the syllable. Coefficients constituting the syllable-vector converter 620 may be appropriately adjusted to correspond to each other (mapping). In this case, the creator meta information inference apparatus 110 may obtain the syllable-vector converter 620 having improved accuracy by updating coefficients based on the plurality of learning data.

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있도록 할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있도록 할 수 있다.As a result, the present invention can infer the meta information of the author based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and can infer the meta information of the author with higher accuracy. have.

한편 도 3c를 참조하면, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 작성자 인식기(720)의 생성을 위해 제2 형태소 벡터, 제2 음절 벡터 및 제2 형태소 벡터와 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 복수의 제3 학습 데이터(700)를 수신 및/또는 획득할 수 있다. 바꾸어 말하면 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소 벡터 및 음절 벡터와 이러한 형태소 벡터 및 음절 벡터와 대응되는 메타정보 벡터를 포함하는 학습 데이터를 획득할 수 있다.Meanwhile, referring to FIG. 3C, the author meta information inference apparatus 110 according to an embodiment of the present invention may generate a second stem vector, a second syllable vector, a second syllable vector, and a second stem vector to generate the author recognizer 720. A plurality of third training data 700 including meta information vectors corresponding to syllable vectors may be received and / or obtained. In other words, the creator meta information inference apparatus 110 according to an embodiment of the present invention may acquire learning data including a morpheme vector and a syllable vector, and meta information vectors corresponding to the morpheme vector and the syllable vector.

가령 첫 번째 학습 데이터(710)의 경우 형태소 벡터(Vm2), 음절 벡터(Vs2) 및 이에 대응되는 메타정보 벡터(711)를 포함할 수 있다. For example, the first training data 710 may include a morpheme vector Vm2, a syllable vector Vs2, and a meta information vector 711 corresponding thereto.

이어서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 수신 및/또는 획득된 제3 학습 데이터(700)에 기초하여 작성자 인식기(720)를 학습시킬 수 있다.Subsequently, the creator meta information inference apparatus 110 according to an embodiment of the present invention may train the creator recognizer 720 based on the received and / or obtained third training data 700.

전술한 바와 같이 작성자 인식기(720)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the author recognizer 720 may be a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors generated by a machine learning technique, that is, mapping information of both.

따라서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 학습 데이터의 형태소 벡터 및 음절 벡터와 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)의 데이터 셋트를 업데이트(Update)하는 방식으로 작성자 인식기(720)를 학습시킬 수 있다.Accordingly, the author meta information inference apparatus 110 according to an embodiment of the present invention updates the data set of the author recognizer 720 so as to correspond (map) the morpheme vector, the syllable vector, and the meta information vector of the training data. The author recognizer 720 can be trained in a manner of updating.

가령 작성자 인식기(720)의 데이터 셋트가 복수개의 계수(Weight)로 구성되는 경우, 작성자 메타정보 추론 장치(110)는 학습 데이터의 형태소 벡터 및 음절 벡터와 이에 대응되는 메타정보 벡터를 서로 대응(매핑)시킬 수 있도록 작성자 인식기(720)를 구성하는 계수들을 적절히 조절할 수 있다. 이때 작성자 메타정보 추론 장치(110)는 복수의 학습 데이터에 기초하여 계수들을 업데이트 함으로써 보다 정확도가 향상된 작성자 인식기(720)를 획득할 수 있다.For example, when the data set of the author recognizer 720 is composed of a plurality of coefficients, the creator meta information inference apparatus 110 corresponds to a mapping of the morpheme vector and syllable vector of the training data and the corresponding meta information vector (mapping). Coefficients constituting the author recognizer 720 may be appropriately adjusted. In this case, the creator meta information inference apparatus 110 may obtain the creator recognizer 720 having improved accuracy by updating coefficients based on the plurality of learning data.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론하도록 할 수 있다.Thus, the present invention can infer the meta information of the author in consideration of both the morphological features and the syllable features of the text content.

이상 서술한 과정에 의해서 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠로부터 작성자의 메타정보를 추론하기 위한 형태소-벡터 변환기(520), 음절-벡터 변환기(620) 및 작성자 인식기(720)를 생성 및/또는 학습 시킬 수 있다.By the above-described process, the author meta information inference apparatus 110 according to the embodiment of the present invention is a morpheme-vector converter 520, a syllable-vector converter 620, and a syllable-vector converter for inferring meta information of an author from text contents. The author recognizer 720 may be generated and / or trained.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 작성자의 메타정보를 추론하고자 하는 텍스트 콘텐츠를 수신할 수 있다.(S62) 이때 텍스트 콘텐츠는 전술한 바와 같이 텍스트 콘텐츠 외에 다양한 종류의 콘텐츠(가령 이미지, 영상 등)를 포함할 수 있다.Author meta information inference apparatus 110 according to an embodiment of the present invention may receive the text content to infer the meta information of the author (S62). Content (eg, images, images, etc.).

한편 텍스트 콘텐츠는 하나의 문장만을 포함할 수도 있고, 복수의 문장을 포함할 수 있다. 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠가 복수의 문장을 포함하는 경우, 이를 복수개의 콘텐츠로 분할하여 작성자의 메타정보를 추론할 수도 있다.Meanwhile, the text content may include only one sentence or may include a plurality of sentences. When the text content includes a plurality of sentences, the author meta information inference apparatus 110 according to an embodiment of the present invention may infer meta information of the author by dividing the content into a plurality of contents.

이하에서는 다시 도 5를 참조하여 단계 S63 내지 단계 S66을 설명한다.Hereinafter, with reference to FIG. 5 again, step S63 to step S66 will be described.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠(810)를 하나 이상의 형태소(811)로 분할하고, 분할된 하나 이상의 형태소(811)로부터 형태소 벡터(821)를 결정할 수 있다.(S63)The author meta information inference apparatus 110 according to an embodiment of the present invention may divide the text content 810 into one or more morphemes 811, and determine a morpheme vector 821 from the divided one or more morphemes 811. (S63)

가령 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, '대한민국', '평화를', '위해서', '힘내주세요'와 같이 콘텐츠를 하나 이상의 형태소로 분할하고, 이에 기초하여 형태소 벡터(821)를 결정할 수 있다. For example, the author meta information reasoning device 110, if the text content is 'give for the peace of the Republic of Korea', the content in one or more morphemes, such as 'Korea,' 'peace', 'for' The morpheme vector 821 can be determined based on the division.

전술한 바와 같이 형태소-벡터 변환기(520)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소와 복수의 형태소 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the morpheme-vector converter 520 may be a correlation between a plurality of morphemes and a plurality of morpheme vectors generated by machine learning, that is, mapping information of both.

따라서 작성자 메타정보 추론 장치(110)는 형태소-벡터 변환기(520)에 하나 이상의 형태소(811)를 입력하고, 그 결과로써 하나 이상의 형태소(811)와 대응되는 형태소 벡터(821)를 획득할 수 있다. Accordingly, the creator meta information inference apparatus 110 may input one or more morphemes 811 into the morpheme-vector converter 520, and as a result, obtain a morpheme vector 821 corresponding to the one or more morphemes 811. .

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징에 기반하여 작성자의 메타정보를 추론할 수 있다.Thus, the present invention can infer the meta information of the author based on the morphological characteristics of the text content.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠(810)를 하나 이상의 음절(812)로 분할하고, 분할된 하나 이상의 음절(812)로부터 음절 벡터(822)를 결정할 수 있다.(S64)Author meta information inference apparatus 110 according to an embodiment of the present invention may divide the text content 810 into one or more syllables 812, and determine the syllable vector 822 from the divided one or more syllables 812. (S64)

가령 전술한 예시에서와 같이 텍스트 콘텐츠가 '대한민국 평화를 위해서 힘내주세요.'인 경우, 작성자 메타정보 추론 장치(110)는 '대', '한', '민', '국' 등과 같이 콘텐츠를 하나 이상의 음절로 분할하고, 이에 기초하여 음절 벡터(822)를 결정할 수 있다.For example, as in the above example, when the text content is "Give it for the peace of Korea," the author meta information inference apparatus 110 displays the content such as "large", "han", "min", "country", and the like. The syllable vector 822 may be determined based on the division into one or more syllables.

전술한 바와 같이 음절-벡터 변환기(620)는 머신 러닝(Machine Learning) 기법으로 생성된 복수의 음절과 복수의 음절 벡터 간의 상관관계, 즉 양자의 매핑 정보일 수 있다.As described above, the syllable-vector converter 620 may be a correlation between a plurality of syllables and a plurality of syllable vectors generated by machine learning, that is, mapping information of both.

따라서 작성자 메타정보 추론 장치(110)는 음절-벡터 변환기(620)에 하나 이상의 음절(812)을 입력하고, 그 결과로써 하나 이상의 음절(812)과 대응되는 음절 벡터(822)를 획득할 수 있다. Accordingly, the creator meta information inference apparatus 110 may input one or more syllables 812 to the syllable-vector converter 620, and as a result, may obtain a syllable vector 822 corresponding to the one or more syllables 812. .

이로써 본 발명은 텍스트 콘텐츠의 음절 특징, 즉 텍스트 콘텐츠의 대화체(또는 말투)에 기반하여 작성자의 메타정보를 추론할 수 있고, 보다 높은 정확도로 작성자의 메타정보를 추론할 수 있다.As a result, the present invention can infer the meta information of the author based on the syllable characteristics of the text content, that is, the dialogue (or tone) of the text content, and can infer the meta information of the author with higher accuracy.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 전술한 과정에 의해서 결정된 형태소 벡터(821), 음절 벡터(822) 및 작성자 인식기(720)에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터(830)를 결정할 수 있다.(S65)Author meta-information inference apparatus 110 according to an embodiment of the present invention corresponds to the meta information of the author based on the morpheme vector 821, syllable vector 822, and author recognizer 720 determined by the above-described process. The meta information vector 830 may be determined (S65).

앞서 설명한 형태소-벡터 변환기(520) 및 음절-벡터 변환기(620)와 유사하게, 작성자 인식기(720) 또한 머신 러닝(Machine Learning) 기법으로 생성된 복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계, 즉 양자의 매핑 정보일 수 있다.Similar to the morpheme-vector converter 520 and syllable-vector converter 620 described above, the author recognizer 720 also includes a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta generated by machine learning techniques. Correlation of information vectors, that is, mapping information of both.

따라서 작성자 메타정보 추론 장치(110)는 작성자 인식기(720)에 형태소 벡터(821) 및 음절 벡터(822)를 입력하고, 그 결과로써 형태소 벡터(821) 및 음절 벡터(822)에 대응되는 메타정보 벡터(830)를 획득할 수 있다. 한편 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 형태소 벡터 및 음절 벡터를 병합하여 콘텐츠 벡터를 생성하고, 생성된 콘텐츠 벡터 및 작성자 인식기(720)에 기초하여 메타정보 벡터(830)를 결정할 수도 있다. 이때 벡터를 병합하는 것은 두 벡터의 차원수의 합에 해당하는 새로운 벡터를 생성하는 것을 의미할수도 있고, 소정의 연산을 통해 새로운 차원(두 벡터의 차원수의 합 이하의 차원)의 벡터를 생성하는 것을 의미할 수도 있다.Accordingly, the author meta information inference apparatus 110 inputs the morpheme vector 821 and the syllable vector 822 to the author recognizer 720, and as a result, the meta information corresponding to the morpheme vector 821 and the syllable vector 822. Vector 830 may be obtained. Meanwhile, the apparatus for inferring meta information 110 according to an embodiment of the present invention generates a content vector by merging a morpheme vector and a syllable vector, and based on the generated content vector and the author recognizer 720, the meta information vector 830. You can also decide). In this case, merging a vector may mean creating a new vector corresponding to the sum of the number of dimensions of the two vectors, and generating a vector of a new dimension (dimensions less than or equal to the sum of the number of dimensions of the two vectors) through a predetermined operation. It might mean doing.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 텍스트 콘텐츠를 소정의 단위로 분할하여 생성한 분할 콘텐츠에 대해서도 전술한 일련의 과정(형태소 벡터, 음절 벡터 및 메타정보 벡터를 결정하는 과정)을 동일하게 수행할 수 있다. 바꾸어 말하면, 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정할 수 있다. 또한 작성자 메타정보 추론 장치(110)는 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 작성자의 메타정보에 대응되는 메타정보 벡터를 결정할 수 있다. 이와 같이 작성자 메타정보 추론 장치(110)는 각 분할 콘텐츠 별 메타정보 벡터를 결정할 수 있다. 한편 이로부터 전체 콘텐츠에 대한 작성자의 메타정보를 결정하는 방법은 후술한다.The creator meta information inference apparatus 110 according to an embodiment of the present invention may determine the aforementioned series of processes (morpheme vector, syllable vector, and meta information vector) for the divided content generated by dividing the text content into predetermined units. Process) can be performed in the same way. In other words, the author meta information inference apparatus 110 may determine a morpheme vector for each of the one or more pieces of divided content. In addition, the creator meta information inference apparatus 110 may determine a syllable vector for each of the one or more pieces of divided content. In addition, the creator meta information inference apparatus 110 may determine a meta information vector corresponding to the creator's meta information based on a morpheme vector of each of the one or more pieces of divided content, a syllable vector of each of the one or more pieces of divided content, and an author recognizer. As such, the creator meta information inference apparatus 110 may determine the meta information vector for each divided content. On the other hand, the method of determining the meta information of the author for the entire content from this will be described later.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 전술한 과정에 의해서 결정된 메타정보 벡터(830)에 기초하여 텍스트 콘텐츠(810) 작성자의 메타정보(840)를 결정할 수 있다.(S66) 이때 콘텐츠 작성자의 메타정보는 작성자의 연령대, 작성자의 성별, 작성자와 관련된 지역, 작성자의 정치성향, 작성자의 학력 및 작성자의 결혼여부 중 적어도 하나를 포함할 수 있다. 물론 상술한 항목들은 예시적인 것으로 어떤 사람의 메타정보로써 사용될 수 있는 항목이라면, 본 발명의 메타정보로써 사용될 수 있다.The creator meta information inference apparatus 110 according to an embodiment of the present invention may determine the meta information 840 of the creator of the text content 810 based on the meta information vector 830 determined by the above-described process. In this case, the meta information of the content creator may include at least one of the age group of the creator, the gender of the creator, a region related to the creator, the political propensity of the creator, the educational background of the creator, and whether the creator is married. Of course, the above-described items are exemplary and may be used as the meta information of the present invention as long as the items can be used as meta information of a person.

본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 메타정보의 각 항목에 대해서, 각 항목에 대한 복수의 선택지의 확률 형태로 메타정보를 결정할 수 있다. 가령 작성자 메타정보 추론 장치(110)는 복수의 후보 연령대(10대, 20대, 30대, 40대, 50대 이상 등)에 작성자가 속할 확률의 형태로 텍스트 콘텐츠 작성자의 연령대를 결정할 수 있다. 또한 이와 유사하게 작성자 메타정보 추론 장치(110)는 작성자가 남성일 확률 및 작성자가 여성일 확률의 형태로 작성자의 성별을 결정할 수 있다. 다만 전술한 연령대 및 성별 항목은 예시적인 것으로, 본 발명의 사상이 이에 한정되는 것은 아니다.The creator meta information inference apparatus 110 according to an embodiment of the present invention may determine meta information for each item of the meta information in the form of probability of a plurality of options for each item. For example, the author meta information inference apparatus 110 may determine the age group of the text content creator in the form of a probability that the creator belongs to a plurality of candidate age groups (for example, teenagers, 20s, 30s, 40s, 50s or more). Similarly, the author meta information inference apparatus 110 may determine the gender of the creator in the form of a probability that the author is a male and a probability that the author is a female. However, the above-mentioned age group and gender items are exemplary, and the spirit of the present invention is not limited thereto.

한편 분할 콘텐츠 각각에 대해 메타정보 벡터를 결정한 경우, 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 각각의 분할 콘텐츠에 대한 메타정보를 결정할 수 있다. Meanwhile, when the meta information vector is determined for each of the divided contents, the creator meta information inference apparatus 110 according to an embodiment of the present invention may determine the meta information about the respective divided contents.

이때 본 발명의 일 실시예에 따른 작성자 메타정보 추론 장치(110)는 각각의 분할 콘텐츠에 대한 메타정보를 병합하여 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수도 있다. 가령 분할 콘텐츠 각각에 대해서 복수의 후보 연령대에 작성자가 속할 확률이 결정된 경우, 작성자 메타정보 추론 장치(110)는 연령대 별 확률의 합(가령 10대에 속할 확률의 합, 20대에 속할 확률의 합 등)으로 전체 텍스트 콘텐츠에 대한 메타정보를 결정할 수 있다. 다만 이는 예시적인것으로 본 발명의 사상이 이에 한정되는 것은 아니다.In this case, the author meta information inference apparatus 110 according to an embodiment of the present invention may determine the meta information for the full text content by merging the meta information for each divided content. For example, when the probability that an author belongs to a plurality of candidate ages is determined for each of the divided contents, the author meta information inference apparatus 110 may add the sum of the probabilities for each age group (for example, the sum of probabilities belonging to teenagers and the sum of probabilities belonging to 20s). Etc.) may determine meta information about the entire text content. However, this is merely illustrative and the spirit of the present invention is not limited thereto.

이로써 본 발명은 텍스트 콘텐츠의 형태소 특징과 음절 특징을 모두 고려하여 작성자의 메타정보를 추론할 수 있다.Accordingly, the present invention can infer the meta information of the author in consideration of both the morpheme features and the syllable features of the text content.

도 7은 본 발명의 일 실시예에 따른 사용자 단말(200)의 디스플레이부에 표시되는 화면(900)의 예시이다.7 is an example of a screen 900 displayed on the display unit of the user terminal 200 according to an embodiment of the present invention.

설명의 편의를 위하여, 서버(100)는 사용자가 사용자 단말(200)을 통하여 입력한 텍스트 콘텐츠에 대한 작성자의 메타정보를 제공하는 서비스를 제공하며, 사용자가 사용자 단말(200)을 통하여 서버(100)로 도시된 바와 같은 문구를 전송하였다고 가정한다.For convenience of explanation, the server 100 provides a service for providing the meta information of the creator for the text content input by the user through the user terminal 200, and the user may access the server 100 through the user terminal 200. Assume that you have sent a phrase as shown by).

상술한 가정 하여, 본 발명의 일 실시예에 따른 서버(100)는 추론된 콘텐츠 작성자의 메타정보를 사용자 단말(200)에 화면(900)과 같이 제공할 수 있다.Assuming that the above-described, the server 100 according to an embodiment of the present invention can provide the meta-information of the inferred content creator to the user terminal 200 as the screen 900.

이때 화면(900)은 사용자가 입력한 콘텐츠의 내용이 표시되는 영역(910), 추론된 작성자의 성별이 확률의 형태로 표시되는 영역(920) 및 추론된 작성자의 연령대가 확률의 형태로 표시되는 영역(930)을 포함할 수 있다.In this case, the screen 900 displays an area 910 in which the content of the content input by the user is displayed, an area 920 in which the gender of the inferred author is displayed in the form of probability, and an age group of the inferred creator is displayed in the form of probability. Region 930 may be included.

이상 설명된 본 발명에 따른 실시예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 저장하는 것일 수 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. Embodiments according to the present invention described above may be implemented in the form of a computer program that can be executed through various components on a computer, such a computer program may be recorded on a computer readable medium. In this case, the medium may be a program executable by a computer. Examples of the medium include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And ROM, RAM, flash memory, and the like, configured to store program instructions.

한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.On the other hand, the computer program may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software field. Examples of computer programs may include not only machine code generated by a compiler, but also high-level language code executable by a computer using an interpreter or the like.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.Particular implementations described in the present invention are embodiments and do not limit the scope of the present invention in any way. For brevity of description, descriptions of conventional electronic configurations, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections. In addition, unless specifically mentioned, such as "essential", "important" may not be a necessary component for the application of the present invention.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the spirit of the present invention is defined not only in the claims below, but also in the ranges equivalent to or equivalent to the claims. Will belong to.

100: 서버
110: 메타정보 추론 장치
111: 통신부
112: 제어부
113: 메모리
200: 사용자 단말
300: 외부장치
400: 통신망
100: server
110: meta information inference device
111: communication unit
112: control unit
113: memory
200: user terminal
300: external device
400: network

Claims (10)

메타정보 추론 장치가 텍스트 콘텐츠(Text Contents)를 소정의 단위로 분할하여 작성자의 메타정보를 추론하는 방법에 있어서,
텍스트 콘텐츠를 수신하는 단계;
상기 텍스트 콘텐츠를 소정의 단위로 분할하여 하나 이상의 분할 콘텐츠를 생성하는 단계;
상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 형태소로 분할하고, 형태소-벡터 변환기에 기초하여 상기 분할된 하나 이상의 형태소로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 형태소 벡터를 결정하는 단계;
상기 하나 이상의 분할 콘텐츠 각각을 하나 이상의 음절로 분할하고, 음절-벡터 변환기에 기초하여 상기 분할된 하나 이상의 음절로부터 상기 하나 이상의 분할 콘텐츠 각각에 대한 음절 벡터를 결정하는 단계; 및
상기 하나 이상의 분할 콘텐츠 각각의 형태소 벡터, 상기 하나 이상의 분할 콘텐츠 각각의 음절 벡터 및 작성자 인식기에 기초하여 상기 작성자의 메타정보에 대응되는 메타정보 벡터를 결정하는 단계;를 포함하고,
상기 형태소-벡터 변환기는
복수의 형태소와 복수의 형태소 벡터 간의 상관관계를 표현한 데이터 세트이고,
상기 음절-벡터 변환기는
복수의 음절과 복수의 음절 벡터 간의 상관관계를 표현한 데이터 세트이고,
상기 작성자 인식기는
복수의 형태소 벡터 및 복수의 음절 벡터와 복수의 메타정보 벡터의 상관관계를 표현한 데이터 세트인, 작성자의 메타정보를 추론하는 방법.
A method of inferring meta information of an author by dividing text contents into predetermined units by a meta information inference device,
Receiving text content;
Dividing the text content into predetermined units to generate one or more divided contents;
Dividing each of the one or more fragmented contents into one or more morphemes and determining a morpheme vector for each of the one or more fragmented contents from the segmented one or more morphemes based on a morpheme-vector converter;
Dividing each of the one or more divided contents into one or more syllables, and determining a syllable vector for each of the one or more divided contents from the divided one or more syllables based on a syllable-vector converter; And
Determining a meta information vector corresponding to the meta information of the author based on a morpheme vector of each of the one or more pieces of divided content, a syllable vector of each of the one or more pieces of divided content, and an author recognizer;
The morpheme-vector converter
A data set representing a correlation between a plurality of stems and a plurality of stem vectors,
The syllable-vector converter
A data set representing a correlation between a plurality of syllables and a plurality of syllable vectors,
The creator recognizer
A method of inferring meta information of an author, which is a data set representing a correlation between a plurality of morpheme vectors, a plurality of syllable vectors, and a plurality of meta information vectors.
삭제delete 삭제delete 삭제delete 제1 항에 있어서
상기 작성자의 메타정보를 추론하는 방법은
상기 메타정보 벡터를 결정하는 단계 이후에
상기 결정된 메타정보 벡터에 기초하여 상기 텍스트 콘텐츠 작성자의 메타정보를 결정하는 단계;를 더 포함하는, 작성자의 메타정보를 추론하는 방법.
The method of claim 1
The method of inferring the meta information of the author
After determining the meta information vector
And determining the meta information of the text content creator based on the determined meta information vector.
제5 항에 있어서
상기 텍스트 콘텐츠 작성자의 메타정보는
상기 작성자의 연령대, 상기 작성자의 성별, 상기 작성자과 관련된 지역, 상기 작성자의 정치성향, 상기 작성자의 학력 및 상기 작성자의 결혼여부 중 적어도 하나를 포함하는, 작성자의 메타정보를 추론하는 방법.
The method of claim 5
The meta information of the text content creator
And at least one of an age range of the author, a gender of the author, a region associated with the author, a political propensity of the author, an education of the author, and whether the author is married.
제6 항에 있어서
상기 작성자의 메타정보를 결정하는 단계는
복수의 후보 연령대에 상기 작성자가 속할 확률의 형태로 상기 텍스트 콘텐츠 작성자의 연령대를 결정하고,
상기 작성자가 남성일 확률 및 상기 작성자가 여성일 확률의 형태로 상기 텍스트 콘텐츠 작성자의 성별을 결정하는, 작성자의 메타정보를 추론하는 방법.
The method of claim 6
Determining the meta information of the creator
Determine the age group of the text content creator in the form of a probability that the author belongs to a plurality of candidate age groups,
And determining the gender of the text content creator in the form of a probability that the author is a male and a probability that the author is a female.
제1 항에 있어서
상기 작성자의 메타정보를 추론하는 방법은
제1 테스트 형태소 및 상기 제1 테스트 형태소에 대응되는 제1 형태소 벡터를 포함하는 복수의 제1 학습 데이터에 기초하여 상기 형태소-벡터 변환기를 학습시키는 단계;
제1 테스트 음절 및 상기 제1 테스트 음절에 대응되는 제1 음절 벡터를 포함하는 복수의 제2 학습 데이터에 기초하여 상기 음절-벡터 변환기를 학습시키는 단계; 및
제2 형태소 벡터, 제2 음절 벡터 및 상기 제2 형태소 벡터와 상기 제2 음절 벡터에 대응되는 메타정보 벡터를 포함하는 제3 학습 데이터에 기초하여 상기 작성자 인식기를 학습시키는 단계;를 더 포함하는, 작성자의 메타정보를 추론하는 방법.
The method of claim 1
The method of inferring the meta information of the author
Training the morpheme-vector converter based on a plurality of first training data comprising a first test morpheme and a first morpheme vector corresponding to the first test morpheme;
Training the syllable-vector converter based on a plurality of second training data including a first test syllable and a first syllable vector corresponding to the first test syllable; And
Training the creator recognizer based on a second morpheme vector, a second syllable vector, and third training data including a meta information vector corresponding to the second morpheme vector and the second syllable vector; How to infer the author's meta information.
삭제delete 컴퓨터를 이용하여 제1 항 및 제5 항 내지 제8 항 중 어느 한 항의 방법을 실행하기 위하여 컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer readable recording medium for carrying out the method of any one of claims 1 and 5 to 8 using a computer.
KR1020170166201A 2017-12-05 2017-12-05 A method and computer program for inferring metadata of a text contents creator KR101985900B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170166201A KR101985900B1 (en) 2017-12-05 2017-12-05 A method and computer program for inferring metadata of a text contents creator
PCT/KR2018/001409 WO2019112117A1 (en) 2017-12-05 2018-02-01 Method and computer program for inferring meta information of text content creator

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170166201A KR101985900B1 (en) 2017-12-05 2017-12-05 A method and computer program for inferring metadata of a text contents creator

Related Child Applications (4)

Application Number Title Priority Date Filing Date
KR1020190017399A Division KR101985904B1 (en) 2019-02-14 2019-02-14 A method and computer program for inferring metadata of a text content creator by dividing the text content
KR1020190017396A Division KR101985901B1 (en) 2019-02-14 2019-02-14 A method and computer program for providing service of inferring metadata of a text contents creator
KR1020190017397A Division KR101985902B1 (en) 2019-02-14 2019-02-14 A method and computer program for inferring metadata of a text contents creator considering morphological and syllable characteristics
KR1020190017398A Division KR101985903B1 (en) 2019-02-14 2019-02-14 A method and computer program for inferring metadata of a text content creator by dividing the text content into sentences

Publications (1)

Publication Number Publication Date
KR101985900B1 true KR101985900B1 (en) 2019-09-03

Family

ID=66750524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170166201A KR101985900B1 (en) 2017-12-05 2017-12-05 A method and computer program for inferring metadata of a text contents creator

Country Status (2)

Country Link
KR (1) KR101985900B1 (en)
WO (1) WO2019112117A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102488620B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method for distributing revenue related to assetized training data and assetized artificial neural network data
KR102488619B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method to capitalize the learned artificial neural network
KR102488618B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method to capitalize learning data for learning of artificial neural network

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144575B (en) * 2019-12-05 2022-08-12 支付宝(杭州)信息技术有限公司 Public opinion early warning model training method, early warning method, device, equipment and medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060090202A1 (en) * 2004-10-27 2006-04-27 Institute For Information Industry Methods and systems for data authorization and mobile devices using the same
KR20070008991A (en) * 2005-07-14 2007-01-18 주식회사 케이티 Text category classification apparatus and its method
KR100701044B1 (en) * 2004-07-20 2007-03-29 황상석 System for handling the state of emergency based on the on-line network
KR20120109943A (en) * 2011-03-28 2012-10-09 가톨릭대학교 산학협력단 Emotion classification method for analysis of emotion immanent in sentence
KR20130036863A (en) * 2011-10-05 2013-04-15 (주)워드워즈 Document classifying system and method using semantic feature
KR20150023432A (en) * 2012-06-21 2015-03-05 톰슨 라이센싱 Method and apparatus for inferring user demographics
US20150379887A1 (en) * 2014-06-26 2015-12-31 Hapara Inc. Determining author collaboration from document revisions

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025602A (en) * 2003-07-04 2005-01-27 Matsushita Electric Ind Co Ltd Text and language generation device and its selection means
KR100935828B1 (en) * 2007-10-02 2010-01-06 동국대학교 산학협력단 Apparatus and method for extracting emotion information
KR101110026B1 (en) * 2009-12-04 2012-02-29 한국과학기술원 Apparatus and method for searching local information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100701044B1 (en) * 2004-07-20 2007-03-29 황상석 System for handling the state of emergency based on the on-line network
US20060090202A1 (en) * 2004-10-27 2006-04-27 Institute For Information Industry Methods and systems for data authorization and mobile devices using the same
KR20070008991A (en) * 2005-07-14 2007-01-18 주식회사 케이티 Text category classification apparatus and its method
KR20120109943A (en) * 2011-03-28 2012-10-09 가톨릭대학교 산학협력단 Emotion classification method for analysis of emotion immanent in sentence
KR20130036863A (en) * 2011-10-05 2013-04-15 (주)워드워즈 Document classifying system and method using semantic feature
KR20150023432A (en) * 2012-06-21 2015-03-05 톰슨 라이센싱 Method and apparatus for inferring user demographics
US20150379887A1 (en) * 2014-06-26 2015-12-31 Hapara Inc. Determining author collaboration from document revisions

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102488620B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method for distributing revenue related to assetized training data and assetized artificial neural network data
KR102488619B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method to capitalize the learned artificial neural network
KR102488618B1 (en) * 2021-12-17 2023-01-18 주식회사 텐 Method to capitalize learning data for learning of artificial neural network
WO2023113091A1 (en) * 2021-12-17 2023-06-22 주식회사 텐 Method for distributing revenue related to assetized learning data and assetized artificial neural network data
WO2023113090A1 (en) * 2021-12-17 2023-06-22 주식회사 텐 Method for assetization of trained artificial neural network
WO2023113089A1 (en) * 2021-12-17 2023-06-22 주식회사 텐 Method for assetizing training data for training artificial neural network

Also Published As

Publication number Publication date
WO2019112117A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN111274815B (en) Method and device for mining entity focus point in text
CN112131366B (en) Method, device and storage medium for training text classification model and text classification
CN110276023B (en) POI transition event discovery method, device, computing equipment and medium
KR101985900B1 (en) A method and computer program for inferring metadata of a text contents creator
CN109376222B (en) Question-answer matching degree calculation method, question-answer automatic matching method and device
CN110969012B (en) Text error correction method and device, storage medium and electronic equipment
CN111737552A (en) Method, device and equipment for extracting training information model and acquiring knowledge graph
US11675975B2 (en) Word classification based on phonetic features
CN111666766B (en) Data processing method, device and equipment
CN111488742B (en) Method and device for translation
CN114648032B (en) Training method and device of semantic understanding model and computer equipment
CN113761190A (en) Text recognition method and device, computer readable medium and electronic equipment
JP2020071839A (en) Search device, search method, search program, and recording medium
CN107111607A (en) The system and method detected for language
CN112214595A (en) Category determination method, device, equipment and medium
CN112182255A (en) Method and apparatus for storing media files and for retrieving media files
CN113468330B (en) Information acquisition method, device, equipment and medium
CN112100355A (en) Intelligent interaction method, device and equipment
CN112131884A (en) Method and device for entity classification and method and device for entity presentation
US11880664B2 (en) Identifying and transforming text difficult to understand by user
Kumari et al. Domain-Specific Chatbot Development Using the Deep Learning-Based RASA Framework
CN115620726A (en) Voice text generation method, and training method and device of voice text generation model
KR102072708B1 (en) A method and computer program for inferring genre of a text contents
KR101985901B1 (en) A method and computer program for providing service of inferring metadata of a text contents creator