KR101667199B1 - Relative quality index estimation apparatus of the web page using keyword search - Google Patents

Relative quality index estimation apparatus of the web page using keyword search Download PDF

Info

Publication number
KR101667199B1
KR101667199B1 KR1020150012261A KR20150012261A KR101667199B1 KR 101667199 B1 KR101667199 B1 KR 101667199B1 KR 1020150012261 A KR1020150012261 A KR 1020150012261A KR 20150012261 A KR20150012261 A KR 20150012261A KR 101667199 B1 KR101667199 B1 KR 101667199B1
Authority
KR
South Korea
Prior art keywords
result
search
target
content
web page
Prior art date
Application number
KR1020150012261A
Other languages
Korean (ko)
Other versions
KR20160091756A (en
Inventor
공성랑
김회승
김종필
전효빈
Original Assignee
(주)해나소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)해나소프트 filed Critical (주)해나소프트
Priority to KR1020150012261A priority Critical patent/KR101667199B1/en
Publication of KR20160091756A publication Critical patent/KR20160091756A/en
Application granted granted Critical
Publication of KR101667199B1 publication Critical patent/KR101667199B1/en

Links

Images

Classifications

    • G06F17/3053
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/30864

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

키워드 검색을 통한 대상 검색 엔진에서 검색되는 검색 결과 웹 페이지를 기초로 분석 대상 웹 페이지의 품질을 상대적으로 평가하는 컴퓨팅 장치가 제공된다. 상대적 품질 지수 평가 장치는, 목표 키워드로 대상 검색 엔진에서 검색되는 레퍼런스 페이지와 분석 대상 웹 페이지를 동일한 분석 알고리즘으로 분석하여 생성한 결과를 상대적으로 비교하여 품질 지수를 산출할 수 있다. 이때 분석 대상은 웹 페이지를 구성하는 요소가 되고, 분석 알고리즘은 검색 엔진에 상응하는 검색 최적화 기준이 적용될 수 있다.There is provided a computing device for relatively evaluating the quality of a web page to be analyzed based on a search result web page retrieved from a target search engine through keyword search. The relative quality index evaluation apparatus can calculate the quality index by comparing the results generated by analyzing the reference page and the analysis target web page, which are retrieved from the target search engine, with the same analysis algorithm using the target keyword. At this time, the analysis target becomes an element constituting the web page, and the analysis algorithm can be applied a search optimization criterion corresponding to the search engine.

Description

키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치{RELATIVE QUALITY INDEX ESTIMATION APPARATUS OF THE WEB PAGE USING KEYWORD SEARCH}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a web page indexing system,

웹 페이지의 품질 지수 평가에 연관되며, 보다 구체적으로는 목표 키워드와 대상 검색 엔진에서 통해 검색되는 검색 결과 웹 페이지를 기초로 분석 대상 웹 페이지의 품질을 상대적으로 평가하는 컴퓨팅 장치에 연관된다.Relates to a quality index evaluation of a web page, and more specifically to a computing device that relatively evaluates the quality of a web page to be analyzed based on a target keyword and a search result web page that is searched through the target search engine.

미국의 경제학자 롤랜드 홀(Rolland Hall)은 소비자의 구매과정을 단계 별로 나타낸 AIDMA 이론을 제시하였다. AIDMA 이론은 소비자가 Attention, Interest, Desire, Memory, Action 단계의 순서로 상품을 구매한다고 설명한다. 광고 등을 통해 소비자에게 상품에 대한 주의를 끄는 단계(Attention), 소비자가 상품에 대한 흥미를 가지는 단계(Interest), 소비자가 상품을 원하게 되는 단계(Desire), 당장 구매하지 않더라도 소비자의 머리 속에 상품을 각인하는 단계(Memory), 마지막으로 소비자가 구매를 결정하고 결제를 하는 행동 단계(Action)로써, 마케팅과 직접 연관된 단계는 Attention 단계와 Memory 단계가 된다. Attention 단계에서는 잠정적인 소비자에게 제품을 노출할 수 있도록 다양한 방법으로 광고를 하고, Memory 단계에서는 기업이 자사의 제품에 좋은 기억을 심어주기 위한 다양한 마케팅을 적용하게 된다.American economist Rolland Hall presented the AIDMA theory which shows the consumer's purchasing process step by step. AIDMA theory explains that consumers purchase items in the order of Attention, Interest, Desire, Memory, and Action. Attention to attract consumers to the product through advertisements, Interest that the consumer has interest in the product, Desire that the consumer wants the product, Memory is the step of imprinting the product, and finally, the action that the consumer decides and makes the payment. The steps directly related to marketing are the Attention phase and the Memory phase. In the Attention stage, advertisements are made in various ways to expose products to potential consumers. In the memory stage, companies apply diverse marketing methods to instill good memories in their products.

하지만, 최근 인터넷의 발달로 소셜 네트워크가 일상화되면서 AIDMA 이론이 재편성되어 AISAS 이론이 새롭게 등장했다. AISAS 이론은 Attention, Interest, Search, Action, Share 단계를 포함하는데, 새로운 행동 양식으로 검색(Search)과 공유(Share) 단계가 추가되었다. 구매가 완료되면 단계가 종료하는 AIDMA 이론과 달리 AISAS 이론은 SAS 단계가 반복될 수 있다. 즉, 소비자는 흥미가 생기는 제품에 대해서 구매 전에 인터넷 검색을 하고, 구매한 후에는 구매 경험을 소셜 네트워크를 통해 타인과 공유한다. 나아가 스마트폰이나 태블릿의 등장은 기존 PC를 활용한 AISAS 에서 관심(Interest)과 검색(Search)이 동시에 일어나는 변화를 가져왔다.However, as the social network became common due to the recent development of the Internet, AIDAS theory was reorganized and AISAS theory emerged. The AISAS theory includes Attention, Interest, Search, Action, and Share phases, and new search and search steps are added. Unlike the AIDMA theory, when the purchase is completed, the AISAS theory can repeat the SAS step. In other words, consumers search the Internet for products that interest them, and then share their purchasing experiences with others through social networks. Furthermore, the emergence of smartphones and tablets brought about changes in interest and search in AISAS using existing PCs.

이와 같은 소비패턴의 변화는 마케팅의 변화를 가져왔고, 새로운 행동 양식인 검색과 공유에 마케팅의 포인트가 맞춰지고 있다. 하지만, 소비자가 제품 구매를 공유하기 위해 작성하는 온라인 컨텐츠는 구성요소 및 종류가 다양하고, 인터넷 검색 결과는 온라인 컨텐츠의 내용뿐 만 아니라 검색어, 검색 엔진, 또는 검색 대상 등 다양한 요소에 의하여 가변적이기 때문에 검색(Search) 단계에서 어떠한 내용을 공유(Share) 하게 될지 예측하기 어려운 점이 있다.This change in consumption patterns has led to changes in marketing, and marketing has become a new mode of behavior - search and share. However, online contents that consumers create to share product purchases vary in their constituent elements and types, and Internet search results are variable due to various factors such as a search word, a search engine, or a search target as well as contents of online contents It is difficult to predict what contents will be shared in the search phase.

한국공개특허공보 제10-2013-0043297호, 2013.04.30 공개.Korean Patent Laid-Open Publication No. 10-2013-0043297, published on March 30, 2013.

일측에 따르면, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는: 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부를 포함하는 컴퓨팅 장치가 제공된다. 상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것일 수 있으며, 미리 지정된 수준은, 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정될 수 있다. 상기 제1 컨텐츠 및 상기 제2 컨텐츠는, 제목, 본문, 하이퍼링크, 이미지, 음성, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다.According to one aspect, there is provided a computing device comprising at least one processor, the computing device comprising: at least one processor configured to: at least temporarily store: a first A first result analyzing the content by an analysis algorithm and a second result analyzing the second content extracted from the web page to be analyzed by the analysis algorithm; And a computing unit for computing a quality index of the web page to be analyzed by comparing the first result and the second result. The at least one reference page may be ranked at a predetermined level or higher in a search result retrieved from the target search engine by the target keyword as a query, and the predetermined level may be a predetermined number of The reference page can be determined. The first content and the second content may include at least one of a title, a body, a hyperlink, an image, a voice, a moving picture, a keyword, a comment, a sympathy, a tag, a map,

일실시예에 따르면, 상기 분석 알고리즘은, 상기 제1 컨텐츠를 통계적으로 분석하고, 상기 분석된 결과를 기초로 상기 검색 엔진의 검색 최적화 기준에 대응하는 권고 값을 산출하여 상기 제1 결과로 설정할 수 있으며, 이때 상기 검색 최적화 기준은, 글자수, 본문 내 키워드 수, 이미지 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함할 수 있다. 상기 검색 최적화 기준은 상기 대상 검색 엔진에 상응하여 결정되며, 상기 대상 검색 엔진은 하나 이상일 수 있다. 상기 분석 알고리즘은, 검색 순위에 따른 가중치를 상기 레퍼런스 페이지에 부여하여 상기 권고 값에 상기 검색 순위를 반영할 수 있다.According to an embodiment, the analysis algorithm statistically analyzes the first content, calculates a recommendation value corresponding to a search optimization criterion of the search engine based on the analyzed result, and sets the recommendation value as the first result The search optimization criterion may include the number of characters, the number of keywords in the text, the number of images included, the number of videos included, the number of maps included, the number of comments, the number of empathy, the number of tags, the number of tags included in the keywords, , A title beginning with a keyword, or a map interlock number. The search optimization criterion may be determined corresponding to the target search engine, and the target search engine may be one or more. The analysis algorithm may assign a weight according to a search order to the reference page, and reflect the search order to the recommendation value.

일실시예에 따르면, 상기 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 상기 문서 객체 모델로부터 계층적으로 상기 제1 컨텐츠를 추출할 수 있고, 상기 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 상기 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출할 수 있다.According to one embodiment, the data constituting the reference page may be converted into a document object model (DOM), the first content may be extracted hierarchically from the document object model, The first content can be automatically extracted from the reference page by using a bot having a rule corresponding to the content output method of the user.

일실시예에 따르면, 상기 품질 지수를 출력하는 출력부를 더 포함하되, 상기 출력부는, 상기 품질 지수를 시각적으로 나타낸 통계 그래프를 제공하거나 상기 품질 지수에 따라 미리 작성된 분석내용 설명 및 추천 작성 방법을 포함할 수 있다.According to an embodiment of the present invention, the apparatus further includes an output unit for outputting the quality index, wherein the output unit includes a statistical graph that visually indicates the quality index, can do.

다른 일측에 따르면, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는: 목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및 상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부를 포함하는 컴퓨팅 장치가 제공된다. 상기 연산부는, 상기 제1 결과로부터 상기 대상 검색 엔진에 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 보편 지수를 더 계산할 수 있다.According to another aspect, there is provided a computing device comprising at least one processor, said computing device being implemented at least temporarily by said at least one processor: extracting from at least one reference page retrieved from a plurality of target search engines corresponding to a target keyword A first result obtained by analyzing the first content by a plurality of analysis algorithms corresponding to the target search engine used in the search and a second result obtained by analyzing the second content extracted from the analysis target web page by the plurality of analysis algorithms An analyzing unit to generate; And a computing unit for computing a quality index of the web page to be analyzed by comparing the first result classified with the target search engine and the second result. The operation unit may extract an element common to the target search engine from the first result, set a recommendation value, and further compute a universal index of the analysis target web page by comparing the recommendation value and the second result .

도 1은 일실시예에 따른 컴퓨팅 장치를 나타낸 블록도이다.
도 2는 사용자가 일실시예에 따른 컴퓨팅 장치의 사용 예를 나타낸 도면이다.
도 3은 일실시예에서 대상 검색 엔진으로부터 검색되는 결과 화면의 예시이다.
도 4는 일실시예에서 사용될 수 있는 웹 페이지의 예시이다.
도 5는 일실시예에서 웹 페이지 수집 장치를 나타낸 블록도이다.
도 6은 일실시예에 따른 웹 페이지 상대적 품질 지수 계산 방법의 흐름도이다.
도 7은 다른 실시예에서 복수 개의 대상 검색 엔진으로부터 검색되는 결과 화면의 예시이다.
1 is a block diagram illustrating a computing device in accordance with one embodiment.
2 is a diagram illustrating an example of a user using a computing device according to an embodiment.
3 is an example of a result screen retrieved from a target search engine in one embodiment.
4 is an illustration of a web page that may be used in one embodiment.
5 is a block diagram illustrating a web page collection device in one embodiment.
6 is a flowchart of a method for calculating a relative quality index of a web page according to an embodiment.
7 is an example of a result screen retrieved from a plurality of target search engines in another embodiment.

이하에서, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 이러한 실시예들에 의해 권리범위가 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. However, the scope of the rights is not limited or limited by these embodiments. Like reference symbols in the drawings denote like elements.

아래 설명에서 사용되는 용어는, 연관되는 기술 분야에서 일반적으로 보편적인 것으로 선택되었으나, 기술의 발달 및/또는 변화, 관례, 기술자의 선호 등에 따라 다른 용어가 있을 수 있다. 따라서, 아래 설명에서 사용되는 용어는 기술적 사상을 한정하는 것으로 이해되어서는 안되며, 실시예들을 설명하기 위한 예시적인 용어로 이해되어야 한다.The terms used in the following description are selected generally universally in the art to which they relate, but there may be other terms depending on the development and / or change in technology, customs, preferences of the technician, and the like. Accordingly, the terminology used in the following description should not be construed as limiting the technical thought, but should be understood in the exemplary language used to describe the embodiments.

또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세한 그 의미를 기재할 것이다. 따라서 아래 설명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 이해되어야 한다.
Also, in certain cases, there may be a term chosen arbitrarily by the applicant, in which case the meaning of the detailed description in the corresponding description section. Therefore, the term used in the following description should be understood based on the meaning of the term, not the name of a simple term, and the contents throughout the specification.

도 1은 일실시예에 따른 컴퓨팅 장치(100)를 나타낸 것으로, 분석부(110) 및 연산부(120)를 포함할 수 있다. 컴퓨팅 장치(100)는 통신부(미도시)를 통해 네트워크와 연결될 수 있으며, 통신부는 유선 또는 무선의 다양한 통신 수단을 활용하여 네트워크 상의 수많은 종류의 온라인 문서, 컨텐츠, 자료 등에 접근할 수 있다. 컴퓨팅 장치(100)는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서에 의해 적어도 일시적으로 분석부(110) 및 연산부(120)이 구현된다. 예컨대 컴퓨팅 장치는 PC, 서버, 스마트 폰, 태블릿 등 다양한 종류의 디바이스가 될 수 있다.FIG. 1 illustrates a computing device 100 according to an embodiment. The computing device 100 may include an analysis unit 110 and an operation unit 120. The computing device 100 can be connected to a network through a communication unit (not shown), and the communication unit can access various kinds of online documents, contents, and data on the network by using various communication means such as wired or wireless. The computing device 100 includes at least one processor, and the analysis unit 110 and the computing unit 120 are implemented at least temporarily by at least one processor. For example, the computing device may be a variety of devices, such as a PC, a server, a smart phone, a tablet, and the like.

도 1을 설명하기에 앞서, 도 2를 살펴보면 도 2는 사용자(200)가 도 1의 일실시예에 따른 컴퓨팅 장치(100)를 사용하는 사용 예를 나타낸 도면이다. 예시적으로 그러나 한정되지 않는 하나의 예를 들어 설명한다. 만일 사용자가 온라인 게시글(http://blog.com/20154)을 작성하고, 목표 키워드("홍대맛집")에 의해 검색되는 품질 지수가 궁금한 경우, 도 2와 같이 컴퓨팅 장치(100)에 목표 키워드/평가 대상을 입력하게 된다. 컴퓨팅 장치(100)는 "홍대맛집"으로 검색된 다른 웹 페이지를 비교 대상으로 수집/분석하여 사용자의 온라인 게시글에 대한 품질 지수를 계산하게 된다. 그리고 산출된 품질지수를 진단결과 리포트 혹은 다양한 종류의 그래프로 표현되는 분석 결과 리포트로 사용자에게 제공할 수 있다. 다시 말해, 컴퓨팅 장치(100)는 사용자가 원하는 목표 키워드와 평가 대상(분석 대상 웹 페이지)을 입력하면 대상 검색 엔진에서 다른 웹 페이지와 비교하여 상대적으로 어떠한 품질을 가지는지 분석 리포트를 제공하여 줄 수 있다. 이하에서는 구체적으로 컴퓨팅 장치(100)의 각 구성요소를 설명한다.Prior to describing FIG. 1, referring to FIG. 2, FIG. 2 is a diagram illustrating an example in which a user 200 uses a computing device 100 according to an embodiment of FIG. Illustrative but non-limiting examples are given below. If the user creates an online bulletin (http://blog.com/20154) and wonders about the quality index searched by the target keyword ("Goodbye restaurant"), the target keyword / Target of evaluation is input. The computing device 100 collects / analyzes other web pages that are searched for "Hong-dae restaurant" as a comparison target, and calculates a quality index for a user's online post. Then, the calculated quality index can be provided to the user as a diagnosis result report or an analysis result report expressed in various types of graphs. In other words, when the user inputs a desired keyword and an evaluation target (analysis target web page), the computing device 100 can provide analysis reports on the quality of the target search engine in comparison with other web pages have. Hereinafter, each component of the computing device 100 will be described in detail.

분석부(110)는 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 분석 알고리즘으로 분석한 제2 결과를 생성할 수 있다.The analysis unit 110 analyzes the first content obtained by analyzing the first content extracted from the at least one reference page retrieved from the target search engine in accordance with the target keyword with the analysis algorithm and the second result extracted from the analysis target web page The second result analyzed by the algorithm can be generated.

검색 엔진에서 키워드를 검색하면 웹 페이지들 중에서 키워드를 포함하거나 관련된 것이 검색 결과로 피드백 된다. 검색 대상이 되는 웹 페이지는 인터넷 상의 웹 문서들을 총칭한 용어로, 네트워크를 통해 접근할 수 있는 모든 종류의 온라인 문서, 컨텐츠, 자료 등이 될 수 있으며, 다양한 텍스트는 물론 이미지, 소리, 동영상 파일도 내장할 수 있는 특징이 있다. 예컨대, 웹 페이지는 홈페이지 게시글, 커뮤니티 게시글, 질문글, 답변글, 블로그, SNS 페이지, PDF 문서 등이 될 수 있다. 일실시예에서는 웹 페이지를 대상으로 키워드 검색을 하여 상대적 품질 지수를 평가할 수 있다. 따라서 분석부(110)는 목표 키워드에 대응하여 대상 검색 엔진에서 검색을 수행한 결과인 레퍼런스 페이지와 분석 대상 웹 페이지를 분석한다. 여기서, 레퍼런스 페이지와 분석 대상 웹 페이지는 모두 웹 페이지에 해당하고, 목표 키워드로부터 검색될 수 있지만, 레퍼런스 페이지와 분석 대상 웹 페이지가 동일한 종류일 필요는 없으며, 다른 종류의 웹 페이지인 경우에도 상대적 품질 지수를 평가할 수 있다.When a keyword is searched by a search engine, keywords included in the web pages or related information are fed back to the search results. A web page to be searched is a generic term of web documents on the Internet. It can be any kinds of online documents, contents, and materials that can be accessed through a network. In addition to various texts, images, sounds, and video files There are features that can be embedded. For example, the web page may be a homepage post, a community post, a question post, an answer post, a blog, an SNS page, a PDF document, and the like. In one embodiment, the relative quality index can be evaluated by performing a keyword search on a web page. Accordingly, the analysis unit 110 analyzes the reference page and the analysis target web page, which are the results of performing the search in the target search engine corresponding to the target keyword. Here, both the reference page and the analysis target web page correspond to the web page and can be searched from the target keyword. However, the reference page and the analysis target web page do not have to be the same kind, The index can be evaluated.

보다 상세하게 분석부(110)는 웹 페이지를 구성하는 구성요소인 컨텐츠를 분석하는데, 레퍼런스 페이지로부터 추출된 제1 컨텐츠와 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠가 분석 대상이 된다. 제1 컨텐츠와 제2 컨텐츠는 제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다. 이는 예시적인 것으로 제1 컨텐츠 및 제2 컨텐츠에 포함될 수 있는 것이지 이들로 제한되지 않으며 온라인 상의 새로운 표현 프로토타입이 생기면 당연히 새로운 프로토타입도 제1 컨텐츠 또는 제2 컨텐츠에 포함될 수 있을 것이다. 즉, 웹 페이지를 구성하는 모든 요소는 분석 대상으로서 제1 컨텐츠 또는 제2 컨텐츠가 될 수 있다.In more detail, the analysis unit 110 analyzes content, which is a component constituting a web page. The first content extracted from the reference page and the second content extracted from the analysis target web page are analyzed. The first content and the second content may include at least one of a title, a text, a hyperlink, an image, a sound, a moving picture, a keyword, a comment, an empathy, a tag, a map, This may be included in the first content and the second content by way of example, but is not limited thereto. If a new presentation prototype occurs on-line, a new prototype may naturally be included in the first content or the second content. That is, all the elements constituting the web page can be the first content or the second content as an analysis target.

분석부(110)는 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과와 제2 컨텐츠를 동일한 분석 알고리즘으로 분석한 제2 결과를 각각 생성한다. 제1 컨텐츠가 제목을 포함하는 경우 분석 알고리즘은 목표 키워드와 관련하여 제목을 분석하기 위해 제목을 구성하는 글자의 수, 폰트, 강조여부, 키워드 포함 여부, 키워드로 시작하는지 여부 등을 판단할 수 있다.The analyzer 110 generates a first result analyzing the first content by the analysis algorithm and a second result analyzing the second content by the same analysis algorithm, respectively. When the first content includes a title, the analysis algorithm can determine the number of characters constituting the title, the font, emphasis, whether the keyword is included, whether the keyword starts with, or the like in order to analyze the title in relation to the target keyword .

검색 엔진은 하나가 아니며, 각 검색 엔진마다 검색 대상이 달라질 수 있고 검색 결과를 나타내는 방식도 달라질 수 있다. 도 3은 일실시예에 따라 대상 검색 엔진으로부터 검색되는 결과 화면(300)의 예시이다. 검색 엔진마다 검색 결과가 상이하게 배치될 수 있기 때문에 일 예로서 도 3을 설명하고자 한다.
The search engine is not one, the search object may be different for each search engine, and the way in which the search result is displayed may vary. 3 is an illustration of a result screen 300 that is retrieved from a targeted search engine in accordance with one embodiment. Since the search results may be arranged differently for each search engine, FIG. 3 will be described as an example.

도 3을 참조하면, 목표 키워드를 대상 검색 엔진이 제공하는 인터페이스(310)에 입력하고 검색(320)을 수행하면, 결과 리스트(330)에 검색된 레퍼런스 페이지들(400)이 배치된다. 레퍼런스 페이지(400)의 개수는 목표 키워드에 따라 달라질 수 있기 때문에 검색 결과가 많은 경우 도 2와 같이 결과 리스트(330)로 N 개의 페이지를 링크하여 레퍼런스 페이지(400)를 제공할 수 있다. 또한, 대상 검색 엔진에 따라 결과 화면(300)이 상이해지면, 한 화면에서 확인할 수 있는 레퍼런스 페이지의 개수도 달라질 수 있다. 이는 디스플레이 장치의 가독성과 관련하여 결정될 수 있으며, 구현 환경에 따라 적절하게 선택될 수 있다.
Referring to FIG. 3, when the target keyword is input to the interface 310 provided by the target search engine and the search 320 is performed, the retrieved reference pages 400 are arranged in the result list 330. Since the number of the reference pages 400 may vary according to the target keyword, when there are a large number of search results, the reference page 400 may be provided by linking N pages to the result list 330 as shown in FIG. Also, if the result screen 300 is different according to the target search engine, the number of reference pages that can be confirmed on one screen may also be changed. This can be determined with respect to the readability of the display device, and can be appropriately selected depending on the implementation environment.

도 4는 일실시예에서 사용될 수 있는 웹 페이지(400)의 예시이다. 일실시예에서 웹 페이지(400)는 목표 키워드로 검색되는 레퍼런스 페이지 또는 분석 대상 웹 페이지가 될 수 있다. 웹 페이지의 종류는 너무나 다양하기 때문에 도 4는 일 예로서 설명을 위한 것이다. 웹 페이지(400)는 제목(401), 작성 일시(402), 이미지(403), 텍스트로 구성될 수 있는 본문(404), 본문의 내용과 관련되어 작성자에 의해 선택된 단어를 나타내는 태그(405) 등을 포함할 수 있다. 도 4에서는 일부 구성요소를 표현한 것으로 표현된 구성요소가 삭제되거나, 다른 구성요소 추가될 수 있음은 당연하다. 앞서 설명한 것과 같이 웹 페이지를 구성하는 제1 컨텐츠 및 제2 컨텐츠가 웹 페이지(400)의 구성요소가 될 수 있다.4 is an illustration of a web page 400 that may be used in one embodiment. In one embodiment, the web page 400 may be a reference page or an analysis target web page that is searched with a target keyword. Because the types of web pages are so diverse, Fig. 4 is for illustrative purposes only. The web page 400 includes a title 401, a creation date and time 402, an image 403, a body text 404 that may be composed of text, a tag 405 indicating a word selected by the author in association with the content of the body text, And the like. In FIG. 4, it is a matter of course that the constituent elements represented by expressing some constituent elements may be deleted, or other constituent elements may be added. As described above, the first content and the second content constituting the web page may be constituent elements of the web page 400. [

일실시예에서 적어도 하나의 레퍼런스 페이지는ㅈ목표 키워드를 쿼리로 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크(Rank)되는 것일 수 있다. 레퍼런스 페이지는 분석 대상 웹 페이지의 품질 지수를 계산하기 위한 비교 대상을 의미하는데, 목표 키워드로 검색되는 모든 웹 페이지를 레퍼런스 페이지로 볼 수도 있고 일정 수준을 만족하는 웹 페이지만을 레퍼런스 페이지로 볼 수도 있다. 예를 들어, 검색 결과로 피드백 되는 첫 화면에 포함되는 웹 페이지를 레퍼런스 페이지로 보거나 검색 결과 검색 순위 100위에 포함되는 웹 페이지를 레퍼런스 페이지로 볼 수 있다. 또한 대상 검색 엔진 또는 결과 화면의 디스플레이 장치에 상응하여 노출되는 레퍼런스 페이지의 개수나 배치 관계가 달라질 수 있으므로 동일하게 지정된 수준에 의해서도 레퍼런스 페이지의 실제 개수는 상이해질 수 있다.In one embodiment, the at least one reference page may be ranked at a predetermined level or higher in a search result retrieved from the target search engine as a query target keyword. The reference page refers to a comparison object for calculating the quality index of the web page to be analyzed. It is possible to view all the web pages retrieved by the target keyword as a reference page or only a web page satisfying a predetermined level as a reference page. For example, a web page included in the first screen fed back as a search result may be referred to as a reference page, or a web page included in the search result ranking 100th page may be referred to as a reference page. In addition, since the number or arrangement of the reference pages exposed in correspondence with the display device of the target search engine or the result screen may vary, the actual number of reference pages may be different even at the same designated level.

이와 같이 미리 지정된 수준은, 상위에 랭크(Rank)되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정될 수 있다. 검색 결과로서 랭크되는 순서와 개수에 대응하여 결정될 수 있는 것을 의미한다. 실시자는 품질 지수를 산출하는 목적 및 비교 대상에 따라 적절히 선택하여 결정할 수 있을 것이다.The predetermined level may be determined as a predetermined number of the reference pages in order of ranking. Quot; can be determined in accordance with the order and the number that is ranked as a search result. The practitioner will be able to select and make appropriate choices according to the purposes for which the quality index is calculated and the subjects to be compared.

키워드 검색에 대응되는 검색 결과는 검색 최적화 기준에 따라 달라질 수 있다. 검색 최적화 기준(Search Engine Optimization; SEO) 이란, 검색 엔진에 의해 키워드로 검색된 결과에 순서 즉 검색 순위(Retrieval ranking)를 매기는 지표를 말한다. 검색 엔진에 따라 검색 최적화 기준이 달라질 수 있다. 예컨대 검색 최적화 기준에 부합할수록 높은 검색 순위로 웹 페이지가 배치될 것이고 검색 최적화 기준에 부합하지 못할수록 낮은 검색 순위로 웹 페이지가 배치되는 것이다. AISAS 이론의 검색(Search) 과정에서 제품과 관련된 키워드를 목표 키워드로 할 때 검색 최적화 기준에 부합하는 웹 페이지들이 잠정 소비자들에게 노출되기 쉬울 것이고, 반대로 구매자가 작성한 공유(Share) 게시글이 검색 최적화 기준에 부합 할수록 타인과 공유할 수 있는 확률이 높아지게 된다. 따라서 검색 최적화 기준은 검색 엔진에 상응하여 결정될 수 있으며 목적하는 검색 엔진에서 검색 최적화 기준에 따라 웹 페이지의 품질 지수를 산출하면 해당 검색 엔진의 마케팅 수단에 활용할 수 있는 효과를 가질 수 있다.The search result corresponding to the keyword search may be different according to the search optimization criterion. Search Engine Optimization (SEO) is an index that assigns a ranking to a search result by a search engine. Search optimization criteria may vary depending on the search engine. For example, as the search optimization criterion meets the search criteria, the web page will be arranged in a higher search ranking. When the keyword related to the product is used as a keyword in the search process of the AISAS theory, it is likely that the web pages meeting the search optimization criteria are likely to be exposed to the prospective consumers. On the other hand, The greater the likelihood of sharing with others. Therefore, the search optimization criterion can be determined according to the search engine, and if the quality index of the web page is calculated according to the search optimization criterion in the target search engine, the search optimization criterion can be utilized for the marketing means of the search engine.

도 1의 분석부(110)는 제1 결과 및 제2 결과를 생성하기 위해 분석 알고리즘을 이용하는데, 일실시예에서 상기 분석 알고리즘은 제1 컨텐츠를 통계적으로 분석하고 분석된 결과를 기초로 상기 대상 검색 엔진의 검색 최적화 기준(SEO)에 대응하는 권고 값(Guideline)을 산출하여 제1 결과로 설정할 수 있다.The analysis unit 110 of FIG. 1 uses an analysis algorithm to generate a first result and a second result, in one embodiment, the analysis algorithm statistically analyzes the first content and, based on the analyzed result, A recommendation value corresponding to a search optimization criterion (SEO) of a search engine may be calculated and set as a first result.

검색 최적화 기준(SEO)은, 글자수, 본문 내 키워드 수, 이미지 포함 수, 소리 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함할 수 있다. 이는 예시적인 것으로 제한하여 해석될 것은 아니며 웹 페이지를 구성하는 구성요소(예컨대, 일실시예에서의 제1 컨텐츠 또는 제2 컨텐츠)를 평가하는 지표가 될 수 있다면 무엇이든 검색 최적화 기준(SEO)의 구성요소가 될 수 있다. 검색 엔진마다 검색 최적화 기준(SEO)에 포함되는 구성요소의 개수나 종류가 달라질 수 있으며 그 구성요소마다 가중치가 다르게 주어질 수도 있다.Search optimization criteria (SEO) is based on the number of characters, the number of keywords in the text, the number of images included, the number of sounds included, the number of videos included, the number of images included, the number of maps included, the number of comments, Keyword inclusion, keyword inclusion, keyword subject inclusion, or map interworking. This is not to be construed as limiting the invention to the exemplary embodiment, and it is to be understood that any element of the search optimization criteria (SEO) may be used as an indicator for evaluating components (e.g., first content or second content in an embodiment) It can be a component. For each search engine, the number and type of components included in the Search Optimization Standard (SEO) may vary, and the weight may be given differently for each component.

한편, 분석 알고리즘은 검색 순위(Retrieval ranking)에 따른 가중치를 레퍼런스 페이지에 부여하여 권고 값(Guideline)에 검색 순위를 반영할 수 있다. 즉 인기 게시물의 경우 일반 게시글에 비해 권고 값 설정에 더 큰 영향을 끼칠 수 있도록 하는 것이다. 인기 게시글은 대상 검색 엔진의 검색 최적화 기준에 많이 부합한다고 보아 그 정도를 가중치로 반영하는 것이다.On the other hand, the analysis algorithm can assign the weight according to the retrieval rank to the reference page, and reflect the search ranking in the recommendation value. In other words, the popularity of posts will have a greater impact on setting the recommendation value than a regular post. Most popular posts are based on the search optimization criteria of the target search engine.

다시 도 1로 돌아가서, 연산부(120)는 분석부(110)가 생성한 제1 결과와 제2 결과를 비교하여 분석 대상 웹 페이지의 품질 지수를 계산할 수 있다. 품질 지수란, 웹 페이지가 목표 키워드에 대응하여 대상 검색 엔진에서 검색되는 적어도 하나 이상의 레퍼런스 페이지와 비교하여 결정되는 상대적 지수이다. 품질 지수는 제1 결과와 제2 결과를 상대적으로 비교하여 산출되며, 구체적으로 제1 결과를 통계적으로 분석한 후 분석된 결과를 기초로 산출된 권고 값을 기준으로 제2 결과를 비교함으로써 품질 지수를 계산할 수도 있다.Referring back to FIG. 1, the computing unit 120 may compute the quality index of the web page to be analyzed by comparing the first result generated by the analyzing unit 110 with the second result. The quality index is a relative index in which a web page is determined in comparison with at least one reference page retrieved from a target search engine corresponding to a target keyword. The quality index is calculated by comparing the first result and the second result relatively. Specifically, the first result is statistically analyzed, and then the second result is compared based on the calculated recommendation value based on the analyzed result, .

다음은 일실시예에서 예시적으로 사용한 품질 지수 계산 방법을 설명한다.The following describes an exemplary quality index calculation method in one embodiment.

Figure 112015008308177-pat00001
Figure 112015008308177-pat00001

ak는 제1 컨텐츠의 각 항목을 나타내고, Ai는 레퍼런스 페이지의 제1 컨텐츠 값의 각 항목의 합의 평균을 나타낸다. 또는, ak는 제2 컨텐츠의 각 항목을 나타내고, Ai는 제2 컨텐츠 값의 각 항목의 합의 평균을 나타낸다.a k denotes each item of the first content, and A i denotes an average of the sum of each item of the first content value of the reference page. Alternatively, a k represents each item of the second content, and A i represents an average of the sum of each item of the second content value.

레퍼런스 페이지 중에서 가장 상위에 랭크되는 일정한 양의 데이터들은 과도한 컨텐츠 포스팅과 같이 의미 없는 데이터에 해당할 수 있으므로, 분석 대상에서 제외할 필요가 있다. 또한 레퍼런스 페이지 중에서 가장 하위에 랭크되는 일정한 양의 데이터들 역시 의미 없는 데이터로 간주할 수 있는데, 이는 어뷰징된 수치 값이 환산되어 검색 순위가 매겨진 것으로 볼 수 있기 때문이다. 따라서 가장 상위(max) 및 가장 하위(min)에 랭크된 각각의 10 %를 불용처리 한 후, 정규화한 권고 값 di를 아래 수학식 2와 같이 계산할 수 있다.A certain amount of data ranked at the top of the reference page may be meaningless data, such as an excessive content posting, and therefore should be excluded from analysis. Also, a certain amount of data ranked at the bottom of the reference page can also be regarded as meaningless data because the observed numerical values are converted and ranked in search order. Therefore, after inserting 10% of each rank ranked in the uppermost (max) and lowest (min), the normalized recommended value d i can be calculated as shown in the following Equation 2.

Figure 112015008308177-pat00002
Figure 112015008308177-pat00002

수학식 1과 수학식 2를 이용하여 제2 컨텐츠의 각 항목에 상응하는 제2 결과로부터 품질 지수를 계산하는 식은 아래 수학식 3과 같이 정의할 수 있다.The equation for calculating the quality index from the second result corresponding to each item of the second content using Equations (1) and (2) can be defined as Equation (3) below.

Figure 112015008308177-pat00003
Figure 112015008308177-pat00003

수학식 3의 변수는 수학식 1 및 수학식 2와 같고, 백분위 점수로 산출된다. 제2 컨텐츠의 각 항목에 상응하기 때문에 예를 들어, 작성 일시, 글자수와 같은 항목에 대해 백분위 점수를 알 수 있다.The variables in Equation (3) are as shown in Equations (1) and (2), and are calculated as percentiles. It corresponds to each item of the second content, and therefore, the percentile score can be known for items such as the date and time of creation and the number of characters.

목표 키워드로 검색되는 레퍼런스 페이지를 비교 대상으로 분석 대상 웹 페이지를 상대적으로 비교한 품질 지수를 절대적 수치로 산출하기 때문에 직관적으로 분석 대상 웹 페이지의 품질을 이해하기 쉽다. 품질 지수가 높을수록 목표 키워드로 검색된 레퍼런스 페이지들 중에서 상위에 랭크된 웹 페이지와 유사한 것을 의미하고 대상 검색 엔진에 따라서 다른 기준(검색 최적화 기준)을 적용하기 때문에 해당 검색 엔진에서 목표 키워드에 의해 현재 분석 대상 웹 페이지의 랭킹을 예측할 수 있을 뿐만 아니라 부족한 점을 제2 결과에 대한 품질 지수의 항목을 통해 파악할 수 있는 효과를 가진다.It is easy to understand the quality of the web page to be analyzed intuitively because the quality index obtained by comparing the target web page with the reference page that is searched by the target keyword is calculated as an absolute value. As the quality index is higher, it means that it is similar to the top ranked web page among the reference pages searched by the target keyword, and other criteria (search optimization criteria) are applied according to the target search engine. Therefore, It is possible not only to predict the ranking of the target web page but also to grasp the shortage through the item of the quality index for the second result.

일실시예에서 품질 지수를 출력하는 출력부를 더 포함할 수 있다. 출력부는 품질 지수에 따라 미리 작성된 분석 내용 설명 및 추천 작성 방법을 포함하는 가이드를 제공할 수 있다. 예를 들어, 백분위 점수에 따라 "글자수가 충분합니다."와 같은 정성적인 분석 내용 설명을 포함할 수 있고, "작성 일시가 너무 오래 되었습니다."라는 분석 내용 설명에 대응해서는 "새로 웹 페이지를 작성하세요."와 같은 추천 장석 방법을 제시할 수 있다. 도 2에서 분석 리포트를 제공하는 것이 일 예이며, 이와 같은 가이드를 가시적으로 표현할 수 있는 다양한 방법으로 실시자에게 피드백할 수 있다.
In one embodiment, the apparatus may further include an output unit for outputting the quality index. The output unit may provide a guide including an analysis content description prepared in advance according to the quality index and a recommendation preparation method. For example, you might include a qualitative description of the content such as "The number of characters is sufficient" based on the percentile score, and in response to the analysis description "The date and time of creation is too long" You can suggest a recommended feldspar method such as. It is an example to provide an analysis report in FIG. 2, and feedback can be given to the operator through various methods that can express such a guide visually.

도 5는 일실시예에서 웹 페이지 수집 장치(500)를 나타낸 블록도로서, 비교 대상이 되는 웹 페이지 및 그로부터 제1 컨텐츠를 수집하는 방법을 상세히 설명하고자 한다. 웹 페이지 수집 장치(500)는 사용자로부터 목표 키워드와 평가 대상을 입력 받아서 평가 대상에 대한 상대적 품질 지수 산출을 위해 스케줄 모듈(510)에 작업을 할당할 수 있다. 스케줄 모듈(510)은 목표 키워드와 평가 대상인 URL 정보 등을 저장 모듈(550)에 저장할 수 있다. 그리고 평가 대상을 대기 작업 큐에 등록시켜 순차적으로 비교 대상 수집을 수행하게 할 수 있다. 대기 작업 큐는 복수의 가상 작업 모듈(Job1, Job2, …) 로 구성된 것으로, 가상 작업 모듈은 복수의 스크랩핑 봇(scraping bot) (520)을 이용하여 웹 페이지를 수집할 수 있다. 약 100여 개의 스크랩핑 봇(520)이 대기 작업 큐를 호출하면서 필요한 작업을 할당 받게 된다. 이때 검색된 결과들은 동일 도메인 영역이 아닐 수 있기 때문에 크로스 도메인(Cross Domain) 제어 모듈(530)이 특정 포털 사이트의 상위 랭크된 미리 지정된 수준의 레퍼런스 페이지를 자동으로 스크래핑 할 수 있다. 스크랩핑 봇들(520)은 레퍼런스 페이지를 자동으로 스크랩핑 하면서, 하위 모듈을 가지고 자동으로 데이터를 수집할 수 있다. 하위 모듈은 제목, 텍스트, 이미지 등과 같은 컨텐츠를 분류할 수 있는 분류 모듈 또는 광고 등을 자동으로 제거할 수 있는 필터링 모듈 등이 될 수 있다. 스크랩핑 봇들(520)이 수집한 데이터는 수집 모듈(540)에 의해 2차적으로 제1 컨텐츠를 추출할 수 있는 단계를 거칠 수 있다. 원시 데이터(Raw Data) 자체를 수집하고, 수집된 원시 텍스트 데이터에서 문서 객체 모델(Document Object Model; DOM)로 변환한 후, 계층적 데이터 수집이 가능한 형태로 변환하게 된다. 그리고 제목, 메타 태그, 텍스트 개수, 강조 글 개수, 현재 순위 등과 같은 항목 별로 데이터를 수집하게 된다. 이는 원시 데이터를 구성하는 요소에 따라 결정될 수 있다. 마지막으로 이미지, 동영상, 링크 등과 같은 하이퍼 미디어를 수집할 수 있다. 이와 같이 수집된 데이터는 가공된 상태인 제1 컨텐츠 항목에 대응하여 저장 모듈(550)에 저장될 수 있으며, 이후 저장된 데이터는 갱신될 수도 있다. 이와 같은 방법으로 일실시예에서 레퍼런스 페이지를 수집하고 제1 컨텐츠를 자동으로 추출할 수 있다. 이는 예시적인 방법으로 구현 환경에 따라 다르게 실시할 수도 있음은 당연할 것이다.FIG. 5 is a block diagram illustrating a web page collection apparatus 500 according to an exemplary embodiment of the present invention. Referring to FIG. 5, a web page to be compared and a method for collecting first content from the web page will be described in detail. The web page collection device 500 may receive a target keyword and an evaluation target from a user, and may assign a task to the schedule module 510 to calculate a relative quality index for the evaluation target. The schedule module 510 may store the target keyword, the URL information to be evaluated, and the like in the storage module 550. Then, the evaluation object can be registered in the waiting task queue to sequentially perform the comparison object collection. The waiting task queue is composed of a plurality of virtual work modules (Job1, Job2, ...), and the virtual work module can collect web pages using a plurality of scrapping bots (520). Approximately 100 scrapping bots 520 are assigned to the necessary tasks while calling the standby job queue. At this time, because the retrieved results may not be in the same domain region, the cross domain control module 530 may automatically scrap an upper-ranked reference page of a predetermined level of a specific portal site. Scrapping bots 520 can automatically collect data with sub-modules while automatically scraping reference pages. The sub-module may be a classification module capable of classifying contents such as a title, a text, an image, or the like, or a filtering module capable of automatically removing an advertisement or the like. The data collected by the scraping bots 520 may be subjected to a step of secondarily extracting the first content by the acquisition module 540. The raw data itself is collected, converted from the collected raw text data into a document object model (DOM), and converted into a form capable of hierarchical data collection. And collect data by items such as title, meta tag, number of text, number of emphasis, current rank, and so on. This can be determined according to the elements constituting the raw data. Finally, you can collect hypermedia such as images, videos, links, and so on. The collected data may be stored in the storage module 550 corresponding to the first content item in a processed state, and then the stored data may be updated. In this way, in one embodiment, the reference page can be collected and the first content can be automatically extracted. It will be appreciated that this may be done differently depending on the implementation environment in an exemplary manner.

이와 같이 일실시예에서는 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 문서 객체 모델로부터 계층적으로 제1 컨텐츠를 추출할 수 있다. 문서 객체 모델은 웹 브라우저를 통한 확장성 생성 언어(XML) 문서의 상호 연동을 위한 객체 기반의 문서 모델로 플랫폼과 언어 면에서 중립적인 인터페이스로서 프로그램과 스크립트에 의한 문서의 내용, 구조, 종류의 동적인 접근이 가능하기 때문에 일실시예에서는 이와 같은 문서 객체 모델을 이용하여 레퍼런스 페이지를 구성하는 제1 컨텐츠를 쉽게 추출할 수 있다.In one embodiment, the data constituting the reference page is converted into a document object model (DOM), and the first content can be extracted hierarchically from the document object model. The document object model is an object-based document model for interoperability of XML (Extensible Markup Language) documents through a web browser. It is a platform and language-neutral interface, and it is a dynamic of document contents, structure, It is possible to easily extract the first contents constituting the reference page by using the document object model in this embodiment.

그리고 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출할 수 있다. 비교대상 즉 레퍼런스 페이지가 많은 경우에 봇을 이용하여 제1 컨텐츠를 자동으로 추출할 수 있어 시간적으로 효율적일 수 있다.The first content can be automatically extracted from the reference page by using a bot having a rule corresponding to the content output method of the target search engine. The first content can be automatically extracted using the bot when the comparison object, that is, the reference page, is large, so that it can be time-efficient.

일실시예에 따른 컴퓨팅 장치가 분석 대상 웹 페이지의 품질 지수를 계산하기 위한 과정을 예시 값을 통해 더욱 상세히 설명하고자 한다.A process for calculating a quality index of a web page to be analyzed by a computing apparatus according to an exemplary embodiment will be described in more detail with reference to exemplary values.

표 1은 N개의 레퍼런스 페이지(Reference Page; RP)로부터 생성한 제1 결과를 나타낸 예시이다. SEO는 검색 최적화 기준(Search Engine Optimization)이고, unit은 SEO 값에 대한 단위를 나타내고, RP 1, RP 2, RP 3, …, RP N은 N개의 레퍼런스 페이지를 의미한다.Table 1 is an example showing the first result generated from the N reference pages (RP). SEO is Search Engine Optimization, unit is the unit for SEO value, RP 1, RP 2, RP 3, ... , RP N means N reference pages.

SEOSEO unitunit RP 1RP 1 RP 2RP 2 RP 3RP 3 ... RP NRP N 1One 작성 일시Date and Time 일(현재기준)Day (current basis) -2-2 -4-4 -5-5 -156-156 22 키워드 제목 포함 여부Include keyword headers 포함/미포함Included / Not included 포함include 포함include 포함include 미포함Without 33 글자 수Number of characters dog 12791279 900900 12021202 576576 44 본문 내 키워드 수Number of keywords in the body dog 33 33 44 1One 55 이미지 업로드 수Number of images uploaded dog 1515 1414 1212 55 66 코멘트 수Comments dog 4242 3838 1212 33 77 공감 수Empathy number dog 2424 88 4040 00

표 2는 분석 대상 웹 페이지(User Page)로부터 생성한 제2 결과를 나타낸 예시이다. 분석 대상 웹 페이지는 사용자가 작성한 온라인 게시글이 될 수 있다.Table 2 is an example showing the second result generated from the analysis target Web page (User Page). The web page to be analyzed can be an online post written by the user.

SEOSEO unitunit User PageUser Page 1One 작성 일시Date and Time 일(현재기준)Day (current basis) 00 22 키워드 제목 포함 여부Include keyword headers 포함/미포함Included / Not included 미포함Without 33 글자 수Number of characters dog 11001100 44 본문 내 키워드 수Number of keywords in the body dog 44 55 이미지 업로드 수Number of images uploaded dog 1010 66 코멘트 수Comments dog 1010 77 공감 수Empathy number dog 1010

표 1의 제1 결과와 표 2의 제2 결과는 일실시예에서 분석부(110)의 동일한 분석 알고리즘에 의해 산출된 결과를 나타낸다. 따라서 동일한 항목에 대한 분석 결과가 산출된 것을 알 수 있다. 표 1과 표 2와 같이 제1 결과 및 제2 결과는 단일 값이 아닌 복수 값의 조합으로 만들어 질 수 있다.The first result of Table 1 and the second result of Table 2 show the result calculated by the same analysis algorithm of the analysis unit 110 in one embodiment. Therefore, it can be seen that the analysis result for the same item is calculated. As shown in Tables 1 and 2, the first result and the second result can be made of a combination of a plurality of values rather than a single value.

표 3은 표 1의 제1 결과로부터 산출한 권고 값(Guideline)을 나타낸 표이다. 권고 값은 대상 검색 엔진에서 검색 순위에 영향을 미치는 정도를 의미한다.Table 3 is a table showing recommendation values (Guideline) calculated from the first result of Table 1. < tb > < TABLE > The recommendation value means the degree to which the target search engine affects the search ranking.

SEOSEO unitunit GuidelineGuideline 1One 작성 일시Date and Time 일(현재기준)Day (current basis) -7-7 22 키워드 제목 포함 여부Include keyword headers 포함/미포함Included / Not included 포함include 33 글자 수Number of characters dog 16981698 44 본문 내 키워드 수Number of keywords in the body dog 33 55 이미지 업로드 수Number of images uploaded dog 1818 66 코멘트 수Comments dog 2323 77 공감 수Empathy number dog 1414

상기 표 3에서 작성 일시의 권고 값은 -7로 현재 기준에서 7일 전을 나타내고 검색 최적화 기준에 대응하여 7일 전에 작성된 웹 페이지까지 높은 검색 순위를 가질 수 있는 것을 의미한다. 또한 글자 수의 권고 값은 1698개로 웹 페이지의 총 글자 수가 1698개에 부족한 만큼 검색 최적화 기준을 만족하지 못하는 것으로 볼 수 있다. 검색 최적화 기준은 각 항목의 별도 값이 아니라 항목의 조합과 그에 대한 권고 값으로 해석하는 것이 더 의미 있다. 앞서 설명한 바와 같이 검색 최적화 기준은 검색 엔진마다 상이할 수 있다.In Table 3, the recommendation value of the creation date and time is -7, which indicates 7 days before the current standard, and corresponds to the search optimization criterion, which means that it can have a high search ranking up to the web page created 7 days before. Also, the recommendation value of the number of characters is 1698, which means that the total number of characters in the web page is not enough to meet the search optimization criterion. It is more meaningful to interpret the search optimization criterion as a combination of items and a recommendation value thereof rather than a separate value of each item. As described above, the search optimization criteria may be different for each search engine.

표 4는 권고 값(표 3)과 분석 대상 웹 페이지의 제1 결과(표 2)를 비교하여 분석 대상 웹 페이지에 대한 정규화 값 및 백분위 점수를 계산한 품질 지수를 나타낸 표이다. 일실시예에서는 품질 지수를 백분위 점수로 산출하여 실시자에게 분석 대상 웹 페이지의 정량적인 분석 결과를 제시할 수 있다.Table 4 is a table showing the quality indexes for calculating the normalized value and the percentile score of the web page to be analyzed by comparing the recommendation value (Table 3) with the first result (Table 2) of the web page to be analyzed. In one embodiment, the quality index is calculated as a percentile score, and a quantitative analysis result of the web page to be analyzed can be presented to the practitioner.

SEOSEO unitunit guidelineguideline User PageUser Page 정규화 값Normalization value 점수
(점)
score
(point)
1One 작성 일시Date and Time 일(현재기준)Day (current basis) -7-7 00 0.240.24 4040 22 키워드 제목 포함 여부Include keyword headers 포함/미포함Included / Not included 포함include 미포함Without 0.50.5 100100 33 글자 수Number of characters dog 16981698 11001100 0.770.77 6262 44 본문 내 키워드 수Number of keywords in the body dog 33 44 0.880.88 8888 55 이미지 업로드 수Number of images uploaded dog 1818 1010 0.950.95 5656 66 코멘트 수Comments dog 2323 1010 0.440.44 4040 77 공감 수Empathy number dog 1414 1010 0.570.57 5050

상기 표 4의 작성 일시는 40 점으로 직관적으로 해석하기에 품질이 낮은 것으로 볼 수 있고, 키워드 제목 포함 여부는 100점으로 품질이 높고, 글자 수는 62점으로 보통에 해당한다고 볼 수 있다.The creation date and time of Table 4 can be interpreted intuitively as 40 points, which means that the quality is low, and the keyword title is 100 points, the quality is high, and the number of characters is 62 points.

품질 지수를 출력하는 출력부에서는 상기 표 4와 같이 품질 지수를 출력할 수 있고, 나아가 점수에 따른 정성적인 분석 결과 내용과 추천 작성 가이드를 포함할 수 있다. 분석 및 그에 대응한 조치까지 실시자에게 알려줄 수 있는 효과를 가질 수 있다.The output unit for outputting the quality index can output the quality index as shown in Table 4, and can further include qualitative analysis result contents according to the score and a recommendation creation guide. Analysis and countermeasures can be given to the operator.

도 6은 일실시예에 따른 웹 페이지 상대적 품질 지수 계산 방법의 흐름도로서, 사용자가 평가하고자 하는 웹 페이지에 대해서 목표 키워드에 대응하여 대상 검색 엔진에서 상대적 품질 지수를 계산하는 방법을 단계별로 구체화한 것이다. S610 단계에서는 사용자로 하여금 목표 키워드와 평가 대상을 입력받을 수 있다. S620 단계에서는 대상 검색 엔진에서 입력 받은 목표 키워드로 검색을 수행하고, 검색한 결과를 레퍼런스 페이지로 수집할 수 있다. 이 과정에서 도 5와 같은 웹 페이지 수집 장치를 이용하여 자동으로 비교 대상들을 추출할 수 있다. 그 다음 S630 단계에서는 수집된 레퍼런스 페이지로부터 제1 컨텐츠를 추출한다. 또한 평가 대상인 웹 페이지로부터는 제2 컨텐츠를 추출할 수 있다. 제1 컨텐츠 및 제2 컨텐츠는 웹 페이지를 구성하는 구성요소에 대응되는 것으로 제목, 텍스트, 소리, 이미지, 동영상, 태그 등과 같은 다양한 것이 될 수 있음을 앞서 설명한 바와 같다.6 is a flowchart of a method of calculating a relative quality index of a web page according to an exemplary embodiment of the present invention, and illustrates a method of calculating a relative quality index in a target search engine in response to a target keyword, . In step S610, the user can input the target keyword and the evaluation target. In step S620, the search may be performed using the target keyword received from the target search engine, and the search result may be collected as a reference page. In this process, the comparison objects can be automatically extracted using the web page collection device as shown in FIG. In step S630, the first content is extracted from the collected reference page. Further, the second content can be extracted from the web page to be evaluated. The first content and the second content correspond to the constituent elements of the web page, and may be various types such as title, text, sound, image, moving image, tag, and the like.

그리고 S640 단계에서는 제1 컨텐츠와 제2 컨텐츠를 분석하게 된다. 동일한 분석 알고리즘을 이용하여 각 컨텐츠들을 항목별로 분석한 결과를 제1 결과 및 제2 결과로 생성할 수 있다. 예를 들어, 제목에 키워드가 포함되었는지 여부와 같은 분석 내용을 포함할 수 있다. S650 단계에서 평가 대상에 대한 제2 결과와 비교 대상인 레퍼런스 페이지에 대한 제1 결과를 상대적으로 비교하게 된다. 이때는 통계 방법을 이용하여 산술적으로 비교할 수 있으며, 각 항목의 단위에 따라서 세부적으로 비교가 이루어질 수 있다. 특히 대상 검색 엔진에서 검색 최적화 기준(SEO)에 따라 제1 결과를 이용하여 권고 값을 산출하고 상기 권고 값과 제2 결과를 비교하는 방법도 사용될 수 있다. 비교 대상과 평가 대상을 다양한 방법으로 비교함으로써 상대적인 품질 지수를 산출할 수 있다.In step S640, the first content and the second content are analyzed. It is possible to generate the first and second results of analyzing each content item by using the same analysis algorithm. For example, the subject may include analysis such as whether the keyword is included. In step S650, the second result of the evaluation object is compared with the first result of the reference page to be compared. At this time, it is possible to perform an arithmetic comparison using statistical methods, and detailed comparisons can be made according to the units of each item. In particular, a method may be used in which a recommended value is calculated using a first result according to a search optimization criterion (SEO) in a target search engine, and the recommended value is compared with a second result. The relative quality index can be calculated by comparing the comparison object with the evaluation object in various ways.

그러면 S660 단계에서는, 품질 지수를 포함하는 비교 결과 리포트를 생성할 수 있다. 비교 결과 리포트는 백분위 점수로 표현한 품질 지수나 레퍼런스 페이지들과 가시적으로 비교할 수 있는 비교 그래프 등으로 작성될 수 있으며 사용자에게 유용한 정보를 제공하게 된다.
Then, in step S660, a comparison result report including the quality index can be generated. The result of the comparison can be made up of a quality index expressed as a percentile score or a comparative graph that can be visually compared with reference pages and provides useful information to the user.

도 7은 다른 실시예에 따라 복수 개의 대상 검색 엔진으로부터 검색되는 결과 화면(300)의 예시이다. 검색 엔진은 하나 이상 존재하며, 각 검색 엔진은 검색 대상인 데이터 베이스, 검색 알고리즘, 검색 결과를 배치하는 방법 등이 다르다. 따라서 다른 실시예로서 복수 개의 대상 검색 엔진을 이용하여 분석 대상 웹 페이지의 품질 지수를 산출하는 컴퓨팅 장치를 제공한다.FIG. 7 is an illustration of a result screen 300 that is retrieved from a plurality of target search engines in accordance with another embodiment. There are one or more search engines, and each search engine is different from the database to be searched, the search algorithm, and the method of placing the search results. Accordingly, another embodiment provides a computing device that calculates a quality index of a web page to be analyzed using a plurality of target search engines.

다른 실시예에 따른 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는 분석부 및 연산부를 포함한다.A computing device comprising at least one processor according to another embodiment includes an analyzer and an arithmetic unit implemented at least temporarily by the at least one processor.

분석부는 목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과를 생성한다. 검색에 사용된 대상 검색 엔진에 상응하여 제1 결과를 생성하기 때문에 제1 결과의 내용은 대상 검색 엔진의 종류에 따라 구분될 수 있다. 그리고 분석부는 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성한다. 제2 결과 역시 복수 개의 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 결과기 때문에 제2 결과의 내용도 대상 검색 엔진의 종류에 따라 구분될 수 있다. 상기 제1 컨텐츠 및 상기 제2 컨텐츠는, 제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다. 한편으론, 일실시예의 분석부(도 1의 110)가 복수 개의 대상 검색 엔진에 대하여 반복하여 제1 결과 및 제2 결과를 실시한 것과 동일하게 해석될 수 있다. 따라서 도 1의 분석부(110)는 다른 실시예의 상기 분석부에 포함될 수 있는 구성이며, 상세한 설명은 중복되어 기재하지 않는다.The analysis unit generates a first result obtained by analyzing first content extracted from at least one reference page retrieved from a plurality of target search engines in correspondence with a target keyword with a plurality of analysis algorithms corresponding to a target search engine used for the search do. Since the first result is generated corresponding to the target search engine used for the search, the contents of the first result can be classified according to the type of the target search engine. The analyzer generates a second result analyzing the second content extracted from the web page to be analyzed by the plurality of analysis algorithms. Since the second result is also a result of analyzing with a plurality of analysis algorithms corresponding to a plurality of target search engines, the contents of the second result can be classified according to the type of the target search engine. The first content and the second content may include at least one of a title, a text, a hyperlink, an image, a sound, a moving picture, a keyword, a comment, a sympathy, a tag, a map, On the other hand, the analysis unit (110 in FIG. 1) of the embodiment can be interpreted the same as the first result and the second result are repeatedly performed for a plurality of target search engines. Therefore, the analysis unit 110 of FIG. 1 can be included in the analysis unit of another embodiment, and detailed description thereof will not be repeated.

연산부는 상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산한다. 제1 결과와 제2 결과 모두 대상 검색 엔진의 종류에 따라 그 내용이 구분될 수 있으며, 구분하여 각 항목에 대한 상대적인 비교를 할 수 있다. 또한, 상기 연산부는 제1 결과로부터 대상 검색 엔진에 공통되는 요소를 추출하고 권고 값을 설정한 후, 상기 권고 값과 상기 제2 결과를 비교하여 분석 대상 웹 페이지의 보편 지수를 더 계산할 수 있다. 검색 엔진마다 검색 최적화 기준이 상이할 수 있어서 이들 중에서 공통되는 요소를 추출하여 권고 값을 설정할 수도 있다. 예를 들어, 검색에 사용된 검색 엔진의 모든 검색 최적화 기준에 글자 수와 이미지 수 공통적으로 포함되어 있다면 이들 항목에 대한 권고 값을 대상 검색 엔진의 구분 없이 산출할 수 있는 것이다. 보편 지수란, 하나의 온라인 게시글(웹 페이지)에 대해서 복수의 검색 엔진에서 상위에 랭크될 수 있는 지표를 말한다. 예컨대 보편 지수가 높으면 복수의 검색 엔진 모두에서 상위에 랭크될 수 있는 것을 의미하고, 보편 지수가 낮으면 특정 검색 엔진에서만 상위에 랭크될 수 있는 것을 의미한다고 해석할 수 있다. 다른 실시예에서는 복수의 검색 엔진을 수단으로 함으로써, 비교 대상이 되는 레퍼런스 페이지를 확장하는 효과를 가지는 동시에 복수의 검색 엔진에서 공통으로 추구하는 웹 페이지 품질 평가 기준에 부합하는지 여부를 정량적인 수치로 계산하여 피드백 한다.The operation unit compares the first result classified with the target search engine and the second result to calculate a quality index of the web page to be analyzed. In both the first and second results, the contents can be classified according to the type of the target search engine, and the relative comparison can be made for each item. Also, the operation unit may extract an element common to the target search engine from the first result, set a recommended value, and then compute the universal index of the web page to be analyzed by comparing the recommended value and the second result. Search optimization criteria may be different for each search engine, so that a recommended value can be set by extracting a common element among the search optimization criteria. For example, if all the search optimization criteria of the search engine used in the search are commonly included in the number of characters and the number of images, the recommendation value for these items can be calculated without discriminating the target search engine. A universal index is an index that can be ranked at the top of a plurality of search engines for an online post (web page). For example, if the universal index is high, it means that all the search engines can be ranked in the upper rank. If the universal index is low, it means that only the specific search engine can rank the rank. In another embodiment, by using a plurality of search engines, it is possible to have a effect of expanding a reference page to be compared, and at the same time, calculate whether or not it meets a web page quality evaluation standard commonly sought by a plurality of search engines Feedback.

한편, 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것이 될 수 있다. 상기 미리 지정된 수준은 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정되고, 상기 대상 검색 엔진마다 가변적일 수 있다.
On the other hand, the at least one reference page may be ranked at a predetermined level or higher in a search result retrieved from the target search engine by the target keyword as a query. The predetermined level is determined by a predetermined number of the reference pages in order of ranking, and may be variable for each target search engine.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG. For example, the processing unit may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device As shown in FIG. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.  While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

100: 컴퓨팅 장치
110: 분석부
120: 연산부
200: 사용자
300: 검색엔진
400: 웹 페이지
500: 웹 페이지 수집 장치
100: computing device
110:
120:
200: User
300: Search engine
400: Web page
500: Web page collection device

Claims (17)

적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는:
목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및
상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부
를 포함하고,
상기 분석부는 텍스트 데이터 및 상기 텍스트 데이터와 분류되는 이미지, 소리 및 동영상 데이터를 포함하는 상기 제1 컨텐츠를 분석하고, 상기 연산부는 상기 제1 결과 중 기설정된 랭크 범위 내에 존재하는 데이터를 상기 제2 결과와 비교하고,
상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 가장 상위에 랭크되는 순서에서 제1 양의 데이터들을 제외하고, 상기 검색 결과에서 가장 하위에 랭크되는 순서에서 제2 양의 데이터들을 제외한 상기 레퍼런스 페이지로 결정되고,
상기 분석부는 광고 페이지를 자동으로 제거하는 필터링 모듈을 이용하여 상기 제1 결과를 생성하고,
상기 연산부는 상기 대상 검색 엔진과 다른 검색 엔진의 검색 최적화 기준들 중 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지가 복수의 검색 엔진에서 상위에 랭크될 수 있는 지표를 나타내는 보편 지수를 계산하는 컴퓨팅 장치.
CLAIMS What is claimed is: 1. A computing device comprising at least one processor, said computing device being implemented at least temporarily by the at least one processor:
A first result analyzing a first content extracted from at least one reference page retrieved from a target search engine in accordance with a target keyword with an analysis algorithm and a second result analyzing a second content extracted from the analysis target web page with the analysis algorithm 2 < / RTI > And
An operation unit for comparing the first result and the second result to calculate a quality index of the web page to be analyzed;
Lt; / RTI >
Wherein the analyzing unit analyzes the first content including text data and image, sound, and moving picture data classified with the text data, and the arithmetic unit calculates data existing within a predetermined rank range of the first result, ≪ / RTI >
Wherein the at least one reference page includes a plurality of reference pages, wherein the at least one reference page includes a plurality of reference pages, excluding a first amount of data in an order ranked in the highest order in a search result retrieved from the target search engine, Is determined as the reference page except for the second amount of data,
Wherein the analyzing unit generates the first result using a filtering module that automatically removes an advertisement page,
Wherein the operation unit extracts common elements among search optimization criteria of the target search engine and other search engines to set a recommended value and compares the recommended value with the second result to determine whether the analysis target web page is a search engine And calculates a universal index indicating an index that can be ranked in the upper order.
삭제delete 삭제delete 제1항에 있어서,
상기 제1 컨텐츠 및 상기 제2 컨텐츠는,
제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함하는 것인 컴퓨팅 장치.
The method according to claim 1,
Wherein the first content and the second content are content-
A title, a text, a hyperlink, an image, a sound, a video, a keyword, a comment, an empathy, a tag, a map, or a creation date and time.
삭제delete 제1항에 있어서,
상기 검색 최적화 기준은,
글자수, 본문 내 키워드 수, 이미지 포함 수, 소리 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함하는 컴퓨팅 장치.
The method according to claim 1,
The search optimization criterion may include:
The number of keywords in the text, the number of images included, the number of images included, the number of images embedded, the number of embedded images, the number of embedded images, the number of comments, the number of symmetries, the number of tags, A title, a title, or a map interlock number.
제1항에 있어서,
상기 검색 최적화 기준은 상기 대상 검색 엔진에 상응하여 결정되는 컴퓨팅 장치.
The method according to claim 1,
Wherein the search optimization criterion is determined corresponding to the target search engine.
제1항에 있어서,
상기 분석 알고리즘은, 검색 순위에 따른 가중치를 상기 레퍼런스 페이지에 부여하여 상기 권고 값에 상기 검색 순위를 반영하는 컴퓨팅 장치.
The method according to claim 1,
Wherein the analysis algorithm assigns a weight according to a search order to the reference page and reflects the search ranking to the recommendation value.
제1항에 있어서,
상기 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 상기 문서 객체 모델로부터 계층적으로 상기 제1 컨텐츠를 추출하는 컴퓨팅 장치.
The method according to claim 1,
Converting the data constituting the reference page into a document object model (DOM), and extracting the first content hierarchically from the document object model.
제1항에 있어서,
상기 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 상기 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출하는 컴퓨팅 장치.
The method according to claim 1,
Wherein the first content is automatically extracted from the reference page using a bot having a rule corresponding to a content output method of the target search engine.
제1항에 있어서,
상기 품질 지수를 출력하는 출력부를 더 포함하되,
상기 출력부는, 상기 품질 지수를 시각적으로 나타낸 통계 그래프를 제공하거나 상기 품질 지수에 따라 미리 작성된 분석내용 설명 및 추천 작성 방법을 포함하는 가이드를 제공하는 컴퓨팅 장치.
The method according to claim 1,
And an output unit outputting the quality index,
The output unit includes: Providing a statistical graph visually indicating the quality index, or providing a guide including an analysis content description and a recommendation creation method that are prepared in advance according to the quality index.
적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는:
목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및
상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부
를 포함하고,
상기 분석부는 텍스트 데이터 및 상기 텍스트 데이터와 분류되는 이미지, 소리 및 동영상 데이터를 포함하는 상기 제1 컨텐츠를 분석하고, 상기 연산부는 상기 제1 결과 중 기설정된 랭크 범위 내에 존재하는 데이터를 상기 제2 결과와 비교하고,
상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 가장 상위에 랭크되는 순서에서 제1 양의 데이터들을 제외하고, 상기 검색 결과에서 가장 하위에 랭크되는 순서에서 제2 양의 데이터들을 제외한 상기 레퍼런스 페이지로 결정되고,
상기 분석부는 광고 페이지를 자동으로 제거하는 필터링 모듈을 이용하여 상기 제1 결과를 생성하고,
상기 연산부는 상기 대상 검색 엔진과 다른 검색 엔진의 검색 최적화 기준들 중 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지가 복수의 검색 엔진에서 상위에 랭크될 수 있는 지표를 나타내는 보편 지수를 계산하는 컴퓨팅 장치.
CLAIMS What is claimed is: 1. A computing device comprising at least one processor, said computing device being implemented at least temporarily by the at least one processor:
A first result obtained by analyzing a first content extracted from at least one reference page retrieved from a plurality of target search engines corresponding to a target keyword by a plurality of analysis algorithms corresponding to a target search engine used for the search, An analysis unit for analyzing the second content extracted from the page with the plurality of analysis algorithms to generate a second result; And
A calculation unit for calculating a quality index of the web page to be analyzed by comparing the first result classified with the target search engine and the second result;
Lt; / RTI >
Wherein the analyzing unit analyzes the first content including text data and image, sound, and moving picture data classified with the text data, and the arithmetic unit calculates data existing within a predetermined rank range of the first result, ≪ / RTI >
Wherein the at least one reference page includes a plurality of reference pages, wherein the at least one reference page includes a plurality of reference pages, excluding a first amount of data in an order ranked in the highest order in a search result retrieved from the target search engine, Is determined as the reference page except for the second amount of data,
Wherein the analyzing unit generates the first result using a filtering module that automatically removes an advertisement page,
Wherein the operation unit extracts common elements among search optimization criteria of the target search engine and other search engines to set a recommended value and compares the recommended value with the second result to determine whether the analysis target web page is a search engine And calculates a universal index indicating an index that can be ranked in the upper order.
삭제delete 삭제delete 삭제delete 제12항에 있어서,
상기 제1 컨텐츠 및 상기 제2 컨텐츠는,
제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함하는 것인 컴퓨팅 장치.
13. The method of claim 12,
Wherein the first content and the second content are content-
A title, a text, a hyperlink, an image, a sound, a video, a keyword, a comment, an empathy, a tag, a map, or a creation date and time.
컴퓨터 판독 가능 기록매체에 저장되어, 컴퓨팅 장치가 웹 페이지 품질 지수를 계산하여 피드백을 제공하도록 하는 프로그램에 있어서:
컴퓨팅 장치에 수신되는 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 명령어 세트; 및
상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 명령어 세트
를 포함하고,
상기 분석 알고리즘은 텍스트 데이터 및 상기 텍스트 데이터와 분류되는 이미지, 소리 및 동영상 데이터를 포함하는 상기 제1 컨텐츠를 분석하고, 상기 품질 지수를 계산하는 명령어 세트는 상기 제1 결과 중 기설정된 랭크 범위 내에 존재하는 데이터를 상기 제2 결과와 비교하는 명령어 세트를 포함하고,
상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 가장 상위에 랭크되는 순서에서 제1 양의 데이터들을 제외하고, 상기 검색 결과에서 가장 하위에 랭크되는 순서에서 제2 양의 데이터들을 제외한 상기 레퍼런스 페이지로 결정되고,
상기 제1 결과를 생성하는 명령어 세트는 광고 페이지를 자동으로 제거하는 필터링 모듈에 관한 명령어 세트를 포함하고,
상기 제1 결과와 상기 제2 결과를 비교하는 명령어 세트는 상기 대상 검색 엔진과 다른 검색 엔진의 검색 최적화 기준들 중 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지가 복수의 검색 엔진에서 상위에 랭크될 수 있는 지표를 나타내는 보편 지수를 계산하는 명령어 세트를 포함하는 기록매체에 저장된 프로그램.
A program stored on a computer readable medium for causing a computing device to calculate a web page quality index and provide feedback, the program comprising:
A first result analyzing a first content extracted from at least one reference page retrieved from a target search engine in response to a target keyword received by the computing device by an analysis algorithm, and a second result extracted from the analysis target web page, An instruction set for generating a second result analyzed by the algorithm; And
Calculating a quality index of the web page to be analyzed by comparing the first result and the second result;
Lt; / RTI >
Wherein the analysis algorithm analyzes the first content including text data and image, audio and video data classified with the text data, and the instruction set for calculating the quality index is within a predetermined rank range of the first result And comparing the data to the first result with the second result,
Wherein the at least one reference page includes a plurality of reference pages, wherein the at least one reference page includes a plurality of reference pages, excluding a first amount of data in an order ranked in the highest order in a search result retrieved from the target search engine, Is determined as the reference page except for the second amount of data,
Wherein the instruction set generating the first result comprises a set of instructions relating to a filtering module that automatically removes an advertisement page,
Wherein the command set for comparing the first result and the second result extracts a common element among the search optimization criteria of the target search engine and other search engines to set a recommendation value and sets the recommendation value and the second result And calculating a universal index indicating an index by which the analysis target web page can be ranked higher in a plurality of search engines.
KR1020150012261A 2015-01-26 2015-01-26 Relative quality index estimation apparatus of the web page using keyword search KR101667199B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150012261A KR101667199B1 (en) 2015-01-26 2015-01-26 Relative quality index estimation apparatus of the web page using keyword search

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150012261A KR101667199B1 (en) 2015-01-26 2015-01-26 Relative quality index estimation apparatus of the web page using keyword search

Publications (2)

Publication Number Publication Date
KR20160091756A KR20160091756A (en) 2016-08-03
KR101667199B1 true KR101667199B1 (en) 2016-10-18

Family

ID=56708648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150012261A KR101667199B1 (en) 2015-01-26 2015-01-26 Relative quality index estimation apparatus of the web page using keyword search

Country Status (1)

Country Link
KR (1) KR101667199B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200126213A (en) 2019-04-29 2020-11-06 중앙대학교 산학협력단 Method and apparatus of metadata recommendation service

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102007437B1 (en) * 2016-11-25 2019-08-05 한국전자통신연구원 Apparatus for classifying contents and method for using the same
CN112071406B (en) * 2020-09-03 2024-03-15 深圳市全息医疗科技有限公司 Medical quality assessment data processing method, device and storage medium
CN117151082B (en) * 2023-10-30 2024-01-02 量子数科科技有限公司 Commodity title SPU keyword extraction method based on large language model
CN117392826B (en) * 2023-12-11 2024-02-13 吉林大学 Network information early warning method and system based on big data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020007742A (en) * 2000-07-18 2002-01-29 김민욱 Methods of Information Recommendation based on Analysis of User's Information Preferences and Measurement of Information Popularity on the Internet and the System thereof
JP2002116983A (en) * 2000-10-02 2002-04-19 Hewlett Packard Co <Hp> Method and system for converting web contents
KR100751560B1 (en) * 2005-09-12 2007-08-27 (주)루크테크놀러지 Keywords analizing system of advertisement
KR101011726B1 (en) * 2009-06-09 2011-01-28 성균관대학교산학협력단 Apparatus and method for providing snippet
KR20130043297A (en) 2011-10-20 2013-04-30 곽승현 Method for diagnosing search-engine site optimization

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200126213A (en) 2019-04-29 2020-11-06 중앙대학교 산학협력단 Method and apparatus of metadata recommendation service

Also Published As

Publication number Publication date
KR20160091756A (en) 2016-08-03

Similar Documents

Publication Publication Date Title
Chan-Olmsted A review of artificial intelligence adoptions in the media industry
US11507732B1 (en) Web browsing
KR101981075B1 (en) Data analysis system, data analysis method, data analysis program, and recording medium
JP4637969B1 (en) Properly understand the intent of web pages and user preferences, and recommend the best information in real time
US8868558B2 (en) Quote-based search
US9336279B2 (en) Hidden text detection for search result scoring
KR101667199B1 (en) Relative quality index estimation apparatus of the web page using keyword search
US20210303641A1 (en) Artificial intelligence for product data extraction
JP2003330948A (en) Device and method for evaluating web page
CN105786977A (en) Mobile search method and device based on artificial intelligence
WO2016135905A1 (en) Information processing system and information processing method
CN106664463A (en) Arbitrary size content item generation
US20210264463A1 (en) Creating Meta-Descriptors of Marketing Messages to Facilitate In Delivery Performance Analysis, Delivery Performance Prediction and Offer Selection
JP7069802B2 (en) Systems and methods for user-oriented topic selection and browsing, how to display multiple content items, programs, and computing devices.
CN115982376B (en) Method and device for training model based on text, multimode data and knowledge
US9594757B2 (en) Document management system, document management method, and document management program
Knautz et al. Memose: search engine for emotions in multimedia documents
US20130332440A1 (en) Refinements in Document Analysis
Bu et al. An FAR-SW based approach for webpage information extraction
JP6508327B2 (en) Text visualization system, text visualization method, and program
JP4870809B2 (en) A method for classifying and organizing related web page contents and freely reconfiguring and displaying them
JP6178480B1 (en) DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM
KR102477893B1 (en) Automated data processing method for topic adoption
CA2832918A1 (en) Systems and methods for ranking document clusters
KR20190094541A (en) Advertisement recommendation apparatus and method based on comments

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190808

Year of fee payment: 4