KR20110094563A - The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents - Google Patents

The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents Download PDF

Info

Publication number
KR20110094563A
KR20110094563A KR1020100014034A KR20100014034A KR20110094563A KR 20110094563 A KR20110094563 A KR 20110094563A KR 1020100014034 A KR1020100014034 A KR 1020100014034A KR 20100014034 A KR20100014034 A KR 20100014034A KR 20110094563 A KR20110094563 A KR 20110094563A
Authority
KR
South Korea
Prior art keywords
link
keyword
information
keywords
search
Prior art date
Application number
KR1020100014034A
Other languages
Korean (ko)
Inventor
강성탁
Original Assignee
주식회사 티앤엘아이앤티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 티앤엘아이앤티 filed Critical 주식회사 티앤엘아이앤티
Priority to KR1020100014034A priority Critical patent/KR20110094563A/en
Publication of KR20110094563A publication Critical patent/KR20110094563A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A method and system for searching a relation word using link-keyword relationship of a web document are provided to improve reliability and diversity of a searching result by providing keyword including the web documents which is connected to the hyperlink and the wed documents including searching word. CONSTITUTION: A web document analyzer(141) generates link-keyword relation information, a keyword information, and hyperlink information of the wed documents. A web document searching engine(145) transmits the link-keyword including the related web document to the link-keyword search engine by using web document information and searching web document related to the searching word. A link-keyword searching engine(143) uses information related wit the link-keyword and extracts relation word related to the search word and the link-keyword.

Description

웹 문서의 링크-키워드 관계를 이용한 관련어 검색 방법 및 검색 시스템{The Apparatus and Method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents} The Apparatus and Method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents}

본 발명은 웹 상에서 정보를 검색하는 방법에 관한 것으로, 보다 상세하게는 입력된 검색어에 대한 관련어를 검색하는 방법에 관한 것이다.The present invention relates to a method of searching for information on the web, and more particularly, to a method of searching for a related word for an input search word.

인터넷은 정보의 바다라고 할 수 있을 정도로 방대한 양의 정보가 산재되어 있으며, 많은 사람들이 인터넷을 통해 다양한 정보를 얻고 있다. 현재의 인터넷은 각 개인이나 단체에서 만들어 놓은 웹 문서들이 상호 연결되어 이루어지며, 사용자들은 상호 연결되어 있는 웹 문서를 통해 정보를 얻고 있는 것이다.The Internet is a sea of information, and there is a huge amount of information scattered, many people are getting a variety of information through the Internet. Today's Internet is made up of web documents created by individuals and organizations, and users are getting information through web documents.

일반적으로 웹 검색 엔진은 인터넷에 존재하는 수많은 웹 문서들의 내용들을 분석하고, 각 웹 문서 내에 포함된 단어들을 분석하여 저장한다. 이 과정에서 각 문서 내에 포함된 단어들의 빈도수, 웹 문서간의 연결 관계 등 다양한 통계 정보 등도 같이 분석되고 저장된다.In general, a web search engine analyzes the contents of numerous web documents existing on the Internet, and analyzes and stores words included in each web document. In this process, various statistical information such as the frequency of words included in each document and the connection relation between web documents are also analyzed and stored.

사용자가 입력하는 검색어는 하나 또는 그 이상의 단어 혹은 형태소로 구성될 수 있다. 웹 검색 엔진은 사용자의 검색어를 다양한 형태로 재조합하여, 기존에 소정 규칙에 따라 인덱스 형태로 저장된 웹 문서들의 정보를 바탕으로 사용자가 원하는 검색어에 근접한 단어들을 많이 포함한 웹 문서들을 결과로 보여주게 된다.The search word input by the user may consist of one or more words or morphemes. The web search engine recombines the user's search word into various forms, and displays the web documents including many words close to the user's desired search word based on the information of the web documents stored in the index form according to the existing rules.

현재 서비스를 제공하고 있는 다양한 웹 검색 엔진에서는 사용자가 입력한 검색어에 근접한 단어들을 많이 포함하는 웹 문서들이 다양한 기준으로 우선 순위를 매겨져 입력된 검색어에 대한 결과로 사용자에게 반환된다. In various web search engines that currently provide services, web documents containing a large number of words close to the user's search terms are prioritized based on various criteria and returned to the user as a result of the search term.

그에 따라, 사용자는 자신이 찾고자 하는 것에 대한 관련 용어들을 모두 알지 못하더라도, 검색어에 연관된 관련어들이 사용자에게 제공된다면 사용자는 자신이 원하는 결과를 얻기 위해 제공된 관련어를 활용하여 보다 효율적으로 웹 검색을 수행할 수 있게 된다.As a result, even if the user does not know all the relevant terms for what he or she is looking for, if the related words related to the search term are provided to the user, the user can use the provided related words to perform the web search more efficiently in order to obtain the desired result. It becomes possible.

그런데, 일반적인 검색엔진에서는 검색어에 근접한 단어들을 사용자에게 제공함에 있어서 검색어를 포함하는 웹 문서에 직접적으로 포함된 키워드들만이 고려되고 있어 보다 정확하고 다양한 결과를 사용자에게 보여주기 어려운 문제점이 있다.However, in a general search engine, in providing words that are close to a search word to a user, only keywords directly included in a web document including the search word are considered, which makes it difficult to show a more accurate and various result to the user.

본 발명은 상기와 같은 일반적인 기술의 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 보다 효율적인 관련어 검색 방법 및 그를 위한 시스템을 제공하는 것이다.SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems of the general technology, and an object of the present invention is to provide a more efficient method for searching related words and a system therefor.

본 발명의 다른 목적은 웹 문서간의 하이퍼 링크를 통한 관계와 하이퍼 링크를 수반하는 키워드를 종합적으로 고려하여 보다 효율적으로 사용자가 입력한 검색어에 연관된 관련어를 제공하기 위한 관련어 검색 방법 및 그를 위한 시스템을 제공하는 것이다.Another object of the present invention is to provide a related word search method and system for providing related words related to a search word input by a user more efficiently in consideration of the relations through hyperlinks between web documents and keywords accompanying hyperlinks. It is.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Technical problems to be achieved in the present invention are not limited to the above-mentioned technical problems, and other technical problems not mentioned above will be clearly understood by those skilled in the art from the following description. Could be.

상기의 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 인터넷 검색 시스템은, 복수의 웹 문서 각각에 포함된 복수의 링크-키워드 간의 관계를 나타내는 링크-키워드 연관 정보, 및 상기 복수의 웹 문서 각각에 대한 키워드 정보와 하이퍼 링크 정보를 포함하는 웹 문서 정보를 생성하는 웹 문서 분석기; 링크-키워드 검색 엔진; 및 웹 문서 검색 엔진;을 포함할 수 있다. In order to achieve the above technical problem, the Internet search system according to an embodiment of the present invention, link-keyword association information indicating a relationship between a plurality of link-keywords included in each of a plurality of web documents, and the plurality of web documents A web document analyzer for generating web document information including keyword information and hyperlink information for each; A link-keyword search engine; And a web document search engine.

여기서, 상기 웹 문서 검색 엔진은 상기 웹 문서 정보를 이용하여 사용자로부터 입력된 검색어에 연관된 하나 이상의 웹 문서를 검색하고, 상기 연관된 하나 이상의 웹 문서에 포함된 하나 이상의 링크-키워드를 추출하여 상기 링크-키워드 검색엔진에 전달하며, 상기 링크-키워드 검색 엔진은 상기 링크-키워드 연관 정보를 이용하여 상기 검색어 및 상기 추출된 하나 이상의 링크-키워드에 연관된 하나 이상의 관련어를 추출하는 것일 수 있다.Here, the web document search engine searches the one or more web documents associated with a search word input from a user using the web document information, extracts one or more link-keywords included in the associated one or more web documents, and the link- The keyword may be transmitted to a keyword search engine, and the link-keyword search engine may extract one or more related words related to the search word and the extracted one or more link-keywords using the link-keyword association information.

이때, 상기 링크-키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고, 상기 키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 2 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함할 수 있다.In this case, the link-keyword information is included in at least one first link-keyword accompanying a hyperlink included in the web document itself and a document other than the corresponding document for each of the plurality of web documents. Information about one or more second link-keywords pointing to the web document, wherein the keyword information includes, for each of the plurality of web documents, a keyword included in the document itself, the one or more first link-keywords, One or more second link-keywords and the one or more second link-keywords may include information about the morphemes detected by morphological analysis.

또한, 상기 링크-키워드 연관 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 하이퍼 링크가 가리키는 웹 문서에 포함되는 하나 이상의 제 3 링크-키워드의 대응 관계를 나타내는 정보를 포함할 수 있다.In addition, the link-keyword association information may be included in at least one first link-keyword accompanying a hyperlink included in the web document itself and at least one included in the web document indicated by the hyperlink, for each of the plurality of web documents. Information indicating the correspondence relationship of the third link-keyword may be included.

또한, 상기 각 링크-키워드들 간의 대응 관계를 나타내는 정보는 각 대응 관계 마다 부여된 식별자 및 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보를 포함할 수 있다.In addition, the information indicating the correspondence between the link-keywords may include first index information including an identifier assigned to each correspondence and a frequency of appearance on the plurality of web documents.

또한, 상기 링크-키워드 연관 정보는 상기 각각의 링크-키워드들을 형태소 분석하여 추출된 형태소 마다 대응되는 링크-키워드에 대한 제 2 색인 정보를 더 포함할 수 있다.The link-keyword association information may further include second index information on the link-keyword corresponding to each morpheme extracted by morphologically analyzing the respective link-keywords.

또한, 상기 링크-키워드 검색 엔진은 상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 하나의 형태소로 구성되는 경우, 상기 제 1 색인 정보를 이용하여 상기 하나 이상의 관련어를 추출하는 것일 수 있다.The link-keyword search engine may extract the one or more related words using the first index information when the search word or the extracted one or more link-keywords are composed of one morpheme.

또한, 상기 링크-키워드 검색 엔진은 상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 둘 이상의 형태소로 구성되는 경우, 상기 제 2 색인 정보를 추가로 이용하여 상기 하나 이상의 관련어를 추출하는 것일 수 있다.The link-keyword search engine may extract the one or more related words by additionally using the second index information when the search word or the extracted one or more link-keywords are composed of two or more morphemes.

또한, 상기 검색어를 상기 웹 문서 검색 엔진 및 상기 링크-키워드 검색 엔진에 전달하고, 상기 추출된 하나 이상의 관련어를 소정의 기준에 따라 정렬하여 상기 검색어에 대한 검색 결과로 사용자에게 제공하기 위한 관련어 검색엔진을 더 포함할 수 있다.Also, a related term search engine for delivering the search term to the web document search engine and the link-keyword search engine, and sorting the extracted one or more related terms according to a predetermined criterion and providing the search term to the user as a search result for the search term. It may further include.

또한, 상기 링크-키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고, 상기 키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 3 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하며, 상기 링크-키워드 연관 정보는 상기 복수의 웹 문서 각각에 포함되는 복수의 링크-키워드 간의 대응 관계를 나타내는 정보; 및 상기 각 대응 관계 각각에 대한 식별자와 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보;를 포함할 수 있다.In addition, the link-keyword information may be included in at least one first link-keyword accompanying a hyperlink included in the web document itself and a document other than the corresponding document, for each of the plurality of web documents. Information about one or more second link-keywords pointing to the web document, wherein the keyword information includes, for each of the plurality of web documents, a keyword included in the document itself, the one or more first link-keywords, And information about the morphemes detected by morphologically analyzing one or more third link-keywords and the one or more second link-keywords, wherein the link-keyword association information includes a plurality of links- included in each of the plurality of web documents. Information indicating a correspondence relationship between keywords; And first index information including an identifier for each of the corresponding relationships and a frequency of appearance on the plurality of web documents.

아울러, 상기 소정의 기준은 상기 제 1 색인 정보에 나타난 상기 등장 빈도, 상기 검색어가 포함되는 웹 문서에 존재하는 키워드인지 여부, 상기 검색어가 포함되는 웹문서에 존재하는 링크-키워드인지여부, 상기 제 2 링크-키워드인지 여부 및 상기 제 2 링크-키워드를 형태소 분석하여 검출된 형태소인지 여부 중 적어도 하나를 포함할 수 있다.The predetermined criterion may include the frequency of appearance shown in the first index information, whether the keyword exists in the web document including the search word, whether the link-keyword exists in the web document including the search word, and the first reference information. It may include at least one of whether it is a second link-keyword and whether it is a morpheme detected by morphologically analyzing the second link-keyword.

상기의 기술적 과제를 이루기 위하여, 본 발명의 일 실시 예에 따른 인터넷 검색 방법은, 사용자로부터 검색어를 입력받는 단계; 복수의 웹 문서 각각에 대한 키워드 정보 및 하이퍼 링크 정보를 포함하는 웹 문서 정보를 이용하여 사용자로부터 입력된 검색어에 연관된 하나 이상의 웹 문서를 검색하고, 상기 연관된 하나 이상의 웹 문서에 포함된 하나 이상의 링크-키워드를 추출하는 단계; 및 상기 복수의 웹 문서 각각에 포함된 복수의 링크-키워드 간의 관계를 나타내는 링크-키워드 연관 정보를 이용하여 상기 검색어 및 상기 추출된 하나 이상의 링크-키워드에 연관된 하나 이상의 관련어를 추출하는 단계를 포함할 수 있다.In order to achieve the above technical problem, an Internet search method according to an embodiment of the present invention, the step of receiving a search word from the user; Search for one or more web documents associated with a search term entered from a user using web document information including keyword information and hyperlink information for each of the plurality of web documents, and one or more links included in the associated one or more web documents- Extracting keywords; And extracting one or more related words related to the search word and the extracted one or more link-keywords using link-keyword association information indicating a relationship between a plurality of link-keywords included in each of the plurality of web documents. Can be.

이때, 상기 링크-키워드 정보는, 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고, 상기 키워드 정보는, 상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 3 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함할 수 있다.In this case, the link-keyword information may be included in one or more first link-keywords included in the web document itself and accompanied by a hyperlink for each of the plurality of web documents, and the hyperlink may be included in the document other than the corresponding document. Information about one or more second link-keywords pointing to the corresponding web document, wherein the keyword information includes, for each of the plurality of web documents, a keyword included in the document itself, the one or more first link-keywords And morpheme analysis of the one or more third link-keywords and the one or more second link-keywords.

또한, 상기 링크-키워드 연관 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 하이퍼 링크가 가리키는 웹 문서에 포함되는 하나 이상의 제 3 링크-키워드의 대응 관계를 나타내는 정보를 포함할 수 있다.In addition, the link-keyword association information may be included in at least one first link-keyword accompanying a hyperlink included in the web document itself and at least one included in the web document indicated by the hyperlink, for each of the plurality of web documents. Information indicating the correspondence relationship of the third link-keyword may be included.

또한, 상기 각 링크-키워드들 간의 대응 관계를 나타내는 정보는 상기 각 대응 관계 마다 부여된 식별자 및 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보를 포함할 수 있다.In addition, the information representing the correspondence between the link-keywords may include first index information including an identifier assigned to each correspondence and the frequency of appearance on the plurality of web documents.

또한, 상기 링크-키워드 연관 정보는 상기 각각의 링크-키워드들을 형태소 분석하여 추출된 형태소 마다 대응되는 링크-키워드에 대한 제 2 색인 정보를 더 포함할 수 있다.The link-keyword association information may further include second index information on the link-keyword corresponding to each morpheme extracted by morphologically analyzing the respective link-keywords.

또한, 상기 하나 이상의 관련어를 추출하는 단계는 상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 하나의 형태소로 구성되는 경우, 상기 제 1 색인 정보를 이용하여 상기 하나 이상의 관련어를 추출하는 단계일 수 있다.The extracting of the one or more related words may include extracting the one or more related words using the first index information when the search word or the extracted one or more link-keywords comprise one morpheme. .

또한, 상기 하나 이상의 관련어를 추출하는 단계는 상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 둘 이상의 형태소로 구성되는 경우, 상기 제 2 색인 정보를 추가로 이용하여 상기 하나 이상의 관련어를 추출하는 단계를 더 포함할 수 있다.The extracting of the one or more related words may include extracting the one or more related words by additionally using the second index information when the search word or the extracted one or more link-keywords includes two or more morphemes. It may further include.

또한, 상기 인터넷 검색 방법은 상기 추출된 하나 이상의 관련어를 소정의 기준에 따라 정렬하여 상기 검색어에 대한 검색 결과로 출력하는 단계를 더 포함할 수 있다.The internet search method may further include sorting the extracted one or more related words according to a predetermined criterion and outputting the search result for the search word.

또한, 상기 링크-키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고, 상기 키워드 정보는 상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 3 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하며, 상기 링크-키워드 연관 정보는 상기 복수의 웹 문서 각각에 포함되는 복수의 링크-키워드 간의 대응 관계를 나타내는 정보; 및 상기 각 대응 관계 각각에 대한 식별자와 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보;를 포함할 수 있다.In addition, the link-keyword information may be included in at least one first link-keyword accompanying a hyperlink included in the web document itself and a document other than the corresponding document, for each of the plurality of web documents. Information about one or more second link-keywords pointing to the web document, wherein the keyword information includes, for each of the plurality of web documents, a keyword included in the document itself, the one or more first link-keywords, And information about the morphemes detected by morphologically analyzing one or more third link-keywords and the one or more second link-keywords, wherein the link-keyword association information includes a plurality of links- included in each of the plurality of web documents. Information indicating a correspondence relationship between keywords; And first index information including an identifier for each of the corresponding relationships and a frequency of appearance on the plurality of web documents.

아울러, 상기 소정의 기준은 상기 제 1 색인 정보에 나타난 상기 등장 빈도, 상기 검색어가 포함되는 웹 문서에 존재하는 키워드인지 여부, 상기 검색어가 포함되는 웹문서에 존재하는 링크-키워드인지여부, 상기 제 2 링크-키워드인지 여부 및 상기 제 2 링크-키워드를 형태소 분석하여 검출된 형태소인지 여부 중 적어도 하나를 포함할 수 있다.The predetermined criterion may include the frequency of appearance shown in the first index information, whether the keyword exists in the web document including the search word, whether the link-keyword exists in the web document including the search word, and the first reference information. It may include at least one of whether it is a second link-keyword and whether it is a morpheme detected by morphologically analyzing the second link-keyword.

본 발명의 실시예들에 따르면 다음과 같은 효과가 있다.According to the embodiments of the present invention, the following effects are obtained.

첫째, 검색어에 근접한 단어들을 사용자에게 제공함에 있어서 검색어를 포함하는 웹 문서에 직접적으로 포함된 키워드들만이 아니라, 하이퍼 링크로 연결된 웹 문서에 포함된 키워드들까지 고려되어 검색 결과의 신뢰성과 다양성이 향상된다.First, in providing words that are close to a search word to users, not only keywords directly included in the web document including the search word but also keywords included in the hyperlinked web document improve reliability and variety of search results. do.

둘째, 검색어에 근접한 단어들을 사용자에게 제공함에 있어서 웹 문서간의 하이퍼 링크를 통한 관계와 하이퍼 링크를 수반하는 키워드가 종합적으로 고려하여 보다 효율적인 검색이 가능하다.Second, in providing words that are close to a search word to a user, a more efficient search is possible by considering the relations through hyperlinks between web documents and keywords accompanying hyperlinks.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present invention are not limited to the above-mentioned effects, and other effects not mentioned above may be clearly understood by those skilled in the art from the following description. will be.

도 1은 본 발명의 실시예들에 관련된 시스템 및 방법이 구현될 수 있는 네트워크 구성의 일례를 나타낸다.
도 2는 본 발명의 실시예들에 관련된 시스템 및 방법이 구현될 수 있는 클라이언트 엔터티 및 서버 엔터티 중 적어도 하나에 적용될 수 있는 엔터티 구성의 일례를 나타낸다.
도 3은 본 발명의 실시예들이 수행될 수 있는 검색 서버의 구조를, 수행되는 기능에 따라 분류된 개체로 나타낸 것이다.
도 4는 링크를 통한 웹문서간의 연관 관계를 나타낸다.
도 5는 본 발명의 일실시예로서, 웹 문서 분석기가 생성하는 키워드-링크 기반의 웹 문서 정보의 내용을 나타낸다.
도 6은 본 발명의 일 실시예에 따른 관련어 검색 방법의 일례를 나타내는 순서도이다.
1 illustrates an example of a network configuration in which systems and methods related to embodiments of the invention may be implemented.
2 illustrates an example of an entity configuration that may be applied to at least one of a client entity and a server entity on which systems and methods related to embodiments of the invention may be implemented.
3 illustrates the structure of a search server in which embodiments of the present invention may be performed, as entities classified according to the functions to be performed.
4 shows an association between web documents via links.
FIG. 5 illustrates the contents of keyword-link based web document information generated by a web document analyzer according to one embodiment of the present invention.
6 is a flowchart illustrating an example of a related word search method according to an embodiment of the present invention.

상기의 기술적 과제를 해결하기 위해, 본 발명은 검색어에 대한 관련어 검색을 효율적으로 수행하는 방법을 개시한다.In order to solve the above technical problem, the present invention discloses a method for efficiently performing a related word search for a search word.

이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.The following embodiments are a combination of elements and features of the present invention in a predetermined form. Each component or feature may be considered to be optional unless otherwise stated. Each component or feature may be implemented in a form that is not combined with other components or features. In addition, some of the elements and / or features may be combined to form an embodiment of the present invention. The order of the operations described in the embodiments of the present invention may be changed. Some configurations or features of certain embodiments may be included in other embodiments, or may be replaced with corresponding configurations or features of other embodiments.

본 발명에 대한 상세한 설명에 앞서, 본 명세서에서 자주 사용될 용어를 정의한다.Prior to the detailed description of the present invention, terms that are frequently used herein are defined.

먼저, "검색어"란 사용자가 검색하고자 하는 대상을 문자, 숫자 또는 기호 등을 이용하여 나타낸 것을 말하며, 인터넷 검색 시스템의 검색 범위를 특정하는 역할을 한다. 검색어는 하나 또는 복수의 형태소(의미를 갖는 최소한의 언어 단위), 예를 들면 단어, 구, 절 또는 문장의 형태가 될 수 있다.First, a "search term" refers to an object that a user wants to search by using letters, numbers, or symbols, and specifies a search range of an Internet search system. The search term may be in the form of one or a plurality of morphemes (minimum linguistic units with meaning), for example words, phrases, clauses or sentences.

또한, "관련어"란 사용자가 입력한 검색어에 연관성이 있는 키워드를 말한다. 이때, 연관성이 있는 키워드란 단순히 검색어를 구성하는 형태소 중 적어도 일부를 포함하는 키워드, 검색어로 검색될 수 있는 웹페이지에 포함되는 키워드, 또는 임의의 웹페이지에 포함된 검색어가 수반하는 하이퍼링크가 가리키는 문서에 포함되는 키워드 등을 포함하는 개념이다. 상술한 연관성의 개념은 예시적인 것으로, 이 외에도 다양한 기준들이 연관성의 판단에 적용될 수 있다. 이하, 본 명세서에서 "관련어", "연관성이 있는 키워드", "연관 검색어" 및 "연관 키워드"는 서로 동일한 의미를 갖는 것으로 본다.In addition, "related word" refers to a keyword that is related to a search word input by a user. In this case, the relevant keyword is simply a keyword including at least some of the morphemes constituting the search word, a keyword included in a web page that can be searched by the search word, or a hyperlink accompanied by a search word included in an arbitrary web page. It is a concept including a keyword included in a document. The concept of correlation described above is exemplary, and in addition, various criteria may be applied to the determination of correlation. Hereinafter, in the present specification, "related words", "related keywords", "associated keyword", and "associated keyword" are considered to have the same meaning.

다음으로, "링크-키워드"란 웹 페이지 상에서 다른 웹 페이지로의 하이퍼 링크를 수반하는 키워드를 말한다.
Next, "link-keyword" refers to a keyword involving a hyperlink from one web page to another web page.

네트워크 구성Network configuration

본 발명이 수행될 수 있는 예시적인 네트워크 구성을 도 1을 참조하여 설명한다.An exemplary network configuration in which the present invention may be performed is described with reference to FIG. 1.

도 1은 본 발명의 실시예들에 관련된 시스템 및 방법이 구현될 수 있는 네트워크 구성의 일례를 나타낸다.1 illustrates an example of a network configuration in which systems and methods related to embodiments of the invention may be implemented.

네트워크는 통신망(130)을 통해 하나 이상의 서버 및 하나 이상의 사용자 단말기를 포함할 수 있다. 도 1에서는 두 개의 사용자 단말기(110, 120)와 하나의 서버(140)가 네트워크(130)에 연결되어 있는 것으로 예시하였으나, 실제로는 사용자 단말기와 서버는 더 많거나 더 적을 수 있다. 또한, 경우에 따라 사용자 단말기가 서버의 기능을 수행할 수 있고, 서버가 사용자 단말기의 기능을 수행할 수도 있다.The network may include one or more servers and one or more user terminals via the communication network 130. In FIG. 1, two user terminals 110 and 120 and one server 140 are illustrated as being connected to the network 130, but in practice, the number of user terminals and servers may be more or less. In some cases, the user terminal may perform the function of a server, and the server may perform the function of the user terminal.

여기서, 사용자 단말기(110, 120)는 사용자 개체(entity)를 포함할 수 있다. 이러한 사용자 개체(entity)는 무선 전화, 개인용 컴퓨터, 개인용 휴대 정보 단말기(personal digital assistant, PDA), 랩톱 컴퓨터, 또는 다른 타입의 계산 또는 통신 디바이스와 같은 디바이스 및 이들 디바이스 상에서 실행되는 스레드(thread)나 프로세스(process), 및/또는 이들 디바이스에 의해 실행 가능한 객체(object)를 포함하는 개념이다.Here, the user terminals 110 and 120 may include a user entity. Such user entities may include devices such as wireless telephones, personal computers, personal digital assistants (PDAs), laptop computers, or other types of computing or communication devices, as well as threads running on these devices; A concept that includes processes and / or objects executable by these devices.

서버(140)는 본 발명에 따른 방식으로 웹문서를 수집, 처리, 검색 및/또는 유지하는 서버 개체(entity)들을 포함할 수 있다. 본 발명에 따른 실시예들에서 서버(140)는 사용자 단말기의 요청에 따른 문서(150, 151) 검색 기능을 수행하여 검색 결과를 사용자 단말기에 돌려줄 수 있는 검색 엔진 기능을 포함할 수 있다. 이를 위하여 서버(140)는 인터넷 상에 존재하는 문서들(150, 151)을 링크 등을 통하여 찾아다니고(crawling), 문서를 색인화(indexing)하며, 문서와 연관된 정보를 저장할 수 있다. Server 140 may include server entities that collect, process, retrieve, and / or maintain web documents in a manner consistent with the present invention. In embodiments according to the present invention, the server 140 may include a search engine function that may return a search result to the user terminal by performing a search function of the documents 150 and 151 according to a request of the user terminal. To this end, the server 140 may crawl documents 150 and 151 existing on the Internet through a link, index the documents, and store information associated with the documents.

여기서, "문서(document)"란 임의의 기계로 판독 가능하고(machine_readable) 기계에 저장 가능한 작업 결과물(machine-storable work product)을 포함하는 것으로 광의로 해석되어야 한다. 이러한 문서의 예를 들면 이메일, 웹 사이트, 파일, 파일들의 조합, 다른 파일에 대한 링크가 삽입된(embedded) 하나 이상의 파일, 뉴스 그룹 포스팅, 블로그, 전자 데이터로 변형된 텍스트 인쇄물, 웹 광고 등을 포함할 수 있다. 일반적으로, 인터넷 환경에서 문서는 웹 페이지를 지칭한다. 웹 페이지는 흔히 텍스트 정보를 포함하고, 그 외의 삽입된 정보(메타 정보, 이미지, 하이퍼링크 등) 및/또는 삽입된 명령어(자바스크립트 등)를 포함할 수 있다. 이하, 본 명세서에서 "웹 문서"와 "웹 페이지"는 동일한 의미로 사용된다.Here, "document" is to be broadly interpreted as including a machine-storable work product that is machine-readable and machine-readable. Examples of such documents include e-mails, websites, files, combinations of files, one or more files with embedded links to other files, newsgroup postings, blogs, text prints transformed into electronic data, web advertisements, etc. It may include. In general, in the Internet environment, a document refers to a web page. Web pages often contain textual information, and may include other embedded information (meta information, images, hyperlinks, etc.) and / or embedded instructions (JavaScript, etc.). Hereinafter, in this specification, "web document" and "web page" are used interchangeably.

서버(140)는 상술한 기능들이 하나의 개체에서 수행되도록 구성될 수도 있고, 복수의 개체가 각 역할을 분담하여 하나의 서버의 기능을 수행할 수도 있다. 이하, 본 명세서에서는 서버에 대응되는 개념으로 클라이언트(client)를 사용자 단말기와 동일한 의미로 사용한다. The server 140 may be configured to perform the above-described functions in one entity, or a plurality of entities may share the respective roles to perform the function of one server. Hereinafter, in the present specification, a client is used as a concept corresponding to a server in the same meaning as a user terminal.

통신망(130)은 근거리 통신망(Local Area Network, LAN), 공중 전화 교환망(Pubic Switched Telephone Network, PSTN)과 같은 전화망, 인트라넷, 인터넷, 또는 네트워크들의 조합을 포함할 수 있다. The communication network 130 may include a local area network (LAN), a telephone network such as a public switched telephone network (PSTN), an intranet, the Internet, or a combination of networks.

사용자 단말기(110, 120)와 서버(140)는 유선, 무선, 및/또는 광학적 접속을 통해 통신망(130)에 연결될 수 있다.
The user terminals 110 and 120 and the server 140 may be connected to the communication network 130 through wired, wireless, and / or optical connections.

클라이언트/서버 엔터티Client / Server entity

다음으로, 본 발명의 실시예들이 수행될 수 있는 클라이언트 엔터티 또는 서버 엔터티의 구성을 도 2를 참조하여 설명한다.Next, a configuration of a client entity or a server entity on which embodiments of the present invention can be performed will be described with reference to FIG. 2.

도 2는 본 발명의 실시예들에 관련된 시스템 및 방법이 구현될 수 있는 사용자 클라이언트 엔터티 및 서버 엔터티 중 적어도 하나에 적용될 수 있는 엔터티 구성의 일례를 나타낸다.2 illustrates an example of an entity configuration that may be applied to at least one of a user client entity and a server entity on which systems and methods related to embodiments of the invention may be implemented.

도 2를 참조하면, 본 발명에 따른 엔터티는 버스(210), 프로세서(220), 메모리(230), 입력 장치(240), 통신 장치(250), 출력 장치(260) 및 저장 장치(270)를 포함할 수 있다. 버스(210)는 각 구성요소 사이의 통신을 가능하게 하는 경로를 포함할 수 있다.Referring to FIG. 2, an entity according to the present invention includes a bus 210, a processor 220, a memory 230, an input device 240, a communication device 250, an output device 260, and a storage device 270. It may include. The bus 210 may include a path that enables communication between each component.

프로세서(220)는 명령어를 해석하고 실행하는 프로세서, 마이크로프로세서 또는 처리 로직(processing logic)을 포함할 수 있다. 메모리(230)는 프로세서(220)에서 실행하기 위한 정보 및 명령어를 저장하는 RAM(Random Access Memory), 다른 타입의 동적 스토리지 디바이스(dynamic storage device), 프로세서(220)가 사용하는 정적인 정보 및 명령어를 저장하는 ROM 디바이스 또는 다른 타입의 정적 스토리지 디바이스를 포함할 수 있다. Processor 220 may include a processor, microprocessor, or processing logic that interprets and executes instructions. Memory 230 may include random access memory (RAM) that stores information and instructions for execution in processor 220, other types of dynamic storage devices, and static information and instructions used by processor 220. It may include a ROM device or another type of static storage device for storing the.

입력 장치(240)는 키보드, 마우스, 타블렛, 펜, 카메라, 음성 인식(voice recognition) 장치 등과 같이 사용자가 엔티티에 정보를 입력할 수 있도록 해주는 장치를 포함할 수 있다. Input device 240 may include a device that allows a user to enter information into an entity, such as a keyboard, mouse, tablet, pen, camera, voice recognition device, and the like.

통신 장치(250)는 엔터티가 다른 디바이스 및/또는 시스템과 통신할 수 있도록 해주는 임의의 송수신기형 장치를 포함할 수 있다. 예를 들면, 통신 장치(250)는 통신망(130)와 같은 네트워크를 통해 다른 디바이스나 시스템과 통신하는 장치를 포함할 수 있다.Communication device 250 may include any transceiver-type device that enables an entity to communicate with other devices and / or systems. For example, the communication device 250 may include an apparatus for communicating with another device or system through a network such as the communication network 130.

출력 장치(260)는 디스플레이, 프린터, 스피커 등을 포함하여, 사용자에게 정보를 출력하는장치를 포함할 수 있다. The output device 260 may include a device for outputting information to a user, including a display, a printer, a speaker, and the like.

저장 장치(270)는 하드디스크나 CD/DVD 롬 등과 같은 자기 기록 매체 및/또는 광학 기록 매체와 그에 대응하는 드라이브를 포함할 수 있다.The storage device 270 may include a magnetic recording medium and / or an optical recording medium such as a hard disk or a CD / DVD ROM, and a drive corresponding thereto.

상술한 클라이언트/서버 엔터티는 이하에서 상세히 설명될 검색 관련 동작(operation)을 수행할 수 있다. 소프트웨어 명령어는 저장 장치(270)와 같은, 컴퓨터로 판독 가능한 매체로부터, 또는 통신 장치(250)를 통해 다른 디바이스로부터 메모리(230)로 로드될 수 있다. 프로세서(220)는 메모리(230)에 저장된 소프트웨어 명령어에 따라 후술될 검색 관련 프로세스들을 수행할 수 있다. The above-described client / server entity may perform a search related operation which will be described in detail below. The software instructions may be loaded into the memory 230 from a computer readable medium, such as the storage device 270, or from another device via the communication device 250. The processor 220 may perform search related processes to be described below according to a software command stored in the memory 230.

다음으로, 본 발명의 실시예들이 수행될 수 있는 서버 구조의 일례를 도 3을 참조하여 설명한다.
Next, an example of a server structure in which embodiments of the present invention can be performed will be described with reference to FIG. 3.

검색 서버의 구조Search Server Structure

도 3은 본 발명의 실시예들이 수행될 수 있는 검색 서버의 구조를, 수행되는 기능에 따라 분류된 개체로 나타낸 것이다.3 illustrates the structure of a search server in which embodiments of the present invention may be performed, as entities classified according to the functions to be performed.

도 3을 참조하면, 본 발명에 따른 검색 관련 기능이 수행될 수 있는 서버(140)는 웹 문서 분석기(141), 링크-키워드 검색엔진(143), 웹문서 검색엔진(145) 및 관련어 검색엔진(147)을 포함할 수 있다. Referring to FIG. 3, a server 140 capable of performing a search related function according to the present invention includes a web document analyzer 141, a link-keyword search engine 143, a web document search engine 145, and a related word search engine. 147 may be included.

상술한 각각의 서버 구성 요소는 물리적으로 구분된 것이 아니라 기능에 따라 구분된 것이다. 따라서, 각각의 서버 구성 요소는 도 2에서 상술된 하나 이상의 서버 엔터티로 구성될 수도 있고, 둘 이상의 서버 구성 요소가 하나의 서버 엔터티에 의해 구현될 수도 있다.Each server component described above is not physically divided, but is divided according to function. Thus, each server component may consist of one or more server entities described above in FIG. 2, and two or more server components may be implemented by one server entity.

이하, 각 구성 요소의 기능을 설명한다.Hereinafter, the function of each component is demonstrated.

먼저, 웹 문서 분석기(141)는 인터넷에 존재하는 웹 문서들(150, 151)을 분석하여, 관련어 검색에 필요한 1)링크-키워드 연관 정보2)웹 문서 정보를 생성하고 저장할 수 있다. First, the web document analyzer 141 may analyze web documents 150 and 151 existing on the Internet, and generate and store 1) link-keyword related information and 2) web document information required for a related word search.

웹 문서 분석기(141)는 링크-키워드 연관 정보에 링크를 통한 웹 문서간의 관계에 따라 연관 관계에 있는 링크-키워드들을 저장한다. 연관 관계의 링크-키워드란, 웹 문서의 링크에 따라 서로 연결이 되는 링크-키워드 쌍을 말한다. 이를 도 4를 참조하여 설명한다.The web document analyzer 141 stores link-keywords associated with the link-keyword association information according to the relationship between the web documents via the link. An association link-keyword is a link-keyword pair that is connected to each other according to a link of a web document. This will be described with reference to FIG.

도 4는 링크를 통한 웹문서간의 연관 관계를 나타낸다.4 shows an association between web documents via links.

도 4를 참조하면, 웹 문서 A에는 웹 문서 B로의 링크(링크-키워드는 K1)가 있으며, 웹 문서 B에는 웹 문서 C로의 링크(링크-키워드는 K2)가 있을 때, 링크-키워드 K1에서 K2로의 연결이 있는 것으로 보며 (K1, K2)는 링크-키워드 연관 정보에 저장될 수 있다. 이를 아래 표 1을 참조하여 설명한다.Referring to FIG. 4, when web document A has a link to web document B (link-keyword is K1), and web document B has a link to web document C (link-keyword is K2), at link-keyword K1 It is assumed that there is a connection to K2 and (K1, K2) may be stored in link-keyword association information. This will be described with reference to Table 1 below.

표 1은 본 발명의 일 실시예에 따른 웹 문서 분석기에서 사용될 수 있는 링크-키워드 연관 정보를 구성하는 링크-키워드 연관 테이블의 일례를 나타낸다.Table 1 shows an example of a link-keyword association table constituting link-keyword association information that can be used in a web document analyzer according to an embodiment of the present invention.

식별자Identifier from (링크-키워드)from (link-keyword) to (링크-키워드)to (link-keyword) 빈도frequency 기타 정보Other information 1One K1K1 K2K2 22 K2K2 K4K4

웹 문서 분석기(141)는 표 1과 같이, 도 4에 나타난 각 웹 문서들 간의 링크-키워드 연관 관계를 소정의 규칙에 따라 정리하며, 각 관계마다 식별자를 부여하여 빈도 외 기타 정보를 함께 테이블 형태로 링크-키워드 연관 정보에 저장할 수 있다.As shown in Table 1, the web document analyzer 141 organizes the link-keyword association relations among the web documents shown in FIG. 4 according to a predetermined rule, and assigns an identifier to each relationship, together with other information besides the frequency, in a table form. Can be stored in link-keyword association information.

이렇게 연관된 링크-키워드 쌍은 두 문서 간의 연결 관계뿐만 아니라, 연결된 수많은 웹 문서상에서 나타날 수 있다. 또한, 링크-키워드는 하나 혹은 둘 이상의 단어 또는 형태소로 구성될 수 있다. 따라서, 웹 문서 분석기(141)는 좀 더 정확한 검색 결과를 얻기 위해서 링크-키워드 연관 정보에 가능한 모든 링크-키워드를 형태소 분석하여 나온 단어들과, 각 단어들에 존재하는 링크-키워드를 연결시켜 주는 색인을 함께 저장할 수 있다. 이를 표 2를 참조하여 설명한다.These associated link-keyword pairs can appear on a number of linked web documents, as well as the link relationship between two documents. In addition, the link-keyword may consist of one or more words or morphemes. Accordingly, the web document analyzer 141 links the words resulting from stemming all possible link-keywords to the link-keyword association information and the link-keywords present in each word to obtain more accurate search results. You can store indexes together. This will be described with reference to Table 2.

표 2는 본 발명의 일 실시예에 따른 웹 문서 분석기에서 사용될 수 있는 형태소 분석된 단어와 링크-키워드를 연결시켜 주는 색인의 구조의 일례를 나타낸다.Table 2 shows an example of the structure of the index linking the stemmed word and the link-keyword that can be used in the web document analyzer according to an embodiment of the present invention.

단어word 키워드 리스트Keyword list cherrycherry K1, K2K1, K2 appleapple K3, K4K3, K4 juicejuice K1, K3K1, K3

웹 문서 분석기(141)는 표 2와 같이 링크-키워드 연관 정보에 가능한 모든 링크-키워드를 형태소 분석하여 나온 단어들과, 각 단어들에 존재하는 링크-키워드를 색인 형태로 링크-키워드 연관 정보에 저장할 수 있다.As shown in Table 2, the web document analyzer 141 stems from all possible link-keywords in the link-keyword association information, and the link-keywords present in each word in the form of indexes in the link-keyword association information. Can be stored.

다음으로, 웹 문서 정보에는 사용자가 입력한 검색어를 구성하는 단어 또는 형태소들이 포함된 웹 문서를 검색하고, 특정 웹 문서의 키워드를 검색하는데 필요한 정보들이 저장될 수 있다. 일반적인 웹 문서 검색을 위해서는 웹 문서를 분석하여 웹 문서에 포함된 단어들을 추출하여, 단어들이 포함된 웹 문서를 찾을 수 있는 색인을 구성한다. 웹 문서 분석기(141)는 관련어 검색을 위해서 이러한 기본적인 구조를 확장하여, 웹 문서의 키워드로 볼 수 있는 해당 웹 문서로의 링크-키워드도 함께 저장할 수 있다. 이를 도 5를 참조하여 설명한다.Next, the web document information may store information necessary to search for a web document including words or morphemes constituting a search word input by a user, and search for a keyword of a specific web document. In order to search a general web document, a web document is analyzed and words included in the web document are extracted to form an index where the web document containing the words can be found. The web document analyzer 141 may extend this basic structure to search for a related word, and may also store a link-keyword to a corresponding web document that can be viewed as a keyword of the web document. This will be described with reference to FIG. 5.

도 5는 본 발명의 일실시예로서, 웹 문서 분석기가 생성하는 키워드-링크 기반의 웹 문서 정보의 내용을 나타낸다.FIG. 5 illustrates the contents of keyword-link based web document information generated by a web document analyzer according to one embodiment of the present invention.

도 5를 참조하면, 웹 문서 E에서 웹 문서 D로의 링크(링크-키워드는 K5)가 존재한다면, 웹 문서 분석기(141)는 웹 문서 D의 내용을 분석하여 나온 키워드들 외에 링크-키워드 K5 또한 웹 문서 D에 포함된 단어로 보고 색인, 즉 웹 문서 D의 웹 문서 정보에 포함시킨다. 또한, 링크-키워드 연관 정보에서와 유사하게, 웹 문서 분석기(141)는 링크-키워드 K5를 형태소 분석하여 나온 단어들도 웹 문서 D의 웹 문서 정보로 포함시킨다. Referring to FIG. 5, if there is a link from the web document E to the web document D (link-keyword is K5), the web document analyzer 141 also analyzes the content of the web document D, in addition to the keywords derived from the link-keyword K5. Words included in Web Document D are reported and indexed, that is, included in Web Document D's Web document information. Also, similarly to the link-keyword association information, the web document analyzer 141 also includes the words resulting from the stemming of the link-keyword K5 as the web document information of the web document D.

즉, 웹 문서 정보에는, 인터넷 상에서 가능한 모든 웹 문서를 분석하여, 해당 웹 문서에 포함된 키워드들 및 링크-키워드들과, 다른 웹 문서에 포함되어 해당 웹 문서를 가리키는 링크-키워드, 그리고 해당 웹 문서를 가리키는 링크-키워드를 형태소 분석하여 나온 단어들을 이용하여, 검색어를 구성하는 단어 또는 형태소가 존재하는 웹 문서를 찾을 수 있는 색인이 저장된다. That is, the web document information includes all the web documents available on the Internet, and includes keywords and link-keywords included in the web document, link-keywords included in other web documents, and the web document. Using words derived from stemming a link-keyword pointing to a document, an index is stored to find a web document in which the words or stemming composing the search word exist.

이때, 웹 문서 분석기(141)는 웹 문서 검색시 웹 문서의 키워드와, 링크-키워드, 해당 웹 문서를 가리키는 링크-키워드 및 해당 웹 문서를 가리키는 링크-키워드를 형태소 분석하여 나온 단어들에 대한 가중치를 서로 다르게 하여 웹 문서 정보를 생성할 수 있다.At this time, the web document analyzer 141 weights the words obtained by stemming the keywords of the web document, the link-keyword, the link-keyword pointing to the web document, and the link-keyword pointing to the web document when the web document is searched. You can generate Web document information by differently.

다음으로, 링크-키워드 검색 엔진(143)을 설명한다.Next, the link-keyword search engine 143 will be described.

링크-키워드 검색 엔진(143)은 웹 문서 분석기(141)가 생성하고 저장한 링크-키워드 연관 정보를 이용하여, 사용자로부터 입력된 검색어와 연관된 관련어들을 검색하는 기능을 수행한다. The link-keyword search engine 143 searches for related words related to the search word input from the user by using the link-keyword association information generated and stored by the web document analyzer 141.

보다 상세히는, 링크-키워드 검색 엔진(143)은 기본적으로는 표 1에 예시된 것과 같은 링크-키워드 연관 테이블에서 검색어와 일치하는 링크-키워드가 존재하는지 검색하여 일치하는 결과가 있으면 연관된 관련어들을 찾아낸다. More specifically, the link-keyword search engine 143 basically searches the link-keyword association table as illustrated in Table 1 to see if there is a link-keyword that matches the search term, and if there is a match, finds related related words. Serve

만일, 검색어가 둘 이상의 단어 또는 형태소로 구성되어 있을 경우, 링크-키워드 검색 엔진(143)은 추가적으로 표 2에 예시된 것과 같은 형태소 분석된 링크-키워드의 단어 색인을 이용하여, 검색어의 단어들이 포함된 링크-키워드들을 찾아낼 수 있다. If the search term consists of more than one word or morpheme, the link-keyword search engine 143 additionally includes the words of the search term using the stemmed link-keyword word index as illustrated in Table 2. Link-keywords can be found.

예를 들어, 검색어가 "apple juice"라면, 링크-키워드 검색 엔진(143)은 표 2에서 K1, K3, K4 링크-키워드들을 검색하고, 표 1을 이용하여 검색된 링크-키워드들과 연관된 관련어들을 검색할 수 있다.For example, if the search term is "apple juice", the link-keyword search engine 143 searches for K1, K3, K4 link-keywords in Table 2, and uses the Table 1 to search for related terms associated with the link-keywords retrieved. You can search.

다음으로, 웹 문서 검색 엔진(145)을 설명한다.Next, the web document search engine 145 will be described.

웹 문서 검색 엔진(145)은 사용자로부터 입력된 검색어를 포함하거나, 그에 근접한 내용을 포함하는 웹 문서를 검색하고, 검색된 웹 문서에 포함된 링크-키워드들에 연관된 관련어들을 찾아내는 검색 엔진이다.The web document search engine 145 is a search engine that searches a web document including a search word input from a user or a content close to the search word, and finds related words related to link-keywords included in the searched web document.

상술한 바와 같이, 웹 문서 분석기(141)에 의하여 생성되고 저장되는 웹 문서 정보에는 일반적인 웹 검색에 사용되는 정보 외에, 링크-키워드와 관련된 정보들이 포함되어 있다. 웹 문서 검색 엔진(145)은 이러한 웹 문서 정보를 이용하여, 먼저 사용자로부터 입력된 검색어를 구성하는 단어 또는 형태소들에 가장 근접한 웹 문서를 검색한다.As described above, the web document information generated and stored by the web document analyzer 141 includes information related to the link-keyword, in addition to the information used for a general web search. The web document search engine 145 first uses the web document information to search a web document closest to a word or morpheme constituting a search word input from a user.

검색된 웹 문서를 기반으로 연관된 관련어를 찾기 위해서 웹 문서 검색 엔진(145)은 먼저 해당 웹 문서들의 링크-키워드를 찾고, 찾은 링크-키워드에 대한 관련어 검색을 링크-키워드 검색 엔진(143)에 요청하여 최종 결과를 얻을 수 있다.In order to find related related words based on the searched web document, the web document search engine 145 first finds the link-keywords of the corresponding web documents, and requests the related-word search for the found link-keyword to the link-keyword search engine 143. The final result can be obtained.

예를 들어, 검색된 웹 문서로 링크된(즉, 링크가 검색된 웹 문서를 가리키는) 웹 문서들에 링크-키워드 K5, K6, K7 이 있다면, 웹 문서 검색 엔진(145)은 검색된 웹 문서의 링크-키워드를 K5, K6, K7 으로 판단할 수 있다. 그에 따라, 웹 문서 검색 엔진(145)은 링크-키워드 K5, K6, K7에 대한 관련어들에 대한 검색을 링크-키워드 검색 엔진(143)에 요청하여 관련어들을 획득할 수 있다.For example, if the web documents linked to the retrieved web document (ie, the link points to the retrieved web document) have a link-keyword K5, K6, K7, the web document search engine 145 may link to the retrieved web document. Keywords can be determined by K5, K6, and K7. Accordingly, the web document search engine 145 may request the link-keyword search engine 143 to search for related words for the link-keywords K5, K6, and K7 to obtain the related words.

다음으로, 관련어 검색 엔진(147)을 설명한다.Next, the related word search engine 147 will be described.

관련어 검색 엔진(147)은 사용자로부터 검색어를 입력받고, 입력받은 검색어에 연관된 관련어들을 다시 사용자에게 반환하는 역할을 수행한다.The related word search engine 147 receives a search word from the user and returns a related word related to the received search word to the user.

보다 상세히 설명하면, 사용자 단말기(110)를 통하여 입력된 검색어와 연관된 관련어는 링크-키워드 검색 엔진(143)과 웹 문서 검색 엔진(145)을 통해 관련어 검색 엔진(147)에 획득될 수 있다. 관련어 검색 엔진(147)은 획득된 관련어를 웹 문서의 출현 빈도, 검색어를 포함하는 웹 문서에 포함된 키워드인지 여부 또는 검색어를 포함하는 웹 문서를 가리키는 웹 문서에 포함된 키워드인지 여부 등 통계적 정보에 따른 우선 순위로 정렬하여 사용자 단말기(110)에 반환할 수 있다.
In more detail, the related word associated with the search word input through the user terminal 110 may be obtained by the related word search engine 147 through the link-keyword search engine 143 and the web document search engine 145. The relational search engine 147 may use the acquired relational information in statistical information such as the frequency of occurrence of the web document, whether the keyword is included in the web document including the search term, or whether the keyword is included in the web document pointing to the web document including the search term. It may be returned to the user terminal 110 sorted according to the priority.

검색 수행 과정Process of performing a search

이하, 도 1 내지 도 3을 참조하여 설명한 시스템에서 수행될 수 있는 본 발명에 따른 관련어 검색 방법을 도 6을 참조하여 자세히 설명한다.Hereinafter, a method for searching a related word according to the present invention, which may be performed in the system described with reference to FIGS. 1 to 3, will be described in detail with reference to FIG. 6.

도 6은 본 발명의 일 실시예에 따른 관련어 검색 방법의 일례를 나타내는 순서도이다.6 is a flowchart illustrating an example of a related word search method according to an embodiment of the present invention.

먼저, 서버(140)의 웹 문서 분석기(141)는 인터넷 상에 존재하는 웹 문서들을 분석하여 링크-키워드 연관 정보 및 웹 문서 정보를 획득하고 저장할 수 있다. 이러한 정보는 링크-키워드 검색 엔진(143) 및 웹 문서 검색 엔진(145)에 전달될 수 있다(S610). First, the web document analyzer 141 of the server 140 may obtain and store link-keyword association information and web document information by analyzing web documents existing on the Internet. Such information may be transmitted to the link-keyword search engine 143 and the web document search engine 145 (S610).

다음으로, 사용자로부터 검색어가 입력될 수 있다(S620).Next, a search word may be input from the user (S620).

이를 위하여, 사용자는 사용자 단말기(110)를 통하여 자신이 정보를 획득하고자 하는 단어를 선택하여 검색어로 입력하면, 입력된 검색어는 통신망(130)을 통하여 검색 서버(140)의 관련어 검색 엔진(147)으로 전달된다.To this end, when a user selects a word for which he / she wants to obtain information through the user terminal 110 and inputs it as a search word, the input search word is related word search engine 147 of the search server 140 through the communication network 130. Is passed to.

관련어 검색엔진(147)은 검색어를 링크-키워드 검색엔진(143) 및 웹 문서 검색엔진(145)에 전달하여 관련어를 검색하도록 한다.The related word search engine 147 transmits a search word to the link-keyword search engine 143 and the web document search engine 145 to search related words.

링크-키워드 검색엔진(143)은 웹 문서 분석기(141)로부터 획득한 링크-키워드 연관 정보를 이용하여 관련어를 검색한다(S640).The link-keyword search engine 143 searches for related words using the link-keyword association information obtained from the web document analyzer 141 (S640).

또한, 웹 문서 검색엔진(145)은 웹 문서 분석기(141)로부터 획득한 웹 문서 정보를 이용하여 검색어에 관련된 웹 문서를 검색한다(S641).In addition, the web document search engine 145 searches for the web document related to the search word using the web document information obtained from the web document analyzer 141 (S641).

검색어에 관련된 웹 문서가 검색되면, 웹 문서 검색엔진(145)은 검색된 웹 문서에서 링크-키워드를 추출하고(S642), 다시 링크-키워드 검색엔진(143)에 추출된 링크-키워드에 대한 관련어 검색을 요청하여 검색을 확장한다(S643). When the web document related to the search term is searched, the web document search engine 145 extracts the link-keyword from the searched web document (S642), and searches for the related word about the link-keyword extracted to the link-keyword search engine 143 again. Request to expand the search (S643).

이때, 웹 문서 검색엔진(145)로부터 링크-키워드 검색엔진(143)에 요청된, 추출된 링크-키워드에 대한 관련어 검색의 결과는 다시 웹 문서 검색엔진(145)으로 반환될 수도 있고, 관련어 검색엔진(147)으로 직접 전달될 수도 있다.At this time, the result of the related word search for the extracted link-keyword requested from the web document search engine 145 to the link-keyword search engine 143 may be returned to the web document search engine 145, or the related word search It may also be delivered directly to engine 147.

링크-키워드 검색엔진(143)과 웹 문서 검색엔진(145)은 각자의 검색 동작이 종료되면 검색 결과로 추출된 관련어를 관련어 검색엔진(147)으로 전달한다.The link-keyword search engine 143 and the web document search engine 145 transfer related words extracted as a search result to the related search engine 147 when their search operation is completed.

관련어 검색엔진(147)은 획득된 관련어를 웹 문서의 출현 빈도, 검색어를 포함하는 웹 문서에 포함된 키워드인지 여부 또는 검색어를 포함하는 웹 문서를 가리키는 웹 문서에 포함된 키워드인지 여부 등 통계적 정보에 따른 우선 순위로 정렬하여 사용자 단말기(110)에 반환할 수 있다(S650, S660). The related term search engine 147 may determine the related term based on statistical information such as the frequency of occurrence of the web document, whether the keyword is included in the web document including the search word, or whether the keyword is included in the web document pointing to the web document including the search word. According to the priority according to the order can be returned to the user terminal 110 (S650, S660).

상술한 바와 같이, 본 발명은 사용자가 입력한 검색어에 연관된 관련어들을 보여주기 위한 방법에 관한 것이다. 다시 말하면, 본 발명은 웹 문서간의 링크 관계를 활용하여 관계있는 링크-키워드 정보와 링크-키워드가 추가된 웹 문서 정보를 활용하여 검색어에 연관된 관련어들을 효율적으로 제공한다. As described above, the present invention relates to a method for displaying related terms related to a search word input by a user. In other words, the present invention efficiently provides related terms related to a search word by utilizing related link-keyword information and web document information to which link-keyword is added by utilizing link relations between web documents.

따라서, 사용자는 이러한 관련어 정보를 제공 받음으로써 자신이 알고 있는 검색어 외의 관련어들을 인식하여 검색 결과의 범위를 좁힐 수 있는 검색어를 더욱 효율적으로 찾아갈 수 있게 된다. Accordingly, by providing the related information, the user may recognize related words other than the search word that he / she knows, and more efficiently search for the search word that can narrow the scope of the search results.

또한, 본 발명의 일 실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.Further, according to an embodiment of the present invention, the above-described method can be implemented as a code that can be read by a processor on a medium on which the program is recorded. Examples of processor-readable media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, and may be implemented in the form of a carrier wave (for example, transmission over the Internet). Include.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.The invention can be embodied in other specific forms without departing from the spirit and essential features of the invention. Accordingly, the above detailed description should not be construed as limiting in all aspects and should be considered as illustrative. The scope of the invention should be determined by reasonable interpretation of the appended claims, and all changes within the equivalent scope of the invention are included in the scope of the invention. In addition, the claims may be combined to form an embodiment by combining claims that do not have an explicit citation relationship or may be incorporated as new claims by post-application correction.

Claims (20)

인터넷 검색 시스템에 있어서,
복수의 웹 문서 각각에 포함된 복수의 링크-키워드 간의 관계를 나타내는 링크-키워드 연관 정보, 및 상기 복수의 웹 문서 각각에 대한 키워드 정보와 하이퍼 링크 정보를 포함하는 웹 문서 정보를 생성하는 웹 문서 분석기;
링크-키워드 검색 엔진; 및
웹 문서 검색 엔진;을 포함하되,
상기 웹 문서 검색 엔진은,
상기 웹 문서 정보를 이용하여 사용자로부터 입력된 검색어에 연관된 하나 이상의 웹 문서를 검색하고, 상기 연관된 하나 이상의 웹 문서에 포함된 하나 이상의 링크-키워드를 추출하여 상기 링크-키워드 검색엔진에 전달하며,
상기 링크-키워드 검색 엔진은.
상기 링크-키워드 연관 정보를 이용하여 상기 검색어 및 상기 추출된 하나 이상의 링크-키워드에 연관된 하나 이상의 관련어를 추출하는 것을 특징으로 하는 인터넷 검색 시스템.
In the Internet search system,
Web document analyzer for generating link-keyword association information indicating a relationship between a plurality of link-keywords included in each of the plurality of web documents, and web document information including keyword information and hyperlink information for each of the plurality of web documents. ;
A link-keyword search engine; And
Including a web document search engine,
The web document search engine,
Search for one or more web documents associated with a search term input from a user by using the web document information, extract one or more link-keywords included in the associated one or more web documents, and transmit the extracted one or more link-keywords to the link-keyword search engine,
The link-keyword search engine is:
Extracting one or more related words related to the search word and the extracted one or more link-keywords using the link-keyword association information.
제 1항에 있어서,
상기 링크-키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고,
상기 키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 2 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하는, 인터넷 검색 시스템.
The method of claim 1,
The link-keyword information is,
For each of the plurality of web documents, one or more first link-keywords contained in the web document itself and accompanying hyperlinks, and one or more items included in the non-document and hyperlinks pointing to the web document. 2 contains information about link-keywords,
The keyword information,
For each of the plurality of web documents, a morpheme detected by morphologically analyzing a keyword included in the document itself, the at least one first link-keyword, the at least one second link-keyword, and the at least one second link-keyword. Internet search system that contains information about.
제 1항에 있어서,
상기 링크-키워드 연관 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 하이퍼 링크가 가리키는 웹 문서에 포함되는 하나 이상의 제 3 링크-키워드의 대응 관계를 나타내는 정보를 포함하는, 인터넷 검색 시스템.
The method of claim 1,
The link-keyword association information,
For each of the plurality of web documents, a correspondence relationship between one or more first link-keywords included in the web document itself and accompanying hyperlinks, and one or more third link-keywords included in the web document to which the hyperlink points. An Internet search system, comprising the information indicating.
제 3항에 있어서,
상기 각 링크-키워드들 간의 대응 관계를 나타내는 정보는,
상기 각 대응 관계 마다 부여된 식별자 및 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보를 포함하는, 인터넷 검색 시스템.
The method of claim 3, wherein
The information representing the correspondence between the link-keywords is,
And first index information including an identifier assigned to each corresponding relationship and a frequency of appearance on the plurality of web documents.
제 4항에 있어서,
상기 링크-키워드 연관 정보는,
상기 각각의 링크-키워드들을 형태소 분석하여 추출된 형태소 마다 대응되는 링크-키워드에 대한 제 2 색인 정보를 더 포함하는, 인터넷 검색 시스템.
The method of claim 4, wherein
The link-keyword association information,
And morphological analysis of the respective link-keywords, further including second index information on link-keywords corresponding to the extracted morphemes.
제 5항에 있어서,
상기 링크-키워드 검색 엔진은,
상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 하나의 형태소로 구성되는 경우, 상기 제 1 색인 정보를 이용하여 상기 하나 이상의 관련어를 추출하는 것을 특징으로 하는, 인터넷 검색 시스템.
6. The method of claim 5,
The link-keyword search engine,
And when the search word or the extracted one or more link-keywords comprise one morpheme, extracting the one or more related words using the first index information.
제 6항에 있어서,
상기 링크-키워드 검색 엔진은,
상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 둘 이상의 형태소로 구성되는 경우, 상기 제 2 색인 정보를 추가로 이용하여 상기 하나 이상의 관련어를 추출하는 것을 특징으로 하는, 인터넷 검색 시스템.
The method of claim 6,
The link-keyword search engine,
And when the search word or the extracted one or more link-keywords consist of two or more morphemes, extracting the one or more related words by further using the second index information.
제 1항에 있어서,
상기 검색어를 상기 웹 문서 검색 엔진 및 상기 링크-키워드 검색 엔진에 전달하고, 상기 추출된 하나 이상의 관련어를 소정의 기준에 따라 정렬하여 상기 검색어에 대한 검색 결과로 사용자에게 제공하기 위한 관련어 검색엔진을 더 포함하는, 인터넷 검색 시스템.
The method of claim 1,
A related term search engine for delivering the search term to the web document search engine and the link-keyword search engine, and sorting the extracted one or more related terms according to a predetermined criterion and providing the search term to the user as a search result for the search term. Including, Internet search system.
제 8항에 있어서,
상기 링크-키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고,
상기 키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 3 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하며,
상기 링크-키워드 연관 정보는,
상기 복수의 웹 문서 각각에 포함되는 복수의 링크-키워드 간의 대응 관계를 나타내는 정보; 및
상기 각 대응 관계 각각에 대한 식별자와 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보;를 포함하는, 인터넷 검색 시스템.
The method of claim 8,
The link-keyword information is,
For each of the plurality of web documents, one or more first link-keywords contained in the web document itself and accompanying hyperlinks, and one or more items included in the non-document and hyperlinks pointing to the web document. 2 contains information about link-keywords,
The keyword information,
For each of the plurality of web documents, a morpheme detected by morphologically analyzing a keyword included in the document itself, the one or more first link-keywords, the one or more third link-keywords, and the one or more second link-keywords. Contains information about,
The link-keyword association information,
Information indicating a correspondence relationship between a plurality of link-keywords included in each of the plurality of web documents; And
And first index information including an identifier for each of the corresponding relationships and a frequency of appearance on the plurality of web documents.
제 9항에 있어서,
상기 소정의 기준은,
상기 제 1 색인 정보에 나타난 상기 등장 빈도, 상기 검색어가 포함되는 웹 문서에 존재하는 키워드인지 여부, 상기 검색어가 포함되는 웹문서에 존재하는 링크-키워드인지여부, 상기 제 2 링크-키워드인지 여부 및 상기 제 2 링크-키워드를 형태소 분석하여 검출된 형태소인지 여부 중 적어도 하나를 포함하는 것을 특징으로 하는, 인터넷 검색 시스템.
The method of claim 9,
The predetermined criterion is
The frequency of appearance shown in the first index information, whether the keyword exists in the web document including the search word, whether the link-keyword exists in the web document including the search word, whether the second link-keyword, and And at least one of morphemes detected by morphologically analyzing the second link-keyword.
인터넷 검색 방법에 있어서,
사용자로부터 검색어를 입력받는 단계;
복수의 웹 문서 각각에 대한 키워드 정보 및 하이퍼 링크 정보를 포함하는 웹 문서 정보를 이용하여 사용자로부터 입력된 검색어에 연관된 하나 이상의 웹 문서를 검색하고, 상기 연관된 하나 이상의 웹 문서에 포함된 하나 이상의 링크-키워드를 추출하는 단계; 및
상기 복수의 웹 문서 각각에 포함된 복수의 링크-키워드 간의 관계를 나타내는 링크-키워드 연관 정보를 이용하여 상기 검색어 및 상기 추출된 하나 이상의 링크-키워드에 연관된 하나 이상의 관련어를 추출하는 단계를 포함하는, 인터넷 검색 방법.
In the Internet search method,
Receiving a search word from a user;
Search for one or more web documents associated with a search term entered from a user using web document information including keyword information and hyperlink information for each of the plurality of web documents, and one or more links included in the associated one or more web documents- Extracting keywords; And
Extracting one or more related words associated with the search term and the extracted one or more link-keywords using link-keyword association information representing a relationship between a plurality of link-keywords included in each of the plurality of web documents; How to search the internet.
제 11항에 있어서,
상기 링크-키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 3 링크-키워드에 대한 정보를 포함하고,
상기 키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 2 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하는, 인터넷 검색 방법.
12. The method of claim 11,
The link-keyword information is,
For each of the plurality of web documents, one or more first link-keywords contained in the web document itself and accompanying hyperlinks, and one or more items included in the non-document and hyperlinks pointing to the web document. 3 contains information about link-keywords,
The keyword information,
For each of the plurality of web documents, a morpheme detected by morphologically analyzing a keyword included in the document itself, the at least one first link-keyword, the at least one second link-keyword, and the at least one second link-keyword. Containing information about, Internet search method.
제 11항에 있어서,
상기 링크-키워드 연관 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 하이퍼 링크가 가리키는 웹 문서에 포함되는 하나 이상의 제 3 링크-키워드의 대응 관계를 나타내는 정보를 포함하는, 인터넷 검색 방법.
12. The method of claim 11,
The link-keyword association information,
For each of the plurality of web documents, a correspondence relationship between one or more first link-keywords included in the web document itself and accompanying hyperlinks, and one or more third link-keywords included in the web document to which the hyperlink points. An Internet search method that includes information indicating.
제 13항에 있어서,
상기 각 링크-키워드들 간의 대응 관계를 나타내는 정보는,
상기 각 대응 관계 마다 부여된 식별자 및 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보를 포함하는, 인터넷 검색 방법.
The method of claim 13,
The information representing the correspondence between the link-keywords is,
And first index information including an identifier assigned to each corresponding relationship and a frequency of appearance on the plurality of web documents.
제 14항에 있어서,
상기 링크-키워드 연관 정보는,
상기 각각의 링크-키워드들을 형태소 분석하여 추출된 형태소 마다 대응되는 링크-키워드에 대한 제 2 색인 정보를 더 포함하는, 인터넷 검색 방법.
The method of claim 14,
The link-keyword association information,
And morphological analysis of the respective link-keywords, further comprising second index information on the corresponding link-keywords for each morpheme extracted.
제 15항에 있어서,
상기 하나 이상의 관련어를 추출하는 단계는,
상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 하나의 형태소로 구성되는 경우, 상기 제 1 색인 정보를 이용하여 상기 하나 이상의 관련어를 추출하는 단계인 것을 특징으로 하는, 인터넷 검색 방법.
16. The method of claim 15,
Extracting the one or more related words,
Extracting the one or more related words using the first index information when the search word or the extracted one or more link-keywords comprise one morpheme.
제 16항에 있어서,
상기 하나 이상의 관련어를 추출하는 단계는,
상기 검색어 또는 상기 추출된 하나 이상의 링크-키워드가 둘 이상의 형태소로 구성되는 경우, 상기 제 2 색인 정보를 추가로 이용하여 상기 하나 이상의 관련어를 추출하는 단계를 더 포함하는 것을 특징으로 하는, 인터넷 검색 방법.
17. The method of claim 16,
Extracting the one or more related words,
If the search word or the extracted one or more link-keywords are composed of two or more morphemes, further comprising extracting the one or more related words by further using the second index information. .
제 11항에 있어서,
상기 추출된 하나 이상의 관련어를 소정의 기준에 따라 정렬하여 상기 검색어에 대한 검색 결과로 출력하는 단계를 더 포함하는, 인터넷 검색 방법.
12. The method of claim 11,
And sorting the extracted one or more related words according to a predetermined criterion and outputting the searched result for the search word.
제 18항에 있어서,
상기 링크-키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 웹 문서 자체에 포함되어 하이퍼 링크를 수반하는 하나 이상의 제 1 링크-키워드 및 상기 해당 문서가 아닌 문서에 포함되어 하이퍼 링크가 상기 해당 웹 문서를 가리키는 하나 이상의 제 2 링크-키워드에 대한 정보를 포함하고,
상기 키워드 정보는,
상기 복수의 웹 문서 각각에 대하여, 해당 문서 자체에 포함되는 키워드, 상기 하나 이상의 제 1 링크-키워드, 상기 하나 이상의 제 3 링크-키워드 및 상기 하나 이상의 제 2 링크-키워드를 형태소 분석하여 검출된 형태소에 대한 정보를 포함하며,
상기 링크-키워드 연관 정보는,
상기 복수의 웹 문서 각각에 포함되는 복수의 링크-키워드 간의 대응 관계를 나타내는 정보; 및
상기 각 대응 관계 각각에 대한 식별자와 상기 복수의 웹 문서 상에서의 등장 빈도를 포함하는 제 1 색인 정보;를 포함하는, 인터넷 검색 방법.
19. The method of claim 18,
The link-keyword information is,
For each of the plurality of web documents, one or more first link-keywords contained in the web document itself and accompanying hyperlinks, and one or more items included in the non-document and hyperlinks pointing to the web document. 2 contains information about link-keywords,
The keyword information,
For each of the plurality of web documents, a morpheme detected by morphologically analyzing a keyword included in the document itself, the one or more first link-keywords, the one or more third link-keywords, and the one or more second link-keywords. Contains information about,
The link-keyword association information,
Information indicating a correspondence relationship between a plurality of link-keywords included in each of the plurality of web documents; And
And first index information including an identifier for each of the correspondence relationships and a frequency of appearance on the plurality of web documents.
제 19항에 있어서,
상기 소정의 기준은,
상기 제 1 색인 정보에 나타난 상기 등장 빈도, 상기 검색어가 포함되는 웹 문서에 존재하는 키워드인지 여부, 상기 검색어가 포함되는 웹문서에 존재하는 링크-키워드인지여부, 상기 제 2 링크-키워드인지 여부 및 상기 제 2 링크-키워드를 형태소 분석하여 검출된 형태소인지 여부 중 적어도 하나를 포함하는 것을 특징으로 하는, 인터넷 검색 방법.
The method of claim 19,
The predetermined criterion is
The frequency of appearance shown in the first index information, whether the keyword exists in the web document including the search word, whether the link-keyword exists in the web document including the search word, whether the second link-keyword, and And at least one of morphemes detected by morphologically analyzing the second link-keyword.
KR1020100014034A 2010-02-17 2010-02-17 The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents KR20110094563A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100014034A KR20110094563A (en) 2010-02-17 2010-02-17 The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100014034A KR20110094563A (en) 2010-02-17 2010-02-17 The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents

Publications (1)

Publication Number Publication Date
KR20110094563A true KR20110094563A (en) 2011-08-24

Family

ID=44930545

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100014034A KR20110094563A (en) 2010-02-17 2010-02-17 The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents

Country Status (1)

Country Link
KR (1) KR20110094563A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160111233A (en) 2015-03-16 2016-09-26 한화테크윈 주식회사 A video searching apparatus and method
KR20180035477A (en) * 2016-09-29 2018-04-06 (주)시지온 Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same
CN110231955A (en) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 Code process method, apparatus, computer equipment and storage medium
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160111233A (en) 2015-03-16 2016-09-26 한화테크윈 주식회사 A video searching apparatus and method
KR20180035477A (en) * 2016-09-29 2018-04-06 (주)시지온 Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same
CN110231955A (en) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 Code process method, apparatus, computer equipment and storage medium
CN110231955B (en) * 2019-05-13 2024-05-07 平安科技(深圳)有限公司 Code processing method, device, computer equipment and storage medium
US11481447B2 (en) * 2019-09-20 2022-10-25 Fujifilm Business Innovation Corp. Information processing device and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
US10599721B2 (en) Method and apparatus for automatically summarizing the contents of electronic documents
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US8606778B1 (en) Document ranking based on semantic distance between terms in a document
CN104899322B (en) Search engine and implementation method thereof
US8060513B2 (en) Information processing with integrated semantic contexts
US8862591B2 (en) System and method for evaluating sentiment
US9323827B2 (en) Identifying key terms related to similar passages
US9465872B2 (en) Segment sensitive query matching
US20090144240A1 (en) Method and systems for using community bookmark data to supplement internet search results
US11361036B2 (en) Using historical information to improve search across heterogeneous indices
KR20080114764A (en) System and method for identifying related queries for languages with multiple writing systems
EP2724256A1 (en) System and method for matching comment data to text data
US10592841B2 (en) Automatic clustering by topic and prioritizing online feed items
US7698329B2 (en) Method for improving quality of search results by avoiding indexing sections of pages
KR20160042896A (en) Browsing images via mined hyperlinked text snippets
US8046361B2 (en) System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20100332491A1 (en) Method and system for utilizing user selection data to determine relevance of a web document for a search query
KR20110094563A (en) The apparatus and method for searching related keyword of user-defined search keyword based using relationship of link-keywords in web documents
Cao et al. Extraction of informative blocks from web pages
JP2013254366A (en) Information processing device and related word determination method
Vuković et al. Quote Erat Demonstrandum: A Web Interface for Exploring the Quotebank Corpus
Gao et al. Using shallow natural language processing in a just-in-time information retrieval assistant for bloggers
Geller et al. Blog mining for the fortune 500
Kazama et al. Evaluation of using human relationships on the web as information navigation paths

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application