KR101247346B1 - System and method for searching dictionary - Google Patents

System and method for searching dictionary Download PDF

Info

Publication number
KR101247346B1
KR101247346B1 KR1020120024305A KR20120024305A KR101247346B1 KR 101247346 B1 KR101247346 B1 KR 101247346B1 KR 1020120024305 A KR1020120024305 A KR 1020120024305A KR 20120024305 A KR20120024305 A KR 20120024305A KR 101247346 B1 KR101247346 B1 KR 101247346B1
Authority
KR
South Korea
Prior art keywords
words
idiom
idioms
search
word
Prior art date
Application number
KR1020120024305A
Other languages
Korean (ko)
Inventor
윤기오
Original Assignee
윤기오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤기오 filed Critical 윤기오
Priority to KR1020120024305A priority Critical patent/KR101247346B1/en
Application granted granted Critical
Publication of KR101247346B1 publication Critical patent/KR101247346B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A dictionary search service system and a method thereof are provided to increase searching efficiency by inputting a whole sentence including a word and an idiom desired to be searched, thereby getting results at the same time. CONSTITUTION: A sentence separating unit(241) separates inputted sentences into several sentences. A word separating unit(242) separates words used in the sentences. A word search unit(243) searches a word database for only words satisfying a search condition set in a search condition selecting unit. A preliminary idiom search unit(244) searches an idiom database for preliminary idioms used in the sentences. An idiom search unit(245) compares used idioms in the sentences with each other according to the types of the idioms to search for the idioms. [Reference numerals] (210) Input unit; (220) Search condition selecting unit; (230) Output unit; (241) Sentence separating unit; (242) Word separating unit; (243) Word search unit; (244) Preliminary idiom search unit; (245) Idiom search unit; (251) Sentence storage unit; (252) Idiom storage unit; (253) Word storage unit; (260) Output generating unit; (271) Code converting unit; (272) Idiom converting unit; (273) Derived word unit; (274) Word transaction availability calculating unit; (281) Word DB; (282) Idiom DB; (283) User definition DB; (291) Index generating unit; (292) Statistics generating unit; (293) Search DB; (294) Statistics DB

Description

사전 검색 서비스 시스템 및 방법{SYSTEM AND METHOD FOR SEARCHING DICTIONARY}Dictionary search service system and method {SYSTEM AND METHOD FOR SEARCHING DICTIONARY}

본 발명은 사전 검색 서비스 시스템에 관한 것이며, 보다 구체적으로는 문장에서 사용된 단어, 고유명사, 복합명사(compound), 전문용어(terms), 이디움(idiom) 및 구동사(phrase verb) 등을 동시에 검색하여 출력하는 사전 검색 서비스 시스템 및 방법에 관한 것이다.The present invention relates to a dictionary search service system, and more specifically, a word, a proper noun, a compound noun, a term, an idiom and a phrase verb used in a sentence at the same time. The present invention relates to a dictionary search service system and a method for searching and outputting the same.

일반적인 사전 검색 서비스 시스템은 한 개의 단어를 입력하여 검색하는 기능을 가진다. 단어는 일련의 철자(spell)로 구성되어 있으며, 또는 하이픈(-)으로 연결되는 형태를 가지는 경우도 있다. 본 발명에서 단어는 구분자(delimiter, 예를 들면 space)로 구분될 수 없으면서 단어를 구성하는 모든 철자가 반드시 연속되고 의미 있는 철자의 집합인 것으로 정의한다. 또한, 숙어는 복수의 단어로 구성되고 구분자로 단어와 단어를 구분할 수 있는 의미 있는 단어의 집합인 것으로 정의한다.A general dictionary search service system has a function of searching by entering one word. Words are made up of a series of spells, or they can be connected by a hyphen (-). In the present invention, the word is not defined as a delimiter (for example, a space) and is defined as all the letters constituting the word must be a continuous and meaningful set of spellings. In addition, an idiom is defined as a set of meaningful words that can be composed of a plurality of words and can be distinguished from words by a separator.

복합명사와 전문용어들은 복수개의 단어로 구성되어 있으며 구분자로 공백(space)을 사용한다. 예를 들면, "Great Wall"과 같이 중국의 만리장성을 뜻하는 고유명사나 복합명사인 "tennis ball" 등이 있다. 일반적인 사전 검색 서비스 시스템에서 고유명사의 처리는 두 개의 단어로 이루어져 있지만 1개의 단어로 간주하고 사전 데이터 베이스를 검색하여 결과를 서비스하고 있으며, 따라서, 사전 데이터 베이스에 저장 관리되지 않는 복합명사는 검색 서비스가 불가능하다.Compound nouns and terminology consist of multiple words and use spaces as delimiters. For example, there are proper nouns for the Great Wall of China such as "Great Wall" and "tennis ball" for compound nouns. In the general dictionary search service system, the proper noun processing consists of two words, but it considers one word and searches the dictionary database to serve the result. Therefore, the compound noun stored in the dictionary database is search service. Is impossible.

숙어인 경우는 상황이 다르다. 예를 들면, "bailout of banks - 구제금융"의 경우 일반적인 사전 검색 서비스 시스템은 서비스를 못하고 있으며, 극히 일부의 경우에 "bailout"만 검색하여 서비스하는 경우가 있다.Idioms are different. For example, in the case of "bailout of banks-bailouts", a general dictionary search service system does not serve, and in some cases, only "bailout" is searched and serviced.

숙어는 문장 또는 구동사(phrase verb)로 이루어지며, 예를 들면 "I couldn’t agree more" 또는 "I beg your pardon?" 등이 있다. 그러나, 구동사로 불리는 숙어는 구동사의 단어 사이에 구 또는 절이 들어갈 수 있는 등 매우 가변적이다.Idioms are made up of sentences or phrases, such as "I could n’t agree more" or "I beg your pardon?" Etc. However, idioms called phrasal verbs are very variable, such as phrases or clauses that can be entered between phrasal verbs.

예를 들면, "as ~ as possible"과 같이 as와 as 사이에 하나 또는 복수의 단어가 사용될 수 있다. 또한, "as much as possible" 또는 "as many friends as possible"과 같이 문장 상황에 따라서 "~"로 표시되는 대표성을 가진 위치에 추정할 수 없는 개수의 단어가 사용될 수 있다. 또한, "as ~ as possible" 또는 "as A as possible"는 "~", "A"란 형태로 표현될 수 있으며, "A as well as B"와 "as well as"는 같은 의미의 표현이지만 실상에서는 서로 다른 표현으로 사용하기도 한다. 또 다른 숙어의 예로 "put on"은 표현되는 중간에 삽입될 수 없는 고정 형태를 가지지만, 실상에서 put과 on 사이에 임의의 단어가 들어갈 소지(예컨대, "put it on")가 다분히 있다. 그리고, "be used to"와 같은 형태는 be 동사를 사용한다는 의미이지만 문장 속에서 표현될 수 있는 것은 매우 다양하다. 즉, be 동사는 "is, are, will, be, were, was, am" 등이 사용될 수 있고, 단축형으로 "I’m, You’re" 등으로도 표현될 수 있다.For example, one or more words may be used between as and as, such as "as to as possible". In addition, an unpredictable number of words may be used at a position having a representative representation of "~" according to a sentence situation, such as "as much as possible" or "as many friends as possible". In addition, "as ~ as possible" or "as A as possible" may be expressed in the form of "~", "A", and "A as well as B" and "as well as" mean the same meaning. In fact, they are often used in different ways. As another example of an idiom, "put on" has a fixed form that cannot be inserted in the middle of expression, but in reality there is a lot of arbitrary words (for example, "put it on") between put and on. And a form like "be used to" means using a be verb, but there are many different things that can be expressed in a sentence. That is, the be verb "is, are, will, be, were, was, am", etc. may be used, and may also be shortened to "I" m, You "re".

최근 한국의 네이버, 다음, 파란 등과 같은 각종 검색 포털 사이트 뿐만 아니라 캠브리지, 롱맨, 옥스포드, 웹마스터 등 외국의 유명 사전 업체들과 사전 서비스업체들인 딕션너리 닷컴, 앤서, 그리고 워드프로세서 업체인 마이크로소프트, 한글과 컴퓨터, 웹브라우저 업체인 구글도 사전 검색 서비스를 하고 있으며, 최근 판매되고 있는 모바일 기기는 사전 검색 서비스를 기본으로 채택하고 있다.In addition to the various search portal sites such as Naver, Daum, Blue, etc., as well as foreign famous dictionary companies such as Cambridge, Longman, Oxford, and Webmaster, dictionary service providers such as Dictionary.com, Answer, and word processor company Microsoft, Google, a Korean, computer and web browser company, also provides a dictionary search service, and mobile devices that are being sold recently adopt a dictionary search service.

일반적인 사전 검색 서비스 시스템은 단어를 검색하는 경우 하나의 단어 검색밖에 할 수 없기 때문에, 다수의 단어를 검색할 때 사용자는 각각의 단어를 입력하여 검색하고 사전 검색 서비스 시스템은 그 검색 결과를 제공한다. 일부의 사전 검색 서비스 시스템은 단어와 단어의 공백(space)을 구분자로 사용하여 제한된 몇 개의 복수 단어 서비스를 하고 있다. 예를 들면, "tennis ball"과 "ball tennis"를 검색하면 결과는 "tennis ball"로 동일하다. 그러나, "balls tennis"로 검색하면 결과를 얻을 수 없다.Since a general dictionary search service system can only search a single word when searching for words, when searching a plurality of words, a user inputs each word to search and the dictionary search service system provides the search result. Some dictionary retrieval service systems use a limited number of multiword services, using words and word spaces as separators. For example, searching for "tennis ball" and "ball tennis" results in the same "tennis ball". However, searching for "balls tennis" will not return results.

복합명사의 경우도 역시 각각의 단어로 분리해서 출력하는 형태를 취하고 있다. 즉, 공백을 포함한 단어 검색이 아닌 개별 단어로 인식하여 처리한다. 물론 일반적인 고유명사, 복합명사의 경우는 단어 데이터 베이스에 저장 관리되기 때문에 직접 검색이 가능하다.Compound nouns also take the form of separate words. In other words, it treats them as individual words rather than word searches with spaces. Of course, common proper nouns and compound nouns can be directly searched because they are stored and managed in the word database.

그렇지만, 복합명사만 입력되는 것이 아니라 복합명사와 더불어 또 다른 단어가 입력되었을 때는 검색이 불가능하다. 즉, 일반적인 사전 검색 서비스 시스템에서는 복합명사와 또 다른 단어를 구분하지 못하기 때문이다. 예를 들어, "in the Great wall"을 입력하면 고유명사인 "Great wall"은 검색되지 않고 great, wall, in, the만 검색된다. 반면 "Great wall" 또는 "the Great wall"을 검색하면 고유명사인 "Great wall"이 바르게 검색된다.However, not only compound nouns are entered, but search is impossible when another word is entered in addition to compound nouns. That is, the general dictionary search service system cannot distinguish a compound noun from another word. For example, entering "in the Great wall" will not search for the proper noun "Great wall", only great, wall, in, and the. On the other hand, if you search for "Great wall" or "the Great wall", the proper noun "Great wall" is searched correctly.

또한, 일반적인 사전 검색 서비스 시스템은 단어의 원형이 아닌 파생단어 형태로 검색을 실시할 경우, 입력된 단어를 사전 데이터 베이스에서 찾아서 제공하는 절차로 인해 파생 형태를 완전하게 사전 데이터 베이스에 저장 관리하지 않는다면 검색될 수 없는 단점을 가지고 있다.In addition, the general dictionary search service system does not store the derived form completely in the dictionary database due to the procedure of finding and providing the input word in the dictionary database when searching in the form of a derivative word rather than the original form of the word. It has the disadvantage that it cannot be detected.

이러한 이유로 일반적인 사전 검색 서비스 시스템은 복합명사, 전문용어 또는 숙어 형태는 서비스를 하지 못하고 있으며, 특히 다수의 문장을 입력하는 형태의 사전 검색 서비스 시스템은 아직까지 출현되지 않고 있는 실정이다.For this reason, the general dictionary search service system does not serve complex nouns, terminology, or idioms. In particular, the dictionary search service system in which a plurality of sentences are input has not yet appeared.

사전 검색 서비스가 아닌 워드프로세스의 경우 역시 사전 검색 서비스 시스템과 동일한 형태를 갖고 있기 때문에 숙어에 대한 검색은 제공하지 못하고 있다.Word process that is not a dictionary search service also has the same form as a dictionary search service system and thus cannot provide a search for idioms.

한편, 웹브라우저를 이용한 사전 검색 서비스 시스템의 경우, 대표적인 네이버 및 구글의 사전 검색 서비스는 브라우저상에서 툴바(tool bar)로 검색하는 기능을 제공한다. 즉, 단어 위에 마우스를 올려 놓으면 단어에 대한 의미를 표시한다. 그러나, 이 경우 복합명사 검색 서비스는 불가능하고, 단 하나의 단어 또는 인접한 복합명사에 대한 의미만을 서비스할 뿐이며, 가변적 숙어의 형태는 서비스하지 못한다.Meanwhile, in the case of a dictionary search service system using a web browser, representative Naver and Google's dictionary search services provide a function of searching with a toolbar on a browser. In other words, if you mouse over a word, the meaning of the word is displayed. However, in this case, the compound noun search service is not possible, and it only services the meaning of a single word or adjacent compound nouns, and does not provide a variable idiom form.

본 발명은 상기와 같은 점을 감안하여 안출한 것으로, 단어 및 숙어의 검색시 한 개 이상의 단어로 구성된 문장 속에 있는 고유명사, 복합명사, 전문용어, 이디움, 구동사 등을 내포하는 의미로 사용되는 숙어를 검색하여 서비스하는 사전 검색 서비스 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention has been made in view of the above, and is used to mean proper nouns, compound nouns, terminology, idioms, phrasal verbs, etc. in sentences composed of one or more words when searching for words and idioms. It is an object of the present invention to provide a dictionary search service system and method for searching and serving idioms.

본 발명의 다른 목적은, 문장에서 사용된 숙어뿐만 아니라 단어의 리스트도 함께 제공함으로써 검색에 소요되는 시간을 단축할 수 있고, 사용된 단어 및 숙어의 수준을 제시함으로써 문장의 난이도를 알 수 있으며, 문장에서 사용된 단어 및 숙어가 원형 형태로 출력되어 보다 쉽게 단어 및 숙어의 의미를 파악할 수 있는 사전 검색 서비스 시스템 및 방법을 제공하는데 있다.Another object of the present invention, by providing a list of words as well as idioms used in the sentence can reduce the time required for searching, and it is possible to know the difficulty of the sentence by presenting the level of the words and idioms used, It is to provide a dictionary search service system and method that can easily identify the meaning of words and idioms by outputting the words and idioms used in sentences in a circular form.

본 발명의 또 다른 목적은, 복수의 문장 구조로 이루어진 단락(paragraph) 형태나 복수의 단락을 포함하는 문서 형태로 입력하여도 각각의 문장으로 분리하여 그 단락이나 문서에 해당되는 단어와 숙어를 검색하며, 출력 형태에 따라서 문장별로 단어와 숙어를 검색할 뿐만 아니라 입력된 문장을 처리한 후 중복된 단어나 숙어를 제외한 결과만을 출력하는 등 다양성을 가진 사전 검색 서비스 시스템 및 방법을 제공하는데 있다.It is still another object of the present invention to search for words and idioms that are divided into individual sentences and entered into a paragraph form consisting of a plurality of sentence structures or a document form including a plurality of paragraphs. In addition, the present invention provides a dictionary search service system and method having a variety of functions such as not only searching words and idioms for each sentence according to the output form, but also outputting only the results excluding duplicate words or idioms after processing the input sentence.

상기 목적을 달성하기 위한 본 발명에 의한 사전 검색 서비스 시스템은, 한 개 이상의 단어 또는 한 개 이상의 문장을 입력하기 위한 입력부; 검색 조건을 설정하기 위한 검색 조건 선택부; 공백을 포함하지 않는 단어의 원형과 파생단어들을 포함하는 단어 데이터 베이스; 이디움(idiom), 구동사(phrase verb)로 통칭되는 숙어와 공백을 포함하는 전문용어, 복합명사와 고정형 숙어가 아닌 가변적 변화가 있을 수 있는 숙어를 검색하기 위한 변환숙어를 포함하는 숙어 데이터 베이스; 상기 입력부에 의해 입력된 복수의 문장을 개별 문장으로 분리하는 문장 분리부; 상기 문장 분리부에 의해 분리된 개별 문장에서 사용된 단어들을 분리하는 단어 분리부; 상기 검색 조건 선택부에서 설정된 검색 조건을 만족하는 단어만을 상기 단어 데이터 베이스에서 검색하는 단어 검색부; 상기 분리된 개별 문장에서 사용되었을 것으로 예상되는 예비숙어를 숙어 데이터 베이스에서 검색하는 예비숙어 검색부; 상기 입력부 및 문장 분리부에 의해 입력 및 분리된 문장에서 사용된 숙어의 형태에 따라서 사용된 숙어를 비교하여 검색하는 것으로서, 상기 상기 예비숙어 검색부에 의해 검색된 예비숙어 중 변화가 되지 않는 원형 및 고정형 숙어의 경우 상기 예비숙어와 문장에서 사용된 숙어를 비교하여 동일한 숙어를 검색하고, 문장에서 사용된 숙어가 사제의 변화, 단수, 복수 등에 따라 바뀌는 파생형 단어인 경우 파생형을 원형으로 치환하여 상기 예비숙어와 비교하여 동일한 숙어를 검색하며, 가변적인 단어군을 내포하는 숙어인 경우는 고정적인 단어의 개수(동일수의 조건), 단어의 순서(순서의 조건), 가변적인 단어군을 구성하는 단어의 개수가 상기 검색 조건 내에 있는 단어의 개수 이내에 있는지(거리 허용치의 조건)를 계산하여 상기 예비숙어와 비교하여 상기 세가지 조건을 만족하는 숙어를 검색하는 숙어 검색부; 상기 검색 조건에 맞게 분리된 문장, 검색된 단어 및 검색된 숙어를 각각 저장하는 문장 저장부, 단어 저장부 및 숙어 저장부; 상기 검색 조건에 따른 검색 결과물을 생성하는 출력 생성부; 및 상기 출력 생성부에 의해 생성된 검색 결과를 출력하는 출력부;를 포함한다.The dictionary search service system according to the present invention for achieving the above object, the input unit for inputting one or more words or one or more sentences; A search condition selection unit for setting a search condition; A word database containing prototypes and derived words of words that do not contain spaces; An idiom database comprising an idiom, a terminology including idioms and phrases collectively known as phrase verbs, and a conversion idiom for searching for idioms that may have variable variations rather than compound nouns and fixed idioms; A sentence separator for separating a plurality of sentences input by the input unit into individual sentences; A word separator for separating words used in individual sentences separated by the sentence separator; A word search unit that searches only the words in the word database that satisfy the search condition set by the search condition selector; A preliminary phrase search unit for searching the idiom database for a preliminary phrase expected to be used in the separated individual sentences; Comparing the idioms used according to the idioms used in the sentences input and separated by the input unit and the sentence separating unit, and searching, comparing the idioms used in the pre-idiom search unit circular and fixed type that does not change In the case of idioms, the same idiom is searched by comparing the idioms used in the sentence and the sentence, and when the idiom used in the sentence is a derivative word changed according to the change of priest, singular or plural, the derivative is replaced with a circle. The same idiom is searched compared to the preliminary idiom, and in the case of an idiom containing a variable word group, the number of fixed words (the same number of conditions), the order of the words (the conditions of the order), and the variable word group Calculate whether the number of words is within the number of words within the search condition (the condition of distance tolerance) and compare with the preliminary phrase W phrase searching unit to search for phrases that satisfies the above three conditions; A sentence storage unit, a word storage unit, and an idiom storage unit, each storing a sentence, a searched word, and a searched idiom separated according to the search condition; An output generator for generating a search result according to the search condition; And an output unit for outputting a search result generated by the output generation unit.

본 발명의 바람직한 실시예에 의하면, 사전 검색 서비스 시스템은, 웹 브라우저나 단말기 등에 따라 상이한 문자코드체계를 단일화하기 위하여 입력된 문자 코드를 아스키(ASCII)로 변환하거나 아스키에서 다른 문자코드 형태로 변환하기 위한 코드 변환부를 더 포함할 수 있다.According to a preferred embodiment of the present invention, the dictionary search service system converts an input character code into ASCII or converts an ASCII to another character code form in order to unify a different character code system according to a web browser or a terminal. It may further include a code conversion unit for.

또한, 본 발명은 검색된 예비숙어 중에서 대표성, 제한적 대표성 및 특수성 단어를 포함하는 숙어를 검색하기 위해 변환숙어의 표현으로 변환시키는 숙어 변환부를 더 포함할 수 있다.
여기서, 대표성 단어를 포함하는 숙어란, 단어와 단어 사이에 한 개 이상의 단어나 구 또는 절이 들어갈 수 있는 가변적인 공간(예컨대, "call A by B"나 "achieve one’s goal"과 같은 숙어에서 "A", "B", "one’s"를 말함)을 갖는 숙어로 정의되는 것을; 상기 제한적 대표성 단어를 포함하는 숙어란, "be going to", "be afraid of"와 같은 숙어에서 "be동사"처럼 한정된 단어만 사용할 수 있는 숙어로 정의되는 것을; 그리고, 특수성 단어를 포함하는 숙어란, "by ~ing", "by oneself" 등과 같이 특수한 형태의 단어만 사용할 수 있는 숙어로서 "ing"를 수반하거나 "oneself"와 같이 "self"가 함께 사용되어야 하는 숙어로 정의되는 것을 말한다.
또한, 본 발명은 문장에서 사용된 파생형 단어의 원형을 검색하도록 파생형 단어의 원형을 생성하는 파생 단어부를 더 포함할 수 있다.
The present invention may further include an idiom converting unit for converting an idiom including a representative word, a limited representative word, and a special word among the searched predicates into an expression of the converted phrase.
Here, an idiom that includes a representative word is a variable space in which one or more words, phrases, or clauses can be inserted between words (eg, "A" in "call A by B" or "achieve one's goal"). "," B ","one's") are defined as idioms; An idiom containing the limited representative word is defined as an idiom that can use only a limited word such as "be verb" in an idiom such as "be going to" or "be afraid of"; In addition, idioms containing specific words should be accompanied by "ing" or "self", such as "oneself", as idioms that can use only special types of words such as "by ~ ing" and "by oneself". Is defined as an idiom.
In addition, the present invention may further include a derivative word portion for generating a prototype of the derivative word to search for the prototype of the derivative word used in the sentence.

삭제delete

또한, 본 발명은 상기 대표성, 제한적 대표성 및 특수성 숙어에서 "achieve one’s goal"과 같은 대표성은 몇 개의 단어를 허용할 것인가를 제한하기 위해 "achieve"와 " goal" 사이의 단어 수(거리)를 계산하는 단어 거리 허용치 계산부를 더 포함할 수 있다.In addition, the present invention calculates the word count (distance) between "achieve" and "goal" in order to limit how many words the representativeness such as "achieve one's goal" in the representative, limited representative and specific idioms is allowed. The word distance tolerance calculation unit may further include.

또한, 본 발명은 상기 입력부를 통하여 입력된 검색 문장에 대하여 문장에서 사용된 모든 단어 및 숙어를 검색하여 단어 및 숙어의 알파벳 순서, 단어 및 숙어의 난이도에 기초한 수준, 그리고, 단어와 숙어를 구분하여 사용 및 빈도 통계를 작성하고 저장하는 통계 생성부 및 통계 데이터 베이스; 및 상기 입력부를 통하여 입력된 모든 검색 문장을 문장별로 분리하여 문장의 일련 순서에 따라 단어 및 숙어의 색인 정보를 생성하는 색인 생성부를 더 포함할 수 있다.In addition, the present invention searches all the words and idioms used in the sentence with respect to the search sentence entered through the input unit by classifying the alphabetic order of words and idioms, the level based on the difficulty of words and idioms, and distinguishing words and idioms A statistics generator and a statistics database for creating and storing usage and frequency statistics; And an index generator for separating all search sentences input through the input unit by sentence and generating index information of words and idioms according to a sequence of sentences.

한편, 본 발명의 목적을 달성하기 위한 사전 검색 서비스 방법은, a) 사용자가 입력부를 통하여 검색하고자 하는 한 개 이상의 단어 또는 한 개 이상의 문장을 입력하는 단계; b) 사용자가 검색 조건 선택부를 통하여 검색 조건을 설정하는 단계; c) 사용자가 입력한 문장을 문장 분리부에서 개별 문장으로 분리하는 단계; d) 단어 검색부가 상기 검색 조건을 만족하는 단어를 단어 데이터 베이스에서 검색하는 단계; e) 예비숙어 검색부가 문장에서 사용되었을 것으로 예상되는 예비숙어를 숙어 데이터 베이스에서 검색하는 단계; f) 입력부 및 문장 분리부에 의해 입력 및 분리된 문장에서 사용된 숙어의 형태에 따라서 사용된 숙어를 비교하여 검색하는 단계로서, 상기 예비숙어 검색부에 의해 검색된 예비숙어 중 변화가 되지 않는 원형 및 고정형 숙어의 경우 상기 예비숙어와 문장에서 사용된 숙어를 비교하여 동일한 숙어를 검색하고, 문장에서 사용된 숙어가 시제의 변화, 단수, 복수 등에 따라 바뀌는 파생형 단어인 경우 파생형을 원형으로 치환하여 상기 예비숙어와 비교하여 동일한 숙어를 검색하고, 가변적인 단어군을 내포하는 숙어인 경우는 고정적인 단어의 개수(동일수의 조건), 단어의 순서(순서의 조건), 가변적인 단어군을 구성하는 단어의 개수가 상기 검색 조건 내에 있는 단어의 개수 이내에 있는지(거리 허용치의 조건)를 계산하여 상기 예비숙어와 비교하여 상기 세가지 조건을 만족하는 숙어를 검색하는 단계; g) 상기 검색 조건에 맞게 분리된 문장, 검색된 단어 및 검색된 숙어를 각각 문장 저장부, 단어 저장부 및 숙어 저장부에 저장하는 단계; 및 h) 출력 생성부에서 상기 검색 조건에 따른 검색 결과물을 생성하여 사용자에게 제공하는 단계;를 포함한다.On the other hand, the dictionary search service method for achieving the object of the present invention, a) the user inputs one or more words or one or more sentences to search through the input unit; b) a user setting a search condition through the search condition selection unit; c) separating the sentences input by the user into individual sentences in the sentence separator; d) a word search unit searching for a word in the word database that satisfies the search condition; e) searching the idiom database for the preliminary phrases expected to have been used in the sentence; f) comparing and searching the idioms used according to the idioms used in the sentences input and separated by the input unit and the sentence separator, wherein the prototypes do not change among the pre-idioms retrieved by the preliminary phrase search unit; In the case of the fixed idiom, the same idiom is searched by comparing the idiom used in the sentence with the preliminary idiom, and if the idiom used in the sentence is a derivative word changed according to the change of the tense, the singular, the plural, etc. The same idiom is searched compared to the preliminary idiom, and in the case of an idiom containing a variable word group, a fixed number of words (the same number of conditions), the order of the words (condition of the order), and a variable word group are constructed. Calculate whether the number of words to be within the number of words within the search condition (the condition of the distance allowance value) and compare the pre-idiom with the Searching for idioms satisfying three conditions; g) storing the sentences, the searched words, and the searched idioms that are separated according to the search condition in the sentence storage unit, the word storage unit, and the idiom storage unit, respectively; And h) generating and providing the search result according to the search condition to the user in the output generator.

본 발명의 바람직한 실시예에 의하면, 상기 a) 단계에서 입력부는, 검색하고자 하는 한 개 이상의 단어 및 한 개 이상의 문장을 포함하는 페이지별 또는 단락별 문서의 연속적인 입력을 일괄 처리하는 방식을 지원할 수 있다.According to a preferred embodiment of the present invention, in step a), the input unit may support a method of collectively processing continuous input of a page-by-page or paragraph-specific document including one or more words and one or more sentences to be searched. have.

또한, 상기 b) 단계는, 입력된 복수의 문장에서 단어 또는 숙어만 검색할 것인지 단어와 숙어를 동시에 검색할 것인지를 설정하는 단계; 검색된 결과물을 문장 단위로 출력할 것인지 또는 입력된 모든 문장에서 사용된 유일한 단어 및 숙어의 결과만을 출력할 것인지를 설정하는 단계; 사용자가 설정한 검색 조건에 따라서 검색된 단어와 숙어의 결과에 대해 출력을 제한하는 조건을 설정하는 단계; 최소 길이 이하의 문장을 배제하거나 검색될 숙어에서 임의의 단어가 삽입될 단어의 수를 선택하는 단계; 및 검색된 숙어가, 단어와 단어 사이에 한 개 이상의 단어나 구 또는 절이 들어갈 수 있는 가변적인 공간(예컨대, "call A by B"나 "achieve one’s goal"과 같은 숙어에서 "A", "B", "one’s"를 말함)을 갖는 숙어로 정의되는 대표성을 가질 경우, 숙어 데이터 베이스에 저장된 원형 숙어와 문장에서 동일하지 않게 사용된 숙어("achieve his great goals")를 함께 출력할 것인지를 설정하는 단계;를 포함할 수 있다.Also, the step b) may include setting whether to search only words or idioms in a plurality of input sentences or to search words and idioms at the same time; Setting whether to output the searched result in sentence units or to output only the results of the only words and idioms used in all input sentences; Setting a condition for limiting output on the searched word and idiom results according to a search condition set by a user; Selecting a number of words to which any word is to be inserted in the idiom to be searched or to exclude sentences less than the minimum length; And a variable space where the searched idiom can contain one or more words, phrases, or phrases between words (eg, "A", "B" in idioms such as "call A by B" or "achieve one's goal"). , if you have a representativeness defined as an idiom with "one's", you can specify whether to output the original idiom stored in the idiom database and the idiom ("achieve his great goals") used in the sentence. It may include;

또한, 상기 c) 단계는, 다수의 문장을 입력하는 다중 검색에 있어서 입력되는 문서가 문장별로 구성되어 있지 않은 경우 문장 단위로 구분 및 정렬할 수 있다.In addition, in step c), when the input document is not configured for each sentence in a multiple search for inputting a plurality of sentences, the c) may be divided and sorted in units of sentences.

또한, 상기 d) 단계는, 분리된 각 문장에 따라 문장에서 사용된 단어를 기준으로 단어 데이터 베이스에서 단어를 검색하고, 문장에서 사용된 단어에 대해 원형이 아닌 파생형 단어가 사용되었을 경우 원형 단어를 검색할 수 있다.In addition, the step d), the word is searched in the word database based on the words used in the sentences according to the separate sentences, if the derivative words other than the circular for the words used in the sentences circular words You can search for.

또한, 상기 d) 단계는, 문장에서 사용된 파생형 단어를 이용하여 단어 데이터 베이스에서 원형을 검색하고, 단어 데이터 베이스에 저장 관리되지 않는 파생형 단어의 경우 원형을 생성할 수 있다.In addition, step d) may search for the prototype in the word database using the derived word used in the sentence, and generate the prototype in the case of the derived word not stored and managed in the word database.

또한, 상기 e) 단계는, 문장에서 사용된 단어의 중복을 배제하고, 관사, 인칭 대명사, be동사, 접속사, 감탄사 및 전치사 등을 배제하여, 배제한 단어들을 사용한 예비숙어를 숙어 데이터 베이스 또는 사용자 직접 등록 및 관리하는 사용자 정의 숙어 데이터 베이스에서 검색할 수 있다.In addition, the step e), excluding the overlapping of the words used in the sentence, and excludes articles, personal pronouns, be verbs, conjunctions, interjections, prepositions, etc. You can search in a custom idiom database that registers and manages.

또한, 상기 f) 단계는, 1. 동일 수의 조건 - 숙어를 구성하는 기본 단어 수와 예문에서 파생형 단어를 포함하여 사용된 단어의 개수가 일치하는 조건(단, 대표성, 제한적 대표성 및 특수성 단어는 1개의 단어로 취급), 2. 순서의 조건 - 모든 숙어는 숙어를 구성하는 단어의 순서가 검색된 문장에서도 동일할 조건, 3. 거리 허용치 조건 - 상기 대표성, 제한적 대표성 및 특수성 숙어는 대표성, 제한적 대표성 및 특수성 단어가 위치한 곳에서 단어간 거리 허용치 내에 있을 조건,의 3가지 숙어 검색 조건을 만족하는 숙어를 검색할 수 있다. 여기서, 상기 조건 3의 거리 허용치는 사용자가 선택할 수 있다.In addition, the step f), 1. The same number of conditions-the condition that the number of basic words constituting the idiom and the number of words used including the derivative words in the example sentences match (however, representative, limited representative and specific words) Is treated as one word), 2. Conditions of order-All idioms are the same conditions in which the sequence of words constituting the idiom is searched. 3. Distance tolerance conditions-Representative, limited representativeness and specificity Idioms are representative and limited. Idioms that satisfy the three idiom search conditions, i.e., conditions within the allowable distance between words, can be searched for where representative and specific words are located. Here, the distance allowance of condition 3 can be selected by the user.

또한, 상기 f) 단계는, 검색된 예비숙어 중에서 상기 대표성, 제한적 대표성 및 특수성 단어를 포함하는 숙어("call A by B")를 검색하기 위해 변환숙어의 표현("call % by %")으로 변환시키는 단계를 더 포함할 수 있다.In addition, the step f) is converted to the expression of the conversion idiom ("call% by%") to search for idioms ("call A by B") including the representative, limited representative and specific words among the searched predicates It may further comprise the step of.

또한, 상기 f) 단계는, 상기 숙어 검색 조건을 일부 만족하지만 원형 및 파생형 단어의 차이(시제의 변화나, 단수 또는 복수형에 의한 차이)로 인해 완전히 일치하지 않는 경우 원형은 파생형 단어로, 파생형 단어는 원형으로 재검색할 수 있다.Also, in step f), if a part of the idiom search condition is satisfied but does not completely match due to a difference between a prototype and a derivative word (a change in a tense or a singular or plural form), the prototype is a derivative word. Derivative words can be re-searched in a circle.

또한, 상기 g) 단계는, 한 개 이상의 문장으로 구성된 문서의 입력시 입력된 문서를 문장 단위로 분리한 문장을 저장하고, 검색 조건 및 출력 형태의 선택에 따라 검색된 단어와 숙어를 저장할 수 있다.In addition, in step g), a sentence obtained by dividing an input document into sentence units upon input of a document including one or more sentences may be stored, and the searched words and idioms may be stored according to a selection of a search condition and an output form.

또한, 상기 g) 단계는, 검색된 숙어들 중에서 임의의 숙어가 다른 숙어에 포함되는 부숙어(sub idiom)인 경우, 상기 부숙어를 제거할 수 있다.In addition, the step g), if any idiom among the searched idiom is a sub idiom included in another idiom, the idiom may be removed.

또한, 상기 h) 단계는, 사용자가 설정한 검색 조건에 따라서 검색된 단어와 숙어의 결과에 대해 출력을 제한하거나, 검색된 단어와 숙어의 난이도(수준)에 따라서 최고수준을 기준으로 임의의 수준 이하의 단어와 숙어를 출력하거나 제거할 수 있다.In addition, the step h) may limit the output of the searched words and idioms according to the search conditions set by the user, or may be below a certain level based on the highest level according to the difficulty (level) of the searched words and idioms. You can print or remove words and idioms.

또한, 본 발명은 문장에 있는 검색되지 않은 오탈자 단어 또는 단어 데이터 베이스에 저장 관리되지 않는 단어를 별도로 사용자에게 통지하는 단계를 더 포함할 수 있다.In addition, the present invention may further include separately notifying the user of an unsearched misspelled word in the sentence or a word not stored in the word database.

또한, 본 발명은 입력부를 통하여 입력된 검색 문장에 대하여 문장에서 사용된 모든 단어 및 숙어를 검색하여 단어 및 숙어의 알파벳 순서, 단어 및 숙어의 난이도에 기초한 수준, 그리고, 단어와 숙어를 구분하여 사용 및 빈도 통계를 작성하고 저장하는 단계를 더 포함할 수 있다.In addition, the present invention searches all the words and idioms used in the sentence with respect to the search sentence input through the input unit to use the word and idioms alphabetical level, the level based on the difficulty of the words and idioms, and use the words and idioms separately And creating and storing frequency statistics.

또한, 본 발명은 입력부를 통하여 입력된 모든 검색 문장을 문장별로 분리하여 문장의 일련 순서에 따라서 단어 및 숙어의 색인 정보를 생성하는 단계를 더 포함할 수 있다.
또한, 본 발명은 한 개 이상의 문장으로 구성된 문서를 입력하여 단어 및 숙어를 검색함에 있어서 복수의 문서를 일괄 처리할 때 각각의 문서에서 검색된 단어 및 숙어를 색인화 하는 단계를 더 포함할 수 있다.
The present invention may further include generating index information of words and idioms according to a sequence of sentences by separating all search sentences input through the input unit for each sentence.
In addition, the present invention may further include the step of indexing the words and idioms retrieved from each document when batch processing a plurality of documents in inputting a document consisting of one or more sentences to search for words and idioms.

삭제delete

본 발명에 따르면, 사용자가 입력한 한 개 이상의 단어 또는 문장에 대해 각각의 문장 속에 있는 단어, 복합명사, 숙어 등을 동시에 검색해서 출력하기 때문에, 즉 단어 검색시 한 개의 단어만 검색하는 것이 아니라 복수의 문장을 입력하여 문장에서 사용된 단어들과 숙어를 동시에 검색하기 때문에, 검색의 효율성이 높아지고 정보 서비스에 대한 확장성, 적응성을 보장할 수 있는 사전 검색 서비스 시스템 및 방법을 제공할 수 있다.According to the present invention, since one or more words or sentences input by a user are searched for and outputted simultaneously in words, compound nouns, idioms, and the like in each sentence, that is, a plurality of words is not searched for instead of a single word. Since the words and phrases used in the sentences are searched at the same time by inputting the sentence, the efficiency of the search can be improved, and a dictionary search service system and method can be provided that can guarantee the expandability and adaptability of the information service.

또한, 본 발명에 의하면, 복수의 문장 구조로 이루어진 단락 형태의 문서를 입력해도 각각의 문장으로 분리하고 거기에 해당되는 단어와 숙어를 처리하며, 출력 형태에 따라서 문장별로 단어와 숙어를 검색할 뿐만 아니라 입력된 문장을 처리한 후 중복되는 단어나 숙어를 제외한 결과만을 출력하는 등의 다양성을 가진 사전 검색 서비스 시스템 및 방법을 제시함으로써, 사용자의 단어 검색 편리성을 제공할 수 있으며, 또한, 복합명사, 전문용어, 특히 숙어 검색 서비스는 종래의 일반적인 사전 검색 서비스보다 확대된 검색 서비스를 제공할 수 있다.In addition, according to the present invention, even if a paragraph-type document composed of a plurality of sentence structures is input, each sentence is divided into sentences, and corresponding words and idioms are processed, and words and idioms are searched for each sentence according to the output form. In addition, by providing a dictionary search service system and method having a variety such as processing the input sentence and outputting only the results excluding duplicate words or idioms, it is possible to provide the convenience of user's word search, compound nouns The terminology, in particular idiom search service can provide an expanded search service than the conventional general dictionary search service.

한편, 본 발명에 의한 사전 검색 서비스 시스템 및 방법은 포털 사이트의 사전 검색 서비스에 적용할 수 있을 뿐만 아니라 워드프로세서, 웹 브라우저 상에서의 단어 및 숙어 검색이 가능하고 전자 교과서 등 다양한 단말기에서 사용이 가능하며, 특히 모바일 등으로부터 전송된 이미지로부터 검색된 문서 인식을 기반으로도 단어 및 숙어 검색 서비스가 가능하므로 사용자는 언제 어디서나 매우 정확하고 편리하게 단어 및 숙어 검색 서비스를 제공받을 수 있다.On the other hand, the dictionary search service system and method according to the present invention can be applied not only to the dictionary search service of the portal site, but also to search words and idioms on word processors, web browsers, and can be used in various terminals such as electronic textbooks. In particular, since the word and idiom search service is possible based on document recognition retrieved from an image transmitted from a mobile, etc., the user can be provided with a word and idiom search service very accurately and conveniently anytime and anywhere.

도 1은 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템과 네트워크 간의 연동 관계를 나타낸 도면,
도 2는 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 구성을 개략적으로 나타낸 블럭도,
도 3은 본 발명의 일 실시예에 의한 사전 검색 서비스 방법에 대한 플로우 챠트,
도 4는 본 발명의 일 실시예에 의한 사전 검색 서비스 방법 중 숙어를 검색하는 방법에 대한 플로우 챠트,
도 5는 본 발명의 일 실시예에 의한 사전 검색 서비스 방법 중 문장 속에 있는 숙어를 검색하는 방법에 대한 세부적인 플로우 챠트,
도 6은 본 발명의 일 실시예에 의한 사전 검색 서비스 방법 중 문장 속에 있는 숙어를 검색하는 숙어 변환의 예를 나타낸 도면,
도 7은 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 관리 메뉴 중 결과물에 대한 검색 조건을 설정하는 검색 조건 선택부를 예시한 도면,
도 8은 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 입출력부를 예시한 도면,
도 9는 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 결과물 중 하나인 문장당 검색된 단어 및 숙어 표시 화면의 일 예를 나타낸 도면, 그리고,
도 10은 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 결과물 중 하나인 입력된 전체 문장에서 검색된 단어 및 숙어 표시 화면의 일 예를 나타낸 도면이다.
1 is a view showing an interworking relationship between a dictionary search service system and a network according to an embodiment of the present invention;
2 is a block diagram schematically showing the configuration of a dictionary search service system according to an embodiment of the present invention;
3 is a flowchart illustrating a dictionary search service method according to an embodiment of the present invention;
4 is a flowchart illustrating a method of searching for idioms in a dictionary search service method according to an embodiment of the present invention;
5 is a detailed flowchart illustrating a method of searching for an idiom in a sentence of a dictionary search service method according to an embodiment of the present invention;
6 is a view showing an example of an idiom conversion to search for an idiom in a sentence of the dictionary search service method according to an embodiment of the present invention;
FIG. 7 illustrates a search condition selection unit for setting a search condition for a result of a management menu of a dictionary search service system according to an embodiment of the present invention; FIG.
8 illustrates an input / output unit of a dictionary search service system according to an embodiment of the present invention;
9 is a view showing an example of a search word and idiom display screen per sentence which is one of the results of the dictionary search service system according to an embodiment of the present invention;
FIG. 10 is a diagram illustrating an example of a word and an idiom display screen searched for in an entire input sentence, which is one of the results of a dictionary search service system according to an exemplary embodiment of the present invention.

이하, 본 발명의 바람직한 실시예를 첨부도면에 의거하여 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 실시예들을 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The present invention may be variously modified and may have various forms, and exemplary embodiments will be described in detail. However, this is not intended to limit the present invention to a specific disclosed form, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise.

또한, 다르게 정의되지 않는 한 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, all terms used herein, including technical or scientific terms, unless otherwise defined, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings unless expressly defined herein. Do not.

도 1은 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템과 네트워크 간의 연동 관계를 보여주는 도면이다.1 is a diagram illustrating an interworking relationship between a dictionary search service system and a network according to an embodiment of the present invention.

도 1을 참조하면, 사전 검색 서비스 시스템(100)은 입력부(110), 출력부(120), 이미지 처리부(130), 문서 인식부(140), 다중 검색 처리부(150), 단어 및 숙어 데이터 베이스(160) 및 결과 데이터 베이스(170) 등을 포함한다.Referring to FIG. 1, the dictionary search service system 100 may include an input unit 110, an output unit 120, an image processing unit 130, a document recognition unit 140, a multiple search processing unit 150, a word and idiom database. 160, a result database 170, and so forth.

상기 사전 검색 서비스 시스템(100)은 단어에 대한 복수개의 사전 데이터를 사전 데이터 베이스(160)에 기록하여 유지하고, 숙어 및 고유명사, 전문용어 사전 데이터를 숙어 데이터 베이스(160)에 기록하여 유지하고 있다. 또한, 도시하지는 않았으나, 사용자에 의해 개인 사전으로 작성하고자 하는 단어 관리 데이터 베이스를 기록 유지할 수도 있다.The dictionary search service system 100 records and maintains a plurality of dictionary data for words in the dictionary database 160, and records and maintains idioms, proper nouns, and terminology dictionary data in the idiom database 160. have. Although not shown, the word management database to be created by the user as a personal dictionary can also be recorded.

상기 입력부(110)를 통해 입력된 하나 이상의 단어 및 문장에 대해 동시에 단어, 숙어를 검색하기 위해 다중 검색 처리부(150)가 각 사전 데이터 베이스(160)에서 입력된 문장에 사용된 단어 또는 숙어를 검색한다. 검색된 단어 및 숙어는 사용자가 선택한 출력 형태에 따라 출력부(120)를 통해 사용자에게 제공된다.In order to search for words and idioms simultaneously for one or more words and sentences input through the input unit 110, the multi-search processing unit 150 searches for words or idioms used in sentences entered in each dictionary database 160. do. The searched words and idioms are provided to the user through the output unit 120 according to the output form selected by the user.

사용자에게 제공하는 검색 서비스 방법으로는 네트워크를 통한 서버 클라이언트 형태(181), 개인 컴퓨터에서 활용 가능한 형태(182), 그리고, 최근 모바일이 활성화 되면서 모바일 또는 모바일 네트워크(183)를 통해서 획득된 이미지를 이미지 처리부(130) 및 문서 인식기(140)를 통하여 작성된 문자 형태를 입력으로 할 수도 있다.The search service method provided to the user includes a server client form 181 through a network, a form 182 usable by a personal computer, and an image acquired through a mobile or mobile network 183 while a mobile is recently activated. Character forms created through the processor 130 and the document recognizer 140 may be input.

도 2는 본 발명의 일 실시예에 의한 사전 검색 서비스 시스템의 구성을 개략적으로 나타낸 블럭도이다.2 is a block diagram schematically showing the configuration of a dictionary search service system according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명에 의한 사전 검색 서비스 시스템은, 한 개 이상의 단어 또는 문장을 입력하기 위한 입력부(210), 검색 조건을 설정하기 위한 검색 조건 선택부(220), 입력된 문장을 개별 문장으로 분리하는 문장 분리부(241), 상기 문장 분리부(241)에 의해 분리된 개별 문장에서 사용된 단어들을 분리하는 단어 분리부(242), 상기 검색 조건 선택부(220)를 통하여 입력된 검색 조건을 만족하는 단어를 단어 데이터 베이스(281)에서 검색하는 단어 검색부(243), 상기 분리된 개별 문장에서 사용되었을 것으로 예상되는 예비숙어를 숙어 데이터 베이스(282)에서 검색하는 예비숙어 검색부(244), 상기 예비숙어 검색부(244)에 의해 검색된 예비숙어 중 문장에서 사용된 숙어를 확인하여 검색하는 숙어 검색부(245), 상기 검색 조건에 맞게 분리된 문장, 검색된 단어 및 검색된 숙어를 각각 저장하는 문장 저장부(251), 단어 저장부(253) 및 숙어 저장부(252), 상기 검색 조건에 따른 검색 결과물을 생성하는 출력 생성부(260) 및 상기 출력 생성부(260)에 의해 생성된 검색 결과를 출력하는 출력부(230)를 포함한다.As shown in FIG. 2, the dictionary search service system according to the present invention includes an input unit 210 for inputting one or more words or sentences, a search condition selection unit 220 for setting a search condition, and an input sentence. Through a sentence separator 241 for separating a word into individual sentences, a word separator 242 for separating words used in individual sentences separated by the sentence separator 241, and the search condition selector 220. A word search unit 243 for searching a word database 281 for a word satisfying the input search condition, and a preliminary phrase for searching the idiom database 282 for a preliminary phrase expected to be used in the separated individual sentences. Search 244, the idiom search unit 245 for identifying and searching idioms used in the sentence of the preliminary idiom searched by the preliminary phrase search unit 244, sentences separated according to the search conditions, searched A sentence storage unit 251 for storing words and searched idioms, a word storage unit 253 and an idiom storage unit 252, an output generator 260 for generating a search result according to the search condition, and the output generator And an output unit 230 for outputting a search result generated by 260.

상기 입력부(210)의 문장 입력은 한 개 이상의 단어와 하나 또는 복수의 문장으로도 가능하고 문장의 단락(paragraph)으로도 가능하다. 또한, 본 발명에서 개인용 컴퓨터인 경우 페이지별, 단락별 등으로 일괄 처리를 지원한다. 사용자의 편의에 따라 입출력 선택 정보(220)를 바탕으로 문장 속에서 사용된 단어 및 숙어를 검색한 결과물을 저장부(251,252,253)에 저장하고, 사용자 출력 선택에 따라서 검색된 단어 및 숙어를 출력 생성부(260)에서 생성하여 출력부(230)를 통하여 출력한다. 출력 형태는 사용자 조건에 따라서 화면, 파일 또는 파일과 데이터 베이스 등으로 출력될 수 있다.
상기 숙어 검색부(245)는, 자세히 후술되겠지만 간단히 살펴보면 다음과 같은 방법으로 상기 예비숙어 검색부(244)에 의해 검색된 예비숙어 중 문장에서 사용된 숙어를 비교하여 검색한다. 즉, 상기 예비숙어 검색부에 의해 검색된 예비숙어 중 변화가 되지 않는 원형 및 고정형 숙어의 경우, 상기 예비숙어와 문장에서 사용된 숙어를 비교하여 동일한 숙어를 검색하고, 문장에서 사용된 숙어가 시제의 변화, 단수, 복수 등에 따라 바뀌는 파생형 단어인 경우 파생형을 원형으로 치환하여 상기 예비숙어와 비교하여 동일한 숙어를 검색하며, 가변적인 단어군을 내포하는 숙어인 경우는 고정적인 단어의 개수(동일수의 조건), 단어의 순서(순서의 조건), 가변적인 단어군을 구성하는 단어의 개수가 상기 검색 조건 내에 있는 단어의 개수 이내에 있는지(거리 허용치의 조건)를 계산하여 상기 예비숙어와 비교하여 상기 세가지 조건을 만족하는 숙어를 검색한다.
The sentence input of the input unit 210 may be one or more words and one or more sentences, or may be a paragraph of a sentence. In the present invention, a personal computer supports batch processing by page, paragraph, and the like. According to the user's convenience, a result of searching for words and idioms used in sentences based on the input / output selection information 220 is stored in the storage units 251, 252, and 253, and the output word generator idioms are stored according to the user output selection. It generates in the 260 and outputs through the output unit 230. The output form may be output to a screen, a file, or a file and a database according to a user condition.
The idiom search unit 245 will be described in detail later, but briefly, the idiom search unit 245 compares the idioms used in sentences among the preliminary idioms searched by the preliminary phrase search unit 244 in the following manner. That is, in the case of circular and fixed idioms that do not change among the preliminary idioms searched by the preliminary idiom search unit, the same idiom is searched by comparing the idioms used in the preliminary idiom and the sentence, and the idiom used in the sentence In case of a derivative word changed according to change, singular or plural, the derivative is replaced with a prototype and the same idiom is searched in comparison with the preliminary idiom, and in the case of an idiom containing a variable word group, the number of fixed words is the same. Number condition), word order (condition of order), and whether the number of words constituting the variable word group are within the number of words within the search condition (condition of distance allowance) are compared with the preliminary terminology. Search for idioms that satisfy the three conditions.

또한, 본 발명에 의한 사전 검색 서비스 시스템은 웹 브라우저나 단말기 등에 따라 상이한 문자코드체계를 단일화하기 위하여 입력된 문자 코드를 아스키(ASCII)로 변환하거나 아스키에서 다른 문자 코드 형태로 변환하기 위한 코드 변환부(271)를 구비한다.In addition, the dictionary retrieval service system according to the present invention is a code conversion unit for converting the input character code to ASCII (ASCII) or to convert from ASCII to another character code form in order to unify the different character code system according to the web browser or terminal 271 is provided.

또한, 본 발명에 의한 사전 검색 서비스 시스템은 검색된 예비숙어 중에서 대표성, 제한적 대표성 및 특수성 단어를 포함하는 숙어를 검색하기 위해 변환숙어의 표현으로 변환시키는 숙어 변환부(272)를 구비한다. 여기서, 상기 대표성, 제한적 대표성 및 특수성 단어(숙어)에 대해서는 자세히 후술된다.In addition, the dictionary search service system according to the present invention includes an idiom converting unit 272 for converting an idiom including a representative word, a limited representative word, and a special word among the searched predicates into an expression of a converted phrase. Here, the representative, limited representative and specific words (idioms) will be described later in detail.

또한, 본 발명에 의한 사전 검색 서비스 시스템은 문장에서 사용된 파생형 단어의 원형을 검색하도록 파생형 단어의 원형을 생성하는 파생 단어부(273)와, 상기 대표성, 제한적 대표성 및 특수성 단어를 포함하는 숙어에서 대표성, 제한적 대표성 및 특수성 단어가 위치한 곳에서 단어간 거리를 계산하는 단어 거리 허용치 계산부(274)를 구비한다.In addition, the dictionary search service system according to the present invention includes a derivative word portion 273 for generating a prototype of a derivative word to search for a prototype of a derivative word used in a sentence, and includes the representative, limited representative and specific words. In the idiom, the word distance tolerance calculation unit 274 calculates the distance between words where the representative, limited representative, and specific words are located.

또한, 본 발명에 의한 사전 검색 서비스 시스템은, 상기 입력부(210)를 통하여 입력된 검색 문장에 대하여 문장에서 사용된 모든 단어 및 숙어를 검색하여 단어 및 숙어의 알파벳 순서, 단어 및 숙어의 난이도에 기초한 수준, 그리고, 단어와 숙어를 구분하여 사용 및 빈도 통계를 작성하고 저장하는 통계 생성부(292) 및 통계 데이터 베이스(294)와, 상기 입력부(210)를 통하여 입력된 모든 검색 문장을 문장별로 분리하여 문장의 일련 순서에 따라서 단어 및 숙어의 색인 정보를 생성하는 색인 생성부(291)를 포함한다.In addition, the dictionary search service system according to the present invention searches all the words and idioms used in the sentence with respect to the search sentence input through the input unit 210, based on the alphabetical order of words and idioms, the difficulty of words and idioms And a statistics generator 292 and a statistics database 294 for creating and storing usage and frequency statistics by dividing words and idioms, and separating all search sentences input through the input unit 210 by sentence. And an index generator 291 for generating index information of words and idioms according to a sequence of sentences.

또한, 본 발명에서 상기 단어 데이터 베이스(281)는 공백을 포함하지 않는 일반적인 단어의 원형과 파생단어들을 포함하고 있으며, 단어의 수준을 난이도에 따라 세분화(10단계로 세분화)하여 사용자가 선택한 단어 검색 수준에 따라서 해당 단어의 뜻을 제공할 수 있도록 되어 있다.In addition, in the present invention, the word database 281 includes prototypes and derivative words of general words that do not include spaces, and the word level is divided according to the difficulty level (divided into 10 levels) to search for a word selected by a user. Depending on the level, the meaning of the word can be provided.

또한, 본 발명에서 상기 숙어 데이터 베이스(282)는 이디움(idiom), 구동사(phrase)로 통칭되는 숙어와 공백을 포함하는 전문용어, 복합명사와 고정형 숙어가 아닌 가변적 변화가 있을 수 있는 숙어를 검색하기 위한 변환숙어를 포함하고 있으며, 숙어의 수준을 난이도에 따라 세분화(7단계로 세분화)하여 저장하고 있다.
도면에서 미설명 부호 283은 사용자 정의 숙어 데이터 베이스이며, 293은 검색 데이터 베이스이다. 상기 사용자 정의 숙어 데이터 베이스(283)는 숙어를 사용자가 직접 등록 및 관리하는 것으로서, 상기 숙어 데이터 베이스(282)와는 다른 숙어 데이터 베이스이다.
In addition, in the present invention, the idiom database 282 is a terminology including idioms and phrases collectively known as idioms, phrasal verbs, idioms that may have variable variations other than compound nouns and fixed idioms. It includes a conversion idiom for searching, and stores the idioms according to the level of difficulty.
In the figure, reference numeral 283 is a user-defined idiom database, and 293 is a search database. The user-defined idiom database 283 registers and manages idioms directly, and is a different idiom database from the idiom database 282.

삭제delete

이하, 도 3을 참조하여 상기에서 언급한 사전 검색 서비스 시스템의 구체적인 설명 및 이를 이용한 사전 검색 서비스 방법에 대하여 설명한다.Hereinafter, a detailed description of the aforementioned dictionary search service system and a dictionary search service method using the same will be described with reference to FIG. 3.

도 3은 본 발명의 일 실시예에 의한 사전 검색 서비스 방법에 대한 플로우 챠트이다.3 is a flowchart illustrating a dictionary search service method according to an embodiment of the present invention.

먼저, 사용자가 컴퓨터나 모바일 기기 등을 통하여 검색하고자 하는 하나 이상의 단어나 하나 또는 복수의 문장을 입력하고, 출력 형태 및 방법을 선택한다(S310). 그러면 사전 검색 서비스 시스템의 문장 분리부가 입력된 문서를 각각의 완성된 문장으로 분리한다(S320).First, a user inputs one or more words or one or a plurality of sentences to be searched through a computer or a mobile device, and selects an output form and method (S310). Then, the sentence separating unit of the dictionary search service system divides the input document into the completed sentences (S320).

입력되는 문장은 보통 마침표로 문장의 끝을 나타내지만 그렇지 않은 경우도 있다. 각 문장은 문장별로 행을 구성하지 않기 때문에 문장별로 분리할 필요가 있다. 문장 줄의 끝의 특수값(LF, linefeed)은 삭제되어 분리된 문장들은 하나의 문장으로 병합되고, 복수의 문장으로 구성된 행은 별도의 문장으로 분리한다.The sentence that is entered usually marks the end of the sentence with a period, but sometimes it does not. Since each sentence does not form a line for each sentence, it is necessary to separate each sentence. The special value (LF, linefeed) at the end of the sentence line is deleted and the separated sentences are merged into one sentence, and the lines composed of a plurality of sentences are separated into separate sentences.

예를 들어, "Umm... Try it."은 별도의 문장으로 분리한다. "... " 다음에 문장의 시작을 나타내는 대문자로 시작하는 Try가 존재하기 때문에 문장을 분리한다. "Umm... if you it." 이런 예문은 "... " 다음이 소문자이기 때문에 별도의 문장으로 구성하지 않는다. 그러나, "a.m, p.m/P.S. /Mr. Mrs." 등과 같은 경우는 문장의 끝을 나타내는 점이 있어도 각기 다른 문장으로 분리하지 않는다.For example, separate "Umm ... Try it." Into a separate sentence. Separate sentences because "..." is a Try that begins with an uppercase letter that marks the beginning of the sentence. "Umm ... if you it." This example does not consist of a separate sentence because "..." is a lowercase letter. However, "a.m, p.m / P.S. / Mr. Mrs." For example, even if there is a point indicating the end of a sentence, it is not divided into different sentences.

한편, 본 발명에서는 웹 브라우저, 단말기 등에 따라 상이한 문자코드체계를 단일화하기 위하여 입력된 문자코드를 아스키(ASCII)로 변환하는 단계를 수행한다(S330). 영어 문자의 경우는 서로 상이한 코드라 할지라도 검색에 있어서 아무런 방해를 받지 않는다. 그러나, 콤마, 따옴표, 인용부호인 경우에는 영향을 받는다. 특히 "can’t"의 경우는 " ’"를 인식하지 못하면 정반대의 뜻을 가질 수 있기 때문에 부호 변환이 필요하다. 여기서, 코드 변환부는 단어 및 숙어 데이터 베이스에 의존한다. 따라서, 이들 데이터 베이스가 UTF 코드를 사용한다면 입력된 문자코드는 UTF 코드로 변환되어야 하고, 아스키 코드를 사용한다면 입력된 문자코드는 아스키 코드로 변환되어야 한다.On the other hand, the present invention performs the step of converting the input character code to ASCII (ASCII) in order to unify the different character code system according to the web browser, terminal, etc. (S330). In the case of English characters, even if they are different codes, they are not disturbed in the search. However, commas, quotes, and quotation marks are affected. In particular, "can't" requires sign conversion because it can have the opposite meaning if "" is not recognized. Here, the code conversion unit depends on the word and idiom database. Therefore, if these databases use UTF codes, the entered character codes must be converted to UTF codes. If ASCII codes are used, the entered character codes must be converted to ASCII codes.

문장을 분리하는 주된 이유는 단어와 숙어의 검색 기준을 한 문장으로 하고 문장당 결과물을 출력하기 위함이다. 또한 짧은 문장들 예를 들면, "Umm...,Oh!, Oh! No, OK, Okay, Yes, Yeap." 등과 같은 문장들을 처리하지 않기 위함이다. 이러한 짧은 문장들은 실행 속도를 저하시키는 요인이기 때문에 처리하지 않지만, 문장으로는 구성하므로 문장을 분리하는 것이다. 본 발명에서 문장의 길이는 10자리 이하로 설정하였으나, 이런 최소 자릿수 기준은 사용자 선택으로 할 수 있다.The main reason for separating sentences is to output the results per sentence with one sentence based on the search criteria of words and idioms. Also short sentences like "Umm ..., Oh !, Oh! No, OK, Okay, Yes, Yeap." This is to avoid processing statements such as These short sentences are not processed because they slow down the execution speed, but they are composed of sentences, so they are separated. In the present invention, the length of the sentence is set to 10 digits or less, but the minimum number of digits can be selected by the user.

분리된 각각의 문장을 기반으로 단어를 검색하는 과정의 첫 번째는, 문장에서 사용된 단어들을 구분하는 것이다(S340). 문장은 단어로 구성되며 일반적으로 단어는 구분자에 의해 구분되고, 단어와 단어는 공백(space)으로 구분된다. 그러나, 의문부호, 콤마, 인용부호 등 각종 부호는 단어 검색에서는 제외되고 의미 있는 단어들만 검색하여 단어 데이터 베이스에서 검색한다(S350). 각 단어는 기본형, 파생형, 복수형 등으로 구성될 수 있으며, 문장에서 사용된 단어가 파생형(부사, 형용사, 비교급, 진행형, 과거형, 복수형 등)일 경우 그 원형을 검색한다(S360).The first step of searching for a word based on each of the separated sentences is to classify the words used in the sentence (S340). Sentences are composed of words. Generally, words are separated by delimiters, and words and words are separated by spaces. However, various codes such as question marks, commas, and quotation marks are excluded from the word search, and only the meaningful words are searched and searched in the word database (S350). Each word may be composed of a basic form, a derivative form, a plural form, and if the word used in the sentence is a derivative form (adverb, adjective, comparative, progressive, past, plural, etc.), the prototype is searched for (S360).

본 발명에서 파생형이란 용어의 의미는, 기본형을 제외한 복수, 과거, 진행, 형용사의 변화 등을 모두 총칭하는 용어로 사용한다. 만약, 단어 데이터 베이스가 모든 파생형 단어를 저장 관리하고 있다면 파생형 단어를 직접 단어 데이터 베이스에서 검색하면 되지만, 단어 데이터 베이스가 모든 단어에 대한 파생형을 갖는다는 것은 현실적으로 어렵다. 예를 들어 불규칙 동사의 경우는 단어 데이터 베이스에 저장 관리된다. 그러나, 규칙 동사의 과거, 현재분사, 진행형 등은 쉽게 생성이 가능하기 때문에, 단어 데이터 베이스에 저장되지 않는다. 즉, "기본동사 + ed", "기본동사 + ing" 등으로 생성이 가능하다. 동사 및 형용사의 변화를 생성하는 것도 몇 개의 규칙에 따르면 만들 수 있다.In the present invention, the term derivative is used as a generic term for all the plurals, past, progress, adjectives, and the like except for the basic form. If the word database stores and manages all derived words, it is practically difficult to retrieve the derived words directly from the word database, but the word database has derivatives for all words. For example, irregular verbs are stored and managed in a word database. However, past, present participle, progressive, etc. of rule verbs are not stored in the word database because they can be easily generated. That is, it can be generated with "basic verb + ed", "basic verb + ing", and the like. Generating changes in verbs and adjectives can also be made according to some rules.

본 발명에서 중요한 것은 파생에 관한 단어의 원형을 검색하는 것이다. 그 이유는 숙어 데이터 베이스에 저장 관리되는 숙어들이 대부분 원형으로 저장 관리되기 때문이다. 파생 단어를 사용한 숙어들을 모두 저장 관리 한다면 이러한 과정이 필요하지 않겠지만 파생형 단어를 사용한 숙어 모두를 저장 관리하는 것은 현실적으로 어렵다.What is important in the present invention is to search the prototype of the word for derivation. This is because most idioms stored and managed in the idiom database are stored and managed in a circular form. This process is not necessary if you store and manage all idioms using derived words, but it is practically difficult to store and manage all idioms using derived words.

상기와 같은 과정을 거쳐 문장 속에 있는 단어를 검색한 다음, 숙어를 검색한 것인지 판단하여(S370), 숙어를 검색하면 S371 단계를 수행하고, 그렇지 않으면 검색된 단어들을 단어 검색 결과 데이터 베이스에 저장한다(S372).After searching the words in the sentence through the above process, it is determined whether the idiom is searched (S370), and if the idiom is searched, step S371 is performed. Otherwise, the searched words are stored in the word search result database ( S372).

이후, 출력생성부(260)가 단어 검색 결과 데이터 베이스에 저장된 검색된 단어들을 출력하는데, 이 때, 문장당 결과물을 출력하는 것이 선택되었다면(S380), 문장당 결과물을 출력하고(S381), 그렇지 않다면, 문장이 더 있는지 판단하여(S390), 문장이 더 있으면 단계 S340으로 돌아가고, 없으면 현재 검색된 단어들을 출력한다(S391).Thereafter, the output generator 260 outputs the searched words stored in the word search result database. At this time, if the output of the result per sentence is selected (S380), the output per sentence is output (S381). If there are more sentences (S390), if there are more sentences, the process returns to step S340, and if not, the currently searched words are output (S391).

한편, 본 발명에서 검색된 단어들은 원형과 파생형으로 구분된다. 예를 들면 "I went there."는 "I, went, there"와 "went"의 원형인 "go"도 검색한다. 검색된 단어를 사용자에게 보다 효과적으로 제시하기 위하여 원형과 파생형을 동시에 검색한다. 이렇게 함으로써 사용자는 보다 나은 검색 서비스를 받을 수 있다.Meanwhile, the words searched for in the present invention are classified into a circle and a derivative. For example, "I went there." Also searches for "go", the prototypes of "I, went, there" and "went". In order to present the searched word more effectively to the user, we search for both the prototype and the derivative. This allows the user to get a better search service.

검색된 단어를 원형과 파생형으로 구분하는 또 다른 이유는 문장에서 사용된 숙어를 검색하기 위함이다. 즉 숙어 역시 파생형 단어를 사용하기 때문에 문장에서 사용된 숙어와 숙어 데이터 베이스에 저장 관리되는 숙어를 연결하기 위함이다. 숙어의 검색 과정(S370, S371)에 대해서는 도 4 및 5를 참조하여 이후 상세하게 설명된다.Another reason for dividing the searched words into prototypes and derivatives is to search for idioms used in sentences. That is, because idioms also use derived words, it is used to connect idioms used in sentences with idioms stored and stored in the idiom database. Searching for idioms S370 and S371 will be described later in detail with reference to FIGS. 4 and 5.

본 발명에서 사용자는 앞서도 설명한 바와 같이, 문장에 있는 단어만 검색할 것인지 아니면 숙어만 검색할 것인지, 단어와 숙어를 동시에 검색할 것인지를 결정할 수 있다. 동시에 문장 단위로 검색할 것인지, 입력된 복수의 문장을 모두 통합해 중복을 제외한 단어 또는 숙어를 검색할 것인지를 결정할 수 있다.In the present invention, as described above, the user may determine whether to search only words in a sentence, only idioms, or simultaneously search for words and idioms. At the same time, it is possible to determine whether to search by sentence unit or to integrate a plurality of input sentences to search for words or idioms except duplicates.

상기 과정은 입력된 문장을 모두 처리할 때까지 계속된다. 모든 문장을 처리하고 난 후, 사용자가 선택한 기준에 따라 단어 및 숙어 검색된 결과를 사용자의 출력 선택 기준에 따라서 사용자에게 제공한다.The process continues until all input sentences have been processed. After processing all sentences, the word and idiom search results are provided to the user according to the user's output selection criteria according to the user's selected criteria.

도 4는 본 발명에 따른 사전 검색 서비스 방법 중 숙어를 검색하는 과정을 나타낸 도면이다.4 is a diagram illustrating a process of searching for idioms in a dictionary search service method according to the present invention.

복합명사, 전문용어, 숙어의 단어 구분은 일반적으로 공백으로 한다. 이들의 경우는 공백을 포함한 복수개의 단어로 구성되는데, 본 발명은 파생 단어 및 숙어 검색시 검색될 단어와 숙어에 대한 연관어를 동시에 검색한다.Word divisions for compound nouns, terminology, and idioms are generally spaced. These cases consist of a plurality of words including spaces, and the present invention simultaneously searches for derivative words and words to be searched for idiom searches and related words for idioms.

예를 들면, "I get it"과 "I got it"은 같은 의미를 가지지만 시제가 다르다. 또한, "achieve one’s goal"과 "achieve one’s goals"는 서로 같은 의미이지만 복수라는 차이점이 있다. 본 발명에서 숙어의 특성을 분석할 필요가 있다. 특히 숙어는 몇 개의 공백으로 이루어지는 것이 일반적이며, 단어와 단어 사이에 몇 개의 구와 절, 또는 단어가 포함될 수 있는 가변형 구조를 지니고 있다.For example, "I get it" and "I got it" have the same meaning but different tenses. Also, "achieve one's goal" and "achieve one's goals" mean the same thing, but there are differences. In the present invention, it is necessary to analyze the characteristics of the idioms. In particular, idioms generally consist of several spaces, and have a variable structure in which a few phrases and phrases or words can be included between words.

또한, 본 발명에서는 대표성과 특수성이라는 용어를 사용한다. 대표성이라 함은 숙어를 구성하는 단어 사이에 어떠한 단어가 들어갈 수 있는 가변형 구조를 가진 숙어에서 "one’s", "something" 등과 같은 임의의 단어가 들어갈 수 있는 가변형 단어의 형태를 말한다. 일반적인 표현으로 "~" 또는 "A","B"의 형태를 취한다. 예를 들면, "so ~ that"에서 "~"의 의미는 한 개 이상의 단어 또는 구, 절이 삽입될 수 있음을 의미하며, "call A by B"와 같이 "A", "B" 형태를 갖는 것을 대표성이라 한다. 숙어는 복수의 대표성을 가질 수 있다. 예를 들어 "neither A nor B"는 A 그리고 B의 두 개의 대표성을 가진 단어들을 가질 수 있다. 본 발명에서는 이러한 것을 대표성을 갖는다고 한다.In the present invention, the terms representative and specificity are used. Representation refers to a variable word type in which an arbitrary word, such as "one's" or "something", may be included in an idiom having a variable structure in which any word may be inserted between words forming an idiom. The general expression takes the form "~" or "A", "B". For example, the meaning of "~" in "so ~ that" means that one or more words, phrases, or clauses can be inserted, and have "A" and "B" forms, such as "call A by B". It is called representative. An idiom can have a plurality of representatives. For example, "neither A nor B" can have two representative words, A and B. In the present invention, such a thing is said to be representative.

대표성의 또 다른 형태인 제한적 대표성이 있다. 제한적 대표성은 "be"동사이다. 예를 들어 be 동사는 "is, was, are, were, be, will" 등이 있다. 조금 더 폭넓게 적용하면 "I’m, You’re" 등 주어와 함께 사용되는 축약형 be 동사도 있다.There is limited representation, another form of representation. Limited representation is the "be" verb. For example, the be verb is "is, was, are, were, be, will". More broadly, there is an abbreviation of be verb that is used with subject such as "I'm, You're".

그리고 또 다른 형태인 "by ~ing"와 같이 " ~ing"와 같은 진행형과 같은 경우는 대표성이라 하지 않고 특수성을 가지고 있다고 한다. " ~ing"는 "by"와 " ~ing" 사이에 어떤 단어도 삽입을 허용하지 않지만 임의의 단어로 대치될 수 있는 특수성을 가지고 있다. "oneself"의 경우에는 대표성 및 특수성을 가지고 있다. 즉 "self"라는 기본형을 가지면서 동시에 복수를 허용하고 있다(themselves).And in the case of progressive forms such as "~ ing" like another form "by ~ ing", it is said that it is not representative but has specificity. "~ ing" does not allow any word to be inserted between "by" and "~ ing" but has the specialty that can be replaced with any word. In the case of "oneself", it is representative and specific. In other words, it has the basic form of "self" and at the same time allows the plural (themselves).

도 4에 나타낸 숙어 검색 방법에 대한 구체적인 방법은 다음과 같다.A specific method for the idiom search method shown in FIG. 4 is as follows.

이미, 도 3에서 한 문장에 있는 모든 단어를 분리하고 그와 상관된 파생 단어들 역시 검색하고 나열했다. 한 문장에서 사용된 단어들이 포함된 숙어를 숙어 데이터 베이스에서 검색한다(S410). 본 발명에서는 이것을 예비숙어라 하며, 예비숙어를 최적화 하기 위하여, 한 문장에서 사용한 모든 단어는 중복을 배제하고, 기본적인 단어인 "I, You" 등도 역시 제외하며, "off, into, out, from" 등의 전치사도 제외한다. 이러한 이유는 숙어는 2개 이상의 단어로 이루어져 있기 때문에 상기 단어를 제외해도 예비숙어 검색에는 지장을 받지 않기 때문이다.Already in Fig. 3, all the words in a sentence were separated and the derivative words related to them were also searched and listed. The idiom containing the words used in one sentence is searched in the idiom database (S410). In the present invention, this is called a preliminary idiom, in order to optimize the preliminary idiom, all the words used in a sentence exclude duplication, and the basic words "I, You" and the like are also excluded, and "off, into, out, from" Prepositions of the back are also excluded. This is because the idiom is composed of two or more words, so that the search for the preliminary phrase is excluded even if the word is excluded.

예를 들면, "It seems difficult for him to achieve his goal"의 문장에서 단어 검색 서비스는 각 단어를 공백으로 분리하고, 각 단어를 단어 데이터 베이스에서 검색해 각 단어의 뜻을 사용자에게 제공한다. 그리고 각각 분리된 단어를 이용해서 숙어 데이터 베이스에서 저장 관리되는 예비숙어를 검색한다. 상기 예문에서 효과적인 예비숙어를 검색하기 위하여 "It, for, to, his, him" 등이 포함된 숙어는 검색에서 제외한다.For example, in the sentence "It seems difficult for him to achieve his goal", the word search service separates each word into a space, searches each word in the word database, and gives the user the meaning of each word. Each separated word is used to search for pre-idioms stored and managed in the idiom database. In order to search for an effective preliminary phrase in the above example, idioms including "It, for, to, his, him", etc. are excluded from the search.

모든 예비숙어는 사용자의 선택에 의해서 특정수준 이하 또는 이상은 검색하지 않는다(S420). 이 때, 단어와 숙어는 사용자의 수준에 따라서 검색을 제한할 수 있다(도 7 참조). 즉, "be going to"의 경우에 이는 중학교 1학년 정도의 수준이기 때문에 고학력자는 "be going to" 검색 자체가 부담일 수 있다. 단어의 수준은 사용자 수준에 맞추어 설정한다.All preliminary phrases are not searched below or above a certain level by the user's choice (S420). At this time, words and idioms may limit the search according to the level of the user (see FIG. 7). That is, in the case of "be going to", since this is about the first grade of middle school, the search for "be going to" may be burdensome. The word level is set at the user level.

예를 들면, "뜻하다, 의미하다"의 의미인 "mean"은 초등학교 정도의 수준에서는 "뜻하다. 의미하다"라는 의미를 제공하지만, 중학교 수준이 되면, "뜻하다, 의미하다"에 추가해 "1. 뜻하다, 의미하다 2. 중간(의), 평균" 뜻을 추가한다. 최종적으로 고등학교 수준이 되면 "mean"의 뜻은 "1. 뜻하다, 의미하다 2. 중간(의), 평균 3. (말,행동) 비열한, 더러운"으로 확대된 뜻을 제공한다. 숙어도 마찬가지로, 예문 검색 및 통계 분석을 통해서 숙어 및 단어의 수준을 설정한다.For example, "mean", which means "well, means," provides the meaning of "you mean." At the elementary level, but in addition to "you mean," at the middle school level. Add the meaning "1. Mean, mean 2. Mean". Finally, at the high school level, "mean" means "1. means, means 2. medium, mean 3. (speaking, acting) mean extended to mean, dirty". Similarly, idioms and statistic analysis are used to set idioms and words.

일반적으로 단어의 수준 분류를 3단계로 구성해서 사용하고 있다(*,**,***). 본 발명에서는 면밀한 예문 분석과 통계를 통해 숙어는 초, 중학교 3학년, 고등학교 3학년, 대학 등 총 7단계로 구성하고 있으며, 단어의 수준은 보다 세밀하게 10단계로 구성하고 있다. 이는 사용자의 수준에 따라서 적용될 수 있고 사용자 선택 사항이다(도 7 참조).Generally, three levels of word classification are used (*, **, ***). In the present invention, the idiom is composed of seven levels such as elementary, middle school, third grade, high school, and so on through detailed example analysis and statistics, and the level of words is composed of ten levels in more detail. This may be applied depending on the level of user and is user optional (see FIG. 7).

검색된 모든 예비숙어에 대해 문장 내에서의 사용 여부를 확인하여, 문장에서 사용된 숙어를 검색한다(S430). 검색된 예비숙어가 모두 처리되었으면 종료하고 그렇지 않으면 단계 S420으로 되돌아간다(S440).In operation S430, the idiom used in the sentence is searched by checking whether or not the sentence is used in the sentence. If all the searched pre-idioms have been processed, the process ends. Otherwise, the process returns to step S420 (S440).

도 5는 본 발명에 따른 사전 검색 서비스 방법에서 문장 속에 있는 숙어를 검색하는 세부적인 방법과 흐름을 나타낸 플로우 챠트이다.5 is a flowchart illustrating a detailed method and flow of searching for an idiom in a sentence in the dictionary search service method according to the present invention.

숙어 데이터 베이스에서 검색된 예비숙어 및 복합명사, 전문용어들이 문장에서 정확히 사용되고 있는지 확인한다. 만약 모두 사용되었다면 검색 리스트에 포함하고 그렇지 않은 경우는 폐기한다.Check that the predicates, compound nouns and terminology found in the idiom database are used correctly in the sentence. If used, it is included in the search list, otherwise it is discarded.

본 발명에서 숙어의 검색 조건은 다음과 같은 기준을 만족해야 한다.In the present invention, the search condition of the idiom must satisfy the following criteria.

1. 동일 수의 조건 - 숙어를 구성하는 기본 단어 수와 예문에서 파생 단어를 포함하여 사용된 단어의 개수가 일치해야 한다(단, 대표성, 제한적 대표성 및 특수성 단어는 1개의 단어로 취급한다).1. The same number of conditions-The number of basic words that make up an idiom and the number of words used, including derived words, in the example sentence must match (however, words that are representative, limited, and specific are treated as one word).

2. 순서의 조건 - 모든 숙어는 숙어를 구성하는 단어의 순서가 검색된 문장에서도 동일해야 한다.2. Conditions of Order-All idioms must be identical in the sentence in which the order of the words that make up the idiom is found.

3. 거리 허용치 조건 - 대표성이 사용된 숙어는 대표성 단어가 위치한 곳에서 단어간 거리 허용치 내에 있어야 한다. 제한적 대표성이나 특수성 숙어도 마찬가지이다.3. Distance Tolerance Conditions-An idiom in which representation is used shall be within the distance tolerance between words where the representative word is located. The same is true of limited representative or specific idioms.

상기 조건을 만족하는 예비숙어만이 검색 대상이 된다.Only preliminary idioms that meet the above criteria are searched.

예를 들면, "achieve one’s goal"는 3개의 단어로 구성되어 있지만, "one’s"는 대표성이기 때문에 "achieve"와 "goal" 사이에 어떠한 단어가 들어오든지 1개의 단어로 인식한다. 한 개 또는 복수개의 단어라도 상관없이 본 발명에서는 1개로 간주한다. "achieve"와 "goal" 두 개의 단어는 필수적으로 사용되어야 하며, "achieve"의 파생 단어인 "achieved, achieving, achieves" 역시 동일한 것으로 간주한다. 또한, "goal" 역시 복수형인 "goals"의 사용을 허용한다. 이런 파생 단어들은 이미 도 3에서 설명되었으므로 생략한다.For example, "achieve one's goal" consists of three words, but since "one's" is representative, any word between "achieve" and "goal" is recognized as one word. One or more words may be considered as one in the present invention. The two words "achieve" and "goal" must be used, and the word "achieved, achieving, achieves", derived from "achieve", is also considered to be the same. "Goal" also allows the use of the plural "goals". These derivative words are omitted since they have already been described in FIG.

예를 들면, "It seems difficult for him to achieve his goal"이라는 예문이 있다. 단어 검색 서비스는 각 단어를 공백으로 분리하고 각 단어를 단어 데이터 베이스에서 검색하여 각 단어의 뜻을 사용자에게 제공한다. 그리고, 각각 분리된 단어를 이용해서 숙어 데이터 베이스에 저장 관리되는 예비숙어를 검색한다. 이 때, 효과적인 예비숙어를 검색하기 위하여 "It, for, to, his, him" 등이 포함된 숙어는 검색에서 제외한다.For example, "It seems difficult for him to achieve his goal." The word search service separates each word into a space and retrieves each word from the word database to provide the meaning of each word to the user. Then, the pre-idiom stored and managed in the idiom database is searched using the separated words. At this time, in order to search for an effective pre-idiom, idioms including "It, for, to, his, him", etc. are excluded from the search.

검색된 예비숙어 중에 "achieve"와 "goals"가 포함된 예비숙어가 있다. 이 중에서 "achieve one’s goals"이 포함되어 있다. 이 예비숙어는 "achieve" 1개, "one’s" 1개, "goal" 1개 총 3개의 단어로 구성된 숙어이다.Among the searched preliminary words, there are preliminary words containing "achieve" and "goals". Among these are "achieve one's goals". This preliminary idiom consists of three words: one "achieve", one "one's", and one "goal".

이 중에서 "one’s"는 대표성을 가지고 있는 단어이다. 대표성은 문장에서 몇 개의 단어로 구성되는 것을 허용한다. 예문에서 "his"가 "his great"로 표현되어도 대표성의 단어 개수는 동일하게 1개이다.Of these, "one" is the word that has a representative. Representation allows for several words in a sentence. Although "his" is expressed as "his great" in the example, the word count of the representative is equally one.

예문에서 "achieve" 1개, "one’s" 1개, "goal" 1개 총 3개의 단어가 사용되었기 때문에 검색 대상이 된다. 그러나, 예문이 "It seems difficult for him to achieve his goals"와 같이 변경되어 "goal"의 복수형인 "goals"가 사용되어도 "goal"의 파생이기 때문에 "goal"과 동일하게 처리한다(S560). 즉, 원형인 "goal"을 검색했지만 예문에서는 "goals"이 사용되었기 때문에 일치하지 않는다. 따라서, 단어 검색에서 "goals"는 그의 원형인 "goal"을 파생 단어인 "goals"로 대체해서 재검색하면 "achieve his goals"를 검색할 수 있다.In the example, three words such as "achieve", "one's" and "goal" are used. However, since the example sentence is changed to "It seems difficult for him to achieve his goals", even if the plural form of "goal" is used, "goals" is a derivative of "goal", and thus it is treated like "goal" (S560). That is, you searched for the prototype "goal", but it doesn't match because "goals" is used in the example. Thus, in word search, "goals" replaces the original word "goal" with the derivative word "goals" and can be searched for "achieve his goals".

상기 숙어의 검색조건 1. 동일 수의 조건은Search condition of the idiom 1. The same number of conditions

∀i ∈ 0...n-1에 대해 About ∀i ∈ 0 ... n-1

Figure 112012019212462-pat00001
문장에서 사용된 동일한 예비 단어수 =
Figure 112012019212462-pat00002
예비숙어의 단어수
Figure 112012019212462-pat00001
The same number of reserved words used in a sentence =
Figure 112012019212462-pat00002
Word count

복합명사와 전문용어 그리고 변경되어지지 않은 숙어 및 문장은 별도로 관리하여 검색시간을 효율적으로 관리한다. 예를 들면, "Great Wall"과 같이 중국의 만리장성을 뜻하는 고유명사나 복합명사인 "Defense Secretary" 등이 있다. 즉, 이것들은 변형이 없기 때문에 바로 해당 문장에서 사용 여부만(사용 단어의 수) 확인하여 검색하면 되므로 본 발명의 효율성을 증대시킨다.Complex nouns, terminology, and unchanged idioms and sentences are managed separately to efficiently manage search time. For example, there are proper nouns for the Great Wall of China, such as "Great Wall", and "Defense Secretary", a compound noun. That is, since they do not have any modification, only the use of the corresponding sentence (the number of words used) needs to be checked and searched, thereby increasing the efficiency of the present invention.

그러나, 숙어 검색 조건 중 2번째 조건인 "모든 숙어는 숙어를 구성하는 단어의 순서가 일치해야 한다"를 만족해야 한다. "tennis ball"의 예를 살펴보면, "When I pick up the ball, you play tennis" 예문에서 "ball" 그리고 "tennis"의 순서로 나타나기 때문에 조건 2를 만족하지 못한다. 다른 예로 "by ~ing"는 동사 진행형이 될 수 있는 자리이지만, "~ing by"로 구성된 예문 "We are losing by six runs"은 "by ~ing"과는 상관없는 예문이 된다. 따라서, 숙어에서 사용되는 단어의 순서를 고려해야 한다. 이 문장은 "by"와" ~ing"가 모두 사용되었지만 단어의 순서가 잘못된 예이다. 본 발명에서 조건 2는 예비숙어에서 사용되는 단어를 분리해서 순서대로 적용하기 때문에 조건 2를 자연스럽게 만족한다.However, the second condition of the idiom search condition must be satisfied: "All idioms must match the order of the words that make up the idiom." In the example of "tennis ball", condition 2 is not satisfied because "ball" and "tennis" appear in the "When I pick up the ball, you play tennis" example. In another example, "by ~ ing" may be a verb progression, but the example sentence "We are losing by six runs" consisting of "~ ing by" is an example that has nothing to do with "by ~ ing". Therefore, the order of words used in idioms should be taken into account. In this sentence both "by" and "~ ing" are used, but the words are in the wrong order. In the present invention, condition 2 naturally satisfies condition 2 because the words used in the preliminary phrases are applied in order.

검색 조건 2. 순서의 조건Search condition 2. Conditions of order

S = 예비숙어, ∀i ∈ 0...n-1에 대해S = for preliminary words, ∀i ∈ 0 ... n-1

Si ∈ S,Si ∈ S,

Distance (Si, Si+1) = 1 Distance (Si, Si + 1) = 1

i < i+1i <i + 1

검색 조건 3. 거리 허용치 조건Search condition 3. Distance allowance condition

예비숙어의 대표성 단어(α) =

Figure 112012019212462-pat00003
예비숙어 대표성 단어의 위치부터 문장에서 사용한 단어Representative word (α) of pre-idiom =
Figure 112012019212462-pat00003
Preliminary Idioms Words Used in Sentences from Location of Words

α =

Figure 112012019212462-pat00004
Siα =
Figure 112012019212462-pat00004
Si

(k = 거리 허용치)(k = distance tolerance)

예비숙어의 대표성 단어수 = 1Representative Word Count in Preliminary Idioms = 1

S = 문장 구성 단어, ∀i ∈ 0...n-1에 대해S = for sentence construct words, ∀i ∈ 0 ... n-1

Si ∈ S,Si ∈ S,

Distance (Si+k, Si+k+1) ≤ δ                        Distance (Si + k, Si + k + 1) ≤ δ

(δ = 거리허용치 = 예비숙어 대표성이 허용하는 단어의 최대수, k = 예비숙어 대표성 위치)(δ = distance allowance = maximum number of words allowed by the predicate idiom, k = predicate idiom position)

단어 거리 허용치 특정 숙어는 임의의 단어가 중간에 삽입되어 사용될 수 있는 대표성을 가지고 있다. 예를 들면, "as ~ as possible" 이것은 다음과 같은 대표성 숙어이다. 각각의 숙어는 "as"와 "as" 사이에 여러 형태의 단어가 들어간다. 하기의 예에서 "as ~ as"의 사이에 1에서 3개의 단어가 사용되고 있다. 여기서 사용된 단어의 개수를 거리(distance)라고 한다. 거리가 멀면 멀수록 사용될 확률은 점점 희박해 진다. 다음 예는 중학교 영어 교과서에서 사용되는 표현 중 일부를 발췌한 것이다.Word Distance Tolerance Certain idioms have a representative meaning that any word can be inserted in between. For example, "as ~ as possible" This is a representative idiom: Each idiom has several types of words between "as" and "as". In the following example, 1 to 3 words are used between "as-as". The number of words used here is called distance. The further away, the less likely it is to be used. The following example is an excerpt from some of the expressions used in middle school English textbooks.

as easy as possibleas easy as possible

as fast as possibleas fast as possible

as human as possibleas human as possible

as impressively as possibleas impressively as possible

as little as possibleas little as possible

as little fresh water as possibleas little fresh water as possible

as long as possibleas long as possible

as loudly as possibleas loudly as possible

as many books as possibleas many books as possible

as many films as possibleas many films as possible

as many friends as possibleas many friends as possible

as many new friends as possibleas many new friends as possible

as many songs as possibleas many songs as possible

as many things as possibleas many things as possible

as many trees as possibleas many trees as possible

as much as possibleas much as possible

as much light as possibleas much light as possible

as quickly as possibleas quickly as possible

as quiet as possibleas quiet as possible

as safe as possibleas safe as possible

as simple as possibleas simple as possible

as soon as possibleas soon as possible

as thin as possibleas thin as possible

예를 들면, "so that"과 "so ~ that"은 용법과 뜻에서 차이가 있다. "so that"은 중간에 단어의 삽입을 허용하지 않는다. 그러나, "so ~ that"은 중간에 삽입될 수 있는 단어는 구, 절이 들어설 수 있는 다변 구조를 가진다. 그렇지만 "so ~ that"의 용법이 아닌 단순한 "so"는 "so"의 본래 단어로 사용되고 "that"은 "that"으로 사용될 수도 있다. 따라서, "so ~ that"이 원래의 용법으로 사용된 숙어를 검색하기 위해서 "so"와 "that" 사이의 거리를 제한해야 한다.For example, "so that" and "so ~ that" differ in usage and meaning. "so that" does not allow the insertion of words in the middle. However, "so ~ that" is a word that can be inserted in the middle has a multi-sided structure that can contain phrases, clauses. However, a simple "so" that is not a usage of "so ~ that" may be used as the original word for "so" and "that" may be used as "that". Thus, to search for idioms where "so ~ that" is used in its original usage, you must limit the distance between "so" and "that".

예를 들면, "They want to open our wallets so that we buy their products."는 "so that"으로 사용된 것이고, "Hanji was so strong that it could stop arrows." 예문은 "so ~ that"으로 사용된 예문이다. 여기에서 "so ~ that" 사이에는 "strong" 하나의 단어만 사용되었다. 그러나, "So these are the basketball moves that you learned today."는 "so ~ that"이 사용되고 있으나, "so ~ that"의 용법은 아니다. "so ~ that" 사이에 5개의 단어가 사용되었는데, 이는 거리 허용치를 4로 했을 경우는 검색되지 않는다.For example, "They want to open our wallets so that we buy their products." Is used as "so that" and "Hanji was so strong that it could stop arrows." Example is an example used as "so ~ that". Here, only one word "strong" is used between "so ~ that". However, "so these are the basketball moves that you learned today." Is used "so ~ that" but not "so ~ that". Five words are used between "so and that", which are not searched if the distance tolerance is set to 4.

각 숙어의 허용 거리는 검색 오류를 축소시키면서 빠른 검색을 가능하게 한다. 이런 허용거리는 사용자 선택사항으로 할 수 있다. 통계적 분석방법을 동원해 조사 분석한 바에 따르면, 허용 거리는 4개가 최적이다. 그러나 절이 허용되는 특별 숙어에는 시스템에서 자동적으로 2~3개의 허용거리를 확대할 수 있는 기능을 부여한다. 즉, 거리허용치는 숙어 사용에서 중간에 삽입될 수 있는 단어의 수를 뜻한다. 이것은 사용자 선택 사항으로 한다(도 7 참조).The allowable distance of each idiom allows quick searching while reducing search errors. This allowable distance can be optional. According to the statistical analysis method, the maximum allowable distance is four. However, special idioms that allow clauses are given the ability for the system to automatically extend two or three tolerances. In other words, distance tolerance refers to the number of words that can be inserted in the idiom use. This is a user option (see Figure 7).

제한된 대표성을 갖는 be동사를 사용하는 경우에 있어서 "be afraid of"가 있다.There is a "be afraid of" when using the be verb with limited representation.

Don't be afraid of me.Don't be afraid of me.

Oh, I'm afraid of it.Oh, I'm afraid of it.

I'm not afraid of it.I'm not afraid of it.

I'm always afraid of it.I'm always afraid of it.

be 동사는 "is, was, are, were, be, will" 등이 있다. 또한 be 동사를 포함한 숙어의 반대의 뜻도 함께 검색해 내야 한다. 부정형 숙어의 사용 예를 살펴 보면, "And I'm not afraid of your relatives."에서 be 동사는 주어와 함께 축약형으로도 사용된다. 예를 들면 "I'm, you're, he's" 등과 같이 사용된 경우에도 검색해야 한다. 즉, "I'm, you're, he's" 등과 같은 주어 + 동사의 축약형은 be 동사로 분류하여 검색한다.The verb be "is, was, are, were, be, will". You should also search for the opposite of idioms, including the be verb. In the example of the use of indeterminate idioms, in the "And I'm not afraid of your relatives." For example, "I'm, you're, he's", etc. should be searched if used. That is, the abbreviation of subject + verb, such as "I'm, you're, he's", is classified as be verb and searched.

상기와 같은 사항을 고려하여 도 5에 나타낸 도면을 참조하여 숙어를 검색하는 세부적인 방법을 살펴보면 다음과 같다.In consideration of the above matters, a detailed method of searching for an idiom will be described below with reference to the drawing shown in FIG. 5.

먼저, 문장에서 사용되었을 것으로 예상되는 예비숙어를 검색한 후, 이 예비숙어의 단어간 거리 허용치를 계산한다(S510). 그런 다음, 예비 숙어 및 단어가 상기 단계 S510에서 계산한 예비숙어의 단어간 거리 허용치 이내에 존재하는지를 판단하여, 허용치 이내이면 다음 단계로 진행하고, 허용치를 벗어나면 폐기한다(S520).First, after searching the preliminary idiom that is expected to be used in the sentence, and calculates the distance between words of the preliminary idiom (S510). Then, it is determined whether the preliminary idiom and the word exist within the allowable word-to-word distance value of the preliminary idiom calculated in step S510. If the preliminary idiom and the word are within the allowable value, the process proceeds to the next step, and if it is outside the allowable value, it is discarded (S520).

상기와 같은 단계 S520을 검색된 예비숙어 및 단어에 모두 적용한 다음(S530), 숙어 검색을 수행한다(S540). 여기서, 상기 S530 단계에서 예비숙어 및 단어의 처리가 모두 이루어지지 않았으면 단계 S510으로 되돌아간다.After applying the above-described step S520 to both the searched preliminary words and words (S530), the idiom search is performed (S540). If the pre-idiom and the word have not been processed in step S530, the process returns to step S510.

상기 단계 S540에서 숙어를 검색하였으면, 검색된 결과물을 저장하고(S580), 숙어가 검색되지 않으면, 예비숙어에 파생단어가 존재하는지 판단한다(S550).When the idiom is searched for in step S540, the searched result is stored (S580). If the idiom is not searched, it is determined whether a derivative word exists in the preliminary idiom (S550).

상기 단계 S550이 판단결과 파생단어가 존재하지 않으면 종료하고, 파생단어가 존재하면, 파생단어를 원형으로 대치하여 재검색한다(S560).In step S550, if the derived word does not exist as a result of the determination, the method terminates. If the derived word exists, the derived word is replaced by a circle and re-searched (S560).

재검색된 숙어 및 단어가 문장에서 사용되었으면(S570), 결과물을 저장하고(S580), 사용되지 않았으면 단계 S550으로 되돌아간다.If the re-searched idioms and words are used in the sentence (S570), the result is stored (S580), and if not, the process returns to step S550.

한편, 상기 결과물 저장단계(S580)에서 본 발명은 검색된 숙어들 중에서 임의의 숙어가 다른 숙어에 포함되는 부숙어(sub idiom)인 경우 이 부숙어를 제거한다. 즉 예를 들어, 한 문장에서 "as well as"와 "as well"이 동시에 사용되었다면, 부숙어에 해당하는 "as well"은 제거되고 "as well as"만이 저장된다.Meanwhile, in the result storage step (S580), the present invention removes the idiom when the idiom included in the other idioms is found among the idioms. That is, for example, if "as well as" and "as well" are used in the same sentence, "as well" corresponding to the subword is removed and only "as well as" is stored.

도 6은 본 발명에 따른 사전 검색 서비스 방법 중 문장 속에 있는 숙어를 검색하는 숙어 변환부를 예시하는 도면이다.FIG. 6 is a diagram illustrating an idiom converting unit searching for an idiom in a sentence in the dictionary search service method according to the present invention.

본 발명에서는 숙어 변환부를 제시하며, 이 숙어 변환부의 목적은,In the present invention, an idiom conversion unit is provided, the purpose of this idiom conversion unit,

1. 다양하게 표현되는 숙어의 형태를 통일시켜 일관성을 유지,1. Maintain consistency by unifying the various idioms

2. 내부적으로 질의형(Query)으로 변환하여 효과적인 검색과 파생 단어를 적용,2. Internally converts to query to apply effective search and derived words,

3. 대표성 및 특수성 단어의 상징,3. symbols of words of representativeness and particularity;

에 있다.Is in.

예를 들면, "be afraid of"가 기본형이지만 "be not afraid of" 등 중간에 삽입될 수 있는 여지가 있는 숙어에 대해서 작성한다. 숙어 변환부 사용 예에서는 "be % afraid of"로 구성된다. 즉, be 동사를 활용한 단어들 “is, were, was, be, will” 등과 함께 "he's, I'm, you're" 등은 be 동사로 일괄 처리되고, %는 허용 거리 내에 있는 단어들이 포함된다. 나머지 "afraid"와 "of"가 사용된다면, 예문에서 "be afraid of"를 검색할 수 있다.For example, write a idiom that "be afraid of" is a primitive but can be inserted in the middle, such as "be not afraid of". In the idiom conversion example, "be% afraid of". In other words, the words using the be verb “is, were, was, be, will”, etc., together with “he's, I'm, you're” are processed as be verbs,% is the words within the allowed distance. Included. If the remaining "afraid" and "of" are used, you can search for "be afraid of" in the example.

복합명사나 전문용어, 문장으로 이루어지는 경우와 대표성이 없는 숙어 경우에는 단어 거리 허용치를 적용하지 않고 직접 문장에서 단어존재 여부만 검색하여 실행 속도를 증가시킨다. 숙어와 복합명사나 전문용어들과의 구분은 숙어 변환부 내의 특정 필드에서 기록 관리된다. 변환정보는 숙어 검색시 함께 검색되며, 숙어 데이터 베이스 내에 함께 저장 관리되거나 별도 관리한다.In the case of compound nouns, terminology, or sentences, and idioms that are not representative, the execution speed is increased by searching for the existence of words directly in the sentence without applying the word distance tolerance. The distinction between idioms and compound nouns or terminology is maintained in specific fields within the idiom conversion section. The conversion information is searched together when searching for idioms, and is stored together or managed separately in the idiom database.

시제의 변화 동사를 사용하는 구동사 숙어의 경우에는 시제의 변화가 변화무쌍하다. 예를 들면, "She took off the blue silk dress." 에서 "took off"는 "take off"가 원형이다. 따라서 "took"의 원형 "take"와 "off"가 사용된 예비 검색 숙어를 검색하고 시제 변형을 찾아서 "took off"의 숙어를 검색해야 한다. 동사의 시제 변화 동사는 불규칙 동사와 규칙동사가 있다.Changes in tense In the case of phrasal idioms that use verbs, the tense changes. For example, "She took off the blue silk dress." In "took off", "take off" is circular. Therefore, we need to search for a preliminary search idiom using the prototypes "take" and "off" of "took", and search for the idiom "took off" by looking for tense variants. Verb tense changes Verbs have irregular verbs and regular verbs.

불규칙 동사의 경우에는 불규칙 동사 데이터 베이스에서 바로 찾아 사용하면 되지만, 규칙 동사의 경우에는 모든 단어를 데이터 베이스에 넣기에는 다소 부담스럽기도 하지만 규칙에 의해서 생성 및 검색이 가능하다. 규칙동사의 변화를 찾는 것은 일반적 문법 교재에 나와 있는 경우가 대부분이므로 어렵지 않게 생성할 수 있다. 규칙적인 형용사의 변화 역시 어렵지 않게 생성할 수 있다. -er, -est의 변화로 생성 가능하다. 불규칙 형용사의 경우에는 단어 데이터 베이스에서 검색해서 사용할 수 있다.In the case of irregular verbs, you can find and use them directly in the database of irregular verbs. In the case of rule verbs, it can be a bit burdensome to put all the words in the database. Finding changes to regular verbs is usually done in a general grammar textbook, so it can be easily generated. Regular adjective changes can also be generated with ease. Can be generated by changing -er or -est. In the case of irregular adjectives, they can be retrieved from the word database.

원형 동사, 명사에서 파생된 단어들은 여러 가지 주의가 필요하다. "Forensic scientists can also advise the accuser or a defendant of a criminal case." 상기 예문은 "accuse A of B"의 형태 숙어이다. 여기서 "accuser"는 "accuse"의 파생이고 중간에 "or a defendant" 역시 일반적 허용거리 4 보다 작은 3 이고 "accuse A of B"의 형태를 가지고 있기 때문에 검색 대상이 된다. 그러나 "accuse A of B" 에서 사용된 "accuse"는 동사이기 때문에 "accuser"는 명사로서 파생으로 간주해서는 안 된다. 따라서 이것은 단어검색 단계에서 검색될 수 없다.Prototype verbs and words derived from nouns require a lot of attention. "Forensic scientists can also advise the accuser or a defendant of a criminal case." The example sentence is in the form of "accuse A of B". Here "accuser" is a derivative of "accuse", and in the middle "or a defendant" is also less than the general allowance 4, and has the form "accuse A of B". However, because "accuse" used in "accuse A of B" is a verb, "accuser" should not be considered a derivative as a noun. Thus it cannot be retrieved in the word search phase.

도 7은 본 발명에 의한 사전 검색 서비스 시스템의 관리 메뉴 중 결과물에 대한 검색 조건을 설정하는 검색 조건 선택부를 나타내는 도면이다.FIG. 7 is a diagram illustrating a search condition selection unit for setting a search condition for a result in a management menu of a dictionary search service system according to the present invention.

검색한 단어를 문장에서 사용된 단어의 순서로 출력할 것인지 아니면 중복을 제거하고 알파벳순으로 출력할 것인지를 선택하는 사항(710), 문장 속에 있는 단어 또는 숙어만 검색할 것인지 아니면 단어와 숙어를 함께 검색할 것인지를 선택 사항(720), 검색된 단어 및 숙어를 문장당 출력할 것인지 전체 입력된 문장에서 사용된 단어, 숙어를 중복을 배제한 알파벳 순으로 출력할 것인지를 선택하는 사항(730), 숙어 출력할 때 숙어 원형만 출력할 것인지 아니면 원형과 문장에 사용된 숙어와 원형 숙어와 동시에 출력할 것이지 선택하는 사항(740), 검색된 단어 및 숙어를 화면 또는 파일에 출력할 것인지 파일과 검색 데이터베이스에 저장할 것인지를 선택하는 사항(750), 분리된 문장의 최소 길이를 설정하는 사항(760)으로 최소 문장길이 이하의 문장은 숙어로 사용된 문장일 경우에는 직접 숙어 데이터 베이스에서 검색 가능하지만 숙어 데이터베이스에 저장관리 되지 않는 단순 문장일 경우에는 숙어 검색을 적용하지 않는다.Choose whether to output the searched words in the order of the words used in the sentence or to remove duplicates and output them alphabetically (710), to search only words or idioms in a sentence, or to search words and idioms together. Selection of whether to output (720), the output of the searched words and idioms per sentence, the choice of whether to output the words used in the entire input sentence, idioms in alphabetical order without duplicates (730), idiom output Whether to output only idiom prototypes or idioms and prototype idioms used in prototypes and sentences (740), whether to search for words and idioms on the screen or in a file, or to save them in a file or search database. Selection (750), setting the minimum length of the separated sentence (760), the sentence below the minimum sentence length is idiom If yongdoen sentence can be retrieved directly from the database, but the phrase does not apply to a search phrase, if one simple sentence is not stored in the phrase database management.

또한 숙어 허용거리 설정 사항은(770)은 숙어에서 사용되는 대표성을 가진 예비숙어 검색단계에서 사용되는 대표성 단어가 위치한 곳에서 다음 단어까지 허용되는 거리로써 사용자에 의해 설정 가능하다. 문장에서 검색된 단어와 숙어는 출력 허용수준에 따라서 제한할 수 있다. 숙어에 대한 제한을 설정하는 사항(780)과 단어에 대한 제한을 설정하는 사항(790)이 있다.In addition, the idiom allowable distance setting item 770 is a distance allowed from the place where the representative word used in the preliminary idiom search step with the representative word used in the idiom is located by the user can be set. Words and idioms searched for in a sentence can be limited according to the output tolerance. There are a matter of setting limits for idioms (780) and a matter of setting restrictions on words (790).

도 8은 본 발명의 사전 검색 서비스 시스템의 입출력부를 나타내는 도면이다.8 is a diagram illustrating an input / output unit of the dictionary search service system of the present invention.

다중검색을 필요로 하는 문장의 입력을 처리는 부분(820)과 입력된 문장으로부터 단어 및 숙어 검색의 제한을 설정하고 출력 형태를 지정하는 검색 조건 선택부(810)가 마련된다. 또한, 사용자의 검색 선택사항에 따라서 검색된 결과물을 표시하는 출력부(820)가 있다. 그리고, 검색을 시작하는 버튼(840)이 있고, 검색을 종료하는 버튼(850)이 있다.The processing unit 820 for processing the input of a sentence requiring multiple retrieval and a search condition selection unit 810 for setting a restriction on the word and idiom search from the input sentence and specifying an output form are provided. There is also an output unit 820 that displays the searched results according to the user's search options. There is a button 840 for starting a search and a button 850 for ending a search.

입력부(820)는 최소 입력된 문장들이 각 문장으로 분리되는 않는 문장들의 집합일 수 있으나, 검색이 종료되면 분리된 문장들로 정리된다. 사용자 개인 컴퓨터상에서 운영할 수 있는 또 다른 기능 중에 하나가 일괄처리다. 하나의 문장 및 복수의 문장을 처리하는 입력부분에서 일괄처리(Batch)를 선택하는 경우에 있어서 입력 파일로 처리할 수 있다.The input unit 820 may be a set of sentences in which minimum input sentences are not divided into sentences, but are divided into separate sentences when the search is completed. Another feature that you can run on your personal computer is batch processing. In the case where a batch is selected from an input portion that processes one sentence and a plurality of sentences, it can be processed as an input file.

입력될 파일의 위치정보(폴더)를 선택하면 폴더에 있는 전체 파일에 대해 순차적으로 처리를 할 수 있다. 페이지별, 단원별로 처리가 가능하고 그 위치 정보로는 파일명을 사용한다.If you select the location information (folder) of the file to be input, you can process all the files in the folder sequentially. Each page and unit can be processed, and the file name is used as the location information.

각 파일별로 생성된 단어, 숙어 등은 검색 데이터베이스에 저장되며, 각 파일에 해당하는 단어 숙어 정보는 색인으로 사용할 수 있다. 통계 생성 검색 데이터베이스에 저장된 단어, 숙어 등은 통계정보로 활용된다. 수준별 단어의 사용, 단어의 사용횟수, 단어의 난이도(수준), 각 파일별(페이지 및 단원) 처음 나타난 단어, 숙어 등 검색된 결과물의 통계 정보를 생성한다.Words, idioms, etc. generated by each file are stored in a search database, and word idiom information corresponding to each file can be used as an index. Statistics Generation Words, idioms, etc. stored in the search database are used as statistical information. Generates statistical information of the searched results, such as the use of words by level, the number of words used, the difficulty of the words (levels), the words that appear first in each file (pages and sections), and idioms.

본 발명의 사전 검색 서비스 시스템은 상기와 같은 절차를 활용해 단어 검색 통계시스템으로도 활용할 수 있다.The dictionary search service system of the present invention can also be utilized as a word search statistics system using the above procedure.

도 9는 본 발명의 사전 검색 서비스 시스템의 결과물 중 하나인 문장당 단어 및 숙어 검색 화면의 일례를 나타내는 도면이다.9 is a diagram showing an example of a word per sentence and an idiom search screen which is one of the results of the dictionary search service system of the present invention.

본 발명에서는 입력된 문장들을 각각의 문장으로 분리하는 작업을 거치면서 시작된다. 검색된 결과를 표시하는 방법으로 각 문장별로 일련번호를 부여하여 검색된 단어와 숙어를 표시하며, 단어와 숙어는 분리되어 출력된다.In the present invention, it begins with the task of separating the input sentences into each sentence. As a way of displaying the searched results, the searched words and idioms are displayed by assigning serial numbers to each sentence, and the words and idioms are output separately.

도 10은 본 발명의 사전 검색 서비스 시스템의 결과물 중 하나인 전체 입력된 문장의 검색된 단어 및 숙어 화면의 일례를 나타내는 도면이다.FIG. 10 is a diagram illustrating an example of a searched word and idiom screen of an entire input sentence which is one of the results of the dictionary search service system of the present invention.

하나의 단어만 검색하는 것에서 벗어나 문장으로 입력이 될 경우 문장을 구성한 모든 단어의 결과와 함께 사용된 숙어, 복합명사, 전문용어 등 검색시스템에서 도출된 결과물에 따라서, 단어, 숙어에 대한 뜻, 발음, 사용 용도 등 사전적 정보가 제시되며 동시에 단어, 숙어 등 예문 또한 검색해 사용자에게 제공한다. 중복된 단어나 숙어는 배제하고 출력된다.In case of inputting a sentence away from searching only one word, the meaning and pronunciation of words and idioms depends on the results of the search system such as idioms, compound nouns and terminology used together with the results of all the words that make up the sentence. Dictionary information, such as usage and usage, are presented. At the same time, words and phrases such as idioms are searched and provided to the user. Duplicate words or idioms are printed out.

이상에서, 본 발명은 예시적인 방법으로 설명되었다. 여기서 사용된 용어들은 설명을 위한 것일 뿐 한정의 의미로 이해되어서는 안될 것이다. 상기 내용에 따라 본 발명의 다양한 수정 및 변형이 가능하다. 따라서, 따로 부가 언급하지 않는 한 본 발명은 특허청구범위 내에서 자유로이 실행될 수 있을 것이다.In the above, the present invention has been described by way of example. It is to be understood that the terminology used herein is for the purpose of description and should not be regarded as limiting. Various modifications and variations of the present invention are possible in light of the above teachings. Therefore, unless otherwise indicated, the present invention may be practiced freely within the scope of the claims.

Claims (25)

한 개 이상의 단어 또는 한 개 이상의 문장을 입력하기 위한 입력부;
검색 조건을 설정하기 위한 검색 조건 선택부;
공백을 포함하지 않는 단어의 원형과 파생단어들을 포함하는 단어 데이터 베이스;
이디움(idiom), 구동사(phrase verb)로 통칭되는 숙어와 공백을 포함하는 전문용어, 복합명사와 고정형 숙어가 아닌 가변적 변화가 있을 수 있는 숙어를 검색하기 위한 변환숙어를 포함하는 숙어 데이터 베이스;
상기 입력부에 의해 입력된 복수의 문장을 개별 문장으로 분리하는 문장 분리부;
상기 문장 분리부에 의해 분리된 개별 문장에서 사용된 단어들을 분리하는 단어 분리부;
상기 검색 조건 선택부에서 설정된 검색 조건을 만족하는 단어만을 상기 단어 데이터 베이스에서 검색하는 단어 검색부;
상기 분리된 개별 문장에서 사용되었을 것으로 예상되는 예비숙어를 상기 숙어 데이터 베이스에서 검색하는 예비숙어 검색부;
상기 입력부 및 문장 분리부에 의해 입력 및 분리된 문장에서 사용된 숙어의 형태에 따라서 사용된 숙어를 비교하여 검색하는 것으로서, 상기 예비숙어 검색부에 의해 검색된 예비숙어 중 변화가 되지 않는 원형 및 고정형 숙어의 경우 상기 예비숙어와 문장에서 사용된 숙어를 비교하여 동일한 숙어를 검색하고, 문장에서 사용된 숙어가 시제의 변화나, 단수 또는 복수형에 따라 바뀌는 파생형 단어인 경우 파생형을 원형으로 치환하여 상기 예비숙어와 비교하여 동일한 숙어를 검색하며, 가변적인 단어군을 내포하는 숙어인 경우는 그 숙어의 고정적인 단어의 개수, 단어의 순서, 가변적인 단어군을 구성하는 단어의 개수가 상기 검색 조건 내에 있는 단어의 개수 이내에 있는지를 계산하여 상기 예비숙어와 비교하여 상기 세가지 조건을 만족하는 숙어를 검색하는 숙어 검색부;
상기 검색 조건에 맞게 분리된 문장, 검색된 단어 및 검색된 숙어를 저장하는 문장 저장부, 단어 저장부 및 숙어 저장부;
상기 검색 조건에 따른 검색 결과물을 생성하는 출력 생성부; 및
상기 출력 생성부에 의해 생성된 검색 결과를 출력하는 출력부;를 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
An input unit for inputting one or more words or one or more sentences;
A search condition selection unit for setting a search condition;
A word database containing prototypes and derived words of words that do not contain spaces;
An idiom database comprising an idiom, a terminology including idioms and phrases collectively known as phrase verbs, and a conversion idiom for searching for idioms that may have variable variations rather than compound nouns and fixed idioms;
A sentence separator for separating a plurality of sentences input by the input unit into individual sentences;
A word separator for separating words used in individual sentences separated by the sentence separator;
A word search unit that searches only the words in the word database that satisfy the search condition set by the search condition selector;
A preliminary phrase search unit for searching the idiom database for a preliminary phrase expected to be used in the separated individual sentences;
Comparing the idioms used according to the idioms used in the sentences input and separated by the input unit and the sentence separating unit, and searching the comparison idioms, circular and fixed idioms that do not change among the preliminary idioms retrieved by the preliminary phrase search unit In the case of searching for the same idiom by comparing the idioms used in the preliminary idiom and the sentence, and if the idiom used in the sentence is a derivative word changed according to a change in tense or singular or plural, the derivative is replaced by a circle. The same idiom is searched compared to the preliminary idiom, and in the case of an idiom containing a variable word group, the number of fixed words of the idiom, the order of words, and the number of words constituting the variable word group are within the search condition. An idiom that satisfies the three conditions compared to the preliminary idiom by calculating whether the word is within the number of words Phrase search unit for searching;
A sentence storage unit, a word storage unit, and an idiom storage unit storing the sentences, the searched words, and the searched idioms separated according to the search condition;
An output generator for generating a search result according to the search condition; And
And an output unit for outputting a search result generated by the output generation unit.
제1항에 있어서,
웹 브라우저나 단말기 등에 따라 상이한 문자코드체계를 단일화하기 위하여 입력된 문자 코드를 아스키(ASCII)로 변환하거나 아스키에서 다른 문자코드 형태로 변환하기 위한 코드 변환부를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
The method of claim 1,
A dictionary retrieval service system further comprising a code conversion unit for converting an input character code into ASCII or converting from ASCII to another character code in order to unify different character code systems according to a web browser or a terminal. .
제1항에 있어서,
검색된 예비숙어 중에서 단어와 단어 사이에 한 개 이상의 단어나 구 또는 절이 들어갈 수 있는 가변적인 공간(예컨대, "call A by B"나 "achieve one’s goal"과 같은 숙어에서 "A", "B", "one’s"를 말함)을 갖는 숙어로 정의되는 대표성 숙어, "be going to", "be afraid of"와 같은 숙어에서 "be동사"처럼 한정된 단어만 사용할 수 있는 숙어로 정의되는 제한적 대표성 숙어, 그리고, "by ~ing", "by oneself" 등과 같이 특수한 형태의 단어만 사용할 수 있는 숙어로서 "ing"를 수반하거나 "oneself"와 같이 "self"가 함께 사용되어야 하는 숙어로 정의되는 특수성 숙어를 검색하기 위해 변환숙어의 표현으로 변환시키는 숙어 변환부를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
The method of claim 1,
Variable spaces in which one or more words, phrases, or phrases can be placed between words (eg, "A", "B", in idioms such as "call A by B" or "achieve one's goal") representative idioms defined as idioms with "one's", limited representative idioms defined as idioms such as "be going to", "be afraid of," and idioms that use only limited words such as "be verbs", and idioms that can only use special types of words, such as "by ~ ing", "by oneself", etc. And a idiom converting unit converting the expression into an expression of the converted phrase.
제1항에 있어서,
문장에서 사용된 파생형 단어의 원형을 검색하도록 파생형 단어의 원형을 생성하는 파생 단어부를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
The method of claim 1,
And a derivative word unit for generating a prototype of the derivative word to search for a prototype of the derivative word used in the sentence.
제3항에 있어서,
상기 대표성, 제한적 대표성 및 특수성 숙어에서 "achieve one’s goal"과 같은 대표성은 몇 개의 단어를 허용할 것인가를 제한하기 위해 "achieve"와 " goal" 사이의 단어 수를 계산하는 단어 거리 허용치 계산부를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
The method of claim 3,
Representation, such as "achieve one's goal" in the representative, limited representative and specific idioms further includes a word distance tolerance calculation unit that calculates the number of words between "achieve" and "goal" to limit how many words are allowed. Dictionary search service system, characterized in that.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 입력부를 통하여 입력된 검색 문장에 대하여 문장에서 사용된 모든 단어 및 숙어를 검색하여 단어 및 숙어의 알파벳 순서, 단어 및 숙어의 난이도에 기초한 수준, 그리고, 단어와 숙어를 구분하여 사용 및 빈도 통계를 작성하고 저장하는 통계 생성부 및 통계 데이터 베이스; 및
상기 입력부를 통하여 입력된 모든 검색 문장을 문장별로 분리하여 문장의 일련 순서에 따라서 단어 및 숙어의 색인 정보를 생성하는 색인 생성부;를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 시스템.
The method according to any one of claims 1 to 5,
By searching all the words and idioms used in the sentence with respect to the search sentence entered through the input unit, the levels based on the alphabetical order of words and idioms, the difficulty level of words and idioms, and the words and idioms are divided into usage and frequency statistics. A statistics generator and a statistics database for creating and storing; And
And an index generator for separating all search sentences input through the input unit for each sentence and generating index information of words and idioms according to a sequence of sentences.
a) 사용자가 입력부를 통하여 검색하고자 하는 한 개 이상의 단어 또는 한 개 이상의 문장을 입력하는 단계;
b) 사용자가 검색 조건 선택부를 통하여 검색 조건을 설정하는 단계;
c) 사용자가 입력한 문장을 문장 분리부에서 개별 문장으로 분리하는 단계;
d) 단어 검색부가 상기 검색 조건을 만족하는 단어를 단어 데이터 베이스에서 검색하는 단계;
e) 예비숙어 검색부가 문장에서 사용되었을 것으로 예상되는 예비숙어를 숙어 데이터 베이스에서 검색하는 단계;
f) 입력부 및 문장 분리부에 의해 입력 및 분리된 문장에서 사용된 숙어의 형태에 따라서 사용된 숙어를 비교하여 검색하는 단계로서, 상기 예비숙어 검색부에 의해 검색된 예비숙어 중 변화가 되지 않는 원형 및 고정형 숙어의 경우 상기 예비숙어와 문장에서 사용된 숙어를 비교하여 동일한 숙어를 검색하고, 문장에서 사용된 숙어가 시제의 변화나, 단수 또는 복수형에 따라 바뀌는 파생형 단어인 경우 파생형을 원형으로 치환하여 상기 예비숙어와 비교하여 동일한 숙어를 검색하며, 가변적인 단어군을 내포하는 숙어인 경우는 그 숙어의 고정적인 단어의 개수, 단어의 순서, 가변적인 단어군을 구성하는 단어의 개수가 상기 검색 조건 내에 있는 단어의 개수 이내에 있는지를 계산하여 상기 예비숙어와 비교하여 상기 세가지 조건을 만족하는 숙어를 검색하는 단계;
g) 상기 검색 조건에 맞게 분리된 문장, 검색된 단어 및 검색된 숙어를 각각 문장 저장부, 단어 저장부 및 숙어 저장부에 저장하는 단계; 및
h) 출력 생성부에서 상기 검색 조건에 따른 검색 결과물을 생성하여 사용자에게 제공하는 단계;를 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
a) inputting one or more words or one or more sentences that a user wants to search through the input unit;
b) a user setting a search condition through the search condition selection unit;
c) separating the sentences input by the user into individual sentences in the sentence separator;
d) a word search unit searching for a word in the word database that satisfies the search condition;
e) searching the idiom database for the preliminary phrases expected to have been used in the sentence;
f) comparing and searching the idioms used according to the idioms used in the sentences input and separated by the input unit and the sentence separator, wherein the prototypes do not change among the pre-idioms retrieved by the preliminary phrase search unit; In the case of the fixed idiom, the same idiom is searched by comparing the idiom used in the sentence and the sentence, and if the idiom used in the sentence is a derivative word changed according to the change of tense or singular or plural, the derivative is replaced with a circle. The same idiom is searched in comparison to the preliminary idiom, and if the idiom includes a variable word group, the number of fixed words of the idiom, the order of words, and the number of words constituting the variable word group are searched. The idiom that satisfies the three conditions is compared with the preliminary idiom by calculating whether it is within the number of words within the condition. Comprising: color;
g) storing the sentences, the searched words, and the searched idioms that are separated according to the search condition in the sentence storage unit, the word storage unit, and the idiom storage unit, respectively; And
h) output generation unit to generate a search result according to the search conditions to provide to the user; dictionary search service method characterized in that it comprises a.
제7항에 있어서,
상기 a) 단계에서, 상기 입력부가 검색하고자 하는 한 개 이상의 단어 또는 한 개 이상의 문장을 포함하는 페이지별 또는 단원별 문서의 연속적인 입력을 일괄 처리하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
The method of claim 1, wherein the input unit processes the continuous input of the page-by-page or unit-specific document including one or more words or one or more sentences to be searched.
제7항에 있어서, 상기 b) 단계는,
입력된 복수의 문장에서 단어 또는 숙어만 검색할 것인지 단어와 숙어를 동시에 검색할 것인지를 설정하는 단계;
검색된 결과물을 문장 단위로 출력할 것인지 또는 입력된 모든 문장에서 사용된 유일한(unique) 단어 및 숙어의 결과만을 출력할 것인지를 설정하는 단계;
사용자가 설정한 검색 조건에 따라서 검색된 단어와 숙어의 결과에 대해 출력을 제한하는 조건을 설정하는 단계;
최소 길이 이하의 문장을 배제하거나 검색될 숙어에서 임의의 단어가 삽입될 단어의 수를 설정하는 단계; 및
검색된 숙어가, 단어와 단어 사이에 한 개 이상의 단어나 구 또는 절이 들어갈 수 있는 가변적인 공간(예컨대, "call A by B"나 "achieve one’s goal"과 같은 숙어에서 "A", "B", "one’s"를 말함)을 갖는 숙어로 정의되는 대표성을 가질 경우, 숙어 데이터 베이스에 저장된 원형 숙어와 문장에서 동일하지 않게 사용된 숙어("achieve his great goals")를 함께 출력할 것인지를 설정하는 단계;를 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein step b),
Setting whether to search only words or idioms in a plurality of input sentences or to search words and idioms simultaneously;
Setting whether to output the searched result in a sentence unit or to output only the results of unique words and idioms used in all input sentences;
Setting a condition for limiting output on the searched word and idiom results according to a search condition set by a user;
Setting the number of words to which any word is to be inserted in the idiom to be searched or to exclude sentences less than the minimum length; And
The searched idiom is a variable space that can contain one or more words, phrases, or phrases between words (eg, "A", "B", in idioms such as "call A by B" or "achieve one's goal"). If you have a representativeness defined as an idiom with "one's", set whether to output the original idiom stored in the idiom database and the idiom ("achieve his great goals") used in the sentence. Dictionary search service method comprising a.
제7항에 있어서,
상기 c) 단계는, 다수의 문장을 입력하는 다중 검색에 있어서 입력되는 문서가 문장별로 구성되어 있지 않은 경우 문장 단위로 구분 및 정렬하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
In the step c), in the multi-search for inputting a plurality of sentences, if the input document is not configured for each sentence, dividing and sorting by sentence unit is performed.
제7항에 있어서,
웹 브라우저, 단말기 등에 따라 상이한 문자코드체계를 단일화 하기 위하여 입력된 문자 코드를 코드 변환부에서 아스키로 변환하거나 또는 아스키를 다른 문자코드 형태로 변환하는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
The method of claim 1, further comprising converting an input character code into ASCII or converting ASCII into another character code form in order to unify different character code systems according to a web browser or a terminal. .
제7항에 있어서, 상기 d) 단계는,
분리된 각 문장에 따라 문장에서 사용된 단어를 기준으로 단어 데이터 베이스에서 단어를 검색하고, 문장에서 사용된 단어에 대해 원형이 아닌 파생형 단어가 사용되었을 경우 원형 단어를 검색하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein the d) step,
A dictionary that searches for words in a word database based on the words used in sentences according to each sentence separated, and searches for circular words when non-circular derivative words are used for words used in sentences. Search service method.
제7항에 있어서, 상기 d) 단계는,
문장에서 사용된 파생형 단어를 이용하여 단어 데이터 베이스에서 원형을 검색하고, 단어 데이터 베이스에 저장 관리되지 않는 파생형 단어의 경우 원형을 생성하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein the d) step,
A dictionary search service method comprising: searching a prototype in a word database using a derivative word used in a sentence, and generating a prototype in the case of a derivative word not stored and managed in the word database.
제7항에 있어서, 상기 e) 단계는,
문장에서 사용된 단어의 중복을 배제하고, 관사, 인칭 대명사, be동사, 접속사, 감탄사 및 전치사를 배제하여, 배제한 단어들을 사용한 예비숙어를 숙어 데이터 베이스 또는 사용자가 직접 등록 및 관리하는 사용자 정의 숙어 데이터 베이스에서 검색하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein step e)
Exclude idioms, personal pronouns, be verbs, conjunctions, interjections, and prepositions, excluding duplicates of words used in a sentence, idiom database using the excluded words, or custom idiom data registered and managed by the user Dictionary search service method characterized in that the search in the base.
제7항에 있어서, 상기 f) 단계는,
1. 동일 수의 조건 - 숙어를 구성하는 기본 단어 수와 예문에서 파생형 단어를 포함하여 사용된 단어의 개수가 일치할 조건(단, 단어와 단어 사이에 한 개 이상의 단어나 구 또는 절이 들어갈 수 있는 가변적인 공간(예컨대, "call A by B"나 "achieve one’s goal"과 같은 숙어에서 "A", "B", "one’s"를 말함)을 갖는 숙어로 정의되는 대표성 숙어, "be going to", "be afraid of"와 같은 숙어에서 "be동사"처럼 한정된 단어만 사용할 수 있는 숙어로 정의되는 제한적 대표성 숙어, 그리고, "by ~ing", "by oneself" 등과 같이 특수한 형태의 단어만 사용할 수 있는 숙어로서 "ing"를 수반하거나 "oneself"와 같이 "self"가 함께 사용되어야 하는 숙어로 정의되는 특수성 숙어에서의 대표성, 제한적 대표성 및 특수성 단어는 1개의 단어로 취급),
2. 순서의 조건 - 모든 숙어는 숙어를 구성하는 단어의 순서가 검색된 문장에서도 동일할 조건,
3. 거리 허용치 조건 - 상기 대표성 숙어, 제한적 대표성 숙어 및 특수성 숙어는 대표성, 제한적 대표성 및 특수성 단어가 위치한 곳에서 단어간 거리 허용치 내에 있을 조건, 의 3가지 숙어 검색 조건을 만족하는 숙어를 검색하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein the step f),
1. The same number of conditions-Conditions under which the basic number of words that make up an idiom and the number of words used, including derived words, in the example sentence will match, provided that one or more words, phrases, or clauses can be included between the words. Representative idioms defined as idioms with variable spaces (eg, "A", "B", "one's" in idioms such as "call A by B" or "achieve one's goal") Limited representative idioms defined as idioms that can use only limited words, such as "be verbs" in idioms such as "be afraid of", and only special types of words such as "by ~ ing" and "by oneself" Representative, restrictive representative and specific words in particular idioms that are defined as idioms that are accompanied by "ing" or that "self" should be used together, such as "oneself", are treated as one word),
2. Conditions of order-All idioms are the same condition in the sentence in which the order of the words that make up the idiom is searched,
3. Distance tolerance condition-The representative idiom, the limited representative idiom and the specific idiom are to search for idioms that satisfy the three idiom search conditions of the condition where the representative, limited representative and specific words are within the distance tolerance between words. A dictionary search service method.
제15항에 있어서,
상기 조건 3의 거리 허용치는 사용자가 설정하는 것을 특징으로 하는 사전 검색 서비스 방법.
16. The method of claim 15,
The distance search value of the condition 3 is set by the user.
제15항에 있어서, 상기 f) 단계는,
숙어 변환부가, 검색된 예비숙어 중에서 상기 대표성, 제한적 대표성 및 특수성 단어를 포함하는 숙어("call A by B")를 검색하기 위해 변환숙어의 표현("call % by %")으로 변환시키는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 15, wherein f),
The idiom converting step further converts, from the searched predicates, the idiom containing the words of representativeness, limited representativeness and specificity ("call A by B") into a representation of the conversion idiom ("call% by%") for searching. Dictionary search service method comprising a.
제15항에 있어서, 상기 f) 단계는,
상기 숙어 검색 조건을 일부 만족하지만 원형 및 파생형 단어의 차이(시제의 변화나, 단수 또는 복수형에 의한 차이)로 인해 완전히 일치하지 않는 경우 원형은 파생형 단어로, 파생형 단어는 원형으로 재검색하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 15, wherein f),
If some of the above idiom search conditions are satisfied but not completely matched due to differences in prototype and derived words (changes in tense or singular or plural), the prototype is a derivative word and the derivative word is re-searched as a circle. Dictionary search service method characterized in that.
제7항에 있어서, 상기 g) 단계는,
한 개 이상의 문장으로 구성된 문서의 입력시 입력된 문서를 문장 단위로 분리한 문장을 저장하고, 검색 조건 및 출력 형태의 선택에 따라 검색된 단어와 숙어를 저장하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein the step g),
A dictionary search service method comprising storing a sentence obtained by dividing an input document into sentence units when inputting a document including one or more sentences, and storing the searched words and idioms according to a selection of a search condition and an output form.
제19항에 있어서, 상기 g) 단계는,
검색된 숙어들 중에서 임의의 숙어가 다른 숙어에 포함되는 부숙어(sub idiom)인 경우, 상기 부숙어를 제거하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 19, wherein g),
If the idiom of the searched idiom is a sub idiom included in the other idiom, the dictionary search service method characterized in that to remove the idiom.
제7항에 있어서, 상기 h) 단계는,
사용자가 설정한 검색 조건에 따라서 검색된 단어와 숙어의 결과에 대해 출력을 제한하거나, 검색된 단어와 숙어의 난이도에 기초한 최고수준을 기준으로 임의의 수준 이하의 단어와 숙어를 출력하거나 제거하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein h),
Limit the output of the searched words and idioms according to the search conditions set by the user, or output or remove words and idioms below a certain level based on the highest level based on the difficulty of the searched words and idioms. Dictionary search service method.
제7항에 있어서,
문장에 있는 검색되지 않은 오탈자 단어 또는 단어 데이터 베이스에 저장 관리되지 않는 단어를 별도로 사용자에게 통지하는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
And notifying the user separately of the unsearched misspelled words in the sentence or the unmanaged words stored in the word database.
제7항에 있어서,
상기 입력부를 통하여 입력된 검색 문장에 대하여 문장에서 사용된 모든 단어 및 숙어를 검색하여 단어의 숙어의 알파벳 순서, 단어 및 숙어의 난이도에 기초한 수준, 그리고, 단어와 숙어를 구분하여 사용 및 빈도 통계를 작성하고 저장하는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
All words and idioms used in the sentence are searched for the search sentence input through the input unit, and the levels based on the alphabetical order of the idioms of the word, the difficulty level of the words and the idioms, and the words and idioms are classified into usage and frequency statistics. The dictionary search service method further comprising the step of creating and storing.
제7항에 있어서,
상기 입력부를 통하여 입력된 모든 검색 문장을 문장별로 분리하여 문장의 일련 순서에 따라서 단어 및 숙어의 색인 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
And dividing all the search sentences input through the input unit for each sentence to generate index information of words and idioms according to a sequence of sentences.
제7항에 있어서,
한 개 이상의 문장으로 구성된 문서를 입력하여 단어 및 숙어를 검색함에 있어서 복수의 문서를 일괄 처리할 때 각각의 문서에서 검색된 단어 및 숙어를 색인화 하는 단계를 더 포함하는 것을 특징으로 하는 사전 검색 서비스 방법.
The method of claim 7, wherein
And a step of indexing words and idioms retrieved from each document when batch processing a plurality of documents in inputting a document consisting of one or more sentences and searching for words and idioms.
KR1020120024305A 2012-03-09 2012-03-09 System and method for searching dictionary KR101247346B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120024305A KR101247346B1 (en) 2012-03-09 2012-03-09 System and method for searching dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120024305A KR101247346B1 (en) 2012-03-09 2012-03-09 System and method for searching dictionary

Publications (1)

Publication Number Publication Date
KR101247346B1 true KR101247346B1 (en) 2013-03-26

Family

ID=48182537

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120024305A KR101247346B1 (en) 2012-03-09 2012-03-09 System and method for searching dictionary

Country Status (1)

Country Link
KR (1) KR101247346B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210002435A (en) * 2017-04-10 2021-01-08 후지쯔 가부시끼가이샤 Analysis program, analysis method, and analysis device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990047856A (en) * 1997-12-05 1999-07-05 정선종 Multilingual Idiom Recognition System for Multilingual Machine Translation Devices
KR20010002567A (en) * 1999-06-16 2001-01-15 맹성현 A management apparatus for storing indices in information retrieval system and their storage/retrieval method
JP2004303273A (en) 2004-06-10 2004-10-28 Fujitsu Ltd Language information processor
KR20110072496A (en) * 2009-12-23 2011-06-29 주식회사 아이리버 System for searching of electronic dictionary using functionkey and method thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990047856A (en) * 1997-12-05 1999-07-05 정선종 Multilingual Idiom Recognition System for Multilingual Machine Translation Devices
KR20010002567A (en) * 1999-06-16 2001-01-15 맹성현 A management apparatus for storing indices in information retrieval system and their storage/retrieval method
JP2004303273A (en) 2004-06-10 2004-10-28 Fujitsu Ltd Language information processor
KR20110072496A (en) * 2009-12-23 2011-06-29 주식회사 아이리버 System for searching of electronic dictionary using functionkey and method thereof

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210002435A (en) * 2017-04-10 2021-01-08 후지쯔 가부시끼가이샤 Analysis program, analysis method, and analysis device
US10936816B2 (en) 2017-04-10 2021-03-02 Fujitsu Limited Non-transitory computer-readable storage medium, analysis method, and analysis device
KR102355731B1 (en) * 2017-04-10 2022-01-25 후지쯔 가부시끼가이샤 Analysis program, analysis method, and analysis device

Similar Documents

Publication Publication Date Title
JP5241828B2 (en) Dictionary word and idiom determination
US10878233B2 (en) Analyzing technical documents against known art
JP2012248210A (en) System and method for retrieving content of complicated language such as japanese
CN107688616B (en) Make the unique facts of the entity appear
JP2010531492A (en) Word probability determination
JP2010537286A (en) Creating an area dictionary
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN109791570B (en) Efficient and accurate named entity recognition method and device
WO2022134355A1 (en) Keyword prompt-based search method and apparatus, and electronic device and storage medium
Karim et al. A step towards information extraction: Named entity recognition in Bangla using deep learning
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Egger Text representations and word embeddings: Vectorizing textual data
Samir et al. Stemming and lemmatization for information retrieval systems in amazigh language
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP2009086903A (en) Retrieval service device
JP2009277099A (en) Similar document retrieval device, method and program, and computer readable recording medium
KR101247346B1 (en) System and method for searching dictionary
WO2015075920A1 (en) Input assistance device, input assistance method and recording medium
WO2022134824A1 (en) Tuning query generation patterns
JP7122773B2 (en) DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM
Randhawa et al. Study of spell checking techniques and available spell checkers in regional languages: a survey
JP2007200252A (en) Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
Liebeskind et al. An algorithmic scheme for statistical thesaurus construction in a morphologically rich language
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170319

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180319

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190318

Year of fee payment: 7