KR930023866A - How to Extract Mixed Characters from Document Recognition Device - Google Patents

How to Extract Mixed Characters from Document Recognition Device Download PDF

Info

Publication number
KR930023866A
KR930023866A KR1019920009215A KR920009215A KR930023866A KR 930023866 A KR930023866 A KR 930023866A KR 1019920009215 A KR1019920009215 A KR 1019920009215A KR 920009215 A KR920009215 A KR 920009215A KR 930023866 A KR930023866 A KR 930023866A
Authority
KR
South Korea
Prior art keywords
character
characters
individual
chinese
word
Prior art date
Application number
KR1019920009215A
Other languages
Korean (ko)
Inventor
노희호
Original Assignee
이헌조
주식회사 금성사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이헌조, 주식회사 금성사 filed Critical 이헌조
Priority to KR1019920009215A priority Critical patent/KR930023866A/en
Publication of KR930023866A publication Critical patent/KR930023866A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 문서인식장치의 혼용문자 추출방법에 관한 것으로서, 여러개의 문자가 동시에 하나의 문서에 존재하는 혼용문서에서 한글과 한자를 구별하기 위한 것이다.The present invention relates to a method of extracting a mixed character of a document recognition device, and to distinguish between Hangul and Hanja in a mixed document in which several characters exist in one document at the same time.

이와같은 본 발명은 인력 문서를 스캔하여 2차 화상을 발생하는 스캔과정과, 상기 스캔과정을 통한 입력영상으로 부터 그림부분과 문자부분을 구별하고 문자부분에 대해 문자열을 분리하는 문자열 추출과정과, 상기 분리된 문자열로 부터 개별문자를 절출하는 개별문자 절출과정과, 상기 절출된 각 개별문자로 부터 한글과 한자를 구별하는 한글/한자 구별과정과, 상기 구별된 각 문자를 인식하는 인식과정으로 이루어짐을써 달성되는 것이다.As described above, the present invention provides a scanning process of scanning a manpower document to generate a secondary image, a string extraction process of distinguishing a picture part from a character part from the input image through the scanning process and separating a character string from the character part; An individual character extraction process for extracting individual characters from the separated character string, a Hangul / Hanja distinction process for distinguishing Hangul and Hanja from each of the extracted individual characters, and a recognition process for recognizing the distinguished characters It is achieved by fulfillment.

Description

문서인식장치의 혼용문자 절출방법How to Extract Mixed Characters from Document Recognition Device

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음Since this is an open matter, no full text was included.

제2도는 본 발명 문서인식장치의 혼용문자 절출 시스템 구성도, 제3도는 제2도의 동작설명에 대한 문서인식 신호흐름도, 제4도는 제3도의 한글/한자구별과정의 신호흐름도.2 is a block diagram of a mixed-text extraction system of the document recognition apparatus of the present invention, FIG. 3 is a document recognition signal flow diagram for explaining the operation of FIG. 2, and FIG. 4 is a signal flow diagram of the Hangul / Chinese distinction process of FIG.

Claims (11)

입력 문서를 스캔하여 2치 화상을 발생하는 스캔과정과, 상기 스캔과정을 통한 입력영상으로 부터 그림부분과 문자부분을 구별하고 문자부분에 대해 문자열을 분리하는 문자열 추출과정과, 상기 분리된 문자열로 부터 개별문자를 절출하는 개별문자 절출과정과, 상기 절출 된 각 개별문자로 부터 한글과 한자를 구별하는 한글/한자 구별과정과, 상기 구별된 각 문자를 인식하는 인식과정으로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.A scanning process of scanning an input document to generate a binary image, a string extracting process of distinguishing a picture part from a character part from the input image through the scanning process, and separating a character string from the character part; From the individual character extraction process to extract the individual characters from, and the Hangul / Hanja distinction process to distinguish between the Hangul and Hanja from each of the individual characters extracted, and the recognition process to recognize each distinct character How to use mixed text in document recognition device. 제6항의 방법에 있어서, 한글/한자 구별과정을 입력된 문자열의 개별문자에 대하여 개별문자의 플래그(S)를 세팅하는 제1단계(14a)와, 상기 세팅된 개별문자의 플래그(S)를 검색하여 단어(Ws)를 검출하는 제2단계(14b)와, 상기 제2단계(14b)에서 검출된 단어속의 개별문자(i)를 세팅하는 제3단계(14c)와, 상기 단어를 구성하는 두 개별문자(Ni)(Ni+1)에 대하여 한자여부를 검색하는 제4단계(14d)(14e)와, 상기 검색한 결과 어느 개별문자가 한자로 인식되면 다른 개별문자도 한자로 지정하는 제5단계(14f)와, 상기 제5단계(14f)에서 단어를 이루는 개별문자(i)가 마지막 문자(n)인가를 검색하여 마지막 문자가 아닐경우 마지막 문자가 검색될때까지 한자를 검색하는 제6단계 (14g)(14h)와, 상기 제4단계(14d)(14e)에서 검색한 결과 처음 두개의 개별문자가 한자가 아닌 경우에는 단어중에 기호등이 포함되어 있는가를 검색하여 기호가 존재하면 기호로 둘러싸인 문자가 한자인가를 검색하는 제7단계(14i)와, 상기 제6단계(14g) 및 제7단계(14i)에서 한 단어속의 마지막 문자가 검색되면 다음 문자열의 개별문자에 대하여 각 개별문자의 플래그를 하나 증가시키는 제8단계(14i)와, 상기 증가된 개별문자의 플래그(S)를 검색하여 그 검색한 플래그가 문자열을 구성하는 마지막 단어이면 개별문자 절출과정을 완료하고 마지막 단어가 아니면 제2단계(14Y)로 피드백하여 다음 단어를 검색도록 하는 제9단계(14k)로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.According to the method of claim 6, the first step (14a) of setting the flag (S) of the individual characters for the individual characters of the input character string, Hangul / Hanja distinction process, and the set flag (S) of the individual characters A second step 14b of searching and detecting a word Ws, a third step 14c of setting an individual letter i in the word detected in the second step 14b, and the word Fourth step (14d) (14e) of searching for Chinese characters for two individual characters (N i ) (N i + 1 ), and if the individual character is recognized as a Chinese character, the other individual characters are designated as Chinese characters. In step 5 (f) and the fifth step (14f), the individual letters (i) forming a word are searched for the last character (n). If not, the last character is searched until the last character is searched. In the sixth step (14g) (14h) and the fourth step (14d) (14e), if the first two individual characters are not Chinese characters, In the seventh step (14i) of searching for whether a symbol is included in the word and searching for the existence of the character surrounded by the sign if there is a sign, and in the sixth step (14g) and the seventh step (14i), When the last character is searched for, the eighth step 14i of increasing the flag of each individual character for each individual character of the next character string, and searching for the flag S of the increased individual character and the searched flag constitutes the character string. If it is the last word to complete the process of cutting individual characters, and if not the last word is fed to the second step (14Y) and the ninth step (14k) to search for the next word characterized in that it consists of a document recognition device . 제2항에 있어서, 제4단계(14d)(14e)는 입력된 문자에 대해 부패턴의 수를 구하여 부패턴의 수가 소정값이상이면 한자로 판명하는 제10단계(140a)와, 상기 부패턴수에 대한 문자의 외접영역에 대해 상단부와 좌단부의 직선성분을 조사하여 문자의 폭과 유사한 직선이 존재하거나 문자의 높이와 유사한 크기의 수직선이 존재하면 한자로 판정하는 제11단계(140b)와, 상기 판정된 문자의 좌, 우, 하단부의 접촉변화 빈도를 조사하여 변화 빈도가 소정값 이상이면 한자로 판정하는 제12단계(140c)와 상기 판정한 문자의 최소 부패턴의 위치를 조사하여 부패턴의 위치가 좌우상단부 또는 좌우하단부에 존재하는 경우에 한자로 인정하는 제13단계(140d)와, 상기 인정된 문자중앙부에서 수직선의 존재 유무를 조사하여 문자의 높이와 유사한 수직선이 존재하면 한자로 인정하는 제14단계(140e)와, 상기 인정한 문자의 부패턴 위치와 배열 및 크기를 조사하여 이들의 융합 후 그 융합한 패턴의 수가 소정값이 되면 한자로 판정하는 제15단계(140f)와, 상기 판정된 한자의 좌단부에 존재하는 수직부분을 조사하여 문자높이의 일정영역과 비슷한 수직선이 존재하면 한자로 판정하는 제16단계(140g)와, 상기 판정한 한자의 갓머리 성분을 조사하여 갓머리 성분이 존재하면 한자로 판정하는 제17단계(140h)로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.The method as claimed in claim 2, wherein the fourth steps 14d and 14e are performed by obtaining the number of subpatterns for the input characters and determining the number of subpatterns to be kanji if the number of subpatterns is greater than or equal to a predetermined value. An eleventh step 140b of determining a Chinese character if a straight line similar to the width of the letter exists or a vertical line similar to the height of the letter exists by examining the linear components of the upper and left ends of the circumferential area of the letter with respect to the number; Investigating the contact change frequency of the left, right, and bottom portions of the determined characters, and if the change frequency is equal to or greater than a predetermined value, the twelfth step 140c of determining Chinese characters and the position of the minimum subpattern of the determined characters are examined. The 13th step (140d) to recognize the Chinese characters when the position of the present in the left and right upper end or the left and right lower end, and if there is a vertical line similar to the height of the character by examining the presence or absence of a vertical line in the recognized central character Is a fourteenth step (140e), and the fifteenth step (140f) to examine the position, arrangement and size of the recognized character and determine the kanji if the number of the fused pattern after the fusion is a predetermined value; The 16th step (140g) of determining the Chinese character if there is a vertical line similar to a predetermined area of the character height by examining the vertical portion existing in the left end of the determined Chinese character, and by examining the head component of the determined Chinese character And a seventeenth step (140h) of determining the kanji if present. 제2항에 있어서, 제4단계(14d)(14e)의 한자여부 검색은 추출된 개별문자로 부터 검출한 단어의 처음 두개의 문자에 대해 한자인가를 조사하여 두개의 문자 중 어느 하나의 문자라도 한자로 판명되면 다른 한 문자도 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용문자 절출방법.The Chinese character search in the fourth step (14d) (14e) is performed by checking whether the first two characters of the word detected from the extracted individual characters are kanji. Method of extracting mixed characters of document recognizing device, characterized in that if one character is identified as Chinese character, another character is also identified as Chinese character. 제3항에 있어서, 제11단계(140a)의 부패턴의 수는 적어도 5이상으로 함을 특징으로 한 문서인식장치의 혼용 문서 추출방법.The method according to claim 3, wherein the number of subpatterns in the eleventh step (140a) is at least five or more. 제3항에 있어서, 제11단계(140a)의 문자 외접영역에 대해 직선성분 조사는 상단부의 경우 문자의 상단으로부터 문자 높이의 1/4 지점 까지를 조사하고 좌단부의 경우는 좌단으로 부터 문자 폭의 1/3 위치 까지의 영역을 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 3, wherein the linear component irradiation of the character circumference region of the eleventh step (140a) is irradiated from the top of the character to the quarter point of the height of the character at the upper end, and the width of the character from the left end at the left end. A method for extracting mixed characters of a document recognition device, characterized by examining an area up to a third position. 제3항에 있어서, 제12단계(140c)의 문자 좌, 우, 하단부의 접촉변화 빈도값은 8이상으로 한 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.[4] The method of claim 3, wherein the frequency of change of contact of the left, right, and bottom portions of the twelfth step 140c is equal to or greater than eight. 제3항에 있어서, 제14단계(140e)의 문자중앙부의 수직선 존재 유,무는 문자중앙부의 1/3 영역에서 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 3, wherein the presence or absence of the vertical line in the center of the character in the fourteenth step (140e) is irradiated in a third area of the center of the character. 제3항에 있어서, 제15단계(140f)는 조사한 부패턴의 수가 2이면 두개의 부패턴의 높이와 폭을 조사하여 두 부패턴의 높이가 폭보다 크고 둘의 상, 하단의 위치의 차가 4이하이고 두패턴의 거리가 5화소 이하이면 한자로 판명하고, 부패턴의 수가 3이상이면 두 패턴을 하나의 패턴으로 융합하여 최종적인 부패턴의 수가 2가 되면 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 15, wherein in the fifteenth step 140f, if the number of subpatterns irradiated is two, the heights and widths of the two subpatterns are irradiated so that the heights of the two subpatterns are greater than the width and the difference between the positions of the upper and lower portions of the two is four. If the distance between the two patterns is 5 pixels or less, it is determined by Chinese characters.If the number of sub-patterns is 3 or more, the two patterns are merged into one pattern. Mixed Character Extraction Method of Recognition Device. 제3항에 있어서, 제16단계(140g)의 문자 좌단부의 수직성분 조사는 상, 하단의 문자 높이의 2/3 영역을 조사하여 문자 높이의 2/3과 비슷한 수직선이 존재하면 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용 문자 추출방법.The method of claim 3, wherein the vertical component irradiation of the left end of the character of the sixteenth step 140g examines two-thirds of the height of the upper and lower characters, and if there is a vertical line similar to two-thirds of the height of the character, Mixed text extraction method of a document recognition device characterized in that. 제3항에 있어서, 제17단계(140h)의 한자 갓머리 성분 조사는 한자의 상단중앙부의 직선성분 및 그 직선성분의 중앙부를 조사하고 빗침을 검출하여 갓머리 성분을 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 절출방법.[4] The document recognition device according to claim 3, wherein the irradiation of the Kanji head component of the seventeenth step (140h) examines the straight component and the central part of the linear component of the upper part of the Chinese character and detects the comb to detect the head component. How to use mixed characters in Korean. ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.※ Note: The disclosure is based on the initial application.
KR1019920009215A 1992-05-28 1992-05-28 How to Extract Mixed Characters from Document Recognition Device KR930023866A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019920009215A KR930023866A (en) 1992-05-28 1992-05-28 How to Extract Mixed Characters from Document Recognition Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019920009215A KR930023866A (en) 1992-05-28 1992-05-28 How to Extract Mixed Characters from Document Recognition Device

Publications (1)

Publication Number Publication Date
KR930023866A true KR930023866A (en) 1993-12-21

Family

ID=67296569

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019920009215A KR930023866A (en) 1992-05-28 1992-05-28 How to Extract Mixed Characters from Document Recognition Device

Country Status (1)

Country Link
KR (1) KR930023866A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101220709B1 (en) * 2010-02-03 2013-01-10 삼성전자주식회사 Search apparatus and method for document mixing hangeul and chinese characters using electronic dictionary

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101220709B1 (en) * 2010-02-03 2013-01-10 삼성전자주식회사 Search apparatus and method for document mixing hangeul and chinese characters using electronic dictionary

Similar Documents

Publication Publication Date Title
Zahour et al. Arabic hand-written text-line extraction
Taylor et al. Extraction of data from preprinted forms
US4998285A (en) Character recognition apparatus
US5579408A (en) Character recognition method and apparatus
Mitchell et al. Newspaper document analysis featuring connected line segmentation
Kavianifar et al. Preprocessing and structural feature extraction for a multi-fonts Arabic/Persian OCR
US4769849A (en) Method and apparatus for separating overlapping patterns
KR930023866A (en) How to Extract Mixed Characters from Document Recognition Device
US5119441A (en) Optical character recognition apparatus and method using masks operation
Spitz Generalized line, word and character finding
Lehal et al. A technique for segmentation of Gurmukhi text
Ymin et al. On the segmentation of multi-font printed Uygur scripts
JP2917427B2 (en) Drawing reader
Lehal et al. A complete OCR system for Gurmukhi script
JPH06180771A (en) English letter recognizing device
Lam et al. Differentiating between oriental and European scripts by statistical features
Moalla et al. Extraction of arabic words from multilingual documents
Eglin et al. Visual exploration and functional document labeling
KR100473660B1 (en) Word recognition method
JPH07160810A (en) Character recognizing device
KR100317653B1 (en) An feature extraction method on recognition of large-set printed characters
Adams et al. Feature extraction methods for form recognition applications.
Wang et al. Document segmentation and classification with top-down approach
KR100248384B1 (en) Individual character extraction method in multilingual document recognition and its recognition system
Hontani et al. Character detection based on multi-scale measurement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application