Claims (11)
입력 문서를 스캔하여 2치 화상을 발생하는 스캔과정과, 상기 스캔과정을 통한 입력영상으로 부터 그림부분과 문자부분을 구별하고 문자부분에 대해 문자열을 분리하는 문자열 추출과정과, 상기 분리된 문자열로 부터 개별문자를 절출하는 개별문자 절출과정과, 상기 절출 된 각 개별문자로 부터 한글과 한자를 구별하는 한글/한자 구별과정과, 상기 구별된 각 문자를 인식하는 인식과정으로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.A scanning process of scanning an input document to generate a binary image, a string extracting process of distinguishing a picture part from a character part from the input image through the scanning process, and separating a character string from the character part; From the individual character extraction process to extract the individual characters from, and the Hangul / Hanja distinction process to distinguish between the Hangul and Hanja from each of the individual characters extracted, and the recognition process to recognize each distinct character How to use mixed text in document recognition device.
제6항의 방법에 있어서, 한글/한자 구별과정을 입력된 문자열의 개별문자에 대하여 개별문자의 플래그(S)를 세팅하는 제1단계(14a)와, 상기 세팅된 개별문자의 플래그(S)를 검색하여 단어(Ws)를 검출하는 제2단계(14b)와, 상기 제2단계(14b)에서 검출된 단어속의 개별문자(i)를 세팅하는 제3단계(14c)와, 상기 단어를 구성하는 두 개별문자(Ni)(Ni+1)에 대하여 한자여부를 검색하는 제4단계(14d)(14e)와, 상기 검색한 결과 어느 개별문자가 한자로 인식되면 다른 개별문자도 한자로 지정하는 제5단계(14f)와, 상기 제5단계(14f)에서 단어를 이루는 개별문자(i)가 마지막 문자(n)인가를 검색하여 마지막 문자가 아닐경우 마지막 문자가 검색될때까지 한자를 검색하는 제6단계 (14g)(14h)와, 상기 제4단계(14d)(14e)에서 검색한 결과 처음 두개의 개별문자가 한자가 아닌 경우에는 단어중에 기호등이 포함되어 있는가를 검색하여 기호가 존재하면 기호로 둘러싸인 문자가 한자인가를 검색하는 제7단계(14i)와, 상기 제6단계(14g) 및 제7단계(14i)에서 한 단어속의 마지막 문자가 검색되면 다음 문자열의 개별문자에 대하여 각 개별문자의 플래그를 하나 증가시키는 제8단계(14i)와, 상기 증가된 개별문자의 플래그(S)를 검색하여 그 검색한 플래그가 문자열을 구성하는 마지막 단어이면 개별문자 절출과정을 완료하고 마지막 단어가 아니면 제2단계(14Y)로 피드백하여 다음 단어를 검색도록 하는 제9단계(14k)로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.According to the method of claim 6, the first step (14a) of setting the flag (S) of the individual characters for the individual characters of the input character string, Hangul / Hanja distinction process, and the set flag (S) of the individual characters A second step 14b of searching and detecting a word Ws, a third step 14c of setting an individual letter i in the word detected in the second step 14b, and the word Fourth step (14d) (14e) of searching for Chinese characters for two individual characters (N i ) (N i + 1 ), and if the individual character is recognized as a Chinese character, the other individual characters are designated as Chinese characters. In step 5 (f) and the fifth step (14f), the individual letters (i) forming a word are searched for the last character (n). If not, the last character is searched until the last character is searched. In the sixth step (14g) (14h) and the fourth step (14d) (14e), if the first two individual characters are not Chinese characters, In the seventh step (14i) of searching for whether a symbol is included in the word and searching for the existence of the character surrounded by the sign if there is a sign, and in the sixth step (14g) and the seventh step (14i), When the last character is searched for, the eighth step 14i of increasing the flag of each individual character for each individual character of the next character string, and searching for the flag S of the increased individual character and the searched flag constitutes the character string. If it is the last word to complete the process of cutting individual characters, and if not the last word is fed to the second step (14Y) and the ninth step (14k) to search for the next word characterized in that it consists of a document recognition device .
제2항에 있어서, 제4단계(14d)(14e)는 입력된 문자에 대해 부패턴의 수를 구하여 부패턴의 수가 소정값이상이면 한자로 판명하는 제10단계(140a)와, 상기 부패턴수에 대한 문자의 외접영역에 대해 상단부와 좌단부의 직선성분을 조사하여 문자의 폭과 유사한 직선이 존재하거나 문자의 높이와 유사한 크기의 수직선이 존재하면 한자로 판정하는 제11단계(140b)와, 상기 판정된 문자의 좌, 우, 하단부의 접촉변화 빈도를 조사하여 변화 빈도가 소정값 이상이면 한자로 판정하는 제12단계(140c)와 상기 판정한 문자의 최소 부패턴의 위치를 조사하여 부패턴의 위치가 좌우상단부 또는 좌우하단부에 존재하는 경우에 한자로 인정하는 제13단계(140d)와, 상기 인정된 문자중앙부에서 수직선의 존재 유무를 조사하여 문자의 높이와 유사한 수직선이 존재하면 한자로 인정하는 제14단계(140e)와, 상기 인정한 문자의 부패턴 위치와 배열 및 크기를 조사하여 이들의 융합 후 그 융합한 패턴의 수가 소정값이 되면 한자로 판정하는 제15단계(140f)와, 상기 판정된 한자의 좌단부에 존재하는 수직부분을 조사하여 문자높이의 일정영역과 비슷한 수직선이 존재하면 한자로 판정하는 제16단계(140g)와, 상기 판정한 한자의 갓머리 성분을 조사하여 갓머리 성분이 존재하면 한자로 판정하는 제17단계(140h)로 이루어짐을 특징으로 한 문서인식장치의 혼용문자 절출방법.The method as claimed in claim 2, wherein the fourth steps 14d and 14e are performed by obtaining the number of subpatterns for the input characters and determining the number of subpatterns to be kanji if the number of subpatterns is greater than or equal to a predetermined value. An eleventh step 140b of determining a Chinese character if a straight line similar to the width of the letter exists or a vertical line similar to the height of the letter exists by examining the linear components of the upper and left ends of the circumferential area of the letter with respect to the number; Investigating the contact change frequency of the left, right, and bottom portions of the determined characters, and if the change frequency is equal to or greater than a predetermined value, the twelfth step 140c of determining Chinese characters and the position of the minimum subpattern of the determined characters are examined. The 13th step (140d) to recognize the Chinese characters when the position of the present in the left and right upper end or the left and right lower end, and if there is a vertical line similar to the height of the character by examining the presence or absence of a vertical line in the recognized central character Is a fourteenth step (140e), and the fifteenth step (140f) to examine the position, arrangement and size of the recognized character and determine the kanji if the number of the fused pattern after the fusion is a predetermined value; The 16th step (140g) of determining the Chinese character if there is a vertical line similar to a predetermined area of the character height by examining the vertical portion existing in the left end of the determined Chinese character, and by examining the head component of the determined Chinese character And a seventeenth step (140h) of determining the kanji if present.
제2항에 있어서, 제4단계(14d)(14e)의 한자여부 검색은 추출된 개별문자로 부터 검출한 단어의 처음 두개의 문자에 대해 한자인가를 조사하여 두개의 문자 중 어느 하나의 문자라도 한자로 판명되면 다른 한 문자도 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용문자 절출방법.The Chinese character search in the fourth step (14d) (14e) is performed by checking whether the first two characters of the word detected from the extracted individual characters are kanji. Method of extracting mixed characters of document recognizing device, characterized in that if one character is identified as Chinese character, another character is also identified as Chinese character.
제3항에 있어서, 제11단계(140a)의 부패턴의 수는 적어도 5이상으로 함을 특징으로 한 문서인식장치의 혼용 문서 추출방법.The method according to claim 3, wherein the number of subpatterns in the eleventh step (140a) is at least five or more.
제3항에 있어서, 제11단계(140a)의 문자 외접영역에 대해 직선성분 조사는 상단부의 경우 문자의 상단으로부터 문자 높이의 1/4 지점 까지를 조사하고 좌단부의 경우는 좌단으로 부터 문자 폭의 1/3 위치 까지의 영역을 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 3, wherein the linear component irradiation of the character circumference region of the eleventh step (140a) is irradiated from the top of the character to the quarter point of the height of the character at the upper end, and the width of the character from the left end at the left end. A method for extracting mixed characters of a document recognition device, characterized by examining an area up to a third position.
제3항에 있어서, 제12단계(140c)의 문자 좌, 우, 하단부의 접촉변화 빈도값은 8이상으로 한 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.[4] The method of claim 3, wherein the frequency of change of contact of the left, right, and bottom portions of the twelfth step 140c is equal to or greater than eight.
제3항에 있어서, 제14단계(140e)의 문자중앙부의 수직선 존재 유,무는 문자중앙부의 1/3 영역에서 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 3, wherein the presence or absence of the vertical line in the center of the character in the fourteenth step (140e) is irradiated in a third area of the center of the character.
제3항에 있어서, 제15단계(140f)는 조사한 부패턴의 수가 2이면 두개의 부패턴의 높이와 폭을 조사하여 두 부패턴의 높이가 폭보다 크고 둘의 상, 하단의 위치의 차가 4이하이고 두패턴의 거리가 5화소 이하이면 한자로 판명하고, 부패턴의 수가 3이상이면 두 패턴을 하나의 패턴으로 융합하여 최종적인 부패턴의 수가 2가 되면 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용문자 추출방법.The method of claim 15, wherein in the fifteenth step 140f, if the number of subpatterns irradiated is two, the heights and widths of the two subpatterns are irradiated so that the heights of the two subpatterns are greater than the width and the difference between the positions of the upper and lower portions of the two is four. If the distance between the two patterns is 5 pixels or less, it is determined by Chinese characters.If the number of sub-patterns is 3 or more, the two patterns are merged into one pattern. Mixed Character Extraction Method of Recognition Device.
제3항에 있어서, 제16단계(140g)의 문자 좌단부의 수직성분 조사는 상, 하단의 문자 높이의 2/3 영역을 조사하여 문자 높이의 2/3과 비슷한 수직선이 존재하면 한자로 판명하는 것을 특징으로 한 문서인식장치의 혼용 문자 추출방법.The method of claim 3, wherein the vertical component irradiation of the left end of the character of the sixteenth step 140g examines two-thirds of the height of the upper and lower characters, and if there is a vertical line similar to two-thirds of the height of the character, Mixed text extraction method of a document recognition device characterized in that.
제3항에 있어서, 제17단계(140h)의 한자 갓머리 성분 조사는 한자의 상단중앙부의 직선성분 및 그 직선성분의 중앙부를 조사하고 빗침을 검출하여 갓머리 성분을 조사하는 것을 특징으로 한 문서인식장치의 혼용문자 절출방법.[4] The document recognition device according to claim 3, wherein the irradiation of the Kanji head component of the seventeenth step (140h) examines the straight component and the central part of the linear component of the upper part of the Chinese character and detects the comb to detect the head component. How to use mixed characters in Korean.
※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.※ Note: The disclosure is based on the initial application.