JP2002082969A - Automatically indexing robot system and processing method using the system - Google Patents

Automatically indexing robot system and processing method using the system

Info

Publication number
JP2002082969A
JP2002082969A JP2001206836A JP2001206836A JP2002082969A JP 2002082969 A JP2002082969 A JP 2002082969A JP 2001206836 A JP2001206836 A JP 2001206836A JP 2001206836 A JP2001206836 A JP 2001206836A JP 2002082969 A JP2002082969 A JP 2002082969A
Authority
JP
Japan
Prior art keywords
server
index
image
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001206836A
Other languages
Japanese (ja)
Inventor
Mohyuku Nin
茂▲ヒュク▼ 任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enjieru Kk
Original Assignee
Enjieru Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enjieru Kk filed Critical Enjieru Kk
Publication of JP2002082969A publication Critical patent/JP2002082969A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an automatically indexing robot system capable of automatically indexing a text type material such as a text or word processor data, an image and a representative screen of video, and each material obtained by developing graphic data with an image and to provide a processing method using this system. SOLUTION: This automatically indexing robot system is constituted of a server 10 for storing information such as an XML document, a WPS material, image scan, a moving video material, and photograph picking-up and an index word or an image index and a robot PC 20 for retrieving the information stored in the server 10 by using an index word retrieving machine or a character recognizing machine or for extracting vector image data. Then, processing using this automatic indexing robot system is performed by successively executing a first process 100 for automatically indexing a character resource type with the material stored in the server 10, a second process 20 for automatically indexing the scanned origin image with the material stored in the server 10, and a third process 300 for automatically indexing the photographic image with the material stored in the server 10.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、インターネット上
でウェブサイトを検索する際、検索エンジンによる文書
の検索が容易に行われる構造に形成される索引(Inde
x)に係るもので、詳しくは、テキストやワードプロセ
ッサーデータなどのテキスト型資料、イメージやビデオ
の代表画面及びグラフィックデータをイメージで展開し
た資料を自動に索引化し得る、自動索引ロボットシステ
ム及びそれを利用した処理方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an index (Indeed) formed in a structure that allows a search engine to easily search for a document when searching for a website on the Internet.
More specifically, the present invention relates to an automatic indexing robot system capable of automatically indexing text-type materials such as texts and word processor data, representative screens of images and videos, and materials obtained by developing graphic data into images. It is related to the processing method performed.

【0002】[0002]

【従来の技術】従来は、情報検索というと、図書館で情
報を整理して使用するか、または、専門家集団が作った
索引集を検索する作業としか受入れられなかった。この
時代は、重要な情報は、大体が文書に作成されているた
め、構築された情報を利用するためには文書担当者に依
頼する方法が主に使用されていた。
2. Description of the Related Art Conventionally, information retrieval has only been accepted as the task of organizing and using information in a library or searching for an index collection created by a group of experts. In this era, important information was mostly created in documents, and the method of asking a document person was mainly used to utilize the constructed information.

【0003】ところが、コンピュータの性能が向上さ
れ、コンピュータの使用が一般化されるに連れて、情報
の内容が文書からコンピュータに移され、探索も、専門
家の代わりにコンピュータが行うようになってきた。
However, as the performance of computers has been improved and the use of computers has been generalized, the content of information has been transferred from documents to computers, and searches have been performed by computers instead of experts. Was.

【0004】特に、検索用コンピュータの登場は、情報
化革命に主導的な役割を果たし、情報量が幾何級数的に
増加しても、過去よりもいっそう迅速且つ正確に情報を
探索することが可能になっている。即ち、以前はアクセ
スすることさえ出来なかった多様且つ膨大な量の情報を
容易に接することが出来る。
In particular, the advent of search computers has played a leading role in the information revolution, and even if the amount of information has increased exponentially, information can be searched more quickly and accurately than in the past. It has become. That is, various and enormous amounts of information that could not be accessed before can be easily accessed.

【0005】従って、情報検索システムの性能は正確性
及び迅速性に依存し、特に、検索の正確性を高めるため
には、検索語として索引語の役割が非常に重要である。
[0005] Therefore, the performance of an information retrieval system depends on accuracy and speed. In particular, the role of an index word as a search word is very important to improve the accuracy of retrieval.

【0006】韓国語索引は、韓国語文書に使用された文
字を対象とするもので、主な文字はハングルであるが、
その他にも、英文字、漢字、数字及びその他の記号文字
が用いられるため、外国語文字に対しても索引語作業を
行った方が良く、そのためには、形態素分析段階で文字
状態を区分して形態素分析を行い、自動索引システムを
介して索引語を抽出すべきである。
[0006] The Korean index targets characters used in Korean documents, and the main character is Hangul.
In addition, since English characters, Chinese characters, numbers, and other symbolic characters are used, it is better to perform indexing work on foreign language characters. Morphological analysis and extract index words through an automatic indexing system.

【0007】また、索引語の抽出過程では、不規則活用
する用言については、原型を復元して基本形に変換し、
抽出された索引語は登録段階で不要語検査及び複合名詞
拡張処理を行うべきであった。
Also, in the process of extracting index words, for words that are used irregularly, the original form is restored and converted to the basic form.
The extracted index words should be subjected to unnecessary word inspection and compound noun expansion processing at the registration stage.

【0008】一方、情報検索とは、簡単に言うと、使用
者が所望する情報を探索して提供する過程で、このよう
な検索の正確性を高めるために多様な技法が使用されて
いた。特に、定型化されてない多量の情報に適合した逆
ファイル技法が広用され、該逆ファイル技法は、基本的
に索引語に依存するため、索引語を求める方法こそが全
体の検索性能を左右する。
[0008] On the other hand, in the information search, in short, various techniques have been used to improve the accuracy of such search in a process of searching for and providing desired information by a user. In particular, the inverse file technique adapted to a large amount of information that is not standardized is widely used, and the inverse file technique basically depends on the index term. I do.

【0009】ここで、前記索引語の生成方法としては、
手作業による手動索引と、形態素分析原理による自動索
引方法と、に区分され、前記自動索引方法は、コンピュ
ータを利用して形態素を分析し、その結果を利用して索
引語を抽出する。たとえば、韓国語自動索引システムの
場合は、韓国語に基づいて製作された文書から索引語を
抽出するもので、まず、形態素分析システムを利用して
形態素を分析した後、その結果から索引語として相応し
くない不要語を除去して最終的に索引語を抽出する。
Here, the method of generating the index word is as follows.
The method is divided into a manual index manually and an automatic indexing method based on the morphological analysis principle. The automatic indexing method analyzes a morpheme using a computer and extracts an index word using the result. For example, in the case of a Korean automatic indexing system, an index word is extracted from a document produced based on Korean. First, a morpheme is analyzed using a morphological analysis system, and the result is used as an index word. Unnecessary unnecessary words are removed and an index word is finally extracted.

【0010】ここで、韓国語は、ハングルを始めとし、
英文字、数字、漢字、日本語文字、ギリシャ文字、ロシ
ア文字及びその他の記号文字などが包含され、特に、韓
国語の場合は、言語分類の観点上、膠着語としての特性
を有するため、単語を直ちに索引語として用いることが
困難であり、別途の処理過程を行うべきである。即ち、
形態素分析過程を行って韓国語の特性に適合した形態素
を分析することが自動索引においてもっとも重要な役割
をする。
[0010] Here, Korean includes Hangul,
It includes English characters, numbers, kanji, Japanese characters, Greek characters, Russian characters and other symbolic characters, and especially in the case of Korean, from the viewpoint of language classification, it has characteristics as a sticky word, so words Is difficult to use immediately as an index term, and a separate processing step should be performed. That is,
Performing a morphological analysis process to analyze morphemes adapted to Korean characteristics plays the most important role in automatic indexing.

【0011】韓国語形態素の分析においては、ハングル
文字を始めとし、英文字、日本語文字及びロシア文字な
どについても分析を行うことが可能で、漢字についても
部分的には分析することが出来る。
In the analysis of Korean morphemes, it is possible to analyze not only Hangul characters, but also English characters, Japanese characters, Russian characters, etc., and it is also possible to partially analyze Chinese characters.

【0012】ここで、索引とは、情報を検索するときに
役に立つもので、特定の原則や目的によって整理された
ものを意味する。即ち、検索者と情報とを繋ぐ連結媒体
とも言える。従って、索引は、基本的に、選別機能(他
のものとの区別)及び指示機能(元の情報を指す)を有
する。
Here, the index is useful when searching for information, and means an index arranged according to a specific principle or purpose. That is, it can be said that it is a connection medium that connects the searcher and the information. Thus, the index basically has a sorting function (distinguishing from others) and a pointing function (pointing to the original information).

【0013】索引は、多様な種類があるが、大別する
と、主題索引と非主題索引とに分類される。前記主題索
引は、情報ソースから主題を表す要素を索引として選定
するもので、前記非主題索引は、主題とは関係のない要
素を索引として選定するものである。
There are various types of indexes, but they are roughly classified into a subject index and a non-subject index. The subject index selects an element representing a subject from an information source as an index, and the non-subject index selects an element unrelated to the subject as an index.

【0014】詳しく説明すると、先ず、前記非主題索引
の場合は、主題とは関係ない日付、人名及び題目などの
単なる資料を集めたものであるため、索引作業に別に難
しい事はなく、従って、コンピュータを利用したデータ
ベースを活用して索引情報を蓄積することが容易で、検
索も非常に容易である。
More specifically, first, in the case of the non-subject index, since it is a mere collection of data such as dates, names and titles which are not related to the subject, there is no particular difficulty in the indexing operation. It is easy to accumulate index information using a database using a computer, and search is very easy.

【0015】それに比べ、前記主題索引の場合は、情報
ソースから主題になりそうな要素を探し出すべきである
ため、作業が知能的で時間がかかる。そのため、専門教
育を受けた人、若しくは該当分野に対する専門知識を有
する人が作業を行うべきであるが、近頃のように膨大な
量の文献資料が作り出されている状況下では事実上不可
能である。
On the other hand, in the case of the subject index, an element which is likely to be a subject should be searched for from an information source, so that the work is intelligent and time-consuming. For this reason, people who have received specialized education or have specialized knowledge in the relevant field should perform the work, but it is virtually impossible in the recent situation where a huge amount of literature is being produced. is there.

【0016】そこで、人による主題索引作業ではなく、
コンピュータを利用して本文にある単語を主題語として
選定し、検索キーワードとして使用する本文検索システ
ムが注目されている。
Therefore, instead of subject indexing by humans,
2. Description of the Related Art A text search system that uses a computer to select a word in a text as a subject word and uses it as a search keyword has attracted attention.

【0017】従って、検索エンジンを構成する要素中、
索引機(Indexer)は、検索システムにおいてもっとも
核心的部分であると言える。なぜならば、形態素分析に
より抽出された名詞リスト及びメタ情報を如何なるファ
イル構造に格納するかによって、索引ファイルの作成速
度、索引ファイルの大きさ及び検索速度が左右されるか
らである。そのため、索引機の構造は一般的に公開され
ない部分でもある。
Therefore, among the elements constituting the search engine,
The indexer is the most important part of the search system. This is because the index file creation speed, the index file size, and the search speed depend on the file structure in which the noun list and the meta information extracted by the morphological analysis are stored. Therefore, the structure of the indexer is also a part that is not generally disclosed.

【0018】一般に、索引ファイルの構造は“逆ファイ
ル(Inverted File)技法”を利用するが、特に、Bツ
リーを利用した逆ファイルを利用する製品が多く、文書
間のランキング別及び時間別情報は両方向にリンクされ
たリストに構成される。その他にも、このようなファイ
ル構造の変形を利用した多様な索引ファイル構造が存在
する。
In general, the structure of an index file uses an "inverted file technique". In particular, many products use an inverted file using a B-tree. It is organized into a list linked in both directions. In addition, there are various index file structures using such a modification of the file structure.

【0019】[0019]

【発明が解決しようとする課題】然るに、このような従
来の索引方式においては、スキャニングを行った後、文
字認識が可能なPCへ一々伝送するか、イメージパターン
分析専用のワークステーションを利用した主題の抽出及
び再入手を行うべきであるため、時間がかかるという不
都合な点があった。
However, in such a conventional indexing method, after performing scanning, it is transmitted to a PC capable of character recognition one by one, or a subject using a workstation dedicated to image pattern analysis. Extraction and reacquisition must be performed, which is disadvantageous in that it takes time.

【0020】本発明は、このような従来の問題点に鑑み
て行われたもので、テキストやワードプロセッサーデー
タなどのテキスト型資料、イメージやビデオの代表画
面、及びグラフィックデータをイメージで展開した各資
料を自動的に索引化し得る、自動索引ロボットシステム
及びそれを利用した処理方法を提供することを目的とす
る。
The present invention has been made in view of such conventional problems, and has been developed in consideration of text-type materials such as text and word processor data, representative screens of images and videos, and various materials obtained by developing graphic data into images. It is an object of the present invention to provide an automatic indexing robot system capable of automatically indexing a robot and a processing method using the same.

【0021】[0021]

【課題を解決するための手段】前記目的を達成するた
め、本発明に係る自動索引ロボットシステムにおいて
は、XML文書、WPS資料、イメージスキャン、動映像資
料、写真撮影などの情報及び、索引語あるいはイメージ
索引を格納するサーバーと、前記サーバーに格納された
情報を、索引語検索や文字認識機を利用して検索する
か、または、ベクトルイメージデータを抽出するロボッ
トPCと、を備えて構成されることを特徴とすることを特
徴とする。
In order to achieve the above object, in an automatic indexing robot system according to the present invention, information such as an XML document, a WPS material, an image scan, a moving image material, and a photograph, and an index word or A server that stores an image index, and a robot PC that searches information stored in the server using an index word search or a character recognizer or extracts vector image data. It is characterized by the following.

【0022】そして、前記目的を達成するため、本発明
に係る自動索引ロボットシステムを利用した処理方法に
おいては、サーバーに格納された資料によって文字資料
型を自動に索引にする第1過程と、サーバーに格納され
た資料によってスキャニングした原文イメージを自動に
索引にする第2過程と、サーバーに格納された資料によ
って写真イメージを自動に索引にする第3過程と、を順
次行うことを特徴とする。
In order to achieve the above object, in the processing method using the automatic indexing robot system according to the present invention, a first step of automatically indexing a character data type based on the data stored in the server; And a third step of automatically indexing the original image scanned by the material stored in the server and a third step of automatically indexing the photographic image by the material stored in the server.

【0023】且つ、前記第1過程は、サーバーから文字
資料型データを伝送される第1段階と、前記第1段階で伝
送された文字資料型データから索引語文字列を抽出する
第2段階と、前記第2段階で文字列として抽出された索引
語を前記サーバーに伝送する第3段階と、を順次行うこ
とを特徴とする。
The first step includes a first step of transmitting character data type data from the server, and a second step of extracting an index term character string from the character data type data transmitted in the first step. And transmitting the index words extracted as character strings in the second step to the server in a third step.

【0024】また、前記第2過程は、サーバーからスキ
ャニングした原文イメージ資料の伝送を受ける第1段階
と、前記第1段階で伝送されたイメージ資料から文字列
を抽出するために文字認識機を稼動する第2段階と、前
記第2段階で稼動された文字認識機により索引語文字列
を抽出する第3段階と、前記第3段階で抽出された索引語
若しくは文字列を前記サーバーに伝送する第4段階と、
前記第4段階で抽出された文字列が伝送された場合、該
文字列から索引語を抽出する第5段階と、前記第5段階で
抽出された索引語を格納する第6段階と、前記第6段階で
格納された索引語の文字列を利用してテキスト(Text)を
補正する第7段階と、を順次行うことを特徴とする。
In the second step, a first step of receiving the transmitted original image data from the server is performed, and a character recognizer is operated to extract a character string from the image data transmitted in the first step. A second step of extracting an index word character string by the character recognizer operated in the second step, and a second step of transmitting the index word or character string extracted in the third step to the server. 4 steps,
When the character string extracted in the fourth step is transmitted, a fifth step of extracting an index word from the character string, a sixth step of storing the index word extracted in the fifth step, And a seventh step of correcting the text using the character string of the index word stored in the six steps.

【0025】更に、前記第3過程は、サーバーから写真
イメージを伝送される第1段階と、前記第1段階で伝送さ
れた写真イメージ資料から形態、色相、質感、明度及び
彩度により索引を抽出する第2段階と、前記第2段階で抽
出された写真イメージの索引を前記サーバーに伝送する
第3段階と、を順次行うことを特徴とする。
In the third step, a photographic image is transmitted from a server in a first step, and an index is extracted from the photographic image material transmitted in the first step according to form, hue, texture, brightness and saturation. And a third step of transmitting the index of the photographic image extracted in the second step to the server.

【0026】[0026]

【発明の実施の形態】以下、本発明の実施の形態に対
し、図面を用いて説明する。本発明に係る自動索引ロボ
ットシステムにおいては、図1に示したように、XML文
書、WPS資料、イメージスキャン、動映像資料、写真撮
影などの情報及び索引語やイメージ索引を格納するサー
バー10と、該サーバー10に格納された情報を索引語検
索、または、文字認識器を利用して検索するか、ベクト
ルイメージデータを抽出するロボットPC20と、により構
成されている。
Embodiments of the present invention will be described below with reference to the drawings. In the automatic indexing robot system according to the present invention, as shown in FIG. 1, a server 10 that stores information such as XML documents, WPS materials, image scans, moving image materials, photographing, index words and image indexes, A robot PC 20 that searches information stored in the server 10 using an index word search or a character recognizer, or extracts vector image data.

【0027】このように構成された本発明に係る自動索
引ロボットシステムにおいて、前記サーバー1Oは、前記
ロボットPC20と相互通信する機能と、前記ロボットPC20
から索引を伝送されて体系的に索引語若しくはイメージ
索引を格納する機能と、を備えるべきである。
In the thus configured automatic indexing robot system according to the present invention, the server 10 has a function of communicating with the robot PC 20 and a function of communicating with the robot PC 20.
And a function of systematically storing an index word or an image index by transmitting an index from the system.

【0028】一方、前記ロボットPC2Oは、テキスト型資
料の場合は、ハードウェア(Hardware)的あるいはソフト
ウェア (Software)的な索引語検索機能を備えるべき
で、原文イメージ資料の場合は、文字認識ボード(Boar
d)あるいは文字認識ソフトウェアを備えるべきで、写真
型イメージの場合は、ベクトルデータ抽出機能を備える
べきである。
On the other hand, the robot PC2O should have a hardware-based or software-based index term search function in the case of a text material, and a character recognition board (in the case of an original image material). Boar
d) Or character recognition software should be provided, and for photographic images, vector data extraction function should be provided.

【0029】そして、このような機能を備えた前記サー
バー1O及びロボットPC2Oを使用する本発明に係る自動索
引ロボットシステムを利用した処理方法ついて説明する
と、以下のようである。先ず、使用者が索引しようとす
る情報が文書である場合、前記サーバー10からテキスト
データが伝送されると、前記ロボットPC20は、まず、形
態素分析システムを利用して形態素を分析した後、分析
結果から索引語として適合でない不要語をフィルターリ
ングして最終的に索引語を抽出する。
A processing method using the automatic indexing robot system according to the present invention using the server 10 having the above functions and the robot PC 2O will be described below. First, if the information to be indexed by the user is a document, when text data is transmitted from the server 10, the robot PC 20 first analyzes a morpheme using a morphological analysis system, and then analyzes the morpheme. Then, unnecessary words that are not suitable as an index word are filtered from to finally extract an index word.

【0030】ここで、前記不要語(Stop word)とは、分
析された索引語中、索引語として処理する必要のない不
必要な単語を意味する。
Here, the unnecessary word (Stop word) means an unnecessary word that does not need to be processed as an index word among the analyzed index words.

【0031】次いで、前記抽出された索引語を前記サー
バー10に伝送して格納する。一方、使用者が索引しよう
とする情報がスキャニングした原文イメージである場
合、前記サーバー10からスキャニングしたイメージ資料
が伝送されると、前記ロボットPC20は、文字認識機(未
図示)を稼動させて文字を認識して文字列を抽出した
後、形態素分析システムを利用して形態素を分析し、そ
の分析結果から索引語として適合でない不要語をフィル
ターリングして最終的に索引語を抽出する。次いで、こ
のように抽出した索引語若しくは文字列を前記サーバー
10に伝送し、該サーバー10は、前記ロボットPC20により
抽出された文字列が伝送されると、該伝送された文字列
から索引語を抽出して格納させ、前記文字列を利用して
テキストを補正する。
Next, the extracted index words are transmitted to the server 10 and stored. On the other hand, if the information to be indexed by the user is a scanned original image, and the scanned image data is transmitted from the server 10, the robot PC 20 operates a character recognition device (not shown) to transmit the text. After extracting a character string by recognizing, a morpheme is analyzed using a morphological analysis system, and unnecessary words that are not suitable as an index word are filtered from the analysis result to finally extract an index word. Next, the index word or character string extracted in this way is
When the character string extracted by the robot PC 20 is transmitted, the server 10 extracts an index word from the transmitted character string, stores the index word, and uses the character string to convert a text. to correct.

【0032】一方、使用者が索引しようとする情報が写
真イメージである場合、前記サーバー10から写真イメー
ジが伝送されると、前記ロボットPC20は、写真イメージ
のベクトル (Vector)を抽出して形態、色相、質感、明
度及び彩度により索引を抽出する。
On the other hand, if the information to be indexed by the user is a photographic image, when the photographic image is transmitted from the server 10, the robot PC 20 extracts a vector of the photographic image, and An index is extracted based on hue, texture, brightness, and saturation.

【0033】次いで、このように抽出された写真イメー
ジの索引を前記サーバー10に伝送して格納させる。この
ように動作する本発明に係る自動索引ロボットシステム
を利用した処理方法を簡単に説明すると、以下のようで
ある。即ち、サーバーに格納された資料によって文字資
料型を自動に索引にする第1過程100と、サーバーに格納
された資料によってスキャニングした原文イメージを自
動に索引にする第2過程200と、サーバーに格納された資
料によって写真イメージを自動に索引にする第3過程300
と、を順次行う。
Next, the index of the photographic image thus extracted is transmitted to the server 10 and stored therein. The processing method using the automatic indexing robot system according to the present invention that operates as described above will be briefly described as follows. That is, a first process 100 for automatically indexing the text material type according to the material stored in the server, a second process 200 for automatically indexing the original image scanned by the material stored in the server, and storing the data in the server. 3rd step 300 for automatically indexing photographic images with selected material
Are sequentially performed.

【0034】そして、前記第1過程1OOにおいては、図2
に示したように、サーバーから文字資料型データを伝送
される第1段階101と、前記第1段階101で伝送された文字
資料型データから索引語文字列を抽出する第2段階102
と、前記第2段階102で文字列で抽出された索引語を前記
サーバーに伝送する第3段階103と、を順次行うようにな
っている。
Then, in the first step 100, FIG.
As shown in (1), a first step 101 in which the character data type data is transmitted from the server, and a second step 102 in which an index term character string is extracted from the character material type data transmitted in the first step 101
And a third step 103 of transmitting the index term extracted as a character string in the second step 102 to the server.

【0035】且つ、前記第2過程200においては、図3に
示したように、スキャニングした原文イメージ資料をサ
ーバーから伝送される第1段階201と、前記第1段階201で
伝送されたイメージ資料から文字列を抽出するために文
字認識機を稼動する第2段階202と、前記第2段階202で稼
動された文字認識機により索引語文字列を抽出する第3
段階203と、前記第3段階203で抽出された索引語若しく
は文字列を前記サーバーに伝送する第4段階204と、前記
第4段階204で抽出された文字列が伝送された場合、伝送
された文字列から索引語を抽出する第5段階205と、前記
第5段階205で抽出された索引語を格納する第6段階206
と、前記第6段階206で格納された索引語の文字列を利用
してテキスト(Text)を補正する第7段階207と、を順次行
うように構成されている。
In the second step 200, as shown in FIG. 3, a scanned original image data is transmitted from a server in a first step 201, and the scanned image data is transmitted from the image data transmitted in the first step 201. A second step 202 of operating a character recognizer to extract a character string; and a third step of extracting an index term character string by the character recognizer operated in the second step 202.
Step 203, a fourth step 204 of transmitting the index word or the character string extracted in the third step 203 to the server, and if the character string extracted in the fourth step 204 is transmitted, the transmitted A fifth step 205 for extracting an index term from the character string, and a sixth step 206 for storing the index term extracted in the fifth step 205
And a seventh step 207 of correcting a text using the character string of the index word stored in the sixth step 206 are sequentially performed.

【0036】また、前記第3過程300においては、図4に
示したように、サーバーから写真イメージを伝送される
第1段階301と、前記第1段階301で伝送された写真イメー
ジ資料から形態、色相、質感、明度及び彩度により索引
を抽出する第2段階302と、前記第2段階302で抽出された
写真イメージの索引を前記サーバーに伝送する第3段階3
03と、を順次行うように構成されている。
Also, in the third step 300, as shown in FIG. 4, a first step 301 in which a photographic image is transmitted from the server, and a form, based on the photographic image material transmitted in the first step 301, A second step 302 of extracting an index based on hue, texture, brightness and saturation, and a third step 3 of transmitting an index of the photographic image extracted in the second step 302 to the server
03, and so on.

【0037】[0037]

【発明の効果】以上説明したように、本発明に係る自動
索引ロボットシステム及びそれを利用した処理方法にお
いては、視覚的に正確で便利な高品質の検索サービスを
使用者に提供することが可能で、ロボットを用いて自動
化しているため、工程を短縮することが可能で、24時間
運用体系であるため、多数の認識システムを構築する必
要がなく、よって、コストを低減し得るという効果があ
る。
As described above, in the automatic indexing robot system and the processing method using the same according to the present invention, it is possible to provide a user with a visually accurate, convenient and high-quality search service. Therefore, the process can be shortened due to automation using a robot, and the 24-hour operation system eliminates the need to build a large number of recognition systems, thus reducing costs. is there.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る自動索引ロボットシステムを示
した構成図である。
FIG. 1 is a configuration diagram showing an automatic indexing robot system according to the present invention.

【図2】 本発明に係る自動索引ロボットシステムを利
用した処理方法の第1過程(100)を示したフローチャー
トである。
FIG. 2 is a flowchart showing a first step (100) of a processing method using the automatic indexing robot system according to the present invention.

【図3】 本発明に係る自動索引ロボットシステムを利
用した処理方法の第2過程(200)を示したフローチャー
トである。
FIG. 3 is a flowchart showing a second step (200) of the processing method using the automatic indexing robot system according to the present invention.

【図4】 本発明に係る自動索引ロボットシステムを利
用した処理方法の第3過程(300)を示したフローチャー
トである。
FIG. 4 is a flowchart showing a third step (300) of the processing method using the automatic indexing robot system according to the present invention.

【符号の説明】[Explanation of symbols]

1O:サーバー 20:ロボットPC 1O: Server 20: Robot PC

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 1/00 200 G06T 1/00 200E ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06T 1/00 200 G06T 1/00 200E

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 XML文書、WPS資料、イメージスキャン、
動映像資料、写真撮影などの情報及び、索引語あるいは
イメージ索引を格納するサーバー10と、 前記サーバー10に格納された情報を、索引語検索や文字
認識機を利用して検索するとともに、ベクトルイメージ
データを抽出するロボットPC20と、 を備えて構成されることを特徴とする自動索引ロボット
システム。
1. An XML document, a WPS material, an image scan,
A server 10 for storing information such as moving picture materials, photographing, and index words or image indexes; and searching for information stored in the server 10 using an index word search or a character recognizer, and a vector image. An automatic indexing robot system, comprising: a robot PC 20 for extracting data;
【請求項2】 サーバーに格納された資料によって文字
資料型データを自動に索引する第1過程100と、 サーバーに格納された資料によってスキャニングした原
文イメージを自動に索引にする第2過程200と、 サーバーに格納された資料によって写真イメージを自動
に索引にする第3過程300と、 を順次行うことを特徴とする自動索引ロボットシステム
を利用した処理方法。
2. A first step 100 for automatically indexing textual material type data based on materials stored in a server, a second step 200 for automatically indexing original images scanned by the materials stored in the server, A third method 300 for automatically indexing photographic images based on materials stored in a server.
【請求項3】 前記第1過程100は、 サーバーから文字資料型データを伝送される第1段階1O1
と、 前記第1段階101で伝送された文字資料型データから索引
語文字列を抽出する第2段階102と、 前記第2段階102で文字列として抽出された索引語を前記
サーバーに伝送する第3段階103と、 を順次行うことを特徴とする請求項2記載の自動索引ロ
ボットシステムを利用した処理方法。
3. The first step 100 is a first step 1O1 in which character data type data is transmitted from a server.
A second step 102 of extracting an index term character string from the character data type data transmitted in the first step 101, and a second step of transmitting the index term extracted as the character string in the second step 102 to the server. 3. The processing method using the automatic indexing robot system according to claim 2, wherein the following three steps are sequentially performed.
【請求項4】 前記第2過程200は、 サーバーからスキャニングした原文イメージ資料の伝送
を受ける第1段階201と、 前記第1段階201で伝送されたイメージ資料から文字列を
抽出するために文字認識機を稼動する第2段階202と、 前記第2段階202で稼動された文字認識機により索引語文
字列を抽出する第3段階203と、 前記第3段階203で抽出された索引語若しくは文字列を前
記サーバーに伝送する第4段階204と、 前記第4段階204で抽出された文字列が伝送された場合、
該文字列から索引語を抽出する第5段階205と、 前記第5段階205で抽出された索引語を格納する第6段階2
06と、 前記第6段階206で格納された索引語の文字列を利用して
テキスト(Text)を補正する第7段階207と、 を順次行うことを特徴とする請求項2記載の自動索引ロ
ボットシステムを利用した処理方法。
4. The second process 200 includes a first step 201 of receiving the scanned original image material from the server, and a character recognition for extracting a character string from the image material transmitted in the first step 201. A second stage 202 for operating the machine, a third stage 203 for extracting an index word character string by the character recognizer operated in the second stage 202, and an index word or character string extracted in the third stage 203. To the server, and if the character string extracted in the fourth step 204 is transmitted,
A fifth step 205 for extracting an index term from the character string, and a sixth step 2 for storing the index term extracted in the fifth step 205
The automatic indexing robot according to claim 2, wherein the following steps are sequentially performed: 06, and a seventh step 207 for correcting a text using the character string of the index word stored in the sixth step 206. Processing method using the system.
【請求項5】 前記第3過程300は、 サーバーから写真イメージを伝送される第1段階301と、 前記第1段階301で伝送された写真イメージ資料から形
態、色相、質感、明度及び彩度により索引を抽出する第
2段階302と、 前記第2段階302で抽出された写真イメージの索引を前記
サーバーに伝送する第3段階303と、 を順次行うことを特徴とする請求項2記載の自動索引ロ
ボットシステムを利用した処理方法。
5. The third process 300 includes a first step 301 of transmitting a photographic image from a server, and a form, a hue, a texture, a brightness, and a saturation of the photographic image material transmitted in the first step 301. Index extraction
The automatic indexing robot system according to claim 2, wherein a second step 302 and a third step 303 of transmitting an index of the photographic image extracted in the second step 302 to the server are sequentially performed. Processing method.
JP2001206836A 2000-07-11 2001-07-06 Automatically indexing robot system and processing method using the system Withdrawn JP2002082969A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020000039749A KR20020006223A (en) 2000-07-11 2000-07-11 Automatic Indexing Robot System And A Method
KR200039749 2000-07-11

Publications (1)

Publication Number Publication Date
JP2002082969A true JP2002082969A (en) 2002-03-22

Family

ID=19677508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001206836A Withdrawn JP2002082969A (en) 2000-07-11 2001-07-06 Automatically indexing robot system and processing method using the system

Country Status (2)

Country Link
JP (1) JP2002082969A (en)
KR (1) KR20020006223A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (en) * 2008-04-11 2009-11-05 Nhn Corp Method and unit for tagging images included in web page and providing web retrieval service by using the result and computer-readable recording medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831550B1 (en) * 2002-02-01 2008-05-22 주식회사 케이티 Video Searching Apparatus and its Method using XML Hierarchy Structure
CA2656425C (en) * 2006-06-29 2014-12-23 Google Inc. Recognizing text in images
US8098934B2 (en) 2006-06-29 2012-01-17 Google Inc. Using extracted image text
KR100933270B1 (en) * 2007-12-24 2009-12-22 엔에이치엔(주) Method, system and computer-readable recording medium for performing web search based on image information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259248A (en) * 2008-04-11 2009-11-05 Nhn Corp Method and unit for tagging images included in web page and providing web retrieval service by using the result and computer-readable recording medium

Also Published As

Publication number Publication date
KR20020006223A (en) 2002-01-19

Similar Documents

Publication Publication Date Title
JP5353148B2 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
CN102053991B (en) Method and system for multi-language document retrieval
US6178417B1 (en) Method and means of matching documents based on text genre
JP2010073114A6 (en) Image information retrieving apparatus, image information retrieving method and computer program therefor
US8290270B2 (en) Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
JP2004334334A (en) Document retrieval system, document retrieval method, and storage medium
US9785707B2 (en) Method and system for converting audio text files originating from audio files to searchable text and for processing the searchable text
JP2004118740A (en) Question answering system, question answering method and question answering program
US20050004902A1 (en) Information retrieving system, information retrieving method, and information retrieving program
EP1312039A2 (en) System and method for automatic preparation and searching of scanned documents
CN104778232B (en) Searching result optimizing method and device based on long query
CN113220821A (en) Index establishing method and device for test question retrieval and electronic equipment
CN113495874A (en) Information processing apparatus and computer readable medium
JP2002082969A (en) Automatically indexing robot system and processing method using the system
JP2003196294A (en) Knowledge analyzing system and method
CN1955979A (en) Automatic extraction device, method and program of essay title and correlation information
Nagy et al. Interactive document processing and digital libraries
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
Adefowoke Ojokoh et al. Automated document metadata extraction
Bień Efficient search in hidden text of large DjVu documents
Carvalho et al. Extracting semantic meaning from photographic annotations using a hybrid approach
Ohta et al. Bibliographic element extraction from scanned documents using conditional random fields
JPH10198683A (en) Method for sorting document picture
Nagy et al. DIA, OCR, AND THE WWW
Rygał et al. Properties and structure of fast text search engine in context of semantic image analysis

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081007