JP2022164593A - Method and system for extracting information from semi-structured document - Google Patents

Method and system for extracting information from semi-structured document Download PDF

Info

Publication number
JP2022164593A
JP2022164593A JP2022062744A JP2022062744A JP2022164593A JP 2022164593 A JP2022164593 A JP 2022164593A JP 2022062744 A JP2022062744 A JP 2022062744A JP 2022062744 A JP2022062744 A JP 2022062744A JP 2022164593 A JP2022164593 A JP 2022164593A
Authority
JP
Japan
Prior art keywords
type
tokens
category
token
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022062744A
Other languages
Japanese (ja)
Other versions
JP7453731B2 (en
Inventor
ウォンソク ファン
Won Seok Hwang
ジンヨン イム
Jin Yeong Yim
ジウク キム
Gee Wook Kim
ミンジュン ソ
Min Jung Suh
ヒョンジ イ
Hyun Ji Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210070404A external-priority patent/KR102649429B1/en
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2022164593A publication Critical patent/JP2022164593A/en
Application granted granted Critical
Publication of JP7453731B2 publication Critical patent/JP7453731B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a method and system for extracting information from a semi-structured document.SOLUTION: A method for extracting information from a semi-structured document includes the steps of: performing optical character recognition (OCR) on a target document to extract a plurality of words and position information on each of the words; generating a plurality of tokens corresponding to the words, respectively; and arranging the tokens so as to reflect a data structure between the words included in the target document. In the step of arranging the tokens, the tokens are arranged using meanings of the words and the position information on each of the words.SELECTED DRAWING: Figure 1

Description

新規性喪失の例外適用申請有り There is an application for exception to loss of novelty

本発明は、ドキュメントから情報を取り出す方法及びシステムに関する。 The present invention relates to methods and systems for retrieving information from documents.

人工知能の辞書的な意味は、人間の学習能力、推論能力、知覚能力、および自然言語の理解能力などをコンピュータープログラムにより実現した技術であると言える。このような人工知能は、マシンラーニングに人間の脳を模倣したニューラルネットワークを加えたディープラニングにより、飛躍的な発展を成し遂げた。 The dictionary meaning of artificial intelligence can be said to be technology that realizes human learning ability, reasoning ability, perceptual ability, natural language understanding ability, etc. by computer programs. Such artificial intelligence has achieved dramatic progress through deep learning, which combines machine learning with a neural network that mimics the human brain.

ディープラニング(deep learning)とは、コンピューターがまるで人間のように判断し、かつ、学習できるようにし、これを通して、物事やデータを群集化させたり、または、仕分けしたりする技術のことである。近頃は、テキストデータだけではなく、画像データに対する解析まで可能になって、非常に多岐にわたる産業分野に積極的に活用されている。 Deep learning is a technology that allows computers to judge and learn just like humans, and through this, to cluster or sort things and data. Recently, it has become possible to analyze not only text data but also image data, and it is actively used in a wide variety of industrial fields.

このような人工知能の発達に伴い、事務自動化(office automation)分野においても様々な自動化が進んでいる。特に、事務自動化分野においては、紙(paper)に印刷されたコンテンツを、人工知能を活用した画像データ解析技術に基づいて、データ化させることに多大な努力を注いでいる。その一環として、事務自動化分野においては、紙ドキュメントを画像化させて、画像に含まれているコンテンツを解析する画像解析技術(または、画像データに対する解析技術)を通して、ドキュメントに含まれているコンテンツをデータ化させており、この場合には、ドキュメントに含まれているコンテンツのタイプに合うように画像を解析する技術が必要とされる。 Along with the development of such artificial intelligence, various types of automation are progressing in the field of office automation. In particular, in the field of business automation, great efforts are being made to convert content printed on paper into data based on image data analysis technology utilizing artificial intelligence. As part of this, in the field of office automation, the content contained in the document is analyzed through image analysis technology (or analysis technology for image data) that converts paper documents into images and analyzes the content contained in the image. It is digitized, and in this case, techniques are required to analyze the image to match the type of content contained in the document.

例えば、領収証(receipt)をはじめとするドキュメントをデータ化させる場合に、領収証の形式、領収証内に含まれているテキストの内容及び領収証に含まれているテキストの位置などのように、領収証を巡る様々な要素に対する正確な解析が必要である。 For example, when digitizing a document such as a receipt, it is necessary to check the receipt format, the contents of the text contained in the receipt, and the position of the text contained in the receipt. Accurate analysis of various factors is required.

このため、画像に含まれている情報を電子装備において処理できる形態のデータに加工するための様々な技術が開発されている。例えば、大韓民国登録特許第10-1181209号公報においては、OCRデータベースを構築する方法が開示されている。 Therefore, various techniques have been developed for processing information contained in an image into data in a form that can be processed by electronic equipment. For example, Korean Patent No. 10-1181209 discloses a method of constructing an OCR database.

しかしながら、これまで開発されてきた方法は、人間が経験的に定めたルールに従ってデータを仕分けするレベルにとどまっているので、対象ドキュメントに含まれているデータの構造及びテキストデータの間の関係性まで正確に再現できるアプリケーションの開発への取り組みを行い続ける必要がある。 However, the methods developed so far are limited to the level of sorting data according to rules determined empirically by humans. We need to continue to work on developing applications that can be reproduced accurately.

大韓民国登録特許第10-1181209号公報Korean Patent No. 10-1181209

本発明は、対象ドキュメントに含まれている複数の言葉の間のデータ構造を反映して、対象ドキュメントから情報を取り出す方法及びシステムに関する。 The present invention relates to a method and system for retrieving information from a target document reflecting the inter-word data structure contained in the target document.

また、本発明は、対象ドキュメントからデータを取り出すマシンラーニングモデルに対して訓練を行い易い形態のデータとして、対象ドキュメントからデータを取り出す方法及びシステムを提供する。 The present invention also provides a method and system for retrieving data from a target document in a form that facilitates training of a machine learning model for retrieving data from the target document.

具体的に、本発明は、対象ドキュメントからデータを取り出すマシンラーニングモデルの正確度を判断するのに活用される学習データ及びマシンラーニングモデルから出力されるデータの形式を人間が加工しやすい形態で実現することにより、マシンラーニングモデルの正確度を判断するのにかかる時間及びコストを削減できるようにする、データ取出方法及びシステムを提供する。 Specifically, the present invention realizes the format of the learning data used to determine the accuracy of the machine learning model that extracts data from the target document and the data output from the machine learning model in a form that is easy for humans to process. To provide a data retrieval method and system that can reduce the time and cost of determining the accuracy of a machine learning model by doing so.

さらに、本発明は、対象ドキュメントに含まれているデータの間の関係性を与えられる、データ取出方法及びシステムを提供するためのものである。 Further, the present invention seeks to provide a data retrieval method and system in which relationships between data contained in a target document are provided.

上述した課題を解決するために、本発明は、対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、を含み、前記複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べることを特徴とする半構造化ドキュメントから情報を取り出す方法を提供することができる。 To solve the above-mentioned problems, the present invention provides a step of performing optical character recognition (OCR) on a target document to retrieve a plurality of words and location information for each of the plurality of words; generating a plurality of tokens corresponding to each of a plurality of terms; and arranging the plurality of tokens to reflect a data structure among the plurality of terms contained in the target document; wherein the step of arranging the plurality of tokens comprises arranging the plurality of tokens using the meanings of the plurality of terms and location information about each of the plurality of terms, can provide a method for retrieving the

また、本発明は、対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すOCR部と、前記複数の言葉のそれぞれに対応する複数のトークンを生成し、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べる制御部と、を備え、前記制御部は、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、ことを特徴とする、半構造化ドキュメントから情報を取り出すシステムを提供することができる。 Further, the present invention includes an OCR unit that performs optical character recognition (OCR) on a target document and extracts a plurality of words and position information about each of the plurality of words, and a control unit that generates a corresponding plurality of tokens and arranges the plurality of tokens so as to reflect a data structure between the plurality of words contained in the target document, wherein the control unit , using the meanings of the plurality of terms and location information for each of the plurality of terms to order the plurality of tokens, a system for extracting information from a semi-structured document.

さらに、本発明は、複数の指令を含むコンピュータープログラムであって、指令が実行されると、対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、を実施し、前記複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、ことを特徴とする、コンピューターにて起動するコンピュータープログラムを提供することができる。 Further, the present invention is a computer program comprising a plurality of instructions which, when executed, perform optical character recognition (OCR) on a target document to generate a plurality of words and the plurality of words generating a plurality of tokens corresponding to each of said plurality of terms; and reflecting a data structure between said plurality of terms contained in said target document. and arranging the plurality of tokens, wherein in the arranging the plurality of tokens, the plurality of tokens are arranged using the meanings of the plurality of words and location information about each of the plurality of words It is possible to provide a computer program running on a computer characterized by arranging.

上述のように、本発明は、対象ドキュメントから取り出された前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、かつ、生成されたトークン及び生成されたトークンの並べを用いて、対象ドキュメントに含まれている複数の言葉の間のデータ構造が反映されたデータを生成することができる。 As described above, the present invention uses the meanings of the plurality of terms and the location information for each of the plurality of terms retrieved from the target document, and uses the generated tokens and generated sequences of tokens. , it is possible to generate data that reflects the data structure between multiple words contained in the target document.

また、本発明に係る情報取出モデルのマシンラーニングは、情報取出モデルから出力された複数のトークンの正確度を算出することにより行われる。前記出力されたトークンは、言葉の間の関連性が完全に反映されたデータではないので、前記情報取出モデルの正確度を算出するための学習データを生成しやすくなる。 Further, the machine learning of the information retrieval model according to the present invention is performed by calculating the accuracy of a plurality of tokens output from the information retrieval model. Since the output tokens do not perfectly reflect the relationships between words, it is easier to generate learning data for calculating the accuracy of the information retrieval model.

具体的に、学習データの生成に際して既に定められたルール(トークン生成ルール)に従って一定の順番に並べられたトークンを生成した後で、情報取出モデルから出力されたトークンと比較する作業を行うことで、情報取出モデルの正確度を判断し、前記情報取出モデルの正確度を高めるように、情報取出モデルに関する訓練を行うことが可能になる。これにより、情報取出モデルのマシンラーニングのための学習データを生成するのにかかる時間が大幅に短縮される。 Specifically, after generating tokens arranged in a certain order according to rules (token generation rules) that have already been established when generating learning data, the tokens output from the information retrieval model are compared. , the accuracy of an information retrieval model can be determined, and training can be performed on the information retrieval model to improve the accuracy of the information retrieval model. This greatly reduces the time it takes to generate learning data for machine learning of information retrieval models.

本発明に係る情報取出システムを説明するための概念図である。1 is a conceptual diagram for explaining an information retrieval system according to the present invention; FIG. 本発明に係る情報取出方法を説明するためのフローチャートである。4 is a flow chart for explaining an information retrieval method according to the present invention; 本発明に係る情報取出モデルを説明するための概念図である。FIG. 4 is a conceptual diagram for explaining an information extraction model according to the present invention; 本発明に係る情報取出モデルから出力されたデータを木(tree)化させた様子を示す概念図である。FIG. 2 is a conceptual diagram showing how data output from an information retrieval model according to the present invention is treed; 本発明に係る情報取出モデルのマシンラーニング方法を示す概念図である。1 is a conceptual diagram showing a machine learning method for an information retrieval model according to the present invention; FIG. 本発明に係る情報取出モデルから出力されたデータの正確度を算出する様子を示す概念図である。FIG. 4 is a conceptual diagram showing how the accuracy of data output from the information extraction model according to the present invention is calculated; 従来の情報取出のためのマシンラーニング方法を示す概念図である。1 is a conceptual diagram illustrating a conventional machine learning method for information retrieval; FIG.

以下、添付図面に基づいて、この明細書に開示されている実施形態について詳しく説明するが、図面符号とは無関係に、同一または類似の構成要素には、同じ参照符号を付し、これについての重複する説明は省略する。以下の説明において用いられる構成要素に対する接尾詞「モジュール」及び「部」は、明細書の作成しやすさのみが考慮されて付されたり混用されたりするものであって、これ自体で互いに区別される意味または役割を有するものではない。また、この明細書に開示されている実施形態を説明するに当たって、関連する公知の技術についての具体的な説明が本明細書に開示されている実施形態の要旨を曖昧にする虞があると認められる場合には、その詳細な説明を省略する。なお、添付図面は、単に本明細書に開示されている実施形態を理解しやすくするためのものに過ぎず、添付図面によって本明細書に開示されている技術的思想が制限されるわけではなく、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物、ないし代替物を含むものと理解されるべきである。 Hereinafter, the embodiments disclosed in this specification will be described in detail based on the accompanying drawings. Redundant explanations are omitted. The suffixes "module" and "part" for the components used in the following description are added or mixed only in consideration of the ease of preparation of the specification, and are distinguished from each other by themselves. does not have any meaning or role. Moreover, in describing the embodiments disclosed herein, it is acknowledged that specific descriptions of related known technologies may obscure the gist of the embodiments disclosed herein. detailed description is omitted. It should be noted that the accompanying drawings are merely for facilitating understanding of the embodiments disclosed in this specification, and the technical ideas disclosed in this specification are not limited by the accompanying drawings. , to include any modifications, equivalents, or alternatives falling within the spirit and scope of the invention.

「第1の」、「第2の」などの序数を含む言い回しは、様々な構成要素を説明するうえで使用可能であるが、前記構成要素は、前記言い回しによって何等限定されない。上記の言い回しは、ある構成要素を他の構成要素から区別する目的でしか使えない。 Phrases including ordinal numbers such as “first,” “second,” etc. can be used to describe various components, but said components are in no way limited by said terms. The above wording can only be used to distinguish one component from another.

ある構成要素が他の構成要素と「連結」されているとか、または、「接続」されていると言及された場合には、前記ある構成要素が、前記他の構成要素に直接的に連結されたり接続されたりすると理解されるか、または、これらの間に他の構成要素が存在してもよいものと理解されるべきである。これに対し、ある構成要素が他の構成要素と「直接的に連結」されているとか、または、「直接的に接続されている」と言及された場合には、これらの間に他の構成要素が存在しないものと理解されるべきである。 When a component is referred to as being “coupled” or “connected” to another component, said component is directly linked to said other component. , or that there may be other components between them. In contrast, when a component is referred to as being “directly coupled” or “directly connected” to another component, there is no other structure between them. It should be understood that the element does not exist.

単数の表現は、文脈からみて明らかに他の意味を有さない限り、複数の言い回しを含む。 Singular expressions include pluralities unless the context clearly dictates otherwise.

この出願において、「備える」、「含む」、または「有する」などの用語は、明細書に記載の特徴、数字、段階、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定するものに過ぎず、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品、または、これらを組み合わせたものの存在もしくは付加の可能性を予め排除しないものと理解すべきである。 In this application, terms such as "comprising," "including," or "having" refer to the presence of any feature, number, step, act, component, part, or combination thereof described in the specification. It should be understood that it is a specification only and does not preclude the presence or addition of one or more other features, figures, steps, acts, components, parts, or combinations thereof. is.

以上述べたように、人工知能の発達に伴い、様々な形態で事務自動化(office automation)が進んでおり、仕事の効率性のために、紙ドキュメントに含まれている一定の形態の情報を、紙ドキュメントに含まれている形式そのままでデジタル化(データ化)させなければならないということへのニーズがますます高まりつつある。 As mentioned above, with the development of artificial intelligence, various forms of office automation are progressing. There is a growing need to digitize (data) the format contained in the paper document as it is.

例えば、図1に示す領収証(レシート;receipt)などのドキュメント10は、店名・売り場名、売り場の住所、注文商品名、注文商品の数量、注文金額など、販売者及び消費者と関わる複数の範疇(Category)を含んでおり、データの効率よい処理のために、紙ドキュメントに含まれているデータを、同じ範疇同士で関連付けてデジタル化させる必要がある。 For example, a document 10 such as a receipt (receipt) shown in FIG. (Category), and for efficient data processing, the data contained in the paper document must be digitized by associating the same categories with each other.

この明細書において、「範疇」とは、定義された分類内において任意のレベルにある項目を意味する。特定の範疇に属するデータと別の範疇に属するデータとを区別する基準は、必ずしも絶対的なものであるとは限らず、範疇を取り決める任意のルールに応じて異なってくる場合がある。このようなルールは、紙ドキュメントと紙ドキュメントをデジタル化させたデータとに対して異ならせて適用可能である。 As used herein, "category" means an item at any level within a defined taxonomy. The criteria for distinguishing data belonging to one category from data belonging to another category are not necessarily absolute and may vary depending on any rules governing the categories. Such rules can be applied differently to paper documents and data obtained by digitizing paper documents.

例えば、紙ドキュメントからなる特定の領収証は、「店名・売り場名」、「売り場の住所」、「注文商品名」、「注文商品の数量」、「注文商品の金額」という五つの範疇を含んでいてもよいが、前記紙ドキュメントに含まれているデータをデジタル化させるとき、「売り場」、「注文商品」という二つの範疇に縮めてもよい。 For example, a particular receipt consisting of a paper document contains five categories: "store name/department name", "department address", "order item name", "order item quantity", and "order item amount". However, when the data contained in the paper document is digitized, it may be reduced to two categories: "place of sale" and "item to order."

一方、この明細書においては、特定の範疇の属性を示す言葉を第1のタイプの言葉に仕分けする。例えば、第1のタイプの言葉は、範疇に属しているデータの上位概念を定義する言葉(「店名・売り場名:」、「数量:」、「売り場の住所」)などを含んでいてもよい。 On the other hand, in this specification, words indicating attributes of a specific category are classified into the first type of words. For example, the words of the first type may include words (“store name/selling area name:”, “quantity:”, “selling area address”) that define the superordinate concept of the data belonging to the category. .

一方、この明細書においては、特定の範疇の値を示す言葉を第2のタイプの言葉に仕分けする。例えば、第2のタイプの言葉は、範疇に属しているデータ(「Happy store」、「105 h-street」、「Carrot」)であってもよい。この明細書においては、前記第1のタイプに仕分けされた第1のタイプの言葉は「フィールド名」、第2のタイプに仕分けされた第2のタイプの言葉は「フィールド値」と称されてもよい。 On the other hand, for purposes of this specification, words that indicate a particular category of values are grouped into a second type of words. For example, a second type of word may be data belonging to a category (“Happy store”, “105 h-street”, “Carrot”). In this specification, the words of the first type classified into the first type are called "field names", and the words of the second type classified into the second type are called "field values". good too.

一方、マシンにおいて処理可能な形式のデータの観点から、前記第1のタイプの言葉は「属性(key)」と称されてもよく、前記第2のタイプの言葉は「値(value)」と称されてもよい。 On the other hand, from the point of view of data in machine-processable form, the first type of terms may be referred to as "keys" and the second type of terms may be referred to as "values." may be called

上述した用語や言い回しの定義によれば、領収証などの紙ドキュメントは、同一の範疇に含まれている「属性-値」の組のデータを含んでいてもよい。ただし、これに何ら限定されず、紙領収証などの紙ドキュメントは、特定の範疇に関してはフィールド名なしにフィールド値のみを含んでいてもよい。この場合に、紙ドキュメントから前記フィールド名は省略されただけであり、省略されたフィールド名に対応するフィールド値は、フィールド名に関わる意味を含んでいる。 According to the definitions of terms and phrases provided above, a paper document, such as a receipt, may contain data in attribute-value pairs that fall within the same category. However, there is no limitation to this, and a paper document such as a paper receipt may contain only field values without field names for a particular category. In this case, the field name is simply omitted from the paper document, and the field value corresponding to the omitted field name contains the meaning associated with the field name.

一方、紙ドキュメントは、フィールド値なしにフィールド名のみを含んでいてもよい。この場合は、特定の項目に割り当てられた値が存在しないことであり、たとえ、特定の項目に割り当てられた値が存在しないとしても、紙ドキュメントに前記特定の項目が存在してもよい。 A paper document, on the other hand, may contain only field names without field values. In this case, there is no value assigned to the particular item, and even if there is no value assigned to the particular item, the particular item may exist in the paper document.

以下、上述した用語の定義に基づいて、本発明について詳しく説明する。 The present invention will be described in detail below based on the definitions of the terms described above.

上述した紙ドキュメントは、紙ドキュメントに含まれている同一の範疇のデータ間の連関性を保ち、マシンが理解可能なデータに変換可能である。 The paper document described above maintains relationships between data of the same category contained in the paper document and can be converted into machine-understandable data.

一実施形態において、光学式文字読み取り装置(Optical Character Reader;OCR)を用いて、紙ドキュメントに含まれている言葉を取り出すことができる。領収証のように複数の範疇のデータを含むドキュメントの場合、取り出された言葉に対するパース(parsing)過程を経て無関係にデジタル化された言葉を同一の範疇ごとに仕分けすることができる。これにより、複数の属性-値の組を含むデータが形成可能である。 In one embodiment, an Optical Character Reader (OCR) can be used to retrieve words contained in a paper document. In the case of a document including data of multiple categories, such as a receipt, digitized words can be sorted into the same category independently through a parsing process for extracted words. This allows the formation of data containing multiple attribute-value pairs.

マシンラーニングを通して、OCRを用いて無関係にデジタル化された言葉に所定のデータ構造を持たせるための取り組みが行われ続けている。図7を参照すると、従来の情報取出モデルは、対象ドキュメント10に対してOCR 711を行うことで、対象ドキュメント10から複数の言葉及び位置情報を取り出し、これに基づいて、直列化モデル(Serializer)712を通して、取り出された言葉の一部を直列化させ、タギングモデル(Tagging model)713を通して、直列化されたテキストの範疇を仕分けし、Tag2parseモデル714を通してパース(parsing)を行っていた。 Through machine learning, efforts continue to be made to impose a predetermined data structure on unrelated digitized words using OCR. Referring to FIG. 7, the conventional information retrieval model extracts multiple words and location information from the target document 10 by performing OCR 711 on the target document 10, and based on this, a serialization model (Serializer) Through 712 , it serialized parts of the retrieved words, through Tagging model 713 categorized the serialized text, and through Tag2parse model 714 parsing.

次いで、正規化モデル(parse normalizer)715を通して、JSON形式のデータを生成する。 It then passes through a parse normalizer 715 to generate JSON formatted data.

従来の情報取出モデルの訓練は、Tag2parseモデル714から出力されたデータと原データとの誤差を算出して、誤差を最小化させるように行われていた。このとき、前記誤差の算出のためには、原データ(以下、学習データ)を生成しなければならない。原データは、対象ドキュメント10に含まれている言葉のそれぞれに関する注釈を表示(721)し、対象ドキュメント10に含まれているテキストセグメントを直列化(722)させ、タギングモデル723を通して、言葉の間のパースを行うことにより生成される。上述した過程は、いずれも人間が自ら作業することで行われるため、マシンラーニングのための学習データの生成には非常に多大な時間がかかる。 Conventional information extraction model training is performed by calculating the error between the data output from the Tag2parse model 714 and the original data and minimizing the error. At this time, in order to calculate the error, original data (hereinafter referred to as learning data) must be generated. The source data displays (721) annotations for each of the terms contained in the target document 10, serializes (722) the text segments contained in the target document 10, and passes through the tagging model 723 the inter-term is generated by parsing Since all of the processes described above are performed by human beings themselves, it takes a very long time to generate learning data for machine learning.

本発明は、上述した学習データの生成にかかる時間を短縮させて、情報取出モデルのマシンラーニングにかかるコストを極力抑えられる情報取出システム及び方法を提供する。 The present invention provides an information retrieval system and method that can reduce the time required to generate the learning data described above and minimize the cost required for machine learning of the information retrieval model.

本発明は、対象ドキュメントに含まれている複数の言葉の間のデータ構造を反映して、対象ドキュメントからデータを取り出すシステムを提供する。 The present invention provides a system for retrieving data from a target document that reflects the data structure between words contained in the target document.

以下では、対象ドキュメントからデータを取り出すシステムについて、添付図面と結び付けて詳しく述べる。 A system for retrieving data from a target document is described in detail below in conjunction with the accompanying drawings.

図1は、本発明に係る情報取出システムを説明するための概念図である。 FIG. 1 is a conceptual diagram for explaining an information retrieval system according to the present invention.

本発明に係る情報取出システム100は、アプリケーションまたはソフトウェアの形態で実現可能である。本発明に係る情報取出システム100のソフトウェア的な実現によれば、この明細書において述べられる手続き及び機能のような実施形態は、別途のソフトウェアモジュールにより実現可能である。ソフトウェアモジュールのそれぞれは、この明細書において述べられる一つ以上の機能及び作動を行うことができる。 The information retrieval system 100 according to the present invention can be implemented in the form of an application or software. According to the software implementation of the information retrieval system 100 of the present invention, embodiments such as the procedures and functions described herein can be implemented by separate software modules. Each of the software modules can perform one or more functions and operations described herein.

本発明に係るソフトウェア的な実現は、図1に示す情報取出システム100により実現され、以下では、情報取出システム100の構成についてさらに詳しく述べる。 Software implementation according to the present invention is implemented by the information retrieval system 100 shown in FIG. 1, and the configuration of the information retrieval system 100 will be described in more detail below.

本発明に係る情報取出システム100は、画像に対してOCRを行うことで、OCRデータを生成することができる。この明細書において、OCRデータは、画像から取り出されたテキスト及び取り出されたテキストに対応する位置情報を含んでいてもよい。ここで、前記位置情報は、取り出されたテキストの画像(または、紙ドキュメント)内の位置を定義する。 The information retrieval system 100 according to the present invention can generate OCR data by performing OCR on an image. As used herein, OCR data may include text retrieved from an image and location information corresponding to the retrieved text. Here, the position information defines the position within the image (or paper document) of the retrieved text.

ここで、画像は、紙ドキュメントをスキャンしたことによって取得される画像であってよく、その他の様々な方法により取得された画像であってもよい。 Here, the image may be an image obtained by scanning a paper document, or may be an image obtained by various other methods.

一方、図1に示すように、本発明に係る情報取出システム100は、通信部110、記憶部120、OCR部130、及び制御部140のうちの少なくとも一つを備えていてもよい。 On the other hand, as shown in FIG. 1, the information retrieval system 100 according to the present invention may comprise at least one of the communication section 110, the storage section 120, the OCR section 130, and the control section 140. FIG.

通信部110は、紙ドキュメントをスキャンした画像(または、ドキュメント)10を受信する手段であり、通信部、スキャン部、及び入力部のうちの少なくとも一つを備えて構成されてよく、その他に画像を受信可能な手段から構成されてもよい。 The communication unit 110 is means for receiving an image (or document) 10 obtained by scanning a paper document, and may include at least one of a communication unit, a scanning unit, and an input unit. may be configured from means capable of receiving the

情報取出システム100は、通信部110を介して受信した画像10を用いてデータを取り出してもよい。 Information retrieval system 100 may retrieve data using image 10 received via communication unit 110 .

次いで、記憶部120は、本発明に係る様々な情報を記憶するように構成されてもよい。記憶部120の種類は非常に多岐にわたっており、少なくとも一部は、外部サーバー150(クラウドサーバー及びデータベース(database:DB)のうちの少なくとも一方)を意味することもある。すなわち、記憶部120は、本発明と関わる情報が記憶されるスペースであればよく、物理的なスペースに対する制約はないものと理解されてもよい。 Storage unit 120 may then be configured to store various information according to the present invention. The types of the storage unit 120 are very diverse, and at least some of them may mean an external server 150 (at least one of a cloud server and a database (DB)). In other words, it may be understood that the storage unit 120 is not limited to a physical space as long as it is a space for storing information related to the present invention.

記憶部120には、i)紙ドキュメントをスキャンした画像10及びこれと関わるデータ、ii)情報取出モデルのマシンラーニングに活用される学習データ、iii)取り出されたデータ、のうちの少なくとも一つが記憶されてもよい。 The storage unit 120 stores at least one of i) an image 10 obtained by scanning a paper document and data related thereto, ii) learning data used for machine learning of an information extraction model, and iii) extracted data. may be

記憶部120には、上述した範疇と関わる情報が記憶されていてもよい。具体的に、範疇と関わる情報としては、範疇に関する概念的な情報、範疇に対応する範疇名を示すテキスト、及び範疇に対応する値を定義する情報が記憶されてもよい。 The storage unit 120 may store information related to the categories described above. Specifically, as the information related to the category, conceptual information related to the category, text indicating the category name corresponding to the category, and information defining the value corresponding to the category may be stored.

ここで、範疇名は、フィールド名、範疇に対応する属性とも称されることがある。 Here, the category name may also be referred to as a field name or an attribute corresponding to the category.

一方、範疇に対応する値は、範疇に属する少なくとも一つのテキストを含んでいてもよい。 On the other hand, a value corresponding to a category may contain at least one text belonging to the category.

一方、前記範疇と関わる情報は、本発明に係る情報取出モデルに対する訓練が行われることに伴い更新されてもよい。具体的に、情報取出モデルに対する訓練が行われることに伴い、記憶部120に定義された範疇の数が増やされてよく、範疇と関わる情報は、範疇に関する概念的な情報、範疇に対応する範疇名を示すテキスト及び範疇に対応する値を定義する情報のうちの少なくとも一つが更新されてもよい。 On the other hand, the information associated with the categories may be updated as the information retrieval model of the present invention is trained. Specifically, as the information extraction model is trained, the number of categories defined in the storage unit 120 may be increased. At least one of the text indicating the first name and the information defining the value corresponding to the category may be updated.

次いで、OCR(Optical Character Reader)部130は、画像10に含まれているコンテンツを認識する手段であり、様々なコンテンツ認識アルゴリズムのうちの少なくとも一つを通して、画像10に含まれているコンテンツを認識することができる。OCR部130は、人工知能に基づくアルゴリズムを用いて、コンテンツを認識することができる。ここで、コンテンツは、テキスト(文字)を含んでいてもよい。 Next, an OCR (Optical Character Reader) unit 130 is means for recognizing content included in the image 10, and recognizes the content included in the image 10 through at least one of various content recognition algorithms. can do. The OCR unit 130 can recognize content using algorithms based on artificial intelligence. Here, the content may include text (characters).

OCR部は、画像に含まれているテキスト及びテキストの位置情報を取り出してもよい。ここで、テキストの位置情報は、画像10内においてテキストがどこに位置するかに関する情報を含んでいてもよい。 The OCR unit may retrieve text contained in the image and location information for the text. Here, the text position information may include information about where the text is positioned within the image 10 .

次いで、制御部140は、本発明に係る情報取出システム100の全般的な動作を制御するように構成されてもよい。制御部140は、人工知能アルゴリズムを処理可能なプロセッサー(processor)(または、人工知能プロセッサー)を備えていてもよい。制御部140は、ディープラニングアルゴリズムに基づいて、画像10からテキストを認識し、認識されたテキストに対する情報取出を行ってもよい。 The controller 140 may then be configured to control the overall operation of the information retrieval system 100 according to the present invention. The control unit 140 may include a processor capable of processing artificial intelligence algorithms (or an artificial intelligence processor). Control unit 140 may recognize text from image 10 and perform information retrieval on the recognized text based on a deep learning algorithm.

さらに、制御部140は、情報取出を行うための作業領域を与え、このような作業領域は、情報取出を行い、または、情報取出のためのマシンラーニングを行ったりするための「ユーザー環境」もしくは「ユーザーインタフェース」とも名付けられてもよい。 In addition, the control unit 140 provides a work area for performing information retrieval, such a work area being a "user environment" or It may also be named "user interface".

このような作業領域は、電子機器のディスプレイ部の上に出力(または、提供)されてもよい。さらに、制御部140は、電子機器に配備され、または、電子機器と連動するユーザー入力部(例えば、タッチスクリーン、マウスなど)を介して受信される、ユーザー入力に基づいて、情報取出を行い、または、情報取出のためのマシンラーニングを行ったりすることができる。 Such a working area may be output (or provided) on the display portion of the electronic device. Further, the control unit 140 performs information retrieval based on user input received via a user input unit (e.g., touch screen, mouse, etc.) located on or associated with the electronic device, Alternatively, machine learning for information extraction can be performed.

一方、本発明において、作業領域が出力される電子機器の種類には格別な制限がなく、本発明に係るアプリケーションが駆動可能であればよい。例えば、電子機器は、スマートフォン(smart phone)、携帯電話、タブレットPC、コンピューター、ノート型パソコン、デジタル放送用端末、個人向け情報端末(PDA:Personal Digital Assistants)、ポータブルマルチメディアプレーヤー(PMP:Portable Multimedia Player)、スマートミラー(smart mirror、)及びスマートテレビ(smart TV)のうちの少なくとも一つであり得る。 On the other hand, in the present invention, there is no particular limitation on the type of electronic device to which the work area is output, as long as the application according to the present invention can be driven. For example, electronic devices include smart phones, mobile phones, tablet PCs, computers, notebook computers, digital broadcasting terminals, personal information terminals (PDA: Personal Digital Assistants), portable multimedia players (PMP: Portable Multimedia player, smart mirror, and/or smart TV.

本発明においては、電子機器または電子機器に配備されるディスプレイ部、ユーザー入力部に対して別途の図面符号を付さない。しかしながら、本発明において述べられる作業領域は、電子機器のディスプレイ部に出力され、ユーザー入力は、電子機器に配備されるか、あるいは、電子機器と連動するユーザー入力部を介して受信されるということは当業者にとって自明である。 In the present invention, an electronic device or a display unit and a user input unit installed in the electronic device are not denoted by separate reference numerals. However, the working area described in the present invention is output to the display unit of the electronic device, and user input is received via a user input unit located on or associated with the electronic device. is obvious to those skilled in the art.

以下では、上述した情報取出システムを用いて情報取出を行う方法についてさらに詳しく述べる。特に、以下では、まず、フローチャートと結び付けて、情報取出方法について述べる。 The method of information retrieval using the information retrieval system described above will be described in more detail below. In particular, in the following, first, the information retrieval method will be described in connection with the flow chart.

図2は、本発明に係る情報取出方法を説明するためのフローチャートであり、図3は、本発明に係る情報取出モデルを説明するための概念図であり、図4は、本発明に係る情報取出モデルから出力されたデータを木(tree)化させた様子を示す概念図である。 FIG. 2 is a flow chart for explaining the information extraction method according to the present invention, FIG. 3 is a conceptual diagram for explaining an information extraction model according to the present invention, and FIG. FIG. 4 is a conceptual diagram showing how data output from an extraction model is treed;

本発明に係る情報取出方法においては、対象ドキュメントに対するOCR(Optical Character Recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップが行われる(S110)。 In the information retrieval method according to the present invention, a step of performing OCR (Optical Character Recognition) on a target document to retrieve a plurality of words and position information about each of the plurality of words is performed (S110).

ここで、対象ドキュメントとは、情報取出の対象となる紙ドキュメントまたは紙ドキュメントに対する画像であってもよい。以上において述べたように、紙ドキュメントに対する画像10は、様々なルーツを介して受信可能である。 Here, the target document may be a paper document from which information is to be retrieved or an image of the paper document. As mentioned above, images 10 for paper documents can be received via various routes.

OCRデータは、画像に含まれているテキスト及びテキストの位置情報を含んでいてもよい。 The OCR data may include text contained in the image and location information for the text.

OCRデータに含まれている既に設定された基準に従って、前記OCRデータに含まれているテキストが複数のテキストセグメント(text segment)に区分されてもよい。 The text contained in the OCR data may be segmented into a plurality of text segments according to pre-established criteria contained in the OCR data.

一実施形態において、テキストセグメントは、語節単位に区切られ、または、テキストの位置情報に基づいて、隣り合う複数のテキストが一つのテキストセグメントに区切られたりしてもよい。 In one embodiment, text segments may be segmented into phrases, or multiple adjacent texts may be segmented into a single text segment based on text location information.

テキストセグメントを区切る過程において、複数のテキストセグメントが一つにまとめられ、または、一つのテキストセグメントが複数のテキストセグメントに分離されたりしてもよい。例えば、図1の画像10から取り出されたテキスト「105 h-street」は、二つのテキストセグメント(「105」及び「h-street」)に区切られた後で、一つのテキストセグメント(「105 h-street」)にまとめられてもよい。他の例を挙げると、図1の画像10から取り出された「Happy store」は、一つのテキストセグメント「Happy store」に区切られた後で、複数のテキストセグメント(「Happy」及び「store」)に分離されてもよい。 In the process of delimiting text segments, multiple text segments may be put together or one text segment may be separated into multiple text segments. For example, the text "105 h-street" taken from image 10 in FIG. -street”). As another example, "Happy store" taken from image 10 of FIG. may be separated into

制御部140は、テキストの位置情報に基づいて、テキストセグメントをまとめたり分離したりすることができる。制御部140がテキストセグメントをまとめたり分離したりするモデルは、マシンラーニングを通して生成可能であるが、これに何ら限定されるものではない。 The control unit 140 can group or separate text segments based on the positional information of the text. A model by which the control unit 140 assembles and separates text segments can be generated through machine learning, but is not limited to this.

上述した過程を通して、複数の言葉が取り出し可能である。 Multiple words can be retrieved through the above process.

一方、取り出された複数の言葉ごとに位置情報がマッチングされてもよい。ここで、取り出された言葉に対応する位置情報は、対象ドキュメント上の位置情報であってもよい。具体的に、前記位置情報は、前記対象ドキュメントの画像上のある個所を基準点とし、前記基準点に関する2次元座標情報を含んでいてもよい。 On the other hand, location information may be matched for each of the extracted words. Here, the positional information corresponding to the retrieved words may be positional information on the target document. Specifically, the position information may include two-dimensional coordinate information regarding the reference point, with a certain location on the image of the target document as a reference point.

上述したように、前記位置情報は、相対座標であってもよく、前記位置情報を用いて取り出された複数の言葉の間の距離が算出可能である。 As noted above, the location information may be relative coordinates, and distances between retrieved terms can be calculated using the location information.

複数の言葉のそれぞれに関する位置情報は、複数の言葉の間の関連性を判断するのに活用可能である。これについては、後述する。 Location information for each of the multiple terms can be used to determine relationships between the multiple terms. This will be described later.

次いで、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップが行われる(S120)。 A step of generating a plurality of tokens corresponding to each of the plurality of words is then performed (S120).

前記複数のトークンは、3種類のタイプのうちのいずれか一つとして生成されてもよい。まず、複数のトークンタイプのうち、第1及び第2のタイプについて説明する。 The plurality of tokens may be generated as any one of three types. First, among a plurality of token types, the first and second types will be explained.

複数のトークンは、範疇の属性を有する第1のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第2のタイプのトークンのうちのどちらか一方のタイプを有することができる。 The plurality of tokens may be of one of a first type of token having a categorical attribute and a second type of token having a data attribute corresponding to the categorical value.

前記第1及び第2のタイプに対応するトークンは、対象ドキュメントから取り出された複数の言葉のそれぞれの意味に基づいて生成可能である。 Tokens corresponding to the first and second types can be generated based on the meaning of each of a plurality of terms retrieved from the target document.

一実施形態において、前記複数の言葉は、前記複数の言葉のそれぞれの意味及び前記対象ドキュメントにおける複数の言葉のそれぞれに関する位置情報に基づいて、前記複数の言葉を前記範疇の属性を有する第1のタイプに対応する第1のタイプの言葉及び前記データ属性を有する第2のタイプの言葉のうちの少なくとも一方に仕分けされる。 In one embodiment, the plurality of terms are arranged in a first category having the category attribute based on the meaning of each of the terms and location information about each of the terms in the target document. A first type of term corresponding to the type and/or a second type of term having the data attribute.

前記仕分け過程は、人工知能モデルを通して行われてもよい。人工知能モデルは、前記既に定義された複数の範疇を基準として、前記複数の言葉のそれぞれがどのような範疇に属する言葉であるかを判断し、前記複数の言葉がそれぞれ「属性」(第1のタイプ)であるか、あるいは、「値」(第2のタイプ)であるかを判断する。 The sorting process may be performed through an artificial intelligence model. The artificial intelligence model determines to which category each of the plurality of words belongs based on the plurality of categories already defined, and each of the plurality of words has an "attribute" (first type) or "value" (second type).

複数の言葉のうち、第1のタイプに仕分けされた第1のタイプの言葉のそれぞれに対応する第1のタイプのトークンが生成され、複数の言葉のうち、第2のタイプに仕分けされた第2のタイプの言葉のそれぞれに対応する第2のタイプのトークンが生成される。 A first type token corresponding to each of the first type words classified into the first type among the plurality of words is generated, and a first type token corresponding to each of the plurality of words classified into the second type is generated. A second type of token is generated corresponding to each of the two types of words.

前記第1のタイプのトークンは、範疇の属性を定義するトークンであり、範疇名(フィールド名、範疇の属性)を示すテキストを含んでいてもよい。第1のタイプのトークンに含まれているテキストは、既に記憶された範疇と関わる情報に含まれている範疇名であってもよい。ここで、特定の第1のタイプのトークンに含まれているテキストは、前記特定の第1のタイプのトークンの生成にベースとなった第1のタイプの言葉と同一ではない場合もある。 The first type of token is a token that defines an attribute of a category and may contain text indicating the category name (field name, category attribute). The text contained in the first type of token may be a category name contained in information relating to already stored categories. Here, the text contained in a particular first type token may not be the same as the first type words on which said particular first type token was generated.

例えば、図3を参照すると、第1のタイプに仕分けされた言葉の「品名」に基づいて生成される第1のタイプのトークンは、「品名」を含んでおらず、テキスト「name」を含んでいる。 For example, referring to FIG. 3, the first type token generated based on the word "name" of the first type does not contain "name" but the text "name". I'm in.

前記第2のタイプのトークンは、対象ドキュメントから取り出された言葉それ自体であってもよい。 Said second type of tokens may be the words themselves extracted from the target document.

例えば、図3を参照すると、第2のタイプに仕分けされた言葉の「Happy」に対応する第2のタイプのトークンは、テキスト「Happy」それ自体であってもよい。 For example, referring to FIG. 3, the second type token corresponding to the second typed word "Happy" may be the text "Happy" itself.

一方、特定の第1のタイプのトークンは、第2のタイプの言葉の意味に基づいて生成されてもよい。具体的に、複数の言葉のうち、第2のタイプに仕分けされた第2のタイプの言葉が属する範疇のそれぞれに対する第1のタイプのトークンが生成されてもよい。 On the other hand, certain first type tokens may be generated based on the semantics of second type words. Specifically, a first type token may be generated for each category to which the second type words classified as the second type belong among the plurality of words.

一実施形態において、前記複数の言葉のうち、特定の範疇の範疇値に相当する特定の第2のタイプの言葉が存在し、前記特定の範疇に相当する言葉が存在しない場合、前記特定の範疇の範疇値に相当する前記特定の第2のタイプの言葉に基づいて、前記特定の範疇に対応する特定の第1のタイプのトークンが生成されてもよい。 In one embodiment, if there is a specific second type word corresponding to the category value of a specific category among the plurality of words, and there is no word corresponding to the specific category, the specific category A particular first type token corresponding to the particular category may be generated based on the particular second type word corresponding to the category value of .

例えば、図3を参照すると、対象ドキュメント10には、「店名・売り場名」の範疇の属性に対応する言葉が存在しない。本発明は、対象ドキュメント10から取り出された第2のタイプの言葉「Happy」、「Store」11の意味に基づいて、既に定義された複数の範疇のうち、「店名・売り場名」の範疇を特定し、「店名・売り場名」の範疇に対応する第1のタイプのトークンを生成することができる。 For example, referring to FIG. 3, the target document 10 does not have words corresponding to the attribute of the category of "store name/department name". According to the present invention, based on the meanings of the second type words "Happy" and "Store" 11 extracted from the target document 10, among the plurality of categories already defined, the category of "store name/department name" is defined. A first type of token can be generated that identifies and corresponds to the "store name/department name" category.

上述したように、本発明は、たとえ、対象ドキュメントに範疇の属性を指し示す言葉が存在しないとしても、第2のタイプの言葉の実質的な意味に基づいて、対象ドキュメントに含まれている範疇を特定する。 As noted above, the present invention identifies categories contained in a target document based on the substantive meaning of terms of the second type, even if there are no terms in the target document that indicate attributes of the category. Identify.

一実施形態において、図3を参照すると、対象ドキュメント10から複数の言葉(「Happy」、「store」、「105 h-street」、「注文番号:」、「20210520011」、「品名」、「数量」、「金額」、「Carrot」、「3」、「2997」、「tomato」、「2」、「1000」)が取り出される。 In one embodiment, referring to FIG. 3, multiple words (“Happy”, “store”, “105 h-street”, “order number:”, “20210520011”, “item name”, “quantity , "amount", "Carrot", "3", "2997", "tomato", "2", "1000") are retrieved.

一方、取り出された言葉の一部(「品名」、「数量」、「金額」、「注文番号:」)は、第1のタイプの言葉に仕分けされ、残りの一部(「Happy」、「store」、「105 h-street」、「20210520011」、「Carrot」、「3」、「2997」、「tomato」、「2」、「1000」、「20210520011」)は、第2のタイプの言葉に仕分けされてもよい。 On the other hand, some of the extracted words ("product name", "quantity", "price", "order number:") are sorted into words of the first type, and the remaining parts ("Happy", " store", "105 h-street", "20210520011", "Carrot", "3", "2997", "tomato", "2", "1000", "20210520011") are words of the second type may be sorted into

引き続き、取り出された言葉のそれぞれの意味に基づいて、既に定義された複数の範疇のうち、複数の言葉のそれぞれに対応する一部の範疇が特定される。具体的に、取り出された言葉の意味に基づいて、「store」、「name」(「store」の範疇の下位範疇)、「address」、「item」、「list」、「menu」、「name」(「menu」の範疇の下位範疇)、「count」、「price」の範疇が特定されてもよい。 Subsequently, based on the respective meanings of the retrieved terms, some of the previously defined categories corresponding to each of the terms are identified. Specifically, based on the meaning of the words retrieved, "store", "name" (a subcategory of the category of "store"), "address", "item", "list", "menu", "name (a subcategory of the "menu" category), "count" and "price" categories may be specified.

次いで、「address」、「item」、「list」、「menu」、「name」(「menu」の範疇の下位範疇)、「count」、「price」の範疇のそれぞれに対応する第1のタイプのトークンが生成され、第2のタイプの言葉に仕分けされた言葉に対応する第2のタイプのトークンが生成される。 Then, a first type corresponding to each of the categories "address", "item", "list", "menu", "name" (a subcategory of the category of "menu"), "count", and "price" are generated, and second type tokens are generated corresponding to the words sorted into the second type of words.

一方、対象ドキュメントから取り出しようとするデータのうち、ユーザーにとって不要な範疇のデータは、データの取出に際して削除するように設定されてもよい。ユーザーは、ユーザーにとって不要なデータの範疇を予め設定し、当該範疇のデータに対するトークンが生成されないように設定してもよい。既に設定された範疇に属する言葉(「注文番号:」、「20210520011」)は削除されてもよい。 On the other hand, among the data to be retrieved from the target document, data in a category unnecessary for the user may be set to be deleted when the data is retrieved. The user may preset a category of data that is unnecessary for the user, and set such that a token for data in that category is not generated. Words belonging to the already set category (“order number:”, “20210520011”) may be deleted.

一実施形態において、図3に示す表を参照すると、第1及び第2のタイプの言葉に仕分けされた複数の言葉に基づいて、複数のトークン(出力トークン:output token)320が生成されてもよい。複数のトークンは、時間の流れ(t)に従って順番に生成されてもよい。 In one embodiment, referring to the table shown in FIG. 3, a plurality of tokens (output tokens) 320 may be generated based on a plurality of terms sorted into first and second types of terms. good. A plurality of tokens may be generated sequentially according to the flow of time (t).

前記複数のトークンは、第3のタイプのトークンを含んでいてもよい。第3のタイプのトークンについては後述する。 The plurality of tokens may include tokens of a third type. A third type of token is described below.

次いで、対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップが行われる(S130)。 A step of arranging the plurality of tokens to reflect the data structure between the plurality of words contained in the target document is then performed (S130).

対象ドキュメントに含まれている複数の言葉は、所定のデータ構造を有することができる。データ構造とは、複数の言葉の特性及び言葉の間の関係を論理的な観点から示す構造であり、データ構造の種類は、リスト(一覧)、並べ、木(ツリー)、グラフ、キュー及びスタックのうちの少なくとも一つを含んでいてもよいが、これに何ら限定されない。 A plurality of terms contained in the target document can have a predetermined data structure. A data structure is a structure that shows the characteristics of multiple words and the relationships between words from a logical point of view, and the types of data structures are lists, rows, trees, graphs, queues, and stacks. Although it may contain at least one of, it is not limited to this at all.

例えば、図1において述べた対象ドキュメント10は、「店名・売り場名」の範疇、「売り場の住所」の範疇、「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有する。ただし、対象ドキュメント10に対応するデータ構造は、必ずしも絶対的なものであるとは限らず、対象ドキュメント10に関するデータ構造は、データ構造を定義する方式に応じて異なってくる場合がある。 For example, the target document 10 described with reference to FIG. It has a data structure containing categories. However, the data structure corresponding to the target document 10 is not necessarily absolute, and the data structure regarding the target document 10 may vary depending on the method of defining the data structure.

この明細書において、複数のトークンを並べるステップは、対象ドキュメントに含まれている複数の言葉の間のデータ構造と同一の構造のデータを生成するように実現されてよく、対象ドキュメントに含まれている複数の言葉の間のデータ構造が既に設定された方式に従って変形された構造のデータを生成するように実現されてもよい。 In this specification, the step of arranging a plurality of tokens may be implemented so as to generate data of the same structure as the data structure between the plurality of words included in the target document. It may be implemented to generate data of a structure in which the data structure between multiple words is transformed according to a pre-established method.

例えば、図1において述べた対象ドキュメント10は、「店名・売り場名」の範疇、「売り場の住所」の範疇、「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有し、本発明に係るトークンを並べるステップは、「店名・売り場名」の範疇及び「売り場の住所」の範疇の上位範疇である「売り場」の範疇、「売り場」の範疇の下位概念である「店名・売り場名」の範疇及び「売り場の住所」の範疇、互いに関連付けられた「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有するデータが実現されるように行われてもよい。 For example, the target document 10 described with reference to FIG. Having a data structure containing categories, the step of arranging tokens according to the present invention includes the category of "store name/selling area name" and the category of "selling area", which is a higher category of the category of "selling area address". The category of "store name / sales area name" and "sales area address" category, which are subordinate concepts of the category, the "order product name" category, the "order quantity" category, and the "order amount" category that are related to each other Data having a data structure containing it may be implemented.

上述したように、本発明は、対象ドキュメント10に含まれている範疇の上位概念の範疇を新たに定義し、または、互いに異なる範疇のデータを互いに関連付けたりすることができる。 As described above, the present invention can define new superordinate categories of the categories included in the target document 10, or associate different categories of data with each other.

複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンが順番に並べられる。 In the step of arranging the plurality of tokens, the plurality of tokens are arranged in order using the meanings of the plurality of terms and location information for each of the plurality of terms.

前記複数のトークンを並べるステップは、必ずしも複数のトークンがいずれも生成された後に行われる必要はない。本発明は、前記複数のトークンの一部が生成された状態で、生成されたトークンを並べた後で、さらにトークンを生成するような方式によって行われてもよい。 The step of arranging the plurality of tokens does not necessarily have to be performed after all of the plurality of tokens have been generated. The present invention may be carried out by a method in which a further token is generated after arranging the generated tokens in a state in which some of the plurality of tokens are generated.

一実施形態において、本発明は、一つのトークンが生成されるたびに、生成されたトークンを並べるような方式により行われてもよい。 In one embodiment, the present invention may be performed in such a manner that the generated tokens are ordered each time a token is generated.

以下、複数のトークンを並べる方法について詳しく説明する。 The method for arranging multiple tokens will be described in detail below.

第2のタイプに仕分けされた特定の第2のタイプの言葉が属する第1の範疇に対応する第1のタイプのトークンと、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンは、順番に並べられてもよい。 A first type token corresponding to a first category to which a specific second type word classified as a second type belongs, and a second type token corresponding to the specific second type word Tokens may be ordered.

一実施形態において、同一の範疇である第1の範疇に対応する第1のタイプのトークンと第2のタイプのトークンは、順番に並べられてもよい。この明細書においては、説明のしやすさのために、第1のタイプのトークンが第2のタイプのトークンよりも先に並べられる実施形態について説明するが、これに何ら限定されず、第2のタイプのトークンが第1のタイプのトークンよりも先に並べられてもよい。 In one embodiment, tokens of the first type and tokens of the second type corresponding to a first category of the same category may be ordered. In this specification, for ease of explanation, an embodiment in which tokens of the first type are ordered before tokens of the second type will be described, but is not limited thereto. type tokens may be ordered before the first type tokens.

他の一実施形態において、一つのトークンが生成されるたびに、生成されたトークンを並べるような方式によりトークンの並べ作業が行われる場合、先に並べられるトークンがこれよりも後で並べられるトークンよりも先に生成されることもある。 In another embodiment, when tokens are arranged in a manner such that the generated tokens are arranged each time one token is generated, the tokens that are arranged earlier are arranged later. may be generated earlier than

一方、前記第1の範疇に属する特定の第2のタイプの言葉は、複数であってもよい。この場合、複数の前記特定の第2のタイプの言葉のそれぞれに対応する複数の第2のタイプのトークンが順番に並べられる。 On the other hand, there may be a plurality of specific second type words belonging to the first category. In this case, a plurality of second type tokens corresponding to each of the plurality of specific second type words are arranged in order.

このとき、順番に並べられた前記複数の第2のタイプのトークンの並べ順は、複数の前記特定の第2のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められてもよい。 At this time, the order in which the plurality of second type tokens arranged in order is determined based on the respective meanings of the plurality of specific second type words and positional information on the target document. may

例えば、図3を参照すると、生成されたトークン320のうち、第2のタイプのトークンである「Happy」のトークンと「store」のトークンは、「[name]」のトークンに続いて順番に並べられ、前記二つの第2のタイプのトークンのそれぞれの言葉に基づいて、「Happy」のトークンが先に並べられ、「store」のトークンが「Happy」のトークンに続いて並べられる。 For example, referring to FIG. 3, among the generated tokens 320, tokens of the second type, “Happy” tokens and “store” tokens, are ordered following the “[name]” token. and the "Happy" token is ordered first and the "store" token is ordered following the "Happy" token, based on the respective words of the two second type tokens.

上述したように、本発明は、対象ドキュメントから取り出された言葉の大きさを最小化させることにより、たとえ、対象ドキュメントの形態が変形されたり一部が失われたりすることに伴い、テキスト間の相対的な位置が不規則的になる場合であっても、言葉の意味に基づいて、高い正確度をもって情報を取り出せるようにする。 As described above, the present invention minimizes the size of words extracted from a target document, so that even if the shape of the target document is distorted or partly lost, there will be a large gap between texts. To extract information with high accuracy based on the meaning of words even when relative positions are irregular.

一方、互いに異なる範疇に属する第1のタイプのトークンは、順番に並べられる。具体的に、前記第1の範疇に対応する第1のタイプのトークンと、前記第1の範疇とは異なる第2の範疇に対応する第1のタイプのトークンとが順番に並べられる。 On the other hand, tokens of the first type belonging to different categories are ordered. Specifically, a first type token corresponding to the first category and a first type token corresponding to a second category different from the first category are arranged in order.

このとき、前記第1の範疇に対応する第1のタイプのトークンと、前記第2の範疇に対応する第2のタイプのトークンとの間には、前記第1の範疇及び前記第2の範疇のそれぞれに対応するトークンを区別するための第3のタイプのトークンが並べられてもよい。 At this time, between the first type token corresponding to the first category and the second type token corresponding to the second category, the first category and the second category A third type of token may be arranged for distinguishing tokens corresponding to each of .

一実施形態において、第1の範疇に属するトークンが第1のタイプのトークンのみ存在(対象ドキュメントから属性に対応する言葉のみ取り出され、値に対応する言葉は取り出されていない場合)する場合に、第3のタイプのトークンは、第1のタイプのトークンに続いて並べられる。 In one embodiment, if there are only tokens of the first type among tokens belonging to the first category (when only terms corresponding to attributes are extracted from the target document and no terms corresponding to values are extracted), Tokens of the third type are ordered following the tokens of the first type.

他の一実施形態において、第1の範疇に属するトークンが第1のタイプのトークンと一つの第2のタイプのトークンである場合、第1の範疇に対応する第1のタイプのトークンが最初に並べられ、第1のタイプのトークンに続いて第2のタイプのトークンが並べられてもよい。第3のタイプのトークンは、第2のタイプのトークンに続いて並べられる。 In another embodiment, if the tokens belonging to the first category are a first type token and one second type token, the first type token corresponding to the first category is first Tokens of the first type may be ordered followed by tokens of the second type. Tokens of the third type are ordered following tokens of the second type.

他の一実施形態において、第1の範疇に属するトークンが第1のタイプのトークンと複数の第2のタイプのトークンである場合、前記第1の範疇に対応する第1のタイプのトークンが最初に並べられ、前記第1の範疇に対応する第1のタイプのトークンに続いて、前記特定の第2のタイプの言葉に対応する複数の第2のタイプのトークンが順番に並べられ、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンのうち、最後に並べられた特定の第2のタイプのトークンに続いて、前記第3のタイプのトークンが並べられてもよい。 In another embodiment, if the tokens belonging to a first category are a first type token and a plurality of second type tokens, the first type tokens corresponding to said first category are first , followed by a plurality of second type tokens corresponding to the specific second type words, and the specific Of the second type tokens corresponding to the second type words of , the third type token may be arranged following the specific second type token arranged last.

上述したように、前記第3のタイプのトークンは、特定の範疇に属する少なくとも一つのトークンのうち、最後に並べられてもよい。 As described above, the third type token may be ordered last among at least one token belonging to a particular category.

対象ドキュメント10から取り出された複数の言葉のそれぞれの意味に基づいて、既に定義された複数の範疇のうち、複数の言葉のそれぞれに対応する範疇が特定されてもよい。既に定義された複数の範疇のうち、前記特定された範疇が定義する概念よりも上位概念の範疇が存在する場合、前記上位概念の範疇が複数の言葉のそれぞれに対応する範疇として特定されてもよい。 Based on the meaning of each of the plurality of terms retrieved from the target document 10, a category corresponding to each of the plurality of terms may be identified among the plurality of previously defined categories. Among the already defined categories, if there is a category of a higher concept than the concept defined by the specified category, even if the category of the higher concept is specified as a category corresponding to each of the plurality of words good.

上述した上位概念の範疇は、特定のカテゴリーの上位カテゴリーであると理解されてもよい。この明細書において、特定の範疇に対する上位概念の範疇を上位範疇と称し、前記上位範疇の下位概念の範疇を下位範疇と称する。前記言い回しは相対的な言い回しであるため、特定の範疇を基準として活用してもよい。 The broader categories described above may be understood to be supercategories of a particular category. In this specification, categories that are superordinate to a particular category are referred to as supercategories, and categories that are subordinate to the supercategory are referred to as subcategories. Since the phrases are relative phrases, a particular category may be used as a reference.

例えば、前記第1の範疇の上位概念に対応する範疇が存在する場合に、前記上位概念に対応する範疇は第3の範疇と特定されてもよい。この場合、前記第1の範疇は前記第3の範疇の下位範疇と称されてもよく、前記第3の範疇は前記第1の範疇の上位範疇と称されてもよい。 For example, if there is a category corresponding to the superordinate concept of the first category, the category corresponding to the superordinate concept may be identified as the third category. In this case, the first category may be referred to as a subcategory of the third category, and the third category may be referred to as a supercategory of the first category.

前記上位概念の範疇よりも上位概念の範疇が既に定義された場合に、前記上位概念の範疇よりも上位概念の範疇も、また、複数の言葉のそれぞれに対応する範疇と特定されてもよい。 When the category of the broader concept than the category of the broader concept is already defined, the category of the broader concept than the category of the broader concept may also be specified as the category corresponding to each of the plurality of words.

特定の範疇の上位範疇が特定される場合に、上位範疇に対応する第1のタイプのトークンが生成されてもよい。例えば、前記特定された第3の範疇に対応する前記第1のタイプのトークンが生成される。前記第3の範疇に対応する第1のタイプのトークン、前記第1の範疇に対応する第1のタイプのトークン及び前記第1の範疇に対応する第2のタイプのトークンは、順番に並べられてもよい。 If a supercategory of a particular category is identified, a first type of token corresponding to the supercategory may be generated. For example, tokens of the first type corresponding to the identified third category are generated. A first type token corresponding to the third category, a first type token corresponding to the first category and a second type token corresponding to the first category are ordered. may

一方、特定の範疇の下位範疇は、複数特定されてもよい。例えば、前記第1及び第2の範疇が前記第3の範疇の下位範疇であってもよい。この場合、第1乃至第3の範疇に対応する第1のタイプのトークンが生成される。前記第3の範疇に対応する第1のタイプのトークン、前記第1の範疇に対応する第1のタイプのトークン、前記第1の範疇に対応する第2のタイプのトークン、第3のタイプのトークン、前記第2の範疇に対応する第1のタイプのトークン及び前記第2の範疇に対応する第2のタイプのトークンは、順番に並べられてもよい。 On the other hand, multiple subcategories of a particular category may be specified. For example, the first and second categories may be subcategories of the third category. In this case, tokens of the first type corresponding to the first to third categories are generated. a first type token corresponding to said third category; a first type token corresponding to said first category; a second type token corresponding to said first category; Tokens, tokens of a first type corresponding to said second category and tokens of a second type corresponding to said second category may be ordered.

上述したように、二つの下位範疇のそれぞれに対応する第1のタイプのトークンの間には、第3のタイプのトークンが並べられる。 As mentioned above, between tokens of the first type corresponding to each of the two subcategories, tokens of the third type are juxtaposed.

図3に基づいて、実際の領収証を基に生成されたトークンを並べる方法についてさらに詳しく説明する。 Based on FIG. 3, the method of arranging tokens generated based on actual receipts will be described in more detail.

図3においては、トークンが生成された順番とトークンの並べ順とが同一であるということを想定して説明するが、トークンの生成順番とトークンの並べ順とが必ずしも一致するとは限らない。 In FIG. 3, the explanation is given on the assumption that the token generation order and the token arrangement order are the same, but the token generation order and the token arrangement order do not necessarily match.

対象ドキュメント10から取り出された言葉のそれぞれの意味に基づいて、「[store]」、「[name]」(「[store]」のトークンに対応する範疇の下位範疇に対応)、「[address]」(「[store]」のトークンに対応する範疇の下位範疇に対応)、「[item]」、「[list]」(「[item]」のトークンに対応する範疇の下位範疇に対応)、「[menu]」(「[list]」のトークンに対応する範疇の下位範疇に対応)、「[name]」(「[menu]」のトークンに対応する範疇の下位範疇に対応)、「[count]」(「[menu]」のトークンに対応する範疇の下位範疇に対応)、及び「[price]」(「[menu]」のトークンに対応する範疇の下位範疇に対応)トークンが生成される。 Based on the respective meanings of the words retrieved from the target document 10, "[store]", "[name]" (corresponding to subcategories of the category corresponding to the token of "[store]"), "[address] ” (corresponding to the subcategories of the category corresponding to the token of “[store]”), “[item]”, “[list]” (corresponding to the subcategories of the category corresponding to the token of “[item]”), "[menu]" (corresponding to the subcategory of the category corresponding to the token of "[list]"), "[name]" (corresponding to the subcategory of the category corresponding to the token of "[menu]"), "[ count]” (corresponding to a subcategory of the category corresponding to the token of “[menu]”) and “[price]” (corresponding to a subcategory of the category corresponding to the token of “[menu]”) are generated. be.

また、第2のタイプに仕分けされた言葉(「Happy」、「store」、「105 h-street」、「20210520011」、「Carrot」、「3」、「2997」、「tomato」、「2」、「1000」)に対応する第2のタイプのトークンが生成される。 In addition, words classified into the second type ("Happy", "store", "105 h-street", "20210520011", "Carrot", "3", "2997", "tomato", "2" , “1000”) are generated.

複数の範疇のうち、最も上位概念に対応する二つの範疇「store」、「item」の範疇のうちのどちらか一方に対応する[store]のトークンが最初のトークンとして並べられる。次いで、「store」の範疇の下位範疇に対応する「name」の範疇に対応する[name]のトークンが[store]のトークンに続いて並べられ、「name」の範疇に属している第2のタイプの言葉に対応する「Happy」、「store」のトークンが[name]のトークンに続いて続けて並べられる。 Among the plurality of categories, the [store] token corresponding to one of the two categories "store" and "item" corresponding to the highest concept is arranged as the first token. Next, the [name] token corresponding to the "name" category corresponding to the subcategory of the "store" category is listed following the [store] token, and the second token belonging to the "name" category is listed. Tokens of "Happy" and "store" corresponding to words of the type are successively arranged after the token of [name].

「name」の範疇に属しているトークン321aがいずれも並べられた後、「name」の範疇に対応するトークンのうち、最後のトークン(「store」のトークン」)に続いて第3のタイプのトークン([reduce])321bが並べられる。次いで、「store」の範疇の下位範疇に対応する「address」の範疇に対応する[address]のトークンが[reduce]のトークンに続いて並べられる。 After all the tokens 321a belonging to the category of "name" are arranged, the last token (token of "store") among the tokens corresponding to the category of "name" is followed by the third type. Tokens ([reduce]) 321b are arranged. Next, the [address] token corresponding to the "address" category corresponding to the subcategory of the "store" category is arranged following the [reduce] token.

図示はしないが、以降の並べ方について詳述する。「address」の範疇に属している第2のタイプの言葉に対応する「105 h-street」のトークンが[address]のトークンに続いて並べられる。「address」の範疇に属しているトークンがいずれも並べられた後、「address」の範疇に対応するトークンのうち、最後のトークン(「105 h-street」のトークン)に続いて第3のタイプのトークンが並べられる。 Although not shown, the arrangement method will be described in detail below. Tokens of "105 h-street" corresponding to words of the second type belonging to the category of "address" are listed following the token of [address]. After all the tokens belonging to the category of 'address' are arranged, the last token (the token of '105 h-street') among the tokens corresponding to the category of 'address' is followed by the third type tokens are arranged.

一方、「store」の範疇に対応するすべてのトークンが並べられたため、第3のタイプのトークンがさらにもう一回並べられる。すなわち、「address」の範疇に対応するトークンのうち最後のトークン(「105 h-street」のトークン)に続いて、二つの第3のタイプのトークンが続けて並べられる。 On the other hand, since all tokens corresponding to the "store" category have been ordered, tokens of the third type are ordered one more time. That is, following the last token (“105 h-street” token) among the tokens corresponding to the “address” category, two third type tokens are consecutively arranged.

続けて並べられた二つの第3のタイプのトークンに続いて、「item」の範疇に対応する[item]のトークンが並べられる。[item]のトークンに続いて、「item」の範疇の下位範疇である「list」の範疇に対応する[list]のトークン、「list」の範疇の下位範疇である「menu」の範疇に対応する[menu]のトークン、「menu」の範疇の下位範疇である「name」の範疇に対応する[name]のトークンが続けて並べられる。[name]のトークンに続いて、「name」の範疇に属している値に対応する「carrot」のトークンが続けて並べられ、「carrot」のトークンに続いて、[reduce]のトークンが並べられる。 Following the two third-type tokens listed in succession, the [item] token corresponding to the "item" category is listed. Following the [item] token, the [list] token corresponding to the "list" category, which is a subcategory of the "item" category, corresponds to the "menu" category, which is a subcategory of the "list" category. Tokens of [menu] corresponding to the category of "menu" and tokens of [name] corresponding to the category of "name" which is a subcategory of the category of "menu" are successively arranged. The [name] token is followed by the "carrot" token corresponding to the value belonging to the "name" category, and the "carrot" token is followed by the [reduce] token. .

次いで、「menu」の範疇の下位範疇である「count」の範疇に対応する[count]のトークンが続けて並べられる。[count]のトークンに続いて、「count」の範疇に属している値に対応する「3」のトークンが続けて並べられ、「3」のトークンに続いて、[reduce]のトークンが並べられる。 Next, the [count] tokens corresponding to the "count" category, which is a subcategory of the "menu" category, are successively arranged. The [count] token is followed by the "3" token corresponding to the value belonging to the "count" category, and the "3" token is followed by the [reduce] token. .

次いで、「menu」の範疇の下位範疇である「price」の範疇に対応する[price]のトークンが続けて並べられる。[price]のトークンに続いて、「price」の範疇に属している値に対応する「2997」のトークンが続けて並べられ、「2997」のトークンが並べられる。 Next, the [price] tokens corresponding to the "price" category, which is a subcategory of the "menu" category, are successively arranged. Following the [price] token, "2997" tokens corresponding to values belonging to the "price" category are arranged, and "2997" tokens are arranged.

「price」の範疇、「menu」の範疇、「list」の範疇に対応するすべてのトークンが並べられたため、「2997」のトークンに続いて、三つの第3のタイプのトークンが続けて並べられる。 Since all the tokens corresponding to the "price" category, the "menu" category, and the "list" category are listed, following the "2997" token, three tokens of the third type are listed in succession. .

次いで、続けて並べられた三つの第3のタイプのトークンに続いて、「item」の範疇の下位範疇である「list」の範疇に対応する[list]のトークン、「list」の範疇の下位範疇である「menu」の範疇に対応する[menu]のトークン、「menu」の範疇の下位範疇である「name」の範疇に対応する[name]のトークンが続けて並べられる。[name]のトークンに続いて、「name」の範疇に属している値に対応する「tomato」のトークンが続けて並べられ、「tomato」のトークンに続いて、[reduce]のトークンが並べられる。 Then, three tokens of the third type listed in succession are followed by tokens of [list] corresponding to categories of "list" which are subcategories of the category of "item", subcategories of the category of "list". The [menu] token corresponding to the category "menu" and the [name] token corresponding to the subcategory "name" of the "menu" category are successively arranged. The [name] token is followed by the "tomato" token corresponding to the value belonging to the "name" category, and the "tomato" token is followed by the [reduce] token. .

次いで、「menu」の範疇の下位範疇である「tomato」の範疇に対応する[count]のトークンが続けて並べられる。[count]のトークンに続いて、「count」の範疇に属している値に対応する「2」のトークンが続けて並べられ、「2」のトークンに続いて、[reduce]のトークンが並べられる。 Next, the [count] tokens corresponding to the "tomato" category, which is a subcategory of the "menu" category, are consecutively arranged. The [count] token is followed by the "2" token corresponding to the value belonging to the "count" category, and the "2" token is followed by the [reduce] token. .

引き続き、「menu」の範疇の下位範疇である「price」の範疇に対応する[price]のトークンが続けて並べられる。[price]のトークンに続いて、「price」の範疇に属している値に対応する「1000」のトークンが続けて並べられ、「1000」のトークンが並べられる。前記「1000」のトークンを最後にトークンの並べが終わる。 Subsequently, tokens of [price] corresponding to the category of "price" which is a subcategory of the category of "menu" are continuously arranged. Following the [price] token, "1000" tokens corresponding to values belonging to the "price" category are arranged, and "1000" tokens are arranged. The arrangement of tokens ends with the "1000" token.

一方、前記生成されたトークン及び前記トークンが並べられた順番に基づいて、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータが生成されてもよい。 On the other hand, data reflecting the data structure between the plurality of words included in the target document may be generated based on the generated tokens and the order in which the tokens are arranged.

前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータは、トークンが並べられた順番の通りにトークンに対応するアクションを行うことにより生成される。 Data reflecting the data structure between the plurality of words included in the target document is generated by performing actions corresponding to the tokens in the order in which the tokens are arranged.

一実施形態において、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータは、木(tree)状に生成されてもよい。 In one embodiment, data reflecting a data structure among the plurality of words included in the target document may be generated in a tree shape.

木データは、複数のノード及び複数のレイヤーを備え、それぞれのノードには複数の範疇のうちのいずれか一つが対応し、対応する範疇の属性及び値のうちの少なくとも一つがマッチングされる。 The tree data includes multiple nodes and multiple layers, each node corresponds to one of multiple categories, and at least one of attributes and values of the corresponding category is matched.

木データの生成に際して最上位ノードSを基準ノードとして設定した後で、トークンが並べられた順番の通りに、トークンに対応するアクションを行ってノードを生成するか、あるいは、ノードに対応するデータをマッチングさせる。 After setting the top node S as a reference node when generating tree data, the nodes are generated by performing actions corresponding to the tokens in the order in which the tokens are arranged, or the data corresponding to the nodes are generated. match.

第1のタイプのトークンに対するアクションは、基準ノードの下位ノードを生成し、生成された下位ノードを基準ノードに変更するものであり、第2のタイプのトークンに対するアクションは、基準ノードに当該第2のタイプのトークンに対応する言葉を値としてマッチングさせるものである。第3のタイプのトークンに対するアクションは、基準ノードよりも1段階上位のノードを基準ノードに変更するものである。 The action for the first type token is to create a subnode of the base node and change the generated subnode to the base node, and the action for the second type token is to convert the base node to the second node. It matches words corresponding to tokens of the type as values. The action for a third type of token is to change the node one step above the reference node to the reference node.

上述した基準に従い、順番に並べられたトークンから木データが生成されてもよい。 Tree data may be generated from the ordered tokens according to the criteria described above.

図3及び図4に基づいて、木データを生成する一実施形態について説明する。対象ドキュメント10からトークンを生成し、かつ、並べる方法に関する説明は、上述した説明に換えるものとする。 An embodiment for generating tree data will be described with reference to FIGS. 3 and 4. FIG. The description of the method of generating and arranging tokens from the target document 10 shall be replaced with the above description.

図3を参照すると、トークンが並べ順の通りにトークンに対応するアクション330を行う。図3に示す表のトークン生成時間列311に含まれている数字は、トークンを処理する順番になることがあり、トークンの処理順番の通りにアクション列331に含まれているアクションが行われる。これにより、パース340が行われ、パース列341に含まれているデータが順番に生成される。 Referring to FIG. 3, the tokens perform actions 330 corresponding to the tokens in order. The numbers included in the token generation time column 311 in the table shown in FIG. 3 may be the order of processing the tokens, and the actions included in the action column 331 are performed according to the token processing order. As a result, the parse 340 is performed, and the data included in the parse string 341 are generated in order.

最初に木の最上位ノードSを基準ノードとして設定し、基準ノードにおいて[store]のトークンに対応するアクションNT(store)が行われる。これにより、基準ノードSの下位ノードである[store]のノード410が生成され、基準ノードが[store]のノード410に変更される。 First, the top node S of the tree is set as a reference node, and the action NT (store) corresponding to the [store] token is performed at the reference node. As a result, a node 410 of [store], which is a lower node of the reference node S, is generated, and the reference node is changed to the node 410 of [store].

次いで、[name]のトークンに対応するアクションNT(name)が行われ、[store]のノード410の下位ノードである[name]のノード420が生成され、基準ノードが[name]のノード420に変更される。 Next, the action NT (name) corresponding to the token of [name] is performed, the node 420 of [name], which is a lower node of the node 410 of [store], is generated, and the reference node is the node 420 of [name]. Be changed.

次いで、[name]のノード420に「Happy」のトークンに対応する言葉「Happy」をマッチングさせるアクションGEN(Happy)が行われる。続けて、[name]のノード420に「store」のトークンに対応する言葉「store」をマッチングさせるアクションGEN(store)が行われる。[name]のノード420にマッチングされた言葉は、言葉がマッチングされた順番の通りに直列化(serialization)される。これにより、[name]のノード420には、「Happy store」421がマッチングされる。 Next, an action GEN(Happy) is performed to match the word "Happy" corresponding to the token "Happy" to the [name] node 420 . Subsequently, the action GEN(store) is performed to match the word "store" corresponding to the token "store" to the node 420 of [name]. The terms matched to the [name] node 420 are serialized in the order in which the terms were matched. As a result, "Happy store" 421 is matched to the [name] node 420 .

図3に示す表の331aの領域に含まれているすべてのアクションが行われることに伴い、図4の410、420ノードが生成され、420ノードに対応するテキストがマッチングされる。 As all the actions contained in the area 331a of the table shown in FIG. 3 are performed, nodes 410 and 420 in FIG. 4 are generated and the text corresponding to the 420 node is matched.

次いで、図3に示す表の331bの領域に含まれている[reduce]のトークンに対応するアクションが行われる。これにより、基準ノードが[name]のノードから[name]のノードの上位ノードである[store]のノードに変更される。 Next, the action corresponding to the [reduce] token included in the area 331b of the table shown in FIG. 3 is performed. As a result, the reference node is changed from the [name] node to the [store] node, which is the upper node of the [name] node.

次いで、[address]のトークンに対応するアクションNT(address)が行われ、[store]のノード410の下位ノードである[address]のノードが生成され、基準ノードが[address]のノードに変更される。 Next, the action NT (address) corresponding to the token of [address] is performed, the node of [address] which is a lower node of the node 410 of [store] is generated, and the reference node is changed to the node of [address]. be.

次いで、[address]のノードに「105 h-street」のトークンに対応する言葉「105 h-street」をマッチングさせるアクションGEN(105 h-street)が行われる。これにより、[address]のノードには、「105 h-street」がマッチングされる。 Next, the action GEN (105 h-street) is performed to match the word "105 h-street" corresponding to the token of "105 h-street" to the node of [address]. As a result, "105 h-street" is matched to the [address] node.

次いで、続けて並べられた二つの[reduce]のトークンに対応するアクションが行われ、基準ノードが最上位ノードSに変更される。 Then, the action corresponding to the two [reduce] tokens arranged in succession is performed, and the reference node is changed to the top node S.

次いで、[item]のトークン、[list]のトークン、[menu]のトークン、[name]のトークンに対応するアクションが順番に行われ、[item]のノード430、[list]のノード440、[menu]のノード450、[name]のノード460が順番に生成される。引き続き、「carrot」のトークンに対応するアクションが行われることにより、[name]のノード460に言葉「carrot」461がマッチングされる。 Next, the actions corresponding to the [item] token, the [list] token, the [menu] token, and the [name] token are performed in order, and the [item] node 430, [list] node 440, [ menu] node 450 and [name] node 460 are generated in order. Subsequently, the word "carrot" 461 is matched to the [name] node 460 by performing an action corresponding to the "carrot" token.

上述したルールに従って生成されたトークンに対するアクションを繰り返し行う場合、図4に示す木データが生成可能である。 When actions are repeatedly performed on tokens generated according to the above rules, the tree data shown in FIG. 4 can be generated.

図4に示す木は、対象ドキュメント10に含まれている言葉のそれぞれに関するキー-値の組が完全にマッチングされたデータであり、それぞれのデータの範疇が完全に定義されている。 The tree shown in FIG. 4 is data in which the key-value pairs for each of the words contained in the target document 10 are completely matched, and the categories of each data are completely defined.

上述したように、本発明は、対象ドキュメントから取り出された前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、かつ、生成されたトークン及び生成されたトークンの並べを用いて、対象ドキュメントに含まれている複数の言葉の間のデータ構造が反映されたデータを生成することができる。 As described above, the present invention uses the meanings of the plurality of terms and the location information for each of the plurality of terms extracted from the target document, and uses the generated tokens and the sequence of generated tokens. , it is possible to generate data that reflects the data structure between multiple words contained in the target document.

一方、本発明は、情報取出モデルに対するマシンラーニングを行うときに、上述した木データを基準として情報取出モデルに関する正確度を判断する。 On the other hand, the present invention judges the accuracy of the information retrieval model based on the above tree data when performing machine learning on the information retrieval model.

図5は、本発明に係る情報取出モデルのマシンラーニング方法を示す概念図であり、図6は、本発明に係る情報取出モデルから出力されたデータの正確度を算出する様子を示す概念図である。 FIG. 5 is a conceptual diagram showing the machine learning method of the information retrieval model according to the present invention, and FIG. 6 is a conceptual diagram showing how the accuracy of data output from the information retrieval model according to the present invention is calculated. be.

図5を参照すると、対象ドキュメント10に対するOCR 511を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報512を推定した後で、複数の言葉及び位置情報を本発明に係る情報取出モデル513に入力する。これにより、順番に並べられたトークンが順番に並べられる。 Referring to FIG. 5, after performing OCR 511 on the target document 10 to estimate a plurality of terms and location information 512 for each of the plurality of terms, the terms and location information are processed by the information retrieval model according to the present invention. Enter 513. This causes the ordered tokens to be ordered.

一方、対象ドキュメント10に対応するデータは、学習データに加工される。学習データのための加工は、パースアノテーター(parse annotator)521により行われるが、パースアノテーター521は、既に記憶されたデータを複数のトークンが順番に並べられた複数のトークン状に出力する。すなわち、パースアノテーター521は、本発明に係るマシンラーニングモデルの出力データと同一の形式のデータを出力する。これを通して、マシンラーニングのための原データ(学習データ)が生成される。 On the other hand, data corresponding to the target document 10 is processed into learning data. Processing for learning data is performed by a parse annotator 521, which outputs the already stored data in the form of a plurality of tokens arranged in order. That is, the parse annotator 521 outputs data in the same format as the output data of the machine learning model according to the present invention. Through this, original data (learning data) for machine learning is generated.

本発明に係る情報取出モデルから出力された複数のトークンを基に生成された木データと原データとの誤差を算出し、誤差を最小化させるように訓練が行われてもよい。 An error between tree data generated based on a plurality of tokens output from the information extraction model according to the present invention and the original data may be calculated, and training may be performed to minimize the error.

一実施形態において、図6を参照すると、情報取出モデルの誤差は、情報取出モデルから生成された木データに含まれているノードと原データを構成するノードとを比較することにより算出されてもよい。具体的に、情報取出モデルから出力された木データ(図6における最上段の木)を原データの木(図6における最下段の木)と同様に変化させながら情報取出モデルの誤差が算出されてもよい。 In one embodiment, referring to FIG. 6, the error of the information retrieval model may be calculated by comparing the nodes included in the tree data generated from the information retrieval model with the nodes that make up the original data. good. Specifically, the error of the information retrieval model is calculated while changing the tree data output from the information retrieval model (the topmost tree in FIG. 6) in the same manner as the original data tree (the bottommost tree in FIG. 6). may

具体的に、情報取出モデルから出力された木データ(図6における最上段の木)の各ノード610、620、630とノードにマッチングされた値621、631が原データの木と一致するか否かを判断し、一致しないノード630及び一致しない値631を原データと同様に修正して、一致しないノード630が原データと一致するノード630’に修正されるようにし、一致しない値631が原データと一致する値631’に修正されるようにする。このような過程において、情報取出モデルから出力された木データのスコアが算出される。スコアの算出方式は、既に公知の方式を活用するため、具体的な説明は省略する。 Specifically, whether or not each node 610, 620, 630 of the tree data output from the information extraction model (the topmost tree in FIG. 6) and the values 621, 631 matched to the node match the tree of the original data. unmatched nodes 630 and unmatched values 631 are modified in the same manner as the original data so that unmatched nodes 630 are modified to nodes 630′ that match the original data, and unmatched values 631 are modified to the original data. Let it be modified to a value 631' that matches the data. In this process, the score of the tree data output from the information retrieval model is calculated. Since the score calculation method utilizes an already known method, a detailed description thereof will be omitted.

上述したように、本発明に係る情報取出モデルのマシンラーニングは、情報取出モデルから出力され、順番に並べられたトークンの正確度を算出することにより行われる。前記出力されたトークンは、「キー-値」の組が完全にマッチングされたデータではないので、前記情報取出モデルの正確度を算出するための学習データが生成されやすくなる。 As described above, the machine learning of the information retrieval model according to the present invention is performed by calculating the accuracy of the ordered tokens output from the information retrieval model. Since the output tokens are not data in which the "key-value" pairs are perfectly matched, learning data for calculating the accuracy of the information retrieval model is likely to be generated.

具体的に、学習データの生成に際して既に定められたルール(トークン生成ルール)に従って一定の順番に並べられたトークンを生成した後で、情報取出モデルから出力されたトークンと比較する作業を行うことで、情報取出モデルの正確度を判断し、前記情報取出モデルの正確度を高めるようにマシンラーニングを行うことが可能になる。これにより、情報取出モデルのマシンラーニングのための学習データを生成するのにかかる時間が大幅に短縮される。 Specifically, after generating tokens arranged in a certain order according to rules (token generation rules) that have already been established when generating learning data, the tokens output from the information retrieval model are compared. , the accuracy of an information retrieval model can be determined, and machine learning can be performed to improve the accuracy of the information retrieval model. This greatly reduces the time it takes to generate learning data for machine learning of information retrieval models.

一方、前述した本発明は、コンピューターにおいて一つ以上のプロセスにより実行され、このようなコンピューターにおいて読み取り可能な媒体(または、記録媒体)に記憶可能なプログラムとして実現可能である。 On the other hand, the present invention described above can be implemented as a program that is executed by one or more processes in a computer and can be stored in such a computer-readable medium (or recording medium).

さらに、前述した本発明は、プログラムが記録された媒体にコンピューターにおいて読み取り可能なコードまたはコマンドとして実現することが可能である。すなわち、本発明は、プログラムの形態で提供されてもよい。 Furthermore, the present invention described above can be implemented as computer-readable codes or commands on a program-recorded medium. That is, the present invention may be provided in the form of a program.

一方、コンピューターにおいて読み取り可能な媒体は、コンピューターシステムにより読み込まれるデータが記憶されるあらゆる種類の記録装置を網羅する。コンピューターにおいて読み取り可能な媒体の例としては、ハードディスクドライブ(HDD:Hard Disk Drive)、ソリッドステートディスク(SSD:Solid State Disk)、シリコンディスクドライブ(SDD:Silicon Disk Drive)、読み取り専用メモリー(ROM)、ランダムアクセスメモリー(RAM)、CD-ROM、磁気テープ、フロッピーディスク、光データ記憶装置などが挙げられる。 A computer-readable medium, on the other hand, encompasses any kind of recording device on which data that is read by a computer system is stored. Examples of computer readable media include hard disk drives (HDD), solid state disks (SSD), silicon disk drives (SDD), read-only memory (ROM), Random access memory (RAM), CD-ROM, magnetic tape, floppy disk, optical data storage device, and the like.

さらにまた、コンピューターにおいて読み取り可能な媒体は、保存先を備え、電子機器が通信を通してアクセスできるサーバーまたはクラウド保存先であってもよい。この場合、コンピューターは、有線または無線通信を通して、サーバーまたはクラウド保存先から本発明に係るプログラムをダウンロードすることができる。 Furthermore, the computer-readable medium may be a server or cloud storage that includes the storage and that the electronic device can access through communication. In this case, the computer can download the program according to the present invention from a server or cloud storage via wired or wireless communication.

これらに加えて、本発明においては、以上において説明したコンピューターは、プロセッサー、すなわち、中央処理装置(CPU:Central Processing Unit)が搭載された電子機器であって、その種類に対して格別に限定をしない。 In addition to these, in the present invention, the computer described above is an electronic device equipped with a processor, that is, a central processing unit (CPU: Central Processing Unit). do not do.

一方、上記の詳細な説明は、あらゆる面において制限的であると解釈されてはならず、例示的なものであると考慮されるべきである。本発明の範囲は、特許請求の範囲のリーズナブルな解釈によって決められなければならず、本発明の等価的な範囲内におけるあらゆる変更は、本発明の範囲に含まれる。 However, the above detailed description should not be construed as restrictive in any respect, but rather should be considered illustrative. The scope of the invention should be determined by reasonable interpretation of the claims, and all changes that come within the equivalent scope of the invention are included in the scope of the invention.

Claims (16)

半構造化ドキュメントから情報を取り出す方法であって、
対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を含み、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、
ことを特徴とする、方法。
A method of retrieving information from a semi-structured document, comprising:
performing optical character recognition (OCR) on a target document to retrieve a plurality of terms and location information for each of the plurality of terms;
generating a plurality of tokens corresponding to each of the plurality of terms;
arranging the plurality of tokens to reflect a data structure between the plurality of terms contained in the target document;
including
In the step of arranging the plurality of tokens,
aligning the plurality of tokens using the meanings of the plurality of words and location information for each of the plurality of words;
A method characterized by:
前記複数のトークンは、範疇の属性を有する第1のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第2のタイプのトークンのうちのどちらか一方のタイプを有する、
ことを特徴とする、請求項1に記載の方法。
the plurality of tokens are of one of a first type of token having a category attribute and a second type of token having a data attribute corresponding to the category value;
A method according to claim 1, characterized in that:
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉のそれぞれの意味に基づいて、前記範疇の属性を有する第1のタイプのトークン及び前記データ属性を有する第2のタイプのトークンのうちの少なくとも一方を生成するステップ、を含む、
ことを特徴とする、請求項2に記載の方法。
generating a plurality of tokens corresponding to each of the plurality of terms,
generating at least one of a first type of token having the categorical attribute and a second type of token having the data attribute based on the meaning of each of the plurality of terms;
3. A method according to claim 2, characterized in that:
前記方法は、さらに、
前記複数の言葉のそれぞれの意味及び前記対象ドキュメントにおける複数の言葉のそれぞれに関する位置情報に基づいて、前記複数の言葉を前記範疇の属性を有する第1のタイプに対応する第1のタイプの言葉及び前記データ属性を有する第2のタイプの言葉のうちの少なくとも一方に仕分けするステップ、を含む、
ことを特徴とする、請求項2または3に記載の方法。
The method further comprises:
based on the meaning of each of the plurality of terms and the positional information about each of the plurality of terms in the target document, the plurality of terms to a first type of term corresponding to the first type having the category attribute and sorting into at least one of a second type of terms having said data attribute;
4. A method according to claim 2 or 3, characterized in that:
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記複数の言葉のうち、前記第1のタイプに仕分けされた前記第1のタイプの言葉にそれぞれ対応するように、少なくとも一つの第1のタイプのトークンを生成し、
前記第2のタイプに仕分けされた前記第2のタイプの言葉にそれぞれ対応するように、少なくとも一つの第2のタイプのトークンを生成する、
ことを特徴とする、請求項4に記載の方法。
In generating a plurality of tokens corresponding to each of the plurality of terms,
generating at least one first type token corresponding to each of the first type words sorted into the first type among the plurality of words;
generating at least one second type token to respectively correspond to the second type words sorted into the second type;
5. A method according to claim 4, characterized in that:
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第2のタイプに仕分けされた第2のタイプの言葉が属する範疇のそれぞれに対する第1のタイプのトークンを生成する、
ことを特徴とする、請求項5に記載の方法。
In generating a plurality of tokens corresponding to each of the plurality of terms,
generating first type tokens for each of the categories to which the second type words classified into the second type belong;
6. A method according to claim 5, characterized in that:
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉に特定の範疇の範疇値に相当する特定の第2のタイプの言葉が存在し、前記特定の範疇に相当する言葉が存在しない場合に、
前記特定の範疇の範疇値に相当する前記特定の第2のタイプの言葉に基づいて、前記特定の範疇に対応する特定の第1のタイプのトークンを生成するステップ、
をさらに含む、
ことを特徴とする、請求項6に記載の方法。
generating a plurality of tokens corresponding to each of the plurality of terms,
if there is a specific second type word corresponding to a category value of a specific category in the plurality of words and there is no word corresponding to the specific category,
generating tokens of a particular first type corresponding to the particular category based on words of the particular second type corresponding to category values of the particular category;
further comprising
7. A method according to claim 6, characterized in that:
前記複数のトークンを並べるステップにおいては、
前記第2のタイプに仕分けされた特定の第2のタイプの言葉が属する第1の範疇に対応する第1のタイプのトークンと、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンとを順番に並べる、
ことを特徴とする、請求項6または7に記載の方法。
In the step of arranging the plurality of tokens,
A first type token corresponding to a first category to which the specific second type words classified into the second type belong, and a second type corresponding to the specific second type words. , and the tokens of
8. A method according to claim 6 or 7, characterized in that
前記複数のトークンを並べるステップにおいては、
前記特定の第2のタイプの言葉が複数である場合に、
複数の前記特定の第2のタイプの言葉のそれぞれに対応する複数の第2のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第2のタイプのトークンの並べ順は、複数の前記特定の第2のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、請求項8に記載の方法。
In the step of arranging the plurality of tokens,
when there is a plurality of words of the specific second type,
sequencing a plurality of second type tokens corresponding to each of the plurality of specific second type words;
The order of the plurality of second type tokens arranged in order is determined based on the meaning of each of the plurality of specific second type words and position information on the target document;
9. A method according to claim 8, characterized in that:
前記複数のトークンを並べるステップにおいては、
前記第1の範疇に対応する第1のタイプのトークンと、前記第1の範疇とは異なる第2の範疇に対応する第1のタイプのトークンとを順番に並べ、
前記第1の範疇に対応する第1のタイプのトークンと、前記第2の範疇に対応する第2のタイプのトークンとの間には、前記第1の範疇及び前記第2の範疇のそれぞれに対応するトークンを区別するための第3のタイプのトークンが並べられる、
ことを特徴とする、請求項8に記載の方法。
In the step of arranging the plurality of tokens,
Sequence a first type token corresponding to the first category and a first type token corresponding to a second category different from the first category;
Between the tokens of the first type corresponding to the first category and the tokens of the second type corresponding to the second category, each of the first category and the second category has a third type of token is ordered to distinguish the corresponding tokens;
9. A method according to claim 8, characterized in that:
前記複数のトークンを並べるステップにおいては、
前記第1の範疇に対応する第1のタイプのトークン及び前記特定の第2のタイプの言葉に対応する第2のタイプのトークンのうち、前記第1の範疇に対応する第1のタイプのトークンを最初に並べ、
前記第1の範疇に対応する第1のタイプのトークンに続けて、前記特定の第2のタイプの言葉に対応する第2のタイプのトークンを順番に並べ、
前記特定の第2のタイプの言葉に対応する第2のタイプのトークンのうち、最後に並べられた特定の第2のタイプのトークンに続けて、前記第3のタイプのトークンを並べる、
ことを特徴とする、請求項10に記載の方法。
In the step of arranging the plurality of tokens,
a first type of token corresponding to said first category among a first type of token corresponding to said first category and a second type of token corresponding to said specific second type of words; first, and
sequencing a first type token corresponding to the first category followed by a second type token corresponding to the specific second type word;
Of the second type tokens corresponding to the specific second type words, arranging the third type tokens following the specific second type token arranged last;
11. A method according to claim 10, characterized in that:
前記方法は、さらに、
前記複数のトークンを用いて、前記対象ドキュメントと対応する構造を有するデータを生成するステップ、を含み、
前記データを生成するステップにおいては、
前記複数のトークンのうち、前記第3のタイプのトークンが検出された場合に、
前記第3のタイプのトークンが検出される直前に検出された特定のトークンと、前記第3のタイプのトークンに続く特定のトークンとを互いに異なる範疇にそれぞれ対応するトークンとして捉える、
ことを特徴とする、請求項11に記載の方法。
The method further comprises:
generating data having a structure corresponding to the target document using the plurality of tokens;
In the step of generating the data,
when the third type of token is detected among the plurality of tokens,
A specific token detected immediately before the third type token is detected and a specific token following the third type token are regarded as tokens corresponding to different categories from each other,
12. A method according to claim 11, characterized in that:
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第1の範疇の上位概念に対応する範疇が存在する場合に、
前記上位概念に対応する範疇を第3の範疇と特定し、前記特定された第3の範疇に対応する前記第1のタイプのトークンを生成する、
ことを特徴とする、請求項8乃至12のいずれか一項に記載の方法。
In generating a plurality of tokens corresponding to each of the plurality of terms,
When there is a category corresponding to the superordinate concept of the first category,
identifying a category corresponding to the broader concept as a third category, and generating the first type token corresponding to the identified third category;
13. A method according to any one of claims 8 to 12, characterized in that:
前記第3の範疇に対応する第1のタイプのトークン、前記第1の範疇に対応する第1のタイプのトークン、及び前記第1の範疇に対応する第2のタイプのトークンは、順番に並べられる、
ことを特徴とする、請求項13に記載の方法。
A first type token corresponding to the third category, a first type token corresponding to the first category, and a second type token corresponding to the first category are arranged in order. to be
14. A method according to claim 13, characterized in that:
半構造化ドキュメントから情報を取り出すシステムであって、
対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すOCR部と、
前記複数の言葉のそれぞれに対応する複数のトークンを生成し、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べる制御部と、
を備え、
前記制御部は、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、
ことを特徴とする、システム。
A system for retrieving information from a semi-structured document, comprising:
an OCR unit that performs optical character recognition (OCR) on a target document to retrieve a plurality of terms and location information for each of the plurality of terms;
a control unit that generates a plurality of tokens corresponding to each of the plurality of terms and arranges the plurality of tokens so as to reflect a data structure between the plurality of terms included in the target document;
with
The control unit
aligning the plurality of tokens using the meanings of the plurality of words and location information for each of the plurality of words;
A system characterized by:
コンピューターにて起動する、複数の指令を含むコンピュータープログラムであって、
前記指令が前記コンピューターによって実行されると、
対象ドキュメントに対する光学的文字認識(OCR:Optical character recognition)を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を実施し、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、
ことを特徴とする、コンピュータープログラム。
A computer program running on a computer and comprising a plurality of instructions,
When said instructions are executed by said computer,
performing optical character recognition (OCR) on a target document to retrieve a plurality of terms and location information for each of the plurality of terms;
generating a plurality of tokens corresponding to each of the plurality of terms;
arranging the plurality of tokens to reflect a data structure between the plurality of terms contained in the target document;
and
In the step of arranging the plurality of tokens,
aligning the plurality of tokens using the meanings of the plurality of words and location information for each of the plurality of words;
A computer program characterized by:
JP2022062744A 2021-04-15 2022-04-05 Method and system for extracting information from semi-structured documents Active JP7453731B2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0049464 2021-04-15
KR20210049464 2021-04-15
KR1020210070404A KR102649429B1 (en) 2021-04-15 2021-05-31 Method and system for extracting information from semi-structured documents
KR10-2021-0070404 2021-05-31

Publications (2)

Publication Number Publication Date
JP2022164593A true JP2022164593A (en) 2022-10-27
JP7453731B2 JP7453731B2 (en) 2024-03-21

Family

ID=83743267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022062744A Active JP7453731B2 (en) 2021-04-15 2022-04-05 Method and system for extracting information from semi-structured documents

Country Status (1)

Country Link
JP (1) JP7453731B2 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229314B1 (en) * 2015-09-30 2019-03-12 Groupon, Inc. Optical receipt processing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4052095B2 (en) 2002-11-12 2008-02-27 セイコーエプソン株式会社 Receipt processing apparatus and method, and computer program
JP6098628B2 (en) 2014-12-26 2017-03-22 ブラザー工業株式会社 Image processing program, image processing method, and image processing apparatus
JP7225548B2 (en) 2018-03-22 2023-02-21 セイコーエプソン株式会社 Image processing device, image processing method and image processing program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229314B1 (en) * 2015-09-30 2019-03-12 Groupon, Inc. Optical receipt processing

Also Published As

Publication number Publication date
JP7453731B2 (en) 2024-03-21

Similar Documents

Publication Publication Date Title
US10614266B2 (en) Recognition and population of form fields in an electronic document
JP6629942B2 (en) Hierarchical automatic document classification and metadata identification using machine learning and fuzzy matching
US11615246B2 (en) Data-driven structure extraction from text documents
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
KR20080095861A (en) Strategies for processing annotations
US20150199567A1 (en) Document classification assisting apparatus, method and program
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
Ahmed et al. FLAG-PDFe: Features oriented metadata extraction framework for scientific publications
JP2018063600A (en) Information processing device, information processing method, and program
JP2016027493A (en) Document classification support device, document classification support method, and document classification support program
US20240004677A1 (en) Machine-Learned Models for User Interface Prediction, Generation, and Interaction Understanding
CN114023414A (en) Physical examination report multi-level structure input method, system and storage medium
US20230153335A1 (en) Searchable data structure for electronic documents
US20210182549A1 (en) Natural Language Processing (NLP) Pipeline for Automated Attribute Extraction
JP7453731B2 (en) Method and system for extracting information from semi-structured documents
KR102649429B1 (en) Method and system for extracting information from semi-structured documents
KR20220143538A (en) Method and system for extracting information from semi-structured documents
JP2001325104A (en) Method and device for inferring language case and recording medium recording language case inference program
JP6763967B2 (en) Data conversion device and data conversion method
US11868313B1 (en) Apparatus and method for generating an article
JP7367139B2 (en) Data search method and system
US11983228B1 (en) Apparatus and a method for the generation of electronic media
US20220319216A1 (en) Image reading systems, methods and storage medium for performing geometric extraction
US20240054290A1 (en) Deep technology innovation management by cross-pollinating innovations dataset
Miloševic A multi-layered approach to information extraction from tables in biomedical documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220405

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230621

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240306

R150 Certificate of patent or registration of utility model

Ref document number: 7453731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150