JP7471802B2 - Archive Support System - Google Patents

Archive Support System Download PDF

Info

Publication number
JP7471802B2
JP7471802B2 JP2019208158A JP2019208158A JP7471802B2 JP 7471802 B2 JP7471802 B2 JP 7471802B2 JP 2019208158 A JP2019208158 A JP 2019208158A JP 2019208158 A JP2019208158 A JP 2019208158A JP 7471802 B2 JP7471802 B2 JP 7471802B2
Authority
JP
Japan
Prior art keywords
style
image
support system
drawings
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019208158A
Other languages
Japanese (ja)
Other versions
JP2021081933A (en
Inventor
隆史 松本
直樹 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimizu Corp
Original Assignee
Shimizu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimizu Corp filed Critical Shimizu Corp
Priority to JP2019208158A priority Critical patent/JP7471802B2/en
Publication of JP2021081933A publication Critical patent/JP2021081933A/en
Application granted granted Critical
Publication of JP7471802B2 publication Critical patent/JP7471802B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、アーカイブ支援システムに関し、例えば歴史的建築図面のデジタルアーカイブ(画像群)からメタデータを抽出する作業を支援するアーカイブ支援システムに関するものである。 The present invention relates to an archive support system, for example, an archive support system that supports the task of extracting metadata from a digital archive (group of images) of historical architectural drawings.

従来、様々な資料(図書・文書・絵画・図面等)のデジタルアーカイブ化が、国内外の図書館・文書館・博物館等で進められており、画像資料がデジタル化され、メタデータ(目録情報、書誌情報)のインデックス(例えば、IIIFなど)とともに検索可能になりつつある。 Digital archiving of various materials (books, documents, paintings, drawings, etc.) has been underway in libraries, archives, museums, etc. both in Japan and abroad, and image materials are being digitized and are becoming searchable along with metadata (catalog information, bibliographic information) indexes (e.g., IIIF, etc.).

そうした中、画像解析技術や機械学習により、デジタル画像から、そのコンテンツを分析・抽出する技術が出てきている。例えば、ROIS-DS人文学オープンデータ共同利用センターおよび人間文化研究機構国文学研究資料館では、古文書におけるくずし字を認識しテキスト化するシステムを発表している。 Amid this, image analysis and machine learning techniques are being developed to analyze and extract content from digital images. For example, the ROIS-DS Center for Open Data in the Humanities and the National Institute of Japanese Literature at the National Institutes for the Humanities have announced a system that recognizes cursive writing in ancient documents and converts them into text.

また、スイスのローザンヌ工科大学においては、デジタルヒューマニティーズ研究の一部として、装飾文字や図表など、様々なレイアウト・コンテンツが混在する資料から、深層学習によってセグメントを抽出する研究が行われている(例えば、非特許文献1を参照)。 In addition, at the École Polytechnique Fédérale de Lausanne in Switzerland, as part of their digital humanities research, they are conducting research using deep learning to extract segments from materials that contain a mixture of various layouts and content, such as decorative text and charts (see, for example, non-patent document 1).

Oliveira, Sofia Ares, Benoit Seguin, and Frederic Kaplan. "dhSegment: A generic deep-learning approach for document segmentation." In 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp. 7-12. IEEE, 2018.Oliveira, Sofia Ares, Benoit Seguin, and Frederic Kaplan. "dhSegment: A generic deep-learning approach for document segmentation." In 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp. 7-12. IEEE, 2018. 松波秀子、川上悠介、勝木祐仁、奥山美奈子「『設計図』の図面名称欄の変遷」『明治大正の邸宅 清水組作成彩色図の世界』柏書房, 2009, 268-261Hideko Matsunami, Yusuke Kawakami, Yuji Katsuki, Minako Okuyama, "Changes in the Drawing Name Column of Blueprints," in "Mansions of the Meiji and Taisho Eras: The World of Colored Drawings Created by Shimizu Gumi," Kashiwa Shobo, 2009, 268-261

ところで、建築分野においても、アーカイブの重要性が認識されつつある。国立近現代建築資料館においては、建築図面等の建築関係資料のアーカイブを促進すべく、最近、第一回アーキビスト講習会が開催され、原資料の取り扱い事例を紹介している。 The importance of archives is also being recognized in the field of architecture. The National Museum of Modern Architecture recently held its first archivist seminar to promote the archiving of architectural documents such as architectural drawings, and introduced examples of how original documents are handled.

建築図面のアーカイブ化、およびデジタルアーカイブ化においては、まず膨大な資料の受入・整理に始まり、その目録作成やデータベースへの入力、デジタルデータ化と公開の多くのプロセスが手作業で行われており大変な負担になっている。 Archiving and digitally archiving architectural drawings requires the receipt and organization of a huge amount of material, followed by many manual processes such as cataloguing, inputting the data into a database, digitizing the data, and publishing it, all of which is done manually, creating an enormous burden.

現状では、アーカイブ機関が収蔵する図面等の資料群に対し、まず人が手作業で資料を受け入れ、膨大な目録作成・メタデータの書き起こしを行うことを前提として、デジタルアーカイブ化とデジタルアーカイブの公開が行われている。しかしながら、上記で取り上げたような機械学習の特性を生かせば、まず先に図面をデジタル画像化し、その資料群から機械的にメタデータの抽出を行うことが可能であり、アーカイブ資料が増えれば増えるほど、その精度を上げることが可能である。そのような機械学習のシステムを作ることによって、アーカイブの作業および分析の労力が大幅に軽減される。 Currently, digital archiving and the release of digital archives are carried out on the premise that documents such as drawings stored by archival institutions must first be manually collected by a person, who then creates a vast catalog and transcribes the metadata. However, by taking advantage of the characteristics of machine learning as described above, it is possible to first digitize the drawings and then mechanically extract metadata from the documents; the more archived documents there are, the more accurate the extraction can be. Creating such a machine learning system could significantly reduce the amount of work required for archiving and analysis.

一方、現在、その歴史的価値が再認識され、文化財保存・記録保存のための分析や活用のための修繕などが急務になっている近代建築物の歴史的図面においては、各設計者や施工者において独自の図面スタイルが作られており、そのスタイルで整理されてメタデータが記載されているのが一般的である。それらは図面の欄や印として現れ、同じ図面作成者でも図5(1)、(2)のように時期や部署によってスタイルが違ったりする。また非特許文献2にみられるように、図面作成者(部署等)が違えばスタイルは違ってくる。違うスタイル間でも構造の共通性がみられることもある。したがって、建築図面のスタイルには多様性があり、かつ構造(例えば図面名称欄)があって、その構造によって記載内容がメタデータとして定義されている、と考えることができる。 On the other hand, in the case of historical drawings of modern buildings, whose historical value is being rediscovered and whose analysis for preserving and recording cultural properties, as well as repairs for utilization, are urgently needed, each designer and contractor has created their own drawing style, and metadata is generally written in that style. These appear as columns and marks on the drawings, and even if the same person created the drawings, the style may differ depending on the time period or department, as shown in Figures 5 (1) and (2). As can be seen in Non-Patent Document 2, styles differ depending on the person who created the drawings (department, etc.). There may also be structural commonalities between different styles. Therefore, architectural drawings have a variety of styles and a structure (for example, a drawing name column), and the contents written are defined as metadata depending on that structure.

そこで、本発明者は、このことに着目し、デジタル化された大量の図面画像群から、機械学習によりレイアウトの分析をし、メタデータが記載されているスタイル部分を抽出する本発明に至った。 The inventors focused on this issue and came up with the invention, which uses machine learning to analyze the layout of a large number of digitized drawing images and extracts the style parts in which metadata is written.

本発明は、上記に鑑みてなされたものであって、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することを目的とする。 The present invention has been made in consideration of the above, and aims to provide an archive support system that reduces the labor required for archiving and analysis.

上記した課題を解決し、目的を達成するために、本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたことを特徴とする。 In order to solve the above problems and achieve the objective, the archiving support system of the present invention is a support system for supporting the archiving of drawings, and is characterized by having a learning result recording unit that uses training data related to the style of the drawing included in the image of the drawing to learn the style of the drawing included in the image and records a drawing model for identifying the style of the drawing, and an extraction unit that uses the drawing model to extract the style of the drawing included in the image and extracts data related to metadata from the extracted style.

また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであることを特徴とする。 Another archive support system according to the present invention is characterized in that in the above-mentioned invention, the style of the drawing is a style related to the drawing name column.

本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたので、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することができるという効果を奏する。 The archive support system according to the present invention is a support system for supporting the archiving of drawings, and includes a learning result recording unit that uses training data related to the style of the drawing included in the image of the drawing to learn the style of the drawing included in the image and records a drawing model for identifying the style of the drawing, and an extraction unit that uses the drawing model to extract the style of the drawing included in the image and extracts data related to metadata from the extracted style, thereby providing an archive support system that reduces the labor required for archiving and analysis.

また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであるので、図面名称欄に記載された情報をもとにメタデータに関するデータを抽出することができるという効果を奏する。 In addition, another archive support system according to the present invention has the effect of being able to extract data related to metadata based on the information written in the drawing name column, since in the above-mentioned invention, the drawing style is a style related to the drawing name column.

図1は、本発明に係るアーカイブ支援システムの実施の形態を示す概略構成図である。FIG. 1 is a schematic diagram showing an embodiment of an archive support system according to the present invention. 図2は、本実施の形態の説明図である。FIG. 2 is an explanatory diagram of this embodiment. 図3は、本実施の形態の概略フローチャート図である。FIG. 3 is a schematic flow chart of this embodiment. 図4は、本実施の形態の説明図である。FIG. 4 is an explanatory diagram of this embodiment. 図5は、設計図面の事例を示す図である。FIG. 5 is a diagram showing an example of a design drawing.

以下に、本発明に係るアーカイブ支援システムの実施の形態を図に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。 Below, an embodiment of the archive support system according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to this embodiment.

図1に示すように、本発明に係るアーカイブ支援システム100は、データベース10と、支援サーバー12と、ユーザー端末14とを備えている。このアーカイブ支援システム100は、ネットワークを介して他機関の同様のアーカイブ支援システムに接続されている。 As shown in FIG. 1, the archive support system 100 according to the present invention includes a database 10, a support server 12, and a user terminal 14. This archive support system 100 is connected to similar archive support systems of other institutions via a network.

データベース10は、デジタルデータ化された多数の建築図面の画像を記録するものである。建築図面の画像は、紙の図面資料をスキャナ等で読み取って入力される。図の例では、スタイルの異なる図面資料群A、B、Cがそれぞれ複数のデジタル形式のファイルとしてデータベース10に記録されている場合を示している。図2に示すように、図面資料群Aは、No.1~No.Nで構成され、図面資料群Bはア-1~ア-X、イ-1~イ-Xで構成され、図面資料群Cは1.jpg~X.jpgで構成される。なお、このデータベース10には、画像から後述の方法により抽出された文字群、画像オブジェクト、メタデータ情報、データ構造化文書なども記録される。また、データベース10中には、画像中に情報として現れないメタデータ(例えば収蔵年月日や寄贈者、研究者による付記など)を記録してもよい。図2の例では、図面資料群Cの各ファイルに、制作年のメタデータが記録されている。なお、他機関のアーカイブ支援システムにより公開されている図面資料群を一時的に記録し、アーカイブ支援システム100における学習、分析のために使用してもよい。 The database 10 records a large number of digitalized images of architectural drawings. The images of architectural drawings are input by scanning paper drawings with a scanner or the like. In the example shown in the figure, drawing material groups A, B, and C of different styles are each recorded in the database 10 as multiple digital format files. As shown in FIG. 2, drawing material group A is composed of No. 1 to No. N, drawing material group B is composed of A-1 to A-X and E-1 to E-X, and drawing material group C is composed of 1.jpg to X.jpg. In addition, this database 10 also records character groups, image objects, metadata information, data structured documents, etc. extracted from images by a method described below. In addition, metadata that does not appear as information in the images (for example, the date of collection, notes by donors, researchers, etc.) may be recorded in the database 10. In the example shown in FIG. 2, metadata of the production year is recorded in each file of drawing material group C. In addition, drawing material groups that are publicly available through the archive support system of another institution may be temporarily recorded and used for learning and analysis in the archive support system 100.

支援サーバー12は、アーカイブの作成を支援するコンピュータであり、データベース10とユーザー端末14に接続している。この支援サーバー12は、制御部16、教師データ記録部18、学習結果記録部20を備えている。 The support server 12 is a computer that supports the creation of archives, and is connected to the database 10 and the user terminal 14. This support server 12 includes a control unit 16, a teacher data recording unit 18, and a learning result recording unit 20.

制御部16は、多数の図面の画像群から、機械学習によりレイアウトの分析をし、メタデータが記載されているスタイル部分を抽出するためのものである。この制御部16は、CPU、RAM、ROM等を用いて学習処理、レイアウト分析、文字画像抽出、項目内容抽出等の各処理を行なうように構成される。この処理は、学習処理部22、レイアウト分析部24、文字画像抽出部26、項目内容抽出部28によって実行される。 The control unit 16 is used to analyze the layout from a group of images of many drawings using machine learning, and to extract style parts in which metadata is written. This control unit 16 is configured to perform various processes such as learning processing, layout analysis, character image extraction, and item content extraction using a CPU, RAM, ROM, etc. This processing is executed by the learning processing unit 22, layout analysis unit 24, character image extraction unit 26, and item content extraction unit 28.

学習処理部22は、図面のスタイルが設定された画像を含む教師データを用いて、未知の画像において図面のスタイルを特定するための図面モデルを生成する学習処理を実行するものである。具体的には、学習処理部22は、画像と、この画像に含まれる図面のスタイル(例えば図面名称欄)を示した教師データを用いて機械学習を行なう。この学習において、学習処理部22は、例えば、複数の画像から繰り返し現れるパターンを解析し、画像間での同一スタイルを特定するための図面モデルを生成し、生成した図面モデルを学習結果記録部20に登録する。 The learning processing unit 22 executes a learning process that uses training data including images with a set drawing style to generate a drawing model for identifying the drawing style in an unknown image. Specifically, the learning processing unit 22 performs machine learning using images and training data indicating the drawing style (e.g., the drawing name field) contained in the images. In this learning, the learning processing unit 22 analyzes, for example, patterns that appear repeatedly in multiple images, generates a drawing model for identifying the same style between images, and registers the generated drawing model in the learning result recording unit 20.

レイアウト分析部24は、学習結果記録部20に記録されている図面モデルを用いて、分析対象の画像においてレイアウトを分析するものである。具体的には、レイアウト分析部24は、画像解析により、分析対象の画像のレイアウトを分析し、画像内の図・文字(コンテンツ)とスタイルを分離する。スタイルは、例えば罫線や図面名称欄などで表される。レイアウト分析部24は、例えば、分析対象の画像内のどの部分が図面名称欄に相当するかの分析を行って、図面モデルとの一致度を判定する処理を行ってもよい。この結果、一致度が所定の閾値以上のものを図面のスタイルが同一(共通する)と判定し、一致度が所定の閾値未満のものを、図面のスタイルが異なると判定してもよい。 The layout analysis unit 24 uses the drawing model recorded in the learning result recording unit 20 to analyze the layout of the image to be analyzed. Specifically, the layout analysis unit 24 analyzes the layout of the image to be analyzed by image analysis, and separates the figures and characters (contents) in the image from the style. The style is represented by, for example, lines or a drawing name field. The layout analysis unit 24 may, for example, analyze which part of the image to be analyzed corresponds to the drawing name field, and perform a process to determine the degree of match with the drawing model. As a result, drawings with a degree of match equal to or greater than a predetermined threshold may be determined to have the same (common) style, and drawings with a degree of match less than the predetermined threshold may be determined to have different styles.

文字画像抽出部26は、スタイル内の各項目領域に含まれる文字、画像を認識と抽出処理を実行する。本実施の形態では、同じスタイル部分を持つ図面は同じ図面作成者によるものと仮定し、例えば、レイアウト分析部24で分離したスタイル内(例えば図面名称欄)の各項目領域から文字、画像オブジェクトを抽出する。ここで、活字においてはOCRで、手書き文字においては画像解析で、押印に関しては画像データとして、文字群や画像オブジェクトを抽出する。抽出した文字群や画像オブジェクトはデータベース10に記録してもよい。なお、手書き文字の文字画像と関連付けられたテキスト文字からなる教師データや、印影などの画像オブジェクトと関連付けられた教師データを用いた機械学習により、認識モデルを生成し、この認識モデルを用いて、スタイル内の各項目情報から切り出した文字、印影などの画像オブジェクトなどを抽出してもよい。 The character image extraction unit 26 executes recognition and extraction processing of characters and images contained in each item area in the style. In this embodiment, it is assumed that drawings having the same style part are made by the same drawing creator, and characters and image objects are extracted from each item area in the style (e.g., drawing name column) separated by the layout analysis unit 24. Here, character groups and image objects are extracted by OCR for type, by image analysis for handwritten characters, and as image data for stamps. The extracted character groups and image objects may be recorded in the database 10. Note that a recognition model may be generated by machine learning using teacher data consisting of text characters associated with character images of handwritten characters and teacher data associated with image objects such as seal impressions, and this recognition model may be used to extract characters cut out from each item information in the style, image objects such as seal impressions, etc.

項目内容抽出部28は、文字画像抽出部26で抽出した文字、画像から、スタイル内に記載された各項目の種類(例えば工事名、仕様、縮尺、日付、承認印など)の情報を抽出するものである。抽出した情報はデータベース10に記録される。なお、スタイル内に記載された各項目の種類と関連付けられた教師データを用いた機械学習により、認識モデルを生成し、この認識モデルを用いて、文字、画像からスタイル内に記載された各項目の種類を抽出してもよい。また、項目内容抽出部28は、抽出した情報をもとに図面をデータ構造化して、スタイルと各項目の内容を記述したデータ構造化文書を作成してもよい。 The item content extraction unit 28 extracts information on the type of each item described in the style (e.g., project name, specifications, scale, date, approval stamp, etc.) from the characters and images extracted by the character image extraction unit 26. The extracted information is recorded in the database 10. Note that a recognition model may be generated by machine learning using training data associated with the type of each item described in the style, and the type of each item described in the style may be extracted from the characters and images using this recognition model. The item content extraction unit 28 may also data-structure the drawing based on the extracted information, and create a data-structured document that describes the style and the content of each item.

教師データ記録部18は、機械学習に用いられる複数の教師データを記録するものである。教師データは、機械学習を行なう前に予め記録されていてもよいし、ユーザーがユーザー端末14を介して記録したり、更新してもよい。 The teacher data recording unit 18 records multiple pieces of teacher data used in machine learning. The teacher data may be recorded in advance before machine learning is performed, or may be recorded or updated by the user via the user terminal 14.

学習結果記録部20は、図面のスタイルを分析するための図面モデルを記録するものである。図面モデルは、教師データを用いて機械学習を行なった場合に記録される。 The learning result recording unit 20 records drawing models for analyzing drawing styles. Drawing models are recorded when machine learning is performed using training data.

ユーザー端末14は、ユーザーが用いるコンピュータ端末である。このユーザー端末14は、図示しない制御部、入力部(キーボード等)、出力部(ディスプレイ等)からなる編集インターフェースを備えている。ユーザーは、ユーザー端末14を介してデータベース10、支援サーバー12を利用することができる。 The user terminal 14 is a computer terminal used by a user. This user terminal 14 is equipped with an editing interface consisting of a control unit, an input unit (keyboard, etc.), and an output unit (display, etc.), all of which are not shown. The user can use the database 10 and the support server 12 via the user terminal 14.

上記のように構成したアーカイブ支援システム100を用いて、図面のスタイルが共通する画像間でのレイアウトの学習を行い、スタイル内の各項目に入っている文字や画像オブジェクトの判別精度を上げていき、そこから抽出される各項目の情報をデータベース10に記録する。機械学習により、それぞれの項目の内容(例えば日時・物件名・担当者等)を推定し例示することで、アーカイブ作業者の確認・入力を簡易にすることができる。なお、図面のスタイルが異なる画像間のメタデータ情報の関連性を分析し、異なるスタイル間の同一項目を判別できるようにしてもよい。また、異なる図面のスタイルの資料群を、それぞれ別のセットとしてグループ分けしつつ、別スタイルで共通するメタデータの項目をグループ間で共有し、判別精度を上げていってもよい。 Using the archive support system 100 configured as described above, the layout between images with a common drawing style is learned, the accuracy of distinguishing characters and image objects in each item in the style is improved, and the information of each item extracted from there is recorded in the database 10. By estimating and providing examples of the contents of each item (e.g. date and time, property name, person in charge, etc.) using machine learning, it is possible to simplify confirmation and input by the archive worker. It is also possible to analyze the relevance of metadata information between images with different drawing styles, so that it is possible to distinguish the same items between different styles. In addition, it is also possible to group groups of materials with different drawing styles into separate sets, while sharing metadata items common to different styles between the groups, thereby improving the accuracy of distinction.

次に、上記のアーカイブ支援システム100による処理手順の一例を説明する。
なお、以下の処理では、初期の教師データを用いて機械学習を行ってから、レイアウトを分析するものとする。
図3に示すように、まず、図面資料(資料群A)をスキャンして、データベース10に画像ファイル群を保持する(ステップS1)。次に、学習処理部22により、複数の画像から繰り返し現れるパターンを解析し、画像間での同一スタイルを特定する(ステップS2)。次に、レイアウト分析部24の画像処理により、画像内の図・文字とスタイルを分離する(ステップS3)。
Next, an example of a processing procedure performed by the above-mentioned archive support system 100 will be described.
In the following process, machine learning is performed using initial training data, and then the layout is analyzed.
As shown in Fig. 3, first, the drawing materials (material group A) are scanned, and a group of image files is stored in the database 10 (step S1). Next, the learning processing unit 22 analyzes patterns that appear repeatedly in multiple images, and identifies the same style between the images (step S2). Next, the layout analysis unit 24 performs image processing to separate the figures/text and the style in the images (step S3).

次に、文字画像抽出部26により、スタイル内に記載された文字群、印影等の項目を抽出する(ステップS4)。続いて、項目内容抽出部28により、スタイル内に記載された各項目の種類を抽出する。 Next, the character image extraction unit 26 extracts items such as character groups and seal impressions written in the style (step S4). Then, the item content extraction unit 28 extracts the type of each item written in the style.

次に、図面の画像をデータ構造化して、スタイルと各項目の内容を記述したデータ構造化文書を作成する(ステップS5)。データ構造化文書の形式としては、例えば、スタイルと各項目を記述したテキストをタグで囲って構造化したXML(eXtensible Markup Language)形式を採用してもよい。 Next, the image of the drawing is data-structured to create a data-structured document that describes the style and the contents of each item (step S5). The format of the data-structured document may be, for example, an XML (extensible Markup Language) format in which the text describing the style and each item is enclosed in tags to create a structure.

次に、ユーザーが、ユーザー端末14の編集インターフェース上でデータ構造化文書の修正、意味づけを行う(ステップS6)。 Next, the user modifies and assigns meaning to the data structured document on the editing interface of the user terminal 14 (step S6).

次に、他の図面資料群(資料群B)についても同様にステップS1~S6の処理を行う(ステップS7)。次に、例えば図4に示すように、異なる図面資料群(資料群A、B)間で画像間の関連性とメタデータ情報の関連性を分析し、異なるスタイル間の同一項目を判別する(ステップS8)。次に、ユーザーが、ユーザー端末14の編集インターフェース上でデータ構造化文書における類似情報の項目の統合修正を行う(ステップS9)。資料が増えたらステップS1に戻ってステップS1~S9を繰り返し、判別精度を上げる。なお、他機関のアーカイブ支援システム等が公開している図面資料群をネットワーク等を通じて取り寄せ、学習処理部22で学習させることで、機械学習の精度を上げてもよい。 Next, steps S1 to S6 are similarly performed for the other drawing material group (material group B) (step S7). Next, as shown in FIG. 4, for example, the relevance between images and the relevance of metadata information between different drawing material groups (material groups A and B) are analyzed, and identical items between different styles are identified (step S8). Next, the user integrates and corrects items of similar information in the data structured document on the editing interface of the user terminal 14 (step S9). If more materials are added, return to step S1 and repeat steps S1 to S9 to improve the accuracy of identification. Note that the accuracy of machine learning may be improved by obtaining drawing material groups published by archive support systems of other institutions via a network or the like and having the learning processing unit 22 learn them.

このようにすることで、膨大な図面資料から読み取れるデータの入力を楽にすることができる。また、ユーザーは、判別された各項目のメタデータ情報に基づいて、図面資料群から任意の図面資料(例えば同じ設計事務所によるもの、同じ印影を持つもの、特定の期間に作成されたものなど)を容易に分類、検索、抽出、リスト化、出力することができるようになる。 This makes it easier to input data that can be read from a huge amount of drawings. In addition, based on the metadata information for each identified item, users can easily classify, search, extract, list, and output any drawings from the collection of drawings (for example, those made by the same design firm, those with the same stamp, those created during a specific period, etc.).

本実施の形態によれば、文字や図、絵、印など様々な情報が混在する図面において、スタイルとコンテンツを分離し、スタイルの類似性の分析をし、スタイルごとの項目の抽出を行うことができる。また、異なるスタイル間での同一項目を学習し、各図面に対する項目とスタイルの一覧をつくることで、図面群を項目によってソーティングしたり、コンテンツによって検索したりすることも可能である。 According to this embodiment, in drawings that contain a variety of information such as characters, figures, pictures, and marks, it is possible to separate style and content, analyze the similarity of styles, and extract items for each style. In addition, by learning the same items between different styles and creating a list of items and styles for each drawing, it is also possible to sort a group of drawings by item or search by content.

したがって、アーカイブ資料の整理・分析の労力を劇的に下げ、アーカイブの作業および分析の労力を軽減することができる。また、今まで手作業では見つけることが困難であった、図面資料間の関係性を抽出することができる。 This dramatically reduces the effort required to organize and analyze archived materials, and eases the labor required for archiving and analysis. It also makes it possible to extract relationships between drawing materials that were previously difficult to find manually.

上記の実施の形態においては、建築図面に適用する場合を例にとり説明したが、本発明の図面はこれに限るものではない。例えば機械などに関する図面にも適用可能である。このような図面に適用しても、上記と同様の作用効果を奏することができる。 In the above embodiment, the application to architectural drawings has been described as an example, but the drawings of the present invention are not limited to this. For example, the present invention can also be applied to drawings related to machines, etc. Even when applied to such drawings, the same effects as those described above can be achieved.

以上説明したように、本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたので、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することができる。 As described above, the archive support system of the present invention is a support system for supporting the archiving of drawings, and includes a learning result recording unit that uses training data related to the style of the drawing included in the image of the drawing to learn the style of the drawing included in the image and records a drawing model for identifying the style of the drawing, and an extraction unit that uses the drawing model to extract the style of the drawing included in the image and extracts data related to metadata from the extracted style, thereby providing an archive support system that reduces the labor required for archiving and analysis.

また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであるので、図面名称欄に記載された情報をもとにメタデータに関するデータを抽出することができる。 In addition, in another archive support system according to the present invention, in the above-mentioned invention, since the style of the drawing is a style related to the drawing name column, data related to metadata can be extracted based on the information written in the drawing name column.

以上のように、本発明に係るアーカイブ支援システムは、建設会社内の図面資料のみならず、膨大な図面資料を保有する公文書館や図書館などの公的アーカイブ機関、民間博物館・企業社史資料室などの民間アーカイブ機関における図面資料のアーカイブからメタデータを抽出する作業や分析に有用であり、特に、作業や分析の労力を軽減するのに適している。 As described above, the archive support system of the present invention is useful for extracting and analyzing metadata from archives of drawings not only within construction companies, but also in public archive institutions such as public archives and libraries that hold vast amounts of drawings, and in private archive institutions such as private museums and corporate history archives, and is particularly suitable for reducing the labor required for work and analysis.

10 データベース
12 支援サーバー
14 ユーザー端末
16 制御部
18 教師データ記録部
20 学習結果記録部
22 学習処理部
24 レイアウト分析部
26 文字画像抽出部
28 項目内容抽出部(抽出部)
100 アーカイブ支援システム
REFERENCE SIGNS LIST 10 Database 12 Support server 14 User terminal 16 Control unit 18 Teacher data recording unit 20 Learning result recording unit 22 Learning processing unit 24 Layout analysis unit 26 Character image extraction unit 28 Item content extraction unit (extraction unit)
100 Archive Support System

Claims (1)

図面のアーカイブ作業を支援するための支援システムであって、
前記図面の画像に含まれる図面名称欄のスタイルに関する教師データを用いて、前記画像に含まれる図面名称欄のスタイルを学習させ、図面名称欄のスタイルを特定するための図面モデルを記録した学習結果記録部と、
前記図面モデルを用いて、図面の画像に含まれる図面名称欄のスタイルを抽出し、抽出した前記スタイルからメタデータに関するデータを抽出する抽出部とを備え
抽出した前記データをデータ構造化して、前記スタイルと前記データの内容を記述したデータ構造化文書を作成することを特徴とするアーカイブ支援システム。
A support system for supporting a drawing archiving operation, comprising:
a learning result recording unit that uses teacher data related to the style of the drawing name field included in the image of the drawing to learn the style of the drawing name field included in the image of the drawing and records a drawing model for identifying the style of the drawing name field ;
an extraction unit that uses the drawing model to extract a style of a drawing name field included in an image of the drawing , and extracts data related to metadata from the extracted style ;
An archive support system characterized by structuring the extracted data and creating a data-structured document that describes the style and the contents of the data .
JP2019208158A 2019-11-18 2019-11-18 Archive Support System Active JP7471802B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019208158A JP7471802B2 (en) 2019-11-18 2019-11-18 Archive Support System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019208158A JP7471802B2 (en) 2019-11-18 2019-11-18 Archive Support System

Publications (2)

Publication Number Publication Date
JP2021081933A JP2021081933A (en) 2021-05-27
JP7471802B2 true JP7471802B2 (en) 2024-04-22

Family

ID=75965211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019208158A Active JP7471802B2 (en) 2019-11-18 2019-11-18 Archive Support System

Country Status (1)

Country Link
JP (1) JP7471802B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7393509B2 (en) * 2021-11-29 2023-12-06 ネイバー コーポレーション Deep learning-based method and system for extracting structured information from atypical documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130992A1 (en) 2002-01-10 2003-07-10 Jenn-Kwei Tyan Automatic document reading system for technical drawings
WO2010001792A1 (en) 2008-07-01 2010-01-07 コニカミノルタエムジー株式会社 Database system
JP2018206250A (en) 2017-06-08 2018-12-27 株式会社東芝 Structuring system and structuring method for raster drawing
JP2019040260A (en) 2017-08-22 2019-03-14 大日本印刷株式会社 Information processing apparatus and program
CN110399509A (en) 2019-06-10 2019-11-01 万翼科技有限公司 It is a kind of intelligently to know drawing system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130992A1 (en) 2002-01-10 2003-07-10 Jenn-Kwei Tyan Automatic document reading system for technical drawings
WO2010001792A1 (en) 2008-07-01 2010-01-07 コニカミノルタエムジー株式会社 Database system
JP2018206250A (en) 2017-06-08 2018-12-27 株式会社東芝 Structuring system and structuring method for raster drawing
JP2019040260A (en) 2017-08-22 2019-03-14 大日本印刷株式会社 Information processing apparatus and program
CN110399509A (en) 2019-06-10 2019-11-01 万翼科技有限公司 It is a kind of intelligently to know drawing system and method

Also Published As

Publication number Publication date
JP2021081933A (en) 2021-05-27

Similar Documents

Publication Publication Date Title
Lee et al. The newspaper navigator dataset: Extracting headlines and visual content from 16 million historic newspaper pages in chronicling america
Ugale et al. Document management system: A notion towards paperless office
CN111814425A (en) Book automatic typesetting implementation method based on book character information
Bolelli et al. XDOCS: An application to index historical documents
Halder et al. Writer identification from handwritten Devanagari script
CN115828874A (en) Industry table digital processing method based on image recognition technology
Ramel et al. AGORA: the interactive document image analysis tool of the BVH project
Lehenmeier et al. Layout detection and table recognition–recent challenges in digitizing historical documents and handwritten tabular data
Cilia et al. PapyRow: a dataset of row images from ancient Greek papyri for writers identification
JP7471802B2 (en) Archive Support System
Cheddad et al. SHIBR—The Swedish historical birth records: A semi-annotated dataset
JP2005151127A5 (en)
Liang et al. Task design and assignment of full-text generation on mass chinese historical archives in digital humanities: a crowdsourcing approach
JP2004178010A (en) Document processor, its method, and program
Olesen et al. From Text Mining to Visual Classification: Rethinking Computational New Cinema History with Jean Desmet’s Digitised Business Archive
Coustaty et al. Historical document analysis: a review of French projects and open issues
AU2018100324A4 (en) Image Analysis
Magnani et al. A Medieval Epigraphic Corpus and its Retro-Developments (CIFM-CBMA): The Exploratory Research of the Cosme2 Consortium
CN112528601A (en) Question bank construction method, device, equipment and storage medium based on Word document
Hast et al. Making large collections of handwritten material easily accessible and searchable
Hast et al. TexT-Text Extractor Tool for Handwritten Document Transcription and Annotation
Mukherjee et al. OCR Using Python and Its Application.
Auddy Mining Verbal Data from Early Bengali Newspapers and Magazines
US20140111438A1 (en) System, method and apparatus for the transcription of data using human optical character matching (hocm)
Ikoff et al. Quantitative analysis of translations in Spanish-language periodical publications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240410

R150 Certificate of patent or registration of utility model

Ref document number: 7471802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150