JP2023177010A - Image analysis method, image analysis device and image analysis program - Google Patents

Image analysis method, image analysis device and image analysis program Download PDF

Info

Publication number
JP2023177010A
JP2023177010A JP2022089669A JP2022089669A JP2023177010A JP 2023177010 A JP2023177010 A JP 2023177010A JP 2022089669 A JP2022089669 A JP 2022089669A JP 2022089669 A JP2022089669 A JP 2022089669A JP 2023177010 A JP2023177010 A JP 2023177010A
Authority
JP
Japan
Prior art keywords
data
image data
class
image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022089669A
Other languages
Japanese (ja)
Inventor
エル-メディオニ,アーサー
El-Medioni Arthur
チャン,サワ
Sawa Chang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pwc Advisory LLC
Original Assignee
Pwc Advisory LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pwc Advisory LLC filed Critical Pwc Advisory LLC
Priority to JP2022089669A priority Critical patent/JP2023177010A/en
Publication of JP2023177010A publication Critical patent/JP2023177010A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

To reduce a load of the work of a specialist in a data survey in forensic, shorten the necessary time and improve efficiency.SOLUTION: An analysis method comprises steps of: extracting image data from a data group including a plurality of pieces of text data and a plurality of pieces of image data; acquiring the extracted image data; and classifying a class of the acquired image data by using a learned model that has learned the plurality of pieces of image data and teacher data associated with any of a first character class including a handwritten character, a second character class including a character other than hand writing, and an image class in which each image data does not include the character as the class of each image data.SELECTED DRAWING: Figure 3

Description

特許法第30条第2項適用申請有り (1)令和3年11月27日に掲載されたウェブサイト https://www.pwc.com/jp/ja/services/forensic/forensic-image-analyzer.htmlApplication for application of Article 30, Paragraph 2 of the Patent Act (1) Website posted on November 27, 2021 https://www. pwc. com/jp/ja/services/forensic/forensic-image-analyzer. html

本発明は、画像データ群に含まれる画像データを解析する画像解析方法、画像解析装置及び画像解析プログラムに関する。 The present invention relates to an image analysis method, an image analysis device, and an image analysis program for analyzing image data included in an image data group.

現在、ディジタルフォレンジックにおけるデータ調査において、扱うデータ量が膨大であることから、文字データは、単語の頻度分析等のディジタル解析の対象とされている。これに対し、画像データは、単語の頻度分析等の解析が困難な現状にある。しかしながら、画像データにもデータ調査に有用な情報は含まれうる。したがって、画像データをデータ調査に用いる場合、データ調査の専門家は、膨大な画像データの全てを目視で確認したり、全ての画像データをOCR(Optical Character Recognition:光学的文字認識)処理し、得られた文字データに対してディジタル解析する等の必要があった。全ての画像データを目視で確認するためには、専門家の作業負担が大きく及び多大な時間を必要とする。また、全ての画像データをOCR処理する際には、適切にOCR処理がされない画像データまで一度OCR処理されるため、OCR処理する手間に加え、OCR処理がされなかったデータについて再度、専門家が目視で確認する必要も生じるため、十分に専門家の負担を軽減することができないのが現状である。 Currently, in data investigation in digital forensics, character data is targeted for digital analysis such as word frequency analysis because the amount of data handled is enormous. On the other hand, image data is currently difficult to analyze, such as word frequency analysis. However, image data can also contain information useful for data investigation. Therefore, when using image data for data investigation, data investigation experts must visually check all of the huge amount of image data, process all image data with OCR (Optical Character Recognition), It was necessary to perform digital analysis on the obtained character data. Visually checking all image data places a heavy workload on experts and requires a great deal of time. In addition, when performing OCR processing on all image data, image data that has not been properly OCR processed is also OCR processed once, so in addition to the hassle of OCR processing, the data that was not OCR processed must be re-processed by an expert. Currently, it is not possible to sufficiently reduce the burden on experts because visual confirmation is also required.

近年、データを画像化する技術が広く普及している。例えば、モバイル端末に実装されるカメラは高性能化し、それらカメラで撮影可能な画像も高解像度化している。したがって、近年でも画像データが増加する傾向にあるが、今後さらに、重要な情報が含まれる画像データの数は増加すると予想される。このため、フォレンジックにおけるデータ調査に画像データを容易に利用可能とすることが望まれる。 In recent years, technology for converting data into images has become widespread. For example, cameras installed in mobile terminals are becoming more sophisticated, and the images that can be taken with these cameras are also becoming higher resolution. Therefore, although the amount of image data has been increasing in recent years, it is expected that the number of image data containing important information will further increase in the future. Therefore, it is desirable to be able to easily use image data for forensic data investigation.

例えば、特許文献1では、必要な情報の種類を抽出し、提示する文書分析システムが記載される。この文書分析システムは、訴訟又は不正調査への利用のため、ディジタル情報を分析する。このように、従来の文書分析システムは、キーワードを用いて文書を分析することがあるが、画像については対象とされていない。 For example, Patent Document 1 describes a document analysis system that extracts and presents types of necessary information. This document analysis system analyzes digital information for use in litigation or fraud investigations. As described above, conventional document analysis systems sometimes analyze documents using keywords, but do not target images.

特許第5596213号公報Patent No. 5596213

上記に鑑み、本発明は、容易に画像データをフォレンジックにおけるデータ調査に利用する画像解析方法、画像解析装置及び画像解析プログラムを提供する。 In view of the above, the present invention provides an image analysis method, an image analysis device, and an image analysis program that easily utilize image data for forensic data investigation.

本開示に係る画像解析方法は、複数の文字データ及び複数の画像データを含むデータ群から、画像データを抽出するステップと、抽出された前記画像データを取得するステップと、 複数の画像データと、各画像データのクラスとして、手書きの文字を含む第1の文字クラス、手書き以外の文字を含む第2の文字クラス、各画像データが文字を含まない画像クラス、のいずれかが関連付けられる教師データを学習済みの学習済みモデルを利用して、取得した前記画像データのクラスを分類するステップと、を含む。 An image analysis method according to the present disclosure includes a step of extracting image data from a data group including a plurality of character data and a plurality of image data, a step of acquiring the extracted image data, a plurality of image data, As the class of each image data, teacher data is associated with one of the following: a first character class containing handwritten characters, a second character class containing characters other than handwritten characters, or an image class in which each image data does not contain characters. The method includes the step of classifying the acquired image data into classes using the trained model.

本開示の画像解析方法、画像解析装置及び画像解析プログラムによれば、フォレンジックにおけるデータ調査に画像データを容易に利用することができる。 According to the image analysis method, image analysis device, and image analysis program of the present disclosure, image data can be easily used for data investigation in forensics.

フォレンジックの手順を示す概略図である。FIG. 2 is a schematic diagram showing a forensic procedure. 本開示の画像解析方法で対象とするデータ群を示す概略図である。FIG. 2 is a schematic diagram showing a data group targeted by the image analysis method of the present disclosure. 本開示の画像解析装置の構成を示すブロック図である。FIG. 1 is a block diagram showing the configuration of an image analysis device of the present disclosure. 本開示の画像解析装置で用いる学習済みモデルを説明する概略図である。FIG. 2 is a schematic diagram illustrating a learned model used in the image analysis device of the present disclosure. 本開示の画像解析装置で用いる学習済みモデルの学習を説明する概略図である。FIG. 2 is a schematic diagram illustrating learning of a learned model used in the image analysis device of the present disclosure. 図4Aの学習済みモデルで分類可能なクラスの一例を示す概略図である。FIG. 4B is a schematic diagram showing an example of classes that can be classified using the learned model of FIG. 4A. 図4Aの学習済みモデルで分類可能なクラスの他の例を示す概略図である。FIG. 4B is a schematic diagram showing another example of classes that can be classified using the trained model of FIG. 4A. 本開示の画像解析装置の処理を示すフローチャートである。3 is a flowchart showing processing of the image analysis device of the present disclosure. 変形例に係る画像解析装置の構成を示すブロック図である。It is a block diagram showing the composition of the image analysis device concerning a modification. 変形例に係る画像解析装置の処理を示すフローチャートである。It is a flow chart which shows processing of an image analysis device concerning a modification.

以下に、図面を参照して実施形態に係る画像解析方法、画像解析装置及び画像解析プログラムについて説明する。本開示において、画像解析方法、画像解析装置及び画像解析プログラムは、フォレンジックにおけるデータ調査に用いる画像データを解析する。なお、以下の説明では、同一の構成について、同一の符号を付して説明を省略する。 An image analysis method, an image analysis device, and an image analysis program according to embodiments will be described below with reference to the drawings. In the present disclosure, an image analysis method, an image analysis device, and an image analysis program analyze image data used for data investigation in forensics. In the following description, the same configurations will be designated by the same reference numerals and the description will be omitted.

〈ディジタルフォレンジックの概要〉
近年、ディジタルフォレンジックにおいて、フォレンジック調査の対象となるデータ量の増加の課題がある。ディジタルフォレンジックが用いられる一例である、eディスカバリー(電子証拠開示)においては、図1の概略図に示すように、証拠の改ざんを防止するための「証拠保全」、証拠性を保持した状態でのデータの「収集」、必要に応じてデータのレビューや分析等のためのデータの「処理」、データについての「レビュー」、データの「分析」等の一連のプロセスを経て、電子証拠に関するドキュメントを生成及び提出する。この際、必要に応じて証拠として提示するデータを抽出するプロセスを迅速かつ高精度で実施するとともに、効率化することが課題である。また、例えば、企業の不正案件などで第三者調査委員会が設置され、その調査でディジタルフォレンジックが用いられる場合には、株主などのステークホルダー向けに報告をするために、費用などの関係で、非常に短期の調査期間内で調査結果を作成せねばならないこともある。そのため、フォレンジック調査の対象となるデータ量の増加の問題は影響が極めて大きい。なお、現在、eディスカバリーの費用において、約70%がドキュメントの「レビュー」のプロセスに費やされているともいわれており、レビューのプロセスの簡易化及び効率化が課題である。
<Overview of digital forensics>
In recent years, digital forensics has been faced with the issue of an increase in the amount of data that is subject to forensic investigation. In e-discovery (electronic evidence discovery), which is an example of where digital forensics is used, as shown in the schematic diagram of Figure 1, "evidence preservation" is used to prevent evidence from being tampered with, and "evidence preservation" is used to preserve evidence while preserving evidence. Documents related to electronic evidence are created through a series of processes such as "collection" of data, "processing" of data for data review and analysis as necessary, "review" of data, and "analysis" of data. Generate and submit. At this time, the challenge is to implement the process of extracting data to be presented as evidence as needed quickly and with high precision, and to improve efficiency. In addition, for example, when a third-party investigation committee is established in a corporate fraud case and digital forensics is used in the investigation, due to costs and other factors, in order to report to stakeholders such as shareholders, Sometimes it is necessary to produce research results within a very short research period. Therefore, the problem of increasing amounts of data that is subject to forensic investigations has an extremely large impact. Currently, it is said that about 70% of the cost of e-discovery is spent on the document "review" process, and the challenge is to simplify and improve the efficiency of the review process.

ディジタルフォレンジック調査においては、パーソナルコンピュータ、スマートフォン等の複数の情報処理端末に内蔵される記録媒体や複数の外部記憶媒体等に保存される膨大なディジタルデータを調査する。対象とされるデータ群のデータ量は、1案件で数テラバイトを超えることも一般的であり、図1を用いて上述したような一連のプロセスを実施するにあたり、目視のみによる調査は極めて困難である。したがって、例えば、文書ファイルやテキストファイル等の単語の文字分析やキーワード検索が可能な「文字データ」については、キーワード検索を用いて分類したり、重要度の高いデータを抽出する等のディジタル手法で解析することができる。一方で、「画像データ」については、容易に文字分析やキーワード検索を行うことが困難であるため、目視による調査が主である。近年、データのスキャン、スクリーンキャプチャ、及び、ディジタルカメラやスマートフォンを利用した画像撮影等が身近になっていることもあり、画像データも増加の傾向にあり、フォレンジック調査の対象となる画像データも増加している。例えば、画像データの件数は10万件以上になることも多く、人間の目視には膨大な時間がかかり、期間の限定された調査では現実的ではない。本開示に係る画像解析装置及び画像解析方法においては、フォレンジック調査の対象となる画像データを予め分類することにより、容易に画像データをデータ調査に利用することが可能となる。これにより、本開示に係る画像解析装置及び画像解析方法を利用することで、ディジタルフォレンジックの一連のプロセスを迅速かつ高精度で実施するとともに、効率化させることができる。なお、本開示に係る画像解析装置及び画像解析方法は、図1に示す「処理」の工程で画像データを分類することにより、画像データを用いた「レビュー」の工程を効率化することができる。 In digital forensic investigations, vast amounts of digital data stored in recording media built into multiple information processing terminals such as personal computers and smartphones, as well as multiple external storage media, etc., are investigated. It is common for the amount of data in the target data group to exceed several terabytes in a single project, and it is extremely difficult to conduct a visual inspection alone when carrying out the series of processes described above using Figure 1. be. Therefore, for example, for "text data" such as document files and text files that can be analyzed by word character and keyword search, digital methods such as classifying them using keyword searches or extracting data with high importance can be used. can be analyzed. On the other hand, since it is difficult to easily perform character analysis or keyword searches on "image data," visual inspection is the main method. In recent years, as data scanning, screen capture, and image capture using digital cameras and smartphones have become commonplace, the amount of image data is increasing, and the amount of image data that is subject to forensic investigations is also increasing. are doing. For example, the number of image data is often 100,000 or more, and human visual inspection takes an enormous amount of time, making it impractical for limited period investigations. In the image analysis device and image analysis method according to the present disclosure, by classifying image data to be subjected to forensic investigation in advance, it becomes possible to easily use the image data for data investigation. As a result, by using the image analysis device and the image analysis method according to the present disclosure, a series of digital forensic processes can be performed quickly and with high accuracy, and can be made more efficient. Note that the image analysis device and image analysis method according to the present disclosure can streamline the "review" process using image data by classifying the image data in the "processing" process shown in FIG. .

〈用語の説明〉
本開示において、「データ」は、ディジタルデータであって、コンピュータによって処理可能な2進数で表現されたデータをいう。また、以下の説明において、図2に示すように、データは、「文字データ」、「画像データ」、及び、「文字及び画像以外のデータ」に分類可能であるとして説明する。
<Explanation of terms>
In the present disclosure, "data" refers to digital data, which is data expressed in binary numbers that can be processed by a computer. Furthermore, in the following description, as shown in FIG. 2, data will be explained as being able to be classified into "text data,""imagedata," and "data other than text and images."

「文字データ」は、予め割り当てられた数値列を用いて文字を示すディジタルデータである。文字データの一例は、ワードファイル等の文書ファイル、テキストファイル等である。例えば、文字データは、文字分析やキーワード検索の対象となり得るデータである。 "Character data" is digital data that indicates characters using a numerical value string assigned in advance. Examples of character data are document files such as word files, text files, and the like. For example, character data is data that can be subjected to character analysis or keyword search.

「画像データ」は、複数の画素に数値を割り当てて情報を示すディジタルデータである。その形式は限定されないが、二値画像、グレースケール画像、カラー画像(RGB画像)であってもよい。例えば、画像データは、カメラで撮影された通常の写真データ、パソコンやスマートフォンのディスプレイをスクリーンキャプチャしたデータ、印刷された文書を画像化したデータ等である。代表的な画像データの形式は、jpegデータ、pngデータ、tifデータ、gifデータ等である。 "Image data" is digital data that indicates information by assigning numerical values to a plurality of pixels. Although its format is not limited, it may be a binary image, a grayscale image, or a color image (RGB image). For example, the image data may be normal photo data taken with a camera, data obtained by screen capturing the display of a personal computer or smartphone, data obtained by converting a printed document into an image, or the like. Typical image data formats include jpeg data, png data, tif data, and gif data.

「文字を含む画像データ」は、データの情報として主要な文字を含むことを主に意味する。例えば、文字が書かれたホワイトボードを撮影した写真データは、文字を含む画像データとなりうる。また、チャットやSNSの履歴が表示されるパソコンやスマートフォンのディスプレイをスクリーンキャプチャしたデータは、画像データとなりうる。さらに、文書データをPDF化したデータも、画像データとなりうる。これら文字を含む画像データは、画像データに含まれる文字がそのデータの重要な要素となりうるデータである。したがって、例えば、画像データが、風景写真である場合に文字が記載された看板を含む場合とき、文字を含む画像データに該当しない場合もありうる。 "Image data containing characters" mainly means that the data information includes main characters. For example, photo data of a whiteboard with characters written on it can be image data that includes characters. Furthermore, data obtained by screen capturing the display of a computer or smartphone on which chat and SNS history is displayed can be image data. Furthermore, data obtained by converting document data into PDF can also be image data. Image data including these characters is data in which the characters included in the image data can be an important element of the data. Therefore, for example, if the image data is a landscape photograph and includes a signboard with text written on it, the image data may not correspond to image data that includes text.

「手書き以外の文字を含む画像データ」は、例えば、規定フォントで表される文字を含む画像データである。この「規定フォント」は、文字認識の精度が高い書体をいう。例えば、印刷された書籍等の写真データは、そこに含まれる文字が規定フォントであるため、手書き以外の文字を含む画像データとなりうる。また、パソコンで作成された文書データをPDF化されたデータは、手書き以外の文字を含む画像データとなりうる。さらに、チャットやSNSの履歴が表示されるパソコンやスマートフォンのディスプレイがスクリーンキャプチャされたデータは、手書き以外の文字を含む画像データとなりうる。 "Image data including characters other than handwritten characters" is, for example, image data including characters expressed in a specified font. This "regular font" refers to a typeface with high accuracy of character recognition. For example, photographic data of a printed book or the like can be image data that includes characters other than handwritten characters because the characters contained therein are in a specified font. Further, document data created on a personal computer that is converted into PDF may be image data that includes characters other than handwritten characters. Furthermore, screen-captured data of a computer or smartphone display that displays chat and SNS history can be image data that includes characters other than handwritten characters.

「手書きの文字を含む画像データ」は、例えば、人間によって書かれた文字を含む画像データである。例えば、文字が人間によって書かれたホワイトボードやノートの写真データは、手書きの文字を含む画像データとなりうる。また、人間によって書かれた文字がPDF化されたデータは、手書きの文字を含む画像データとなりうる。なお、人間によって書かれた文字でない場合であっても、手書き風に印刷された文字を含む画像は手書きの文字を含む画像データと判断されうる。 "Image data including handwritten characters" is, for example, image data including characters written by a human. For example, photo data of a whiteboard or notebook on which characters are written by a human can be image data that includes handwritten characters. Further, data in which characters written by a human being are converted into PDF may be image data including handwritten characters. Note that even if the characters are not written by a human, an image that includes characters printed in a handwritten style can be determined to be image data that includes handwritten characters.

ここで、画像データが「手書きの文字」及び「手書き以外の文字」の両方を含む場合、手書きの文字と手書き以外の文字との文字数の割合を比較し、手書きの文字の文字数の割合が多い場合には、手書きの文字を含む画像データとし、手書き以外の文字の文字数の割合が多い場合には、手書き以外の文字を含む画像データとしてもよい。 Here, if the image data includes both "handwritten characters" and "non-handwritten characters", compare the ratio of the number of characters between handwritten characters and non-handwritten characters, and find that the ratio of handwritten characters is higher. In this case, the image data may include handwritten characters, and if the proportion of non-handwritten characters is large, the image data may include non-handwritten characters.

「文字を含まない画像データ」は、例えば、風景写真、人物写真等の画像情報を主とする画像データである。 "Image data that does not include text" is, for example, image data that mainly contains image information such as landscape photographs and portrait photographs.

「文字又は画像以外のデータ」は、例えば、オーディオファイル、CADファイル、表計算ファイル、プレゼンファイル、スプレッドシート等のデータである。 "Data other than text or images" is, for example, data such as audio files, CAD files, spreadsheet files, presentation files, and spreadsheets.

「データ群」は、図2を用いて上述した、「文字データ」、「画像データ」及び「文字又は画像以外のデータ」を含むデータの集合である。 The "data group" is a set of data including "character data", "image data", and "data other than characters or images" as described above with reference to FIG.

「フォレンジック」とは、犯罪調査や法的紛争において、データ記録等を収集分析することをいう。 "Forensics" refers to the collection and analysis of data records, etc. in criminal investigations and legal disputes.

「フォレンジックデータ」とは、例えば、犯罪調査や法的紛争における調査の対象とされうるデータをいう。例えば、フォレンジックデータは、実際に訴訟におけるディスカバリーにおいて証拠として採用されないデータであっても、証拠であるか否か判断されたデータ等も含みうる。換言すると、フォレンジックデータは、証拠となるデータを探すためのデータ群を構成するデータである。 “Forensic data” refers to data that can be the subject of investigation in, for example, criminal investigations or legal disputes. For example, forensic data may include data that has been determined to be evidence, even if it is not actually used as evidence in discovery in a lawsuit. In other words, forensic data is data that constitutes a data group for searching for evidence data.

〈画像解析装置〉
実施形態に係る画像解析装置は、特定の調査に利用されるデータ群であるフォレンジックデータから、条件に適合するデータを抽出して解析する装置である。フォレンジックデータとされるデータ群は、膨大なデータ量であり、多数の人員を導入したとしても容易に調査することが困難である。したがって、実施形態に係る画像解析装置は、画像解析を利用してデータ群に含まれる各画像データを予め定められるクラスに分類する。また、画像解析装置は、調査を容易にするために、分類結果として、画像データにクラスを付与して専門家等に提示してもよい。この画像データのクラスは、例えば、画像が文字を含むか否か等のデータ属性を示すことができる。また、画像解析装置は、分類結果を用いて特定の調査で利用されるデータから、調査に有益なデータを選択して調査の専門家等に提示することができる。ここで、調査に有益なデータとして選択されるデータは、ディジタルフォレンジック調査で証拠として利用しうる可能性の高い特定のデータ、換言すると、証拠としての優先度の高いデータである。優先度の高いデータの具体例については、後述する。
<Image analysis device>
The image analysis device according to the embodiment is a device that extracts and analyzes data that meets conditions from forensic data, which is a data group used in a specific investigation. The data group considered to be forensic data is a huge amount of data, and it is difficult to investigate it easily even if a large number of personnel are introduced. Therefore, the image analysis device according to the embodiment classifies each image data included in the data group into a predetermined class using image analysis. Furthermore, in order to facilitate investigation, the image analysis device may assign a class to image data and present it to an expert or the like as a classification result. The class of this image data can indicate data attributes such as whether the image includes characters, for example. Furthermore, the image analysis device can use the classification results to select data useful for the investigation from the data used in a specific investigation and present it to an investigation expert or the like. Here, the data selected as data useful for the investigation is specific data that has a high possibility of being used as evidence in a digital forensic investigation, in other words, data that has a high priority as evidence. A specific example of data with high priority will be described later.

図3を用いて、実施形態に係る画像解析装置1について説明する。例えば、画像解析装置1は、図3に示すように、制御部10、記憶部20、通信部30、入力部40及び出力部50を備える情報処理装置によって実現される。 The image analysis device 1 according to the embodiment will be described using FIG. 3. For example, the image analysis device 1 is realized by an information processing device including a control section 10, a storage section 20, a communication section 30, an input section 40, and an output section 50, as shown in FIG.

通信部30は、外部の装置(例えば、データ群を記憶する記憶媒体)とのデータ通信を可能とするための通信手段である。データ通信は、無線および/または有線による公知の通信規格にしたがって行われ得る。例えば、有線によるデータ通信は、イーサネット(登録商標)規格、および/またはUSB(登録商標)規格等に準拠して動作する半導体集積回路の通信コントローラを通信装置22として用いることによって行われる。また無線によるデータ通信は、LAN(Local Area Network)に関するIEEE802.11規格、および/または移動体通信に関する、いわゆる4G/5Gと呼ばれる、第4世代/第5世代移動通信システム等に準拠して動作する半導体集積回路の通信コントローラを通信装置22として用いることによって行われる。 The communication unit 30 is a communication means for enabling data communication with an external device (for example, a storage medium that stores a data group). Data communication may be performed wirelessly and/or by wire according to known communication standards. For example, wired data communication is performed by using, as the communication device 22, a communication controller of a semiconductor integrated circuit that operates in accordance with the Ethernet (registered trademark) standard and/or the USB (registered trademark) standard. In addition, wireless data communication operates in accordance with the IEEE802.11 standard for LAN (Local Area Network) and/or the 4th/5th generation mobile communication system, so-called 4G/5G, for mobile communication. This is done by using a communication controller of a semiconductor integrated circuit as the communication device 22.

入力部40は、画像解析のリクエストやデータの入力に利用される操作ボタン、キーボード、マウス、タッチパネル、マイクロフォン等の入力手段である。また、出力部50は、処理結果やデータの出力に利用されるディスプレイ、スピーカ等の出力手段である。 The input unit 40 is an input means such as an operation button, a keyboard, a mouse, a touch panel, a microphone, etc. used for requesting image analysis and inputting data. Further, the output unit 50 is an output means such as a display, a speaker, etc. used for outputting processing results and data.

記憶部20は、種々の情報を記録する記録媒体である。記憶部20は、例えば、RAM、ROM、フラッシュメモリ、SSD(Solid State Drive)、ハードディスクドライブ、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。記憶部20は、制御部10が実行するコンピュータプログラムである画像解析プログラムPの他、画像解析の処理で用いられるデータ及び画像解析の処理で得られる種々のデータ等が格納される。 The storage unit 20 is a recording medium that records various information. The storage unit 20 is realized by, for example, a RAM, a ROM, a flash memory, an SSD (Solid State Drive), a hard disk drive, another storage device, or an appropriate combination thereof. The storage unit 20 stores an image analysis program P, which is a computer program executed by the control unit 10, as well as data used in image analysis processing, various data obtained in image analysis processing, and the like.

制御部10は、画像解析装置1全体の制御を司るコントローラである。制御部10は、記憶部20に記憶される画像解析プログラムPを実行することにより、抽出部101と、分類部102と、変換部103と、解析部104と、出力処理部105としての処理を実行する。制御部10は、ハードウェアとソフトウェアの協働により所定の機能を実現する構成に限定されず、所定の機能を実現する専用に設計されたハードウェア回路でもよい。すなわち、制御部10は、CPU、MPU、GPU、FPGA、DSP、ASIC等、種々のプロセッサで実現することができる。 The control unit 10 is a controller that controls the entire image analysis device 1 . The control unit 10 executes the image analysis program P stored in the storage unit 20 to perform processing as the extraction unit 101, classification unit 102, conversion unit 103, analysis unit 104, and output processing unit 105. Execute. The control unit 10 is not limited to a configuration in which a predetermined function is realized by cooperation of hardware and software, but may be a hardware circuit designed exclusively for realizing a predetermined function. That is, the control unit 10 can be realized by various processors such as a CPU, MPU, GPU, FPGA, DSP, and ASIC.

画像解析プログラムPは、学習済みモデルMを含む。画像解析装置1は、この学習済みモデルMを利用して、図4Aに示すように、入力データである画像データに対して、この画像データのクラスを分類して出力することができる。この学習済みモデルMは、各画像データのクラスとして、フォレンジックにおける証拠としての優先度の高いデータのクラスと、優先度の高いデータのクラスよりも証拠としての優先度の低いデータのクラスとの少なくとも二つクラスが設定されるとき、図4Bに示すように、複数の画像データと、この画像データに関連付けられるクラスとの関係を学習器において学習済みである。なお、分類可能なクラスの数は、限定されず、フォレンジックの対象に応じて定めることができる。 The image analysis program P includes a learned model M. Using this trained model M, the image analysis device 1 can classify and output the class of image data that is input data, as shown in FIG. 4A. This trained model M has at least two classes of image data: a class of data with a high priority as evidence in forensics, and a class of data with a lower priority as evidence than the class of data with a high priority. When two classes are set, as shown in FIG. 4B, the learning device has already learned the relationship between a plurality of image data and the class associated with this image data. Note that the number of classes that can be classified is not limited and can be determined depending on the forensic target.

記憶部20は、画像解析プログラムPの他、画像解析において利用されるデータ及び画像解析の処理で得られた種々のデータを記憶する。例えば、記憶部20は、画像データ202と、クラスデータ203と、テキストデータ204と、解析結果データ205とを記憶する。 The storage unit 20 stores, in addition to the image analysis program P, data used in image analysis and various data obtained in image analysis processing. For example, the storage unit 20 stores image data 202, class data 203, text data 204, and analysis result data 205.

画像データ202は、画像解析装置1において、画像解析の対象として、データ群から抽出されたデータである。 The image data 202 is data extracted from a data group as a target of image analysis in the image analysis device 1.

クラスデータ203は、画像データ202の分類結果として、各画像データのクラスを示すデータである。 Class data 203 is data indicating the class of each image data as a classification result of the image data 202.

テキストデータ204は、画像データ202に含まれる文字情報を変換して得られたデータである。 Text data 204 is data obtained by converting character information included in image data 202.

解析結果データ205は、テキストデータ204の文字解析の結果を示すデータである。例えば、解析結果データ205は、各テキストデータ204の識別情報と関連づけて、各テキストデータ204に含まれる特定の単語の数量を含む。 Analysis result data 205 is data indicating the result of character analysis of text data 204. For example, the analysis result data 205 includes the quantity of specific words included in each text data 204 in association with the identification information of each text data 204.

抽出部101は、複数の文字データ及び複数の画像データを含むデータ群から、画像データを抽出する。このデータ群は、特定の調査に利用されるフォレンジックデータである。具体的には、データ群は、例えば、フォレンジックのために、図1を用いて上述した証拠の保全及び収集において、記憶装置(図示せず)に記憶されたデータである。データ群を記憶する記憶装置は、画像解析装置1の記憶部20であってもよいし、画像解析装置1がネットワーク(図示せず)を介してデータ通信可能な外部の装置であってもよい。 The extraction unit 101 extracts image data from a data group including a plurality of character data and a plurality of image data. This data group is forensic data used in a specific investigation. Specifically, the data group is data stored in a storage device (not shown) in the preservation and collection of evidence described above with reference to FIG. 1 for forensic purposes, for example. The storage device that stores the data group may be the storage unit 20 of the image analysis device 1, or may be an external device with which the image analysis device 1 can communicate data via a network (not shown). .

また、抽出部101は、抽出した画像データ202を、解析の対象として記憶部20に記憶する。このとき、抽出部101は、抽出した画像データ自体を記憶部20に記憶するのではなく、抽出した画像データ202の識別情報のリストデータを画像データとして記憶部20に記憶してもよい。この場合、画像解析装置1は、後の処理において、画像データ202が必要なタイミングで記憶部20に記憶される識別情報に基づき、ネットワークを介して外部の記憶装置で記憶される画像データにアクセスし、使用する構成であってもよい。例えば、電子メールのデータにおいて、本文の文字データとともに、添付画像として画像データを含む場合、抽出部101は、文字データと画像データを別のデータと扱うことを可能とし、電子メールのデータに含まれる画像データを抽出してもよい。また、文書ファイルのデータにおいて、本文の文字データとともに、貼付画像として画像データを含む場合、抽出部101は、文字データと画像データを別のデータと扱うことを可能とし、文書ファイルのデータに含まれる画像データを抽出してもよい。上述のような、文字データと画像データとが組み合わされたデータについては、抽出部101は、文字データと画像データとを別々に扱うことを可能とし、画像データのみを抽出してもよい。 Further, the extraction unit 101 stores the extracted image data 202 in the storage unit 20 as an analysis target. At this time, the extraction unit 101 may store list data of identification information of the extracted image data 202 in the storage unit 20 as image data, instead of storing the extracted image data itself in the storage unit 20. In this case, the image analysis device 1 accesses the image data stored in the external storage device via the network based on the identification information stored in the storage unit 20 at the timing when the image data 202 is required in later processing. However, the configuration may be used. For example, when e-mail data includes image data as an attached image along with text data in the main text, the extraction unit 101 can treat the text data and image data as separate data, and You may also extract the image data that is displayed. Furthermore, when the data of the document file includes image data as a pasted image along with the character data of the main text, the extraction unit 101 makes it possible to treat the character data and image data as separate data. You may also extract the image data that is displayed. Regarding data that is a combination of text data and image data as described above, the extraction unit 101 can handle the text data and image data separately, and may extract only the image data.

分類部102は、学習済みモデルMを利用して、画像データのクラスを分類する。例えば、学習済みモデルMは、複数の画像データと、各画像データのクラスとして、図5Aに示すように、手書きの文字を含む「第1の文字クラス」、手書き以外の文字を含む「第2の文字クラス」、文字を含まない「画像クラス」、のいずれかが関連付けられる教師データを学習済みのモデルである。したがって、図5Aに示す各クラスの画像データを含む教師データを学習済みの学習済みモデルMを利用することで、入力された画像データが、手書きの文字を含むホワイトボードの写真である場合、当該画像データを「第1の文字クラス」に分類する。また、当該学習済みモデルMは、手書き以外の文字を含むチャットのスクリーンキャプチャ画像や印刷文書のスキャン画像等の画像データが入力された場合、「第2の文字クラス」に分類する。さらに、当該学習済みモデルMは、文字を含まない風景写真である画像データが入力された場合、「画像クラス」に分類する。また、分類部102は、分類結果として、画像データの識別情報に、属性として、分類されたクラスの識別情報を関連付けたクラスデータ203を生成し、記憶部20に記憶させる。 The classification unit 102 uses the trained model M to classify the classes of image data. For example, as shown in FIG. 5A, the learned model M includes a plurality of image data and classes of each image data, such as a "first character class" that includes handwritten characters, and a "second character class" that includes characters other than handwritten characters. This is a model that has already learned training data that is associated with either "character class" or "image class" that does not contain characters. Therefore, by using the trained model M that has trained the teacher data including image data of each class shown in FIG. 5A, if the input image data is a photo of a whiteboard containing handwritten characters, the corresponding Image data is classified into "first character class". Furthermore, when image data such as a screen capture image of a chat or a scanned image of a printed document that includes characters other than handwritten characters is input, the trained model M classifies the data into the "second character class." Furthermore, when image data that is a landscape photograph that does not include text is input, the trained model M classifies it into an "image class." Further, the classification unit 102 generates class data 203 in which the identification information of the image data is associated with the identification information of the classified class as an attribute as a classification result, and stores it in the storage unit 20.

仮に、教師データである画像データが、「手書きの文字」および「手書き以外の文字」の両方を少なくとも含むとき、当該画像データのクラスのラベルを「第1の文字クラス」としてもよい。例えば、手書きの文字及び手書き以外の文字を含むとき、手書きの文字が重要であるために当該画像データを保存していると想定することもできる。したがって、手書きの文字をメインの画像データとして扱うことが重要と考えうるためである。このような教師データを用いて生成された学習済みモデルMを用いることで、入力された画像データが「手書きの文字」および「手書き以外の文字」の両方を少なくとも含むとき、当該画像データは、「第1の文字クラス」として分類される。 If the image data that is the teacher data includes at least both "handwritten characters" and "non-handwritten characters," the class label of the image data may be set as "first character class." For example, when handwritten characters and non-handwritten characters are included, it can be assumed that the image data is saved because the handwritten characters are important. Therefore, it is considered important to treat handwritten characters as the main image data. By using the trained model M generated using such teacher data, when input image data includes at least both "handwritten characters" and "non-handwritten characters", the image data can be Classified as "first character class".

または、仮に、教師データである画像データが、「手書きの文字」および「手書き以外の文字」の両方を少なくとも含み、画像データに含まれる手書き文字の数の割合が、手書き以外の文字の数の割合より高いとき(例えば、50%より大きいとき)、当該画像データのクラスを、「第1の文字クラス」としてもよい。逆に、教師データである画像データが、画像データに含まれる手書き文字の数の割合が、手書き以外の文字の数の割合よりも低いとき(例えば、50%未満であるとき)、当該画像データのクラスを、「第2の文字クラス」としてもよい。例えば、手書きの文字及び手書き以外の文字を含むとき、その文字数が多い情報が重要であるために当該画像データを保存していると想定することもできる。したがって、手書き又は手書き以外のうち、文字数の多い文字をメインの画像データとして扱うことが重要と考えうるためである。このような教師データを用いて生成された学習済みモデルMを用いることで、入力された画像データが「手書きの文字」および「手書き以外の文字」の両方を少なくとも含み、手書きの文字の数が、手書き以外の文字の数より多いとき、当該画像データは、「第1の文字クラス」として分類される。このような教師データを用いて生成された学習済みモデルMを用いることで、入力された画像データに含まれる「手書きの文字」の割合が、「手書き以外の文字」の割合より高いとき、当該画像データは、「第1の文字クラス」と分類される。一方、入力された画像データに含まれる「手書きの文字」の割合が、「手書き以外の文字」の割合より低いとき、当該画像データは、「第2の文字クラス」と分類される。 Alternatively, suppose that the image data that is the training data includes at least both "handwritten characters" and "non-handwritten characters", and the ratio of the number of handwritten characters included in the image data is greater than the number of non-handwritten characters. When the ratio is higher than the percentage (for example, when it is larger than 50%), the class of the image data may be set as the "first character class." Conversely, when the image data that is the teacher data contains handwritten characters in a lower proportion than the proportion of non-handwritten characters (for example, less than 50%), the image data The class may be set as the "second character class". For example, when the image data includes handwritten characters and non-handwritten characters, it can be assumed that the image data is saved because information with a large number of characters is important. Therefore, it is considered important to handle handwritten or non-handwritten characters with a large number of characters as the main image data. By using the trained model M generated using such training data, the input image data includes at least both "handwritten characters" and "non-handwritten characters" and the number of handwritten characters is reduced. , than the number of non-handwritten characters, the image data is classified as "first character class". By using the trained model M generated using such teacher data, when the proportion of "handwritten characters" included in the input image data is higher than the proportion of "non-handwritten characters", the corresponding The image data is classified as "first character class." On the other hand, when the percentage of "handwritten characters" included in the input image data is lower than the percentage of "non-handwritten characters," the image data is classified as a "second character class."

また、「第2の文字クラス」は、フォレンジックにおける証拠としての優先度の高いデータのクラスである「第3の文字クラス」と、第3の文字クラスのデータよりも証拠としての優先度の低いデータのクラスである「第4の文字クラス」とを含むことができる。例えば、図5Bに示すように、第3の文字クラスは、チャットのスクリーンキャプチャ画像や、インスタントメッセージのスクリーンキャプチャ画像、SNS投稿のスクリーンキャプチャ画像、携帯電話のショートメッセージ(SMS)のスクリーンキャプチャ画像等の画像データに付与される。また、第4の文字クラスは、印刷された文書のスキャン画像、Webページのキャプチャ画像等の画像データに付与される。 In addition, the "second character class" is a class of data that has a high priority as evidence in forensics, and the "third character class" has a lower priority as evidence than the data of the third character class. A "fourth character class" which is a data class can be included. For example, as shown in FIG. 5B, the third character class includes screen capture images of chats, screen capture images of instant messages, screen capture images of SNS posts, screen capture images of short messages (SMS) from mobile phones, etc. is attached to the image data. Further, the fourth character class is assigned to image data such as a scanned image of a printed document or a captured image of a web page.

例えば、第4の文字クラスに該当するような、「印刷された文書」や「Webページ」等は、繰り返して参照する必要があり得る情報であるため、情報の繰り返し参照を目的に、画像データとして保存されることも一般的である。これに対し、第3の文字クラスに該当するような「チャット」、「インスタントメッセージ」、「SNS投稿」等は、一時的な情報のやりとりに用いられることが一般的であり、通常は読まれた後に個別に保存されることはまれである。したがって、このような通常は保存されることのない「チャット」、「インスタントメッセージ」、「SNS投稿」等が画像データとしてされるということは、その情報が重要であり、保存する価値があると考えられたと想定することができる。したがって、第3の文字クラスに該当する画像データは、第4の文字クラスに該当する画像データよりも証拠としての優先度が高いと想定される。したがって、手書き以外の文字を含む画像データにおいて、フォレンジックにおける証拠として優先度が高いデータのクラスを「第3の文字クラス」とし、第3の文字クラスよりも証拠として優先度低いデータのクラスを「第4の文字クラス」とする。 For example, "printed documents" and "web pages," which fall under the fourth character class, are information that may need to be referenced repeatedly. It is also common to be saved as . On the other hand, "chat", "instant message", "SNS posting", etc. that fall under the third character class are generally used for temporary exchange of information and are usually not read. They are rarely preserved separately after the Therefore, the fact that "chat", "instant message", "SNS post", etc., which are not normally saved, is recorded as image data indicates that the information is important and worth preserving. It can be assumed that it was considered. Therefore, it is assumed that the image data corresponding to the third character class has a higher priority as evidence than the image data corresponding to the fourth character class. Therefore, in image data that includes characters other than handwritten characters, the class of data that has a high priority as evidence in forensics is defined as the "third character class", and the class of data that has a lower priority as evidence than the third character class as " 4th character class".

このように、第2の文字クラスが、第3の文字クラス及び第4の文字クラスを含む場合、学習済みモデルMの学習用データセットは、「第1の文字クラス」、「第3の文字クラス」、「第4の文字クラス」又は「画像クラス」のいずれかのラベルとして関連付けられた教師用データである画像データを含む。また、「第1の文字クラス」、「第3の文字クラス」、「第4の文字クラス」及び「画像クラス」の画像データを教師データとして学習した学習済みモデルMを利用する場合、分類部102は、これら4つのクラスのいずれかに分類する。 In this way, when the second character class includes the third character class and the fourth character class, the training data set of the trained model M includes the "first character class", "third character class" It includes image data that is teacher data associated as a label of "Class", "Fourth Character Class", or "Image Class". In addition, when using a trained model M that has been trained using image data of "first character class," "third character class," "fourth character class," and "image class" as training data, the classification unit 102 is classified into one of these four classes.

変換部103は、記憶部20において、画像データ202及びクラスデータ203を参照し、特定のクラスと関連付けられる画像データのみについて、文字認識の処理を実行し、それぞれテキストデータ204に変換し、記憶部20に記憶させる。具体的には、変換部103は、OCR処理により、画像データ202に含まれる文字情報をテキストデータ204に変換する。 The conversion unit 103 refers to the image data 202 and the class data 203 in the storage unit 20, performs character recognition processing only on the image data associated with a specific class, converts each into text data 204, and stores the image data in the storage unit 20. 20 to be memorized. Specifically, the conversion unit 103 converts character information included in the image data 202 into text data 204 by OCR processing.

このとき、変換部103は、第2の文字クラスに関連付けられた画像データ202のみについて、文字認識の処理を実行し、当該第2の文字クラスに関連付けられた画像データ202に含まれる文字情報をテキストデータ204として変換し、記憶部20に記憶させてもよい。例えば、「第1のクラス」に分類された手書き文字を含む画像データ202について、文字認識の精度が十分に得られない等、目視により専門家が確認することが好ましい場合、「第2の文字クラス」に分類された画像データ202のみに文字認識の処理を実行する。また例えば、「第4の文字クラス」に分類された画像データ202に含まれる文字情報につては後述の解析部104による解析から内容の把握が容易であるが、「第3の文字クラス」に分類された画像データ202については、略語等が多用されることにより後述の解析部104における解析対象として好ましくない等の場合、「第4の文字クラス」に分類された画像データ202のみを文字認識の処理対象としてもよい。 At this time, the conversion unit 103 executes character recognition processing only on the image data 202 associated with the second character class, and converts character information included in the image data 202 associated with the second character class. It may be converted as text data 204 and stored in the storage unit 20. For example, if the image data 202 including handwritten characters classified into the "first class" is preferably visually checked by an expert, such as when sufficient character recognition accuracy cannot be obtained, the "second class" Character recognition processing is performed only on image data 202 classified into "class". Further, for example, the content of character information included in the image data 202 classified into the "fourth character class" can be easily understood through analysis by the analysis unit 104, which will be described later; If the classified image data 202 is undesirable as an analysis target in the analysis unit 104 (described later) due to the frequent use of abbreviations, only the image data 202 classified into the "fourth character class" is subjected to character recognition. It may also be a processing target.

解析部104は、テキストデータ204に含まれる特定の単語の数量を求めることで、画像データに含まれる文字について解析する。例えば、解析部104は、形態素解析及び単語の頻度分析を用いて、テキストデータ204に含まれる単語を解析することができる。また、解析部104は、変換部103における変換で得られたテキストデータ204に含まれる特定の単語の数量を解析結果データ205として、画像データの識別情報と関連付けて記憶部20に記憶させてもよい。例えば、「特定の単語の数量」は、データに含まれる特定の単語の数、または、データ全体の単語数における特定の単語の割合のいずれかである。これにより、画像データに含まれる文字列の内容を推測し、レビュー及びドキュメント生成の判断に用いることが可能となる。 The analysis unit 104 analyzes the characters included in the image data by determining the number of specific words included in the text data 204. For example, the analysis unit 104 can analyze words included in the text data 204 using morphological analysis and word frequency analysis. The analysis unit 104 may also cause the storage unit 20 to store the quantity of specific words included in the text data 204 obtained by the conversion in the conversion unit 103 as analysis result data 205 in association with the identification information of the image data. good. For example, the "quantity of specific words" is either the number of specific words included in the data or the proportion of the specific words in the number of words in the entire data. This makes it possible to infer the content of character strings included in image data and use it for review and document generation decisions.

なお、特定の単語の数は、限定されず、複数の単語を対象とすることができる。また、特定の単語の数が複数定められる場合、単語毎に数量を求めるようにしてもよい。さらに、意味が同一又は類似する単語毎にグループを設け、複数の単語毎に、単語の数量を求めてもよい。このグループに含まれる複数の単語は、対象とする調査毎に定めてもよい。複数の単語を対象とし、単語毎に数量を求めたり、複数の単語からなるグループ毎に数量を求めることにより、画像データ202に含まれる文字列の内容を推測しやすくすることができる。 Note that the number of specific words is not limited, and a plurality of words can be targeted. Furthermore, when a plurality of numbers of specific words are determined, the quantity may be determined for each word. Furthermore, a group may be provided for each word with the same or similar meaning, and the number of words may be determined for each of a plurality of words. A plurality of words included in this group may be determined for each target investigation. By targeting a plurality of words and finding the quantity for each word or for each group of words, the content of the character string included in the image data 202 can be easily estimated.

出力処理部105は、分類部102による分類結果、変換部103による変換結果、及び/又は、解析部104による解析結果を、出力部50に出力する。このとき、出力処理部105は、画像データ202と関連付けて、分析結果、変換結果、及び/又は、解析結果を出力することができる。なお、出力の方法が限定されず、ディスプレイやプリンタ等の出力部50への出力の他、通信部30を介してデータの通信が可能な外部の情報処理装置へのデータの出力であってもよい。 The output processing unit 105 outputs the classification result by the classification unit 102, the conversion result by the conversion unit 103, and/or the analysis result by the analysis unit 104 to the output unit 50. At this time, the output processing unit 105 can output the analysis result, conversion result, and/or analysis result in association with the image data 202. Note that the method of output is not limited, and in addition to outputting to the output unit 50 such as a display or printer, data may also be output to an external information processing device that can communicate data via the communication unit 30. good.

・解析結果(順位)の出力
例えば、出力処理部105は、テキストデータ204が含む特定の単語の数量に応じた順位と関連付けて、画像データ202を出力することができる。または、複数の単語を含むグループが設定されているとき、出力処理部105は、このグループについて求められた順位と関連付けて画像データ202を出力してもよい。画像データ202含む特定の単語の数量に応じて順位を付けて出力されることで、専門家は、画像データに含まれる文字列の内容が推測しやすくなる。
- Output of analysis results (ranking) For example, the output processing unit 105 can output the image data 202 in association with a ranking according to the number of specific words included in the text data 204. Alternatively, when a group including a plurality of words is set, the output processing unit 105 may output the image data 202 in association with the ranking determined for this group. By ranking and outputting specific words according to the number of specific words included in the image data 202, it becomes easier for experts to guess the contents of character strings included in the image data.

なお、この場合も、特定の単語の数は、限定されず、複数の単語を対象とすることができる。また、特定の単語の数が複数定められる場合、これら複数の単語において、単語毎に異なる重みが設定されていてもよい。すなわち、文字列の内容の推測に影響を与えやすい単語については、特に重みが高く設定されていてもよい。単語毎に異なる重みを設定し、その合計により単語の数量を求めて順位を求めることより、画像データ202に含まれる文字列の内容をより推測しやすくすることができる。 Note that in this case as well, the number of specific words is not limited, and a plurality of words can be targeted. Further, when a plurality of numbers of specific words are determined, different weights may be set for each word among the plurality of words. That is, words that are likely to have an influence on guessing the content of a character string may be given a particularly high weight. By setting different weights for each word and calculating the number of words based on the total to determine the ranking, it is possible to more easily guess the content of the character string included in the image data 202.

・画像データとクラス(属性)の出力
例えば、出力処理部105は、画像データ202を出力する際、及び/又は、画像データ202の識別情報を出力する際、画像データ202毎に、関連付けられたクラスを示す属性を併せて出力することができる。具体的には、出力処理部105は、クラスデータ203において、各画像データ202について示されるクラスとして、「第1の文字クラス」、「第3の文字クラス」、「第4の文字クラス」、「画像クラス」等のクラスを関連付けて出力する。これにより、調査を行う専門家は、画像データ202を確認すると同時に、その画像データ202に対して今後に必要な処理を瞬時に判断することができる。
- Output of image data and classes (attributes) For example, when outputting the image data 202 and/or when outputting the identification information of the image data 202, the output processing unit 105 outputs the associated information for each image data 202. Attributes indicating the class can also be output. Specifically, in the class data 203, the output processing unit 105 selects "first character class", "third character class", "fourth character class", as classes indicated for each image data 202, Output by associating classes such as "image class". Thereby, the expert conducting the investigation can confirm the image data 202 and at the same time instantly determine what processing will be necessary for the image data 202 in the future.

例えば、図5Aに示すように、「第1の文字クラス」、「第2の文字クラス」、「画像クラス」が設定される例において、上述したように、「第2の文字クラス」の画像データ202が変換部103によりテキストデータ204に変換され、解析部104により解析されるとする。このとき、専門家は、「第2の文字クラス」の画像データ202については目視での調査をせずに解析結果データ205を利用し、「第1の文字クラス」及び「画像クラス」の画像データ202のみを目視での調査の対象とする等のルールを決めることができる。これにより、専門家の作業を効率化させることができる。 For example, as shown in FIG. 5A, in an example where "first character class", "second character class", and "image class" are set, as described above, the image of "second character class" It is assumed that the data 202 is converted into text data 204 by the conversion unit 103 and analyzed by the analysis unit 104. At this time, the expert uses the analysis result data 205 without visually inspecting the image data 202 of the "second character class", and uses the analysis result data 205 to Rules such as making only the data 202 subject to visual inspection can be determined. This makes it possible to make the work of experts more efficient.

また例えば、「第1の文字クラス」、「第3の文字クラス」、「第4の文字クラス」、「画像クラス」に分類される例において、上述したように、「第4の文字クラス」の画像データ202よりも「第3の文字クラス」の画像データ202が証拠としての優先度が高いと判断されている状況において、「第3の文字クラス」の画像データ202のみを目視での調査の対象としてもよい。また、「第3の文字クラス」の画像データ202のみを出力することもできる。または、「第3の文字クラス」および「第4の文字クラス」画像データ202のみを出力してもよい。これにより、10万件以上もの膨大な画像データから、裁判で証拠として採用される可能性の高い重要な画像データを優先して解析することができ、専門家の作業を効率化させることができる。10万件もの画像データの全てを人間が目視で判断・解析することは膨大な時間がかかるため、調査期間が限定された第三者委員会の不正調査などでは現実的ではない。そのため、重要な画像データのみを漏らさずに抽出することがフォレンジック調査に必要な技術である。特に、第3の文字クラスに該当するような「チャット」、「インスタントメッセージ」、「SNS投稿」等は、例えば、企業の不正事件などにおいて、事件の不正認定に直接関連する指示等の証拠となることも多い。従って、膨大な画像データから、第3の文字クラスの画像データ202のみ、もしくは第3の文字クラスの画像データ202および第4の文字クラスの画像データ202のみを出力することにより、フォレンジック調査の初期段階で重要な証拠が見つかるか否かの結論を出すことができる。これは、通常、時間の制約があるなかで、大量のデータを分析して調査報告書を作成しなければならない第三者委員会による不正調査において、特に大きな効果を発揮する。特に、通常、保存されることが非常にまれな「第3の文字クラス」の画像データ202(「チャット」、「インスタントメッセージ」、「SNS投稿」等の画像データ)のみを出力する場合には、画像データ全体のうち、非常に限られた件数のみを抽出することで、裁判で重要な証拠となる画像データを調査期間の極めて初期段階で取得することができる。 For example, in an example classified into "first character class", "third character class", "fourth character class", and "image class", as described above, "fourth character class" In a situation where the image data 202 of the "third character class" is judged to have higher priority as evidence than the image data 202 of It may also be the subject of It is also possible to output only the image data 202 of the "third character class". Alternatively, only the "third character class" and "fourth character class" image data 202 may be output. This makes it possible to prioritize and analyze important image data that is likely to be used as evidence in a trial out of a huge amount of image data of over 100,000 items, making the work of experts more efficient. . It would take a huge amount of time for humans to visually judge and analyze all 100,000 pieces of image data, so it would be impractical for a fraud investigation by a third-party committee, which has a limited investigation period. Therefore, a technique necessary for forensic investigations is to extract only important image data without leaking it. In particular, "chat", "instant message", "SNS posting", etc. that fall under the third character class can be used as evidence of instructions directly related to the determination of fraud in a corporate fraud case, etc. It often happens. Therefore, by outputting only the image data 202 of the third character class, or only the image data 202 of the third character class and the image data 202 of the fourth character class from a huge amount of image data, it is possible to At this stage, a conclusion can be drawn as to whether or not important evidence is found. This is especially effective in fraud investigations conducted by third-party committees, which typically have to analyze large amounts of data and prepare investigation reports under time constraints. In particular, when outputting only the image data 202 of the "third character class" (image data of "chat", "instant message", "SNS post", etc.) which is very rarely saved, By extracting only a very limited number of images from the entire image data, image data that can serve as important evidence in a trial can be obtained at the very early stage of the investigation period.

・クラスで選択して出力
その他、出力処理部105は、画像データに関連付けられたクラスをフィルタとして選択して出力部50に出力することができる。具体的には、入力部40を介して、特定のクラスの画像データ202の表示がリクエストされると、出力処理部105は、リクエストされたクラスの画像データ202を選択して出力部50に出力させることができる。また、入力部40を介して、特定の単語を含む画像データ202の表示がリクエストされると、出力処理部105は、この特定の単語をフィルタとして、この特定の単語を含む画像データ202を選択して出力部50に出力されることができる。ここで、特定の単語に関連付けて単語の数量をリクエストに含むとき、出力処理部105は、特定の単語を特定の数量含む画像データ202を選択して出力部50に出力させることができる。これにより、専門家は、必要な画像データ202のみを目視で調査することが容易となるため、作業を効率化させることができる。
- Select and output by class In addition, the output processing unit 105 can select a class associated with image data as a filter and output it to the output unit 50. Specifically, when display of image data 202 of a specific class is requested via the input unit 40, the output processing unit 105 selects the image data 202 of the requested class and outputs it to the output unit 50. can be done. Further, when display of image data 202 including a specific word is requested via the input unit 40, the output processing unit 105 selects the image data 202 including this specific word using this specific word as a filter. It can be outputted to the output section 50. Here, when the request includes a quantity of words in association with a specific word, the output processing unit 105 can select the image data 202 that includes the specific word in a specific quantity and cause the output unit 50 to output the selected image data 202 . This makes it easy for the expert to visually inspect only the necessary image data 202, thereby making the work more efficient.

・画像データ、解析結果(数量、順位)とともに、テキストデータを出力
出力処理部105は、算出されたテキストデータ204に含まれる特定の単語の数量、及び、記憶部20に記憶されるテキストデータ204に含まれる特定の単語の数量に応じた順位と関連付けて、テキストデータ204及び画像データ202を出力してもよい。これにより、専門家は、画像データ202の内容の推測が容易となるため、作業を効率化させることができる。
- Output text data along with image data and analysis results (quantity, ranking) The output processing unit 105 outputs the quantity of specific words included in the calculated text data 204 and the text data 204 stored in the storage unit 20 The text data 204 and the image data 202 may be output in association with a ranking according to the number of specific words included in the text. This makes it easier for experts to guess the content of the image data 202, so they can work more efficiently.

・リストとしての出力
出力処理部105は、記憶部20に記憶される画像データ202のリストであるリストデータを生成して出力してもよい。具体的には、出力処理部105は、画像データ202のファイル名と、画像データ202について分類されたクラスである属性とを関連付けて出力する。これにより、専門家は、データ群に含まれる対象となる画像データ202の全体構成の推測が容易となるため、作業を効率化させることができる。また、「第3の文字クラス」および「第4の文字クラス」の画像データ202のみを出力してもよい。さらに、出力リストの順位について、「第3の文字クラス」の画像データ202が、他の文字クラスに対して最上位となるように出力してもよい。そのほか、出力リストの順位について、「1.第3の文字クラスの画像データ」、「2.第4の文字クラスの画像データ」、「3.第1の文字クラスの画像データ」、「4.画像クラスの画像データ」の順番で出力してもよい。これにより、10万件以上もの膨大な画像データから、裁判で証拠として採用される可能性の高い重要な画像データを優先して解析することができ、専門家の作業を効率化することができる。特に、膨大な画像データから、第3の文字クラスの画像データを出力リストの最上位の順番で出力することにより、フォレンジック調査の初期段階で重要な証拠が見つかるか否かの結論を出すことができる。これは、通常、時間の制約があるなかで、大量のデータを分析して調査報告書を作成しなければならない第三者委員会による不正調査において、大きな効果を発揮する。また、「画像データ」および「文字データ」を出力リストとして出力する場合において、「第3の文字クラスの画像データ」を「文字データ」より上位の順位として出力することもできる。通常、「文字データ」は、画像データより優先して出力されることが多い。しかし、「文字データ」より、「第3の文字クラスの画像データ」を優先し、「文字データ」より上位の順位で出力することにより、フォレンジック調査の初期段階で、裁判で証拠として採用される可能性の高い重要な証拠の有無について結論を出すことができる。
- Output as a list The output processing unit 105 may generate and output list data that is a list of the image data 202 stored in the storage unit 20. Specifically, the output processing unit 105 associates the file name of the image data 202 with an attribute, which is a class into which the image data 202 is classified, and outputs the associated file name. This makes it easier for the expert to estimate the overall structure of the target image data 202 included in the data group, so that the expert can work more efficiently. Alternatively, only the image data 202 of the "third character class" and the "fourth character class" may be output. Furthermore, regarding the order of the output list, the image data 202 of the "third character class" may be outputted in the highest order relative to other character classes. In addition, regarding the order of the output list, "1. Image data of the third character class", "2. Image data of the fourth character class", "3. Image data of the first character class", "4. The data may be output in the order of "image data of image class." This makes it possible to prioritize and analyze important image data that is likely to be used as evidence in court from among a huge amount of image data of more than 100,000 items, streamlining the work of experts. . In particular, by outputting image data of the third character class from a huge amount of image data in the order of the top of the output list, it is possible to reach a conclusion as to whether or not important evidence can be found at the early stage of a forensic investigation. can. This is highly effective in fraud investigations conducted by third-party committees, which typically have to analyze large amounts of data and prepare investigation reports under time constraints. Furthermore, when "image data" and "character data" are output as an output list, "image data of the third character class" can also be output as a higher rank than "character data." Normally, "character data" is often output with priority over image data. However, by prioritizing "image data of the third character class" over "text data" and outputting it in a higher order than "text data," it can be used as evidence in a trial at the initial stage of a forensic investigation. Able to draw conclusions about the presence or absence of likely material evidence.

なお、図3を用いて上述した例では、画像解析装置1は、1台のコンピュータで表されるが、これに限定されない。画像解析装置1は、複数のコンピュータで構成されていてもよい。例えば、抽出部101、分類部102、変換部103又は解析部104における処理のいずれかが、ネットワークを介して接続される外部の装置で実行されてもよい。また例えば、記憶部20に記憶されるとして上述したデータの一部が、ネットワークを介して接続される他の装置に記憶可能であり、画像解析装置1は、外部の装置からデータを読み出したり、外部の装置にデータを記憶させたりするように構成されていてもよい。具体的には、画像データ202が外部の記憶装置に記憶されており、画像解析装置1が外部の記憶装置から必要なタイミングで画像データ202を読み出して利用する構成であってもよい。また、当然、画像解析装置1は、専門家により保有される情報処理である必要はなく、クラウドコンピューティングを用いて実現されてもよい。 Note that in the example described above using FIG. 3, the image analysis device 1 is represented by one computer, but is not limited to this. The image analysis device 1 may be composed of multiple computers. For example, any of the processing in the extraction unit 101, the classification unit 102, the conversion unit 103, or the analysis unit 104 may be executed by an external device connected via a network. Further, for example, some of the data described above as being stored in the storage unit 20 can be stored in another device connected via a network, and the image analysis device 1 can read data from an external device, It may also be configured to store data in an external device. Specifically, the image data 202 may be stored in an external storage device, and the image analysis device 1 may read and use the image data 202 from the external storage device at necessary timing. Also, of course, the image analysis device 1 does not need to be an information processing device owned by an expert, and may be realized using cloud computing.

図6に示すフローチャートを用いて、実施形態に係る画像解析装置1において実行される処理について説明する。なお、以下の各ステップの順序は限定的ではなく、同時に実行可能な処理は同時に実行してもよいし、可能な範囲でステップの順序を入れ替えてもよい。 Processing executed in the image analysis device 1 according to the embodiment will be described using the flowchart shown in FIG. 6. Note that the order of the following steps is not limited, and processes that can be executed simultaneously may be executed at the same time, or the order of the steps may be changed to the extent possible.

まず、抽出部101は、データ群から、画像データ202を抽出する。また、抽出部101は、抽出した画像データ202を記憶部20に記憶させる(S01)。 First, the extraction unit 101 extracts image data 202 from a data group. Further, the extraction unit 101 stores the extracted image data 202 in the storage unit 20 (S01).

分類部102は、学習済みモデルMを利用して、ステップS01で抽出された各画像データ202のクラスを分類する。また、分類部102は、分類結果を示すクラスデータ203を生成し、記憶部20に記憶させる(S02)。例えば、分類部102は、画像データ202を、手書き文字を含む「第1の文字クラス」、手書き以外の文字を含む「第2の文字クラス」、又は、文字を含まない「画像クラス」に分類する。また例えば、分類部102は、手書き以外の文字について、証拠としての優先度に応じて「第3の文字クラス」及び「第4の文字クラス」を区別する学習済みモデルMを用いる場合、手書き以外の文字クラスについては、「第3の文字クラス」又は「第4の文字クラス」に分類する。 The classification unit 102 uses the trained model M to classify the class of each image data 202 extracted in step S01. Furthermore, the classification unit 102 generates class data 203 indicating the classification result, and stores it in the storage unit 20 (S02). For example, the classification unit 102 classifies the image data 202 into a "first character class" that includes handwritten characters, a "second character class" that includes characters other than handwritten characters, or an "image class" that does not include characters. do. For example, when using the trained model M that distinguishes between "third character class" and "fourth character class" for characters other than handwritten characters according to the priority as evidence, the classification unit 102 The character class is classified into a "third character class" or a "fourth character class."

変換部103は、ステップS02で得られた分類結果において、特定のクラスと関連付けられる各画像データについて、文字認識の技術を用いて、テキストデータ204に変換する。また、変換部103は、変換したテキストデータ204を記憶部20に記憶させる(S03)。例えば、「第2の文字クラス」に分類された各画像データについて、文字認識の技術を利用し、テキストデータ204に変換する。また例えば、変換部103は、「第4の文字クラス」に分類された各画像データについて、文字認識の技術を利用し、テキストデータ204に変換する。 The conversion unit 103 converts each image data associated with a specific class in the classification result obtained in step S02 into text data 204 using character recognition technology. Furthermore, the conversion unit 103 stores the converted text data 204 in the storage unit 20 (S03). For example, each image data classified into the "second character class" is converted into text data 204 using character recognition technology. For example, the conversion unit 103 converts each image data classified into the "fourth character class" into text data 204 using character recognition technology.

解析部104は、ステップS03で得られたテキストデータ204を解析する。また、解析部104は、解析結果データ205を記憶部20に記憶させる(S04)。例えば、解析部104は、特定の単語の数量を解析し、その結果を解析結果データ205とする。 The analysis unit 104 analyzes the text data 204 obtained in step S03. Furthermore, the analysis unit 104 stores the analysis result data 205 in the storage unit 20 (S04). For example, the analysis unit 104 analyzes the quantity of a specific word and uses the result as the analysis result data 205.

出力処理部105は、各データについて、ステップS02で得られた分類結果及びステップS04で得られた解析結果を出力部50に出力する(S05)。 The output processing unit 105 outputs the classification result obtained in step S02 and the analysis result obtained in step S04 for each data to the output unit 50 (S05).

上述したように、本開示に係る画像解析方法、画像解析装置及び画像解析プログラムによれば、画像データ202を、属性毎に分類することで、その後に必要な工程を容易に決定することができ、または、解析処理がすでにされている場合には画像データ202の内容を把握できるため、フォレンジックにおけるデータ調査での専門家の作業の負担を軽減するとともに必要時間を短縮し、作業を効率化することが可能となる。 As described above, according to the image analysis method, image analysis device, and image analysis program according to the present disclosure, by classifying the image data 202 by attribute, it is possible to easily determine subsequent steps. Or, if the analysis process has already been performed, the contents of the image data 202 can be grasped, which reduces the burden on experts in data investigation in forensics, shortens the required time, and improves the efficiency of the work. becomes possible.

〈変形例〉
図7を用いて、変形例に係る画像解析装置1Aについて説明する。図3に示した画像解析装置1と比較して、変形例に係る画像解析装置1Aは、記憶部20において、文字データ201を記憶する点で異なる。なお、変形例において、上述した実施形態と異なる構成及び処理については、参照符号に下線を付す。
<Modified example>
An image analysis device 1A according to a modification will be described using FIG. 7. Compared to the image analysis device 1 shown in FIG. 3, the image analysis device 1A according to the modified example differs in that character data 201 is stored in the storage unit 20. In addition, in the modified example, reference numerals are underlined for configurations and processes that are different from the above-described embodiment.

文字データ201は、データ群から抽出されたデータである。変形例に係る画像解析装置1Aにおいては、抽出部101において、データ群から画像データ202とともに、文字データ201も抽出する。また、解析部104は、テキストデータ204とともに、文字データ201の内容も解析する。これにより、変形例に係る画像解析装置1Aでは、文字データ201と、画像データ202から生成されたテキストデータ204との両方を解析対象とし、解析結果を同等に扱うことができる。したがって、解析結果データ205は、文字データ201の文字解析の結果を含むことができる。 Character data 201 is data extracted from the data group. In the image analysis device 1A according to the modification, the extraction unit 101 extracts the character data 201 as well as the image data 202 from the data group. Furthermore, the analysis unit 104 analyzes the contents of the character data 201 as well as the text data 204. Thereby, in the image analysis device 1A according to the modification, both the character data 201 and the text data 204 generated from the image data 202 can be analyzed, and the analysis results can be treated equally. Therefore, the analysis result data 205 can include the result of character analysis of the character data 201.

例えば、解析結果データ205は、各テキストデータ204及び各文字データ201の識別情報と関連づけて、各テキストデータ204及び各文字データ201に含まれる特定の単語の数量を含む。これにより、画像解析装置1Aによれば、データ群に含まれるデータの種別に関係なく、データの内容から必要な情報を選択することが可能となり、レビュー及びドキュメントの判断に役立てることが可能となる。 For example, the analysis result data 205 includes the quantity of specific words included in each text data 204 and each character data 201 in association with the identification information of each text data 204 and each character data 201. Thereby, according to the image analysis device 1A, it becomes possible to select necessary information from the contents of the data, regardless of the type of data included in the data group, and it becomes possible to use it for review and document judgment. .

このようなテキストデータ204及び文字データ201を扱う場合、データの種別及びクラス毎に後に必要な工程を定めることができる。例えば、第1の文字クラス及び第3の文字クラスに該当する画像データ202に含まれる文字情報は、メモ書きのような意味合いであることが多いと考えられる場合、第1の文字クラス及び第3の文字クラスに該当する画像データ202から得られたテキストデータ204を同等に扱ってもよい。また、第4の文字クラスに該当する画像データ202に含まれる文字情報と文字データ201に含まれる文字情報とが、ともに対象案件の内容を説明する意味合いであることが多いと考えられる場合、第4の文字クラスの画像データ202から生成されたテキストデータ204と文字データ201とを同等に扱ってもよい。 When handling such text data 204 and character data 201, it is possible to determine subsequent steps for each data type and class. For example, if the character information included in the image data 202 that corresponds to the first character class and the third character class is likely to have a meaning such as writing a memo, the first character class and the third character class The text data 204 obtained from the image data 202 that corresponds to the character class may be treated equally. Furthermore, if it is thought that the character information included in the image data 202 and the character information included in the character data 201 that correspond to the fourth character class are often meant to explain the content of the target project, Text data 204 generated from image data 202 of character class No. 4 and character data 201 may be treated equally.

図8に示すフローチャートを用いて、変形例に係る画像解析装置1Aにおいて実行される処理について説明する。なお、以下の各ステップの順序は限定的ではなく、同時に実行可能な処理は同時に実行してもよいし、可能な範囲でステップの順序を入れ替えてもよい。 Processing executed in the image analysis device 1A according to the modification will be described using the flowchart shown in FIG. 8. Note that the order of the following steps is not limited, and processes that can be executed simultaneously may be executed at the same time, or the order of the steps may be changed to the extent possible.

まず、抽出部101は、データ群から、文字データ201及び画像データ202を抽出し、記憶部20に記憶させる(S11)。 First, the extraction unit 101 extracts character data 201 and image data 202 from a data group, and stores them in the storage unit 20 (S11).

分類部102は、学習済みモデルMを利用して、ステップS11で抽出された各画像データ202のクラスを分類し、分類結果を示すクラスデータ203を生成して記憶部20に記憶させる(S02)。 The classification unit 102 uses the learned model M to classify the classes of each image data 202 extracted in step S11, generates class data 203 indicating the classification result, and stores it in the storage unit 20 (S02). .

変換部103は、ステップS02で得られた分類結果において、特定のクラスと関連付けられる各画像データについて、文字認識の技術を用いて、テキストデータ204に変換し、変換で得られたテキストデータ204を記憶部20に記憶させる(S03)。 The conversion unit 103 converts each image data associated with a specific class in the classification result obtained in step S02 into text data 204 using character recognition technology, and converts the text data 204 obtained by the conversion into text data 204. The information is stored in the storage unit 20 (S03).

解析部104は、ステップS03で得られたテキストデータ204を解析し、解析結果データ205を記憶部20に記憶させる(S04)。 The analysis unit 104 analyzes the text data 204 obtained in step S03, and stores the analysis result data 205 in the storage unit 20 (S04).

また、解析部104は、ステップS11で抽出した文字データ201を解析し、その解析結果を記憶部20の解析結果データ205に追加する(S15)。 Furthermore, the analysis unit 104 analyzes the character data 201 extracted in step S11, and adds the analysis result to the analysis result data 205 in the storage unit 20 (S15).

出力処理部105は、各データについて、ステップS02の分類結果及びステップS04と、ステップS15の分類結果を出力部50に出力する(S16)。 The output processing unit 105 outputs the classification results of step S02 and the classification results of step S04 and step S15 for each data to the output unit 50 (S16).

上述したように、変形例に係る画像解析方法、画像解析装置及び画像解析プログラムによれば、画像データを、属性毎に分類することで、その後に必要な工程を容易に決定することができ、または、解析処理がすでにされている場合には画像データ202の内容を把握できるとともに、画像データ202から得られたテキストデータ204の解析結果と文字データ201から得られた解析結果とを並列して扱うことができるため、フォレンジックにおけるデータ調査での専門家の作業の負担を軽減するとともに必要時間を短縮し、効率化することができる。 As described above, according to the image analysis method, image analysis device, and image analysis program according to the modified example, by classifying image data by attribute, it is possible to easily determine subsequent steps, Alternatively, if analysis processing has already been performed, the contents of the image data 202 can be grasped, and the analysis results of the text data 204 obtained from the image data 202 and the analysis results obtained from the character data 201 can be parallelized. This makes it possible to reduce the burden on experts in forensic data investigation, shorten the time required, and improve efficiency.

本開示は、ディジタルフォレンジックで画像データを扱う際に、対象となる画像データのスクリーニングに有用である。 The present disclosure is useful for screening target image data when handling image data in digital forensics.

1 画像解析装置
10 制御部
101 抽出部
102 分類部
103 変換部
104 解析部
105 出力処理部
20 記憶部
201 文字データ
202 画像データ
203 クラスデータ
204 テキストデータ
205 解析結果データ
P 画像解析プログラム
M 学習済みモデル
1 Image analysis device 10 Control unit 101 Extraction unit 102 Classification unit 103 Conversion unit 104 Analysis unit 105 Output processing unit 20 Storage unit 201 Character data 202 Image data 203 Class data 204 Text data 205 Analysis result data P Image analysis program M Learned model

Claims (20)

複数の文字データ及び複数の画像データを含むデータ群から、画像データを抽出するステップと、
抽出された前記画像データを取得するステップと、
複数の画像データと、各画像データのクラスとして、手書きの文字を含む第1の文字クラス、手書き以外の文字を含む第2の文字クラス、各画像データが文字を含まない画像クラス、のいずれかが関連付けられる教師データを学習済みの学習済みモデルを利用して、取得した前記画像データのクラスを分類するステップと、
を含む画像解析方法。
extracting image data from a data group including a plurality of character data and a plurality of image data;
obtaining the extracted image data;
A plurality of image data, and the class of each image data is either a first character class that includes handwritten characters, a second character class that includes characters other than handwritten characters, or an image class in which each image data does not include characters. classifying the class of the obtained image data using a trained model that has learned training data associated with the image data;
Image analysis methods including.
前記データ群は、特定の調査に利用されるフォレンジックデータであって、
前記第2の文字クラスは、フォレンジックにおける証拠としての優先度の高いデータのクラスである第3の文字クラスと、前記第3の文字クラスのデータよりも証拠としての優先度の低いデータのクラスである第4の文字クラスとを含み、
前記画像データのクラスを分類するステップでは、前記画像データが前記第1の文字クラス、前記第3の文字クラス、前記第4の文字クラス、又は、前記画像クラスの何れであるかを分類する、
請求項1に記載の画像解析方法。
The data group is forensic data used for a specific investigation,
The second character class includes a third character class that is a class of data with a high priority as evidence in forensics, and a class of data that has a lower priority as evidence than the data of the third character class. a fourth character class;
In the step of classifying the class of the image data, classifying the image data as one of the first character class, the third character class, the fourth character class, or the image class;
The image analysis method according to claim 1.
前記学習済みモデルは、手書きの文字および手書き以外の文字の少なくとも両方を含む画像データのクラスとして、前記第1の文字クラスが関連付けられる教師データを用いて学習済みである
請求項1または2に記載の画像解析方法。
The trained model is trained using teacher data to which the first character class is associated as a class of image data that includes at least both handwritten characters and non-handwritten characters. image analysis method.
前記学習済みモデルは、手書きの文字および手書き以外の文字の少なくとも両方を含み、手書き文字の数が、手書き以外の文字の数に対して所定以上の割合である画像データのクラスとして、前記第1の文字クラスが関連付けられる教師データを用いて学習済みである
請求項1または2に記載の画像解析方法。
The learned model is a class of image data that includes at least both handwritten characters and non-handwritten characters, and the number of handwritten characters is a predetermined ratio or more to the number of non-handwritten characters. The image analysis method according to claim 1 or 2, wherein the image analysis method has been trained using teacher data with which character classes are associated.
特定の調査に利用されるフォレンジックデータであって、複数の文字データ及び複数の画像データを含むデータ群から、画像データを抽出するステップと、
抽出された前記画像データを取得するステップと、
複数の画像データと、各画像データのクラスとして、フォレンジックにおける証拠としての優先度の高い文字を含むデータのクラスと、当該クラスよりも証拠としての優先度の低いデータのクラスと、の少なくとも二つを含み、いずれか一つが関連付けられる教師データを学習済みの学習済みモデルを利用して、取得した前記画像データのクラスを分類するステップと、
を含む画像解析方法。
extracting image data from a data group that is forensic data used in a specific investigation and includes a plurality of character data and a plurality of image data;
obtaining the extracted image data;
A plurality of image data, and at least two classes of each image data: a class of data that includes characters that have a high priority as evidence in forensics, and a class of data that has a lower priority as evidence than that class. classifying the acquired image data using a trained model that has been trained on training data to which any one of the acquired image data is associated;
Image analysis methods including.
前記クラスが分類された前記画像データのそれぞれに関連づけて、前記分類されたクラスを示すクラスデータを記憶部に記憶させるステップと、
前記記憶部において、証拠としての優先度の高い文字を含むクラスと関連付けられる前記画像データのみについて、文字認識の処理結果を用いて、それぞれテキストデータとして変換するステップと、
前記テキストデータに含まれる特定の単語の数量を求めるステップと、
を含む請求項2に記載の画像解析方法。
storing class data indicating the classified class in a storage unit in association with each of the image data into which the class has been classified;
converting, in the storage unit, only the image data associated with a class containing characters with high priority as evidence into text data using a processing result of character recognition;
determining the quantity of specific words included in the text data;
The image analysis method according to claim 2, comprising:
求められた前記特定の単語の前記数量を、前記テキストデータのもととなる前記画像データと関連付けて記憶部に記憶させるステップ、
を含む請求項6に記載の画像解析方法。
storing the determined quantity of the specific word in a storage unit in association with the image data that is the source of the text data;
The image analysis method according to claim 6, comprising:
前記テキストデータが含む前記特定の単語の数量に応じた順位と関連付けて、前記画像データを出力するステップ、
を含む請求項7に記載の画像解析方法。
outputting the image data in association with a ranking according to the quantity of the specific words included in the text data;
The image analysis method according to claim 7, comprising:
前記画像データを出力するステップにおいて、前記出力されるそれぞれの前記画像データごとに、前記関連付けられた前記クラスを示す属性を併せて出力する
請求項8に記載の画像解析方法。
9. The image analysis method according to claim 8, wherein in the step of outputting the image data, an attribute indicating the associated class is also output for each of the output image data.
前記画像データを出力するステップにおいて、前記画像データに前記関連付けられた前記クラスをフィルタとして選択してディスプレイに表示させる
請求項8に記載の画像解析方法。
The image analysis method according to claim 8, wherein in the step of outputting the image data, the class associated with the image data is selected as a filter and displayed on a display.
前記画像データを出力するステップにおいて、前記第3の文字クラスに関連付けられた前記画像データのみを出力する
請求項8に記載の画像解析方法。
The image analysis method according to claim 8, wherein in the step of outputting the image data, only the image data associated with the third character class is output.
前記画像データを出力するステップにおいて、前記第3の文字クラスおよび前記第4の文字クラスに関連付けられた前記画像データのみを出力する
請求項8に記載の画像解析方法。
The image analysis method according to claim 8, wherein in the step of outputting the image data, only the image data associated with the third character class and the fourth character class are output.
前記画像データを出力するステップにおいて、前記第3の文字クラスに関連付けられた前記画像データを、他の前記画像データよりも優先して出力する
請求項8に記載の画像解析方法。
The image analysis method according to claim 8, wherein in the step of outputting the image data, the image data associated with the third character class is output with priority over other image data.
前記画像データを出力するステップにおいて、前記第3の文字クラスに関連付けられた前記画像データ、前記第4の文字クラスに関連付けられた前記画像データ、前記第1の文字クラスに関連付けられた前記画像データ、前記画像クラスに関連付けられた順番で出力する
請求項8に記載の画像解析方法。
In the step of outputting the image data, the image data associated with the third character class, the image data associated with the fourth character class, and the image data associated with the first character class. , the image analysis method according to claim 8, wherein the images are output in the order associated with the image class.
前記画像データを出力するステップにおいて、前記第3の文字クラスに関連付けられた前記画像データを、前記文字データよりも優先して出力する
請求項8に記載の画像解析方法。
The image analysis method according to claim 8, wherein in the step of outputting the image data, the image data associated with the third character class is output with priority over the character data.
前記データ群の複数の文書データに含まれる前記特定の単語の数量を算出するステップと、
算出された前記複数の文書データに含まれる前記特定の単語の数量、及び、前記記憶部に記憶される前記テキストデータに含まれる前記特定の単語の数量に応じた順位と関連付けて、前記テキストデータのもととなる前記画像データ及び前記文書データを出力するステップと、
を含む請求項7に記載の画像解析方法。
calculating the quantity of the specific words included in the plurality of document data of the data group;
The text data in association with the calculated quantity of the specific words included in the plurality of document data and a ranking according to the quantity of the specific words included in the text data stored in the storage unit. outputting the image data and the document data that are the basis of;
The image analysis method according to claim 7, comprising:
前記特定の単語の数量は、データに含まれる前記特定の単語の数、または、前記データ全体の単語数における前記特定の単語の割合のいずれかである
請求項7に記載の画像解析方法。
The image analysis method according to claim 7, wherein the quantity of the specific words is either the number of the specific words included in the data or the proportion of the specific words in the number of words in the entire data.
出力するステップでは、画像データのファイル名と、前記画像データについて分類されたクラスの属性とを関連付けて表示する
請求項7に記載の画像解析方法。
8. The image analysis method according to claim 7, wherein in the step of outputting, the file name of the image data and the attribute of the class into which the image data is classified are displayed in association with each other.
コンピュータに、請求項1に記載の画像解析方法を実行させるコンピュータプログラム。 A computer program that causes a computer to execute the image analysis method according to claim 1. 複数の文書データ及び複数の画像データを含むデータ群から、画像データを抽出する抽出部と、
複数の画像データと、各画像データのクラスとして、手書きの文字を含む第1の文字クラス、手書き以外の文字を含む第2の文字クラス、各画像データが文字を含まない画像クラス、のいずれかが関連付けられる教師データを学習済みの学習済みモデルを利用して、抽出された前記画像データのクラスを分類する分類部と、
を含む画像解析装置。
an extraction unit that extracts image data from a data group including a plurality of document data and a plurality of image data;
A plurality of image data, and the class of each image data is either a first character class that includes handwritten characters, a second character class that includes characters other than handwritten characters, or an image class in which each image data does not include characters. a classification unit that classifies the extracted image data using a trained model that has trained training data associated with the image data;
Image analysis equipment including.
JP2022089669A 2022-06-01 2022-06-01 Image analysis method, image analysis device and image analysis program Pending JP2023177010A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022089669A JP2023177010A (en) 2022-06-01 2022-06-01 Image analysis method, image analysis device and image analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022089669A JP2023177010A (en) 2022-06-01 2022-06-01 Image analysis method, image analysis device and image analysis program

Publications (1)

Publication Number Publication Date
JP2023177010A true JP2023177010A (en) 2023-12-13

Family

ID=89122321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022089669A Pending JP2023177010A (en) 2022-06-01 2022-06-01 Image analysis method, image analysis device and image analysis program

Country Status (1)

Country Link
JP (1) JP2023177010A (en)

Similar Documents

Publication Publication Date Title
RU2571545C1 (en) Content-based document image classification
US10445357B2 (en) Document classification system, document classification method, and document classification program
EP3437019B1 (en) Optical character recognition in structured documents
US10043231B2 (en) Methods and systems for detecting and recognizing text from images
US9449031B2 (en) Sorting and filtering a table with image data and symbolic data in a single cell
US9710704B2 (en) Method and apparatus for finding differences in documents
US9824299B2 (en) Automatic image duplication identification
US8892990B2 (en) Automatic creation of a table and query tools
JP2008234658A (en) Course-to-fine navigation through whole paginated documents retrieved by text search engine
US8792730B2 (en) Classification and standardization of field images associated with a field in a form
US9542474B2 (en) Forensic system, forensic method, and forensic program
CN108197119A (en) The archives of paper quality digitizing solution of knowledge based collection of illustrative plates
JP6529254B2 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM
CN110889341A (en) Form image recognition method and device based on AI (Artificial Intelligence), computer equipment and storage medium
Ning et al. MT-YOLOv5: Mobile terminal table detection model based on YOLOv5
JP2008204184A (en) Image processor, image processing method, program and recording medium
JP5480008B2 (en) Summary manga image generation apparatus, program and method for generating manga content summary
US9940002B2 (en) Image variation engine
US10949604B1 (en) Identifying artifacts in digital documents
JP2023177010A (en) Image analysis method, image analysis device and image analysis program
AYDIN Classification of documents extracted from images with optical character recognition methods
CN114155547B (en) Chart identification method, device, equipment and storage medium
US11354485B1 (en) Machine learning based classification and annotation of paragraph of resume document images based on visual properties of the resume document images, and methods and apparatus for the same
US20220051009A1 (en) Systems and methods for automatic context-based annotation
CN113065316A (en) Method for dynamically converting formal thumbnail file into html (hypertext markup language) and inputting question bank, selecting questions from question bank and composing draft and generating thumbnail file

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20220622

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20240409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240409