JP7449961B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7449961B2 JP7449961B2 JP2021566876A JP2021566876A JP7449961B2 JP 7449961 B2 JP7449961 B2 JP 7449961B2 JP 2021566876 A JP2021566876 A JP 2021566876A JP 2021566876 A JP2021566876 A JP 2021566876A JP 7449961 B2 JP7449961 B2 JP 7449961B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- structural formula
- compound
- target
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 77
- 238000003672 processing method Methods 0.000 title claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 214
- 239000000470 constituent Substances 0.000 claims description 66
- 238000010801 machine learning Methods 0.000 claims description 54
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 125000000524 functional group Chemical group 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 15
- 125000004429 atom Chemical group 0.000 description 14
- 238000009795 derivation Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 5
- 125000004836 hexamethylene group Chemical group [H]C([H])([*:2])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[*:1] 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
- G06V30/422—Technical drawings; Geographical maps
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特許文献1に記載の技術は、化学構造図中の文字情報(例えば、化学物を構成する原子)をパターン認識し、化学構造図の線図情報(例えば、原子間の結合)を所定のアルゴリズムによって認識する。
しかしながら、構造式の記載様式には等価な様式が複数あり、また、構造式中の太さ及び向き等は、書き方次第で変わり得る。その場合、構造式の書き方の違いに対応するために、様々な書き方にて記載された構造式中の各構成要素を識別するルールを、数多く用意しておく必要がある。識別ルールが準備されていない書き方にて記載された構造式については、その中に含まれる各構成要素を識別することが困難となる。
あるいは、構成要素の種類を示す情報が、構成要素に該当する官能基の化学式を示す情報であってもよい。
あるいは、構成要素の種類を示す情報が、対象化合物の構造式における構成要素の有無を構成要素の種類毎に示す分子フィンガープリントの一部からなる情報であってもよい。
また、上記の情報処理方法の各ステップをプロセッサに実施させるためのプログラムも実現可能である。
なお、以下の実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。
本実施形態の情報処理装置(以下、単に「情報処理装置」と言う。)は、プロセッサを備え、対象化合物の構造式を示す画像(対象画像)を解析して当該構造式中の各構成要素を識別することができる。対象化合物は、例えば、構造式が文書中の画像に表され、当該画像中の各領域が示す構成要素が情報処理装置によって識別される化合物である。
本実施形態で用いられる識別モデル(以下、識別モデルM1と言う。)について説明する。
識別モデルM1は、対象化合物の構造式を示す画像(対象画像)から、その構造式に含まれる各構成要素を識別するためのモデルである。本実施形態の識別モデルM1は、図3に示すように、特徴量導出モデルMaと、構成要素出力モデルMbとによって構成される。
なお、機械学習に用いられる学習データセットの数については、学習の精度を向上させる観点では多い方がよく、好ましくは5万個以上とするのがよい。
また、機械学習の技法については、遺伝的プログラミング、帰納論理プログラミング、サポートベクタマシン、クラスタリング、ベイジアンネットワーク、エクストリーム・ラーニング・マシン(ELM)、又は決定木学習であってもよい。
また、ニューラルネットワークの機械学習において目的関数(損失関数)を最小化する方法としては、勾配降下法を用いてもよく、あるいは誤差逆伝播法を用いてもよい。
次に、図5に図示した情報処理装置(以下、情報処理装置10)の構成例について説明する。なお、図5では、外部インタフェースを「外部I/F」と記載している。
なお、本実施形態では、情報処理装置10が一台のコンピュータによって構成されているが、複数台のコンピュータによって情報処理装置10が構成されてもよい。
なお、上述したハードウェアプロセッサは、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)であってもよい。
p1:機械学習によって識別モデルM1を構築するためのプログラム
p2:対象画像が掲載された文書から対象画像を検出するためのプログラム
p3:対象画像が示す構造式中の各構成要素を識別するためのプログラム
p4:識別された構成要素についての要素情報を記憶するためのプログラム
p5:要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するためのプログラム
また、データベース22に記憶される構成要素の配置位置は、対象画像の基準位置を原点とする座標空間にて表される位置であり、例えば、構成要素を囲む矩形領域の代表位置、X方向長さ及びY方向長さで表される。
次に、情報処理装置10を用いた情報処理フローについて説明する。
なお、以下に説明する情報処理フローでは、本発明の情報処理方法が採用されている。すなわち、下記の情報処理フロー中の各ステップは、本発明の情報処理方法を構成する。
学習フェーズS001は、以降のフェーズで必要となるモデルを構築するために機械学習を実施するフェーズである。学習フェーズS001では、図6に示すように、第1の機械学習S011、第2の機械学習S012、及び第3の機械学習S013が実施される。
なお、アノテーションツールとしては、例えば、tzutalin社のlabeImg、及び、microsoft社のVoTT等が利用可能である。
本実施形態の検索モデルは、データベース22に要素情報が記憶された対象化合物のうち、検索化合物との間で構造式が同一又は類似である対象化合物を、検索化合物として検索するモデルである。
なお、検索化合物特定モデルとしては、前述の識別モデルM1を転用してもよく、その場合の機械学習として転移学習を実施してもよい。
そして、第3の機械学習が実施されることにより、上述した検索モデルが構築される。
データベース構築フェーズS002は、文書に含まれる画像(対象画像)が示す対象化合物の構造式について、その構造式中の各構成要素についての要素情報を記憶してデータベース22を構築するフェーズである。
具体的に説明すると、プロセッサ11は、ステップS021で検出された対象画像を識別モデルM1に入力する。識別モデルM1のうち、前段の特徴量導出モデルMaでは対象画像の各領域の特徴量が出力される。後段の構成要素出力モデルMbでは、入力された各領域の特徴量に基づき、構成要素(厳密には、構成要素の種類)が出力される。このとき、各領域の特徴量に基づいて、各領域と対応する構成要素の候補が複数特定され、また、それぞれの候補について出力確率が算出される。
検索フェーズS003は、データベース22に要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するフェーズである。「検索化合物」は、検索対象となり、検索の実施に際して、その構造式の一部又は全部に関する情報が入力情報として取得される化合物である。
本実施形態の情報処理装置10は、第1の機械学習S011によって構築された識別モデルM1を利用し、対象化合物の構造式を示す画像(対象画像)中の各領域の特徴量に基づき、構造式中の各構成要素を識別することができる。また、本実施形態の情報処理装置10は、識別された構成要素についての要素情報を対象化合物と関連付けて記憶し、データベース22を構築する。データベース22に記憶された要素情報は、それ以降に対象化合物を検索する際の検索キーとして利用することができる。
以上までに、本発明の情報処理装置、情報処理方法、及びプログラムについて具体例を挙げて説明してきたが、上述した実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
例えば、情報処理装置を構成するコンピュータとしては、ASP(Application Service Provider)、SaaS(Software as a Service)、PaaS(Platform as a Service)又はIaaS(Infrastructure as a Service)等に利用されるサーバであってもよい。この場合、上記ASP等のサービスを利用するユーザが不図示の端末を操作して、検索化合物に関する入力情報をサーバに送信する。サーバは、入力情報を受信すると、入力情報に基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する。そして、サーバは、検索結果(すなわち、検索化合物に該当する対象化合物)に関する情報を、ユーザの端末に向けて出力(送信)する。ユーザ側では、サーバから送られてくる情報(すなわち、検索結果)が表示され、あるいは音声再生される。
あるいは、構造式中、互いに隣接する複数の官能基を構成要素としてもよく、又は、構造式を任意のルールに従って分割したときの各断片(フラグメント)を構成要素としてもよい。
例えば、第1の機械学習が他の装置によって行われる場合、情報処理装置10は、識別モデルM1を他の装置から取得し、取得された識別モデルM1により、対象画像が示す構造式中の各構成要素を識別する。
11 プロセッサ
12 メモリ
13 外部インタフェース
14 入力装置
15 出力装置
16 ストレージ
21 プログラム
22 データベース
M1 識別モデル
Ma 特徴量導出モデル
Mb 構成要素出力モデル
Claims (13)
- プロセッサを備える情報処理装置であって、
前記プロセッサは、
識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式中の構成要素のうち、前記各領域が示す前記構成要素を識別し、
識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶し、
前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され、
前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理装置。 - 前記プロセッサは、
検索化合物に関する入力情報を取得し、
前記入力情報と、前記対象化合物と関連付けられた前記要素情報とに基づき、前記要素情報が記憶された前記対象化合物の中から、前記検索化合物に該当する前記対象化合物を検索する、請求項1に記載の情報処理装置。 - 前記プロセッサは、
前記入力情報と、前記対象化合物と関連付けて記憶された前記要素情報とに基づき、前記検索化合物と前記対象化合物との間の類似度を算出し、
前記要素情報が記憶された前記対象化合物の中から、前記類似度が検索条件を満たす前記対象化合物を前記検索化合物として検索する、請求項2に記載の情報処理装置。 - 前記プロセッサは、前記検索化合物の構造式中に含まれる前記構成要素に関する前記入力情報を取得する、請求項2又は3に記載の情報処理装置。
- 前記プロセッサは、
前記対象画像を含む文書から前記対象画像を検出し、
検出された前記対象画像を前記識別モデルに入力することにより、前記対象画像中の前記各領域が示す前記構成要素を識別する、請求項1乃至4のいずれか一項に記載の情報処理装置。 - 前記プロセッサは、オブジェクト検出アルゴリズムを利用して前記文書から前記対象画像を検出する、請求項5に記載の情報処理装置。
- 前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の種類を示す情報を含む、請求項1乃至6のいずれか一項に記載の情報処理装置。
- 前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の、前記対象画像に対して設定された座標空間での配置位置を示す情報を更に含む、請求項1に記載の情報処理装置。
- 前記構成要素の種類を示す情報は、前記構成要素に該当する原子又は原子間の結合の種類を示す情報である、請求項7又は8に記載の情報処理装置。
- 前記構成要素の種類を示す情報は、前記構成要素に該当する官能基の化学式を示す情報である、請求項7又は8に記載の情報処理装置。
- 前記構成要素の種類を示す情報は、前記対象化合物の構造式における前記構成要素の有無を前記構成要素の種類毎に示す分子フィンガープリントの一部からなる情報である、請求項7又は8に記載の情報処理装置。
- プロセッサが、
識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式に含まれる構成要素のうち、前記各領域が示す前記構成要素を識別するステップと、
識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶するステップと、を実施し、
前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され、
前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理方法。 - 請求項12に記載された情報処理方法の各ステップをプロセッサに実施させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019236342 | 2019-12-26 | ||
JP2019236342 | 2019-12-26 | ||
PCT/JP2020/040861 WO2021131324A1 (ja) | 2019-12-26 | 2020-10-30 | 情報処理装置、情報処理方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021131324A1 JPWO2021131324A1 (ja) | 2021-07-01 |
JPWO2021131324A5 JPWO2021131324A5 (ja) | 2022-08-17 |
JP7449961B2 true JP7449961B2 (ja) | 2024-03-14 |
Family
ID=76574083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021566876A Active JP7449961B2 (ja) | 2019-12-26 | 2020-10-30 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220327158A1 (ja) |
JP (1) | JP7449961B2 (ja) |
CN (1) | CN114868192A (ja) |
WO (1) | WO2021131324A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115908775A (zh) * | 2021-08-16 | 2023-04-04 | 中国科学院上海药物研究所 | 化学结构式的识别方法、装置、存储介质及电子设备 |
CN114581924A (zh) * | 2022-03-01 | 2022-06-03 | 苏州阿尔脉生物科技有限公司 | 化学反应流程图中元素的提取方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013061886A (ja) | 2011-09-14 | 2013-04-04 | Kyushu Univ | 化学構造図認識システム及び化学構造図認識システム用のコンピュータプログラム |
CN108062529A (zh) | 2017-12-22 | 2018-05-22 | 上海鹰谷信息科技有限公司 | 一种化学结构式的智能识别方法 |
WO2019048965A1 (ja) | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
US20190251455A1 (en) | 2018-02-13 | 2019-08-15 | International Business Machines Corporation | Combining chemical structure data with unstructured data for predictive analytics in a cognitive system |
WO2019175271A1 (en) | 2018-03-13 | 2019-09-19 | Ivalua | Standardized form recognition method, associated computer program product, processing and learning systems |
-
2020
- 2020-10-30 WO PCT/JP2020/040861 patent/WO2021131324A1/ja active Application Filing
- 2020-10-30 CN CN202080089203.6A patent/CN114868192A/zh active Pending
- 2020-10-30 JP JP2021566876A patent/JP7449961B2/ja active Active
-
2022
- 2022-06-19 US US17/844,033 patent/US20220327158A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013061886A (ja) | 2011-09-14 | 2013-04-04 | Kyushu Univ | 化学構造図認識システム及び化学構造図認識システム用のコンピュータプログラム |
WO2019048965A1 (ja) | 2017-09-06 | 2019-03-14 | 株式会社半導体エネルギー研究所 | 物性予測方法および物性予測システム |
CN108062529A (zh) | 2017-12-22 | 2018-05-22 | 上海鹰谷信息科技有限公司 | 一种化学结构式的智能识别方法 |
US20190251455A1 (en) | 2018-02-13 | 2019-08-15 | International Business Machines Corporation | Combining chemical structure data with unstructured data for predictive analytics in a cognitive system |
WO2019175271A1 (en) | 2018-03-13 | 2019-09-19 | Ivalua | Standardized form recognition method, associated computer program product, processing and learning systems |
Non-Patent Citations (2)
Title |
---|
nishiha,Rdkitの構造式画像から分子式を推定する,日本,2019年01月31日,https://qiita.com/nishiha/items/f20f9942a1c35e1ea1fd,[検索日 2021.01.25] |
伊東秀夫,特許情報サービスにおける画像検索,第252号,日本,特許庁技術懇話会,2009年01月30日,第66-70頁,http://www.tokugikon.jp/gikonshi/252tokusyu8.pdf |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021131324A1 (ja) | 2021-07-01 |
US20220327158A1 (en) | 2022-10-13 |
CN114868192A (zh) | 2022-08-05 |
WO2021131324A1 (ja) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963632B2 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
JP7268198B2 (ja) | 画像解析装置、画像解析方法、及びプログラム | |
RU2721189C1 (ru) | Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
CN110362723B (zh) | 一种题目特征表示方法、装置及存储介质 | |
RU2723293C1 (ru) | Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа | |
US10853580B1 (en) | Generation of text classifier training data | |
US20220327158A1 (en) | Information processing apparatus, information processing method, and program | |
US8243988B1 (en) | Clustering images using an image region graph | |
CN107004025A (zh) | 图像检索装置及检索图像的方法 | |
US11663840B2 (en) | Method and system for removing noise in documents for image processing | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
US11966455B2 (en) | Text partitioning method, text classifying method, apparatus, device and storage medium | |
US20220374473A1 (en) | System for graph-based clustering of documents | |
CN116304307A (zh) | 一种图文跨模态检索网络训练方法、应用方法及电子设备 | |
Al-Helali et al. | A statistical framework for online Arabic character recognition | |
US9875336B2 (en) | Spatial arithmetic method of sequence alignment | |
WO2019092867A1 (ja) | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体 | |
CN115344699A (zh) | 文本分类模型的训练方法、装置、计算机设备及介质 | |
JP5343617B2 (ja) | 文字認識プログラム、文字認識方法および文字認識装置 | |
AU2015204339A1 (en) | Information processing apparatus and information processing program | |
TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220616 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7449961 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |