JP7402965B2 - 画像データベース構築方法、検索方法、電子機器及び記憶媒体 - Google Patents

画像データベース構築方法、検索方法、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7402965B2
JP7402965B2 JP2022502183A JP2022502183A JP7402965B2 JP 7402965 B2 JP7402965 B2 JP 7402965B2 JP 2022502183 A JP2022502183 A JP 2022502183A JP 2022502183 A JP2022502183 A JP 2022502183A JP 7402965 B2 JP7402965 B2 JP 7402965B2
Authority
JP
Japan
Prior art keywords
image
target
file
character information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022502183A
Other languages
English (en)
Other versions
JP2022541890A (ja
Inventor
クマール,パンカジ
ティエン グエン,ハイ
ハンス,マルクス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Patsnap Ltd
Original Assignee
Patsnap Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Patsnap Ltd filed Critical Patsnap Ltd
Publication of JP2022541890A publication Critical patent/JP2022541890A/ja
Application granted granted Critical
Publication of JP7402965B2 publication Critical patent/JP7402965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願
本願は、2019年07月12日に提出された出願番号が201910627827.8であり、発明名称が「画像データベース構築方法、検索方法、電子機器及び記憶媒体」の中国特許出願の優先権を要求し、その全ての内容が、援用により本願に結合されている。
本明細書の実施例は、コンピュータの技術分野に関し、特に画像データベース構築方法、検索方法、電子機器及び記憶媒体に関する。
インターネット技術の応用及び発展に伴い、人々は、ますますインターネットで情報検索を行うことに慣れてきた。画像情報の検索について、ユーザは、一般的に検索サービスを提供するウェブサイトの検索エンジンに興味のある画像を入力すると、ウェブサイトは、データベースから該画像構造をマッチングし、マッチングに成功すれば、その画像に関連する情報を示してユーザに閲覧される。
このために、従来の技術において画像情報に関するデータベースが多く提供されており、これらのデータベースは、一般的に、画像ファイルから構築されるものであり、すなわち、従来の既存の画像ファイルをデータベースを構築するベースとする。しかし、実際のファイルシステムにおいて、画像ファイルに画像が存在するだけでなく、テキストファイルにも画像に対する説明があり得るため、テキストファイルにおける画像情報をもデータベースに加えると、手動でテキストファイルを絞り込み、分析し、まとめながら画像を描画する必要がある。大量のテキストファイルに対して、大量の人力、時間などが求められる。
上記問題について、現在、まだ効果的な解決的手段は提案されていない。
本明細書の実施例は、画像データベースを構築する效率を向上させるために、画像データベース構築方法、検索方法、電子機器及び記憶媒体を提供することを目的とする。
上記問題を解決するために、本明細書の実施例は、画像データベース構築方法、検索方法、電子機器及び記憶媒体を提供する。
本明細書の実施形態は、ターゲット文字情報を有するターゲットファイルを取得するステップと、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップと、前記ターゲット画像を記憶して画像データベースを形成するステップと、を含む、画像データベース構築方法を提供する。
一つの実施形態において、前記ターゲットファイルを取得するステップは、データソースからファイルをダウンロードし、ファイルセットを形成することと、所定条件に基づいて、前記ファイルセットからターゲットファイルを取得することと、を含む。
一つの実施形態において、前記所定条件は、ファイルセットにおけるファイルのファイルタイプを特定することと、前記ファイルタイプの違いに基づいて対応するターゲットファイルの絞込ルールを特定することと、を含み、異なるファイルタイプに対応する絞込ルールが異なり、前記絞込ルールは、対応するファイルタイプのファイルを絞り込んでターゲットファイルを取得するために用いられる。
一つの実施形態において、前記ファイルセットにおけるファイルのファイルタイプを特定することは、前記ファイルセットにおけるファイルを文字認識し、前記ファイルに含まれる文字情報を得ることと、前記文字情報に含まれる所定キーワードに基づいて、前記ファイルセットにおけるファイルのファイルタイプを特定することと、を含む。
一つの実施形態において、前記ファイルセットにおけるファイルのファイルタイプは、特許文献と非特許文献の少なくとも一種を含む。
一つの実施形態において、前記非特許文献は、商標ファイル、契約ファイル、学術論文の少なくとも一種を含む。
一つの実施形態において、上記方法は、前記ターゲットファイルを文字認識し、前記ターゲット文字情報をえることをさらに含む。
一つの実施形態において、前記ターゲット文字情報は、化学構造を表現し、対応する前記ターゲット画像は、前記ターゲット文字情報の表現する内容に対応する化学構造式を含む。
一つの実施形態において、前記ターゲット文字情報の表現する内容に対応するターゲット画像本体構造と前記本体構造に関連する少なくとも一つの分岐構造とを含む。
一つの実施形態において、前記本体構造は、マーカッシュ構造の本体部分を含み、前記分岐構造は、前記マーカッシュ構造の置換基部分を含む。
一つの実施形態において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、前記ターゲット文字情報の表現する化学構造にマーカッシュ構造が含まれない場合、前記ターゲット文字情報の表現する内容に対応する、前記化学構造の化学構造式を含むターゲット画像を生成することを含む。
一つの実施形態において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、前記ターゲットファイルに画像ファイル及び対応するテキストファイルが含まれる場合、前記テキストファイルのターゲット文字情報に対応する前記画像ファイルにおける画像を特定することと、前記ターゲット文字情報に対応する画像を前記ターゲット画像とすることと、を含む。
一つの実施形態において、前記ターゲット文字情報は、化学構造の本体構造を表現する本体情報を含み、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、前記ターゲット文字情報における主体情報に基づいて、前記ターゲット画像に含まれる本体構造を特定することを含む。
一つの実施形態において、前記ターゲット文字情報は、化学構造の分岐構造を表現する分岐情報をさらに含み、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、前記ターゲット文字情報の分岐情報に基づいて、前記ターゲット画像の本体構造に、分岐構造を増加することをさらに含む。
一つの実施形態において、前記ターゲット画像を記憶して画像データベースを形成するステップは、前記ターゲット画像の本体構造及び分岐構造を対応付けて記憶することを含む。
一つの実施形態において、前記ターゲットファイルは、ピクチャファイルであり、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、前記ピクチャファイルにおける前記ターゲット文字情報を特定するように、前記ピクチャファイルを画像認識することと、前記ターゲット文字情報に基づいて、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像を生成することと、を含む。
一つの実施形態において、前記ターゲットファイルは、画像情報及び文字情報を含み、前記方法は、化学構造を表現するターゲット文字情報を前記文字情報から特定することと、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像が含まれるか否かを特定することと、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応するターゲット画像がない場合、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成することと、をさらに含む。
一つの実施形態において、前記ターゲット画像を記憶して画像データベースを形成するステップは、前記ターゲットファイルを前記ターゲット画像に関連付けて記憶することをさらに含む。
本明細書の実施形態は、マッチング対象の画像を取得するステップと、予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定するステップであって、前記予め構築された画像データベースは、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであるステップと、存在すると特定された場合、マッチングする画像を表示するステップと、を含む検索方法をさらに提供する。
一つの実施形態において、前記存在すると特定された場合、マッチングする画像を表示するステップは、マッチングする画像に関連付けられた文字情報を表示することをさらに含む。
一つの実施形態において、マッチングする画像及び前記マッチングする画像に関連付けられた文字情報を表示した後、ユーザの照会トリガ操作を受け付けることと、前記照会トリガ操作に応答して、所定の表示形態に従って前記マッチングする画像に関連付けられた文字情報を表示することと、をさらに含む。
一つの実施形態において、前記所定の表示形態は、ハイライト表示、太字表示、画定表示の少なくとも一つを含む。
一つの実施形態において、前記マッチング対象の画像は、本体構造と前記本体構造に関連する少なくとも一つの分岐構造とを含む。
一つの実施形態において、前記マッチング対象の画像は、化学構造式である。
本明細書の実施形態は、マッチング対象の画像を取得するための入力装置と、
予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定するためのプロセッサであって、前記予め構築された画像データベースは、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであるプロセッサと、存在すると特定された場合、マッチングする画像を表示するための表示装置と、を含む電子機器をさらに提供する。
本明細書の実施形態は、ターゲット文字情報を有するターゲットファイルを取得するためのネットワーク通信ユニットと、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するためのプロセッサと、前記ターゲット画像を画像データベースに格納するためのメモリと、を含む電子機器をさらに提供する。
本明細書の実施形態は、コンピュータプログラム命令が記憶されたコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラム命令が実行されると、ターゲット文字情報を有するターゲットファイルを取得することと、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成することと、前記ターゲット画像を記憶して画像データベースを形成することと、が実現される、コンピュータ読取可能な記憶媒体をさらに提供する。
本明細書の実施形態は、コンピュータプログラム命令が記憶されたコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラム命令が実行されると、マッチング対象の画像を取得することと、予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定し、前記予め構築された画像データベースは、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであることと、存在すると特定された場合、マッチングする画像を表示することと、が実現される、コンピュータ読取可能な記憶媒体をさらに提供する。
以上、本明細書の実施例により提供される画像データベース構築方法により、ターゲットファイルにおけるターゲット文字情報を取得するとともに、ターゲット文字情報に基づいてターゲット画像を生成して、さらにターゲット画像を記憶して画像データベースを形成することができ、さらに、ターゲットファイルに画像情報が含まれると、さらに、ターゲット文字情報の表現する内容に基づいて、画像情報と関連付けてターゲット画像を生成してから、ターゲット画像を記憶して画像データベースを形成することができる。本明細書の実施例に係る画像データベースを形成する過程は、コンピュータにより実現することができ、手動でテキストファイルを絞り込み、分析し、及びまとめる必要がなく、画像データベースを構築する効率を効果的に向上させる。
本明細書の実施形態の一つのシーン例の方法フローチャートである。 本明細書の実施例により提供される画像データベース構築方法のフローチャートである。 本明細書の実施例における化学構造式の説明図である。 本明細書の実施例におけるマーカッシュ構造の構造説明図である。 本明細書の実施例によりさらに提供される検索方法のフローチャートである。 本明細書の実施例に係るユーザ入力インタフェースの説明図である。 本明細書の実施例に係る検索結果を表示する一つの説明図である。 本明細書の実施例に係る検索結果を表示する別の説明図である。 本明細書の実施例の画像データベース構築装置の機能ブロック図である。 本明細書の実施例により提供される電子機器のアーキテクチャ説明図である。 本明細書の実施例により提供される電子機器のアーキテクチャ説明図である。
以下、本明細書の実施例における図面を参照しながら、本明細書の実施例における技術的解決手段を明確で、完全に説明し、明らかに、説明された実施例は、本明細書の一部の実施例だけであり、全ての実施例ではない。本明細書における実施例に基づいて、当業者が創造的な労力を払わずに取得した他の全ての実施例は、本明細書の保護範囲に属するべきである。
本実施形態において、前記画像データベース構築方法を実行する本体は、論理演算機能を有する電子機器でもよく、前記電子装置は、サーバ又はクライアントでもよく、前記クライアントは、デスクトップコンピュータ、タブレットコンピュータ、ノートパソコン、ワークステーション等でもよい。勿論、クライアントは、上記一定のエンティティを有する電子機器に限定されず、さらに上記電子機器内で実行されるソフトウェアでもよい。さらに、プログラム開発により形成されたプログラムソフトウェアでもよく、該プログラムソフトウェアは、上記電子機器で実行されることができる。
従来の画像データベースは、一般的に、画像ファイルのみから構築される。文字情報にも画像に対する説明が存在することを考慮し、文字情報を画像に変換してデータベースのリソースとすることができれば、データベースの検索リソース量を効果的に向上させることができる。それにより、最終的な検索構造の被覆率を効果的に向上させ、検索効率を向上させる。
本実施形態は、シーン例を提供し、図1に示すように、図1は、本実施形態により提供されるシーン例のフローチャートである。
本シーン例において、マーカッシュ構造をターゲット画像として画像データベースの構築を実現する。マーカッシュクレームは、化学発明特許出願における単一性問題に関する特殊な問題であり、一つ又は複数の部分の化合物において複数種の「機能が同等である」化学成分を有するクレームである。特許文献における化学構造は、通常、マーカッシュ構造により保護され、特許文献における化学構造の置換基に対する限定に基づいて、単一のマーカッシュ構造は、複数の可能な化合物を保護することができる。
本シーン例において、特許文献をターゲットファイルとし、前記特許文献は、特許請求の範囲、明細書等のテキストデータ、及び明細書の図面、選択図等の図面データを同時に含むファイルでもよい。ここに、特許文献は、中国特許文献、例えば、PDFフォーマットのファイルでもよく、外国特許文献、例えば、米国特許文献、欧州特許文献でもよい。前記特許文献が米国特許文献であれば、米国特許商標庁は、さらにXML特許文書にTIFFフォーマットの付加画像ファイルを提供し、化学画像であれば、MOL及びCDXフォーマットの対応する化学構造ファイルをさらに提供する。
まず、サーバは、特許文献を取得するとともに、特許文献に補充ファイル、例えばMOL及びCDXフォーマットの対応する化学構造の補充ファイルが含まれるか否かを判断することができる。補充ファイルが含まれると、補充ファイルを処理するとともに、補充ファイルにおける化学構造がマーカッシュ構造であるか否かを判断する。例えば、CDXフォーマットのファイルに対して、Jchem等のソフトウェアを用いて処理して、化学構造における原子、スーパー原子及び他の情報を分析することができ、ファイルにおける化学構造がマーカッシュ構造であるか否かを特定することができる。非マーカッシュ構造に対して、該構造の化学構造式をデータベースに記憶する。マーカッシュ構造に対して、さらに、該マーカッシュ構造の置換基が既に限定されたか否かを判断することができ、限定された場合、置換基が既に限定されたマーカッシュ構造の化学構造式をデータベースに記憶する。
補充ファイルが含まれない特許文献に対して、特許文献のファイルタイプを判断するとともに、ファイルタイプの違いによって異なる処理方式を用いて特許文献における請求項の位置、化学構造及びマーカッシュ構造を説明する段落を取得し、特許文献における化学構造式の画像を抽出する。例を挙げると、特許文献は、フォーマットがpdfピクチャ、jpg、pngのピクチャファイルであれば、OCR(Optical Character Recognition、光学文字認識)技術によりファイルにおける文字情報及び画像情報を抽出することができ、特許文献は、フォーマットがXML、HTMLのテキストファイルであれば、テキストファイルをサーバの認識可能なファイルに変換して文字情報及び画像情報を抽出する。
特許文献における請求項の位置、化学構造及びマーカッシュ構造を説明する段落を取得し、特許文献における化学構造式の画像を抽出した後、化学構造式の画像に対して、OSR(Optical Structure Recognition、光学構造認識)技術により画像ファイルに含まれる画像を抽出して、該化学構造がマーカッシュ構造であるか否かを判断するとともに、さらにマーカッシュ構造の置換基が既に限定されたか否かを判断し、非マーカッシュ構造及び置換基が既に限定されたマーカッシュ構造を記憶する。
本シーン例において、自然言語処理(Natural Language Processing、NLP)技術により特許請求の範囲と化学構造及びマーカッシュ構造を説明する段落に対して意味解析を行い、化学構造において、マーカッシュ構造と対応する置換基との間の関係を取得することができる。上記マーカッシュ構造の置換基が既に限定されたか否かを判断するステップにおいて、判断結果は、置換基が限定されていないマーカッシュ構造である場合、自然言語処理後に取得されたマーカッシュ構造と対応する置換基との間の関係に基づいて処理して、置換基が限定されていないマーカッシュ構造の置換基を限定することができるか否かを判断することができる。そうであれば、NLPにより改善された置換基の定義されたマーカッシュ構造として出力されるとともに、該マーカッシュ構造の化学構造式をデータベースに記憶し、そうでなければ、置換基が定義されていないマーカッシュ構造として出力されるとともに、該マーカッシュ構造の化学構造式をデータベースに記憶する。
このために、本明細書の実施例は、論理演算機能を有する電子機器に用いられる画像データベース構築方法を提供する。図2に示すように、前記方法は、以下のステップを含むことができる。
S210:ターゲット文字情報を有するターゲットファイルを取得する。
上記ターゲットファイルは、具体的に、テキストファイルと理解されてもよく、テキストファイル及び対応する画像ファイルを含むファイルでもよく、例えば、フォーマットがXML、HTMLのテキストファイルであり、フォーマットがMOL、CDXの画像ファイルである。ここに、テキストファイルは、画像構造を文字説明する文字情報を含んでもよく、画像構造を文字説明する文字情報及び画像構造の画像情報を含んでもよく、画像ファイルは、画像構造の画像情報を含むことができる。
いくつかの実施例において、上記ターゲットファイルは、さらにピクチャファイルで、例えば、フォーマットがpdfピクチャ、jpg、pngのピクチャファイルでもよく、ここに、前記ピクチャファイルは、画像構造文字を説明する文字情報を含んでもよく、画像構造を文字説明する文字情報及び画像構造の画像情報を含んでもよい。
いくつかの実施例において、上記ターゲットファイルは、さらに特許文献で、例えば、特許請求の範囲、明細書等の文字情報、及び明細書の図面、選択図等の画像情報を同時に含む出願ファイルでもよい。上記ターゲットファイルは、商標ファイルでもよく、さらに図面が添付される契約ファイル等でもよい。
いくつかの実施例において、ターゲットファイルは、さらにジャーナル、雑誌又は論文などでもよい。具体的には、例えば、中国語ジャーナル、雑誌、例えば一般ジャーナル、省レベルジャーナル、コアジャーナル等に収録されたジャーナル、雑誌又は論文や国外ジャーナル、例えばSCI(Science Citation Index)、Scienceに収録されたジャーナル、雑誌又は論文である。上記ジャーナル、雑誌又は論文は、要約部分、説明部分又は試験部分、結論部分等の文字情報、及び図面等の画像情報を同時に含むことができる。具体的に実施する場合、具体的な応用場面に基づいて、上記ターゲットファイルは、さらにテキストファイルと画像ファイルを含む上記列挙されたファイルタイプ以外の他のタイプのファイルでもよい。上記ターゲットファイルの具体的なタイプ及び内容について、本明細書は限定しない。
上記ターゲット文字情報は、所定キーワードを含む文字情報でもよく、いくつかの実施例において、前記ターゲットファイルに対して文字認識して、前記ターゲット文字情報を得ることができる。具体的には、フォーマットがXML、HTMLのテキストファイルに対して、テキストファイルに所定キーワードの文字情報が含まれるか否かを認識することによって、ターゲット文字情報を得ることができる。フォーマットがpdfピクチャ、jpg、pngのピクチャファイルに対して、OCR(Optical Character Recognition、光学文字認識)技術により、テキストデータを取得し、さらにテキストデータに所定キーワードの文字情報が含まれるか否かを認識することによって、ターゲット文字情報を得ることができる。
いくつかの実施例において、以下のステップでターゲットファイルを取得することができる。
ステップ1:データソースからファイルをダウンロードし、ファイルセットを形成する。
上記データソースとは、ファイルダウンロードを行うことができるデータベースを指し、具体的には、中国語ファイル及び外国語ファイルを含むデータベースを含むことができ、例えば、バイドゥライブラリー、万方データ、中国知網、国家知識産権局ウェブサイト及び外国語データベース、他の国家知識産権局ウェブサイト等である。上記データソースからファイルをダウンロードすることは、指定された名称又は指定されたキーワードのファイルをダウンロードすることでもよく、広義的にデータソースからファイルをダウンロードすることでもよく、さらに、ダウンロードされたファイルをファイルセットに形成する。
ステップ2:所定条件に基づいて、前記ファイルセットからターゲットファイルを取得する。
いくつかの実施例において、上記所定条件は、ファイルセットにおけるファイルのファイルタイプを特定することと、前記ファイルタイプの違いに基づいて対応するターゲットファイルの絞込ルールを特定することと、を含み、ここに、異なるファイルタイプに対応する絞込ルールが異なり、ここに、前記絞込ルールは、対応するファイルタイプのファイルを絞り込んでターゲットファイルを取得するために用いられる。具体的には、前記ファイルセットにおけるファイルのタイプは、特許文献及び非特許文献を含むことができ、さらに、前記非特許文献は、商標ファイル、契約ファイル又は学術論文でもよい。
いくつかの実施例において、データソースからファイルをダウンロードし、ファイルセットを形成した後、以下の方式に基づいてファイルセットにおけるファイルのタイプを特定することができる。すなわち、ファイルセットにおけるファイルを文字認識して、前記ファイルに含まれる文字情報を取得し、さらに前記文字情報に含まれる所定キーワードに基づいて、前記ファイルセットにおけるファイルのタイプを特定する。具体的には、文字情報における文字言語に基づいて、ファイルセットにおけるファイルが中国語ファイル又は外国語ファイルであることを特定することができ、さらに、文字情報に含まれる所定キーワードに基づいて、ファイルセットにおけるファイルが特許文献又は非特許文献であることを特定することができる。例を挙げると、ファイルに含まれる文字情報が特許請求の範囲、明細書の図面、背景技術、具体的な実施形態等の所定キーワードを含むと、該ファイルのファイルタイプが特許文献であると判断することができる;ファイルに商標申請説明、図面、商標説明、商品/サービス項目等の所定キーワードが含まれると、該ファイルのファイルタイプが商標ファイルであると判断することができる;ファイルに甲、乙、契約主要条項、契約締結時間、違約責任等の所定キーワードが含まれると、該ファイルのファイルタイプが契約ファイルであると判断することができる;ファイルに要約、概要、結論、参考文献等の所定キーワードが含まれると、該ファイルのファイルタイプが学術論文であると判断することができる。他のタイプのファイルに対しても、本実施例の方法により区別することができ、ここでは詳しい説明を省略する。外国語ファイルに対して、中国語ファイルの方法に従ってファイルタイプを区別することができる。
いくつかの実施例において、ファイルのタイプを特定した後、ファイルタイプの違いに基づいて、対応するターゲットファイルの絞込ルールを特定することができ、それにより、前記ファイルセットからターゲットファイルを取得する。具体的には、前記ファイルタイプが特許文献であれば、特許分類番号に基づいて特許文献の属する分野を特定し、指定分野の特許文献をターゲットファイルとして絞り込んで得ることができる。ここに、特許文献の前記分野は、化学、電気、機械、物理等の分野の特許を含むことができ、さらに、異なる分野の特許に対して、該特許の種別をさらに細分化することができる。例えば、化学分野の特許に対して、さらに有機化学、無機化学、生物化学等の種別の特許に細分化することができ、電気分野の特許に対して、さらに基本的な電子回路、電気通信技術等の種別の特許に細分化することができる。
いくつかの実施例において、異なる国の特許文献に対して、異なる種別の特許分類番号を用いて特許文献の属する分野を特定することができ、例えば、国際特許分類番号を利用して中国特許の属する分野を特定し、欧州特許分類番号を利用して欧州特許の属する分野を特定し、米国特許分類番号を利用して米国特許の属する分野を特定するなどである。本実施例は、具体的に実施するとき、まず、特許の出願公開番号又は登録公告番号に基づいて、特許文献がどの国からのものであるかを特定することができ、異なる国の特許文献に対して、異なる種別の特許分類番号を用いて特許文献の属する分野を特定することができる。
いくつかの実施例において、前記ファイルタイプが非特許文献であれば、前記ファイルを文字認識して、前記ファイルに含まれる文字情報を得て、前記ファイル情報に所定キーワードが含まれるファイルをターゲットファイルとして絞り込んで得る。
S220:前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成する。
いくつかの実施例において、上記ターゲット文字情報の表現する内容は、化学構造に対する文字説明でもよく、ここに、前記化学構造は、物質分子内部の各元素原子の秩序、すなわち、原子の結合方式及び順序を反映するものである。例えば、ターゲット文字情報は、「化合物は、トルエン置換体であり、ここに、メチル基中の一つの水素原子がアミノ基で置換され、トルエンのオルト位の水素原子がヒドロキシで置換される」であり、その表現する内容は、ある化合物の化学構造に対する文字説明である。それに応じて、上記ターゲット画像は、前記ターゲット文字情報の表現する内容に対応する化学構造式を含み、ここに、化学構造式は、元素記号及び短線で化合物(又は、単体)分子中の原子の配列及び結合方式を表現する化学組成式であり、分子構造を簡単に説明する方法である。例えば、ターゲット文字情報は、「化合物は、トルエン置換体であり、ここに、メチル基中の一つの水素原子がアミノ基で置換され、トルエンのオルト位の水素原子がヒドロキシで置換される」であれば、その対応するターゲット画像は、図3に示すような化学構造式でもよい。
いくつかの実施例において、上記ターゲット文字情報の表現する内容に対応するターゲット画像は、本体構造及び前記本体構造に関連する少なくとも一つの分岐構造を含む。さらに、上記ターゲット画像は、さらに、図4に示すようなマーカッシュ構造でもよく、それに応じて、上記本体構造は、マーカッシュ構造の本体部分(図4の上部分)を含み、上記分岐構造は、前記マーカッシュ構造の置換基部分(図4の下部分)を含む。
いくつかの実施例において、前記ターゲット画像の生成は、ターゲット文字情報で表現された内容の意味に基づいて実現することができる。例えば、ターゲット文字情報における各キーワードに対して一つの画像素子を対応付けて、文字情報におけるキーワード及び他の説明情報に基づいて、キーワードに対応する画像素子を一定の配列形態に従って組み合わせることによって、ターゲット画像を生成する;また例えば、さらに描画プログラムにより、ターゲット文字情報に表現された内容を描画によりターゲット画像を生成することができ、例を挙げると、ターゲット文字情報に「トルエン」が出ると、描画プログラムは、トルエンの化学構造式を描画し、ターゲット文字情報に「トルエンのメチル基のオルト位及びパラ位がそれぞれ一つのヒドロキシ基及び一つのカルボキシ基に置換される」という接続関係がさらに出ると、描画プログラムは、トルエンのメチル基のオルト位及びパラ位に一つのカルボキシ基及び一つのヒドロキシ基の化学構造式を描画する。この他、任意の方式でターゲット文字情報の表現する内容の意味を抽出することによって、ターゲット画像を生成することができる。
いくつかの実施例において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、前記ターゲット文字情報の表現する化学構造にマーカッシュ構造が含まれる場合、ターゲット文字情報の表現する内容に基づいて対応するマーカッシュ構造に対応する画像を生成し、さらに、ターゲット文字情報の表現する内容にマーカッシュ構造置換基部分が含まれる場合、マーカッシュ構造の置換基に対応する画像を生成すること、を含むことができる。画像生成過程において、ターゲット文字情報の表現する内容に基づいて、マーカッシュ構造本体部分に対応して生成された画像とマーカッシュ構造置換基部分に対応して生成された画像を組み合わせてターゲット画像とすることができる。
いくつかの実施例において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、前記ターゲット文字情報の表現する化学構造にマーカッシュ構造が含まれない場合、前記ターゲット文字情報の表現する内容に対応する、前記化学構造の化学構造式を含むターゲット画像を生成すること、を含むことができる。具体的には、ターゲット文字情報に基づいて、ターゲット文字情報の表現する化学構造にマーカッシュ構造が含まれるか否かを判断し、含まれる場合、対応する化学構造式を生成することができる。
いくつかの実施例において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、前記ターゲットファイルに画像ファイル及び対応するテキストファイルが含まれる場合、前記テキストファイルのターゲット文字情報に対応する前記画像ファイルにおける画像を特定することと、前記ターゲット文字情報に対応する画像を前記ターゲット画像とすることと、を含むことができる。具体的には、ターゲットファイルに画像ファイル及び対応するテキストファイルが含まれる場合、まず、テキストファイルにおけるターゲットファイル情報の画像ファイルにおける対応する画像を特定するとともに、該対応する画像をターゲット画像とする。
いくつかの実施例において、上記化学構造に本体構造及び少なくとも一つの分岐構造が含まれる場合、上記ターゲット文字情報は、化学構造の本体構造を表現する本体情報を含むことができ、さらに化学構造の分岐構造を表現する分岐情報を含むことができる。したがって、本実施例において、前記ターゲット文字情報における本体情報に基づいて、前記ターゲット画像に含まれる本体構造を特定するとともに、前記ターゲット文字情報における分岐情報に基づいて、前記ターゲット画像の本体構造に、分岐構造を増加することができる。
いくつかの実施例において、上記ターゲットファイルがピクチャファイルであれば、ピクチャファイルを画像認識することができ、例えば、OCR技術により、ピクチャファイルに含まれるテキストデータを取得し、さらにテキストデータにターゲット文字情報が含まれるか否かを特定するとともに、該ターゲット文字情報に基づいて、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像を生成することができる。
いくつかの実施例において、上記ターゲットファイルが画像情報及び文字情報を含むファイルであれば、文字情報からターゲット文字情報を含んでいるか否かを特定することができ、さらに、画像情報における画像に前記ターゲット文字情報に対応するターゲット画像が含まれているか否かを判断する。ここに、OSR(Optical Structure Recognition、光学構造認識)技術により、画像情報が含まれるファイルにおける画像を抽出することができ、特定のフォーマットの画像情報を含むファイル、例えばフォーマットがMOL又はCDXのファイルに対して、コンピュータソフトウェア、例えばJchemソフトウェアにより画像を抽出することができる。前記画像情報に含まれる画像に前記ターゲット文字情報に対応するターゲット画像がなければ、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成する。
いくつかの実施例において、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、自然言語処理(Natural Language Processing、NLP)技術により実現することができる。具体的には、自然言語モデルをトレーニングすることができ、ターゲット文字情報を自然言語モデルに入力することにより、ターゲット文字情報を意味解析することによって、ターゲット文字情報の表現する内容を対応するターゲット画像に変換する。ここに、自然言語モデルのトレーニングは、予め大量のターゲット文字情報をトレーニングサンプルとし、機械学習の方法により、文字情報における異なるフレーズが表す意味を認識できかつ複数のフレーズの間の関連関係を認識できる自然言語モデルをトレーニングするように行うことができる。自然言語モデルのトレーニング時、まず手動で注釈する(アノテーションを行う)方式により、トレーニングサンプルにおいてターゲット文字情報に対して注釈することができる。例を挙げると、以下のトレーニングサンプルに対する。
例1:(B)はアルケニル基に少なくとも約30個の脂肪族炭素原子を含むアルケニルコハク酸イミドである、請求項1に記載の組成物。
該トレーニングサンプルにおいて、異なる説明及びそれらの間の関係に対して注釈することができる。例えば、「アルケニル基」、「脂肪族炭素原子」及び「アルケニルコハク酸イミド」は、マーカッシュ列挙と注釈することができる;説明における数字に対して、例えば上記の「30個」は、数詞であり、Quantifierと注釈することができる;基の名称、例えば「アルケニル基」及び「アルケニルコハク酸イミド」に対して、アルケニル基の名称がアルケニルコハク酸イミド名称の一部であり、Part_Ofと注釈することができる;位置関係に基づいて、例えば、上記の「アルケニル基に少なくとも約30個の脂肪族炭素原子を含むアルケニルコハク酸イミド」から、脂肪族炭素原子とアルケニル基の位置関係を注釈し、Positionと注釈することができ、類似的に、「このような…において」、「…と組み合わせて」、「…において」、「…に属する」という説明は、いずれも上記方式に従って注釈することができる。
例2: R1は、水素及びシステイン残基上のメルカプト保護基から選択される。
該トレーニングサンプルにおいて、R1に対して、マーカッシュ標識と注釈することができる;位置関係に基づいて、システイン残基とメルカプト保護基との位置関係を注釈する;「水素」、「システイン残基」、「メルカプト保護基」及び「保護基」は、いずれもマーカッシュ列挙と注釈する;さらに置換関係に基づいて、R1を水素及び保護基で置換することができ、保護基をメルカプト基で置換することができ、Value_Replacementと注釈することができ、類似的に、このような「から選択」、「置換」、「代表」、「包括」、「ここに」などの説明に対して上記方式で注釈することができる。
例3:R4は、水素及び複素環から選択され、ここに、複素環は、少なくとも一つの炭素原子を有し、酸素、窒素及び硫黄の1~4個のヘテロ原子から選択され、かつ、前記複素環は、ヘテロアリールアミノ、N-アリール-N-アルキルアミノ、N-ヘテロアリールアミノ-N-アルキルアミノ、ハロアルキルチオ、アルカノイルオキシ、アルコキシ、ヘテロアラルキルオキシ、シクロアルコキシ、シクロアルケニルオキシ、ヒドロキシ、アミノ、チオ、ニトロ、低級アルキルアミノのいずれかで置換されてもよい。
該トレーニングサンプルにおいて、マーカッシュ標識、マーカッシュ列挙、位置情報、数詞、置換関係、名称の一部の関係を注釈する以外に、属性関係をさらに注釈することができ、例えば、上記説明における「ここに、複素環は、少なくとも一つの炭素原子を有し、酸素、窒素及び硫黄の1~4個のヘテロ原子から選択され」について、ここに、ヘテロ原子は、複素環の不可欠な一つの特徴であるため、ヘテロ原子が複素環の一つの属性であると注釈し、Attributeと注釈することができる。
例4:R1は、置換又は未置換のC1-C6アルキル、ハロゲン、OH、C1-C12アルコキシ、任意に置換されたフェノキシ、又は任意に置換されたナフトキシであり、ここに、任意に選択された置換基は、C1-C6アルキル、C1-C6アルコキシである。
該トレーニングサンプルにおいて、上記に説明された注釈以外に、さらに参照名称を注釈することができ、例えば、上記説明における「任意に置換されたフェノキシ」及び「任意に置換されたナフトキシ」をReferenceと注釈し、これは、非特定の名称であり、一つの集合の名称を含み、類似的に、残基、置換基、酸等に対する説明も、Referenceと注釈することができる。
例5:R1とR2は、結合して5~7員の複素環を形成することができ、前記複素環は、水素、1~8個の炭素原子のアルキル基、3~7個の炭素原子のアリール基から選ばれるメンバーで置換され、ここに、前記複素環化合物は、1~2個の窒素原子と0~1個の酸素原子を含み、前記窒素原子は、互いに直接接続されないか、または、酸素原子に接続されている。
該トレーニングサンプルにおいて、上記に説明された注釈以外に、さらに構成関係を注釈することができ、例えば、上記説明における「R1とR2は、結合して5~7員の複素環を形成することができ」に基づいて、R1及びR2と複素環との構成関係を注釈し、Constituent_Ofと注釈する。
例6:R“はC3-12アルキレン基であり、該鎖は、一つ又は複数のヘテロ原子で中断されてもよく、例えばO、S、NRN2(ここに、RN2は水素又はC1-4アルキル基である)、及び/又は芳香環、例えばベンゼン又はピリジンである。
該トレーニングサンプルにおいて、上記に説明されたマーク以外に、中断関係をマークし、例えば、上記説明における「該鎖は、一つ又は複数のヘテロ原子で中断されてもよく」に基づいて、該鎖は、一つ又は複数のヘテロ原子で中断されることをマークし、Interruptedと注釈する。
例7:R及びR1がいずれも水素又はメチルであり、かつ、Yが水素である場合、X及びZはいずれも塩素ではない。
該トレーニングサンプルにおいて、上記に説明された注釈以外に、条件関係に基づいて、例えば、上記説明から分かるように、R及びR1が値を取ってはじめて、X及びZが値を取り、このときに、条件関係に基づいてR及びR1、X及びZを注釈し、Conditionと注釈し、類似的に、説明に「すると」、「もし」などが出ると、上記方式に従って注釈することができる。それ以外に、除外値であるか否かに基づいて、例えば、上記説明における「X及びZがいずれも塩素ではない」に基づいて、X及びZの値が塩素ではないことを注釈し、Exclusiveと注釈することもできる。
上記サンプルを利用してトレーニングをする前に、いくつかの実施例において、エンティティタイプとエンティティ関係定義を作成することができる。自然言語処理タスクのエンティティタイプは、1、分岐構造の標識、2、分岐構造の列挙、3、分岐構造の名称、4、分岐構造の参照名称、5、分岐構造の種別、6、分岐構造の枠組、7、分岐構造の位置骨組み、8、分岐構造の位置骨組み説明である。表1に示すように、表1は、注釈部分におけるエンティティ関係の定義及び例示的な引用を示す。
表1 注釈部分におけるエンティティ関係の定義及び例示的な引用
Figure 0007402965000001

Figure 0007402965000002
いくつかの実施例において、上記自然言語モデルにより、ターゲット文字情報における異なるフレーズの表す意味及び複数のフレーズの間の関連関係を認識することができ、異なるフレーズの表す意味に基づいてその対応する画像素子を特定するとともに、複数のフレーズの間の関連関係に基づいて画像素子の直接的な組み合わせ又は接続関係を特定することによって、対応するターゲット画像を生成したり、ターゲット文字情報における異なるフレーズの表す意味、及び認識できる複数のフレーズの間の関連関係に基づき、描画プログラムによりターゲット画像を描画したりする。
S230:前記ターゲット画像を記憶して画像データベースを形成する。
いくつかの実施例において、本体構造及び分岐構造を含むターゲット画像に対して、前記本体構造及び分岐構造を対応付けて記憶することができる。具体的には、本体構造と分岐構造は、通常一対一又は一対多の関係であり、例えば、一つの本体構造は、一つの分岐構造に対応したり、複数の分岐構造に対応したりする。対応関係に基づいて、本体構造及び分岐構造を異なるエンティティテーブルに記憶することができ、例えば、エンティティテーブル1に本体構造Aに対応する分岐構造番号の情報が記録され、エンティティテーブル2に分岐構造の画像情報が記録され、ユーザが本体構造に対応する分岐構造情報を取得する必要があれば、本体構造をクエリフィールドとすることができる。いくつかの実施例において、さらに本体構造と分岐構造との対応関係に基づいて、関連配列を形成するとともに記憶することができる。
いくつかの実施例において、前記ターゲット画像を記憶して画像データベースを形成するステップは、前記ターゲットファイルを前記ターゲット画像に関連付けて記憶することをさらに含むことができる。具体的には、ターゲット画像とターゲットファイルは、通常一対一又は一対多の関係であり、すなわち、一つのターゲットファイルは、一つのターゲット画像のみを含んでもよく、複数のターゲット画像を含んでもよい。したがって、対応関係に基づいてターゲットファイルとターゲット画像を関連付けて記憶することができ、例えば、ターゲットファイルとターゲット画像を異なるエンティティテーブルに記憶してもよく、ターゲットファイルとターゲット画像の対応関係に基づいて関連配列を形成するとともに記憶してもよい。
さらに、いくつかの実施例において、さらに、ターゲットファイルにおけるターゲット文字情報を対応するターゲット画像と関連付けて記憶することができ、ここに、前記関連付けて記憶する方式は、上記方式に従ってもよく、他の任意の方式を用いて関連付けて記憶してもよい。
本明細書の実施例は、ターゲットファイルにおけるターゲット文字情報を取得するとともに、ターゲット文字情報に基づいてターゲット画像を生成し、さらにターゲット画像を記憶して画像データベースを形成することができ、さらに、ターゲットファイルに画像情報が含まれる場合、さらに、ターゲット文字情報の表現する内容に基づいて、画像情報と関連付けてターゲット画像を生成してから、ターゲット画像を記憶して画像データベースを形成することができる。本明細書の実施例の画像データベースを形成するプロセスは、コンピュータにより実現することができ、手動でテキストファイルを絞り込み、分析し、まとめる必要がなく、画像データベースを構築する効率を効果的に向上させる。
本明細書の実施例は、さらに検索方法を提供し、図5に示すように、前記方法は、以下のステップを含む。
S510:マッチング対象の画像を取得する。
いくつかの実施例において、上記マッチング対象の画像は、本体構造及び前記本体構造に関連する少なくとも一つの分岐構造を含んでもよく、本体構造又は任意の特定の構造のみを含んでもよい。上記マッチング対象の画像は、さらに化学構造式でもよい。
マッチング対象の画像を取得する方式は、ユーザがマッチング対象の画像を手動で入力してもよく、他の任意の方式で取得してもよい。図6に示すように、ユーザは、図6の空白部分でマッチング対象の画像を描画することができ、ユーザの描画が終了した後、サーバは、該マッチング対象の画像を取得することができる。
S520:予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定し、ここに、前記予め構築された画像データベースは、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報に基づいて、画像を生成して構築されたものである。
上記マッチング方法は、類似度を計算する方式でマッチングしてもよく、正規化相互相関マッチングの方式でマッチングしてもよく、変換領域に基づく画像マッチング方法を利用してマッチングしてもよく、本実施形態において、他の任意の画像マッチング方式は、いずれも画像のマッチングを実現することができる。
S530:予め構築された画像データベースにマッチング対象の画像にマッチング可能な画像が含まれると、マッチングする画像を表示する。
いくつかの実施例において、予め構築された画像データベースにマッチング対象の画像にマッチング可能な画像が含まれると、ユーザの照会に基づいて操作をトリガすることができ、例えば、検索キー又は照会キーをクリックすると、所定の表示形態に従ってマッチングする画像を表示し、図7に示されている。いくつかの実施例において、画像を表示するほか、さらに画像に関連する文字情報を表示したり、画像に関連する文字情報のみを表示したりすることができ、図8に示すように、前記文字情報の表示形態は、ハイライト表示、太字表示、画定表示などを含むことができる。
本明細書の実施例は、検索方法を提供し、マッチング対象の画像を予め構築された画像データベースにおける画像とマッチングすることにより、マッチングに成功すれば、マッチング結果をユーザに示すことによって、ユーザが検索する必要がある画像を素早く検索することを助ける。
本明細書の実施例は、さらに上記画像データベース構築方法に基づくコンピュータ読取可能な記憶媒体を提供し、前記コンピュータ読取可能な記憶媒体にコンピュータプログラム命令が記憶され、前記コンピュータプログラム命令が実行されるときに、ターゲット文字情報を有するターゲットファイルを取得することと、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成することと、前記ターゲット画像を記憶して画像データベースを形成することと、を実現する。
本実施形態において、上記記憶媒体は、ランダムアクセスメモリ(Random Access Memory、RAM)、リードオンリーメモリ(Read-Only Memory、ROM)、キャッシュ(Cache)、ハードディスク(Hard Disk Drive、HDD)又はメモリカード(Memory Card)を含むがこれらに限定されない。前記メモリは、コンピュータプログラム命令を記憶するために用いられることができる。本実施形態において、該コンピュータ読取可能な記憶媒体に記憶されるプログラム命令により具体的に実現する機能及び効果は、他の実施形態と対照して解釈することができ、ここで詳しい説明を省略する。
図9を参照し、ソフトウェアレベルで、本明細書の実施例は、さらに画像データベース構築装置を提供し、該装置は、具体的には以下の構造モジュールを含むことができる。
ターゲット文字情報を有するターゲットファイルを取得するための取得モジュール910と、
前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するためのターゲット画像生成モジュール920と、
前記ターゲット画像を記憶して画像データベースを形成するための画像データベース構築モジュール930と、を含むことができる。
いくつかの実施例において、上記ターゲット画像生成モジュール920は、
前記ターゲット文字情報の表現する化学構造にマーカッシュ構造が含まれない場合に、前記ターゲット文字情報の表現する内容に対応する、前記化学構造の化学構造式を含むターゲット画像を生成するための第一生成ユニットと、
前記ターゲットファイルに画像ファイル及び対応するテキストファイルが含まれる場合に、前記テキストファイルのターゲット文字情報に対応する前記画像ファイルにおける画像を特定し、前記ターゲット文字情報に対応する画像を前記ターゲット画像とするための第二生成ユニットと、
前記ターゲット文字情報に化学構造の本体構造を表現する主体情報が含まれる場合に、前記ターゲット文字情報における主体情報に基づいて、前記ターゲット画像に含まれる本体構造を特定し、前記ターゲット文字情報に化学構造の分岐構造を表現する分岐情報が含まれる場合に、前記ターゲット文字情報の分岐情報に基づいて、前記ターゲット画像の本体構造に、分岐構造を増加するための第三生成ユニットと、
前記ターゲットファイルがピクチャファイルである場合、前記ピクチャファイルにおける前記ターゲット文字情報を特定するように、前記ピクチャファイルを画像認識し、前記ターゲット文字情報に基づいて、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像を生成するための第四生成ユニットと、
前記ターゲットファイルに画像情報及び文字情報が含まれる場合、化学構造を表現するターゲット文字情報を前記文字情報から特定し、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像が含まれるか否かを特定し、それに応じて、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応するターゲット画像がない場合、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するための第五生成ユニットと、を含むことができる。
図10を参照し、ハードウェアレベルで、本願の実施例は、具体的には、ネットワーク通信ユニット1010と、プロセッサ1020と、メモリ1030とを含み、ネットワーク通信ユニット1010及びメモリ1030がいずれも前記プロセッサ1020に電気的に接続される、電子機器をさらに提供する。
ここに、前記ネットワーク通信ユニット1010は、ターゲット文字情報を有するターゲットファイルを取得するために用いられる。
前記プロセッサ1020は、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するために用いられる。
前記メモリ1030は、前記ターゲット画像を画像データベースに格納するために用いられる。
前記ネットワーク通信ユニットは、情報伝送に用いられ、命令又は状態情報を一端からチャネルを介して他端に伝送することができ、情報伝送方式は、有線伝送及び無線伝送を含むことができ、有線伝送方式は、電話線又は専用ケーブルを介してネットワーク情報伝送を行うことができ、無線伝送方式は、無線局、無線ネットワーク等を介してネットワーク情報伝送を行うことができる。
前記プロセッサは、中央処理ユニット(Central Processing Unit、CPU)でもよく、さらに他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、専用集積回路(APPlication Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等でもよい。汎用プロセッサは、マイクロプロセッサでもよく、または、該プロセッサは、任意の一般的なプロセッサ等でもよい。
前記メモリは、前記コンピュータプログラム及び/又はモジュールを記憶するために用いられることができ、前記プロセッサは、前記メモリ内に記憶されたコンピュータプログラム及び/又はモジュールを運行するか又は実行し、及び、メモリ内に記憶されたデータを呼び出すことによって、画像データベース構築の様々な機能を実現する。前記メモリは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、文字変換機能等)等を記憶することができるプログラム記憶エリアと、ユーザ端末の使用に応じて作成されたデータ(例えば、音声データ、文字メッセージデータなど)などを記憶することができるデータ記憶エリアと、を主に含むことができる。また、メモリは、高速ランダムアクセスメモリを含むことができ、さらに例えば、ハードディスク、メモリ、プラグイン式ハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュリティデジタル(Secure Digital、SD)カード、フラッシュメモリカード(Flash Card)、少なくとも一つの磁気ディスク記憶デバイス、フラッシュメモリデバイスのような不揮発性メモリ、又は他の揮発性固体記憶デバイスを含むことができる。
いくつかの実施例において、前記メモリには、画像データベースが記憶されてもよく、前記メモリは、生成されたターゲット画像を該画像データベースに格納することができる。
いくつかの実施例において、前記メモリ自体には、画像データベースが記憶されず、前記メモリは、生成されたターゲット画像を記憶して画像データベースを形成することができる。
本願の実施例は、電子機器をさらに提供し、図11に示すように、マッチング対象の画像を取得するための入力装置1110(図6に示すもの)と、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定するためのプロセッサ1120と、存在すると特定された場合、マッチングする画像を表示するための表示装置1130と、を含むことができる。
前記入力装置は、データ及び情報を入力する装置であり、装置がユーザ又は他の装置と通信するブリッジである。前記入力装置は、キーボード、マウス、カメラ、スキャナ、光ペン、手書き入力ボード、ゲームスティック、音声入力装置等の装置を含むがこれらに限定されない。
前記プロセッサは、中央処理ユニット(Central Processing Unit、CPU)でもよく、さらに他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、専用集積回路(APPlication Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等でもよい。汎用プロセッサは、マイクロプロセッサでもよく、または、該プロセッサは、任意の一般的なプロセッサ等でもよい。
前記表示装置は、画像又は感触情報を出力することができる(例えば、視覚障害者のために設計された点字ディスプレイ)装置である。ディスプレイ、表示スクリーン、スクリーン、プロジェクタなどの装置を含むがこれらに限定されない。
上記表示装置は、予め構築された画像データベースにマッチング対象の画像とマッチング可能な画像が含まれる場合、ユーザの照会に基づいて操作をトリガすることができ、例えば、検索キー又は照会キーをクリックすると、図7に示すように、所定の表示形態に従ってマッチングする画像を表示する。いくつかの実施例において、画像を表示するほか、さらに画像に関連する文字情報を表示したり、画像に関連する文字情報のみを表示したりすることができ、図8に示すように、前記文字情報の表示形態は、ハイライト表示、太字表示、画定表示などを含むことができる。
本明細書の実施例は、さらに上記画像データベース構築方法に基づくコンピュータ読取可能な記憶媒体を提供し、前記コンピュータ読取可能な記憶媒体にコンピュータプログラム命令が記憶され、前記コンピュータプログラム命令が実行されるときに、マッチング対象の画像を取得することと、サンプルファイルにおける文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定することと、存在すると特定された場合、マッチングする画像を表示することと、が実現される。
本実施形態において、上記記憶媒体は、ランダムアクセスメモリ(Random Access Memory、RAM)、リードオンリーメモリ(Read-Only Memory、ROM)、キャッシュ(Cache)、ハードディスク(Hard Disk Drive、HDD)又はメモリカード(Memory Card)を含むがこれらに限定されない。前記メモリは、コンピュータプログラム命令を記憶するために用いられることができる。
本実施形態において、該コンピュータ読取可能な記憶媒体に記憶されるプログラム命令により具体的に実現する機能及び効果は、他の実施形態と対照して解釈することができ、ここで詳しい説明を省略する。上記説明から分かるように、本明細書の実施例が提供する方法は、マッチング対象の画像を予め構築された画像データベースにおける画像とマッチングすることにより、マッチングに成功すれば、マッチング結果をユーザに示すことによって、ユーザが検索する必要がある画像を素早く検索することに役立つ。
20世紀90年代に、一つの技術に対する改善は、ハードウェア上の改善(例えば、ダイオード、トランジスタ、スイッチ等の回路構造に対する改善)であるか又はソフトウェア上の改善(方法フローに対する改善)であるかを明らかに区別することができる。しかし、技術の発展に伴い、現在の多くの方法フローの改善は、ハードウェア回路構造の直接的な改善と見なすことができる。設計者は、ほとんど改善された方法フローをハードウェア回路にプログラミングすることにより、対応するハードウェア回路構造を得る。したがって、一つの方法フローの改善は、ハードウェアエンティティモジュールで実現することができないとは言えない。例えば、プログラマブルロジックデバイス(Programmable Logic Device、PLD)(例えば、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA))は、このような集積回路であり、その論理機能は、ユーザがデバイスをプログラミングすることにより特定される。設計者が自らでプログラミングして一つのデジタルシステムを一枚のPLDに「集積」し、チップメーカーで専用の集積回路チップ2を設計し製造する必要はない。そして、現在、手動で集積回路チップを製造する代わりに、このようなプログラミングも、代わりに「論理コンパイラ(logic compiler)」ソフトウェアで実現されることが多く、プログラム開発作成時に使用されるソフトウェアコンパイラと類似し、コンパイルする前のオリジナルコードも特定のプログラミング言語で作成されなければならず、ハードウェア記述言語(Hardware Description Language、HDL)と呼ばれ、HDLも一種だけあるのではなく、様々な種類があり、例えば、ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等であり、現在、最も一般的に使用されるのは、VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)とVerilog2である。当業者にとって、方法フローを上記いくつかのハードウェア記述言語で論理プログラミングして集積回路にプログラミングするだけで、該論理方法フローを実現するハードウェア回路を容易に得ることができることは明らかなはずである。
上記実施例により説明されたシステム、装置、モジュール又はユニットは、具体的には、コンピュータチップ又はエンティティにより実現されてもよく、又は、ある機能を有する製品により実現されてもよい。典型的な実現装置は、コンピュータである。具体的には、コンピュータは、例えば、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤ、ナビゲーション装置、電子メール装置、ゲームコンソール、タブレットコンピュータ、ウェアラブル装置又はこれらの装置のうちの任意の装置の組み合わせでもよい。
以上の実施形態の説明から分かるように、当業者は、本明細書がソフトウェアと必要な汎用ハードウェアプラットフォームの形態により実現することができることを明らかに理解することができる。このような理解に基づいて、本明細書の技術的解決手段は、本質的に又は従来の技術に寄与した部分をソフトウェア製品の形態で具現化することができ、該コンピュータソフトウェア製品は、例えば、ROM/RAM、磁気ディスク、光ディスク等のような記憶媒体に記憶されることができ、1台のコンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置等でもよい)に本明細書の各実施例又は実施例のある部分に記載の方法を実行させるための複数の命令を含む。
本明細書における各実施例は、いずれも累進の方式で説明され、各実施例の間の同じまたは類似する部分は、互いに参照すればよく、各実施例では、他の実施例との相違点に重点を置いて説明する。特に、システム実施例について、基本的に方法実施例と類似するため、説明が比較的に簡単であり、関連する部分は、方法実施例の該当部分の説明を参照すればよい。
本明細書は、多くの汎用又は専用のコンピュータシステム環境又は配置に用いられることができる。例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置または携帯装置、タブレット型装置、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能なコンシューマ電子機器、ネットワークPC、小型コンピュータ、大型コンピュータ、以上の任意のシステム又は装置を含む分散コンピューティング環境等である。
本明細書は、コンピュータにより実行されるコンピュータ実行可能な命令の一般的なコンテキスト、例えばプログラムモジュールで説明することができる。一般的に、プログラムモジュールは、特定のタスクを実行したり、特定の抽象データタイプを実現したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。分散コンピューティング環境において本明細書を実践することもでき、これらの分散コンピューティング環境において、通信ネットワークを介して接続された遠隔処理装置によりタスクを実行する。分散コンピューティング環境において、プログラムモジュールは、記憶装置を含むローカル及びリモートコンピュータ記憶媒体に位置することができる。
実施例により本明細書を説明したが、当業者に理解されるように、本明細書は、本明細書の精神から逸脱せずに多くの変形及び変化があり、添付の請求項は、本明細書の精神から逸脱せずにこれらの変形及び変化を含むことが望ましい。

Claims (24)

  1. 電子機器において実行される画像データベース構築方法であって、
    前記電子機器は、ネットワーク通信ユニットと、プロセッサと、メモリとを備え、
    前記ネットワーク通信ユニットが化学構造を表現するターゲット文字情報を有するターゲットファイルを取得するステップと、
    前記プロセッサが前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップであって、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記ターゲット画像は前記化学構造の化学構造式を含み、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記ターゲット画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、ステップと、
    前記メモリが前記ターゲット画像を記憶して画像データベースを形成するステップと、を含む、
    ことを特徴とする画像データベース構築方法。
  2. 前記ターゲットファイルを取得するステップは、
    前記ネットワーク通信ユニットがデータソースからファイルをダウンロードし、ファイルセットを形成することと、
    前記ネットワーク通信ユニットが所定条件に基づいて、前記ファイルセットからターゲットファイルを取得することと、を含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記所定条件は、
    前記ネットワーク通信ユニットがファイルセットにおけるファイルのファイルタイプを特定することと、
    前記ネットワーク通信ユニットが前記ファイルタイプの違いに基づいて対応するターゲットファイルの絞込ルールを特定することと、を含み、
    異なるファイルタイプに対応する絞込ルールが異なり、前記絞込ルールは、対応するファイルタイプのファイルを絞り込んでターゲットファイルを取得するために用いられる、
    ことを特徴とする請求項2に記載の方法。
  4. 前記ファイルセットにおけるファイルのファイルタイプを特定することは、
    前記ネットワーク通信ユニットが前記ファイルセットにおけるファイルを文字認識し、前記ファイルに含まれる文字情報を得ることと、
    前記ネットワーク通信ユニットが前記文字情報に含まれる所定キーワードに基づいて、前記ファイルセットにおけるファイルのファイルタイプを特定することと、を含む、
    ことを特徴とする請求項3に記載の方法。
  5. 前記ファイルセットにおけるファイルのファイルタイプは、特許文献と非特許文献の少なくとも一種を含む、
    ことを特徴とする請求項3に記載の方法。
  6. 前記非特許文献は、商標ファイル、契約ファイル、学術論文の少なくとも一種を含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記ネットワーク通信ユニットが前記ターゲットファイルを文字認識し、前記ターゲット文字情報を得ることをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  8. 前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するステップは、
    前記ターゲットファイルに画像ファイル及び対応するテキストファイルが含まれる場合、前記プロセッサが前記テキストファイルのターゲット文字情報に対応する前記画像ファイルにおける画像を特定することと、
    前記プロセッサが前記ターゲット文字情報に対応する画像を前記ターゲット画像とすることと、を含む、
    ことを特徴とする請求項1に記載の方法。
  9. 前記ターゲット文字情報は、化学構造の本体構造を表現する本体情報を含み、
    前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、
    前記プロセッサが前記ターゲット文字情報における主体情報に基づいて、前記ターゲット画像に含まれる本体構造を特定することを含む、
    ことを特徴とする請求項1に記載の方法。
  10. 前記ターゲット文字情報は、化学構造の分岐構造を表現する分岐情報をさらに含み、
    前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、前記プロセッサが前記ターゲット文字情報の分岐情報に基づいて、前記ターゲット画像の本体構造に、分岐構造を増加することをさらに含む、
    ことを特徴とする請求項に記載の方法。
  11. 前記ターゲット画像を記憶して画像データベースを形成するステップは、前記メモリが前記ターゲット画像の本体構造及び分岐構造を対応付けて記憶することを含む、
    ことを特徴とする請求項10に記載の方法。
  12. 前記ターゲットファイルは、ピクチャファイルであり、
    前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成するステップは、
    前記プロセッサが前記ピクチャファイルにおける前記ターゲット文字情報を特定するように、前記ピクチャファイルを画像認識することと、
    前記プロセッサが前記ターゲット文字情報に基づいて、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像を生成することと、を含む、
    ことを特徴とする請求項1に記載の方法。
  13. 前記ターゲットファイルは、画像情報及び文字情報を含み、
    前記方法は、
    前記プロセッサが化学構造を表現するターゲット文字情報を前記文字情報から特定することと、
    前記プロセッサが、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応する、前記ターゲット文字情報の表現する化学構造の化学構造式を含むターゲット画像が含まれるか否かを特定することと、
    前記プロセッサが、前記画像情報に含まれる画像に、前記ターゲット文字情報に対応するターゲット画像がない場合、前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現するターゲット画像を生成することと、をさらに含む、
    ことを特徴とする請求項1に記載の方法。
  14. 前記ターゲット画像を記憶して画像データベースを形成するステップは、前記メモリが前記ターゲットファイルを前記ターゲット画像に関連付けて記憶することをさらに含む、
    ことを特徴とする請求項1に記載の方法。
  15. 電子機器において実行される検索方法であって、
    前記電子機器は、入力装置と、プロセッサと、表示装置とを備え、
    前記入力装置がマッチング対象の画像を取得するステップと、
    前記プロセッサが予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定するステップであって、前記予め構築された画像データベースは、サンプルファイルにおける化学構造を表現する文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであり、前記文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記画像は前記化学構造の化学構造式を含み、前記文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、ステップと、
    存在すると特定された場合、前記表示装置がマッチングする画像を表示するステップと、を含む、
    ことを特徴とする検索方法。
  16. 存在すると特定された場合、マッチングする画像を表示するステップは、マッチングする画像に関連付けられた文字情報を表示することをさらに含む、
    ことを特徴とする請求項15に記載の方法。
  17. マッチングする画像及び前記マッチングする画像に関連付けられた文字情報を表示した後、
    前記入力装置がユーザの照会トリガ操作を受け付けることと、
    前記表示装置が前記照会トリガ操作に応答して、所定の表示形態に従って前記マッチングする画像に関連付けられた文字情報を表示することと、をさらに含む、
    ことを特徴とする請求項16に記載の方法。
  18. 前記所定の表示形態は、ハイライト表示、太字表示、画定表示の少なくとも一つを含む、
    ことを特徴とする請求項17に記載の方法。
  19. 前記マッチング対象の画像は、本体構造と前記本体構造に関連する少なくとも一つの分岐構造とを含む、
    ことを特徴とする請求項15から18のいずれか一項に記載の方法。
  20. 前記マッチング対象の画像は、化学構造式である、
    ことを特徴とする請求項18に記載の方法。
  21. マッチング対象の画像を取得するための入力装置と、
    予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定するためのプロセッサであって、前記予め構築された画像データベースは、サンプルファイルにおける化学構造を表現する文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであり、前記文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記画像は前記化学構造の化学構造式を含み、前記文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、プロセッサと、
    存在すると特定された場合、マッチングする画像を表示するための表示装置と、を含む、
    ことを特徴とする電子機器。
  22. 化学構造を表現するターゲット文字情報を有するターゲットファイルを取得するためのネットワーク通信ユニットと、
    前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成するためのプロセッサであって、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記ターゲット画像は前記化学構造の化学構造式を含み、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記ターゲット画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、プロセッサと、
    前記ターゲット画像を画像データベースに格納するためのメモリと、を含む、
    ことを特徴とする電子機器。
  23. コンピュータプログラム命令が記憶されたコンピュータ読取可能な記憶媒体であって、
    前記コンピュータプログラム命令が実行されると、
    化学構造を表現するターゲット文字情報を有するターゲットファイルを取得することと、
    前記ターゲット文字情報に基づいて、前記ターゲット文字情報の表現する内容に対応するターゲット画像を生成することであって、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記ターゲット画像は前記化学構造の化学構造式を含み、前記ターゲット文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記ターゲット画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、生成することと、
    前記ターゲット画像を記憶して画像データベースを形成することと、
    が実現される、コンピュータ読取可能な記憶媒体。
  24. コンピュータプログラム命令が記憶されたコンピュータ読取可能な記憶媒体であって、
    前記コンピュータプログラム命令が実行されると、
    マッチング対象の画像を取得することと、
    予め構築された画像データベースに前記マッチング対象の画像にマッチングする画像が存在するか否かを特定することであって、前記予め構築された画像データベースは、サンプルファイルにおける化学構造を表現する文字情報及び画像情報を抽出して文字情報及び画像情報から生成された画像に基づいて構築されたものであり、前記文字情報が表現する化学構造にマーカッシュ構造が含まれない場合、前記画像は前記化学構造の化学構造式を含み、前記文字情報が表現する化学構造にマーカッシュ構造が含まれている場合、前記画像はマーカッシュ構造の本体部分と前記マーカッシュ構造の置換基部分とを含む、特定することと、
    存在すると特定された場合、マッチングする画像を表示することと、
    が実現される、コンピュータ読取可能な記憶媒体。
JP2022502183A 2019-07-12 2020-05-14 画像データベース構築方法、検索方法、電子機器及び記憶媒体 Active JP7402965B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910627827.8A CN110413814A (zh) 2019-07-12 2019-07-12 图像数据库建立方法、搜索方法、电子设备和存储介质
CN201910627827.8 2019-07-12
PCT/CN2020/090141 WO2021008213A1 (zh) 2019-07-12 2020-05-14 图像数据库建立方法、搜索方法、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022541890A JP2022541890A (ja) 2022-09-28
JP7402965B2 true JP7402965B2 (ja) 2023-12-21

Family

ID=68361242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022502183A Active JP7402965B2 (ja) 2019-07-12 2020-05-14 画像データベース構築方法、検索方法、電子機器及び記憶媒体

Country Status (5)

Country Link
US (1) US20220335081A1 (ja)
EP (1) EP3998536A4 (ja)
JP (1) JP7402965B2 (ja)
CN (1) CN110413814A (ja)
WO (1) WO2021008213A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413814A (zh) * 2019-07-12 2019-11-05 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质
CN112766259A (zh) * 2021-01-08 2021-05-07 合肥工业大学 一种面向视障人士的物品智能搜索方法
CN114625835A (zh) * 2022-01-29 2022-06-14 珠海横琴濠麦科技有限公司 技术文献数据分析方法、计算机装置及计算机可读存储介质
CN115050478B (zh) * 2022-03-31 2023-07-25 数魔方(北京)医药科技有限公司 药品信息挖掘方法、预警方法、装置和存储介质
KR20240018131A (ko) * 2022-08-02 2024-02-13 (주)광개토연구소 이미지 기술맵 처리 방법 및 그 시스템

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010681A1 (en) 2003-06-03 2005-01-13 Cisco Technology, Inc. A California Corporation Computing a path for an open ended uni-directional path protected switched ring
JP2008146602A (ja) 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2011500681A (ja) 2007-10-16 2011-01-06 デクリプト インコーポレイテッド 一般的な化学構造を処理する方法
JP2012053519A (ja) 2010-08-31 2012-03-15 Toshiba Corp 画像処理装置および画像処理システム
JP2013246544A (ja) 2012-05-24 2013-12-09 Hitachi Ltd 画像検索装置、画像検索方法
JP2014092930A (ja) 2012-11-02 2014-05-19 Fujitsu Ltd 情報提供方法、情報提供装置および情報提供プログラム
US20180114142A1 (en) 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN108388551A (zh) 2018-02-07 2018-08-10 潘新怡 化学式及方程式的编辑方法、系统、存储介质、电子设备
US20180293211A1 (en) 2017-04-05 2018-10-11 Parsegon Producing formula representations of mathematical text

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20040176915A1 (en) * 2003-03-06 2004-09-09 Antony Williams Apparatus and method for encoding chemical structure information
CN101853297A (zh) * 2010-05-28 2010-10-06 英华达(南昌)科技有限公司 一种在电子设备中快速获得期望图像的方法
US8718375B2 (en) * 2010-12-03 2014-05-06 Massachusetts Institute Of Technology Sketch recognition system
CN102541286B (zh) * 2010-12-24 2015-09-16 北大方正集团有限公司 用于构建有机化学结构式的方法和装置
CN104376199A (zh) * 2014-11-05 2015-02-25 宁波市科技园区明天医网科技有限公司 乳腺报告病灶示意图智能生成方法
CN105183737A (zh) * 2014-11-17 2015-12-23 广东工业大学 外观设计专利即时检索系统及检索方法
CN110599557B (zh) * 2017-08-30 2022-11-18 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108470036A (zh) * 2018-02-06 2018-08-31 北京奇虎科技有限公司 一种基于故事文本生成视频的方法和装置
CN109697239B (zh) * 2018-11-23 2022-05-31 南京尚网网络科技有限公司 用于生成图文信息的方法
CN109766468A (zh) * 2019-01-04 2019-05-17 广东技术师范学院 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置
CN109815355A (zh) * 2019-01-28 2019-05-28 网易(杭州)网络有限公司 图像搜索方法及装置、存储介质、电子设备
CN110413814A (zh) * 2019-07-12 2019-11-05 智慧芽信息科技(苏州)有限公司 图像数据库建立方法、搜索方法、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010681A1 (en) 2003-06-03 2005-01-13 Cisco Technology, Inc. A California Corporation Computing a path for an open ended uni-directional path protected switched ring
JP2008146602A (ja) 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
JP2011500681A (ja) 2007-10-16 2011-01-06 デクリプト インコーポレイテッド 一般的な化学構造を処理する方法
JP2012053519A (ja) 2010-08-31 2012-03-15 Toshiba Corp 画像処理装置および画像処理システム
JP2013246544A (ja) 2012-05-24 2013-12-09 Hitachi Ltd 画像検索装置、画像検索方法
JP2014092930A (ja) 2012-11-02 2014-05-19 Fujitsu Ltd 情報提供方法、情報提供装置および情報提供プログラム
US20180114142A1 (en) 2016-10-26 2018-04-26 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
US20180293211A1 (en) 2017-04-05 2018-10-11 Parsegon Producing formula representations of mathematical text
CN108388551A (zh) 2018-02-07 2018-08-10 潘新怡 化学式及方程式的编辑方法、系统、存储介质、电子设备

Also Published As

Publication number Publication date
WO2021008213A8 (zh) 2021-02-18
EP3998536A1 (en) 2022-05-18
US20220335081A1 (en) 2022-10-20
CN110413814A (zh) 2019-11-05
WO2021008213A1 (zh) 2021-01-21
JP2022541890A (ja) 2022-09-28
EP3998536A4 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
JP7402965B2 (ja) 画像データベース構築方法、検索方法、電子機器及び記憶媒体
US8862460B2 (en) System, method, and program for processing text using object coreference technology
Strötgen et al. Multilingual and cross-domain temporal tagging
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
US9292877B2 (en) Methods and systems for generating concept-based hash tags
CN102349087B (zh) 自动提供与捕获的信息例如实时捕获的信息关联的内容
US7340450B2 (en) Data search system and data search method using a global unique identifier
CN101452470B (zh) 摘要式网络搜索引擎系统及其搜索方法与应用
De Melo Lexvo. org: Language-related information for the linguistic linked data cloud
Hosseini et al. SentiPers: a sentiment analysis corpus for Persian
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
CN112148889A (zh) 一种推荐列表的生成方法及设备
Nisa et al. A text mining based approach for web service classification
CN101887414A (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
CN112231494A (zh) 信息抽取方法、装置、电子设备及存储介质
Wiedemann et al. New/s/leak 2.0–multilingual information extraction and visualization for investigative journalism
US8244732B2 (en) Named entity marking apparatus, named entity marking method, and computer readable medium thereof
JP2022187507A (ja) 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム
US20090182759A1 (en) Extracting entities from a web page
JP2011165092A (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
KR20100003087A (ko) 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법
Raithatha Knowledge Extraction for Semantic Web
KR20120072153A (ko) 회의록 문서 생성 및 검색 시스템
US20200042594A1 (en) Proposition identification in natural language and usage thereof
Bermingham et al. Crowdsourced real-world sensing: sentiment analysis and the real-time web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231211

R150 Certificate of patent or registration of utility model

Ref document number: 7402965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150