JP2023529939A - マルチモーダルpoi特徴の抽出方法及び装置 - Google Patents
マルチモーダルpoi特徴の抽出方法及び装置 Download PDFInfo
- Publication number
- JP2023529939A JP2023529939A JP2022576469A JP2022576469A JP2023529939A JP 2023529939 A JP2023529939 A JP 2023529939A JP 2022576469 A JP2022576469 A JP 2022576469A JP 2022576469 A JP2022576469 A JP 2022576469A JP 2023529939 A JP2023529939 A JP 2023529939A
- Authority
- JP
- Japan
- Prior art keywords
- poi
- multimodal
- extracting
- feature
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 49
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/908—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本開示は、人工知能分野のビッグデータ技術に関するマルチモーダルPOI特徴の抽出方法及び装置を開示する。具体的な実現方案は、画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出し、テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出し、空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出し、前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得する。本開示の実施例は、各POIに対して様々なモーダルが融合した特徴ベクトル表現を抽出して、後続のPOI間の類似度計算に基礎を提供する方法を提供する。
Description
本出願は、出願日が2021年03月24日であり、出願番号が202110312700.4であり、発明の名前が「マルチモーダルPOI特徴の抽出方法及び装置」である中国特許出願の優先権を主張する。
本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能の分野のビッグデータ技術に関する。
本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能の分野のビッグデータ技術に関する。
POI(POInt of Interest、関心ポイント)は、地理情報システムにおいて、建物、商店、学校、バス停などの実際に存在する地理的エンティティであってもよい。地理情報システムにとって、POIの数はシステム全体の価値をある程度表している。包括的なPOI情報は、地図情報システムを豊富する必須情報であり、一般的に、各POIは、名前、座標、画像など、少なくとも様々なモーダルの情報を含む。これらの情報のデジタルメディアと表現方式は異なる。例えば、名前は一般的に特定の言語のテキストであり、座標は一般的に少なくとも2次元の数字であり、画像は画像形式である。したがって、マルチモーダルPOIとは、複数のデジタルメディアによって説明される物理的エンティティを指す。
通常、POIの情報はリレーショナルデータベースに記憶され、多くのアプリケーションシナリオでは、リレーショナルデータベースからPOIの情報をクエリする必要がある。これには、マルチモーダルPOI類似度を迅速に計算する能力が必要であり、類似度の計算はPOI特徴に基づいているため、POI特徴をどのように抽出するかが鍵となる。
これに鑑みて、本開示は、マルチモーダルPOI特徴の抽出方法及び装置を提供する。
本開示の第1の態様によれば、マルチモーダルPOI特徴の抽出方法を提供し、
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するステップと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するステップと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するステップと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するステップと、を含む。
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するステップと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するステップと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するステップと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するステップと、を含む。
本開示の第2の態様によれば、マルチモーダルPOI特徴の抽出装置を提供し、
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するための視覚特徴抽出モジュールと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するためのセマンティック特徴抽出モジュールと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するための空間特徴抽出モジュールと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するための特徴融合モジュールと、を含む。
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するための視覚特徴抽出モジュールと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するためのセマンティック特徴抽出モジュールと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するための空間特徴抽出モジュールと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するための特徴融合モジュールと、を含む。
本開示の第3の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラム製品であって、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。
以上の技術案から分かるように、本開示の実施例は、各POIに対して様々なモーダルが融合した特徴ベクトル表現を抽出して、後続のPOI間の類似度計算に基礎を提供する方法を提供する。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本出願をより良く理解するためのものであり、本出願を限定しない。
本開示の実施例により提供されるマルチモーダルPOI特徴の抽出方法のフローチャートである。
本開示の実施例により提供される画像特徴抽出モデルをトレーニングする概略図である。
本開示の実施例により提供される全接続ネットワークのトレーニングフローチャートである。
本開示の実施例により提供されるマルチモーダルPOI特徴の抽出装置の概略図である。
本開示の実施例を実現するための電子機器のブロック図である。
以下、図面に基づいて、本出願の例示の実施例を説明する。理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
従来の伝統的な類似度計算方式では、通常、2つのPOIの画像を類似度計算し、2つのPOIの名前を類似度計算し、次に、2つのPOIの座標を類似度計算する。つまり、異なるモーダルの特徴に対してそれぞれ類似度の計算を行う必要があるため、計算複雑度が大きく、時間がかかる。この問題に対して、本開示の核心的なアイデアは、各POIに対して様々なモーダルが融合した特徴表現を抽出し、それによって後続のPOI間の類似度計算に基礎を提供することである。以下、実施例を組み合わせて本開示により提供される方法を詳細に説明する。
図1は本開示の実施例により提供されるマルチモーダルPOI特徴の抽出方法のフローチャートである。当該方法の実行主体はマルチモーダルPOI特徴の抽出装置である。当該装置は、サーバ側に位置するアプリケーションとして具現化することができ、又はサーバ側に位置するアプリケーションのプラグイン又はソフトウェア開発キット(Software Development Kit、SDK)などの機能ユニットとして具現化することもでき、又は、高い計算能力を備えるコンピュータ端末に配置することもでき、本発明の実施例はこれについて特に限定しない。図1に示すように、当該方法は、以下のステップ101~104を含むことができ、
101では、画像特徴抽出モデルを使用してPOIの画像からPOIの視覚特徴表現を抽出する。
101では、画像特徴抽出モデルを使用してPOIの画像からPOIの視覚特徴表現を抽出する。
102では、テキスト特徴抽出モデルを使用してPOIのテキスト情報からセマンティック特徴表現を抽出する。
103では、空間特徴抽出モデルを使用してPOIの空間位置情報から空間特徴表現を抽出する。
104では、POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、POIのマルチモーダル特徴表現を取得する。
上記の実施例に示すステップ101~103は、1つの実現順序にすぎず、他の順序を使用して順次に実行することもでき、並列に実行することもできる。
以下は実施例をそれぞれ組み合わせて上記の各ステップを詳細に説明する。まず、上記のステップ101、すなわち「画像特徴抽出モデルを使用してPOI看板を含む画像からPOIの視覚特徴表現を抽出する」について詳細に説明する。
POI情報内の画像は、通常、POI看板を含む画像である。例えば、ある店舗を撮影した実景図であり、当該実景図は当該店舗の看板を含み、当該看板は、通常、当該店舗の名前を含み、当該店舗のスローガンも含む。もう1つ例えば、ある建物を撮影した実景図であり、当該実景図は当該建物の看板を含み、当該看板は、通常、建物の名前である。もう1つ例えば、ある学校を撮影した実景図であり、当該実景図は当該学校の看板を含み、当該看板は、通常、学校の名前である。これらのPOI看板を含む画像は、POI情報の中では、比較的高い識別子を有するため、好ましい実施方式とし、本開示は、POI看板を含む画像からPOIの視覚特徴表現を抽出することができる。
POI看板を含む画像からPOIの視覚特徴表現を抽出する以外、他のタイプのPOI画像から抽出することもできる。例えば、顕著な形状を備える建物類POIについて、当該建物の主体形状を含む画像から視覚特徴表現を抽出することができる。これらのPOIの画像は、POIデータベースから取得することができる。
その中の1つの好ましい実施方式として、本ステップは、具体的には、以下のステップS11~S12を含むことができ、
ステップS11では、ターゲット検出技術を使用してPOI看板を含む画像から看板領域を抽出する。
ステップS11では、ターゲット検出技術を使用してPOI看板を含む画像から看板領域を抽出する。
本ステップでは、例えば、YOLO(You Only Look Once、見るのは一度きり)、SSD(Single Shot MultiBox Detector、シングルショットマルチボックス検出器)、Faster RCNN(Faster Region Convolutional Neural Networks、高速化領域畳み込みニューラル ネットワーク)などのターゲット検出技術を使用してPOI看板を含む画像から看板領域を認識することができる、上記のターゲット検出技術に基づいて、さらに、FPN(feature pyramid networks、フィーチャ ピラミッド ネットワーク)などの最適化方式を組み合わせることができる。これらのターゲット検出方法は現在比較的成熟した技術であり、ここでは詳しく説明しない。
ターゲット検出技術を使用する以外、他の方式を使用して看板領域を抽出することもできる。例えば、予めトレーニングされた看板判別モデルを使用することができる。まず、実景画像に対して領域分割を行うため、一般的に、実景画像内の看板は、1つの閉領域であるため、実景画像に対して領域の認識及び分割を行い、決定された閉領域を看板判別モデルに入力し、看板判別モデルによって当該閉領域が看板領域であるか否かの判別結果を出力することができる。
看板判別モデルは、実際には、1つの分類モデルであり、いくつかの実景画像を予め収集し、その中から看板領域と非看板領域をそれぞれ正、負サンプルとしてラベリングし、次に、分類モデルをトレーニングして当該看板判別モデルを取得することができる。
ステップS12では、予めトレーニングされた画像特徴抽出モデルを使用して、看板領域からPOIの視覚特徴表現を抽出する。
その中の画像特徴抽出モデルは、ディープニューラルネットワークに基づいて予めトレーニングして取得することができ、看板領域を画像特徴抽出モデルに入力した後、画像特徴抽出モデルが看板領域からPOIの視覚特徴表現を抽出することができる。
次に、画像特徴抽出モデルのトレーニング過程について説明する。まず、トレーニングサンプルを取得することができる。本実施例では、画像特徴抽出モデルをトレーニングするために用いられるトレーニングサンプルを第1のトレーニングサンプルと呼ぶ。ただし、本開示に係る「第1」、「第2」などの表記は、数量、順序、大きさなどの限定的な役割ではなく、名前のみを区別するために用いられることを説明する必要がある。
上記の第1のトレーニングサンプルは、画像サンプルと画像サンプルに対するカテゴリラベルを含む。カテゴリに関するラベリングは、画像によって具現化されたオブジェクトであってもよく、例えば、猫を含む画像ラベリングについて、カテゴリは猫であり、犬を含む画像ラベリングについて、カテゴリは犬である。カテゴリのラベリングは、画像によって具現化されたオブジェクトの種類であってもよく、例えば、特定の具体的な病院を含む画像ラベリングについて、カテゴリは病院であり、特定の具体的な学校を含む画像ラベリングについて、カテゴリは学校である。
次に、画像サンプルをディープニューラルネットワークの入力とし、図2に示すように、画像サンプルに対するカテゴリラベルを分類ネットワークのターゲット出力とする。本実施例において、画像特徴抽出モデルのトレーニング過程では、2つのネットワーク、すなわち、ディープニューラルネットワークと分類ネットワークに関する。その中、ディープニューラルネットワークは、画像サンプルから視覚特徴表現を抽出した後に分類ネットワークに入力し、分類ネットワークは、視覚特徴表現に基づいて画像サンプルに対する分類結果を出力する。トレーニングターゲットは、分類ネットワークによって出力された分類結果と対応するカテゴリラベルとの差異を最小化する。トレーニングが終了した後、例えば、損失関数の値が予め設定された閾値より小さく、又は、トレーニング反復回数が予め設定された回数閾値に達する場合など、トレーニングされたディープニューラルネットワークを使用して画像特徴抽出モデルを取得する。つまり、トレーニング時にディープニューラルネットワークと分類ネットワークを使用するが、最終の画像特徴抽出モデルは、その中のディープニューラルネットワークのみを使用し、分類ネットワークは、ディープニューラルネットワークのトレーニングを支援するために使用される。
上記のトレーニング過程で使用されるディープニューラルネットワークは、ResNet(Residual Network、残差ネットワーク)50、ResNet101、EfficientNet(高効率ネットワーク)などを使用することができるが、これらに限定されない。分類ネットワークで使用される損失関数は、Large-Softmax、A-Softmax、AM-Softmax、cosface、arcfaceなどを使用することができるが、これらに限定されない。
上記のステップ102、すなわち「テキスト特徴抽出モデルを使用してPOIのテキスト情報からセマンティック特徴表現を抽出する」を詳細に説明する。
本ステップに関するPOIのテキスト情報は、POIデータベースから取得したPOIのテキスト情報であってもよい、例えば、POI名前、説明情報、評価情報などである。文字認識技術を使用してPOI看板を含む画像から認識されたPOIのテキスト情報であってもよい。すなわち、POI看板を含む画像から看板領域を認識した後、次に、OCR(Optical Character Recognition、光学文字認識)を使用して看板領域からPOIの名前、スローガンなどの文字をPOIのテキスト情報として認識する。
本ステップで使用されるテキスト特徴抽出モデルは、以下の種類を使用することができるが、これらに限定されない。
第1の種類、Wording Embedding(ワード埋め込み)モデル。
第1の種類、Wording Embedding(ワード埋め込み)モデル。
例えば、例えば、Word2Vec(単語ベクトル)、GloveなどのWording Embeddingモデルを使用することができる。
第2の種類、事前トレーニング言語モデル。
例えば、Bert(Bidirectional Encoder Representations from Transformers、トランスフォーマーからの双方向エンコーディング表現)、Ernie(Enhanced Representation from kNowledge IntEgration、エンティティ情報による拡張言語表現)などの事前トレーニング言語モデルを使用することができる。
第3の種類、既存のPOIテキストデータを使用して事前トレーニング言語モデルに対してfine-tune(微調整)を行った後のモデル。
以下は、上記のステップ103、すなわち「空間特徴抽出モデルを使用してPOIの空間位置情報から空間特徴表現を抽出する」を詳細に説明する。
本ステップに関するPOIの空間位置情報は、主に、一定の形式を使用してPOIの空間位置に対してラベリングを行う情報を指し、例えば、座標情報である。直接に空間特徴抽出モデルを使用してPOIの空間位置情報に対して空間特徴表現を抽出することができる。
多くのPOIの距離が実際には非常に近く、現在の測位精度はメートルレベルに制御できることを考慮すると、地図情報システムではblock(土地区画)上で各POIを分割することがより望ましい。したがって、本開示は、好ましい実施方式を提供し、具体的には、以下のステップS21~S22を含むことができ、
ステップS21では、POIの空間位置情報に対してハッシュ符号化を行って、ハッシュコードを取得する。
ステップS21では、POIの空間位置情報に対してハッシュ符号化を行って、ハッシュコードを取得する。
座標情報について、例えば、geohash(緯度と経度のアドレス符号化)を使用して符号化を行うことができる。goehashは、1つの文字列を使用して経度と緯度2つの座標を表示し、goehash符号化をした後に、同じblockに位置する2つの座標のハッシュコードの前のいくつかのビットが同じであり、後のいくつかのビットのみが区別されるようにする。
ステップS22では、空間特徴抽出モデルを使用してハッシュコードを空間特徴表現に変換する。
本ステップで使用される空間特徴抽出モデルは、Word Emeddingモデルを使用することができ、すなわち埋め込みの方式を使用してハッシュコードを定量化可能な空間特徴表現に変換することができる。
本実施例では、Word Emeddingモデルについて、類似度タスクを使用してさらにトレーニングすることができ、トレーニングターゲットは、位置的に近い2つのPOIほど、Wording Embeddingモデルによって出力された空間特徴表現間の類似度が高い。
以下は、上記のステップ104、すなわち「POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、POIのマルチモーダル特徴表現を取得する」を詳細に説明する。
本ステップでは、上記のPOIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現直接をスプライシングし、スプライシングされた特徴をPOIのマルチモーダル特徴表現とする。しかし、このような方式は硬く、学習能力が不足しており、表現も自然に正確ではない。
したがって、本開示は、好ましい融合方式を提供し、具体的には、以下のステップS31~S32を含むことができ、
ステップS31では、POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、スプライシング特徴を取得する。
ステップS31では、POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、スプライシング特徴を取得する。
本ステップでは、視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を予め設定された順序に従って首尾スプライシングを行う。特徴表現のベクトル緯度は異なり、0などの予め設定された値を使用して補足することができる。
ステップS32では、スプライシング特徴を予めトレーニングされた全接続ネットワーク(Full Connection)に入力し、全接続ネットワークによって出力されたPOIのマルチモーダル特徴表現を取得する。
以下は、上記の全接続ネットワークのトレーニング過程を詳細に説明する。図3に示すように、当該過程は、以下のステップを含むことができ、
301では、第2のトレーニングサンプルを取得し、第2のトレーニングサンプルは、POIサンプルとPOIサンプルに対するカテゴリラベルを含む。
301では、第2のトレーニングサンプルを取得し、第2のトレーニングサンプルは、POIサンプルとPOIサンプルに対するカテゴリラベルを含む。
いくつかの画像、テキスト、及び空間位置情報を有するPOIをPOIサンプルとして予め取得し、これらのPOIのカテゴリをラベリングすることができる。例えば、ラベリングは、病院、建物、学校、バス停、店舗などである。これらのPOIサンプルとそのカテゴリラベルを第2のトレーニングサンプルとし、特徴融合時に使用される全接続ネットワークをトレーニングするために使用される。
302では、画像特徴抽出モデルを使用してPOIサンプルの画像からPOIサンプルの視覚特徴表現を抽出する。
303では、テキスト特徴抽出モデルを使用してPOIサンプルのテキスト情報からセマンティック特徴表現を抽出する。
304では、空間特徴抽出モデルを使用してPOIサンプルの空間位置情報から空間特徴表現を抽出する。
上記のステップ302~ステップ304の特徴抽出方式は、前の方法の実施例の関連説明を参照し、ここでは詳しく説明しない。同様に示されたステップ302~304は、単なるその中の1つの実現順序であり、他の順序を使用して順次に実行することもでき、並列に実行することもできる。
305では、POIサンプルの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、POIサンプルのスプライシング特徴を取得する。
306では、POIサンプルのスプライシング特徴を全接続ネットワークに入力し、全接続層によって出力されたPOIサンプルのマルチモーダル特徴表現を取得し、マルチモーダル特徴表現を分類ネットワークに入力して、POIサンプルのカテゴリラベルを分類ネットワークのターゲット出力とし、全接続ネットワークと分類ネットワークをトレーニングする。
その中、分類ネットワークで使用される損失関数は、Large-Softmax、A-Softmax、AM-Softmax、cosface、arcfaceなどを使用することができるが、これらに限定されない。
上記のトレーニング過程では、全接続ネットワークと分類ネットワークを重点的にトレーニングし、損失関数の値を使用して全接続ネットワーク及び分類ネットワークのパラメータをアップデートする。画像特徴抽出モデル、テキスト特徴抽出モデル、及び空間特徴抽出モデルのモデルパラメータは、変更されずに保持することができ、上記のトレーニング過程のアップデートに参加することもできる。
上記の方法の実施例の方式を使用して各POIに対して各POIのマルチモーダル特徴表現をそれぞれ取得し、各POIのマルチモーダル特徴表現をデータベースに記憶することができる。POIのマルチモーダル特徴表現は、POI間の類似度計算を行うために使用されることができる。具体的なアプリケーション シナリオは、POIの自動生成、インテリジェントな検索と推奨などを含むことができるが、これらに限定されない。
POIの自動生成を例にとると、収集員又は収集装置は、POI看板を含む画像を撮影し、POIの画像、名前、座標などの情報を保存する。履歴的収集された大量のPOIデータは、本開示に記載された実施例の方式を使用してマルチモーダル特徴表現を抽出した後にデータベースに記憶し、例えば、分散redisをマルチモーダル特徴表現の特徴ベースとして使用する。記憶構造は、key(キー)-value(値)ペアの形式を使用することができる。
新たに収集されたPOIデータについて、同様に本開示に記載された実施例の方式を使用してマルチモーダル特徴表現を抽出し、次に、マルチモーダル特徴表現を使用して特徴ベースで検索マッチングを行い、例えば、NN(Nearest Neighbor、最近傍検索)、ANN(Approximate Nearest Neighbor、近似最近傍検索)などの検索方式を使用する。検索過程は、新たに収集されたPOIのマルチモーダル特徴表現とデータベースの既存のPOIのマルチモーダル特徴表現との間の類似度の計算に基づいて、当該新たに収集されたPOIデータが既存POIのデータであるか否かを判断する。検索したがマッチングしないいくつかのPOIデータ、又は、例えばテキストが認識されず、画像の解像度不足、間違った座標などによって引き起こされた自動化的に処理できないPOIデータについて、人工プラットフォームに送信して作業する。
以上は、本開示により提供される方法の詳細な説明であり、以下は、実施例を組み合わせて本開示により提供される装置を詳細に説明する。
図4は本開示の実施例により提供されるマルチモーダルPOI特徴の抽出装置の概略図である。図4に示すように、当該装置は、視覚特徴抽出モジュール401、セマンティック特徴抽出モジュール402、空間特徴抽出モジュール403、及び特徴融合モジュール404を含むことができ、第1のモデルトレーニングユニット405、テキスト取得ユニット406、第2のモデルトレーニングユニット407、及び類似度計算ユニット408をさらに含むこともできる。各構成ユニットの主な機能は、以下であり、
視覚特徴抽出モジュール401は、画像特徴抽出モデルを使用してPOIの画像からPOIの視覚特徴表現を抽出するために用いられる。
視覚特徴抽出モジュール401は、画像特徴抽出モデルを使用してPOIの画像からPOIの視覚特徴表現を抽出するために用いられる。
セマンティック特徴抽出モジュール402は、テキスト特徴抽出モデルを使用してPOIのテキスト情報からセマンティック特徴表現を抽出するために用いられる。
空間特徴抽出モジュール403は、空間特徴抽出モデルを使用してPOIの空間位置情報から空間特徴表現を抽出するために用いられる。
特徴融合モジュール404は、POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、POIのマルチモーダル特徴表現を取得するために用いられる。
好ましい実施方式とし、視覚特徴抽出モジュール401は、ターゲット検出技術を使用してPOI看板を含む画像から看板領域を抽出し、予めトレーニングされた画像特徴抽出モデルを使用して看板領域からPOIの視覚特徴表現を抽出することができる。
第1のモデルトレーニングユニット405は、以下の方式で予めトレーニングして画像特徴抽出モデルを取得し、前記方式は、第1のトレーニングサンプルを取得し、第1のトレーニングサンプルは、画像サンプルと、画像サンプルに対するカテゴリラベルと、を含み、画像サンプルをディープニューラルネットワークの入力とし、画像サンプルに対するカテゴリラベルを分類ネットワークのターゲット出力とし、ディープニューラルネットワークと分類ネットワークをトレーニングし、ディープニューラルネットワークは、画像サンプルから視覚特徴表現を抽出した後に分類ネットワークに入力し、分類ネットワークは、視覚特徴表現に基づいて画像サンプルに対する分類結果を出力し、トレーニングが終了した後、トレーニングされたディープニューラルネットワークを使用して画像特徴抽出モデルを取得する。
テキスト取得ユニット406は、POIデータベースからPOIのテキスト情報を取得し、及び/又は、文字認識技術を使用してPOI看板を含む画像からPOIのテキスト情報を認識して取得するために用いられる。
その中、テキスト特徴抽出モデルは、Word Embeddingモデル、事前トレーニング言語モデル、又は既存のPOIテキストデータを使用して事前トレーニング言語モデルを微調整して取得したモデルを含むことができるが、これらに限定されない。
好ましい実施方式とし、空間特徴抽出モジュール403は、具体的には、POIの空間位置情報に対してハッシュ符号化を行って、ハッシュコードを取得し、空間特徴抽出モデルを使用してハッシュコードを空間特徴表現に変換するために用いられる。
その中、空間特徴抽出モデルはWord Embeddingモデルを含むことができる。
好ましい実施方式とし、特徴融合モジュール404は、具体的には、POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、スプライシング特徴を取得し、スプライシング特徴を予めトレーニングされた全接続ネットワークに入力し、全接続ネットワークによって出力されたPOIのマルチモーダル特徴表現を取得するために用いられることができる。
第2のモデルトレーニングユニット407は、以下の方式で予めトレーニングして全接続ネットワークを取得するために用いられ、前記方式は、
第2のトレーニングサンプルを取得し、第2のトレーニングサンプルは、POIサンプルとPOIサンプルに対するカテゴリラベルを含み、画像特徴抽出モデルを使用してPOIサンプルの画像からPOIサンプルの視覚特徴表現を抽出し、テキスト特徴抽出モデルを使用してPOIサンプルのテキスト情報からセマンティック特徴表現を抽出し、空間特徴抽出モデルを使用してPOIサンプルの空間位置情報から空間特徴表現を抽出し、POIサンプルの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、POIサンプルのスプライシング特徴を取得し、POIサンプルのスプライシング特徴を全接続ネットワークに入力し、全接続層によって出力されたPOIサンプルのマルチモーダル特徴表現を取得し、マルチモーダル特徴表現を分類ネットワークに入力して、POIサンプルのカテゴリラベルを分類ネットワークのターゲット出力とし、全接続ネットワークと分類ネットワークをトレーニングする。
第2のトレーニングサンプルを取得し、第2のトレーニングサンプルは、POIサンプルとPOIサンプルに対するカテゴリラベルを含み、画像特徴抽出モデルを使用してPOIサンプルの画像からPOIサンプルの視覚特徴表現を抽出し、テキスト特徴抽出モデルを使用してPOIサンプルのテキスト情報からセマンティック特徴表現を抽出し、空間特徴抽出モデルを使用してPOIサンプルの空間位置情報から空間特徴表現を抽出し、POIサンプルの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、POIサンプルのスプライシング特徴を取得し、POIサンプルのスプライシング特徴を全接続ネットワークに入力し、全接続層によって出力されたPOIサンプルのマルチモーダル特徴表現を取得し、マルチモーダル特徴表現を分類ネットワークに入力して、POIサンプルのカテゴリラベルを分類ネットワークのターゲット出力とし、全接続ネットワークと分類ネットワークをトレーニングする。
類似度計算ユニット408は、POIのマルチモーダル特徴表現に基づいて、POI間の類似度を計算するために用いられる。
本明細書の各実施例は、すべて漸進的な方式を使用して説明し、各実施例間の同一および類似の部分は、互いに参照すればよく、各実施例は、すべて他の実施例との違いについて重点的に説明する。特に、装置の実施例は、方法の実施例に基本的に類似するため、説明は比較的に簡単であり、関連するところは、方法の実施例の部分の説明を参照すればよい。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図5に示すように、本開示の実施例に係る電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図5に示すように、機器500は計算ユニット501を含み、計算ユニット501は、読み取り専用メモリ(ROM)502に記憶されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM503には、機器500が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット501、ROM502、およびRAM503は、バス504を介してお互いに接続される。入出力(I/O)インターフェース505もバス504に接続される。
機器500内の複数のコンポーネントは、I/Oインターフェース505に接続されており、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、ディスク、光ディスクなどの記憶ユニット508と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット509と、を含む。通信ユニット509は、機器500が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット501は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット501のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、マルチモーダルPOI特徴の抽出方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、マルチモーダルPOI特徴の抽出方法は、記憶ユニット508などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介して機器500にローディングおよび/またはインストールされる。コンピュータプログラムがRAM503にローディングされて計算ユニット501によって実行される場合、上記のマルチモーダルPOI特徴の抽出方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット501は、他の任意の適切な方式(例えば、ファームウェアによって)を介してマルチモーダルPOI特徴の抽出方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ローディングプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
Claims (23)
- マルチモーダルPOI特徴の抽出方法であって、
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するステップと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するステップと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するステップと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するステップと、を含む、
マルチモーダルPOI特徴の抽出方法。 - 前記画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するステップは、
ターゲット検出技術を使用してPOI看板を含む画像から看板領域を抽出するステップと、
予めトレーニングされた画像特徴抽出モデルを使用して前記看板領域から前記POIの視覚特徴表現を抽出するステップと、を含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - 前記画像特徴抽出モデルは、以下の方式で予めトレーニングして取得し、前記方式は、
第1のトレーニングサンプルを取得し、前記第1のトレーニングサンプルは、画像サンプルと、画像サンプルに対するカテゴリラベルと、を含み、
前記画像サンプルをディープニューラルネットワークの入力とし、前記画像サンプルに対するカテゴリラベルを分類ネットワークのターゲット出力とし、前記ディープニューラルネットワークと前記分類ネットワークをトレーニングし、前記ディープニューラルネットワークは、前記画像サンプルから視覚特徴表現を抽出した後に前記分類ネットワークに入力し、前記分類ネットワークは、前記視覚特徴表現に基づいて前記画像サンプルに対する分類結果を出力し、
トレーニングが終了した後、トレーニングされた前記ディープニューラルネットワークを使用して前記画像特徴抽出モデルを取得する、
請求項1又は2に記載のマルチモーダルPOI特徴の抽出方法。 - 前記POIのテキスト情報は、
POIデータベースから取得した前記POIのテキスト情報、及び/又は、
文字認識技術を使用してPOI看板を含む画像から認識された前記POIのテキスト情報を含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - 前記テキスト特徴抽出モデルは、
ワード埋め込み(Word Embedding)モデル、事前トレーニング言語モデル、又は既存のPOIテキストデータを使用して事前トレーニング言語モデルを微調整して取得したモデルを含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - 空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するステップは、
前記POIの空間位置情報に対してハッシュ符号化を行って、ハッシュコードを取得するステップと、
空間特徴抽出モデルを使用して前記ハッシュコードを空間特徴表現に変換するステップと、を含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - 前記空間特徴抽出モデルはワード埋め込みモデルを含む、
請求項1又は6に記載のマルチモーダルPOI特徴の抽出方法。 - 前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するステップは、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、スプライシング特徴を取得するステップと、
前記スプライシング特徴を予めトレーニングされた全接続ネットワークに入力し、前記全接続ネットワークによって出力された前記POIのマルチモーダル特徴表現を取得するステップと、を含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - 前記全接続ネットワークは、以下の方式で予めトレーニングして取得し、前記方式は、
第2のトレーニングサンプルを取得し、前記第2のトレーニングサンプルは、POIサンプルと前記POIサンプルに対するカテゴリラベルを含み、
前記画像特徴抽出モデルを使用して前記POIサンプルの画像から前記POIサンプルの視覚特徴表現を抽出し、
前記テキスト特徴抽出モデルを使用して前記POIサンプルのテキスト情報からセマンティック特徴表現を抽出し、
空間特徴抽出モデルを使用して前記POIサンプルの空間位置情報から空間特徴表現を抽出し、
前記POIサンプルの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、前記POIサンプルのスプライシング特徴を取得し、
前記POIサンプルのスプライシング特徴を全接続ネットワークに入力して、全接続層によって出力された前記POIサンプルのマルチモーダル特徴表現を取得し、
前記マルチモーダル特徴表現を分類ネットワークに入力して、前記POIサンプルのカテゴリラベルを前記分類ネットワークのターゲット出力とし、前記全接続ネットワークと前記分類ネットワークをトレーニングする、
請求項8に記載のマルチモーダルPOI特徴の抽出方法。 - POIのマルチモーダル特徴表現に基づいて、POI間の類似度を計算するステップをさらに含む、
請求項1に記載のマルチモーダルPOI特徴の抽出方法。 - マルチモーダルPOI特徴の抽出装置であって、
画像特徴抽出モデルを使用してPOIの画像から前記POIの視覚特徴表現を抽出するための視覚特徴抽出モジュールと、
テキスト特徴抽出モデルを使用して前記POIのテキスト情報からセマンティック特徴表現を抽出するためのセマンティック特徴抽出モジュールと、
空間特徴抽出モデルを使用して前記POIの空間位置情報から空間特徴表現を抽出するための空間特徴抽出モジュールと、
前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現を融合して、前記POIのマルチモーダル特徴表現を取得するための特徴融合モジュールと、を含む、
マルチモーダルPOI特徴の抽出装置。 - 前記視覚特徴抽出モジュールは、具体的には、ターゲット検出技術を使用してPOI看板を含む画像から看板領域を抽出し、予めトレーニングされた画像特徴抽出モデルを使用して前記看板領域から前記POIの視覚特徴表現を抽出するために用いられる、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 第1のモデルトレーニングユニットをさらに含み、
前記第1のモデルトレーニングユニットは、以下の方式で予めトレーニングして前記画像特徴抽出モデルを取得するために用いられ、前記方式は、第1のトレーニングサンプルを取得し、前記第1のトレーニングサンプルは、画像サンプルと、画像サンプルに対するカテゴリラベルと、を含み、前記画像サンプルをディープニューラルネットワークの入力とし、前記画像サンプルに対するカテゴリラベルを分類ネットワークのターゲット出力とし、前記ディープニューラルネットワークと前記分類ネットワークをトレーニングし、前記ディープニューラルネットワークは、前記画像サンプルから視覚特徴表現を抽出した後に前記分類ネットワークに入力し、前記分類ネットワークは、前記視覚特徴表現に基づいて前記画像サンプルに対する分類結果を出力し、トレーニングが終了した後、トレーニングされた前記ディープニューラルネットワークを使用して前記画像特徴抽出モデルを取得する、
請求項11又は12に記載のマルチモーダルPOI特徴の抽出装置。 - 前記抽出装置は、テキスト取得ユニットをさらに含み、
前記テキスト取得ユニットは、POIデータベースから前記POIのテキスト情報を取得し、及び/又は、文字認識技術を使用してPOI看板を含む画像から前記POIのテキスト情報を認識して取得するために用いられる、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 前記テキスト特徴抽出モデルは、
ワード埋め込みモデル、事前トレーニング言語モデル、又は既存のPOIテキストデータを使用して事前トレーニング言語モデルを微調整して取得したモデルを含む、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 前記空間特徴抽出モジュールは、具体的には、前記POIの空間位置情報に対してハッシュ符号化を行って、ハッシュコードを取得し、空間特徴抽出モデルを使用して前記ハッシュコードを空間特徴表現に変換するために用いられる、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 前記空間特徴抽出モデルはワード埋め込みモデルを含む、
請求項11又は16に記載のマルチモーダルPOI特徴の抽出装置。 - 前記特徴融合モジュールは、具体的には、前記POIの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、スプライシング特徴を取得し、前記スプライシング特徴を予めトレーニングされた全接続ネットワークに入力し、前記全接続ネットワークによって出力された前記POIのマルチモーダル特徴表現を取得するために用いられる、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 第2のモデルトレーニングユニットをさらに含み、
前記第2のモデルトレーニングユニットは、以下の方式で予めトレーニングして前記全接続ネットワークを取得するために用いられ、前記方式は、
第2のトレーニングサンプルを取得し、前記第2のトレーニングサンプルは、POIサンプルと前記POIサンプルに対するカテゴリラベルを含み、前記画像特徴抽出モデルを使用して前記POIサンプルの画像から前記POIサンプルの視覚特徴表現を抽出し、前記テキスト特徴抽出モデルを使用して前記POIサンプルのテキスト情報からセマンティック特徴表現を抽出し、空間特徴抽出モデルを使用して前記POIサンプルの空間位置情報から空間特徴表現を抽出し、前記POIサンプルの視覚特徴表現、セマンティック特徴表現、及び空間特徴表現をスプライシングして、前記POIサンプルのスプライシング特徴を取得し、前記POIサンプルのスプライシング特徴を全接続ネットワークに入力して、全接続層によって出力された前記POIサンプルのマルチモーダル特徴表現を取得し、前記マルチモーダル特徴表現を分類ネットワークに入力して、前記POIサンプルのカテゴリラベルを前記分類ネットワークのターゲット出力とし、前記全接続ネットワークと前記分類ネットワークをトレーニングする、
請求項18に記載のマルチモーダルPOI特徴の抽出装置。 - POIのマルチモーダル特徴表現に基づいて、POI間の類似度を計算するための類似度計算ユニットをさらに含む、
請求項11に記載のマルチモーダルPOI特徴の抽出装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~10のいずれかの一つに記載のマルチモーダルPOI特徴の抽出方法を実行する、
電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~10のいずれかの一つに記載のマルチモーダルPOI特徴の抽出方法を実行させる、
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される時に請求項1~10のいずれかの一つに記載のマルチモーダルPOI特徴の抽出方法を実現する、
コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110312700.4A CN113032672A (zh) | 2021-03-24 | 2021-03-24 | 多模态poi特征的提取方法和装置 |
CN202110312700.4 | 2021-03-24 | ||
PCT/CN2021/107383 WO2022198854A1 (zh) | 2021-03-24 | 2021-07-20 | 多模态poi特征的提取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023529939A true JP2023529939A (ja) | 2023-07-12 |
Family
ID=76473210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022576469A Pending JP2023529939A (ja) | 2021-03-24 | 2021-07-20 | マルチモーダルpoi特徴の抽出方法及び装置 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2023529939A (ja) |
KR (1) | KR20230005408A (ja) |
CN (1) | CN113032672A (ja) |
WO (1) | WO2022198854A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN113657274B (zh) * | 2021-08-17 | 2022-09-20 | 北京百度网讯科技有限公司 | 表格生成方法、装置、电子设备及存储介质 |
CN113807102B (zh) * | 2021-08-20 | 2022-11-01 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113807218B (zh) * | 2021-09-03 | 2024-02-20 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN114911787B (zh) * | 2022-05-31 | 2023-10-27 | 南京大学 | 一种融合位置和语义约束的多源poi数据清洗方法 |
CN114861889B (zh) * | 2022-07-04 | 2022-09-27 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、目标对象检测方法和装置 |
CN115455129B (zh) * | 2022-10-14 | 2023-08-25 | 阿里巴巴(中国)有限公司 | Poi处理方法、装置、电子设备及存储介质 |
CN115795119B (zh) * | 2022-11-11 | 2024-09-13 | 中国电信股份有限公司 | 触觉特征信息获取方法、装置、系统、设备及介质 |
CN115966061B (zh) * | 2022-12-28 | 2023-10-24 | 上海帜讯信息技术股份有限公司 | 基于5g消息的灾情预警处理方法、系统和装置 |
CN116665228B (zh) * | 2023-07-31 | 2023-10-13 | 恒生电子股份有限公司 | 图像处理方法及装置 |
CN116805531B (zh) * | 2023-08-24 | 2023-12-05 | 安徽通灵仿生科技有限公司 | 一种儿科远程医疗系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472232A (zh) * | 2018-10-31 | 2019-03-15 | 山东师范大学 | 基于多模态融合机制的视频语义表征方法、系统及介质 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
KR102092392B1 (ko) * | 2018-06-15 | 2020-03-23 | 네이버랩스 주식회사 | 실 공간에서 관심지점 관련 정보를 자동으로 수집 및 업데이트하는 방법 및 시스템 |
CN111460077B (zh) * | 2019-01-22 | 2021-03-26 | 大连理工大学 | 一种基于类语义引导的跨模态哈希检索方法 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
-
2021
- 2021-03-24 CN CN202110312700.4A patent/CN113032672A/zh active Pending
- 2021-07-20 WO PCT/CN2021/107383 patent/WO2022198854A1/zh active Application Filing
- 2021-07-20 KR KR1020227044369A patent/KR20230005408A/ko not_active Application Discontinuation
- 2021-07-20 JP JP2022576469A patent/JP2023529939A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472232A (zh) * | 2018-10-31 | 2019-03-15 | 山东师范大学 | 基于多模态融合机制的视频语义表征方法、系统及介质 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20230005408A (ko) | 2023-01-09 |
WO2022198854A1 (zh) | 2022-09-29 |
CN113032672A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023529939A (ja) | マルチモーダルpoi特徴の抽出方法及び装置 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN109145294B (zh) | 文本实体识别方法及装置、电子设备、存储介质 | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN112579727B (zh) | 文档内容的提取方法、装置、电子设备及存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN112528658B (zh) | 层次化分类方法、装置、电子设备和存储介质 | |
CN113407610B (zh) | 信息抽取方法、装置、电子设备和可读存储介质 | |
CN114490998B (zh) | 文本信息的抽取方法、装置、电子设备和存储介质 | |
CN113836925A (zh) | 预训练语言模型的训练方法、装置、电子设备及存储介质 | |
CN112560504B (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
US20230215203A1 (en) | Character recognition model training method and apparatus, character recognition method and apparatus, device and storage medium | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN112989097A (zh) | 模型训练、图片检索方法及装置 | |
CN112906368A (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
CN114429106B (zh) | 页面信息处理方法、装置、电子设备和存储介质 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240528 |