JP7041281B2

JP7041281B2 - ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法

Info

Publication number: JP7041281B2
Application number: JP2020556939A
Authority: JP
Inventors: ▲豊▼ ▲張▼; 瑞▲チェン▼ 毛; 震洪杜; 流▲暢▼ 徐; ▲華▼▲シン▼ 叶
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-07-04
Filing date: 2019-07-23
Publication date: 2022-03-23
Anticipated expiration: 2039-07-23
Also published as: CN110377686B; WO2021000362A1; US11941522B2; JP2021532432A; US20210012199A1; CN110377686A

Description

本発明はＧＩＳ（地理情報システム）のアドレス情報マイニング分野に関し、具体的にはディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法に関する。

ＧＩＳの認識及び応用能力が高まっていることに伴い、アドレス情報はスマートシティ時代のコアリソースとなりつつあり、その内容に盛り込まれた意味的と空間的意味合いは、さらにスマートシティにおける地理的オントロジーと時空間的な意味フレームワークを構築する基礎的な支えとなっている。コンピュータはアドレステキストを理解させる観点から、地名アドレス総合特徴を深く精錬して数値形態の数量化表現を形成することは、シティ意味と空間内容を融合して理解することにとって重要な理論的価値と実践的意義を持つ。しかし、現在の非構造化テキスト管理あるいはアドレスコーディングをコアとする理論研究は、テキストの特徴的な意味合いを深くマイニングすることができないため、タスク処理時に情報の孤島、付加的なデータ依存、汎化性の弱いなどの際立った問題に直面し、アドレスデータのスマートシティ分野での使用を制限した。
ディープニューラルネットワークを代表とするディープ学習方法は、コンピュータ処理性能を十分に利用でき、非線形問題に対して非常に強いパラメータ算出とフィッティング能力を持つ。自然言語分野の研究では、ニューラルネットワーク言語モデルはディープニューラルネットワークをもとに、文字、単語、文言、さらには文章の意味特徴を高次元ベクトルの形態で表現することができる。しかし、地名アドレスは特異化された自然言語として、現在の言語モデルとうまく結合することができ、地名アドレスの文法規則と意義に合致する地名アドレス言語モデルを構築することはアドレステキストの意味特徴表現を実現する有効なルートである。
地名のアドレスはシティにわたってデータ量が大きく、空間分布が密であるなどの特徴があり、同時にアドレステキストの意味特徴ベクトルの次元が高い。改良されたK－Meansアルゴリズムは無監督クラスタリング方法であり、論理が簡単で、運行効率が高く、収束速度が速く、アルゴリズムの解釈可能性が強く、パラメータ調整の数が少なく、ビッグデータや高次元のクラスタリングに適するなどの特徴を持ち、結果がより人間の論理に合致し、アドレステキストの意味－空間融合のクラスタリングの応用に適するようにクラスタリング数が範囲内の機能領域の分布を参照して設定する。

転移学習が自然言語分野で深く応用されることに伴い、現在のニューラルネットワーク言語モデルはすでにニューラルネットワーク構成の設計から微調整タスクの展開をサポートし始め、利用者がその汎用的なモデル例に基づいて下流タスクのニューラルネットワーク改良を行うのに便利であり、訓練済みなモデルにおけるニューラルネットワークノードを新たなネットワーク構成に遷移させることがコアとなる。モデルを再訓練する従来の形態と比べて、この方法はデータ要求、訓練時間及び実践効果などの点で顕著なメリットを持ち、モデルが出力する結果情報に微調整目標の融合重みを含ませるとともに、ターゲットタスクの求めを実現する。

本発明の目的は、従来技術の問題点を克服し、アドレス情報特徴抽出のディープニューラルネットワークモデルを提供することである。

本発明の目的は、以下の技術内容により達成される。

ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップＳ１と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップＳ２と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップＳ３と、
Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュールおよびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップＳ４と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K－Meansクラスタリング方法によって意味－空間融合のクラスタリング結果を得るステップＳ５と、
Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、Ｓ５におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味－空間の融合重みを与えるための、デコーダを形成するステップＳ６と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味－空間融合モデルを構築すると共に、アドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップＳ７と、
を含むディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。

上記技術案に基づいて、各ステップは具体的には以下の具体的な形態によって実現される。

好ましくは、前記ステップＳ１において、単語埋め込みモジュールにおける具体的な実行フローは、
辞書－ベクトル変換行列Cを作成するステップＳ１１と、
入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップＳ１２と、
インデックスから各文字のone－hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップＳ１３と、
one－hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding₀を得るステップＳ１４と、
アドレステキストにおける各文字の位置positionを取得するステップＳ１５と、
位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
偶数次元の位置重み値は、次の式で表され、

奇数次元の位置重み値は、次の式で表され、

式中、d_modelは単語埋め込みembedding₀の次元を表し、iは算出されたi番目の次元を表すステップＳ１６と、
次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップＳ１７と、

を含む。

好ましくは、前記ステップＳ２において、特徴抽出モジュールにおける具体的な実行フローは、
Ｓ１で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップＳ２１と、
第１層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SA^Nが得られるまで層ごとに伝達するステップＳ２２と、
を含む。

好ましくは、前記ステップＳ３において、ターゲットタスクモジュールにおける具体的な実行フローは、
Ｓ２で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding = g(W×SA+b)であり、
式において、g（）はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップＳ３１と、
prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、

式中、重み行列C^Tは辞書－ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表すステップＳ３２と、
次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップＳ３３と、

を含む。

好ましくは、前記ステップＳ４の具体的な実現フローは、
Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュール、およびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップＳ４１と、
地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップＳ４２と、
前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップＳ４３と、
を含む。

さらに、前記ステップＳ４２において、
前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら３種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの３つの勾配更新最適化戦略を用いる。

好ましくは、前記ステップＳ５の具体的な実現フローは、
アドレステキストの前記特徴抽出モジュールにおける最後の４層のセルフトランスフォーマーサブモジュールの出力SA^N、SA^N－1、SA^N－2、SA^N－3を取得して、SA^N、SA^N－1、SA^N－2、SA^N－3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed₀を取得するステップＳ５１と、
全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed₀と空間特徴ベクトルcoorEmbed₀に対して無次元化操作を行い、重みlを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、

次の式に示すように、２種類の処理後の特徴ベクトルを直接に接合して、最終的に融合特徴ベクトルを形成するステップＳ５２と、

K－Meansクラスタリングアルゴリズムにより、Elkan距離算出最適化アルゴリズムとMini－Batch K－Means戦略とK－Means++クラスタリング中心初期プログラムとを組み合わせて、すべての融合特徴ベクトルをクラスタリングし、意味－空間融合のクラスタリング結果を得るステップＳ５３と、
を含む。

好ましくは、前記ステップ６の具体的な実現フローは、
Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップＳ６１と、
ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSA^Nを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがＳ５で得られた各クラスタリングに属する予測確率分布を得るステップＳ６２と、
を含む。

好ましくは、前記ステップＳ７の具体的な実現フローは、
前記エンコーダ及びデコーダを接続してアドレス意味－空間融合モデルを得るステップＳ７１と、
アドレス意味－空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップＳ７２と、
を含む。

本発明の他の目的は、アドレステキストの地理位置予測方法を提供することにあり、このアドレステキストの地理位置予測方法は、
まず、３層の結合された全結合層及び１層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項１～９のいずれか１項に記載の方法に従って訓練してアドレス意味－空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SA^Nをプーリング層によってプーリングした後、３層の結合された全結合層及び１層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと
を含む。

本発明は、従来技術と比較して有益な効果を有する。

（１）本発明は現代の人工知能方法の優れたフィッティングと算出能力を利用して、アドレステキストの特徴表現タスクをディープニューラルネットワークの構造設計と訓練問題に変換し、アドレス情報の研究方法を革新し、地名アドレスデータの処理と応用に新たなアイデアを提供した。しかし、従来技術では、アドレステキスト特徴抽出に関する研究はなかった。

（２）本発明は、マルチヘッド自己注意メカニズム、位置重み付けアルゴリズム、未知文字予測タスクを結合して地名アドレス言語モデルALMを設計した。モデル構造と訓練フレームワークは完備かつ自己調整能力を有し、モデルパラメータ変数の正確なフィッティングと効率的な算出を実現でき、地名アドレスの意味特徴を効率的に抽出できる。

（３）本発明はALM構造及び関連ニューラルネットワーク出力を多重化してアドレステキスト文ベクトル表現を設計し、K－Meansクラスタリング理論を導入し、アドレス情報の高次元クラスタリング融合方法を提出し、従来の空間クラスタリングではアドレス意味を概括できないという弊害を改善し、意味－空間重み付けのアドレス要素分割を実現する。同時に、ディープニューラルネットワークのモデル微調整理論を参照してアドレスの意味－空間融合モデルGSAMを設計し、クラスタリングの結果を指向としてモデルのターゲットタスクの達成を展開し、両者の特徴の総合的な要約能力を持たせる。

本発明のデプスニューラルネットワークモデルに基づくアドレス情報特徴抽出方法のフローチャートである。特徴抽出モジュールの構成図である。本発明の地名アドレス言語モデル（ALM）の構成図である。本発明のアドレス意味－空間融合モデル（GSAM）の構成図である。本発明のアドレス要素意味－空間重みのクラスタリング結果（意味重み０.４/空間重み０.６）である。アドレス空間座標予測モデルの構成図である。

以下、本発明を図面及び具体的な実施例に基づいてさらに詳細に説明する。

アドレステキストとそれに対応する空間位置はシティ建設の基礎であり、アドレス情報を一括的にモデル化して数値の結果で出力し、下流タスクの一括化展開に役立ち、業務の複雑性を低下する。しかし、アドレステキストはコンピュータに直接理解されない特異化された自然言語テキストであり、そのうち有用な特徴情報を言語モデルによって抽出する必要がある。言語モデルの本質は、一つの文が出現する可能性を測ることであり、文における前の一連の先行単語から、後にどの単語がくるかの確率分布を予測することが中心思想である。既存の地名アドレス研究において情報特徴表現が不十分で、データ建設作業が深く進まず、応用シーンに限界があるという苦境に対して、本発明の思想は、人工知能方法のディープニューラルネットワークアーキテクチャを総合的に利用し、テキスト特徴抽出、アドレス正規化建設及び意味空間融合などのタスクを定量化可能なディープニューラルネットワークモデル構築と訓練最適化問題に転化することである。アドレスにおける文字を基本入力ユニットとし、言語モデルを設計してそれを定量化的に表現する。これを基に、地名アドレス正規化建設のキーテクノロジーをニューラルネットワークターゲットタスクによって実現する。同時に地名アドレス空間表現特性を考慮して、アドレス意味－空間の特徴融合手段を提出し、重み付きクラスタリング方法と特徴融合モデルを設計し、このモデルは、自然言語のアドレステキストから意味特徴と空間特徴を融合した融合ベクトルを抽出することを目的としている。以下、本発明の技術内容を具体的に説明する。

図１に示すように、デプスニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップＳ１と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップＳ２と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップＳ３と、
Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュールおよびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデル（ALM）を形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップＳ４と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K－Meansクラスタリング方法によって意味－空間融合のクラスタリング結果を得るステップＳ５と、
Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、Ｓ５におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味－空間の融合重みを与えるための、デコーダを形成するステップＳ６と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味－空間融合モデル（GSAM）を構築すると共に、アドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップＳ７と
を含む。

以下、本発明における上記ステップの具体的な実現フローについて詳細に説明する。

文字ベクトル化表現はモデルの基礎であり、文字初期化表現がカバーする情報はその後のネットワーク展開の効果を決め、従来の単語埋め込みには位置情報の重みがなければ、意味特徴抽出時に各ワードから目的の文字への影響が位置に依存しない結果となり、これはテキストに対する人間の脳の理解に合致しないため、位置情報を埋め込む必要がある。本発明は、ステップＳ１の単語埋め込みモジュールによって実現され、以下に、ステップＳ１の単語埋め込みモジュールにおける具体的な実行フローを具体的に展開して説明する。
Ｓ１１：辞書－ベクトル変換行列（Lookup Table）Cを作成する。
Ｓ１２：入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得する。
Ｓ１３：インデックスから各文字のone－hotベクトルを取得し、ベクトルの長さは辞書サイズである。

Ｓ１４：one－hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding₀を得る。

Ｓ１５：アドレステキストにおける各文字の位置positionを取得し、positionは当該文字アドレステキストにおける文字序数を代表する。
Ｓ１６：位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得することであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなるため、各次元の重み値を算出した後にPWを組み合わせて形成する必要がある。奇数次元と偶数次元の算出式は異なり、それぞれは以下のとおりである。
偶数次元の位置重み値は、下式で表され、

奇数次元の位置重み値は、下式で表され、

式中、d_modelは単語埋め込みembedding₀の次元を表し、iは算出されたi番目の次元を表す。各文字のPWの次元はembedding₀の次元と一致している。
Ｓ１７：各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得る。

このように、ステップＳ１で構築した単語埋め込みモジュールは、文字位置順序の重み付けを実現するだけでなく、文字間の相対位置も考慮して後のネットワーク展開により有利であることが分かる。単語埋め込みモジュールによって抽出された文字ベクトル化表現情報は、Ｓ２の特徴抽出モジュールで特徴ベクトル抽出を行う必要がある。特徴抽出モジュールは文字が位置する言語環境を深くマイニングし、文字意味の精錬を達成し、意味特徴を数値ベクトルの形式で出力することができる。本発明では、特徴抽出モジュールはマルチヘッド自己注意メカニズムに基づいて言語モデルの意味特徴ディープニューラルネットワーク構成を構築して、アドレステキスト意味化の正確な表現を実現する。

ステップＳ２において、特徴抽出モジュールにおける具体的な実行フローは以下の通りである。
Ｓ２１：Ｓ１で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマー（Self－Transformer）サブモジュールが直列に形成されたニューラルネットワークに入力する。各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とする。
Ｓ２２：第１層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SA^Nが得られるまで層ごとに伝達する。

このように、特徴抽出モジュールにおいて、セルフトランスフォーマーサブモジュールはコアである。各セルフトランスフォーマーサブモジュールの実現をより明確に説明するために、以下、その具体的な構成について詳細に説明する。以上の説明により、各セルフトランスフォーマーサブモジュールには実際にマルチヘッド自己注意ニューラルネットワークフレームワーク層、残差ネットワーク－バッチ正規化層、フィードフォワードネットワーク層、残差ネットワーク－バッチ正規化層が実際にパッケージングされている。以下に１つずつ述べる。

（１）テキスト自己注意（self－attention）ニューラルネットワークフレームワークを構築する。
自己注意の本質は、人間がテキストを視覚的に観察する注意メカニズムに由来し、テキストにおける特定の文字を例に挙げると、人間がその意味を理解するには他の文字との相互のつながりを参照する必要があるので、自己注意メカニズムの具体的な実現思想は、文におけるすべての文字からそのワードへの影響に重みを与え、重みを文字自体の内容と組む合わせることで、そのワードの意味特徴を総合的に決定すると表してもよい。
アドレステキストの本質はアドレスを記述する文であり、文における各文字はそれぞれQuery（Q）、Key（K）、Value（V）の３つの特徴ベクトルを表し、それらの特徴ベクトルは文字の単語埋め込みベクトルXに３つの重み行列W^Q、W^K、W^Vを乗じて得られ、重み行列はニューラルネットワークの訓練によって得られる。文字lのattentionコンテンツの算出フローは、次のとおりである。
まず、ステップＳ１で単語埋め込みモジュールから入力された文のすべての文字単語埋め込みベクトルが得られ、算出により各文字のQ、K、Vベクトルq、k、vが得られる。
lとすべての文字のスコアを算出する。

訓練時の勾配の安定化のために、スコア値をさらに正規化し、式中、d^kはベクトルkの次元を表す。

すべてのスコア値をsoftmax正規化して出力する。

各スコア値に対応するvベクトルを乗じて、各文字の当該ワードに対する重み付け評価を得る。

当該ワードに対する全ての文字の重み付け評価を加算し、当該ワードの意味特徴表現を得る。

実際の過程において、上述の算出過程はいずれも行列操作によって完成され、以下のように表現できる。

しかし、この方法は１種類の意味空間の情報しか得られず、その上で発展してきたマルチヘッド自己注意メカニズム（Multi－head self－attention）は本来１回しかマッピングされない特徴ベクトルを複数回マッピングして、複数の意味サブ空間でのQ、K、Vを得て、さらにそれらに注意の値を取る操作をそれぞれ行い、その結果を接合して、最終的に文字統合意味空間でのself－attention表現を得る。
上述のマルチヘッド自己注意方法を単一のニューラルネットワーク層にパッケージングし、マルチヘッド自己注意ニューラルネットワークフレームワーク層（MSA layer）といい、意味特徴抽出効果をより向上させるために、本発明は複数のMSAレイヤ（MSA layer）を用いて層毎に重ねる形でアドレス意味の抽出を行う。

（２）残差ネットワーク－バッチ正規化層
出力される意味SAの実際的な意味は全文文字から各文字への影響であるため、その算出過程に意味抽出の誤差は避けられず、これだけで文字意味を表現すると、ネットワーク層数の増加に伴い、下位層の特徴が上位層に伝わると、情報が失われる場合が発生し、誤差もそれに応じて段階的に増加し、意味表現の縮退（degradation）が起こる。MSAレイヤ間の情報伝達の意味的縮退を回避するために、残差ネットワーク層ニューラルネットワーク構成を導入し、MSAレイヤの出力は残差ネットワーク－バッチ正規化層で残差と正規化算出をする必要がある。第l層のマルチヘッド自己注意層の出力を例にすると、コア思想は次式で表される。

SA^l－1は上位層の出力を表し、F関数はマルチヘッド注意の処理方法を表し、ただし、SA⁰は最初に着信された単語埋め込み情報である。各MSA layerが出力した後に前の層の情報を加算して、自己注意意味とテキスト埋め込み情報を融合すると同時に、結果に対してバッチ正規化（Batch Normalize、BN）操作を行って、結果情報が伝達された次の算出に利便となり、訓練時の勾配消失を回避する（多段逆伝播により誤差勾配が０になる場合）。

（３）フィードフォワード層
同時に出力結果は自己注意ヘッド算出によるベクトル接合結果であるため、データ空間が無秩序になるという問題があるので、この結果を１つのフィードフォワードネットワーク層（全結合ニューラルネットワーク）を介して活性化関数ReLUの補完で非線形変換を行う必要があり、意味を順序的かつ意味的に出力するようにする。次いで、出力結果を残差ネットワーク－バッチ正規化層に再入力して、残差および正規化操作を一回行う。
したがって、本発明では、MSA layer－残差ネットワーク－バッチ正規化層－フィードフォワードネットワーク層－残差ネットワーク－バッチ正規化層は、セルフトランスフォーマーサブモジュール（self－Transformer Moudule）を合成している。最終的なニューラルネットワーク構成は、複数のself－Transformer Mouduleを順に重ね合わせたものであり、その全体構造は図２に示すようである。
ターゲットタスクモジュール（Target Module）は、意味特徴抽出モジュールの直後であり、本発明では、このモジュールの入力は、self－Transformer Moduleが重畳された出力であると理解することができる。この入力には、文における各文字の意味特徴情報が含まれることが知られている。
以上の条件により、本発明では、文脈に基づいて未知文字を予測するターゲットタスクを提出し、その具体的な内容は、
文におけるある文字が未知であり、他の文脈が既知であると想定する。

式中、w_jはアドレステキストの文におけるj番目の文字（j≠i）を表し、w_i（unknow）はアドレステキストの文におけるi番目の文字が未知文字であることを表す。
既知の文脈により、その未知文字の出現確率を予測し、以下の条件付き確率表現として書く。

アドレステキスト内容を上記の単語埋め込みモジュールと特徴抽出モジュールに代入し、最終的な文字文脈意味特徴情報を得る。

sa_iは文脈が文字x_iに作用する重みを表し、ただし、sa_iは全文から当該文字への影響を表すことができれば、条件付き確率表現の式を次のように近似する。

このターゲットタスクに基づいて、本発明は、文脈に基づいて文字を予測するターゲットタスクニューラルネットワーク構成を設計した。ステップＳ３において、ターゲットタスクモジュールにおける具体的な実行フローは以下の通りである。
Ｓ３１：Ｓ２における特徴抽出モジュールの出力をフィードフォワードネットワーク層（Feed Forward）の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、その後Lookup Tableに基づいて文字確率を算出する準備を行う。非線形変換式は、下式で表され、

式において、g（）はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表す。
Ｓ３２：全結合層を構築して、prob_embeddingを線形変換して、「修正語埋め込み」から確率分布スコアへの線形変換を達成してその確率分布スコアを取得する。

式中、重み行列C^Tは辞書－ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表す。
Ｓ３３：確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得る。

このターゲットタスクモジュールの利点は、文字の文脈的意味を両立させて、且つ意味特徴抽出モジュールによって実現される単語－文脈特徴のマッピング関係に合致することである。
上記３つのモジュールの構築が完了したら、地名アドレス言語モデル（Address Language Model、ALM）の構築と訓練を行うことができる。本発明において、ステップＳ４の具体的な実現フローは、
図３に示すように、Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュール、およびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルALMの完全な構成を形成するステップＳ４１と、
地名アドレス言語モデル訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップＳ４２と、を含む。ニューラルネットワークの訓練フレームワークは実際のニーズに応じて調整可能であり、従来技術にも多くの実現可能形態が存在し、理解を容易にするために、本発明ではその具体的な実現形態を例示的に展開する。

（１）ランダムシールド戦略の自然言語訓練手段を定義する
ランダムシールド戦略に基づく自然言語訓練手段は、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表現するように設計されている。シールド記号とは、地名アドレステキストに正常に出現しない文字であり、必要に応じて選択することができる。そして、アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとする。しかし、シールド記号の文字は他の文字に影響を与えてしまい、あまり多くの文字をシールドすると、意味特徴抽出時にシールド記号の作用は、他の内容の注意計算の偏差を生じさせるが、文ごとのテキストが１文字しかシールドしないと、モデル訓練に必要なステップ数が急激に増加してしまい、ひどく時間的な無駄が生じる。したがって、シールド記号の具体的な数は、実際の状況にに応じて調整および最適化する必要がある。
操作を容易にし、かつ算出時の無駄なオーバヘッドを回避するために、訓練時に言語モデルターゲットタスクモジュールは、意味特徴抽出モジュールが出力するすべての情報を算出するのではなく、条件付き確率算出が必要な文字位置でのニューロン出力のみを抽出する。したがって、地名アドレス言語モデルの訓練過程では、これら３種類のシールド記号によって置き換えられた文字（依然としてシールド記号である文字、およびシールド記号として置き換えられた後に他の文字によって置き換えられた文字を含む）に対してターゲットタスクモジュールを実行する。
理解を容易にするため、ここでは「浙江省杭州市上城区復興南街清怡花苑６棟３単元４０２室」というアドレステキストを例に、具体的な実現過程を説明する。
まず、入力文における１５%の文字をランダムにシールドし、「mask」という単語で表し、その単語が地名アドレステキストに正常に出現しないため、リアルな文字に干渉することがなく、クローズの「スペース」として理解してもよい。置き換え位置は下線で示す。次に例示する。
浙江mask杭州市上城区mask興南街清怡mask苑６棟３単元４０２室
浙mask省杭州市上城区望mask家園東苑１８棟３単mask６０１室
また、後続タスクの展開やモデルのロバスト性を考慮して、シールド文字のうち１０%のmaskをリアルな文字に置き換え、１０%のmaskの内容を誤り文字に置き換え、例えば、
８０％：浙江省杭州市上mask区復興南街清怡花苑６棟３単元４０２室
１０％：浙江省杭州市上城区復興南街清怡花苑６棟３単元４０２室
１０％：浙江省杭州市上清区復興南街清怡花苑６棟３単元４０２室
ALMの実際訓練過程では、すべての文字自己注意意味情報SAに対してターゲットタスクの確率統計算出を行わず、上記３種類の置き換えられた文字のみに対してターゲットタスク操作を実行する。

（２）構造モデル入力
モデル入力は辞書構造と入力データ構造に分けられる。
辞書は、モデルに係るすべての文字に対してルックアップ根拠を提供し、その構成は＜インデックス番号（key）＞から＜文字（value）＞までのキー値ペアのシーケンスであり、すべてのアドレスのテキストコンテンツをトラバースすることによって得られる。さらに、valueがそれぞれmaskとOOV（out of vocabulary）である２つのキー値ペアを再構築する必要があり、テキストにおけるスペースと辞書外の文字を表す。
本発明では、訓練データを構築するための基礎として、アドレステキストデータセットを予め収集する必要がある。訓練データは、元の地名アドレステキストが処理された後に訓練フレームワークによって認識可能な入力である。訓練データを構築する際には、文字を対応する辞書インデックス番号にそのまま変換し、文を整数ベクトルの形態で表現し、その形状を次のように表すことができる。

式中、batch_sizeは訓練のたびに小ロット勾配低下を実行するサンプルサイズを表し、sentence_sizeは文の長さ、embedding_sizeは単語埋め込みベクトルの長さである。文長の一致を保証するために、パディング（padding）法を用いて、まずデータのうち最大文長を求め、訓練サンプルを構築する文がその最大長より小さければ、後にインデックス番号０を補う。
また、シールドされた文字の位置情報、シールドされた文字の内容、およびすべての文字の順序についても、上記の方法でベクトルを構築し、あわせて訓練時の入力データとして入力する。

（３）損失関数の定義
ALM出力から、mask位置の文脈意味の予測文字の条件付き確率分布P （X |SA_i）を取得し、訓練目標は対応する文字辞書インデックス番号における条件付き確率を１に近づけ、すなわちP（x_i|SA_i）→1であり、この関数は単一のmaskのみに対して表現され、実際のモデル訓練過程における出力は行列形式であり、その形状はprob（batch_size,max_mask_size,voc_size）であるとともに、モデル訓練の入力にも対応する文におけるmaskに対応する正解情報true_ids（batch_size,max_mask_size）が含まれ、gatherスライス操作により、true_idsの値をprobのインデックスとしてコンテンツルックアップを行い、正解文字を予測する条件付き確率行列true_probを得る。

true_idsに０要素が含まれると、true_prob要素に対応する値も０に設定される。
true_probを対数確率に変換し、値区間を（－∞,０）に取る。

フレームワーク下の目的関数を訓練し、つまり、true_probのうちのすべての非ゼロ要素を加算して平均値を取り、結果ができるだけ０に近づくようにする。

true_probのうちのすべての非ゼロ要素を加算して平均値の負の数を取り、損失関数の定義を得る。

（４）ハイパーパラメータの決定
この実施例では、ハイパーパラメータは、訓練サンプルサイズbatch_size、学習率η、訓練ラウンド数epoch、辞書サイズvoc_size、最大文長max_sentence_size、最大シールド文字数max_mask_size、単語埋め込み長embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeなどを含む。データの内容、ボリューム、ハードウェアリソースに基づいて、モデル訓練時のハイパーパラメータの値を総合的に決定する必要がある。

（５）ニューラルネットワーク最適化器（Optimizer）の構築
ニューラルネットワーク最適化器は勾配低下方法と勾配更新操作の具体的な実現であり、モデル内部のニューラルネットワークパラメータ変数を更新して、最適値に近づけるか又は達するようにすることによって、損失関数の結果を最小にする。本実施例では、学習率減衰（learning rate decay）、グローバル勾配クリッピング（clip by global norm）、適応モーメント推定アルゴリズム（adaptive moment estimation、Adam）の３つの勾配更新最適化戦略を導入することができる。
Ｓ４３：上記の訓練フレームワークを構築したら、前記フレームワーク及び対応する訓練データに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにする。

（６）ALMモデル意味出力
モデルが訓練された後、すべての内部パラメータ変数はいずれも目的関数に対するフィッティングを実現しており、上記のALMの特徴抽出モジュールの構築から分かるように、特徴抽出モジュールの出力は文字ごとの意味特徴ベクトルであり、すなわち、本発明が取得しようとする地名アドレス意味特徴表現である。
訓練されたALMモデルにより、何れかのアドレスデータの各文字の意味ベクトルを得ることができる。その上で、文意味ベクトルは文全体の意味特徴の総合表現として、本発明ではそれを以下のように定義する。モデルパラメータ変数の調整に関する最適化タスクにおいて、アドレス文意味特徴は、アドレステキストにおけるすべての文字の意味ベクトルの和に対して平均値を取ったものである。アドレス文意味特徴は次式のように表すことができる。

式中、nはアドレステキストにおける文字の総数である。

人間の脳は、アドレステキストに対して空間的な特徴的な連想を持ち、すなわち、アドレスに関する問題に答える際に、そのアドレスが位置する領域に大まかな印象を与え、従来の自然言語の考え方とは本質的な相違を持っている。上記のALM意味特徴出力は、アドレステキストにおける文字意味関係をキャプチャしてベクトルの形態で出力することができるが、空間意味特徴をまだ融合していないので、人間の思考に合ったアドレス空間領域を目標とし、アドレス意味と空間に対する重み付きクラスタリング手法をさらに設計する必要がある。

本発明において、アドレス意味と空間の重み付けクラスタリングは、ステップＳ５により実現され、具体的な実現フローは以下の通りである。

Ｓ５１：アドレステキストの前記特徴抽出モジュールにおける最後の４層のセルフトランスフォーマーサブモジュールの出力SA^N、SA^N-1、SA^N-2、SA^N-3を取得して、SA^N、SA^N-1、SA^N-2、SA^N-3のそれぞれに対して平均値プーリング（average pooling）と最大値プーリング（max pooling）を行う。文全体に対して値を求め、仮に、文の長さをL、文字意味特徴の数をS、文字内容をL×Sの２次元配列でcharEmbed[L,S]を記憶する。

平均値プーリングは文に含まれるすべての文字情報を配慮しているが、最大値プーリングは文におけるキー文字及び顕著な表現を配慮し、以上の利点を両立するため、本発明は、この２種類のプーリング方法を融合して、平均値プーリングと最大値プーリングにより得られたアドレステキストの表現をそれぞれ加算し、最終的にワードベクトルと同じの文ベクトル表現を得る。

同時にALM構造には複数のself－Transformer Moduleが含まれ、各層の出力から求められた文ベクトルのいずれにも異なる側重方向の意味情報が含まれており、ALM構造に似たBERT言語モデルに関する研究により、そのencoder（BERT言語モデルにおける意味抽出モジュール）の出力は名前付き実体識別タスクにおいて以下のような表現を持つと発見された。最後の４層のベクトル結合＞最後の４層のベクトル加算＞その他であるが、本発明において、結合操作は、次元障害を引き起こす可能性がある。したがって、最後の４層self－Transformer Moduleのプーリング結果sentEmbedを加算する形態を採用して最終的なアドレステキストのベクトル表現を取得し、つまり本発明では最後の４層が出力する２種類のプーリング結果（計８つの結果）をすべて加算して、アドレステキストの最終的な意味特徴表現sentEmbed₀を得る。

Ｓ５２：アドレステキストごとの意味文ベクトルと空間を特徴情報として両者を融合する。
規格を一括するために、ユークリッド距離を、アドレス情報における意味と空間特徴との差異メトリック単位として採用する。全てのアドレステキストの意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出する。テキスト意味特徴の数をＳ、アドレスデータセットをＤとすると、次式のように表す。

両者の極差を除算すれば、そのオーダー間の比を近似的に求めることができ、両者の特徴の無次元化操作を実現し、かつアドレス情報のある特徴を際立たせるために、無次元された特徴ベクトルに対して重みの割り当て（ここでは

は重みを表す）を行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得することができる。

次の式に示すように、２種類の特徴ベクトルを直接に接合し、最終的に１つのＳ+２長の融合特徴ベクトルを形成する。

意味特徴と空間特徴の間の重み

は、最終的な融合ベクトルの適用効果を変化させる。総じて言えば、意味特徴と空間特徴には相互制約の関係がある。意味重みを大きく設定しすぎると、空間距離が遠いアドレス要素は依然として同じクラスを持ち、クラスタリングの空間離散をもたらし、さらに後続のGSAMモデルの空間精度を低下させるが、空間の重みが大きすぎると、アドレスの意味情報が失われてしまい、クラスタリングにシティ機能ブロックに対する区分能力を喪失させて、人間の認識に合致しない結果をもたらし、さらにGSAMモデルのアドレステキストに対する意味理解能力を低下させた。

Ｓ５３：K－Meansクラスタリングアルゴリズムにより、全てのアドレステキストの融合特徴ベクトルをクラスタリングして、意味－空間融合のクラスタリング結果を得る。本発明はクラスタリングの性能を向上させるために、Elkanの距離算出最適化アルゴリズムを採用し、該アルゴリズムはクラスタリング中心の間の距離を三角形の一辺とし、三角不等式によってクラスタリングの算出フローを簡略化して、不要な距離算出を削減する。同時に、K－MeansのバリアントMini－Batch K－Meansを使用して、クラスタリング速度を向上させている。Mini－Batch K－Meansは、小ロットデータサブセットをランダムに抽出することで算出時間を短縮し、従来のK－Meansと比較してすべての要素を算出してからクラスタリング中心を更新する必要があり、反復操作のたびに、サンプルサイズを指定した要素セットのみをランダムに選択し、さらにセット内の要素に基づいてクラスタリング中心を更新する。このほか、K－Meansの目的関数には局所極小点があるため、アルゴリズムは局所的最適解に陥りやすく、クラスタリングー結果をできるだけ大域的最適解に近づけるためには、クラスタリングー中心の初期化が重要となる。本発明は、Arthur and Vassilvitskii（２００７）が提案したK－Means＋＋クラスタリング中心初期化手段を用いて、クラスタリング結果の誤差改善を行う。このアルゴリズムの核心思想は、クラスタリング中心を初期化する際に、クラスタリング中心の間の距離をできるだけ遠くにすることである。

アドレステキストの意味と空間を融合したクラスタリング結果を得た後、各地名アドレステキストWiごとにクラスタリング結果ラベルBiを付与してアドレステキストと分類ラベルデータセットW {W₁,W₂,W₃,…}、B {B₁,B₂,B₃,…}をそれぞれ得て、その上で、新たなニューラルネットワーク構成ターゲットタスクを後から定義することができ、つまり各アドレステキストのクラスタリング結果を正しく予測し、WとBを実験データとして、転移学習モデルと訓練フレームワークの設計を行い、融合特徴抽出能力を持つアドレス意味－空間融合モデル（Geospatial－semantic Address Model、GSAM）を構築する。

以下に、ALMの意味－空間融合の実現を目指し、ニューラルネットワーク言語モデルの微調整理論から、ステップＳ６でGSAMモデルを構築するが、具体的な実行フローは以下のとおりである。

Ｓ６１：Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して（ALM構造を多重して）、両者を結合してエンコーダを構成する。移植過程において、ニューラルネットワークパラメータ変数はいずれも変化しない。

したがって、このGSAMモデルのエンコーダでは、単語埋め込みモジュールと特徴抽出モジュールはALMモデルと一致するのであり、その特徴抽出モジュールの各層のセルフトランスフォーマーサブモジュールはいずれも対応する意味特徴変数を出力することができる。しかし、従来のターゲットタスクモジュールについて、アドレステキスト分類の目標を達成できないため、次のステップでアドレステキスト分類器を再構築する必要がある。

Ｓ６２：ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築する。デコーダでの具体的な実行フローは、次のとおりである。

まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSA^Nを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とする。

そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、入力された意味特徴の数Sを保留し、出力された確率分布特徴の数は依然としてSであり、活性化関数にはtanhを用いる。この関数の出力勾配区間は（－１,１）であり、ReLUでは負の勾配をゼロにしてしまう欠点に比べて、ニューロンの活性状態をできるだけ保留することができ、収束効果はReLUほどではないものの、ここではターゲットタスクのネットワーク構成が簡単であり、かつその層がモデルの最終的な出力層に近いため、これを活性化関数とする方が効果的である。

次いで、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換する。そのうちニューロンの重み行列とオフセットは共に訓練パラメータ変数であり、ランダムな方式で初期化割り当てを行う。

最後に、確率スコア分布スコアをsoftmax関数に代入し、アドレステキストがクラスタリング毎に属する（クラスタリング種別はＳ５で得られる）予測確率分布P（B｜W）を得る。

上述のエンコーダ及びデコーダを利用して、アドレス意味－空間融合モデル（その構造を図４に示す）を構築し、そのターゲットタスクに合わせてアドレステキスト分類のモデル訓練フレームワークを作成することができる。具体的にはステップＳ７により実現され、具体的な実行フローは以下の通りである。

Ｓ７１：前記エンコーダ及びデコーダを接続してアドレス意味－空間融合モデルGSAMの完全な構成を得る。

Ｓ７２：アドレス意味－空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにする。

アドレス意味－空間融合モデルの訓練フレームワークは以下の通りである。
（１）モデル入力とハイパーパラメータ構造
訓練データ入力はアドレステキストデータセット及びそれに対応するクラスタリングラベルを含み、そのうちテキストデータセットは訓練時の入力に用いられ、クラスタリングラベルはモデル出力の確率分布において正しく対応すべきインデックス値を表し、モデルの良し悪しを評価する監督の根拠である。同時にアドレステキストにおける数字は空間的な位置に関係しているため、無視できず、テキストデータに出てくる数字を辞書に入れる必要があり、同時に移植したALMモデル例のニューラルネットワークパラメータもNUMに置き換えされていないモデルの訓練結果であるべきである。
訓練時に、ハイパーパラメータは上記のALMモデルに類似しており、訓練サンプルサイズbatch_size、学習率η、辞書サイズ、分類ラベル数num_labels、訓練ラウンド数epoch、テスト間隔ステップ数train_intervalを含み、また、最大文長max_sentence_size、単語埋め込み長（特徴数）embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeをさらに含み、これらのハイパーパラメータはいずれもALM訓練時のハイパーパラメータであり、ここでは移植されたパラメータ変数の位置するALMモデル例と厳密に一致する。

（２）予測分類確率を最大化する訓練手段を定義し、アドレステキストがモデルによって出力された後の正解ラベル確率をできるだけ大きくすることで、モデル内部のパラメータ変数を正解分類結果に向かってフィッティングさせていく。

（３）モデル訓練の損失関数を定義する。
各回訓練のアドレステキスト数はbatch_sizeであり、モデルの確率出力はprob（batch_size,num_labels）であり、サンプルのリアルなラベル系列B（batch_size）を組み合わせて、サンプルごとのリアルなラベル確率を得る。

確率の対数値を加算して平均値を取ることで、訓練フレームワークにおける目的関数表現を得ることができる。

確率の対数値を加算して平均の負の値を取ることで、訓練タスクの損失関数表現を得ることができる。

（４）モデル訓練フレームワークと入力された訓練データとを組み合わせてGSAMモデルに対して訓練を展開する。訓練済みのGSAMモデルを得ると、アドレステキストをこのモデルに入力し、意味－空間特徴の融合ベクトル表現を出力することができる。この出力された融合ベクトルには、意味特徴も含むし、空間特徴も含み、意味－空間の融合属性を持ち、このような融合ベクトルは広い応用シーンを持ち、各種類の地名アドレス空間の下流タスクを構築することができる。

以下、上記の方法に基づいて実施例１に適用し、その技術的効果を直感的に示す。

実施例１
本実施例では、杭州市上城区の２００百万件の地名アドレスデータでアドレステキストデータセットを構築して特徴ベクトル抽出を行う。その基本的なステップは上記のＳ１～Ｓ７で述べたとおりであるので、ここでは説明を省略し、以下、各ステップのいくつかの具体的な実現の詳細と効果について主に示す。

１、ステップＳ１～Ｓ７で述べた方法によって、TensorFlowディープ学習フレームワークを用いてALMとGSAMを構築するとともに、モデルのセーブポイントを設置し、ターゲットタスクモジュール以外のニューラルネットワークパラメータ変数を保存し、次の微調整タスクにおける移植を容易にする。モデルのハイパーパラメータは、hype－para.configプロファイルによって設定され、具体的な内容は次のとおりである。
１）訓練サンプルサイズbatch_size：６４；２）初期学習率η：０.００００５；３）訓練ラウンド数epoch：３；４）辞書サイズvoc_size：４５８７；５）最大文長max_sentence_size：５２；６）最大シールド文字数max_mask_size：７；７）単語埋め込み長embedding_size：７６８；８）意味特徴抽出モジュール数num_self_transformer_module：６から１２；９）自己注意ヘッド数attention_head_size：１２；１０）分類ラベル数num_labels：５００；１１）テスト間隔ステップ数train_interval：５００。

２、杭州市上城区地名アドレスのテキスト内容について、関連辞書を構築し、ALM訓練データの構築方法に基づいてランダムシールド結果を生成し、その１％、つまり２万件の内容をテストセットとし、残りを訓練セットとする。

３、杭州市上城区アドレスデータのALM例の訓練を展開し、５００ステップごとにモデル例を保存するとともに、検証セットに対して検証を一回行い、同時にTensorBoardプラグインを利用して訓練勾配曲線とテスト勾配曲線を描き、モデルにオーバーフィッティングまたはアンダーフィッティングがあるかどうかを判断し、最終的に検証正確さが最も高いセーブポイントをモデル生成結果として選び、そのうち特徴抽出モジュールのself－Transformerサブモジュールの出力はアドレステキストの意味特徴ベクトルである。意味特徴抽出モジュール数を変数として、それぞれ６、８、１０、１２に設定してモデル例の訓練を行い、対比指標は以下の表の通りである。

４種類のモデル例の最終検証の正確さはいずれも９０.５％の程度で、意味モジュール数の順に順次増加し、平均損失値と正確さは負の相関傾向を呈している。訓練モデルから得られた損失値を見ると、検証データセットの損失値との差が小さいことから、上記の４つのモデルにいずれもオーバーフィッティングおよびアンダーフィッティングがほとんど生じていないと判断できる。訓練時間の点では、モジュール数の増加に伴って訓練時間長さが増加するが、最も長い時間を消費するモデルであっても、実際の訓練にかかる負荷は依然として許容範囲内にある。また、意味抽出モジュールの増加は、アドレステキスト意味特徴に対するモデルの抽出能力を向上させ、各層のモジュールの意味出力をより線形にする。上記各指標の状況を纏めて、１２個の抽出モジュールがモデルに最適のターゲットタスク結果と意味特徴抽出効果をもたらすと判定する。

４、上記のクラスタリング方式により、アドレステキストの意味特徴文ベクトルと空間座標情報に対して融合クラスタリングを展開し、シティ機能ブロック分割を根拠にクラスタリング数を５００とし、意味特徴ベクトルと空間特徴ベクトルの重みを調整してクラスタリング実験や対比を行うことで、この実験室データは意味特徴ベクトル重み０.４と空間特徴ベクトル重み０.６の重みの割り当てモード（すなわち

は０.４である）で、クラスタリングの結果は図５の示すようになり、この結果が人間の認識に最も合致することが最終的に発見された。この時のアドレステキストのクラスタリング結果ラベルを記録して、アドレステキストに関連付ける。

５、３番目のステップで得られたセーブポイントのニューラルネットワークパラメータ変数をGSAMモデルに移植し、検証セットとテストセット（アドレス内容をシールドせず、テキストのすべての文字番号を含む整数ベクトルである）を構築し、データセットの内容には、アドレステキスト情報とクラスタリングラベル結果が含まれており、割合は依然として１％（１万件以上）と９９％を維持している。

６、予測分類確率の最大化を目指して、杭州市上城区アドレスデータのGSAMモデル例の訓練を展開し、５００ステップごとにモデル例を保存し、検証セットに対して検証を一回行い、訓練勾配曲線とテスト勾配曲線を描き、モデルにオーバーフィッティングまたはアンダーフィッティングがあるかどうかを判断し、最終的に検証用Ｆ１値が最も高いセーブポイントをモデル生成結果として選択する。ただし、特徴抽出モジュールのself－Transformerサブモジュールの出力は、アドレステキストの意味－空間融合特徴ベクトルである。訓練データセットの勾配曲線の変化から見ると、モデル例の損失値は２０ｋステップ前に比較的速い低下傾向を示し、その後、低下過程は緩やかになり、小幅な局部的な揺れが存在し、１００ｋステップ後まで徐々に穏やかになり、損失値は０.１８から０.０１の間で揺れを繰り返し、平滑化を経た後、ほぼ０.０８から０.０５の間であることから、GSAM例はこの時で訓練要求に達したと考えられる。検証セットと訓練セットの損失勾配曲線の状態はほぼ一致しており、依然として「急速な低下－緩やかな低下－穏やかな揺れ」の傾向表現である。しかし、安定後の損失値の点では、検証セットは０.１２９３から０.１２７１の間であり、テストセット曲線の中心とは一定の差があり、モデル例は訓練時にややなオーバーフィッティン現象があり、１００ｋ後にテストデータの評価指標曲線を総合的に考慮して、最適な訓練状態ポイントをモデルの生成例として選択する必要がある。検証指標の曲線変化は損失曲線の負の相関表現で、訓練の始めに急速な上昇傾向を示し、正確さ、マクロＦ１（Macro－F1）分類性能は２０ｋステップの時にそれぞれ０.９４５７、０.９３０８、０.９４５８に達し、その後、緩やかに上昇し始め、１００ｋから１２０ｋの間に至るまで、３つの指標区間はそれぞれ０.９６９６－０.９７１１、０.９５９３－０.９６１４、および０.９６９８－０.９７１１の間で安定しており、ここでは小幅な揺れを伴い、上述の３つの区間の範囲はすでに小さいため、この時にモデルは訓練要求に達し、その中から良いステップ長のポイントをモデルの生成例とすると考えられる。以上の状況を統合して、実験はモデル訓練効果を保証する範囲内で、モデル訓練セットと検証セットのオーバーフィッティングの差をできるだけ低減することを決定し、かつその範囲内の検証指標曲線がすでに安定しているため、モデルの効果に大きな影響を与えることはなく、最終に実験では１１５.５ｋ時のモデル例のセーブポイントをモデルの生成例GSAM_Formatとして選び、訓練セットとテストセットの損失値はそれぞれ０.１２８と０.１１７６であり、このときの検証正確さ、マクロＦ１値、マイクロＦ１値はそれぞれ０.９７０６、０.９６０７、０.９７１０である。GSAM_Formatによるターゲットタスクへの分類効果を見ると、検証セットの３つの指標はいずれも０.９６以上に達しており、このモデル例がクラスタリング結果のラベル認識をうまく実現できることを説明しているため、それは効率的で精確な分類能力を持つと考えられる。モデル構造上で分析を行い、その特徴抽出モジュールは訓練により、意味－空間を含む融合特徴を出力することができ、アドレス関連の下流プロジェクトをサポートできる。さらに、GSAMはアドレステキストにおける数字にクラスタリング粒度の空間特徴を与えることができ、その出力するアドレステキストは、意味－空間融合特徴の形態で表現することができる。これは、ALMやその他の自然言語モデルには備わっていないことである。

以下、別の実施例によって、当業者により良く理解されるように、本方法によって抽出された融合ベクトルに基づいて展開される下流タスクの実施形態を提供する。

実施例２
本実施例では、アドレステキストに言及されている場所名とそれに対応する空間座標との関連付けを実現し、両者の共同表現形態、すなわち「アドレステキスト内容に基づいて文書に言及された空間実体の座標を予測する」ことを構築することを目的とするアドレステキストの地理位置予測方法を提供する。

本実施例におけるアドレステキストの地理位置予測方法の具体的なフローは以下の通りである。

まず、３層の結合された全結合層及び１層の線形変換層を含むアドレス空間座標予測モデルを構築し、Ｓ１～Ｓ７に記載の方法に従って訓練してアドレス意味－空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SA^Nをプーリング層によってプーリングした後、３層の結合された全結合層及び１層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力する。モデル全体構成は図６に示すようである。

その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得る。

このモデルは、３つの全結合層をターゲットタスクモジュールの隠れ層として設置し、その結果を線形変換することで予測座標の２値出力を実現しており、このモジュールの入力はGSAMモデルにおける特徴抽出モジュールの出力となる。実現過程において、上記のＳ１～Ｓ７および実施例１で述べた方法に従って、GSAMモデル（GSAM_Format）を構築して訓練し、その後、そのうち特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SA^Nをプーリング層によってプーリングした後、３層の結合された全結合層に順次入力し、モデルがより多くの意味－空間の座標変換へ時の関連情報を保留することができるようにし、ReLUを活性化関数として使用して、訓練時の収束効果を保証するようにする。最終層のニューロン出力結果はすでに予測座標の特徴を持っているが、特徴数は空間座標の次元に合致していないため、線形変換層によって次元低下操作を実現する必要があり、出力結果はアドレステキストに記述された空間実体が位置する予測座標である。

このアドレス空間座標予測モデルは、訓練されてこそ、予測作業に用いることができる。なお、訓練時にはGSAMモデルにおけるエンコーダ部分変数パラメータ、すなわちタスクターゲットモジュールの前のニューラルネットワークパラメータFrozen While Trainingに対してフリーズを行う必要があることに注意し、逆伝播の実行時には上記パラメータ変数に対する勾配低下操作は行われない。

モデル入力とハイパーパラメータ構造は以下のとおりである。
訓練データ入力は、アドレステキストデータセットとそれに対応するリアルな座標情報を含み、そのうちテキストデータセットは、訓練時の入力に用いられ、リアルな座標情報は、モデル出力の予測座標を評価するために用いられ、モデル訓練時の勾配低下を指導する数値的根拠である。また、モデルにおける特徴抽出モジュールは訓練によって得られたGSAMモデル例から遷移されているため、GSAM例を取得して関連ニューラルネットワークパラメータ変数に値を与える必要があり、訓練時の辞書もそのモデル例と一致する。

訓練時のハイパーパラメータの定義と値の与えは以下の通りである。
（１）訓練サンプルサイズbatch_size：６４。
（２）学習率η：１×１０^－４（初期学習率）。
（３）辞書サイズ：アドレスの意味－空間融合モデル例で使用される辞書のサイズと一致し、ここで、辞書にはアドレステキストのすべての数値列挙が含まれているべきである。
（４）訓練ラウンド数epoch：５。
（５）テスト間隔ステップ数train_interval：５００。
（６）他のALM訓練の相関ハイパーパラメータ（max_sentence_size、embedding_size）は、GSAM例の設定値と一致する。
訓練手段の具体的な内容を定義する。アドレステキストがモデルによって出力された後の座標予測値をリアルな値にできるだけ近づけるようにすることで、ターゲットタスクモジュール内部のパラメータ変数を正しい結果に向かって融合させていく。
各回訓練のアドレステキスト数はbatch_sizeなので、訓練目標をそのサンプル距離誤差の平均値が０になるように定義することができ、モデルの出力はpred_coord（batch_size,2）であり、サンプルの空間座標系列true_coord（batch_size,2）を組み合わせて、訓練フレームワークにおける目的関数表現を得ることができ、ただし、dis（x）は空間距離測定算出関数を表す。

これにより、モデル訓練の損失関数が得られる。

本発明の効果を対比するために、本実施例は、GSAM_Formatに基づいて予測モデルを構築することに加えて、２つの対照モデル例を構築して訓練する。その一つのモデル構造は本実施例と一致するが、特徴抽出器の点では、ALM_Formatを用いてターゲットタスクモジュール外のニューラルネットワークパラメータ変数に値を与え、このとき、このモデル例の特徴表現はアドレステキスト意味情報のみを含む。もう一つはWord 2 Vec方法を用いてアドレステキストをベクトル表現し、そのターゲットタスクモジュールは下流タスクモデルと同じであり、３層の全結合ニューラルネットワークをも隠れ層とし、最後に線形変化を行って出力を得る。２組の対照モデルは訓練時に同様にターゲットタスクモジュールにおけるニューラルネットワークパラメータのみに対して勾配更新操作を実行する。隠れ層の次元サイズは、変数であり、７６８／７６８／７６８、１０２４／１０２４／１０２４、２０４８／２０４８／２０４８、および４０９６／４０９６／４０９６の順に設定されて下流タスクモデルおよび対照モデル例の訓練を実施する。
訓練モデルに対して収束後の最適な効果のステップ長のポイントをモデル最終例として保存し、そのときのモデル評価指標を以下の表にまとめる。

上記３つの指標及び曲線変化の分析から、GSAM_Formatに基づく予測モデルはサンプルアドレス情報に対して、全面的に見ても局部的に見ても、その空間座標の予測能力が他の２種類のモデルよりはるかに優れており、人間の脳の「アドレステキスト認識」から「空間領域感知」までのプロセスと類似するプロセスを効率的かつ正確に達成することができる。これはまた、本発明のGSAMモデルが意味－空間融合特徴の学習能力を確実に有し、その訓練例が意味－空間融合重みを含むことを側面から実証する。
前記の実施例は、本発明の好ましい形態に過ぎず、本発明を限定するものではない。当業者であれば、本発明の主旨及び範囲から逸脱することなく、様々な変更及び変形を行うことができる。したがって、同等の置換または等価の変換の形態で得られる技術案は、いずれも本発明の範囲内にある。

Claims

ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップＳ１と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の意味出力を統合した総意味出力を取得するステップＳ２と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップＳ３と、
Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュールおよびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップＳ４と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K－Meansクラスタリング方法によって意味－空間融合のクラスタリング結果を得るステップＳ５と、
Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、Ｓ５におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味－空間の融合重みを与えるための、デコーダを形成するステップＳ６と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味－空間融合モデルを構築すると共に、アドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップＳ７と、
を含むことを特徴とするディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ１において、単語埋め込みモジュールにおける具体的な実行フローは、
辞書－ベクトル変換行列Cを作成するステップＳ１１と、
入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップＳ１２と、
インデックスから各文字のone－hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップＳ１３と、
one－hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding₀を得るステップＳ１４と、
アドレステキストにおける各文字の位置positionを取得するステップＳ１５と、
位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
偶数次元の位置重み値は、次の式で表され、

奇数次元の位置重み値は、次の式で表され、

式中、d_modelは単語埋め込みembedding₀の次元を表し、iは算出されたi番目の次元を表すステップＳ１６と、
次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップＳ１７と、

を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ２において、特徴抽出モジュールにおける具体的な実行フローは、
Ｓ１で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップＳ２１と、
第１層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SA^Nが得られるまで層ごとに伝達するステップＳ２２と、
を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ３において、ターゲットタスクモジュールにおける具体的な実行フローは、
Ｓ２で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding=g(W×SA+b)であり、
式において、g（）はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップＳ３１と、
prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、

式中、重み行列C^Tは辞書－ベクトル変換行列Cの転置であり、b’は線形変換のオフセットを表すステップＳ３２と、
次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップＳ３３と、

を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ４の具体的な実現フローは、
Ｓ１における単語埋め込みモジュール、Ｓ２における特徴抽出モジュール、およびＳ３におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップＳ４１と、
地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップＳ４２と、
前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップＳ４３と、
を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ４２において、
前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら３種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの３つの勾配更新最適化戦略を用いる
ことを特徴とする請求項５に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ５の具体的な実現フローは、
アドレステキストの前記特徴抽出モジュールにおける最後の４層のセルフトランスフォーマーサブモジュールの出力SA^N、SA^N－1、SA^N－2、SA^N－3を取得して、SA^N、SA^N－1、SA^N－2、SA^N－3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed₀を取得するステップＳ５１と、
全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed₀と空間特徴ベクトルcoorEmbed₀に対して無次元化操作を行い、重みを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、

次の式に示すように、２種類の処理後の特徴ベクトルを直接に接合して、最終的に融合特徴ベクトルを形成するステップＳ５２と、

K－Meansクラスタリングアルゴリズムにより、Elkan距離算出最適化アルゴリズムとMini－Batch K－Means戦略とK－Means++クラスタリング中心初期プログラムとを組み合わせて、すべての融合特徴ベクトルをクラスタリングし、意味－空間融合のクラスタリング結果を得るステップＳ５３と、
を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップ６の具体的な実現フローは、
Ｓ４で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップＳ６１と、
ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSA^Nを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがＳ５で得られた各クラスタリングに属する予測確率分布を得るステップＳ６２と、
を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
前記ステップＳ７の具体的な実現フローは、
前記エンコーダ及びデコーダを接続してアドレス意味－空間融合モデルを得るステップＳ７１と、
アドレス意味－空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味－空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップＳ７２と、
を含むことを特徴とする請求項１に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
アドレステキストの地理位置予測方法であって、
まず、３層の結合された全結合層及び１層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項１～９のいずれか１項に記載の方法に従って訓練してアドレス意味－空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SA^Nをプーリング層によってプーリングした後、３層の結合された全結合層及び１層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと、
を含むことを特徴とするアドレステキストの地理位置予測方法。