JP7041281B2 - ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 - Google Patents
ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 Download PDFInfo
- Publication number
- JP7041281B2 JP7041281B2 JP2020556939A JP2020556939A JP7041281B2 JP 7041281 B2 JP7041281 B2 JP 7041281B2 JP 2020556939 A JP2020556939 A JP 2020556939A JP 2020556939 A JP2020556939 A JP 2020556939A JP 7041281 B2 JP7041281 B2 JP 7041281B2
- Authority
- JP
- Japan
- Prior art keywords
- address
- model
- training
- character
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 83
- 238000003062 neural network model Methods 0.000 title claims description 18
- 238000012549 training Methods 0.000 claims description 128
- 239000013598 vector Substances 0.000 claims description 114
- 230000004927 fusion Effects 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 58
- 238000013528 artificial neural network Methods 0.000 claims description 56
- 230000014509 gene expression Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 17
- 238000012795 verification Methods 0.000 description 12
- 238000010276 construction Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 102000042270 mask family Human genes 0.000 description 1
- 108091077616 mask family Proteins 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Description
ディープニューラルネットワークを代表とするディープ学習方法は、コンピュータ処理性能を十分に利用でき、非線形問題に対して非常に強いパラメータ算出とフィッティング能力を持つ。自然言語分野の研究では、ニューラルネットワーク言語モデルはディープニューラルネットワークをもとに、文字、単語、文言、さらには文章の意味特徴を高次元ベクトルの形態で表現することができる。しかし、地名アドレスは特異化された自然言語として、現在の言語モデルとうまく結合することができ、地名アドレスの文法規則と意義に合致する地名アドレス言語モデルを構築することはアドレステキストの意味特徴表現を実現する有効なルートである。
地名のアドレスはシティにわたってデータ量が大きく、空間分布が密であるなどの特徴があり、同時にアドレステキストの意味特徴ベクトルの次元が高い。改良されたK-Meansアルゴリズムは無監督クラスタリング方法であり、論理が簡単で、運行効率が高く、収束速度が速く、アルゴリズムの解釈可能性が強く、パラメータ調整の数が少なく、ビッグデータや高次元のクラスタリングに適するなどの特徴を持ち、結果がより人間の論理に合致し、アドレステキストの意味-空間融合のクラスタリングの応用に適するようにクラスタリング数が範囲内の機能領域の分布を参照して設定する。
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップS2と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデルを構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と、
を含むディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。
辞書-ベクトル変換行列Cを作成するステップS11と、
入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップS12と、
インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップS13と、
one-hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding0を得るステップS14と、
アドレステキストにおける各文字の位置positionを取得するステップS15と、
位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
偶数次元の位置重み値は、次の式で表され、
次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップS17と、
S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップS21と、
第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達するステップS22と、
を含む。
S2で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding = g(W×SA+b)であり、
式において、g()はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップS31と、
prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、
次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップS33と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップS41と、
地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、
前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップS43と、
を含む。
前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら3種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの3つの勾配更新最適化戦略を用いる。
アドレステキストの前記特徴抽出モジュールにおける最後の4層のセルフトランスフォーマーサブモジュールの出力SAN、SAN-1、SAN-2、SAN-3を取得して、SAN、SAN-1、SAN-2、SAN-3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed0を取得するステップS51と、
全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed0と空間特徴ベクトルcoorEmbed0に対して無次元化操作を行い、重みlを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、
を含む。
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップS61と、
ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSANを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがS5で得られた各クラスタリングに属する予測確率分布を得るステップS62と、
を含む。
前記エンコーダ及びデコーダを接続してアドレス意味-空間融合モデルを得るステップS71と、
アドレス意味-空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS72と、
を含む。
まず、3層の結合された全結合層及び1層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項1~9のいずれか1項に記載の方法に従って訓練してアドレス意味-空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層及び1層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと
を含む。
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の総合的な意味出力を取得するステップS2と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデル(ALM)を形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデル(GSAM)を構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と
を含む。
S11:辞書-ベクトル変換行列(Lookup Table)Cを作成する。
S12:入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得する。
S13:インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズである。
S16:位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得することであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなるため、各次元の重み値を算出した後にPWを組み合わせて形成する必要がある。奇数次元と偶数次元の算出式は異なり、それぞれは以下のとおりである。
偶数次元の位置重み値は、下式で表され、
S17:各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得る。
S21:S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマー(Self-Transformer)サブモジュールが直列に形成されたニューラルネットワークに入力する。各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とする。
S22:第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達する。
自己注意の本質は、人間がテキストを視覚的に観察する注意メカニズムに由来し、テキストにおける特定の文字を例に挙げると、人間がその意味を理解するには他の文字との相互のつながりを参照する必要があるので、自己注意メカニズムの具体的な実現思想は、文におけるすべての文字からそのワードへの影響に重みを与え、重みを文字自体の内容と組む合わせることで、そのワードの意味特徴を総合的に決定すると表してもよい。
アドレステキストの本質はアドレスを記述する文であり、文における各文字はそれぞれQuery(Q)、Key(K)、Value(V)の3つの特徴ベクトルを表し、それらの特徴ベクトルは文字の単語埋め込みベクトルXに3つの重み行列WQ、WK、WVを乗じて得られ、重み行列はニューラルネットワークの訓練によって得られる。文字lのattentionコンテンツの算出フローは、次のとおりである。
まず、ステップS1で単語埋め込みモジュールから入力された文のすべての文字単語埋め込みベクトルが得られ、算出により各文字のQ、K、Vベクトルq、k、vが得られる。
lとすべての文字のスコアを算出する。
上述のマルチヘッド自己注意方法を単一のニューラルネットワーク層にパッケージングし、マルチヘッド自己注意ニューラルネットワークフレームワーク層(MSA layer)といい、意味特徴抽出効果をより向上させるために、本発明は複数のMSAレイヤ(MSA layer)を用いて層毎に重ねる形でアドレス意味の抽出を行う。
出力される意味SAの実際的な意味は全文文字から各文字への影響であるため、その算出過程に意味抽出の誤差は避けられず、これだけで文字意味を表現すると、ネットワーク層数の増加に伴い、下位層の特徴が上位層に伝わると、情報が失われる場合が発生し、誤差もそれに応じて段階的に増加し、意味表現の縮退(degradation)が起こる。MSAレイヤ間の情報伝達の意味的縮退を回避するために、残差ネットワーク層ニューラルネットワーク構成を導入し、MSAレイヤの出力は残差ネットワーク-バッチ正規化層で残差と正規化算出をする必要がある。第l層のマルチヘッド自己注意層の出力を例にすると、コア思想は次式で表される。
同時に出力結果は自己注意ヘッド算出によるベクトル接合結果であるため、データ空間が無秩序になるという問題があるので、この結果を1つのフィードフォワードネットワーク層(全結合ニューラルネットワーク)を介して活性化関数ReLUの補完で非線形変換を行う必要があり、意味を順序的かつ意味的に出力するようにする。次いで、出力結果を残差ネットワーク-バッチ正規化層に再入力して、残差および正規化操作を一回行う。
したがって、本発明では、MSA layer-残差ネットワーク-バッチ正規化層-フィードフォワードネットワーク層-残差ネットワーク-バッチ正規化層は、セルフトランスフォーマーサブモジュール(self-Transformer Moudule)を合成している。最終的なニューラルネットワーク構成は、複数のself-Transformer Mouduleを順に重ね合わせたものであり、その全体構造は図2に示すようである。
ターゲットタスクモジュール(Target Module)は、意味特徴抽出モジュールの直後であり、本発明では、このモジュールの入力は、self-Transformer Moduleが重畳された出力であると理解することができる。この入力には、文における各文字の意味特徴情報が含まれることが知られている。
以上の条件により、本発明では、文脈に基づいて未知文字を予測するターゲットタスクを提出し、その具体的な内容は、
文におけるある文字が未知であり、他の文脈が既知であると想定する。
既知の文脈により、その未知文字の出現確率を予測し、以下の条件付き確率表現として書く。
S31:S2における特徴抽出モジュールの出力をフィードフォワードネットワーク層(Feed Forward)の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、その後Lookup Tableに基づいて文字確率を算出する準備を行う。非線形変換式は、下式で表され、
S32:全結合層を構築して、prob_embeddingを線形変換して、「修正語埋め込み」から確率分布スコアへの線形変換を達成してその確率分布スコアを取得する。
S33:確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得る。
上記3つのモジュールの構築が完了したら、地名アドレス言語モデル(Address Language Model、ALM)の構築と訓練を行うことができる。本発明において、ステップS4の具体的な実現フローは、
図3に示すように、S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルALMの完全な構成を形成するステップS41と、
地名アドレス言語モデル訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、を含む。ニューラルネットワークの訓練フレームワークは実際のニーズに応じて調整可能であり、従来技術にも多くの実現可能形態が存在し、理解を容易にするために、本発明ではその具体的な実現形態を例示的に展開する。
ランダムシールド戦略に基づく自然言語訓練手段は、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表現するように設計されている。シールド記号とは、地名アドレステキストに正常に出現しない文字であり、必要に応じて選択することができる。そして、アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとする。しかし、シールド記号の文字は他の文字に影響を与えてしまい、あまり多くの文字をシールドすると、意味特徴抽出時にシールド記号の作用は、他の内容の注意計算の偏差を生じさせるが、文ごとのテキストが1文字しかシールドしないと、モデル訓練に必要なステップ数が急激に増加してしまい、ひどく時間的な無駄が生じる。したがって、シールド記号の具体的な数は、実際の状況にに応じて調整および最適化する必要がある。
操作を容易にし、かつ算出時の無駄なオーバヘッドを回避するために、訓練時に言語モデルターゲットタスクモジュールは、意味特徴抽出モジュールが出力するすべての情報を算出するのではなく、条件付き確率算出が必要な文字位置でのニューロン出力のみを抽出する。したがって、地名アドレス言語モデルの訓練過程では、これら3種類のシールド記号によって置き換えられた文字(依然としてシールド記号である文字、およびシールド記号として置き換えられた後に他の文字によって置き換えられた文字を含む)に対してターゲットタスクモジュールを実行する。
理解を容易にするため、ここでは「浙江省杭州市上城区復興南街清怡花苑6棟3単元402室」というアドレステキストを例に、具体的な実現過程を説明する。
まず、入力文における15%の文字をランダムにシールドし、「mask」という単語で表し、その単語が地名アドレステキストに正常に出現しないため、リアルな文字に干渉することがなく、クローズの「スペース」として理解してもよい。置き換え位置は下線で示す。次に例示する。
浙江mask杭州市上城区mask興南街清怡mask苑6棟3単元402室
浙mask省杭州市上城区望mask家園東苑18棟3単mask601室
また、後続タスクの展開やモデルのロバスト性を考慮して、シールド文字のうち10%のmaskをリアルな文字に置き換え、10%のmaskの内容を誤り文字に置き換え、例えば、
80%:浙江省杭州市上mask区復興南街清怡花苑6棟3単元402室
10%:浙江省杭州市上城区復興南街清怡花苑6棟3単元402室
10%:浙江省杭州市上清区復興南街清怡花苑6棟3単元402室
ALMの実際訓練過程では、すべての文字自己注意意味情報SAに対してターゲットタスクの確率統計算出を行わず、上記3種類の置き換えられた文字のみに対してターゲットタスク操作を実行する。
モデル入力は辞書構造と入力データ構造に分けられる。
辞書は、モデルに係るすべての文字に対してルックアップ根拠を提供し、その構成は<インデックス番号(key)>から<文字(value)>までのキー値ペアのシーケンスであり、すべてのアドレスのテキストコンテンツをトラバースすることによって得られる。さらに、valueがそれぞれmaskとOOV(out of vocabulary)である2つのキー値ペアを再構築する必要があり、テキストにおけるスペースと辞書外の文字を表す。
本発明では、訓練データを構築するための基礎として、アドレステキストデータセットを予め収集する必要がある。訓練データは、元の地名アドレステキストが処理された後に訓練フレームワークによって認識可能な入力である。訓練データを構築する際には、文字を対応する辞書インデックス番号にそのまま変換し、文を整数ベクトルの形態で表現し、その形状を次のように表すことができる。
また、シールドされた文字の位置情報、シールドされた文字の内容、およびすべての文字の順序についても、上記の方法でベクトルを構築し、あわせて訓練時の入力データとして入力する。
ALM出力から、mask位置の文脈意味の予測文字の条件付き確率分布P (X |SAi )を取得し、訓練目標は対応する文字辞書インデックス番号における条件付き確率を1に近づけ、すなわちP(xi|SAi )→1であり、この関数は単一のmaskのみに対して表現され、実際のモデル訓練過程における出力は行列形式であり、その形状はprob(batch_size,max_mask_size,voc_size)であるとともに、モデル訓練の入力にも対応する文におけるmaskに対応する正解情報true_ids(batch_size,max_mask_size)が含まれ、gatherスライス操作により、true_idsの値をprobのインデックスとしてコンテンツルックアップを行い、正解文字を予測する条件付き確率行列true_probを得る。
true_probを対数確率に変換し、値区間を(-∞,0)に取る。
true_probのうちのすべての非ゼロ要素を加算して平均値の負の数を取り、損失関数の定義を得る。
この実施例では、ハイパーパラメータは、訓練サンプルサイズbatch_size、学習率η、訓練ラウンド数epoch、辞書サイズvoc_size、最大文長max_sentence_size、最大シールド文字数max_mask_size、単語埋め込み長embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeなどを含む。データの内容、ボリューム、ハードウェアリソースに基づいて、モデル訓練時のハイパーパラメータの値を総合的に決定する必要がある。
ニューラルネットワーク最適化器は勾配低下方法と勾配更新操作の具体的な実現であり、モデル内部のニューラルネットワークパラメータ変数を更新して、最適値に近づけるか又は達するようにすることによって、損失関数の結果を最小にする。本実施例では、学習率減衰(learning rate decay)、グローバル勾配クリッピング(clip by global norm)、適応モーメント推定アルゴリズム(adaptive moment estimation、Adam)の3つの勾配更新最適化戦略を導入することができる。
S43:上記の訓練フレームワークを構築したら、前記フレームワーク及び対応する訓練データに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにする。
モデルが訓練された後、すべての内部パラメータ変数はいずれも目的関数に対するフィッティングを実現しており、上記のALMの特徴抽出モジュールの構築から分かるように、特徴抽出モジュールの出力は文字ごとの意味特徴ベクトルであり、すなわち、本発明が取得しようとする地名アドレス意味特徴表現である。
訓練されたALMモデルにより、何れかのアドレスデータの各文字の意味ベクトルを得ることができる。その上で、文意味ベクトルは文全体の意味特徴の総合表現として、本発明ではそれを以下のように定義する。モデルパラメータ変数の調整に関する最適化タスクにおいて、アドレス文意味特徴は、アドレステキストにおけるすべての文字の意味ベクトルの和に対して平均値を取ったものである。アドレス文意味特徴は次式のように表すことができる。
規格を一括するために、ユークリッド距離を、アドレス情報における意味と空間特徴との差異メトリック単位として採用する。全てのアドレステキストの意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出する。テキスト意味特徴の数をS、アドレスデータセットをDとすると、次式のように表す。
は重みを表す)を行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得することができる。
次の式に示すように、2種類の特徴ベクトルを直接に接合し、最終的に1つのS+2長の融合特徴ベクトルを形成する。
は、最終的な融合ベクトルの適用効果を変化させる。総じて言えば、意味特徴と空間特徴には相互制約の関係がある。意味重みを大きく設定しすぎると、空間距離が遠いアドレス要素は依然として同じクラスを持ち、クラスタリングの空間離散をもたらし、さらに後続のGSAMモデルの空間精度を低下させるが、空間の重みが大きすぎると、アドレスの意味情報が失われてしまい、クラスタリングにシティ機能ブロックに対する区分能力を喪失させて、人間の認識に合致しない結果をもたらし、さらにGSAMモデルのアドレステキストに対する意味理解能力を低下させた。
(1)モデル入力とハイパーパラメータ構造
訓練データ入力はアドレステキストデータセット及びそれに対応するクラスタリングラベルを含み、そのうちテキストデータセットは訓練時の入力に用いられ、クラスタリングラベルはモデル出力の確率分布において正しく対応すべきインデックス値を表し、モデルの良し悪しを評価する監督の根拠である。同時にアドレステキストにおける数字は空間的な位置に関係しているため、無視できず、テキストデータに出てくる数字を辞書に入れる必要があり、同時に移植したALMモデル例のニューラルネットワークパラメータもNUMに置き換えされていないモデルの訓練結果であるべきである。
訓練時に、ハイパーパラメータは上記のALMモデルに類似しており、訓練サンプルサイズbatch_size、学習率η、辞書サイズ、分類ラベル数num_labels、訓練ラウンド数epoch、テスト間隔ステップ数train_intervalを含み、また、最大文長max_sentence_size、単語埋め込み長(特徴数)embedding_size、意味特徴抽出モジュール数num_self_transformer_module、自己注意ヘッド数attention_head_sizeをさらに含み、これらのハイパーパラメータはいずれもALM訓練時のハイパーパラメータであり、ここでは移植されたパラメータ変数の位置するALMモデル例と厳密に一致する。
各回訓練のアドレステキスト数はbatch_sizeであり、モデルの確率出力はprob(batch_size,num_labels)であり、サンプルのリアルなラベル系列B(batch_size)を組み合わせて、サンプルごとのリアルなラベル確率を得る。
本実施例では、杭州市上城区の200百万件の地名アドレスデータでアドレステキストデータセットを構築して特徴ベクトル抽出を行う。その基本的なステップは上記のS1~S7で述べたとおりであるので、ここでは説明を省略し、以下、各ステップのいくつかの具体的な実現の詳細と効果について主に示す。
1)訓練サンプルサイズbatch_size:64;2)初期学習率η:0.00005;3)訓練ラウンド数epoch:3;4)辞書サイズvoc_size:4587;5)最大文長max_sentence_size:52;6)最大シールド文字数max_mask_size:7;7)単語埋め込み長embedding_size:768;8)意味特徴抽出モジュール数num_self_transformer_module:6から12;9)自己注意ヘッド数attention_head_size:12;10)分類ラベル数num_labels:500;11)テスト間隔ステップ数train_interval:500。
は0.4である)で、クラスタリングの結果は図5の示すようになり、この結果が人間の認識に最も合致することが最終的に発見された。この時のアドレステキストのクラスタリング結果ラベルを記録して、アドレステキストに関連付ける。
本実施例では、アドレステキストに言及されている場所名とそれに対応する空間座標との関連付けを実現し、両者の共同表現形態、すなわち「アドレステキスト内容に基づいて文書に言及された空間実体の座標を予測する」ことを構築することを目的とするアドレステキストの地理位置予測方法を提供する。
訓練データ入力は、アドレステキストデータセットとそれに対応するリアルな座標情報を含み、そのうちテキストデータセットは、訓練時の入力に用いられ、リアルな座標情報は、モデル出力の予測座標を評価するために用いられ、モデル訓練時の勾配低下を指導する数値的根拠である。また、モデルにおける特徴抽出モジュールは訓練によって得られたGSAMモデル例から遷移されているため、GSAM例を取得して関連ニューラルネットワークパラメータ変数に値を与える必要があり、訓練時の辞書もそのモデル例と一致する。
(1)訓練サンプルサイズbatch_size:64。
(2)学習率η:1×10-4(初期学習率)。
(3)辞書サイズ:アドレスの意味-空間融合モデル例で使用される辞書のサイズと一致し、ここで、辞書にはアドレステキストのすべての数値列挙が含まれているべきである。
(4)訓練ラウンド数epoch:5。
(5)テスト間隔ステップ数train_interval:500。
(6)他のALM訓練の相関ハイパーパラメータ(max_sentence_size、embedding_size)は、GSAM例の設定値と一致する。
訓練手段の具体的な内容を定義する。アドレステキストがモデルによって出力された後の座標予測値をリアルな値にできるだけ近づけるようにすることで、ターゲットタスクモジュール内部のパラメータ変数を正しい結果に向かって融合させていく。
各回訓練のアドレステキスト数はbatch_sizeなので、訓練目標をそのサンプル距離誤差の平均値が0になるように定義することができ、モデルの出力はpred_coord(batch_size,2)であり、サンプルの空間座標系列true_coord(batch_size,2)を組み合わせて、訓練フレームワークにおける目的関数表現を得ることができ、ただし、dis(x)は空間距離測定算出関数を表す。
訓練モデルに対して収束後の最適な効果のステップ長のポイントをモデル最終例として保存し、そのときのモデル評価指標を以下の表にまとめる。
前記の実施例は、本発明の好ましい形態に過ぎず、本発明を限定するものではない。当業者であれば、本発明の主旨及び範囲から逸脱することなく、様々な変更及び変形を行うことができる。したがって、同等の置換または等価の変換の形態で得られる技術案は、いずれも本発明の範囲内にある。
Claims (10)
- ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法であって、
位置符号化アルゴリズムと内蔵行列変数により、入力されたアドレステキストにおけるアドレス文字のそれぞれをユニークな値のベクトルの形態で表現することによって、テキストからコードへのアドレス情報の変換を実現するための、位置順序で重み付けされた単語埋め込みモジュールを構築するステップS1と、
文字コードの特徴抽出モジュールを構築し、マルチヘッド自己注意メカニズムの意味抽出方法によって、異なる意味空間における文字要素の意味出力を統合した総意味出力を取得するステップS2と、
文脈に基づいて未知文字を予測するターゲットタスクモジュールを構築し、アドレス文字と文脈表現とのマッピング関係を満たす条件で、訓練タスクに必要な予測文字の条件確率分布を出力するステップS3と、
S1における単語埋め込みモジュール、S2における特徴抽出モジュールおよびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成すると共に、ランダムシールド戦略に基づく自然言語訓練手段を採用して地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字が得られた意味特徴ベクトルを出力できるようにするステップS4と、
アドレステキストにおけるすべての文字の意味特徴ベクトルを統合して、アドレス意味特徴のプーリング方法によって文ベクトルを取得するとともに、空間位置情報に合わせて高次元の重み付けを行い、K-Meansクラスタリング方法によって意味-空間融合のクラスタリング結果を得るステップS5と、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、エンコーダを構成し、ニューラルネットワーク微調整理論に基づいてターゲットタスクモジュールを再構成して、S5におけるクラスタリング結果をアドレステキストラベルとしてエンコーダにおけるニューラルネットワークパラメータ変数に意味-空間の融合重みを与えるための、デコーダを形成するステップS6と、
前記エンコーダ及びデコーダを組み合わせてアドレス意味-空間融合モデルを構築すると共に、アドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS7と、
を含むことを特徴とするディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップS1において、単語埋め込みモジュールにおける具体的な実行フローは、
辞書-ベクトル変換行列Cを作成するステップS11と、
入力されたアドレステキストにおけるアドレス文字のそれぞれが辞書に位置するインデックスchar_indexを取得するステップS12と、
インデックスから各文字のone-hotベクトルを取得し、ベクトルの長さは辞書サイズであるステップS13と、
one-hotベクトルにLookup Tableを乗算して、各文字の単語埋め込み値embedding0を得るステップS14と、
アドレステキストにおける各文字の位置positionを取得するステップS15と、
位置符号化アルゴリズムにより、各文字の位置重みベクトルを取得するものであって、各文字の位置重みベクトルPWは、全ての次元の位置重み値からなり、
偶数次元の位置重み値は、次の式で表され、
次の式に示すように、各文字の位置重みベクトルと単語埋め込み値とを加算して、各文字が位置順序で重みづけされた文字ベクトル化表現内容を得るステップS17と、
- 前記ステップS2において、特徴抽出モジュールにおける具体的な実行フローは、
S1で単語埋め込みモジュールから出力された文字ベクトル化表現内容を多層のセルフトランスフォーマーサブモジュールが直列に形成されたニューラルネットワークに入力し、各層のセルフトランスフォーマーサブモジュールにおいて、入力データはまず自己注意ニューラルネットワークに代入され、その出力が残差と正規化の算出を経た後、さらにフィードフォワードネットワーク層に代入され、さらに残差と正規化の算出を経た後、当該セルフトランスフォーマーサブモジュールの出力とするステップS21と、
第1層のセルフトランスフォーマーサブモジュールを除くセルフトランスフォーマーサブモジュールにおいて、前の層のセルフトランスフォーマーサブモジュールの出力を次の層のセルフトランスフォーマーサブモジュールの入力とし、最終層のセルフトランスフォーマーサブモジュールの出力SANが得られるまで層ごとに伝達するステップS22と、
を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップS3において、ターゲットタスクモジュールにおける具体的な実行フローは、
S2で特徴抽出モジュールの出力をフィードフォワードネットワーク層の入力とし、非線形変換によりそれを各文字が文脈影響された「修正語埋め込み」情報prob_embeddingに変換し、非線形変換式はprob_embedding=g(W×SA+b)であり、
式において、g()はReLu関数を表し、Wは重み行列を表し、bは線形オフセットを表すステップS31と、
prob_embeddingを線形変換して、その確率分布スコアを取得するステップであって、
次の式に示すように、確率分布スコアlogitsをsoftmax活性化関数に代入し、最終的に各文字が辞書中の各ワードである条件付き確率分布を得るステップS33と、
- 前記ステップS4の具体的な実現フローは、
S1における単語埋め込みモジュール、S2における特徴抽出モジュール、およびS3におけるターゲットタスクモジュールを順次接続して、地名アドレス言語モデルを形成するステップS41と、
地名アドレス言語モデルの訓練フレームワークを構築し、訓練フレームワークにおいて、まずランダムシールド戦略に基づく自然言語訓練手段を定義し、その後、辞書および訓練データのモデル入力を構築し、損失関数をさらに定義し、ニューラルネットワーク最適化器を構成することによりモデルパラメータ変数を最適化するステップS42と、
前記訓練フレームワークに基づいて地名アドレス言語モデルを訓練することによって、モデルがアドレステキストにおける各文字の意味特徴ベクトル表現を出力できるようにするステップS43と、
を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップS42において、
前記のランダムシールド戦略に基づく自然言語訓練手段は、具体的に、入力されたアドレステキスト文における一部の文字をランダムにシールドし、シールド記号で表し、その後アドレステキスト文における一部のシールド記号をリアルな文字に置き換え、さらにアドレステキスト文における一部のシールド記号を誤り文字に置き換え、残りのシールド記号はそのままとし、地名アドレス言語モデルの訓練過程で、これら3種類のシールド記号に置き換えられた文字のみに対してターゲットタスクモジュールを実行し、
前記ニューラルネットワーク最適化器には学習率減衰、グローバル勾配クリッピング及び適応モーメント推定アルゴリズムの3つの勾配更新最適化戦略を用いる
ことを特徴とする請求項5に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップS5の具体的な実現フローは、
アドレステキストの前記特徴抽出モジュールにおける最後の4層のセルフトランスフォーマーサブモジュールの出力SAN、SAN-1、SAN-2、SAN-3を取得して、SAN、SAN-1、SAN-2、SAN-3のそれぞれに対して平均値プーリングと最大値プーリングを行い、その後プーリング結果を全て加算してアドレステキストの最終的な意味特徴表現sentEmbed0を取得するステップS51と、
全てのアドレステキストの、意味特徴ベクトル空間におけるユークリッド距離の極差sent_rangeと空間特徴ベクトル空間におけるユークリッド距離の極差coor_rangeをそれぞれ算出し、
次の式に示すように、各アドレステキストの意味特徴ベクトルsentEmbed0と空間特徴ベクトルcoorEmbed0に対して無次元化操作を行い、重みを設置することによって無次元化された特徴ベクトルに対して重みの割り当てを行い、処理後の意味特徴ベクトルsentEmbedと空間特徴ベクトルcoorEmbedを取得し、
を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップ6の具体的な実現フローは、
S4で訓練済みの地名アドレス言語モデルにおける単語埋め込みモジュールと特徴抽出モジュールを移植して、両者を接続してエンコーダを構成するステップS61と、
ニューラルネットワークを介して前記エンコーダの出力に対して確率分布を生成するために、アドレステキストを分類するためのターゲットタスクモジュールを、デコーダとして再構築し、デコーダにおいて、まず、前記エンコーダにおける特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジューに対してSANを出力して平均値プーリングし、プーリング結果をアドレス文意味特徴とし、そして、フィードフォワードネットワーク層によりアドレス文意味特徴に対して非線形変換を行い、意味特徴を分類問題の確率分布特徴に変換し、活性化関数にはtanhを用い、最後に、得られた確率分布特徴を全結合層によってアドレステキストの確率スコア分布に変換し、softmax関数によりアドレステキストがS5で得られた各クラスタリングに属する予測確率分布を得るステップS62と、
を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - 前記ステップS7の具体的な実現フローは、
前記エンコーダ及びデコーダを接続してアドレス意味-空間融合モデルを得るステップS71と、
アドレス意味-空間融合モデルの訓練フレームワークを構築し、この訓練フレームワークに基づいてアドレス意味-空間融合モデルに対して訓練を行うことによって、モデルがアドレステキストに対して意味と空間特徴の融合ベクトル表現を出力できるようにするステップS72と、
を含むことを特徴とする請求項1に記載のディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法。 - アドレステキストの地理位置予測方法であって、
まず、3層の結合された全結合層及び1層の線形変換層を含むアドレス空間座標予測モデルを構築し、請求項1~9のいずれか1項に記載の方法に従って訓練してアドレス意味-空間融合モデルを得るとともに、そのうちの特徴抽出モジュールの最終層のセルフトランスフォーマーサブモジュールの出力SANをプーリング層によってプーリングした後、3層の結合された全結合層及び1層の線形変換層に順次入力し、アドレステキストに記述された空間実体が位置する予測座標を出力するステップと、
その後、予測対象とする地理位置のアドレステキストを訓練されたアドレス空間座標予測モデルに入力し、当該アドレステキストに記述された空間実体が位置する予測座標を得るステップと、
を含むことを特徴とするアドレステキストの地理位置予測方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910600447 | 2019-07-04 | ||
CN201910600447.5 | 2019-07-04 | ||
PCT/CN2019/097375 WO2021000362A1 (zh) | 2019-07-04 | 2019-07-23 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021532432A JP2021532432A (ja) | 2021-11-25 |
JP7041281B2 true JP7041281B2 (ja) | 2022-03-23 |
Family
ID=68255063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020556939A Active JP7041281B2 (ja) | 2019-07-04 | 2019-07-23 | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11941522B2 (ja) |
JP (1) | JP7041281B2 (ja) |
CN (1) | CN110377686B (ja) |
WO (1) | WO2021000362A1 (ja) |
Families Citing this family (223)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048933B2 (en) * | 2019-07-31 | 2021-06-29 | Intuit Inc. | Generating structured representations of forms using machine learning |
CN112800737B (zh) * | 2019-10-29 | 2024-06-18 | 京东科技控股股份有限公司 | 自然语言文本生成方法和装置以及对话系统 |
CN110837733B (zh) * | 2019-10-31 | 2023-12-29 | 创新工场(广州)人工智能研究有限公司 | 自重建方式的语言模型训练方法、系统及电子设备 |
CN110874392B (zh) * | 2019-11-20 | 2023-10-24 | 中山大学 | 基于深度双向注意力机制的文本网络信息融合嵌入方法 |
CN110929017B (zh) * | 2019-11-25 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本的推荐方法及装置 |
CN112949284B (zh) * | 2019-12-11 | 2022-11-04 | 上海大学 | 一种基于Transformer模型的文本语义相似度预测方法 |
CN111104802B (zh) * | 2019-12-11 | 2023-03-28 | 中国平安财产保险股份有限公司 | 一种地址信息文本的提取方法及相关设备 |
CN111177289A (zh) * | 2019-12-12 | 2020-05-19 | 山东省国土测绘院 | 众源网络数据空间相关信息提取校验方法与系统 |
CN111178074B (zh) * | 2019-12-12 | 2023-08-25 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111178046A (zh) * | 2019-12-16 | 2020-05-19 | 山东众阳健康科技集团有限公司 | 一种基于排序的字向量训练方法 |
CN111222320B (zh) * | 2019-12-17 | 2020-10-20 | 共道网络科技有限公司 | 一种字符预测模型训练方法及装置 |
CN111178041B (zh) * | 2019-12-31 | 2023-04-07 | 北京妙笔智能科技有限公司 | 一种智能的文本复述系统和方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111553363B (zh) * | 2020-04-20 | 2023-08-04 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111666292B (zh) | 2020-04-24 | 2023-05-26 | 百度在线网络技术(北京)有限公司 | 用于检索地理位置的相似度模型建立方法和装置 |
CN111666461B (zh) * | 2020-04-24 | 2023-05-26 | 百度在线网络技术(北京)有限公司 | 检索地理位置的方法、装置、设备和计算机存储介质 |
EP4150875A4 (en) * | 2020-05-11 | 2024-01-17 | PayPal, Inc. | DETERMINING GEOGRAPHICAL COORDINATES USING MACHINE LEARNING TECHNIQUES |
US11928429B2 (en) * | 2020-05-22 | 2024-03-12 | Microsoft Technology Licensing, Llc | Token packing for sequence models |
CN111737995B (zh) * | 2020-05-29 | 2024-04-05 | 北京百度网讯科技有限公司 | 基于多种词向量训练语言模型的方法、装置、设备及介质 |
US11393233B2 (en) * | 2020-06-02 | 2022-07-19 | Google Llc | System for information extraction from form-like documents |
CN111680169A (zh) * | 2020-06-03 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种基于bert模型技术的电力科技成果数据抽取方法 |
CN111711629A (zh) * | 2020-06-16 | 2020-09-25 | 荆门汇易佳信息科技有限公司 | 背景知识引导的特征化定位隐私防泄露方法 |
US11782685B2 (en) * | 2020-06-17 | 2023-10-10 | Bank Of America Corporation | Software code vectorization converter |
CN111814448B (zh) * | 2020-07-03 | 2024-01-16 | 思必驰科技股份有限公司 | 预训练语言模型量化方法和装置 |
CN111753802B (zh) * | 2020-07-06 | 2024-06-21 | 北京猿力未来科技有限公司 | 识别方法及装置 |
CN111814468B (zh) * | 2020-07-09 | 2021-02-26 | 前海企保科技(深圳)有限公司 | 一种自适应架构语义分布文本理解方法及系统 |
US11893507B1 (en) * | 2020-07-24 | 2024-02-06 | Amperity, Inc. | Predicting customer lifetime value with unified customer data |
CN111737419B (zh) * | 2020-07-31 | 2020-12-04 | 支付宝(杭州)信息技术有限公司 | 机器阅读理解中的数值推理方法和装置 |
CN112133304B (zh) * | 2020-09-18 | 2022-05-06 | 中科极限元(杭州)智能科技股份有限公司 | 基于前馈神经网络的低延时语音识别模型及训练方法 |
CN112288806B (zh) * | 2020-09-28 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 物体空间关系的识别方法、装置和训练方法、装置 |
CN112257413B (zh) * | 2020-10-30 | 2022-05-17 | 深圳壹账通智能科技有限公司 | 地址参数处理方法及相关设备 |
CN112329470B (zh) * | 2020-11-09 | 2024-05-28 | 北京中科闻歌科技股份有限公司 | 一种基于端到端模型训练的智能地址识别方法及装置 |
US11995111B2 (en) * | 2020-11-13 | 2024-05-28 | Tencent America LLC | Efficient and compact text matching system for sentence pairs |
CN112328844B (zh) * | 2020-11-18 | 2024-07-02 | 恩亿科(北京)数据科技有限公司 | 一种处理多类型数据的方法及系统 |
CN114531696A (zh) * | 2020-11-23 | 2022-05-24 | 维沃移动通信有限公司 | Ai网络部分输入缺失的处理方法和设备 |
CN113342970B (zh) * | 2020-11-24 | 2023-01-03 | 中电万维信息技术有限责任公司 | 一种多标签复杂文本分类方法 |
CN112651227A (zh) * | 2020-11-24 | 2021-04-13 | 中国科学院信息工程研究所 | 一种基于向量空间下语言建模的IPv6目标生成方法和装置 |
CN112488200A (zh) * | 2020-11-30 | 2021-03-12 | 上海寻梦信息技术有限公司 | 物流地址特征提取方法、系统、设备及存储介质 |
CN112528643A (zh) * | 2020-12-14 | 2021-03-19 | 上海栖盟科技有限公司 | 一种基于神经网络的文本信息提取方法及装置 |
CN112527938A (zh) * | 2020-12-17 | 2021-03-19 | 安徽迪科数金科技有限公司 | 基于自然语言理解的中文poi匹配方法 |
CN112612940A (zh) * | 2020-12-23 | 2021-04-06 | 深圳壹账通智能科技有限公司 | 地址信息解析方法、装置、设备及存储介质 |
CN112633003B (zh) * | 2020-12-30 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种地址识别方法、装置、计算机设备及存储介质 |
CN112766359B (zh) * | 2021-01-14 | 2023-07-25 | 北京工商大学 | 一种面向食品安全舆情的字词双维度微博谣言识别方法 |
CN112861648B (zh) * | 2021-01-19 | 2023-09-26 | 平安科技(深圳)有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112765339B (zh) * | 2021-01-21 | 2022-10-04 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112818118B (zh) * | 2021-01-22 | 2024-05-21 | 大连民族大学 | 基于反向翻译的中文幽默分类模型的构建方法 |
CN112860992B (zh) * | 2021-01-25 | 2023-03-24 | 西安博达软件股份有限公司 | 基于网站内容数据推荐的特征优化预训练方法 |
CN112836496B (zh) * | 2021-01-25 | 2024-02-13 | 之江实验室 | 一种基于bert和前馈神经网络的文本纠错方法 |
CN112818666B (zh) * | 2021-01-29 | 2024-07-02 | 上海寻梦信息技术有限公司 | 地址识别方法、装置、电子设备和存储介质 |
CN112784831B (zh) * | 2021-02-02 | 2022-06-28 | 电子科技大学 | 融合多层特征增强注意力机制的文字识别方法 |
CN112507628B (zh) * | 2021-02-03 | 2021-07-02 | 北京淇瑀信息科技有限公司 | 基于深度双向语言模型的风险预测方法、装置和电子设备 |
CN112818086A (zh) * | 2021-02-04 | 2021-05-18 | 上海畅圣计算机科技有限公司 | 一种机器人催收获取客户意向标签的多标签分类方法 |
CN113011580B (zh) * | 2021-02-10 | 2022-12-27 | 华为技术有限公司 | 一种嵌入表征的处理方法以及相关设备 |
CN112884513B (zh) * | 2021-02-19 | 2024-07-02 | 上海数鸣人工智能科技有限公司 | 基于深度因子分解机的营销活动预测模型结构和预测方法 |
CN112949318B (zh) * | 2021-03-03 | 2022-03-25 | 电子科技大学 | 基于文本和用户表示学习的文本立场检测方法 |
CN113076741A (zh) * | 2021-03-09 | 2021-07-06 | 山西三友和智慧信息技术股份有限公司 | 一种基于多语言文本数据分析方法 |
CN112836146B (zh) * | 2021-03-09 | 2024-05-14 | 威创集团股份有限公司 | 一种基于网络消息的地理空间坐标信息获取方法及装置 |
CN113011126B (zh) * | 2021-03-11 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN112884354B (zh) * | 2021-03-15 | 2023-07-11 | 北京工商大学 | 一种字词双维度的化妆品安全监管领域事件信息抽取方法 |
CN112989790B (zh) * | 2021-03-17 | 2023-02-28 | 中国科学院深圳先进技术研究院 | 基于深度学习的文献表征方法及装置、设备、存储介质 |
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN113064995A (zh) * | 2021-03-31 | 2021-07-02 | 上海金融期货信息技术有限公司 | 一种基于图深度学习的文本多标签分类方法和系统 |
US20220327489A1 (en) * | 2021-04-08 | 2022-10-13 | Nec Laboratories America, Inc. | Hierarchical word embedding system |
CN113434667B (zh) * | 2021-04-20 | 2024-01-23 | 国网浙江省电力有限公司杭州供电公司 | 基于配网自动化终端文本分类模型的文本分类方法 |
CN113139054B (zh) * | 2021-04-21 | 2023-11-24 | 南通大学 | 一种基于Transformer的代码编程语言分类方法 |
CN113011443B (zh) * | 2021-04-23 | 2022-06-03 | 电子科技大学 | 一种基于关键点的目标检测的特征融合方法 |
CN113128600B (zh) * | 2021-04-23 | 2024-02-23 | 湖北珞珈环创科技有限公司 | 一种结构化深度非完整多视角聚类方法 |
CN113076750B (zh) * | 2021-04-26 | 2022-12-16 | 华南理工大学 | 一种基于新词发现的跨领域中文分词系统及方法 |
CN113132410B (zh) * | 2021-04-29 | 2023-12-08 | 深圳信息职业技术学院 | 一种用于检测钓鱼网址的方法 |
CN113343638B (zh) * | 2021-05-10 | 2023-10-13 | 武汉大学 | 面向精细化内容重组的服务内容多重语义自动编码方法 |
CN113221568B (zh) * | 2021-05-10 | 2022-05-17 | 天津大学 | 一种基于神经网络的改进分层序列标注联合关系抽取方法 |
CN113190655B (zh) * | 2021-05-10 | 2023-08-11 | 南京大学 | 一种基于语义依赖的空间关系抽取方法及装置 |
CN113590814A (zh) * | 2021-05-13 | 2021-11-02 | 上海大学 | 一种融合文本解释特征的文本分类方法 |
CN112990388B (zh) * | 2021-05-17 | 2021-08-24 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113345574B (zh) * | 2021-05-26 | 2022-03-22 | 复旦大学 | 基于bert语言模型与cnn模型的中医胃痛养生方案获取装置 |
CN113157927B (zh) * | 2021-05-27 | 2023-10-31 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN113221546B (zh) * | 2021-06-09 | 2024-06-21 | 中国银行股份有限公司 | 手机银行资讯数据处理方法及装置 |
CN113256145B (zh) * | 2021-06-09 | 2021-09-21 | 深圳万顺叫车云信息技术有限公司 | 安全中心中台系统 |
CN113313197B (zh) * | 2021-06-17 | 2022-06-10 | 哈尔滨工业大学 | 一种全连接神经网络训练方法 |
CN113420571A (zh) * | 2021-06-22 | 2021-09-21 | 康键信息技术(深圳)有限公司 | 基于深度学习的文本翻译方法、装置、设备及存储介质 |
CN113536804B (zh) * | 2021-06-29 | 2022-05-03 | 北京理工大学 | 一种基于关键词强化的GRU和Kronecker的自然语言特征提取方法 |
CN113420689B (zh) * | 2021-06-30 | 2024-03-22 | 平安科技(深圳)有限公司 | 基于概率校准的文字识别方法、装置、计算机设备及介质 |
CN113378574B (zh) * | 2021-06-30 | 2023-10-24 | 武汉大学 | 一种基于kgann的命名实体识别方法 |
CN113255346B (zh) * | 2021-07-01 | 2021-09-14 | 湖南工商大学 | 一种基于图嵌入与crf知识融入的地址要素识别方法 |
CN113569558B (zh) * | 2021-07-06 | 2023-09-26 | 上海交通大学 | 一种实体关系抽取方法及系统 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113537345B (zh) * | 2021-07-15 | 2023-01-24 | 中国南方电网有限责任公司 | 一种通信网设备数据关联的方法及系统 |
CN113536798B (zh) * | 2021-07-16 | 2024-05-31 | 北京易道博识科技有限公司 | 一种多实例文档关键信息抽取方法和系统 |
CN113538475B (zh) * | 2021-07-19 | 2022-03-25 | 中国科学院自动化研究所 | 基于多任务算法的实时多器械分割方法和系统 |
CN113609304B (zh) * | 2021-07-20 | 2023-05-23 | 广州大学 | 一种实体匹配方法和装置 |
CN113672726A (zh) * | 2021-07-20 | 2021-11-19 | 贵州电网有限责任公司 | 一种基于重采样的多轮对话分类方法 |
CN113743118B (zh) * | 2021-07-22 | 2024-06-21 | 武汉工程大学 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
CN113297410A (zh) * | 2021-07-26 | 2021-08-24 | 广东众聚人工智能科技有限公司 | 一种图像检索方法、装置、计算机设备及存储介质 |
CN113591971B (zh) * | 2021-07-28 | 2024-05-07 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
CN113568845B (zh) * | 2021-07-29 | 2023-07-25 | 北京大学 | 一种基于强化学习的内存地址映射方法 |
CN113591459B (zh) * | 2021-08-10 | 2023-09-15 | 平安银行股份有限公司 | 地址标准化处理方法、装置、电子设备及可读存储介质 |
CN113392191B (zh) * | 2021-08-18 | 2022-01-21 | 中关村科学城城市大脑股份有限公司 | 一种基于多维度语义联合学习的文本匹配方法和装置 |
CN113656607A (zh) * | 2021-08-19 | 2021-11-16 | 郑州轻工业大学 | 一种文本挖掘装置及储存介质 |
CN113823292B (zh) * | 2021-08-19 | 2023-07-21 | 华南理工大学 | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 |
CN113626603B (zh) * | 2021-08-19 | 2024-03-29 | 支付宝(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN113807102B (zh) * | 2021-08-20 | 2022-11-01 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113673219B (zh) * | 2021-08-20 | 2022-06-07 | 合肥中科类脑智能技术有限公司 | 一种停电计划文本解析方法 |
CN113657324B (zh) * | 2021-08-24 | 2024-06-21 | 速度科技股份有限公司 | 基于遥感影像地物分类的城市功能区识别方法 |
CN113723072A (zh) * | 2021-08-25 | 2021-11-30 | 北京来也网络科技有限公司 | Rpa结合ai的模型融合结果获取方法、装置及电子设备 |
CN113592037B (zh) * | 2021-08-26 | 2023-11-24 | 吉奥时空信息技术股份有限公司 | 一种基于自然语言推断的地址匹配方法 |
CN113723278B (zh) * | 2021-08-27 | 2023-11-03 | 上海云从汇临人工智能科技有限公司 | 表格信息提取模型的训练方法及装置 |
CN113849598B (zh) * | 2021-08-31 | 2024-08-02 | 艾迪恩(山东)科技有限公司 | 基于深度学习的社交媒体虚假信息检测方法及检测系统 |
CN113837240A (zh) * | 2021-09-03 | 2021-12-24 | 南京昆虫软件有限公司 | 一种针对教育部的分类系统和分类方法 |
CN113948066B (zh) * | 2021-09-06 | 2022-07-12 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113761131A (zh) * | 2021-09-07 | 2021-12-07 | 上海快确信息科技有限公司 | 一种将文本结构化为表格的深度学习模型装置 |
CN113505190B (zh) * | 2021-09-10 | 2021-12-17 | 南方电网数字电网研究院有限公司 | 地址信息修正方法、装置、计算机设备和存储介质 |
CN113869172A (zh) * | 2021-09-22 | 2021-12-31 | 武汉大学 | 大幅面遥感影像的深度学习框架模块设计与构建方法 |
CN113869052B (zh) * | 2021-09-26 | 2023-05-05 | 杭州中房信息科技有限公司 | 基于ai的房屋地址匹配方法、存储介质及设备 |
CN113836928B (zh) * | 2021-09-28 | 2024-02-27 | 平安科技(深圳)有限公司 | 文本实体生成方法、装置、设备及存储介质 |
CN113887642B (zh) * | 2021-10-11 | 2024-06-21 | 中国科学院信息工程研究所 | 一种基于开放世界的网络流量分类方法及系统 |
CN113886512A (zh) * | 2021-10-25 | 2022-01-04 | 北京顶象技术有限公司 | 地址要素解析方法、装置和电子设备 |
CN114037872B (zh) * | 2021-11-09 | 2024-09-17 | 安阳师范学院 | 一种基于图卷积网络的甲骨字分类方法 |
CN113760778B (zh) * | 2021-11-09 | 2022-02-08 | 浙江大学滨海产业技术研究院 | 一种基于词向量模型的微服务接口划分评价方法 |
CN114153971B (zh) * | 2021-11-09 | 2024-06-14 | 浙江大学 | 一种含错中文文本纠错识别分类设备 |
CN114528368B (zh) * | 2021-11-12 | 2023-08-25 | 南京师范大学 | 基于预训练语言模型与文本特征融合的空间关系抽取方法 |
US20230161976A1 (en) * | 2021-11-19 | 2023-05-25 | SafeGraph, Inc. | Machine Learning-Based Translation of Address Strings to Standardized Addresses |
CN114547963B (zh) * | 2021-11-26 | 2024-06-25 | 江苏科技大学 | 一种基于数据驱动的轮胎建模方法和介质 |
CN114169321B (zh) * | 2021-11-30 | 2024-09-06 | 西安交通大学 | 一种社交媒体内容可信度评估方法和系统 |
CN114153802B (zh) * | 2021-12-03 | 2024-09-06 | 西安交通大学 | 一种基于Bert和残差自注意力机制的政务文件主题分类方法 |
US11514370B1 (en) * | 2021-12-03 | 2022-11-29 | FriendliAI Inc. | Selective batching for inference system for transformer-based generation tasks |
CN114330360B (zh) * | 2021-12-03 | 2024-08-09 | 哈尔滨工业大学 | 一种针对特定目标的立场检测方法 |
US11442775B1 (en) | 2021-12-03 | 2022-09-13 | FriendliAI Inc. | Dynamic batching for inference system for transformer-based generation tasks |
CN114119979A (zh) * | 2021-12-06 | 2022-03-01 | 西安电子科技大学 | 基于分割掩码和自注意神经网络的细粒度图像分类方法 |
CN114048750B (zh) * | 2021-12-10 | 2024-06-28 | 广东工业大学 | 一种融合信息高级特征的命名实体识别方法 |
CN114398483A (zh) * | 2021-12-10 | 2022-04-26 | 北京航空航天大学 | 一种预包装食品分类方法 |
CN113920989B (zh) * | 2021-12-13 | 2022-04-01 | 中国科学院自动化研究所 | 一种语音识别与语音翻译端到端系统及设备 |
CN114035098A (zh) * | 2021-12-14 | 2022-02-11 | 北京航空航天大学 | 一种融合未来工况信息和历史状态信息的锂电池健康状态预测方法 |
CN114358014B (zh) * | 2021-12-23 | 2023-08-04 | 佳源科技股份有限公司 | 基于自然语言的工单智能诊断方法、装置、设备及介质 |
CN113971407B (zh) * | 2021-12-23 | 2022-03-18 | 深圳佑驾创新科技有限公司 | 语义特征提取方法及计算机可读存储介质 |
CN114493657A (zh) * | 2021-12-24 | 2022-05-13 | 上海数鸣人工智能科技有限公司 | 一种基于深度游走词向量图嵌入技术的预测方法 |
CN114003698B (zh) * | 2021-12-27 | 2022-04-01 | 成都晓多科技有限公司 | 一种文本检索方法、系统、设备及存储介质 |
CN114492463B (zh) * | 2021-12-30 | 2023-12-12 | 永中软件股份有限公司 | 一种基于对抗多任务学习的统一语义性中文文本润色方法 |
CN114266230A (zh) * | 2021-12-30 | 2022-04-01 | 安徽科大讯飞医疗信息技术有限公司 | 文本结构化处理方法、装置、存储介质及计算机设备 |
CN114329472B (zh) * | 2021-12-31 | 2023-05-19 | 淮阴工学院 | 基于双重嵌入与模型剪枝的bios恶意程序检测方法及装置 |
CN114049508B (zh) * | 2022-01-12 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114386334B (zh) * | 2022-01-19 | 2022-09-13 | 浙江大学 | 一种基于分布式水文径流模拟替代模型的径流滚动预报方法 |
CN114443845A (zh) * | 2022-01-20 | 2022-05-06 | 序跋网络科技(上海)有限公司 | 一种基于bert的多特征细粒度中文短文本情感分类方法 |
CN114510968B (zh) * | 2022-01-21 | 2022-09-16 | 石家庄铁道大学 | 一种基于Transformer的故障诊断方法 |
CN114496105B (zh) * | 2022-01-24 | 2024-08-23 | 武汉大学 | 一种基于多语义网络的单步逆合成方法及系统 |
CN114492412A (zh) * | 2022-02-10 | 2022-05-13 | 湖南大学 | 一种面向中文短文本的实体关系抽取方法 |
CN114582443B (zh) * | 2022-02-23 | 2023-08-18 | 西北大学 | 一种基于知识图谱的药物关系抽取方法 |
CN114580389B (zh) * | 2022-03-08 | 2024-08-20 | 安徽理工大学 | 一种融合部首信息的中文医疗领域因果关系抽取方法 |
CN114662586A (zh) * | 2022-03-18 | 2022-06-24 | 南京邮电大学 | 一种基于共注意的多模态融合机制检测虚假信息的方法 |
CN114757700A (zh) * | 2022-04-12 | 2022-07-15 | 北京京东尚科信息技术有限公司 | 物品销量预测模型训练方法、物品销量预测方法及装置 |
CN114925211B (zh) * | 2022-04-13 | 2024-08-06 | 东南大学 | 一种面向表格型数据的事实验证方法 |
CN114816909B (zh) * | 2022-04-13 | 2024-03-26 | 北京计算机技术及应用研究所 | 一种基于机器学习的实时日志检测预警方法及系统 |
CN114780725A (zh) * | 2022-04-14 | 2022-07-22 | 南京邮电大学 | 一种基于深度聚类的文本分类算法 |
CN114782791B (zh) * | 2022-04-14 | 2024-03-22 | 华南理工大学 | 基于transformer模型和类别关联的场景图生成方法 |
CN114897004B (zh) * | 2022-04-15 | 2023-05-02 | 成都理工大学 | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 |
US11615247B1 (en) * | 2022-04-24 | 2023-03-28 | Zhejiang Lab | Labeling method and apparatus for named entity recognition of legal instrument |
CN114580424B (zh) * | 2022-04-24 | 2022-08-05 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
CN114818698B (zh) * | 2022-04-28 | 2024-04-16 | 华中师范大学 | 一种自然语言文本和数学语言文本的混合词嵌入方法 |
CN114756682B (zh) * | 2022-04-28 | 2024-06-21 | 华中师范大学 | 一种数学文本的语义分类方法 |
CN114579688A (zh) * | 2022-04-29 | 2022-06-03 | 中国地质科学院地质力学研究所 | 一种基于gis的地质数据呈现方法及系统 |
CN117131867B (zh) * | 2022-05-17 | 2024-05-14 | 贝壳找房(北京)科技有限公司 | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
CN115114433B (zh) * | 2022-05-19 | 2024-04-02 | 腾讯科技(深圳)有限公司 | 语言模型的训练方法、装置、设备及存储介质 |
CN114926655B (zh) * | 2022-05-20 | 2023-09-26 | 北京百度网讯科技有限公司 | 地理与视觉跨模态预训练模型的训练方法、位置确定方法 |
CN114925324B (zh) * | 2022-05-25 | 2024-06-28 | 北京航空航天大学 | 基于scnbmf的智慧城市不完备数据的处理系统及方法 |
CN114661968B (zh) * | 2022-05-26 | 2022-11-22 | 卡奥斯工业智能研究院(青岛)有限公司 | 产品数据处理方法、装置及存储介质 |
CN114911909B (zh) * | 2022-06-08 | 2023-01-10 | 北京青萌数海科技有限公司 | 结合深度卷积网络和注意力机制的地址匹配方法以及装置 |
CN114896968A (zh) * | 2022-06-10 | 2022-08-12 | 南京信息工程大学 | 一种基于自然语言处理的地质表头归并方法及装置 |
WO2023244648A1 (en) * | 2022-06-14 | 2023-12-21 | The Regents Of The University Of California | Residual and attentional architectures for vector-symbols |
CN114791886B (zh) * | 2022-06-21 | 2022-09-23 | 纬创软件(武汉)有限公司 | 一种软件问题跟踪方法和系统 |
CN115081439B (zh) * | 2022-07-01 | 2024-02-27 | 淮阴工学院 | 一种基于多特征自适应增强的化学药品分类方法及系统 |
CN114841293B (zh) * | 2022-07-04 | 2022-10-25 | 国网信息通信产业集团有限公司 | 一种面向电力物联网的多模态数据融合分析方法与系统 |
CN115344693B (zh) * | 2022-07-11 | 2023-05-12 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
CN115242868A (zh) * | 2022-07-13 | 2022-10-25 | 郑州埃文计算机科技有限公司 | 一种基于图神经网络的街道级ip地址定位方法 |
CN115081428B (zh) * | 2022-07-22 | 2022-11-29 | 粤港澳大湾区数字经济研究院(福田) | 一种处理自然语言的方法、自然语言处理模型、设备 |
CN115277626B (zh) * | 2022-07-29 | 2023-07-25 | 平安科技(深圳)有限公司 | 地址信息转换方法、电子设备和计算机可读存储介质 |
CN115168856B (zh) * | 2022-07-29 | 2023-04-21 | 山东省计算中心(国家超级计算济南中心) | 二进制代码相似性检测方法及物联网固件漏洞检测方法 |
CN115065567B (zh) * | 2022-08-19 | 2022-11-11 | 北京金睛云华科技有限公司 | 用于dga域名研判推理机的插件化执行方法 |
CN115329766B (zh) * | 2022-08-23 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于动态词信息融合的命名实体识别方法 |
CN115099242B (zh) * | 2022-08-29 | 2022-11-15 | 江西电信信息产业有限公司 | 意图识别方法、系统、计算机及可读存储介质 |
CN115410158B (zh) * | 2022-09-13 | 2023-06-30 | 北京交通大学 | 一种基于监控摄像头的地标提取方法 |
CN115422477B (zh) * | 2022-09-16 | 2023-09-05 | 哈尔滨理工大学 | 一种轨迹近邻查询系统、方法、计算机及存储介质 |
CN115658886A (zh) * | 2022-09-20 | 2023-01-31 | 广东技术师范大学 | 基于语义文本的智能肝癌分期方法、系统及介质 |
CN115439921A (zh) * | 2022-09-22 | 2022-12-06 | 徐州华讯科技有限公司 | 一种基于眼动图推理的图像偏好预测方法 |
CN115545098B (zh) * | 2022-09-23 | 2023-09-08 | 青海师范大学 | 一种基于注意力机制的三通道图神经网络的节点分类方法 |
CN115470354B (zh) * | 2022-11-03 | 2023-08-22 | 杭州实在智能科技有限公司 | 基于多标签分类识别嵌套和重叠风险点的方法及系统 |
CN116704537B (zh) * | 2022-12-02 | 2023-11-03 | 大连理工大学 | 一种轻量的药典图片文字提取方法 |
CN115983274B (zh) * | 2022-12-20 | 2023-11-28 | 东南大学 | 一种基于两阶段标签校正的噪声事件抽取方法 |
CN116452241B (zh) * | 2023-04-17 | 2023-10-20 | 广西财经学院 | 一种基于多模态融合神经网络的用户流失概率计算方法 |
CN116431711B (zh) * | 2023-06-13 | 2024-03-15 | 北京长河数智科技有限责任公司 | 基于数据特征实现的数据智能采集方法及系统 |
CN116719936B (zh) * | 2023-06-15 | 2023-12-26 | 湖北大学 | 一种基于集成学习的网络不可靠信息早期检测方法 |
CN116611131B (zh) * | 2023-07-05 | 2023-12-26 | 大家智合(北京)网络科技股份有限公司 | 一种包装图形自动生成方法、装置、介质及设备 |
CN117271438B (zh) * | 2023-07-17 | 2024-07-30 | 乾元云硕科技(深圳)有限公司 | 用于大数据的智能存储系统及其方法 |
CN116610791B (zh) * | 2023-07-20 | 2023-09-29 | 中国人民解放军国防科技大学 | 针对结构化信息的基于语义分析的问答方法、系统及设备 |
CN116824305B (zh) * | 2023-08-09 | 2024-06-04 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及系统 |
CN116758562B (zh) * | 2023-08-22 | 2023-12-08 | 杭州实在智能科技有限公司 | 通用文本验证码识别方法及系统 |
CN116958825B (zh) * | 2023-08-28 | 2024-03-22 | 中国公路工程咨询集团有限公司 | 一种移动式遥感图像采集方法及公路维护监测方法 |
CN117113378B (zh) * | 2023-09-12 | 2024-08-13 | 腾云创威信息科技(威海)有限公司 | 基于权能的负载空间隔离方法及其系统 |
CN116910186B (zh) * | 2023-09-12 | 2023-11-21 | 南京信息工程大学 | 一种文本索引模型构建方法、索引方法、系统和终端 |
CN116913383B (zh) * | 2023-09-13 | 2023-11-28 | 鲁东大学 | 一种基于多模态的t细胞受体序列分类方法 |
CN116915746B (zh) * | 2023-09-14 | 2023-11-21 | 北京国旭网络科技有限公司 | 一种基于物联网的IPv6寻址方法 |
CN117033393B (zh) * | 2023-10-08 | 2023-12-12 | 四川酷赛科技有限公司 | 一种基于人工智能的信息存储管理系统 |
CN117033394B (zh) * | 2023-10-08 | 2023-12-08 | 卓世科技(海南)有限公司 | 一种大语言模型驱动的向量数据库构建方法及系统 |
CN117236323B (zh) * | 2023-10-09 | 2024-03-29 | 京闽数科(北京)有限公司 | 一种基于大数据的信息处理方法及系统 |
CN117454873B (zh) * | 2023-10-23 | 2024-04-23 | 广东外语外贸大学 | 一种基于知识增强神经网络模型的讽刺检测方法及系统 |
CN117474645A (zh) * | 2023-11-14 | 2024-01-30 | 深圳市伙伴行网络科技有限公司 | 一种智能楼宇招商管理系统 |
CN117478511B (zh) * | 2023-11-21 | 2024-09-03 | 国网江苏省电力有限公司南通供电分公司 | 一种继电保护业务管理系统及方法 |
CN117371299B (zh) * | 2023-12-08 | 2024-02-27 | 安徽大学 | 一种托卡马克新经典环向粘滞力矩的机器学习方法 |
CN117538910B (zh) * | 2023-12-20 | 2024-04-30 | 广东邦盛北斗科技股份公司 | 基于ai的北斗定位信号测试分析方法及系统 |
CN117457135B (zh) * | 2023-12-22 | 2024-04-09 | 四川互慧软件有限公司 | 一种地址数据治理方法和循环神经网络模型构建方法 |
CN117436460B (zh) * | 2023-12-22 | 2024-03-12 | 武汉大学 | 一种翻译质量评估方法、装置、设备及存储介质 |
CN117540009B (zh) * | 2024-01-09 | 2024-03-26 | 江西省科学院能源研究所 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
CN117556064B (zh) * | 2024-01-11 | 2024-03-26 | 北京邮电大学 | 基于大数据分析的信息分类存储方法与系统 |
CN117688611B (zh) * | 2024-01-30 | 2024-06-04 | 深圳昂楷科技有限公司 | 电子病历脱敏方法及系统、电子设备、存储介质 |
CN117743698B (zh) * | 2024-02-05 | 2024-05-24 | 青岛国实科技集团有限公司 | 基于ai大模型的网络恶意写手识别方法及系统 |
CN117729176B (zh) * | 2024-02-18 | 2024-04-26 | 闪捷信息科技有限公司 | 基于网络地址和响应体的应用程序接口聚合方法及装置 |
CN117763361B (zh) * | 2024-02-22 | 2024-04-30 | 泰山学院 | 一种基于人工智能的学生成绩预测方法及系统 |
CN117875268B (zh) * | 2024-03-13 | 2024-05-31 | 山东科技大学 | 一种基于分句编码的抽取式文本摘要生成方法 |
CN118036477B (zh) * | 2024-04-11 | 2024-06-25 | 中国石油大学(华东) | 一种基于时空图神经网络的井位及井控参数优化方法 |
CN118088954B (zh) * | 2024-04-23 | 2024-07-26 | 齐鲁工业大学(山东省科学院) | 一种油气管道泄露波识别与监测系统 |
CN118170836B (zh) * | 2024-05-14 | 2024-09-13 | 山东能源数智云科技有限公司 | 基于结构先验知识的档案知识抽取方法及装置 |
CN118247799B (zh) * | 2024-05-27 | 2024-09-06 | 厦门大学 | 利用文本到图像扩散模型实现短语级定位的方法 |
CN118244997B (zh) * | 2024-05-28 | 2024-08-30 | 山东云海国创云计算装备产业创新中心有限公司 | 一种固态硬盘数据处理方法、装置、电子设备及存储介质 |
CN118296570B (zh) * | 2024-06-06 | 2024-08-06 | 华设设计集团浙江工程设计有限公司 | 基于bim技术的路桥可视化施工运维系统及方法 |
CN118553382A (zh) * | 2024-07-29 | 2024-08-27 | 中国科学院自动化研究所 | 基于大语言模型的心理沙盘描述方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714081B (zh) * | 2012-09-29 | 2018-10-16 | 北京百度网讯科技有限公司 | 一种专有地名的识别方法和装置 |
TR201514432T1 (tr) * | 2013-06-21 | 2016-11-21 | Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi | Veri̇ni̇n i̇leri̇ beslemeli̇ si̇ni̇r aği mi̇mari̇si̇ kullanilarak yalanci-yi̇neleme i̇le i̇şlenmesi̇ i̇çi̇n yöntem |
US10621216B2 (en) * | 2017-02-28 | 2020-04-14 | International Business Machines Corporation | Generating a ranked list of best fitting place names |
CN107729311B (zh) * | 2017-08-28 | 2020-10-16 | 云南大学 | 一种融合文本语气的中文文本特征提取方法 |
CN108399421B (zh) * | 2018-01-31 | 2022-04-01 | 南京邮电大学 | 一种基于词嵌入的深度零样本分类方法 |
CN109145171B (zh) * | 2018-07-23 | 2020-09-08 | 广州市城市规划勘测设计研究院 | 一种多尺度地图数据更新方法 |
CN109492679A (zh) * | 2018-10-24 | 2019-03-19 | 杭州电子科技大学 | 基于注意力机制与联结时间分类损失的文字识别方法 |
CN109783817B (zh) * | 2019-01-15 | 2022-12-06 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109902646A (zh) * | 2019-03-08 | 2019-06-18 | 中南大学 | 一种基于长短时记忆网络的步态识别方法 |
-
2019
- 2019-07-23 WO PCT/CN2019/097375 patent/WO2021000362A1/zh active Application Filing
- 2019-07-23 JP JP2020556939A patent/JP7041281B2/ja active Active
- 2019-07-23 CN CN201910666632.4A patent/CN110377686B/zh active Active
-
2020
- 2020-09-28 US US17/033,988 patent/US11941522B2/en active Active
Non-Patent Citations (2)
Title |
---|
CAO, Pengfei ほか,Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism,[online],ACL,2018年,pp.182-192,[検索日 2021.12.02],インターネット:<URL:https://aclanthology.org/D18-1017> |
CHEN, Wenhu ほか,Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention,[online],arXiv,2019年05月30日,[検索日 2021.12.02],インターネット:<URL:https://arxiv.org/abs/1905.12866v1> |
Also Published As
Publication number | Publication date |
---|---|
CN110377686B (zh) | 2021-09-17 |
WO2021000362A1 (zh) | 2021-01-07 |
US11941522B2 (en) | 2024-03-26 |
JP2021532432A (ja) | 2021-11-25 |
US20210012199A1 (en) | 2021-01-14 |
CN110377686A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7041281B2 (ja) | ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
US10664744B2 (en) | End-to-end memory networks | |
CN111782961B (zh) | 一种面向机器阅读理解的答案推荐方法 | |
Bi et al. | Unrestricted multi-hop reasoning network for interpretable question answering over knowledge graph | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN115269847A (zh) | 基于知识增强句法异构图的方面级情感分类方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114564596A (zh) | 一种基于图注意力机制的跨语言知识图谱链接预测方法 | |
Zhang et al. | Learn to abstract via concept graph for weakly-supervised few-shot learning | |
CN114676687A (zh) | 基于增强语义句法信息的方面级情感分类方法 | |
Cao et al. | Relmkg: reasoning with pre-trained language models and knowledge graphs for complex question answering | |
KR20190109108A (ko) | 시계열 데이터의 변화를 예측하고 그 이유를 설명하는 인공지능 시스템 | |
CN115329088B (zh) | 图神经网络事件检测模型的鲁棒性分析方法 | |
CN115757804A (zh) | 一种基于多层路径感知的知识图谱外推方法及系统 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN118132674A (zh) | 一种基于大语言模型和高效参数微调的文本信息抽取方法 | |
CN111444316A (zh) | 一种面向知识图谱问答的复合问句解析方法 | |
CN111581365A (zh) | 一种谓词抽取方法 | |
CN115796029A (zh) | 基于显式及隐式特征解耦的nl2sql方法 | |
Wu et al. | Relation-dependent contrastive learning with cluster sampling for inductive relation prediction | |
KR20230093797A (ko) | 분류 모델에 기반하여 바꿔 쓰기 모델을 학습하는 방법, 바꿔 쓰기 모델을 이용한 텍스트 데이터의 증강 방법 및 이를 이용한 텍스트 처리 장치 | |
KR20170102737A (ko) | 공유된 개념벡터공간의 학습을 통한 자동번역 시스템 및 방법 | |
CN111767388A (zh) | 一种候选池生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7041281 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |