JP2023542146A - アドレスマッチングを行うための方法及び関連する電子装置 - Google Patents
アドレスマッチングを行うための方法及び関連する電子装置 Download PDFInfo
- Publication number
- JP2023542146A JP2023542146A JP2023517357A JP2023517357A JP2023542146A JP 2023542146 A JP2023542146 A JP 2023542146A JP 2023517357 A JP2023517357 A JP 2023517357A JP 2023517357 A JP2023517357 A JP 2023517357A JP 2023542146 A JP2023542146 A JP 2023542146A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- address
- elements
- obtaining
- weights
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 172
- 238000003058 natural language processing Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000007477 logistic regression Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
アドレスマッチングを行うための、電子装置によって行われる方法が開示されている。本方法は、第1のアドレスを示す第1のデータセットを取得することを含む。本方法は、第1のデータセットに基づいて、エンティティ抽出技法を用いて、第1のアドレスを示す1つ以上の第1の要素を決定することを含む。本方法は、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得することを含む。本方法は、第2のデータセットが、第2のアドレスを示す1つ以上の第2の要素を含むことを含む。本方法は、第1のデータセット及び第2のデータセットに自然言語処理(NLP)技法を適用して、1つ以上の類似度スコアを取得することを含む。本方法は、第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得することを含む。
Description
本開示は搬送及び運送貨物の分野に関する。本開示は、アドレスマッチングを行うための方法及び関連する電子装置に関する。
出荷サイクルでは、予約が確認されたら、出荷指示(SI)が顧客によって発行される。船荷証券(B/L)を作成するためにSIをさらに用いる場合がある。SIは、出荷詳細を含むキードキュメントと考えることができる。SIには、荷送人、荷受人、第一通知人、及びそれらの対応する郵便用アドレスに関する詳細を記載する当事者情報と言われるセクションが含まれている。前述したアドレスは顧客データベースにすでに存在している場合がある。SIのアドレスはデータベース内のアドレスによってマッピングされ得る。
しかし、すべてのアドレスがうまくマッピングできるわけではない。アドレスによっては、ばらつき(たとえば、テキストの配置の変化、タイポグラフィ、間違い、スペルミス及び/または省略されたアドレスなど)を伴い、識別することができない。このような間違ったアドレスを処理する時間は著しく、間違ったアドレスの一貫性のない処理につながり得る。手作業の処理では間違いが発生しがちであり、費用及び時間がかかる。
アドレスデータを処理する技術的なプロセスを支援することが求められている。ツールとして、アドレスマッチングを支援し、間違ったアドレスを処理する時間を減らす一方で、精度及び一貫性を維持及び/または改善するものが求められている。たとえば、開示した技術によって、自動識別、及び2つのソース間のアドレスのマッチングが可能になる。
したがって、電子装置及びアドレスマッチングを行うための方法として、存在する欠点を緩和するか、軽減するか、またはこれに対処し、また精度が向上して適用範囲及び一貫性が向上した自動化されたさらに時間効率の良いアドレス識別及びアドレスマッチングを提供するものが求められている。
たとえば、アドレスマッチングを行うための、電子装置によって行われる方法が開示される。本方法は、第1のアドレスを示す第1のデータセットを取得することを含む。本方法は、第1のデータセットに基づいて、エンティティ抽出技法を用いて、第1のアドレスを示す1つ以上の第1の要素を決定することを含む。本方法は、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得することを含む。本方法は、第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含むことを含む。本方法は、第1のデータセット及び第2のデータセットに自然言語処理(NLP)技法を適用して、1つ以上の類似度スコアを取得することを含む。本方法は、第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得することを含む。本方法は、重みのセットに基づいて、1つ以上の第1の要素のうちの少なくとも1つと1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを決定することを含む。本方法は、マッチングパラメータを出力することを任意選択で含む。
メモリ回路、プロセッサ回路、及びインターフェース回路を含む電子装置であって、電子装置は、本明細書で開示した方法のいずれかを実行するように構成されている、電子装置が開示される。
1つ以上のプログラムを記憶するコンピュータ可読記憶媒体であって、1つ以上のプログラムは、ディスプレイ及びタッチセンサ表面を伴う電子装置によって実行されると、電子装置に本明細書で開示した方法のいずれかを実行させる命令を含む、コンピュータ可読記憶媒体が開示される。
本開示の利点は、開示した電子装置及び方法によって、精度、適用範囲、及び一貫性が向上した自動化されたさらに時間効率の良いアドレス識別及びアドレスマッチングが提供されることである。結果として、開示した技術を用いれば、より速いアドレス補正が実現され得る。この結果、SI及びSIにおけるアドレス補正のより頑強な処理が得られる。
本開示により、1つ以上の実施形態において、アドレスに関連するデータが記憶され、取り出され、及び処理される技法であって、使用する記憶空間、アドレスマッチングの適用範囲及び精度、ならびにSIを処理するスピードを改善する技法が提供される。
本開示の前述及び他の特徴及び利点は、添付図面を参照しながら典型的な実施形態の以下の詳細な説明によって当業者には容易に明らかになる。
種々の典型的な実施形態及び詳細について、関連する場合に図を参照して、以下に説明する。図は一定の比率で描かれている場合もそうでない場合もあり、また図の全体にわたって類似の構造または機能の要素は同様の参照数字によって表されていることに注意されたい。また、図は実施形態の説明を容易にすることのみを意図していることにも注意されたい。それらは、本開示の範囲に対する限定としても本開示の網羅的な説明としても意図されてはいない。加えて、例示した実施形態は、図示したすべての態様または利点を有する必要はない。特定の実施形態ともに説明される態様または利点は、必ずしもその実施形態に限定されず、任意の他の実施形態で実行することができる(たとえそのように例示されていなくても、またはそのように明示的に説明されていなくても)。
図は、明瞭にするために概略的で簡略化されており、本開示の理解を助ける詳細を示すだけであり、一方で他の詳細は省略されている。全体にわたって、同一部分または対応する部分に対しては同じ参照数字を用いている。
図1A~1Bは、開示した技術が本開示による電子装置例によって行われるプロセスを概略的に例示する図である。
図1Aは、取得した第1のアドレス12を示す第1のデータセット14を示している。たとえば、第1のアドレス12を示す第1のデータセット14は出荷指示から取得され得る。第1のアドレス12は入力アドレスと考えてもよい。第1のデータセットのソース及び/または構造は出荷指示であってもよい。たとえば、第1のデータセットは、入力として出荷指示において顧客によって与えられるフリーテキストである顧客住所に基づいて取得してもよい。
第1のアドレスを示す第1のデータセットの例は、以下の形式であってもよい。A&Bカンパニー(XXXXXX)CO.LTD.部屋XXXXX6階プライム番号NO.1361北XXXXXX通りXXXXX地域XXXXX857578XXXXX連絡先:氏名XXXXX電話:XXXXXXXXX電子メール:XXXXX@XXX.COMXXXXXX税参照:XXXXXXXXXXXX
第1のアドレス12を示す1つ以上の第1の要素17、18、19、20を、第1のデータセット14に基づいて、エンティティ抽出技法16を用いて決定する。
第2のデータセット24を、1つ以上の第1の要素17、18、19、20のうちの少なくとも1つに基づいて、たとえば検索22を行うことによって取得する。第2のデータセット24は、第2のアドレスを示す1つ以上の第2の要素を含む。第2のデータセット24は、対応するデータベースマッチング(たとえば、第1のアドレスに対応するデータベースマッチング)を含むと考えてもよい。
言い換えれば、第1のアドレス(入力アドレスとして)は、エンティティ(たとえば、顧客商号、仲買人名義、都市、国、電話番号、電子メールID、及び税参照番号)として抽出され得る1つ以上の第1の要素を含む。エンティティは、NLP技法を用いて抽出され、第2のデータセットを生成するために顧客データベース内のマッチングアドレスを探すために用いられる。異なるエンティティが顧客データベース中で検索され、検索結果の第1のレベルとして、たとえば、50の最も近いマッチングアドレスが取り出されて、第2のアドレスとして第2のデータセットの一部を構成する。
自然言語処理(NLP)技法26を第1のデータセット14及び第2のデータセット24に適用して、1つ以上の類似度スコア28を取得する。第2のデータセットの取り出した第2のアドレスを、NLP技法(たとえば、近似文章マッチング技法)を用いて第1のアドレスと比較して、類似度スコアに達する。
類似度スコアを、たとえば、第1の要素と第2の要素との間の類似度を定量化するための第1の要素と第2の要素との間の類似度を示すパラメータと考えてもよい。類似度スコアを、たとえば、第2のデータセットの第2の要素に対応付けて、第2の要素が、対応する第1の要素とどのくらい似ているかを示す。たとえば、仲買人名義を示す類似度スコアは、仲買人名義に関連する第2の要素が、対応する仲買人名義に関連する第1の要素とどのくらい似ているかを示し得る。
たとえば、第1のアドレスにおける各単語に、NLPにおいて等しい重み付けを与えて、類似度スコアを伴う第2のデータセットに達する。しかし、一部の単語は、最終のマッチングアドレスを決定するときに、他の単語よりも重要性(たとえば、重み)を加えることが分かる。たとえば、顧客商号における単語は、都市または国名の場合よりも結果に大きく影響する。
開示した技術によって、第1のアドレスの第1の要素と第2のアドレスの対応する第2の要素との間の最終のマッチングとしてのマッチングパラメータを決定するときに、異なる単語に対する重みを変えることが提供される。重みのセットを予測分析技法によって取得して、結果を決定するときの第1のアドレスの異なる単語の影響を計算する。これは、たとえば、多くの第1のアドレス(たとえば、数1000の第1のアドレス)とそれらの対応する第2のアドレス(たとえば、対応するデータベースマッチング)とを分析することによって行ってもよい。
第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得して、動作30においてNLP技法において適用して、1つ以上の第1の要素のうちの少なくとも1つと1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータ32を決定する。言い換えれば、重みのセットは、重みの改善されたセット(たとえば、第1のアドレスに適応されたカスタマイズされた重みのセット)と考えられる。
図1Bに、本開示の態様による開示したプロセスを例示する一実施形態例を示す。図1Bにおいて、第1のアドレスを示す第1のデータセットを取得する。
第1のアドレスを示す1つ以上の第1の要素(たとえば、顧客商号、仲買人名義、電子メールID、電話番号)を第1のデータセットに基づいて、エンティティ抽出技法を用いて決定する。たとえば、第1のアドレス(たとえば、物理的なドキュメントから)を、PDF抽出または類似のツールを通してシステム内に供給する。第1のアドレスは、複数のエンティティ(たとえば、顧客商号、仲買人名義、電子メールID、電話番号、及び税参照)を含む。たとえば、第1のアドレスはフリーテキストであり、第1のアドレスは特定のフォーマットに従っておらず、多数の間違いまたは異常があり得る。エンティティを、カスタムアドレス構文解析アルゴリズムによって抽出する。
第2のデータセットを、1つ以上の第1の要素のうちの少なくとも1つに基づいて、たとえば検索22を行うことによって取得する。たとえば、システムの時間計算量を減らすために、類似度スコアを、存在する最もありそうなアドレス(第2のデータセットの一部)に対して計算してもよい。検索サービスを用いて、最もありそうなアドレスのセットを、第2のデータセットとして抽出することができる。検索サービスは、システム内に存在するすべてのアドレスを用いて作成してもよい。第1のアドレス構文解析から抽出したエンティティを、検索における基準として用いる。
自然言語処理(NLP)技法(たとえば、コサイン類似度)を、第1のデータセット及び第2のデータセットに適用して、第2のデータセットの対応する第2の要素に対応付けられる1つ以上の類似度スコアを取得する。検索サービスから返った第2のデータセットと第1のアドレスとを、NLP技法(たとえば、コサイン類似度アルゴリズム)に供給する。NLP技法は、第2のデータセットを構成する第2の要素に対応付けられる類似度スコア(たとえば、コサイン類似度スコア)を、第2のデータセットにおける各記録に対して計算する。
第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得して、カスタム機械学習及びNLP技法におけるNLP技法において適用して、たとえば、最終のマッチングしたアドレスを、任意選択で、変更された類似度スコアとともに決定する。たとえば、結果に対する第1のアドレスの異なる単語の影響因子を、ロジスティック回帰モデルを用いて履歴データを処理することによって計算して、重みのセットを生成する。
コサイン類似度は2つのドキュメント間の類似度を測定することに注意されたい。ドキュメントを、アドレスまたは文章または段落として規定することができる。初期設定のコサイン類似度アルゴリズムは、入力ドキュメント内のすべての単語に等しい重み付けを与えて最終のマッチングを決定する。しかし実際には、ドキュメント内の異なる単語は、結果を決定するときの影響が異なっている。本開示では、回帰分析を利用して入力における各トークンまたは単語に対するカスタム重みを考え出して、望ましい結果に達する。開示した技術によって、99%の精度(従来のコサイン類似度による95%と比べて)を伴う結果がもたらされ、マッチングしたアドレスの再現度が80%(70%と比べて)に高まる。
言い換えれば、通常の類似度スコアをNLP技法を用いて取得したら、次のステップは、取得した出力アドレスのセットに対するカスタム重みを用いて、精緻化された類似度スコアを取得することである。たとえば、トップアドレス(たとえば、最も高い精緻化された類似度スコアを伴うものが、最終出力と考えられる)。最終のマッチングしたアドレスに対して、精緻化された類似度スコアが0.5以上である場合には、最終出力はマッチングしていると考えられ、スコアが0.5よりも小さい場合には、マッチングアドレスは見つからなかったと明言する。
図2に、本開示によるアドレスマッチングを行うための、電子装置(たとえば、本明細書で開示した電子装置、たとえば、図3の電子装置300)によって行われる方法例100を例示するフロー図を示す。電子装置は、メモリ回路、プロセッサ回路、及びインターフェースを含む。開示した方法は、テキスト文字列とマッチングするための方法と考えてもよい。開示した技術は、任意のタイプのテキスト文字列(アドレスでないテキスト文字列を含む)に適用でき得る。
本方法100は、第1のアドレスを示す第1のデータセットを(たとえば、インターフェース、及び/またはプロセッサ回路を介して)取得することS102を含む。たとえば、第1のアドレスを示す第1のデータセットを出荷指示から取得してもよい。第1のアドレスは入力アドレスと考えてもよい。たとえば、第1のデータセットを出荷指示から抽出してもよい。1つ以上の方法例では、第1のデータセットを取得することS102は、1つ以上の第1のシステムから第1のデータセットを(たとえば、インターフェース、及び/またはプロセッサ回路を介して)取得することS102A(たとえば、取り出すこと及び/または受け取ること)を含む。1つ以上の方法例では、1つ以上の第1のシステムは動作システムである。1つ以上の方法例では、1つ以上の動作システムは、出荷システム、請求書発行システム、及びケースマネジメントシステムのうちの1つ以上を含む。
本方法100は、第1のデータセットに基づいて、エンティティ抽出技法を用いて、第1のアドレスを示す1つ以上の第1の要素を(たとえば、プロセッサ回路を介して)決定することS104を含む。エンティティ抽出技法は、未構造化及び/または半構造化の機械可読テキストまたはドキュメント及び他の電子的に表現されたソースから、エンティティを自動的に抽出することができる情報抽出技法と考えてもよい。
たとえば、1つ以上の第1の要素は、エンティティ抽出技法から得られる1つ以上の第1のエンティティと考えてもよい。1つ以上の方法例では、エンティティ抽出技法は、構文解析技術及び要素抽出技法のうちの1つ以上を含む。たとえば、エンティティ抽出技法は区切り記号を用いて、たとえば、第1のデータセットを構文解析してもよい。たとえば、エンティティ抽出技法は光学文字認識(OCR)を用いてもよい。たとえば、エンティティ抽出技法は、名前付きエンティティ認識(NER)(たとえば、エンティティの辞書を用いてモデルをトレーニングする)を用いてもよい。たとえば、区切り記号を用いて、異なるエンティティを抽出することができる。
本方法100は、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを(たとえば、インターフェース、及び/またはプロセッサ回路を介して)取得すること(たとえば、取り出すこと及び/または受け取ること)S105を含む。第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含む。1つ以上の第2の要素を1つ以上の第2のアドレスを示してもよい。1つ以上の方法例では、1つ以上の第1の要素のうちの少なくとも1つ(たとえば全部未満)を選択して、第2のデータセットを取得する。1つ以上の方法例では、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得することS105は、1つ以上の検索基準を用いて1つ以上の第2のシステムを(たとえば、プロセッサ回路を介して)検索することS105Aを含む。1つ以上の方法例では、1つ以上の検索基準は1つ以上の第1の要素に基づく。たとえば、1つ以上の第2のシステムを検索して第2のデータセットを生成する。たとえば、第2のデータセットは、選択したエンティティに基づく検索を用いて取得した検索結果セットと考えてもよい。言い換えれば、1つ以上の第2のシステムのアドレスを除去して、より少ない第2の要素を取得する。1つ以上の方法例では、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得することS105は、1つ以上の第2のシステムから第2のデータセットを、1つ以上の第1の要素のうちの少なくとも1つに基づいて(たとえば、インターフェース、及び/またはプロセッサ回路を介して)取得することS105Bを含む。1つ以上の方法例では、1つ以上の第2のシステムは、顧客管理システム及び/または顧客データベースを含む。
本方法100は、第1のデータセット及び第2のデータセットに自然言語処理(NLP)技法を(たとえば、プロセッサ回路を介して)適用してS106、1つ以上の類似度スコアを取得することを含む。NLP技法は、言説(たとえば、スピーチまたはテキスト)における自然言語データを処理及び分析することができる計算技法と考えてもよい。本開示では、NLP技法をテキストに適用する。1つ以上の方法例では、第1のデータセット及び第2のデータセットにNLP技法を適用してS106、1つ以上の類似度スコアを取得することは、近似文章マッチング技法を用いて、1つ以上の第1の要素と第2のデータセットの1つ以上の第2の要素とを(たとえば、プロセッサ回路を介して)比較することS106Aを含む。言い換えれば、たとえば、第2のデータセット(たとえば、検索から取得したアドレスリスト)のうちの1つ以上の第2の要素の1つ以上の通常のコサイン類似度スコアを取得する。
本方法100は、第1のアドレスの対応する第1の要素に対応付けられる重みのセットを(たとえば、インターフェース、及び/またはプロセッサ回路を介して)取得することS108を含む。1つ以上の方法例では、重みのセットを取得することS108は、第1のデータセット及び第2のデータセットに基づいて、ロジスティック回帰モデルを1つ以上の類似度スコアに適用することS108Aと、任意選択で、履歴の類似度スコアを用いて重みのセットを取得することと、を含む。履歴の類似度スコアは、以前の類似度スコアと考えられる。LRを用いて、特定のクラスの存在する事象(たとえば、合格/不合格、マッチングあり/マッチングなし)の確率をモデリングしてもよい。LRを用いて、いくつかのクラスの事象(たとえば、アドレスに特定の仲買人名義が含まれているか否かを決定する等)をモデリングしてもよい。アドレス内で検出される各要素に0~1の確率(合計は1)を割り当ててもよい。
1つ以上の方法例では、1つ以上の類似度スコアにロジスティック回帰モデルを(たとえば、プロセッサ回路で)適用してS108A、重みのセットを取得することは、第1の要素のうちの少なくとも1つと、対応する第2の要素との比較に基づいて、重みのセットを(たとえば、プロセッサ回路を介して)決定することS108AAを含む。
第2のデータセット内のすべての第2の要素に対して等しい重み付けを与えることによって、1つ以上の類似度スコアを取得する(S106)。本開示では、重みのセットを、精緻化された類似度スコアを得るための第2のデータセットの第2の要素に対するカスタム重みと考えてもよい。たとえば、重みのセットを、実行時間ではなくロジスティック回帰(LR)を用いて生成する(たとえば、1つおきのアドレスマッチングでは行わない)。LRは、たとえば、重みのセットをトレーニングするとき(たとえば、1回限りのアクティビティのとき)に時々行う。マッチングが存在する場合にこれは重みに寄与するという点で、重みをLRモデルに基づいて導出してもよい。
たとえば、LRに対する入力には従属変数及び独立変数が含まれ、LRは、第2のデータセットの第2の要素に対する重みのセットを出力する(たとえば、第1のアドレス及び/または第2のアドレスにおけるすべてのエンティティ)。独立変数は、アドレスにおける異なる要素(たとえば、エンティティ)の存在を示す(たとえば、入力と最終のマッチング出力とを比較して)。独立変数には類似度スコアが含まれる。従属変数は、第1のアドレスと第2のアドレスとを比較する最終のマッチングのステータス(たとえば、マッチングありまたはマッチングなし)、たとえば最終のマッチング出力を示す。最終のマッチング出力を手作業の検査によって評価してもよい。
いくつかの実施形態では、LR及び/またはNLPは、人工知能を用いてもよく、及び/または教師ありもしくは教師なし機械学習を用いてトレーニングしてもよく、また機械学習プログラムは、ニューラルネットワーク(畳み込みニューラルネットワーク、深層学習ニューラルネットワーク、または対象とする2つ以上の分野もしくは領域において学習する結合された学習モジュールもしくはプログラムであり得る)を用いてもよい。機械学習は、以後のデータに対して予測を行うことを容易にするために既存のデータにおけるパターンを識別及び認識することを含んでいてもよい。新規の入力に対して有効で信頼性の高い予測を行うために、モデルを入力例に基づいて形成してもよい。
それに加えてまたはその代わりに、機械学習プログラムを、プログラム内にサンプルデータセットまたは特定のデータを入力することによってトレーニングしてもよい(たとえば、画像データ、テキストデータ、レポートデータ、及び/または数値解析)。機械学習プログラムは、主にパターン認識にフォーカスし得る深層学習アルゴリズムを用いてもよく、また複数の例を処理した後にトレーニングしてもよい。機械学習プログラムは、物体認識、光学文字認識、及び/または自然言語処理を、個別にまたは組み合わせて含んでいてもよい。また機械学習プログラムは、自然言語処理、意味解析、及び/または自動推論を含んでいてもよい。
教師あり機械学習では、処理要素に入力例及びその対応付けられる出力を与えてもよく、処理要素は入力を出力にマッピングする一般規則を見出そうとしてもよく、その結果、以後の新規の入力が与えられたときに、処理要素は、見出した規則に基づいて、正しい出力を正確に予測し得る。教師なし機械学習では、処理要素は、標示されていない入力例においてそれ自体の構造を見出す必要があり得る。いくつかの実施形態では、機械学習技法を用いて、コンピュータ装置、コンピュータ装置のユーザ、コンピュータ装置をホストするコンピュータネットワーク、コンピュータ装置上で実行されるサービス、及び/または他のデータについてのデータを抽出してもよい。
このような分析に基づいて、処理要素は、特徴及びパターンを識別する方法を学習する場合があり、それをモデルのトレーニング、アドレス及びテキスト文字列の分析、ならびにマッチングの検出に適用し得る。
本方法100は、重みのセットに基づいて、1つ以上の第1の要素のうちの少なくとも1つと1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを(たとえば、プロセッサ回路を介して)決定することS110を含む。たとえば、マッチングパラメータを、NLP技法において重みのセットを用いることによって決定してもよい。第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得して、カスタム機械学習及びNLP技法においてNLP技法において適用して、マッチングパラメータを決定する。マッチングパラメータを、第1の要素(複数可)と、対応する第2の要素(複数可)との間のマッチングの程度を示すパラメータと考えてもよい。マッチングパラメータはマッチングありまたはマッチングなしを示してもよい。たとえば、マッチングパラメータは1または0を示してもよく、1は100%マッチングあり、0はまったくマッチングなしである。たとえば、マッチングパラメータは、マッチングあり/マッチングなしを識別する前に基準と比較する必要がある0~1の数を示してもよい。
開示した技術を適用する例示的な実施例では、ロジスティック回帰は、従属変数(たとえば、予測すべき)及び独立変数(たとえば、予測するために用いる特徴)を用いて実行される。特徴に基づいて、アドレスマッチングを成功または失敗と予測してよい。例では、使用する変数には以下のうちの1つ以上が含まれていてもよい。独立変数=[’namepresent’,’addresspresent’,’emailpresent’,’phone_num_present’,’Cosine_Score’,’Azure_Search_Score’,’Count_of_Matching_numbers’]、従属変数=[’Success’]。
例では、以下の等式を実行してもよい。
p=1/[1+exp(-a-B0X0-B1X1-B2X2-B3X3-B4X4-B5X5-B6X6)]
pはマッチングパラメータを表し得る確率であり(p>=0.5のとき合格[成功=1]、p<0.5のとき失敗[成功=0])、aは一定値であり、X0は名前の存在を示す変数namepresentの値[0/1]であり、X1はアドレスの存在を示す変数addresspresentの値[0/1]であり、X2は電子メールの存在を示す変数emailpresentの値[0/1]であり、X3は電話番号の存在を示す変数ph_num_presentの値[0/1]であり、X4はコサイン類似度スコアCosine_Scoreの値[0~1で変化する]であり、X5はAzure_Search_Scoreの値[数値]であり、X6はCount_of_Matching_numbersの値[数値]である。
係数は、LRを適用することによって得られる重みのセットと考えてもよく、以下のようであってもよい。B0=X0の依存性係数、B1=X1の依存性係数、B2=X2の依存性係数、B3=X3の依存性係数、B4=X4の依存性係数、B5=X5の依存性係数、及びB6=X6の依存性係数。たとえば、以下の係数がロジスティック回帰から計算される。a=-6.19、B0=2.3697863、B1=0.10784766、B2=1.49094974、B3=0.65098831、B4=5.99906035、B5=0.6030922、B6=0.97430007。
1つ以上の方法例では、1つ以上の第1の要素のうちの少なくとも1つと1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを重みのセットを用いて決定することS110は、第2のアドレスの各第2の要素に対する更新された類似度スコアを、(たとえば、プロセッサ回路を介して)計算することS110Aを含む。更新された類似度スコアは、精緻化された類似度スコアと考えてもよい。1つ以上の方法例では、マッチングパラメータを重みのセットを用いて決定することS110は、更新された類似度スコアが基準を満たすか否かを判定することS110Bを含む。基準は閾値に基づいてもよい。マッチングパラメータが閾値以上であるときに基準を満たし、マッチングパラメータが閾値未満であるときに基準を満たさない。
1つ以上の方法例では、マッチングパラメータを重みのセットを用いて決定することS110は、更新された類似度スコアが基準を満たすと判定されたときに、マッチングパラメータが第2のアドレスの第2の要素と第1のアドレスの対応する第1の要素との間の成功したマッチングであると、(たとえば、プロセッサ回路を介して)決定することS110Dを含む。1つ以上の方法例では、マッチングパラメータを重みのセットを用いて決定することS110は、更新された類似度スコアが基準を満たさないと判定されたときに、マッチングパラメータが第1のアドレスと第2のアドレスとの間の失敗したマッチングであると決定することS110Cを含む。たとえば、更新または精緻化された類似度スコア(複数可)を重みのセット(たとえばカスタム重み)を用いて計算する間、0.5未満の小さいマッチングパラメータはマッチングなしと言われ、0.5以上のマッチングパラメータはマッチングありと考えられる。
本方法100は、マッチングパラメータを(たとえば、インターフェース、及び/またはプロセッサ回路を介して)出力することS111を含む。出力されたマッチングパラメータは、重みのセットを用いて更新または精緻化された類似度スコアを示し得る。たとえば、マッチングパラメータを、プロセッサ回路のある部分からプロセッサ回路の別の部分へ(たとえば、電子装置のマッチングパラメータ発生器回路から補正回路へ)出力して、第1のアドレスをマッチングパラメータにより補正できるようにしてもよい。開示した方法によって、99%精度及びより広い適用範囲(たとえば、いくつのアドレスをカバーしたか)を伴う結果を実現することができる。
1つ以上の方法例では、NLP技法はコサイン類似度技法を含む。1つ以上の方法例では、1つ以上の類似度スコアはコサイン類似度スコアである。コサイン類似度は、内積空間の2つの非ゼロベクトル(本開示では第1の要素と第2の要素)の間の類似度の尺度と考えてもよい。コサイン類似度は、2つのベクトル間の角度のコサインに等しいと規定してもよく、これは、両方とも長さ1を有するように正規化された同じベクトルの内積とも同じである。たとえば、各要素に異なる寸法を概念的に割り当ててもよく、アドレスをベクトルによって特徴付けてもよく、各寸法における値はアドレスにおいて要素が現れる回数に相当する。そしてコサイン類似度は、2つのアドレスがその要素に関してどのくらい似ている可能性があるかの有用な尺度を与える。
1つ以上の方法例では、第1のデータセット及び第2のデータセットにNLP技法を(たとえば、プロセッサ回路を介して)適用してS106、1つ以上の類似度スコアを取得することは、第2のデータセットの各第2の要素に対して1つ以上のコサイン類似度スコアを(たとえば、プロセッサ回路を介して)生成することS106Bを含む。
1つ以上の方法例では、本方法100は、マッチングパラメータにより第1のアドレスを(たとえば、プロセッサ回路を介して)補正することS112を含む。1つ以上の方法例では、第2のアドレスは補正アドレスである。
図3に、本開示による典型的な電子装置300のブロック図を示す。電子装置300は、メモリ回路301、プロセッサ回路302、及びインターフェース303を含む。電子装置300は、図2に開示した方法のいずれかを実行するように構成されている。言い換えれば、電子装置300は、アドレスマッチングまたはテキスト文字列のマッチングを行うように構成されている。たとえば、本明細書で開示した電子装置(たとえば、電子装置300)は、出荷指示処理装置であってもよい。たとえば、本明細書で開示した電子装置(たとえば、電子装置300)は、アドレス補正装置であってもよい。たとえば、本明細書で開示した電子装置(たとえば、電子装置300)は、請求書処理装置であってもよい。
電子装置300は、第1のアドレスを示す第1のデータセットを(たとえば、プロセッサ回路302を介して)取得するように構成されている。
電子装置300は、第1のデータセットに基づいて、エンティティ抽出技法を用いて、第1のアドレスを示す1つ以上の第1の要素を(たとえば、プロセッサ回路302を介して)決定するように構成されている。
電子装置300は、1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを(たとえば、プロセッサ回路302及び/またはインターフェース303を介して)取得するように構成されている。第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含む。
電子装置300は、第1のデータセット及び第2のデータセットに自然言語処理(NLP)技法を(たとえば、プロセッサ回路302を介して)適用して、1つ以上の類似度スコアを取得するように構成されている。
電子装置300は、第1のアドレスの対応する第1の要素に対応付けられる重みのセットを(たとえば、プロセッサ回路302及び/またはインターフェース303を介して、及び/またはメモリ回路301から)取得するように構成されている。
電子装置300は、重みのセットに基づいて、1つ以上の第1の要素のうちの少なくとも1つと1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを(たとえば、プロセッサ回路302を介して)決定するように構成されている。
任意選択で、電子装置300は、マッチングパラメータを出力するように構成されている。
プロセッサ回路302は、任意選択で、図2に開示した動作のいずれか(たとえば、S102A、S104A、S105A、S105B、S106A、S106B、S108A、S108AA、S110A、S110B、S110C、S110D、S112のうちのいずれか1つ以上)を実行するように構成されている。電子装置300の動作を、非一時的コンピュータ可読媒体(たとえば、メモリ回路301)上に記憶されてプロセッサ回路302によって実行される実行可能なロジックルーチン(たとえば、コードのライン、ソフトウェアプログラムなど)の形式で具体化してもよい)。
さらに、電子装置300の動作を、電子装置300が実行するように構成されている方法と考えてもよい。また、説明した機能及び動作をソフトウェアで実施してもよいが、このような機能を、専用のハードウェアもしくはファームウェア、またはハードウェア、ファームウェア、及び/もしくはソフトウェアの何らかの組み合わせを介して実行してもよい。
メモリ回路301は、バッファ、フラッシュメモリ、ハードドライブ、リムーバブルメディア、揮発性メモリ、不揮発性メモリ、ランダムアクセスメモリ(RAM)、または他の好適な装置のうちの1つ以上であってもよい。典型的な配置では、メモリ回路301は、長時間データ記憶用の不揮発性メモリと、プロセッサ回路302に対するシステムメモリとして機能する揮発性メモリとを含んでいてもよい。メモリ回路301は、データバスを介してプロセッサ回路302とデータを交換してもよい。制御ライン、及びメモリ回路301とプロセッサ回路302との間のアドレスバスも存在してもよい(図3には示さず)。メモリ回路301は非一時的コンピュータ可読媒体と考えられる。
メモリ回路301を、メモリの一部に重みのセットを記憶するように構成してもよい。
電子装置300は、いくつかの実施形態では、ユーザ装置として機能してもよい。
いくつかの実施形態では、電子装置300はサーバ装置として機能してもよい。
本開示による方法及び製品(電子装置)の実施形態を、以下の条項において述べる。
1.アドレスマッチングを行うための、電子装置によって行われる方法であって、前記方法は、
第1のアドレスを示す第1のデータセットを取得すること(S102)と、
前記第1のデータセットに基づいて、エンティティ抽出技法を用いて、前記第1のアドレスを示す1つ以上の第1の要素を決定すること(S104)と、
前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得すること(S105)であって、前記第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含む、前記取得することと、
前記第1のデータセット及び前記第2のデータセットに自然言語処理(NLP)技法を適用して(S106)、1つ以上の類似度スコアを取得することと、
前記第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得すること(S108)と、
前記重みのセットに基づいて、前記1つ以上の第1の要素のうちの少なくとも1つと前記1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを決定すること(S110)と、
前記マッチングパラメータを出力すること(S111)と、を含む前記方法。
第1のアドレスを示す第1のデータセットを取得すること(S102)と、
前記第1のデータセットに基づいて、エンティティ抽出技法を用いて、前記第1のアドレスを示す1つ以上の第1の要素を決定すること(S104)と、
前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得すること(S105)であって、前記第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含む、前記取得することと、
前記第1のデータセット及び前記第2のデータセットに自然言語処理(NLP)技法を適用して(S106)、1つ以上の類似度スコアを取得することと、
前記第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得すること(S108)と、
前記重みのセットに基づいて、前記1つ以上の第1の要素のうちの少なくとも1つと前記1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを決定すること(S110)と、
前記マッチングパラメータを出力すること(S111)と、を含む前記方法。
2.前記エンティティ抽出技法は、構文解析技術及び要素抽出技法のうちの1つ以上を含む条項1に記載の方法。
3.前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、前記第2のデータセットを取得すること(S105)は、1つ以上の検索基準を用いて1つ以上の第2のシステムを検索すること(S105A)を含み、前記1つ以上の検索基準は前記1つ以上の第1の要素に基づく、前記条項のいずれかに記載の方法。
4.前記重みのセットを取得すること(S108)は、前記第1のデータセット及び前記第2のデータセットに基づいて、前記1つ以上の類似度スコアにロジスティック回帰モデルを適用すること(S108A)を含む、前記条項のいずれかに記載の方法。
5.前記第1のデータセット及び前記第2のデータセットに前記NLP技法を適用して(S106)、前記1つ以上の類似度スコアを取得することは、近似文章マッチング技法を用いて、前記1つ以上の第1の要素と前記第2のデータセットのうちの1つ以上の第2の要素とを比較すること(S106A)を含む、前記条項のいずれかに記載の方法。
6.前記NLP技法はコサイン類似度技法を含む前記条項のいずれかに記載の方法。
7.前記1つ以上の類似度スコアはコサイン類似度スコアである条項6に記載の方法。
8.前記第1のデータセット及び前記第2のデータセットに前記NLP技法を適用して(S106)、1つ以上の類似度スコアを取得することは、前記第2のデータセットの各第2の要素に対して前記1つ以上のコサイン類似度スコアを生成すること(S106B)を含む、条項6~7のいずれかに記載の方法。
9.前記1つ以上の類似度スコアに前記ロジスティック回帰モデルを適用して(S108A)、前記重みのセットを取得することは、
前記第1の要素のうちの少なくとも1つと、対応する第2の要素との比較に基づいて、前記重みのセットを決定すること(S108AA)を含む、条項4に対する従属項としての前記条項のいずれかに記載の方法。
前記第1の要素のうちの少なくとも1つと、対応する第2の要素との比較に基づいて、前記重みのセットを決定すること(S108AA)を含む、条項4に対する従属項としての前記条項のいずれかに記載の方法。
10.前記重みのセットを用いて、前記1つ以上の第1の要素のうちの少なくとも1つと前記1つ以上の第2の要素のうちの少なくとも1つとにおけるマッチングを示す前記マッチングパラメータを決定すること(S110)は、
前記第2のアドレスの各第2の要素に対する更新された類似度スコアを計算すること(S110A)と、
前記更新された類似度スコアが基準を満たすか否かを判定すること(S110B)と、
前記更新された類似度スコアが前記基準を満たすと判定されたときに、前記マッチングパラメータが、前記第2のアドレスの前記第2の要素と前記第1のアドレスの前記対応する第1の要素との間の成功したマッチングであると決定すること(S110D)と、を含む、前記条項のいずれかに記載の方法。
前記第2のアドレスの各第2の要素に対する更新された類似度スコアを計算すること(S110A)と、
前記更新された類似度スコアが基準を満たすか否かを判定すること(S110B)と、
前記更新された類似度スコアが前記基準を満たすと判定されたときに、前記マッチングパラメータが、前記第2のアドレスの前記第2の要素と前記第1のアドレスの前記対応する第1の要素との間の成功したマッチングであると決定すること(S110D)と、を含む、前記条項のいずれかに記載の方法。
11.前記方法は、(a)前記マッチングパラメータにより前記第1のアドレスを補正することを含む前記条項のいずれかに記載の方法。
12.前記第1のデータセットを取得すること(S102)は、1つ以上の第1のシステムから前記第1のデータセットを取得すること(S102A)を含み、前記1つ以上の第1のシステムは1つ以上の動作システムであり、前記1つ以上の動作システムは、出荷システム、請求書発行システム、及びケースマネジメントシステムのうちの1つ以上を含む、前記条項のいずれかに記載の方法。
13.前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得すること(S105)は、前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、前記1つ以上の第2のシステムから第2のデータセットを取得すること(S105B)を含み、前記1つ以上の第2のシステムは顧客管理システム及び/または顧客データベースを含む、前記条項のいずれかに記載の方法。
14.前記第2のアドレスは補正アドレスである前記条項のいずれかに記載の方法。
15.メモリ回路、プロセッサ回路、及び無線インターフェースを含む電子装置であって、前記電子装置は、条項1~14のいずれかに記載の方法のいずれかを実行するように構成されている、前記電子装置。
16.1つ以上のプログラムを記憶するコンピュータ可読記憶媒体であって、前記1つ以上のプログラムは、電子装置によって実行されると、前記電子装置に条項1~14に記載の方法のいずれかを実行させる命令を含む、前記コンピュータ可読記憶媒体。
用語「第1の」、「第2の」、「第3の」、及び「第4の」、「一次の」、「二次の」、「三次の」などを用いることは、何らかの識別の順番は意味しないが、個々の要素を識別するために含まれている。また、用語「第1の」、「第2の」、「第3の」、及び「第4の」、「一次の」、「二次の」、「三次の」などを用いることは、何らかの順番も重要性も示しておらず、むしろ用語「第1の」、「第2の」、「第3の」、及び「第4の」、「一次の」、「二次の」、「三次の」などは、ある要素を別の要素から区別するために用いられている。なお、用語「第1の」、「第2の」、「第3の」、及び「第4の」、「一次の」、「二次の」、「三次の」などは、単に標示を目的としてここ及び他で用いており、何らかの具体的な空間順序または時間順序を示すことは意図していない。さらに、第1の要素を標示することは第2の要素が存在することを意味しておらず、逆もまた同様である。
図1A~3には、実線で例示される何らかの回路または動作と、破線で例示される何らかの回路または動作とが含まれていることが理解され得る。実線に含まれる回路または動作は、最も広い実施形態例に含まれる回路または動作である。破線に含まれる回路または動作は、実線の実施形態例の回路または動作に加えて取り入れられ得るさらなる回路または動作に含まれ得るか、またはその一部であり得るか、またはそれらである実施形態例である。当然のことながら、これらの動作は、示した順番で行う必要はない。さらに、当然のことながら、すべての動作を行う必要はない。典型的な動作を任意の順番及び任意の組み合わせで行ってもよい。
用語「含む」は、必ずしも列記したもの以外の他の要素またはステップの存在を除外するものではないことに注意されたい。
要素に先行する用語「a」または「an」は、複数のこのような要素の存在を除外するものではないことに注意されたい。
また、どんな引用符号も特許請求の範囲を限定しないこと、典型的な実施形態は、少なくとも部分的には、ハードウェア及びソフトウェア両方によって実施し得ること、及びいくつかの「手段」、「ユニット」、または「装置」は、ハードウェアの同じ物品によって表し得ることにも注意されたい。
本明細書に記載の種々の典型的な方法、装置、ノード、及びシステムは、方法ステップまたはプロセスの全般的な文脈(一態様では、コンピュータ可読媒体(ネットワーク環境におけるコンピュータによって実行されるプログラムコードなどのコンピュータ実行可能命令を含む)において具体化されるコンピュータプログラム製品によって実施され得る)において説明される。コンピュータ可読媒体には、リムーバブル及びノンリムーバブル記憶装置、たとえば、限定することなく、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、などが含まれていてもよい。全般的に、プログラム回路には、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などであって、指定されたタスクを実行するかまたは識別の抽象データ型を実装するものが含まれていてもよい。コンピュータ実行可能命令、付随するデータ構造、及びプログラム回路は、本明細書で開示した方法のステップを実行するためのプログラムコードの例を表す。このような実行可能命令または付随するデータ構造の識別の順序は、このようなステップまたはプロセスにおいて説明した機能を実施するための対応する作用の例を表す。
特徴について図示及び説明してきたが、当然のことながら、それらは、請求する開示内容を限定することは意図しておらず、請求する開示内容の範囲から逸脱することなく種々の変形及び変更を施してもよいことが当業者には明らかになる。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮すべきである。請求する開示内容は、すべての代替物、変更、及び均等物に及ぶことが意図されている。
Claims (15)
- アドレスマッチングを行うための、電子装置によって行われる方法であって、前記方法は、
第1のアドレスを示す第1のデータセットを取得すること(S102)と、
前記第1のデータセットに基づいて、エンティティ抽出技法を用いて、前記第1のアドレスを示す1つ以上の第1の要素を決定すること(S104)と、
前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得すること(S105)であって、前記第2のデータセットは、第2のアドレスを示す1つ以上の第2の要素を含む、前記取得することと、
前記第1のデータセット及び前記第2のデータセットに自然言語処理(NLP)技法を適用して(S106)、1つ以上の類似度スコアを取得することと、
前記第1のアドレスの対応する第1の要素に対応付けられる重みのセットを取得すること(S108)と、
前記重みのセットに基づいて、前記1つ以上の第1の要素のうちの少なくとも1つと前記1つ以上の第2の要素のうちの少なくとも1つとの間のマッチングを示すマッチングパラメータを決定すること(S110)と、
前記マッチングパラメータを出力すること(S111)と、
前記マッチングパラメータにより前記第1のアドレスを補正すること(S112)と、
を含む、方法。 - 前記エンティティ抽出技法は、構文解析技術及び要素抽出技法のうちの1つ以上を含む、請求項1に記載の方法。
- 前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、前記第2のデータセットを取得すること(S105)は、1つ以上の検索基準を用いて1つ以上の第2のシステムを検索すること(S105A)を含み、
前記1つ以上の検索基準は、前記1つ以上の第1の要素に基づく、請求項1または2に記載の方法。 - 前記重みのセットを取得すること(S108)は、前記第1のデータセット及び前記第2のデータセットに基づいて、前記1つ以上の類似度スコアにロジスティック回帰モデルを適用すること(S108A)を含む、請求項1乃至3のいずれかに記載の方法。
- 前記第1のデータセット及び前記第2のデータセットに前記NLP技法を適用して(S106)、前記1つ以上の類似度スコアを取得することは、近似文章マッチング技法を用いて、前記1つ以上の第1の要素と前記第2のデータセットのうちの1つ以上の第2の要素とを比較すること(S106A)を含む、請求項1乃至4のいずれかに記載の方法。
- 前記NLP技法はコサイン類似度技法を含む、請求項1乃至5のいずれかに記載の方法。
- 前記1つ以上の類似度スコアはコサイン類似度スコアである、請求項6に記載の方法。
- 前記第1のデータセット及び前記第2のデータセットに前記NLP技法を適用して(S106)、1つ以上の類似度スコアを取得することは、前記第2のデータセットの各第2の要素に対して前記1つ以上のコサイン類似度スコアを生成すること(S106B)を含む、請求項6または7に記載の方法。
- 前記1つ以上の類似度スコアに前記ロジスティック回帰モデルを適用して(S108A)、前記重みのセットを取得することは、
前記第1の要素のうちの少なくとも1つと、対応する第2の要素との比較に基づいて、前記重みのセットを決定すること(S108AA)を含む、請求項4に対する従属項としての前記請求項のいずれかに記載の方法。 - 前記重みのセットを用いて、前記1つ以上の第1の要素のうちの少なくとも1つと前記1つ以上の第2の要素のうちの少なくとも1つとにおけるマッチングを示す前記マッチングパラメータを決定すること(S110)は、
前記第2のアドレスの各第2の要素に対する更新された類似度スコアを計算すること(S110A)と、
前記更新された類似度スコアが基準を満たすか否かを判定すること(S110B)と、
前記更新された類似度スコアが前記基準を満たすと判定されたときに、前記マッチングパラメータが、前記第2のアドレスの前記第2の要素と、前記第1のアドレスの前記対応する第1の要素との間の成功したマッチングであると決定すること(S110D)と、を含む、請求項1乃至9のいずれかに記載の方法。 - 前記第1のデータセットを取得すること(S102)は、1つ以上の第1のシステムから前記第1のデータセットを取得すること(S102A)を含み、
前記1つ以上の第1のシステムは1つ以上の動作システムであり、
前記1つ以上の動作システムは、出荷システム、請求書発行システム、及びケースマネジメントシステムのうちの1つ以上を含む、
請求項1乃至10のいずれかに記載の方法。 - 前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、第2のデータセットを取得すること(S105)は、前記1つ以上の第1の要素のうちの少なくとも1つに基づいて、前記1つ以上の第2のシステムから第2のデータセットを取得すること(S105B)を含み、
前記1つ以上の第2のシステムは顧客管理システム及び/または顧客データベースを含む、請求項1乃至11のいずれかに記載の方法。 - 前記第2のアドレスは補正アドレスである請求項1乃至12のいずれかに記載の方法。
- メモリ回路、プロセッサ回路、及び無線インターフェースを含む電子装置であって、前記電子装置は、請求項1乃至13のいずれかに記載の方法のうちのいずれかを実行するように構成される、電子装置。
- 1つ以上のプログラムを記憶するコンピュータ可読記憶媒体であって、前記1つ以上のプログラムは、電子装置によって実行されると前記電子装置に請求項1乃至13に記載の方法のいずれかを実行させる命令を含む、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DKPA202070594A DK202070594A1 (en) | 2020-09-15 | 2020-09-15 | A method for address matching and related electronic device |
DKPA202070594 | 2020-09-15 | ||
PCT/EP2021/074958 WO2022058246A1 (en) | 2020-09-15 | 2021-09-10 | A method for address matching and related electronic device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023542146A true JP2023542146A (ja) | 2023-10-05 |
Family
ID=80776500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023517357A Pending JP2023542146A (ja) | 2020-09-15 | 2021-09-10 | アドレスマッチングを行うための方法及び関連する電子装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230315769A1 (ja) |
EP (1) | EP4214616A1 (ja) |
JP (1) | JP2023542146A (ja) |
CN (1) | CN116171434A (ja) |
DK (1) | DK202070594A1 (ja) |
WO (1) | WO2022058246A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8990928B1 (en) * | 2003-12-11 | 2015-03-24 | Radix Holdings, Llc | URL salience |
US20110087695A1 (en) * | 2009-10-09 | 2011-04-14 | Verizon Patent And Licensing Inc. | Apparatuses, methods and systems for a truncated postal code smart address parser |
US8595219B1 (en) * | 2012-05-16 | 2013-11-26 | Trans Union, Llc | System and method for contextual and free format matching of addresses |
US10410225B1 (en) * | 2014-06-30 | 2019-09-10 | Groupon, Inc. | Systems, apparatus, and methods of programmatically determining unique contacts based on crowdsourced error correction |
US10978179B2 (en) * | 2018-03-28 | 2021-04-13 | International Business Machines Corporation | Monitoring clinical research performance |
US10558738B1 (en) * | 2019-03-15 | 2020-02-11 | Amazon Technologies, Inc. | Compression of machine learned models |
-
2020
- 2020-09-15 DK DKPA202070594A patent/DK202070594A1/en not_active Application Discontinuation
-
2021
- 2021-09-10 US US18/023,928 patent/US20230315769A1/en active Pending
- 2021-09-10 CN CN202180063012.7A patent/CN116171434A/zh active Pending
- 2021-09-10 JP JP2023517357A patent/JP2023542146A/ja active Pending
- 2021-09-10 WO PCT/EP2021/074958 patent/WO2022058246A1/en unknown
- 2021-09-10 EP EP21773804.6A patent/EP4214616A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116171434A (zh) | 2023-05-26 |
WO2022058246A1 (en) | 2022-03-24 |
EP4214616A1 (en) | 2023-07-26 |
DK202070594A1 (en) | 2022-03-16 |
US20230315769A1 (en) | 2023-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309912B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
US11501210B1 (en) | Adjusting confidence thresholds based on review and ML outputs | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN112069801A (zh) | 基于依存句法的句子主干抽取方法、设备和可读存储介质 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN115221332A (zh) | 一种危化品事故事理图谱的构建方法与系统 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN112035629B (zh) | 基于符号化知识与神经网络的问答模型的实现方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN117390198A (zh) | 构建电力领域科技知识图谱的方法、装置、设备及介质 | |
US11861512B1 (en) | Determining content to present for human review | |
CN116431746A (zh) | 基于编码库的地址映射方法、装置、电子设备及存储介质 | |
JP2023542146A (ja) | アドレスマッチングを行うための方法及び関連する電子装置 | |
CN118339550A (zh) | 一种几何解题方法、装置、设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114064269A (zh) | 一种地址匹配方法、装置及终端设备 | |
CN111159360B (zh) | 获得讯询问话题分类模型、讯询问话题分类的方法和装置 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN109657710B (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231024 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240828 |