JP7185023B2

JP7185023B2 - Ｐｏｉ名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Info

Publication number: JP7185023B2
Application number: JP2021513957A
Authority: JP
Inventors: ファン，チーチョウ; ワン，ハイフォン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2019-11-13
Filing date: 2020-05-28
Publication date: 2022-12-06
Anticipated expiration: 2040-05-28
Also published as: CN111026937A; JP2022512269A; EP3848823A1; US20220019632A1; WO2021093308A1; US11768892B2; CN111026937B; EP3848823A4

Description

本出願は、出願日が２０１９年１１月１３日、出願番号が２０１９１１１０５５８０．Ｘ、発明名称が「ＰＯＩ名を抽出する方法、装置、デバイス及びコンピュータ記憶媒体」である中国特許出願の優先権を請求した。
本出願は、コンピュータ技術分野に関し、特にビッグデータ分野においてＰＯＩ名を抽出する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体に関する。

ＰＯＩ（Point of Interest）は関心ポイントを指し、地理情報システムにおける用語であり、ポイントとして抽象化できるすべての地理的な対象を一般的に指す。ＰＯＩは、住宅、店舗、郵便ポスト、バス停、学校、病院などであって良い。ＰＯＩの主な用途は、事物またはイベントの位置を記述することにより、事物またはイベントの位置に対する記述能力および検索能力を高めることにある。

ＰＯＩは、インターネット地図のようなアプリケーションにおいて非常に重要な役割を果たす。ＰＯＩを利用することにより、ユーザは地図上で興味のある場所やその場所までの経路を容易に見つけることができる。現実世界では、社会の発展により、新たなＰＯＩが次々と出現しており、新たに出現したＰＯＩをいかに全面的に、即時に、正確にマイニングするかは非常に重要な仕事である。一般的な方法としては、例えばストリートビュー画像等の画像データを採集し、採集された画像データからＰＯＩ名を抽出し、採集場所と組み合わせることにより、ＰＯＩ名と位置との相関関係を確立することができる。

なお、採集された画像データからＰＯＩ名を抽出する際に、従来技術は往々にして画像データに対して文字認識を行った後、人工による審査及び標識の方式でＰＯＩ名を確定する必要がある。この方式は、明らかに多大な労力が必要であり、コストが高い。

これに鑑み、本発明は、人件費を低減するＰＯＩ名を抽出する方法、装置、デバイスおよびコンピュータ記憶媒体を提供する。

第１の局面では、本発明は、ＰＯＩの画像データから認識された２つ以上のテキストセグメントを取得し、前記テキストセグメントを使用して２つ以上の候補名を構築し、予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてＰＯＩ名を特定することを含み、前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも１つを利用して、各候補名がＰＯＩ名となる確率を特定し、その確率に基づいて各候補名をソートする、関心ポイントＰＯＩ名を抽出する方法を提供する。

本発明の好ましい態様によれば、前記テキストセグメントを使用して２つ以上の候補名を構築することは、前記テキストセグメントに対して順列・組み合わせを行って２つ以上の候補名を得ることを含み、前記ソート結果に基づいてＰＯＩ名を特定することは、先頭の候補名を前記ＰＯＩ名とすることを含む。

本発明の好ましい態様によれば、前記テキストセグメントを使用して２つ以上の候補名を構築することは、前記テキストセグメントから支店情報セグメントを認識し、前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って２つ以上の候補名を得ることを含み、前記ソート結果に基づいてＰＯＩ名を特定することは、先頭の候補名と前記支店情報セグメントとを組み合わせて前記ＰＯＩ名を得ることを含む。

本発明の好ましい態様によれば、前記テキストセグメントから前記支店情報セグメントを認識することは、予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定することを含む。

本発明の好ましい態様によれば、前記判別モデルは、サンプルデータをＰＯＩデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、前記サンプルデータを用いて判別モデルを訓練する、ことにより予め訓練された。

本発明の好ましい態様によれば、候補名から検索ウェブページ特徴を抽出することは、候補名をｑｕｅｒｙとして検索し、取得された検索結果をセマンティックコーディングして前記候補名の検索ウェブページ特徴として検索結果の隠れベクトルを得ることを含む。

本発明の好ましい態様によれば、前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、上位Ｎ（Ｎは所定の正整数である）個の検索結果テキストを取得し、取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、前記各検索結果テキストの隠れベクトルに対して統合処理を行った後、前記検索結果の隠れベクトルを得ることを含む。

本発明の好ましい態様によれば、候補名から文書統計特徴を抽出することは、ウェブページデータにおいて前記候補名の逆文書頻度を統計し、前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とすることを含む。

本発明の好ましい態様によれば、候補名から語義特徴を抽出することは、候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得ることを含む。

本発明の好ましい態様によれば、前記テキストセグメントの語義表現ベクトルは、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトル及び逆文書頻度の表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される。

第２の局面では、本発明は、ＰＯＩ名の正例および負例を含む訓練サンプルを取得し、各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特徴のうちの少なくとも１つを抽出し、各訓練サンプルがＰＯＩ名となる確率を特定し、ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得ることを含む名称ソートモデルを構築する方法を提供する。

本発明の好ましい態様によれば、訓練サンプルから検索ウェブページ特徴を抽出することは、訓練サンプルをｑｕｅｒｙとして検索し、取得された検索結果をセマンティックコーディングして前記訓練サンプルの検索ウェブページ特徴として検索結果の隠れベクトルを得ることを含む。

本発明の好ましい態様によれば、前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、上位Ｎ個（Ｎは所定の正整数である）の検索結果テキストを取得し、取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、前記各検索結果テキストの隠れベクトルに対して統合処理を行った後、前記検索結果の隠れベクトルを得ることを含む。

本発明の好ましい態様によれば、訓練サンプルから文書統計特徴を抽出することは、ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とすることを含む。

本発明の好ましい態様によれば、訓練サンプルから語義特徴を抽出することは、訓練サンプルに含まれる各テキストセグメントの語義特徴、位置的特徴、および文書統計特徴のうちの少なくとも１つに基づいて各テキストセグメントの語義表現ベクトルを取得し、前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得ることを含む。

本発明の好ましい態様によれば、前記テキストセグメントの語義表現ベクトルは、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストフラグメントの位置をベクトル空間にマッピングしてテキストフラグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトル、および逆文書頻度表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される。

第３の局面では、本発明は、ＰＯＩの画像データから認識された二つ以上のテキストセグメントを取得する取得ユニットと、前記テキストセグメントを用いて２つ以上の候補名を構築する構築ユニットと、予め訓練された名称ソートモデルを用いて各候補名をソートするソートユニットと、前記ソートユニットによるソート結果に基づいてＰＯＩ名を特定する特定ユニットと、を備え、前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも１つを利用して、各候補名がＰＯＩ名となる確率を特定し、確率に基づいて各候補名をソートするＰＯＩ名を抽出する装置も提供する。

第４の局面では、本発明は、ＰＯＩ名の正例および負例を含む訓練サンプルを取得するサンプル取得ユニットと、各訓練サンプルから検索ウェブページ特徴、文書統計特徴及び語義特徴のうちの少なくとも１つを抽出し、各訓練サンプルがＰＯＩ名となる確率を特定し、ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得るモデル訓練ユニットと、を備える名称ソートモデルを構築する装置も提供する。

第５の局面では、本発明は更に、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに前記のいずれか一つに記載の方法を実行させる電子デバイスを提供する。

第６の局面では、本発明は、コンピュータに前記の何れか一つに記載の方法を実行させるコンピュータコマンドが記憶される非一時的なコンピュータ可読記憶媒体も提供する。

以上の技術案から分かるように、本発明により提供される方法、装置、デバイスおよびコンピュータ記憶媒体は、以下の利点を有する。

１）本発明は、ＰＯＩの画像データから認識されたテキストセグメントを用いて候補名を構築した後、候補名の検索ウェブページ特徴、文書統計特徴、語義特徴のうちの少なくとも１つを用いて、各候補名がＰＯＩ名となる確率を特定して各候補名をソートすることにより、高い精度でＰＯＩ名を自動的に抽出することを実現した。また、従来技術における人工による審査と標識の方式と比較して、人件費を低減した。

２）本発明は、まず支店情報セグメントを認識した後に、その支店情報セグメント以外の他のテキストセグメントを用いて候補名を構築してソートを行い、そして先頭の候補名と支店情報セグメントを用いてＰＯＩ名を得ることにより、ＰＯＩ名の抽出の正確度と効率をさらに向上させることができる。

３）本発明は、候補名の文書統計特徴、検索ページ特徴および語義特徴を用い、逆文書頻度、検索結果、各テキストセグメントの位置、逆文書頻度、語義などの候補名に対する表意能力記述をＰＯＩ名の確率の推定として候補名に導入することにより、ＰＯＩ名を最適に表意する候補名を選択する。

前記選択可能な方式における他の効果は、以下で具体的な実施例と合わせて説明する。

図面は、本技術案をより良く理解するためのものであり、本発明を制限するものではない。図面において、
本発明の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示す。本発明の実施形態により提供される主要な方法のフローチャートである。本発明の実施形態により提供されるＰＯＩ看板画像の実例図である。本発明の実施形態により提供される好適な方法のフローチャートである。本発明の実施形態により提供される名称ソートモデルのアーキテクチャの模式図である。本発明の実施形態により提供されるソートモデルを構築する方法のフローチャートである。本発明の実施形態により提供されるＰＯＩ名を抽出する装置の構成図である。本発明の実施形態により提供される名称ソートモデルを構築する装置の構成図である。本発明の実施形態に係る方法を実現するための電子デバイスのブロック図である。

以下、図面に基づいて、本発明の例示的な実施例を説明する。理解を容易にするために、本発明の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本発明の範囲及び思想から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図１は、本発明の実施形態が適用され得る方法または装置の例示的なシステムアーキテクチャを示した。図１に示されたように、当該システムアーキテクチャは、端末デバイス１０１および１０２、ネットワーク１０３、およびサーバ１０４を含むことができる。ネットワーク１０３は、端末デバイス１０１、１０２とサーバ１０４との間に通信リンクの媒体を提供する。ネットワーク１０３は、有線、無線通信リンク、または光ファイバケーブルなどの様々なタイプの接続を含むことができる。

ユーザは、端末デバイス１０１、１０２を用いて、ネットワーク１０３を介してサーバ１０４とインタラクションすることができる。端末デバイス１０１、１０２には、地図系アプリケーション、ウェブブラウザアプリケーション、通信系アプリケーション等の各種アプリケーションがインストールされて良い。

端末デバイス１０１および１０２は、地図系アプリケーションを実行することができる様々な種類のユーザ装置であってよい。スマートフォン、タブレット、ＰＣ、スマートテレビなどが含まれるが、これらに限定されない。本発明で提供されるＰＯＩ名を抽出する装置および名称ソートモデルを構築する装置は、前記のサーバ１０４に設置、運行されても良く、サーバ１０４と別のデバイスに運行されても良い。これは、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよく（例えば、分散的なサービスを提供するために）、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよいが、ここで限定されない。サーバ１０４は、ＰＯＩデータベース１０５とインタラクションして良い。具体的に、サーバ１０４は、ＰＯＩデータベース１０５からデータを取得してもよく、ＰＯＩデータベース１０５にデータを格納してもよい。ＰＯＩデータベース１０５には、ＰＯＩ情報を含む地図データが格納されている。

例えば、ＰＯＩ名を抽出する装置は前記サーバ１０４に設置、運行される。サーバ１０４は、本発明の実施形態により提供される方法によりＰＯＩ画像データに基づいてＰＯＩ名の抽出を行った後に、取得したＰＯＩ名と当該ＰＯＩ画像データに対応する場所とでＰＯＩデータベース１０５を更新する。サーバ１０４は、端末デバイス１０１、１０２の検索リクエストに応じて、ＰＯＩデータベース１０５を検索し、検索されたＰＯＩの情報を端末デバイス１０１、１０２に返信することができる。端末デバイス１０１、１０２は、ＰＯＩ画像データを採用し、ＰＯＩ画像データ及び対応する採集場所情報をサーバ１０４にアップロードしても良い。

サーバ１０４は、単一のサーバであっても良く、複数のサーバからなるサーバ群であってもよい。また、１０４は、サーバとして存在することに加えて、より高い演算性能を有する他のコンピュータシステムまたはプロセッサであってもよい。理解すべきなのは、図１における端末デバイス、ネットワーク、サーバ及びデータベースの数は単なる例示的なものである。実施の必要に応じて、任意の数の端末デバイス、ネットワーク、サーバ、データベースを備えることができる。

＜実施形態１＞

図２は、本発明の実施形態により提供される主要な方法のフローチャートである。図２に示されたように、当該方法は以下のステップを含むことができる。

２０１において、ＰＯＩの画像データから２つ以上のテキストセグメントを認識する。

本発明のシナリオにおいて、ＰＯＩの画像データが既に取得され、ＰＯＩの画像データからＰＯＩ名を抽出する必要がある。本発明は、ＰＯＩの画像データの採集方式に限定されるものではなく、専門の採集担当者がＰＯＩに現地で採集したり、ユーザが端末デバイスを介して採集及びアップロードなどを行ったりすることもできる。このＰＯＩの画像データは、通常、図３に示されたように、撮影されたＰＯＩの看板画像である。

ＯＣＲ（Optical Character Recognition、光学文字認識）などの方法でＰＯＩの画像データに対してテキスト認識を行うことができる。本発明は、ＰＯＩの看板画像に複数のテキストが含まれている場合に適用する。図３に示されたように、この画像から「三千店舗」、「エコダイエット」、「銀座ガーデン店」の３つのテキストセグメントが認識される。

また、説明すべきなのは、ＰＯＩの画像データからテキストセグメントが１つだけ認識された場合には、そのテキストセグメントをそのままＰＯＩ名としてもよい。

２０２において、認識により得られたテキストセグメントを用いて２つ以上の候補名を構築する。

２０３において、予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてＰＯＩ名を特定する。

ここで、名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴の少なくとも１つを利用して、各候補名がＰＯＩ名となる確率を特定し、確率に基づいて各候補名をソートする。

一実施形態として、ステップ２０１で認識されたテキストセグメントに対して順列・組合わせを行った後に、２つ以上の候補名を取得し、そして予め訓練された名称ソートモデルを用いて各候補名称をソートし、先頭の候補名称をＰＯＩ名とすることができる。

しかしながら、好ましい実施形態としては、最初にステップ２０１で認識されたテキストセグメントに対して支店情報の認識を行い、その後に候補名を構築しソートして最終的なＰＯＩ名を得ることができる。この方式によれば、より正確なＰＯＩ名を提供することができる。以下で実施形態と合わせてこのような好ましい実施形態を詳しく説明する。

＜実施形態２＞
図４は、本発明の実施形態により提供される好適な方法のフローチャートである。図４に示されたように、当該方法は以下のステップを含むことができる。

４０１において、ＰＯＩの画像データから二つ以上のテキストセグメントを認識する。

このステップはステップ２０１と同じであり、ここでは言及しない。

４０２では、認識されたテキストセグメントから支店情報セグメントを認識する。

本ステップでは、予め訓練された判別モデルを用いて各テキストセグメントを判別して各テキストセグメントが支店情報セグメントであるか否かを判定することができる。

本発明では、ＰＯＩデータベースから予め訓練サンプルを取得し、例えば、ＰＯＩデータベースからＰＯＩ名「海底撈鍋万柳店」を取得し、「海底撈鍋」と「万柳店」の２つのテキストセグメントに分割することができる。「海底撈鍋」を非支店情報セグメント、即ち反例として人工的に標識し、「万柳店」を支店情報セグメント、即ち正例として人工的に標識する。次に、訓練サンプルを用いて判別モデルを訓練する。なお、判別モデルは、ＥＲＮＩＥ（Enhanced Representation from kNowledge IntEgration、知識強化語義表現モデル）、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers、Transformerによる双方向的エンコード表現）による判別モデル、ＧＢＤＴ（Gradient Boosting Decision Tree、勾配ブースティング決定木）モデルなどを採用することができるが、これらに限定されない。

訓練により判別モデルが得られた後、テキストセグメントを判別モデルに入力すると、判別モデルが出力する判別結果、即ちテキストセグメントが支店情報セグメントであるかどうかを得ることができる。

説明すべきなのは、予め訓練された判別モデルを用いて支店情報セグメントの認識を行う以外に、本発明で別の方式で支店の認識を行ってもよい。たとえば、テンプレートに基づく方式、キーワード辞書に基づく方式などである。例えば、「＿＿支店」、「＿＿支部」、「＿＿分園」、「＿＿分院」等のテンプレートを予め設定しておき、これらのテンプレートに合致するテキストセグメントを支店情報セグメントとして認識する。

４０３において、認識されたテキストセグメントのうち、支店情報セグメントを除く他のテキストセグメントに対して順列・組み合わせを行って二つ以上の候補名を得る。

認識されたテキストセグメントをｍ個とし、そのうちの一つの支店情報セグメントがｔ_ｂとして認識され、残りのｍ－１個のテキストセグメントの集合Ｔ１を｛ｔ_ｉ｝，ｉ＝１，・・・，ｍ－１とする。ｍは２以上の正整数であり、Ｔ１における各テキストセグメントに対して全順列・組み合わせを行って候補名集合Ｐを構築し、Ｐを｛Ｐ_ｊ｝とする。つまり、ＰはＴ１からランダムにｋ個のテキストセグメントを抽出して順列・組合わせを行った和集合であり、ｋは１からｍ-１までの値をとる。

例えば、図３に示された画像から「三千店舗」、「エコダイエット」、「銀座ガーデン店」の３つのテキストセグメントが認識され、４０２において「銀座ガーデン店」が支店情報セグメントとして認識された。そして、残りのテキストセグメント「三千店舗」、「エコダイエット」に対して全順列・組み合わせを行って得られた集合Ｐは、｛「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」｝である。つまり、「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」という四つの候補名が得られ、この四つの候補名に対してＰＯＩ名となる確率のソートを行う必要がある。

４０４において、予め訓練された名称ソートモデルを用いて各候補名をソートする。

名称ソートモデルは、候補名から検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも１つを抽出し、候補名がＰＯＩ名となる確率を特定し、そして確率に基づいて候補名をソートする。好ましい実施形態として、本実施形態において、検索ウェブページ特徴、文書統計特徴、および語義特徴という三種類を抽出することを例として説明する。すなわち、各Ｐ_ｊを名称ソートモデルに入力し、Ｐ_ｊから検索ページ特徴、文書統計特徴、および語義特徴を抽出し、Ｐ_ｊがＰＯＩ名となる確率を得た後に、各Ｐ_ｊの確率に基づいてソートを行う。

以下では、図５に示されたモデルアーキテクチャに合わせて、三種類の特徴の抽出についてそれぞれ詳しく説明する。

１）検索ページ特徴の抽出。

候補名Ｐ_ｊから検索ウェブページ特徴を抽出する際には、候補名Ｐ_ｊをｑｕｅｒｙ（検索キーワード）として検索し、次に得られた検索結果をセマンティックコーディングして、検索結果の隠れベクトルを候補名Ｐ_ｊの検索ウェブページ特徴として得られる。

演算量を削減するために、本実施形態では、検索結果のうち上位Ｎ個（Ｎは所定の正整数）の検索結果テキストを取ってよい。また、検索結果のタイトルは、一般的に検索結果テキストの意味をよく表すことができるため、上位Ｎ個の検索結果のタイトルテキストを取得することができる。例えば、上位Ｎ個の探索結果をＲ＝｛ｄ_ｋ｝，ｋ＝１，・・・，Ｎと記す。

例えば、候補名「三千里エコダイエット」については、これをｑｕｅｒｙとしてウェブページを検索し、検索結果から上位Ｎ個の検索結果のタイトルテキストを取得することで、大衆に理解されている当該ＰＯＩの最も合理的な名称を得ることに寄与する。例えば、得られた検索結果のタイトルテキストには、「私はコメント＿三千家エコダイエット」、「三千家エコダイエットしましょう」などが含まれる。そして、各タイトルテキストをそれぞれセマンティックコーディングして各検索結果のタイトルテキストの隠れベクトルを得る。

セマンティックコーディングを行う際には、ＰＯＩ名のロングテール現象を解決するために、文字粒度の言語モデルＥＲＮＩＥを用いてセマンティックコーディングを行うことができる。しかし、ＥＲＮＩＥ以外にも、従来のｗｏｒｄ２ｖｅｃモデル、ｇｌｏｖｅモデルなどを用いることができる。後続の実施形態に関連するセマンティックコーディングによる隠れベクトル抽出の方法は同様であってもよい。

例えば、検索結果のタイトルテキストｄ_ｋをセマンティックコーディングしてベクトルシーケンスを取得し、その後にベクトルシーケンスを平均化してタイトルテキストｄ_ｋの隠れベクトルｈ_ｄｋを得る。

そして、各検索結果のタイトルテキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得る。なお、統合処理は、平均化等の処理方式であってよい。たとえば、Ｐ_ｊの検索結果の隠れベクトルＶ_ｄｊは、

である。

２）文書統計特徴の抽出。

ある場合に、幾つかの候補名が曖昧になる可能性があり、例えば候補名「三千店舗」について、「三千店舗エコダイエット」のＰＯＩ、「三千店舗茶店」のＰＯＩ、「三千店舗生乳茶」のＰＯＩが存在する可能性がある。したがって、ＰＯＩ名として「三千店舗」を用いると、明らかに曖昧な問題がユーザに迷惑をかけることになる。本発明の実施形態では、候補名のＩＤＦ（inverse document frequency、逆文書頻度）特徴を導入して候補名の表意能力を記述することができる。もし候補名Ｐ_ｊがネット全体に出現する頻度が少ないほど、稀有であり、独立にＰＯＩを表現する能力が高いと示す。

以上の理論に基づいて、候補名Ｐ_ｊから文書統計特徴を抽出する際には、ウェブページデータにおいて候補名Ｐ_ｊのＩＤＦを統計し、ＩＤＦの表現ベクトルをＰ_ｊの文書統計特徴とすることができる。具体的には、Ｐ_ｊのＩＤＦは、次の式を使用して計算することができる。

ここで、ＤＯＣ＿ＮＵＭはウェブページの総数を表し、ＤＦは候補名Ｐ_ｊを含むウェブページ数を表し、ｐｏｗ（ｘ、ｙ）関数はｘのｙ乗を求めるためのものである。αはスーパーパラメータであり、実験値を取っても良く、人工で調整しても良い。

候補名Ｐ_ｊのＩＤＦが得られた後、ＩＤＦは連続した統計値であるため、モデルの安定性のためにＩＤＦを離散化して埋め込み層（図５ではＥｍｂと示された）を用いて密ベクトルに転換して示せれば、Ｐ_ｊのＩＤＦ表現ベクトルＶ_ｉｄｆｊを取得することができる。

３）語義素性の抽出。

本発明では、候補名を直接にセマンティックコーディングして候補名の隠れベクトルを語義特徴として得ることができる。しかし、候補名は、全体として、文字列粒度のエンコーダでセマンティックコーディングを行うと、セグメントレベルの情報が欠落することになる。しかし、実際にはＰＯＩ画像データから抽出された名称セグメントは表意的な全体であるため、好ましい実施形態として、候補名の語義特徴の抽出は、主に２つのステップに分けられる。

Ｓ１、候補名に含まれる各テキストセグメントの語義特徴、位置特徴、文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを得る。

まず、候補名Ｐ_ｊについては、それに含まれるテキストセグメントｔ_ｉごとに、語義特徴、位置的特徴、文書統計特徴のうちの少なくとも１つを抽出する必要があり、以下ではこれら３つの特徴の抽出を例に説明する。

テキストセグメントｔ_ｉの語義特徴を抽出する際に、テキストセグメントｔ_ｉをセマンティックコーディングして、テキストセグメントｔ_ｉの隠れベクトルＶ_ｃｉを得ることができる。

テキストセグメントｔ_ｉの位置特徴を抽出する際には、候補名におけるテキストセグメントｔ_ｉの位置をベクトル空間にマッピングしてテキストセグメントｔ_ｉの位置表現ベクトルＶ_ｐｏｓｉを得る。

テキストセグメントｔ_ｉの文書統計特徴を抽出する際には、以前の候補名の文書統計特徴の抽出と同様に、ウェブページデータにおいてテキストセグメントのＩＤＦを統計し、ＩＤＦを離散化して埋め込み層（図５ではＥｍｂと示された）を利用して密ベクトルに転換して示せれば、ｔ_ｉのＩＤＦ表現ベクトルＶ_ｉｄｆｉを取得することができる。

最後に、Ｖ_ｃｉ、Ｖ_ｐｏｓｉ、Ｖ_ｉｄｆｉをスプライシングしてテキストセグメントｔ_ｉの語義表現ベクトルＶ_ｔｉを得る。たとえば、Ｖ_ｔｉ＝［Ｖ_ｃｉ，Ｖ_ｐｏｓｉ，Ｖ_ｉｄｆｉ］である。ここで、［，］はその中のベクトルをスプライシングすることを示す。

Ｓ２、各テキストセグメントの語義表現ベクトルに対して統合処理を行って候補名の語義表現ベクトルを得る。

例えば、候補名Ｐ_ｊの語義表現ベクトルＶ_ｃｊは

である。ここで、ｑはＰ_ｊに含まれるテキストセグメントの数である。

候補名Ｐ_ｊの上記３つの特徴を完成させた後、得られたＰ_ｊの探索結果の隠れベクトルＶ_ｄｊ、ＩＤＦ表現ベクトルＶ_ｉｄｆｊおよび語義表現ベクトルＶ_ｃｊをスプライシングしてＰ_ｊの特徴ベクトルＶ_ｐｊを得る。例えば、Ｖ_ｐｊ＝［Ｖ_ｄｊ，Ｖ_ｉｄｆｊ，Ｖ_ｃｊ］である。

そして、Ｐ_ｊの特徴ベクトルＶ_ｐｊをＭＬＰ（multi-layer perceptron、多層パーセプトロン）を介してＰＯＩ名の確率Ｐｒｏｂ_ｊとしてＰ_ｊを得る。

以上は名称ソートモデルの動作原理であり、後続で実施形態３と合わせて名称ソートモデルの構築プロセスを詳しく説明する。

４０５において、先頭の候補名を支店情報セグメントと結合してＰＯＩ名を得る。

各Ｐ_ｊの確率Ｐｒｏｂ_ｊの大きい順で各Ｐ_ｊをソートした後に、先頭の候補名を選択する。当該候補名は、ＰＯＩ名を構成するのに最も適合すると考えられる。

上記の例に続いて、仮に上記のプロセスにより特定された集合Ｐ｛「三千店舗」、「エコダイエット」、「三千店舗エコダイエット」、「エコダイエット三千店舗」｝のうち４つの候補名の確率は、大きい順に次のようになる。
三千店舗エコダイエット０．９３
三千店舗０．８２
エコダイエット０．４７
エコダイエット三千店舗０．２１

そこで、「三千店舗エコダイエット」と先に認識された支店情報セグメントである「銀座ガーデンショップ」とを組み合わせて最終的なＰＯＩ名である「三千店舗エコダイエット銀座ガーデンショップ」を得た。

最終的にＰＯＩ名が特定された後、そのＰＯＩの画像データに対応する場所情報を採集することと組合わせ、ＰＯＩ名、住所、座標などの情報をＰＯＩデータベースに格納することができる。後続のユーザが地図アプリケーションにおいて当該ＰＯＩを検索すると、当該ＰＯＩ名、住所、座標等の情報に基づいてユーザにサービスを提供することができる。

＜実施形態３＞
図６は、本発明の実施形態により提供されるソートモデルを構築する方法のフローチャートである。図６に示されたように、当該方法は以下のステップを含むことができる。

６０１において、ＰＯＩ名の正例および負例を含む訓練サンプルを取得する。

本発明では、既存のＰＯＩデータベースからＰＯＩ名を取得して良い。ＰＯＩデータベースに既に存在しているＰＯＩ名は一般的に正しい名称であるため、それを正例とする。次に、ＰＯＩデータベースに既に存在しているＰＯＩ名に基づいて、不正確な名称を反例として人工で構築する。

例として、仮にＰＯＩデータベースから既存のＰＯＩ名「赤黄青幼稚園上地園」を取得して正例とする。ただし、実施形態２に対応するために、ＰＯＩ名から支店情報セグメントを削除して正例とし、すなわち「赤黄青幼稚園」を正例とすることが好ましい。そして、負例として「赤黄青」、「幼稚園赤黄青」、「幼稚園」などを人工的に構築する。この方式により多数の正例と負例を構築した後、訓練サンプルとする。

６０２において、各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特徴のうちの１つを抽出し、各訓練サンプルがＰＯＩ名となる確率を特定する。

各訓練サンプルは、実施形態２のステップ４０４で提供される方法で、各訓練サンプル（すなわち、各正例および負例）について、検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも１つをそれぞれ抽出する。検索ページ特徴、文書統計特徴および語義特徴の抽出を例として、訓練サンプルごとの検索結果の隠れベクトル、ＩＤＦ表現ベクトルおよび語義表現ベクトルを抽出してスプライシングした後、その訓練サンプルの特徴ベクトルを得る。そして、その訓練サンプルの特徴ベクトルをＭＬＰを介してその訓練サンプルがＰＯＩ名となる確率を得る。具体的なプロセスは、実施形態におけるステップ４０４の記載を参照され、ここでは言及されない。

６０３において、ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練することにより、名称ソートモデルを得る。

本発明ではモデル訓練にｐａｉｒｗｉｓｅアルゴリズムを利用する。すなわち、１つの訓練サンプルの正例と負例を用いてそれぞれ文書対を構成し、モデル訓練過程において正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差をできるだけ最大化する。たとえば、採用される損失関数Ｌｏｓｓは、

であって良い。

ここで、ｍａｒｇｉｎ和γはスーパーパラメータであり、θはモデルパラメータの１つであり、Ｐｒｏｂ_ｐは正例がＰＯＩ名となる確率であり、Ｐｒｏｂ_ｎは負例がＰＯＩ名となる確率である。上記のＬｏｓｓでＬ２正則化法を用いてモデルのオーバーフィッティングを防止した。

訓練中にランダム勾配降下の方法を用いてモデルパラメータの最適化を行うことができる。

以上は、本発明で提供される方法の詳細な説明である。以下は、実施形態と合わせて本発明で提供される装置を詳しく説明する。

＜実施形態４＞
図７は、本発明の実施形態により提供されるＰＯＩ名を抽出装置の構成図である。図７に示されたように、当該装置は、取得ユニット０１、構築ユニット０２、ソートユニット０３、および特定ユニット０４を含んでもよく、更に認識ユニット０５およびモデル訓練ユニット０６を含んでもよい。これらの各構成単位の主な機能は次の通りである。

取得ユニット０１は、ＰＯＩの画像データから認識された二つ以上のテキストセグメントを取得する。本発明ではＰＯＩの画像データからテキストセグメントを認識する方式に限定されるものではなく、例えばＯＣＲ方式で認識することができる。

構築ユニット０２は、テキストセグメントを用いて二つ以上の候補名を構築する。

ソートユニット０３は、予め訓練された名称ソートモデルを用いて各候補名をソートする。なお、名称ソートモデルは、各候補名から抽出された検索ページ特徴、文書統計特徴及び語義特徴のうちの少なくとも１つを利用して、各候補名がＰＯＩ名となる確率を特定し、確率に基づいて各候補名をソートする。

特定ユニット０４は、ソートユニットによるソート結果に基づいてＰＯＩ名を特定する。

一実施形態として、構築ユニット０２は、テキストセグメントに対して順列・組合わせを行って２つ以上の候補名を得ることができる。そして、特定ユニット０４は、先頭の候補名を前記ＰＯＩ名とする。

しかしながら、好ましい実施形態として、認識ユニット０５は、テキストセグメントから支店情報セグメントを最初に認識することができる。次に、構築ユニット０２により、テキストセグメントのうち支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って二つ以上の候補名を得る。それに応じて、特定ユニット０４は、先頭の候補名と支店情報セグメントとを結合してＰＯＩ名を得る。

具体的には、認識ユニット０５は、予め訓練された判別モデルを用いて各テキストセグメントを判別して各テキストセグメントが支店情報セグメントであるか否かを判定してよい。

モデル訓練ユニット０６は、予め判別モデルを訓練する役割を担う。具体的には、ＰＯＩデータベースからサンプルデータを取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、サンプルデータを用いて判別モデルを訓練することができる。

ソートユニット０３は、名称ソートモデルを用いて候補名称から検索ウェブページ特徴を抽出する際に、具体的に、候補名をｑｕｅｒｙとして検索し、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを前記候補名の検索ウェブページ特徴として得ることができる。

なお、ソートユニット０３は、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得る際に、具体的に、上位Ｎ個（Ｎは所定の正整数）の検索結果テキストを取得し、取得された各検索結果テキストに対してそれぞれセマンティックコーディングを行い、各検索結果テキストの隠れベクトルを取得し、各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得ることができる。

ソートユニット０３は、名称ソートモデルを用いて候補名から文書統計特徴を抽出する際に、具体的に、ウェブページデータにおいて候補名の逆文書頻度を統計し、逆文書頻度の表現ベクトルを候補名の文書統計特徴とすることができる。

ソートユニット０３は、名称ソートモデルを用いて候補名から語義特徴を抽出する際に、具体的に、候補名に含まれる各テキストセグメントの語義特徴、位置的特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、各テキストセグメントの語義表現ベクトルに対して統合処理を行って候補名の語義表現ベクトルを得る。

ここで、ソートユニット０３は、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトルと逆文書頻度の表現ベクトルをスプライシングしてそのテキストセグメントの語義表現ベクトルを得ることにより、テキストセグメントの語義表現ベクトルを特定することができる。

＜実施形態５＞
図８は、本発明の実施形態により提供される名称ソートモデルを確立する装置の構成図である。図８に示されたように、当該装置は、サンプル取得ユニット１１およびモデル訓練ユニット１２を備えて良い。ここで、各構成要素の主な機能は次の通りである。

サンプル取得ユニット１１は、ＰＯＩ名の正例および負例を含む訓練サンプルを取得する。

具体的に、既存のＰＯＩデータベースからＰＯＩ名を取得することができる。ＰＯＩデータベースに既に存在しているＰＯＩ名は一般的に正しい名称であるため、これを正例とする。次に、ＰＯＩデータベースに既に存在しているＰＯＩ名に基づいて、幾つかの不正確な名称を負例として人工で構築する。好ましくは、ＰＯＩ名から支店情報セグメントを削除して正例とし、これに基づいて負例を構築してもよい。

モデル訓練ユニット１２は、各訓練サンプルから検索ウェブページ特徴、文書統計特徴、および語義特徴のうちの少なくとも１つを抽出し、各訓練サンプルがＰＯＩ名となる確率を特定し、ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練を行うことにより、名称ソートモデルを得る。

具体的には、モデル訓練ユニット１２は、訓練サンプルから検索ウェブページ特徴を抽出する際に、具体的に、訓練サンプルをｑｕｅｒｙとして探索し、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを訓練サンプルの検索ページ特徴として得ることができる。

ここで、モデル訓練ユニット１２は、取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得る際に、具体的に、上位Ｎ（Ｎは所定の正整数）個の検索結果テキストを取得し、取得された各検索結果テキストに対してそれぞれセマンティックコーディングを行って各検索結果テキストの隠れベクトルを取得し、各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得ることができる。

モデル訓練ユニット１２は、訓練サンプルから文書統計特徴を抽出する際に、具体的に、ウェブページデータにおいて訓練サンプルの逆文書頻度を統計し、逆文書頻度の表現ベクトルを訓練サンプルの文書統計特徴とすることができる。

モデル訓練ユニット１２は、訓練サンプルから語義特徴を抽出する際に、具体的に、訓練サンプルに含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、各テキストセグメントの語義表現ベクトルに対して統合処理を行って訓練サンプルの語義表現ベクトルを得る。

ここで、モデル訓練ユニット１２は、テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、ウェブページデータにおいてテキストセグメントの逆文書頻度を統計して逆文書頻度の表現ベクトルを取得し、テキストセグメントの隠れベクトル、位置表現ベクトルと逆文書頻度の表現ベクトルをスプライシングしてそのテキストセグメントの語義表現ベクトルを得ることにより、テキストセグメントの語義表現ベクトルを特定することができる。

本発明の実施形態によれば、本発明は更に、電子デバイスおよび可読記憶媒体を提供する。

図９は、本発明の実施形態による方法の電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、ＰＤＡ、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、ＰＤＡ、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本発明の実現を限定することを意図するわけではない。

図９に示すように、この電子デバイスは、一つ又は複数のプロセッサ９０１、メモリ９０２、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力／出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図９において、一つのプロセッサ９０１を例とする。

メモリ９０２は、本発明で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本発明に提供された方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本発明の非一時的コンピュータ可読記憶媒体は、本発明に提供された方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ９０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本発明の実施例における方法に対応するプログラムコマンド／ユニットを記憶するために用いられる。プロセッサ９０１は、メモリ９０２に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例における方法を実現する。

メモリ９０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域は電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ９０２は、プロセッサ９０１に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介して電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

電子デバイスは、更に、入力装置９０３と出力装置９０４とを備えても良い。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又は他の手段により接続されても良く、図９においてバスによる接続を例とする。

入力装置９０３は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置９０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり取得し、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生じる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本発明に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本発明で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

上記の具体的な実施形態は本発明の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本発明の思想及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本発明の保護範囲内に含まれるべきである。

Claims

コンピュータにより実行される、ＰＯＩ名を抽出する方法であって、
ＰＯＩの画像データから認識された２つ以上のテキストセグメントを取得し、
前記テキストセグメントを使用して２つ以上の候補名を構築し、
予め訓練された名称ソートモデルを用いて各候補名をソートし、ソート結果に基づいてＰＯＩ名を特定することを含み、
前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴を利用して、各候補名がＰＯＩ名となる確率を特定し、その確率に基づいて各候補名をソートする、方法。
前記テキストセグメントを使用して２つ以上の候補名を構築することは、
前記テキストセグメントに対して順列・組み合わせを行って２つ以上の候補名を得ることを含み、
前記ソート結果に基づいてＰＯＩ名を特定することは、
先頭の候補名を前記ＰＯＩ名とすることを含む、請求項１に記載の方法。
前記テキストセグメントを使用して２つ以上の候補名を構築することは、
前記テキストセグメントから支店情報セグメントを認識し、
前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って２つ以上の候補名を得ることを含み、
前記ソート結果に基づいてＰＯＩ名を特定することは、
先頭の候補名と前記支店情報セグメントとを組み合わせて前記ＰＯＩ名を得ることを含む、請求項１に記載の方法。
前記テキストセグメントから前記支店情報セグメントを認識することは、
予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定することを含む、請求項３に記載の方法。
前記判別モデルは、
サンプルデータをＰＯＩデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、
前記サンプルデータを用いて判別モデルを訓練する、
ことにより予め訓練して得たものである、請求項４に記載の方法。
候補名から検索ウェブページ特徴を抽出することは、
候補名をｑｕｅｒｙとして検索し、
取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得て、前記候補名の検索ウェブページ特徴とすることを含む、請求項１に記載の方法。
前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、
上位Ｎ（Ｎは所定の正整数である）個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って、前記検索結果の隠れベクトルを得ることを含む、請求項６に記載の方法。
候補名から文書統計特徴を抽出することは、
ウェブページデータにおいて前記候補名の逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とすることを含む、請求項１に記載の方法。
候補名から語義特徴を抽出することは、
候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得ることを含む、請求項１に記載の方法。
前記テキストセグメントの語義表現ベクトルは、
テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、
候補名におけるテキストセグメントの位置をベクトル空間にマッピングしてテキストセグメントの位置表現ベクトルを取得し、
ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文書頻度の表現ベクトルを取得し、
テキストセグメントの隠れベクトル、位置表現ベクトル及び逆文書頻度の表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、ことにより特定される、請求項９に記載の方法。
コンピュータにより実行される、名称ソートモデルを構築する方法であって、
ＰＯＩ名の正例および負例を含む訓練サンプルを取得し、
各訓練サンプルから検索ウェブページ特徴、文書統計特徴および語義特徴を抽出し、各訓練サンプルがＰＯＩ名となる確率を特定し、
ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得ることを含む、方法。
訓練サンプルから検索ウェブページ特徴を抽出することは、
訓練サンプルをｑｕｅｒｙとして検索し、
取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを取得して、前記訓練サンプルの検索ウェブページ特徴とすることを含む、請求項１１に記載の方法。
前記取得された検索結果をセマンティックコーディングして検索結果の隠れベクトルを得ることは、
上位Ｎ個（Ｎは所定の正整数である）の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って、前記検索結果の隠れベクトルを得ることを含む、請求項１２に記載の方法。
訓練サンプルから文書統計特徴を抽出することは、
ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とすることを含む、請求項１１に記載の方法。
訓練サンプルから語義特徴を抽出することは、
訓練サンプルに含まれる各テキストセグメントの語義特徴、位置的特徴、および文書統計特徴のうちの少なくとも１つに基づいて各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得ることを含む、請求項１１に記載の方法。
前記テキストセグメントの語義表現ベクトルは、
テキストセグメントをセマンティックコーディングしてテキストセグメントの隠れベクトルを取得し、
候補名におけるテキストフラグメントの位置をベクトル空間にマッピングしてテキストフラグメントの位置表現ベクトルを取得し、
ウェブページデータにおいて前記テキストセグメントの逆文書頻度を統計して前記逆文
書頻度の表現ベクトルを取得し、
テキストセグメントの隠れベクトル、位置表現ベクトル、および逆文書頻度表現ベクトルをスプライシングして当該テキストセグメントの語義表現ベクトルを得る、
ことにより特定される請求項１５に記載の方法。
ＰＯＩ名を抽出する装置であって、
ＰＯＩの画像データから認識された二つ以上のテキストセグメントを取得する取得ユニットと、
前記テキストセグメントを用いて２つ以上の候補名を構築する構築ユニットと、
予め訓練された名称ソートモデルを用いて各候補名をソートするソートユニットと、
前記ソートユニットによるソート結果に基づいてＰＯＩ名を特定する特定ユニットと、を備え、
前記名称ソートモデルは、各候補名から抽出された検索ウェブページ特徴、文書統計特徴、および語義特徴を利用して、各候補名がＰＯＩ名となる確率を特定し、確率に基づいて各候補名をソートする、
装置。
前記テキストセグメントから支店情報セグメントを認識する認識ユニットを更に備え、
前記構築ユニットは、具体的に、前記テキストセグメントにおける前記支店情報セグメントを除く他のテキストセグメントに対して順列・組合わせを行って２つ以上の候補名を取得し、
前記特定ユニットは、具体的に、先頭の候補名と前記支店情報セグメントとを組み合わせて前記ＰＯＩ名を得る、請求項１７に記載の装置。
前記認識ユニットは、具体的に、予め訓練された判別モデルを用いて各テキストセグメントを判別して、各テキストセグメントが支店情報セグメントであるか否かを判定し、
サンプルデータをＰＯＩデータベースから取得し、支店情報テキストをポジティブサンプルとし、非支店情報テキストをネガティブサンプルとし、前記サンプルデータを用いて判別モデルを訓練するモデル訓練ユニットを更に備える、請求項１８に記載の装置。
前記ソートユニットは、名称ソートモデルを使用して候補名から検索ウェブページ特徴を抽出する場合に、具体的に、
候補名をｑｕｅｒｙとして検索し、
上位Ｎ（Ｎは所定の正整数である）個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得て、前記候補名の検索ウェブページ特徴とする、
請求項１７に記載の装置。
前記ソートユニットは、名称ソートモデルを使用して候補名から文書統計特徴を抽出する場合に、具体的に、
ウェブページデータにおいて前記候補名の逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記候補名の文書統計特徴とする、
請求項１７に記載の装置。
前記ソートユニットは、名称ソートモデルを使用して候補名から語義特徴を抽出する場合に、具体的に、
候補名に含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記候補名の語義表現ベクトルを得る、
請求項１７に記載の装置。
名称ソートモデルを構築する装置であって、
ＰＯＩ名の正例および負例を含む訓練サンプルを取得するサンプル取得ユニットと、
各訓練サンプルから検索ウェブページ特徴、文書統計特徴及び語義特徴を抽出し、各訓練サンプルがＰＯＩ名となる確率を特定し、ｐａｉｒｗｉｓｅアルゴリズムを用いて正例がＰＯＩ名となる確率と負例がＰＯＩ名となる確率との差を最大化することを訓練目標として訓練を行うことにより名称ソートモデルを得るモデル訓練ユニットと、を備える、
装置。
前記モデル訓練ユニットは、訓練サンプルから検索ウェブページ特徴を抽出する場合に、具体的に、
訓練サンプルをｑｕｅｒｙとして検索し、
上位Ｎ（Ｎは所定の正整数である）個の検索結果テキストを取得し、
取得された各検索結果テキストをそれぞれセマンティックコーディングして各検索結果テキストの隠れベクトルを取得し、
前記各検索結果テキストの隠れベクトルに対して統合処理を行って検索結果の隠れベクトルを得て、前記訓練サンプルの検索ウェブページ特徴とする、請求項２３に記載の装置。
前記モデル訓練ユニットは、訓練サンプルから文書統計特徴を抽出する場合に、具体的に、
ウェブページデータにおいて前記訓練サンプルの逆文書頻度を統計し、
前記逆文書頻度の表現ベクトルを前記訓練サンプルの文書統計特徴とする、請求項２３に記載の装置。
前記モデル訓練ユニットは、訓練サンプルから語義特徴を抽出する場合に、具体的に、
訓練サンプルに含まれる各テキストセグメントの語義特徴、位置特徴及び文書統計特徴のうちの少なくとも１つに基づいて、各テキストセグメントの語義表現ベクトルを取得し、
前記各テキストセグメントの語義表現ベクトルに対して統合処理を行って前記訓練サンプルの語義表現ベクトルを得る、
請求項２３に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに請求項１～１６の何れか一つに記載の方法を実行させる、電子デバイス。
コンピュータに請求項１～１６の何れか一つに記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項１～１６の何れか一つに記載の方法を実行させるためのコンピュータプログラム。