JP6834774B2 - 情報抽出装置 - Google Patents

情報抽出装置 Download PDF

Info

Publication number
JP6834774B2
JP6834774B2 JP2017101200A JP2017101200A JP6834774B2 JP 6834774 B2 JP6834774 B2 JP 6834774B2 JP 2017101200 A JP2017101200 A JP 2017101200A JP 2017101200 A JP2017101200 A JP 2017101200A JP 6834774 B2 JP6834774 B2 JP 6834774B2
Authority
JP
Japan
Prior art keywords
character string
processing unit
candidate character
annotator
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017101200A
Other languages
English (en)
Other versions
JP2018195272A (ja
Inventor
功一 鈴木
功一 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017101200A priority Critical patent/JP6834774B2/ja
Publication of JP2018195272A publication Critical patent/JP2018195272A/ja
Application granted granted Critical
Publication of JP6834774B2 publication Critical patent/JP6834774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報抽出装置に関する。
従来より、WEBクローリングに代表されるように、WEBページ等の文書データから施設情報(例えば、POI(Point of Interest)名称、住所、電話番号、郵便番号、キーワード等)を抽出し、当該施設情報をデータベースに自動的に蓄積できるようにした技術が知られている。
下記特許文献1には、インターネットに接続されたサーバから文書データを取得し、当該文書データに含まれている住所文字列に、「都道府県」、「市町村」、「町域」、「街区」、「号」のいずれまでが含まれているかによって、当該住所文字列の詳細度(1〜5)を決定する技術が開示されている。例えば、住所文字列に「号」までが含まれている場合には、最も高い詳細度「5」が決定されるといった具合である。また、下記特許文献1には、所定の閾値以上の詳細度を有する住所文字列を含む文書データを、データベースに組み込むようにした技術が開示されている。
特開2012−256356号公報
しかしながら、従来の技術では、文書データから抽出する住所文字列の終端を高精度に特定することができない。このため、従来の技術では、住所の途中までしか住所文字列として取得しない場合や、住所に続く住所以外の語句までも住所文字列として取得してしまう場合がある。また、従来の技術では、文書データから複数のPOI名称の候補文字列が抽出された場合、いずれの候補文字列が実際のPOI名称であるかを判断することが困難であるため、実際にはPOI名称ではない候補文字列を、POI名称として誤って抽出してしまう場合がある。
このようなことから、従来、文書データからの施設情報の抽出精度を高めることが困難であった。
本発明は、上述した従来技術の課題を解決するため、文書データからの施設情報の抽出処理を適切に行い、文書データからの施設情報の抽出精度を高めることを目的とする。
本発明の実施形態の情報抽出装置は、文書データを取得する文書データ取得部と、前記文書データから住所の候補文字列を抽出する候補文字列抽出部と、前記候補文字列に対してジオコーディングを行うことにより、位置情報の取得を試みる位置情報取得部と、前記位置情報取得部による前記位置情報の取得結果に応じて、前記住所とする文字列を決定する住所文字列決定部とを備え、前記位置情報取得部による前記位置情報の取得に成功した場合、前記位置情報取得部による前記位置情報の再取得に失敗するまで、前記候補文字列抽出部が、前記候補文字列を後方に延長して、前記文書データから前記候補文字列を再抽出し、前記位置情報取得部が、再抽出された前記候補文字列に対して前記ジオコーディングを行うことにより、前記位置情報の再取得を試み、前記位置情報取得部による前記位置情報の再取得に失敗した場合、前記住所文字列決定部が、前記位置情報の再取得に失敗する直前に、前記位置情報の取得に成功した前記候補文字列を、前記住所とする文字列に決定する。
文書データからの施設情報の抽出処理を適切に行い、文書データからの施設情報の抽出精度を高めることができる。
実施形態に係る情報抽出装置の機能構成を示す図である。 実施形態に係る情報抽出装置による処理の手順を示すフローチャートである。 実施形態に係るアノテータ処理部によるアノテータ処理の手順を示すフローチャートである。 実施形態に係るアノテータ処理部による住所取得処理の手順を示すフローチャートである。 実施形態に係るアノテータ処理部によるナイーブベイズ推定値取得処理の手順を示すフローチャートである。
以下、図面を参照して、本発明の実施形態の情報抽出装置について説明する。
(情報抽出装置100の機能構成)
図1は、実施形態に係る情報抽出装置100の機能構成を示す図である。図1に示す情報抽出装置100は、WEBクローリングを行うことによって、インターネット上のWEBページ110(「文書データ」の一例)からPOIデータ(「施設情報」の一例)を抽出し、当該POIデータを施設情報DB120へ登録および更新することが可能な装置である。
図1に示すように、情報抽出装置100は、クローラ処理部101、パーサ処理部102、スクレーパ処理部103、アノテータ処理部104、およびデータリンカ処理部105を備える。
クローラ処理部101は、WEBクローリングを行うことにより、インターネット上のWEBサイトからWEBページ110を取得し、当該WEBページ110をメモリに格納する。すなわち、クローラ処理部101は、「文書データ取得部」としての機能を有する。
パーサ処理部102は、クローラ処理部101によって取得されたWEBページ110に対してパーサ処理を行うことにより、当該WEBページ110から、特定のキーワードによる、特定のHTML(HyperText Markup Language)ファイルの選択を行う。
スクレーパ処理部103は、パーサ処理部102によって選択されたHTMLファイルに対してスクレーパ処理を行うことにより、当該HTMLファイルから不要部分を削除し、残りの部分を構造体として出力する。
アノテータ処理部104は、スクレーパ処理部103によって出力された構造体に対してアノテータ処理を行うことにより、当該構造体に含まれるテキストデータを解析し、当該テキストデータから、予め定義された属性値(POI名称、住所、電話番号、郵便番号、キーワード等)を取得する。
特に、アノテータ処理部104は、「候補文字列抽出部」、「位置情報取得部」、および「住所文字列決定部」としての機能を有している。すなわち、アノテータ処理部104は、WEBページ110から住所の候補文字列を抽出し、当該候補文字列に対してジオコーディングを行うことにより位置情報の取得を試み、位置情報の取得結果に応じて、住所とする文字列を決定することができる。これにより、アノテータ処理部104は、WEBページ110から抽出する住所文字列の終端を高精度に特定することができる。この点については、図4を用いて詳細に説明する。
さらに、アノテータ処理部104は、WEBページ110からPOI名称の候補文字列を抽出し、各候補文字列について、ナイーブベイズ推定値を取得することができる。そして、アノテータ処理部104は、POI名称の候補文字列が、所定文字列を含む、または、強調されている場合、その候補文字列のナイーブベイズ推定値を高めることができる。これにより、アノテータ処理部104は、実際にPOI名称である可能性が最も高い文字列を、POI名称として抽出することができる。この点については、図5を用いて詳細に説明する。
データリンカ処理部105は、データリンカ処理を行うことにより、アノテータ処理部104により取得された各属性値をPOIデータとして、当該POIデータに対して、ジオコーディング、POIマスタとの名寄せ等を行い、当該POIデータを施設情報DB120に対して登録または更新する。
なお、情報抽出装置100の各機能は、例えば、各種情報処理装置(例えば、サーバ、パーソナルコンピュータ等)において、各種記憶装置(例えば、ROM(Read Only Memory)、フラッシュメモリ等)に記憶されたプログラムを、コンピュータ(例えば、CPU(Central Processing Unit)等)が実行することにより、実現される。
(情報抽出装置100による処理の手順)
図2は、実施形態に係る情報抽出装置100による処理の手順を示すフローチャートである。図2の処理は、例えば、情報抽出装置100にスケジュール設定されることにより、情報抽出装置100によって定期的(例えば、1日毎)に実行される。
まず、クローラ処理部101が、WEBクローリングを行うことにより、インターネット上のWEBサイトからWEBページ110を取得し、当該WEBページ110をメモリに格納する(ステップS201)。
次に、パーサ処理部102が、ステップS201で取得されたWEBページ110に対してパーサ処理を行うことにより、当該WEBページ110から、特定のキーワードによる、特定のHTMLファイルの選択を行う(ステップS202)。
次に、スクレーパ処理部103が、ステップS202で選択されたHTMLファイルに対してスクレーパ処理を行うことにより、当該HTMLファイルから不要部分を削除し、残りの部分(すなわち、POIデータの抽出対象とするテキストデータ。例えば、口コミ情報等)を構造体として出力する(ステップS203)。
次に、アノテータ処理部104が、ステップS203で出力された構造体に対してアノテータ処理を行うことにより、当該構造体に含まれるテキストデータを解析し、当該テキストデータから、予め定義された属性値(POI名称、住所、電話番号、郵便番号、キーワード等)を取得する(ステップS204)。なお、アノテータ処理部104によるアノテータ処理の詳細については、図3を用いて後述する。
次に、データリンカ処理部105が、データリンカ処理を行うことにより、ステップS204で取得された各属性値をPOIデータとして、当該POIデータに対して、ジオコーディング、POIマスタとの名寄せ等を行い、当該POIデータを施設情報DBに対して登録または更新する(ステップS205)。そして、情報抽出装置100は、図2に示す一連の処理を終了する。
(アノテータ処理部104によるアノテータ処理の手順)
図3は、実施形態に係るアノテータ処理部104によるアノテータ処理の手順を示すフローチャートである。図3は、図2にフローチャートにおけるステップS204のアノテータ処理を詳細に説明するものである。図3の処理には、スクレーパ処理部103から出力された構造体(HTML構造)が入力される。
まず、アノテータ処理部104は、構造体に含まれるテキストデータに対して、形態素解析を行い、当該テキストデータを、複数の形態素(単語、品詞等)単位に分割する(ステップS301)。
次に、アノテータ処理部104は、ステップS301で複数の形態素に分割されたテキストデータの中から、郵便番号および電話番号を取得する(ステップS302)。例えば、アノテータ処理部104は、「‐」および数字からなる所定のフォーマットの文字列(例えば、「xxx−xxxx」)や、直前に「郵便番号」、「〒」等が存在する文字列を、郵便番号として取得する。また、例えば、アノテータ処理部104は、「‐」および数字からなる所定のフォーマットの文字列(例えば、「xxx−xxxx−xxxx」)や、直前に「電話番号」、「TEL」等が存在する文字列を、電話番号として取得する。
次に、アノテータ処理部104は、住所取得処理を実行することにより、ステップS301で複数の形態素に分割されたテキストデータの中から、住所を取得する(ステップS303)。住所取得処理の詳細については、図4を用いて後述する。
次に、アノテータ処理部104は、ステップS301で複数の形態素に分割されたテキストデータのうち、<title>タグが付されている部分と、<h>タグが付されている部分とのそれぞれに対して、POI名称の候補文字列の抽出を試みる(ステップS304)。<title>タグおよび<h>タグは、POI名称が設定されている可能性が高いからである。但し、これに限らず、アノテータ処理部104は、これ以外のタグが付されている部分についても、POI名称の候補文字列の抽出を試みるようにしてもよい。
次に、アノテータ処理部104は、ステップS304で抽出されたPOI名称の候補文字列から、POI名称として不要と思われる部分を除去する(ステップS305)。さらに、アノテータ処理部104は、頻出語フィルタ処理を行うことにより、ステップS304で抽出されたPOI名称の候補文字列の中から、POI名称である可能性の高い候補文字列を抽出する(ステップS306)。例えば、アノテータ処理部104は、POI名称の候補文字列に、予め学習しておいたPOI名称の頻出語が含まれている場合、その候補文字列がPOI名称である可能性が高いと判断する。
次に、アノテータ処理部104は、ナイーブベイズ推定値取得処理を実行することにより、ステップS306で抽出された各候補文字列に対して、ナイーブベイズ推定値を取得する(ステップS307)。ナイーブベイズ推定値取得処理の詳細については、図4を用いて後述する。そして、アノテータ処理部104は、図3に示す一連の処理を終了する。
(アノテータ処理部104による住所取得処理の手順)
図4は、実施形態に係るアノテータ処理部104による住所取得処理の手順を示すフローチャートである。図4は、図3にフローチャートにおけるステップS303の住所取得処理を詳細に説明するものである。なお、図4の処理には、複数のテキストデータを含む構造体が入力される。これに応じて、アノテータ処理部104は、図4の処理を、構造体に含まれるテキストデータ毎に実行する。
まず、アノテータ処理部104は、構造体に含まれるテキストデータから、住所を含むと推定される文書を抽出する(ステップS401)。例えば、アノテータ処理部104は、住所に関する特定のキーワード(例えば、「住所:」、「県」、「市」等)を含む文書(例えば、「この度ついに××県××市××〇丁目〇番地〇号に新規オープンしました」等)を抽出する。
次に、アノテータ処理部104は、ステップS401で抽出された文書が、住所の書式(例えば、「××県××市」等)に合致する文字列を含んでいるか否かを判断する(ステップS402)。
ステップS402において、住所の書式に合致する文字列を含んでいないと判断された場合(ステップS402:No)、アノテータ処理部104は、図4に示す一連の処理を終了する。
一方、ステップS402において、住所の書式に合致する文字列を含んでいると判断された場合(ステップS402:Yes)、アノテータ処理部104は、住所の書式に合致すると判断された文字列の長さが、128文字未満であるか否かを判断する(ステップS403)。
ステップS403において、住所の書式に合致すると判断された文字列の長さが、128文字未満ではないと判断された場合(ステップS403:No)、アノテータ処理部104は、図4に示す一連の処理を終了する。
一方、ステップS403において、住所の書式に合致すると判断された文字列の長さが、128文字未満であると判断された場合(ステップS403:Yes)、アノテータ処理部104は、住所の書式に合致すると判断された文字列を候補文字列とし、当該候補文字列に対してジオコーディングを実施する(ステップS404)。例えば、アノテータ処理部104は、特定の機関から提供されたジオコーディング用のAPI(Application Programming Interface)を実行することにより、候補文字列に対応する位置情報(経度および緯度)を取得する。
そして、アノテータ処理部104は、ジオコーディングによる位置情報の取得に成功したか否かを判断する(ステップS405)。ステップS405において、ジオコーディングによる位置情報の取得に成功したと判断された場合(ステップS405:Yes)、アノテータ処理部104は、位置情報の取得に成功した候補文字列をメモリに格納し(ステップS406)、候補文字列を後方に延長して(ステップS407)、ステップS401で抽出された文書から、候補文字列を再抽出する(ステップS408)。そして、アノテータ処理部104は、ステップS404に処理を戻す。
なお、アノテータ処理部104は、例えば、ステップS407による候補文字列の延長を、住所に関する特定の語句単位(例えば、都道府県、市区町村、番地等)で行う。例えば、現在の候補文字列が「××県」であった場合において、その次の語句が「××市」であった場合、アノテータ処理部104は、「××県××市」を新たな候補文字列としてもよい。ここで、アノテータ処理部104は、現在の候補文字列の次に、住所に関する特定の語句ではない品詞が存在する場合、候補文字列を、その品詞まで延長してもよい。例えば、現在の候補文字列が「××県××市××〇丁目〇番地〇号」であった場合において、その次の品詞が「に」であった場合、アノテータ処理部104は、「××県××市××〇丁目〇番地〇号に」を新たな候補文字列としてもよい。
一方、ステップS405において、ジオコーディングによる位置情報の取得に失敗したと判断された場合(ステップS405:No)、位置情報の取得に成功した候補文字列がメモリに格納されているか否かを判断する(ステップS409)。
ここで、「ジオコーディングによる位置情報の取得に失敗した場合」とは、実際に、ジオコーディングのAPIにてエラーが発生した場合に限らず、例えば、候補文字列の一部の文字列から位置情報が取得された場合(すなわち、候補文字列が完全一致しなかった場合)も含む。例えば、APIによっては、「××県××市××〇丁目〇番地〇号に」を入力した場合に、エラーが発生せずに、位置情報の取得が可能な一部の文字列「××県××市××〇丁目〇番地〇号」から、位置情報を取得する場合がある。この場合、アノテータ処理部104は、「ジオコーディングによる位置情報の取得に失敗した」と判断するようにしてもよい。
また、APIによっては、候補文字列との一致度を示す信頼度を返す場合がある。この場合、例えば、アノテータ処理部104は、直前の候補文字列から信頼度が上昇した場合または直前の候補文字列と信頼度が同一の場合、「ジオコーディングによる位置情報の取得に成功した」と判断し、直前の候補文字列から信頼度が低下した場合、「ジオコーディングによる位置情報の取得に失敗した」と判断するようにしてもよい。
ステップS409において、位置情報の取得に成功した候補文字列がメモリに格納されていないと判断された場合(ステップS409:No)、アノテータ処理部104は、図4に示す一連の処理を終了する。
一方、ステップS409において、位置情報の取得に成功した候補文字列がメモリに格納されていると判断された場合(ステップS409:Yes)、アノテータ処理部104は、メモリに格納されている候補文字列が、区、地番、および枝番を含むか否かを判断する(ステップS410)。ステップS410において、メモリに格納されている候補文字列が、区、地番、および枝番を含まないと判断された場合(ステップS410:No)、アノテータ処理部104は、図4に示す一連の処理を終了する。
一方、ステップS410において、メモリに格納されている候補文字列が、区、地番、および枝番を含むと判断された場合(ステップS410:Yes)、アノテータ処理部104は、メモリに格納されている候補文字列の長さが、所定文字数未満であるか否かを判断する(ステップS411)。ステップS411において、メモリに格納されている候補文字列の長さが、所定文字数未満ではないと判断された場合(ステップS411:No)、アノテータ処理部104は、図4に示す一連の処理を終了する。
一方、ステップS411において、メモリに格納されている候補文字列の長さが、所定文字数未満であると判断された場合(ステップS411:Yes)、アノテータ処理部104は、メモリに格納されている候補文字列を、住所とする文字列に決定する(ステップS412)。そして、アノテータ処理部104は、図4に示す一連の処理を終了する。
(アノテータ処理部104によるナイーブベイズ推定値取得処理の手順)
図5は、実施形態に係るアノテータ処理部104によるナイーブベイズ推定値取得処理の手順を示すフローチャートである。図5は、図3にフローチャートにおけるステップS307の処理を詳細に説明するものである。なお、図5の処理には、複数のPOI名称の候補文字列を含む候補リストが入力される。これに応じて、アノテータ処理部104は、図5の処理を、候補リストに含まれるPOI名称の候補文字列毎に実行する。
まず、アノテータ処理部104は、POI名称の候補文字列をナイーブベイズ分類器にかけることにより、POI名称としての確からしさの推定を行う(ステップS501)。そして、アノテータ処理部104は、ステップS501で推定されたPOI名称としての確からしさを示す、ナイーブベイズ推定値を取得する(ステップS502)。このナイーブベイズ推定値は、「1.00」を最大値とするものである。
次に、アノテータ処理部104は、POI名称の候補文字列が、所定文字列を含むか、または、強調されているか否かを判断する(ステップS503)。所定文字列とは、例えば、「株式会社」、「店」等、POI名称である可能性を高める文字列である。このため、情報抽出装置100には、予め、複数の所定の文字列が、メモリ等に予め登録されている。また、POI名称の候補文字列が強調されている場合とは、例えば、POI名称の候補文字列に強調タグ(例えば、<strong>、<em>、<b>、<font>等)が付されている場合等である。
ステップS503において、POI名称の候補文字列が、所定文字列を含まず、且つ、強調されていないと判断された場合(ステップS503:No)、アノテータ処理部104は、ステップS505へ処理を進める。
一方、ステップS503において、POI名称の候補文字列が、所定文字列を含む、または、強調されていると判断された場合(ステップS503:Yes)、アノテータ処理部104は、ステップS502で取得されたナイーブベイズ推定値を所定倍(例えば、1.25倍)する(ステップS504)。但し、これによりナイーブベイズ推定値が「1.00」を超える場合は、ナイーブベイズ推定値を「1.00」とする。そして、アノテータ処理部104は、ステップS505へ処理を進める。
ステップS505では、アノテータ処理部104は、ナイーブベイズ推定値を、POI名称の候補文字列に対応付けて、候補リストに保存する。そして、アノテータ処理部104は、図5に示す一連の処理を終了する。
以上説明したように、本実施形態に係る情報抽出装置100によれば、WEBページ110から抽出した候補文字列に対してジオコーディングを行うことにより、位置情報の取得を試み、当該位置情報の取得結果に応じて、住所とする文字列を決定することができる。特に、本実施形態に係る情報抽出装置100によれば、位置情報の取得に成功した場合、位置情報の再取得に失敗するまで、候補文字列を後方に延長して、位置情報の再取得を試みることができる。これにより、本実施形態に係る情報抽出装置100によれば、WEBページ110から抽出する住所文字列の終端を高精度に特定することができる。したがって、本実施形態に係る情報抽出装置100によれば、WEBページ110からのPOIデータの抽出精度を高めることができる。
また、本実施形態に係る情報抽出装置100によれば、WEBページ110から抽出したPOI名称の候補文字列が所定文字列を含むか、または、強調されている場合、そのPOI名称としての確からしさを示すナイーブベイズ推定値を高めることができる。このため、本実施形態に係る情報抽出装置100によれば、例えば、WEBページ110から複数のPOI名称の候補文字列が抽出された場合であっても、これら複数のPOI名称の候補文字列の中から、ナイーブベイズ推定値に基づいて、実際のPOI名称である可能性が最も高い文字列を抽出することができる。したがって、本実施形態に係る情報抽出装置100によれば、WEBページ110からのPOIデータの抽出精度を高めることができる。
以上、本発明の好ましい実施形態について詳述したが、本発明はこれらの実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形又は変更が可能である。
100 情報抽出装置
101 クローラ処理部(文書データ取得部)
102 パーサ処理部
103 スクレーパ処理部
104 アノテータ処理部(候補文字列抽出部、位置情報取得部、住所文字列決定部)
105 データリンカ処理部
110 WEBページ
120 施設情報DB

Claims (1)

  1. 文書データを取得する文書データ取得部と、
    前記文書データから住所の候補文字列を抽出する候補文字列抽出部と、
    前記候補文字列に対してジオコーディングを行うことにより、位置情報の取得を試みる位置情報取得部と、
    前記位置情報取得部による前記位置情報の取得結果に応じて、前記住所とする文字列を決定する住所文字列決定部と
    を備え、
    前記位置情報取得部による前記位置情報の取得に成功した場合、前記位置情報取得部による前記位置情報の再取得に失敗するまで、
    前記候補文字列抽出部が、前記候補文字列を後方に延長して、前記文書データから前記候補文字列を再抽出し、
    前記位置情報取得部が、再抽出された前記候補文字列に対して前記ジオコーディングを行うことにより、前記位置情報の再取得を試み、
    前記位置情報取得部による前記位置情報の再取得に失敗した場合、
    前記住所文字列決定部が、前記位置情報の再取得に失敗する直前に、前記位置情報の取得に成功した前記候補文字列を、前記住所とする文字列に決定する
    情報抽出装置。
JP2017101200A 2017-05-22 2017-05-22 情報抽出装置 Active JP6834774B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017101200A JP6834774B2 (ja) 2017-05-22 2017-05-22 情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017101200A JP6834774B2 (ja) 2017-05-22 2017-05-22 情報抽出装置

Publications (2)

Publication Number Publication Date
JP2018195272A JP2018195272A (ja) 2018-12-06
JP6834774B2 true JP6834774B2 (ja) 2021-02-24

Family

ID=64570319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017101200A Active JP6834774B2 (ja) 2017-05-22 2017-05-22 情報抽出装置

Country Status (1)

Country Link
JP (1) JP6834774B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829095A (zh) * 2019-02-12 2019-05-31 苏州思必驰信息科技有限公司 网页信息的获取方法及系统
WO2021020008A1 (ja) * 2019-07-26 2021-02-04 株式会社Kokusai Electric 基板処理装置、半導体装置の製造方法、プログラム及びガス供給システム
CN111026937B (zh) 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
JP2018195272A (ja) 2018-12-06

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
JP6834774B2 (ja) 情報抽出装置
JP5989170B2 (ja) 代表者の信頼度を用いた検索結果順位化装置および方法
CN110321560B (zh) 一种从文本信息中确定位置信息的方法、装置及电子设备
CN109299233A (zh) 文本数据处理方法、装置、计算机设备及存储介质
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US11520835B2 (en) Learning system, learning method, and program
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN109299376B (zh) 一种基于教育云操作系统的模糊搜索方法及装置
JP5629976B2 (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
CN113961768A (zh) 敏感词检测方法、装置、计算机设备和存储介质
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
JP2005107931A (ja) 画像検索装置
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
Sharma et al. Named entity recognition in Assamese using CRFS and rules
CN110489528B (zh) 基于电子书内容的电子词典重构方法及计算设备
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
JP4558369B2 (ja) 情報抽出システム、情報抽出方法、コンピュータプログラム
CN112182235A (zh) 一种构建知识图谱的方法、装置、计算机设备及存储介质
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN111488511B (zh) 一种网站主题提取方法、系统及电子设备和存储介质
CN109189916B (zh) 英文摘要关键信息提取方法、装置及电子设备
CN109582850B (zh) 一种网页爬取的方法、装置、存储介质及电子设备
JP4521413B2 (ja) データベース管理システム及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210118

R151 Written notification of patent or utility model registration

Ref document number: 6834774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151