JP6834774B2 - 情報抽出装置 - Google Patents
情報抽出装置 Download PDFInfo
- Publication number
- JP6834774B2 JP6834774B2 JP2017101200A JP2017101200A JP6834774B2 JP 6834774 B2 JP6834774 B2 JP 6834774B2 JP 2017101200 A JP2017101200 A JP 2017101200A JP 2017101200 A JP2017101200 A JP 2017101200A JP 6834774 B2 JP6834774 B2 JP 6834774B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- processing unit
- candidate character
- annotator
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、実施形態に係る情報抽出装置100の機能構成を示す図である。図1に示す情報抽出装置100は、WEBクローリングを行うことによって、インターネット上のWEBページ110(「文書データ」の一例)からPOIデータ(「施設情報」の一例)を抽出し、当該POIデータを施設情報DB120へ登録および更新することが可能な装置である。
図2は、実施形態に係る情報抽出装置100による処理の手順を示すフローチャートである。図2の処理は、例えば、情報抽出装置100にスケジュール設定されることにより、情報抽出装置100によって定期的(例えば、1日毎)に実行される。
図3は、実施形態に係るアノテータ処理部104によるアノテータ処理の手順を示すフローチャートである。図3は、図2にフローチャートにおけるステップS204のアノテータ処理を詳細に説明するものである。図3の処理には、スクレーパ処理部103から出力された構造体(HTML構造)が入力される。
図4は、実施形態に係るアノテータ処理部104による住所取得処理の手順を示すフローチャートである。図4は、図3にフローチャートにおけるステップS303の住所取得処理を詳細に説明するものである。なお、図4の処理には、複数のテキストデータを含む構造体が入力される。これに応じて、アノテータ処理部104は、図4の処理を、構造体に含まれるテキストデータ毎に実行する。
図5は、実施形態に係るアノテータ処理部104によるナイーブベイズ推定値取得処理の手順を示すフローチャートである。図5は、図3にフローチャートにおけるステップS307の処理を詳細に説明するものである。なお、図5の処理には、複数のPOI名称の候補文字列を含む候補リストが入力される。これに応じて、アノテータ処理部104は、図5の処理を、候補リストに含まれるPOI名称の候補文字列毎に実行する。
101 クローラ処理部(文書データ取得部)
102 パーサ処理部
103 スクレーパ処理部
104 アノテータ処理部(候補文字列抽出部、位置情報取得部、住所文字列決定部)
105 データリンカ処理部
110 WEBページ
120 施設情報DB
Claims (1)
- 文書データを取得する文書データ取得部と、
前記文書データから住所の候補文字列を抽出する候補文字列抽出部と、
前記候補文字列に対してジオコーディングを行うことにより、位置情報の取得を試みる位置情報取得部と、
前記位置情報取得部による前記位置情報の取得結果に応じて、前記住所とする文字列を決定する住所文字列決定部と
を備え、
前記位置情報取得部による前記位置情報の取得に成功した場合、前記位置情報取得部による前記位置情報の再取得に失敗するまで、
前記候補文字列抽出部が、前記候補文字列を後方に延長して、前記文書データから前記候補文字列を再抽出し、
前記位置情報取得部が、再抽出された前記候補文字列に対して前記ジオコーディングを行うことにより、前記位置情報の再取得を試み、
前記位置情報取得部による前記位置情報の再取得に失敗した場合、
前記住所文字列決定部が、前記位置情報の再取得に失敗する直前に、前記位置情報の取得に成功した前記候補文字列を、前記住所とする文字列に決定する
情報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017101200A JP6834774B2 (ja) | 2017-05-22 | 2017-05-22 | 情報抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017101200A JP6834774B2 (ja) | 2017-05-22 | 2017-05-22 | 情報抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195272A JP2018195272A (ja) | 2018-12-06 |
JP6834774B2 true JP6834774B2 (ja) | 2021-02-24 |
Family
ID=64570319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017101200A Active JP6834774B2 (ja) | 2017-05-22 | 2017-05-22 | 情報抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6834774B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829095A (zh) * | 2019-02-12 | 2019-05-31 | 苏州思必驰信息科技有限公司 | 网页信息的获取方法及系统 |
WO2021020008A1 (ja) * | 2019-07-26 | 2021-02-04 | 株式会社Kokusai Electric | 基板処理装置、半導体装置の製造方法、プログラム及びガス供給システム |
CN111026937B (zh) | 2019-11-13 | 2021-02-19 | 百度在线网络技术(北京)有限公司 | 提取poi名称的方法、装置、设备和计算机存储介质 |
-
2017
- 2017-05-22 JP JP2017101200A patent/JP6834774B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018195272A (ja) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
JP6834774B2 (ja) | 情報抽出装置 | |
JP5989170B2 (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
CN110321560B (zh) | 一种从文本信息中确定位置信息的方法、装置及电子设备 | |
CN109299233A (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US11520835B2 (en) | Learning system, learning method, and program | |
CN108170708B (zh) | 一种车辆实体识别方法、电子设备、存储介质、系统 | |
CN109299376B (zh) | 一种基于教育云操作系统的模糊搜索方法及装置 | |
JP5629976B2 (ja) | 特許明細書評価・作成作業支援装置、方法及びプログラム | |
CN113961768A (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
US11797551B2 (en) | Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method | |
JP2005107931A (ja) | 画像検索装置 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
Sharma et al. | Named entity recognition in Assamese using CRFS and rules | |
CN110489528B (zh) | 基于电子书内容的电子词典重构方法及计算设备 | |
US20110172991A1 (en) | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program | |
JP4558369B2 (ja) | 情報抽出システム、情報抽出方法、コンピュータプログラム | |
CN112182235A (zh) | 一种构建知识图谱的方法、装置、计算机设备及存储介质 | |
JP2007011892A (ja) | 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN111488511B (zh) | 一种网站主题提取方法、系统及电子设备和存储介质 | |
CN109189916B (zh) | 英文摘要关键信息提取方法、装置及电子设备 | |
CN109582850B (zh) | 一种网页爬取的方法、装置、存储介质及电子设备 | |
JP4521413B2 (ja) | データベース管理システム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6834774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |