JP2013257634A - 文書からの地名と語の対の抽出装置及び方法及びプログラム - Google Patents
文書からの地名と語の対の抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2013257634A JP2013257634A JP2012131940A JP2012131940A JP2013257634A JP 2013257634 A JP2013257634 A JP 2013257634A JP 2012131940 A JP2012131940 A JP 2012131940A JP 2012131940 A JP2012131940 A JP 2012131940A JP 2013257634 A JP2013257634 A JP 2013257634A
- Authority
- JP
- Japan
- Prior art keywords
- pair
- document
- word
- place name
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、文書記憶手段から取得した文書中の語の総出現回数を算出し、文書構造による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納し、地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、記憶手段から語の総出現回数と基準合致回数を取得して、抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定し、決定された重みと地名と語の対が所定の条件を満たす対の集合を抽出する。
【選択図】 図1
Description
この文において、{横須賀−ヤキソバ}という対は意味的には繋がりがないにもかかわらず、文書内での共起を対象とした場合、対として抽出することになってしまう。
この文において、{横須賀−温暖}や{横須賀−横横道路}という対は、意味的繋がりが深いと考えられるが、一文内での共起に限定してしまっては対として抽出されないことになる。
文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納する基準毎頻度計数手段と、
地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定手段と、
前記重み決定手段により決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出手段と、を有する。
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する手段を含む。
前記正解対が与えられていない場合に、前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する手段を含む。
語頻度記憶部7の当該語のエントリを取り出し、総出現回数に1を加えたものを当該エントリへ書き戻す。もし、当該語のエントリがなければ語頻度記憶部7に、当該語の行を作成し、現在計数中の抽出基準について、総出現回数を1とする。
もし、当該語がなんらかの地名について当該基準に合致していれば、対頻度記憶部6の当該語のエントリを取り出し、合致した基準の合計回数の1を加えたものを対頻度記憶部6へ格納する。もし、当該対のエントリがなければ、対頻度記憶部6に当該対の行を作成し、合致した基準の合致回数を1とし、それ以外の基準についての回数を0として格納する(ステップ3)。
2 地理情報付与部
3 基準毎頻度計数部
4 重みパラメータ決定部
5 対抽出部
6 対頻度記憶部
7 語頻度記憶部
Claims (7)
- 文書集合から地名と単語やフレーズの対を抽出する文書からの地名と語の対の抽出装置であって、
文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納する基準毎頻度計数手段と、
地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定手段と、
前記重み決定手段により決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出手段と、
を有することを特徴とする文書からの地名と語の対の抽出装置。 - 前記重み決定手段は、
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する手段を含む
請求項1記載の文書からの地名と語の対の抽出装置。 - 前記重み決定手段は、
前記正解対が与えられていない場合は、
前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する手段を含む
請求項1記載の文書からの地名と語の対の抽出装置。 - 文書集合から地名と単語やフレーズの対を抽出する文書からの地名と語の対の抽出方法であって、
文書記憶手段、
記憶手段、
基準毎頻度計数手段、
重み決定手段、
対抽出手段、を有する装置において、
前記基準毎頻度計数手段が、前記文書記憶手段から取得した文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、前記記憶手段に格納する基準毎頻度計数ステップと、
前記重み決定手段が、地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定ステップと、
前記対抽出手段が、前記重み決定ステップで決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出ステップと、
を行うことを特徴とする文書からの地名と語の対の抽出方法。 - 前記重み決定ステップにおいて、
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する
請求項4記載の文書からの地名と語の対の抽出方法。 - 前記重み決定ステップにおいて、
前記正解対が与えられていない場合は、
前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する
請求項4記載の文書からの地名と語の対の抽出方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載の文書からの地名と語の対の抽出装置の各手段として機能させるための文書からの地名と語の対の抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012131940A JP5798086B2 (ja) | 2012-06-11 | 2012-06-11 | 文書からの地名と語の対の抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012131940A JP5798086B2 (ja) | 2012-06-11 | 2012-06-11 | 文書からの地名と語の対の抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013257634A true JP2013257634A (ja) | 2013-12-26 |
JP5798086B2 JP5798086B2 (ja) | 2015-10-21 |
Family
ID=49954050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012131940A Expired - Fee Related JP5798086B2 (ja) | 2012-06-11 | 2012-06-11 | 文書からの地名と語の対の抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5798086B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408819A (zh) * | 2018-10-16 | 2019-03-01 | 武大吉奥信息技术有限公司 | 一种基于自然语言处理技术的核心地名提取方法及装置 |
CN110399613A (zh) * | 2019-07-26 | 2019-11-01 | 浪潮软件股份有限公司 | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 |
CN111506812A (zh) * | 2020-03-26 | 2020-08-07 | 口口相传(北京)网络技术有限公司 | 一种推荐词的生成方法、装置、存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JP2005327107A (ja) * | 2004-05-14 | 2005-11-24 | Fuji Xerox Co Ltd | 固有名カテゴリ推定装置及びプログラム |
JP2012089019A (ja) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索キーワード提示装置および文書検索キーワード提示プログラム |
-
2012
- 2012-06-11 JP JP2012131940A patent/JP5798086B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005309706A (ja) * | 2004-04-21 | 2005-11-04 | Fuji Xerox Co Ltd | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
JP2005327107A (ja) * | 2004-05-14 | 2005-11-24 | Fuji Xerox Co Ltd | 固有名カテゴリ推定装置及びプログラム |
JP2012089019A (ja) * | 2010-10-21 | 2012-05-10 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索キーワード提示装置および文書検索キーワード提示プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408819A (zh) * | 2018-10-16 | 2019-03-01 | 武大吉奥信息技术有限公司 | 一种基于自然语言处理技术的核心地名提取方法及装置 |
CN110399613A (zh) * | 2019-07-26 | 2019-11-01 | 浪潮软件股份有限公司 | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 |
CN110399613B (zh) * | 2019-07-26 | 2023-03-31 | 浪潮软件股份有限公司 | 一种基于词性标注的互联网新闻涉及地名识别方法及系统 |
CN111506812A (zh) * | 2020-03-26 | 2020-08-07 | 口口相传(北京)网络技术有限公司 | 一种推荐词的生成方法、装置、存储介质及计算机设备 |
CN111506812B (zh) * | 2020-03-26 | 2023-09-26 | 口口相传(北京)网络技术有限公司 | 一种推荐词的生成方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5798086B2 (ja) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sadat et al. | Automatic identification of arabic language varieties and dialects in social media | |
CN104615593B (zh) | 微博热点话题自动检测方法及装置 | |
Sadat et al. | Automatic identification of arabic dialects in social media | |
US8352455B2 (en) | Processing a content item with regard to an event and a location | |
CN105824959B (zh) | 舆情监控方法及系统 | |
WO2019037258A1 (zh) | 信息推荐的装置、方法、系统及计算机可读存储介质 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN110874531A (zh) | 一种话题分析方法、装置和存储介质 | |
US8190628B1 (en) | Phrase generation | |
CN107145545B (zh) | 一种基于位置的社交网络中Top-k区域用户文本数据推荐方法 | |
US20120330968A1 (en) | System and method for matching comment data to text data | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN103593425A (zh) | 基于偏好的智能检索方法及系统 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN107153687B (zh) | 一种社交网络文本数据的索引方法 | |
CN108021667A (zh) | 一种文本分类方法和装置 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
JP5798086B2 (ja) | 文書からの地名と語の対の抽出装置及び方法及びプログラム | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
JP6042790B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
JP2014085694A (ja) | 検索装置、検索プログラムおよび検索方法 | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN109918661B (zh) | 同义词获取方法及装置 | |
WO2021072848A1 (zh) | 文本信息提取方法、装置、计算机设备及存储介质 | |
CN104063422B (zh) | 社交网络中领域的特征词库迭代更新方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150623 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5798086 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |