JP5595426B2 - 単語抽出方法及び装置及びプログラム - Google Patents
単語抽出方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP5595426B2 JP5595426B2 JP2012000453A JP2012000453A JP5595426B2 JP 5595426 B2 JP5595426 B2 JP 5595426B2 JP 2012000453 A JP2012000453 A JP 2012000453A JP 2012000453 A JP2012000453 A JP 2012000453A JP 5595426 B2 JP5595426 B2 JP 5595426B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- place name
- pair
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この文において、{横須賀−ヤキソバ}という対は意味的には繋がりがないにもかかわらず、文書内での共起を対象とした場合、対として抽出することになってしまう。
この文において、{横須賀−温暖}や{横須賀−京急}という対は、意味的繋がりが深いと考えられるが、一文内での共起に限定してしまっては対として抽出されないことになる。
文書集合を格納した文書データベースと、
語毎に総出現回数及び地名共起回数を格納する地理文脈記憶手段と、
前記文書データベースから読み出した各文書中に記述された地名表現を抽出し、地名が文書中に存在する位置情報を特定する地理情報付与手段と、
前記地理文脈記憶手段の前記地名に対応する語の総出現回数に1加算し、所定の距離内において該語が該地名と共起していれば、当該語の共起回数に1加算する地理文脈計数手段と、
入力文書を取得して語に分割し、分割された語について、前記地理情報付与手段を用いて地名の文書中での位置情報を取得し、該入力文書の各語と各地名の文書内での距離を求め、該語に基づいて前記地理文脈記憶手段から前記地名共起回数及び前記総出現回数を取得して地理文脈比を求め、該地理文脈比が大きいほど大きくなる判定スコアを算出し、該判定スコアが所定の値以上の地名と単語やフレーズの対を抽出する対抽出手段と、
を有する。
前記入力文書内での前記語wiと前記地名gjとの距離を、該語wiが出現した文と該地名gjが出現した文の間に含まれる文の数とし、
前記地理文脈比は、前記語wiの地名共起回数を前記語wiの総出現回数で除した値とする手段を含む。
前記判定スコアを、文書内での距離が一文以内であれば、前記地理文脈比が所定の値より低くとも対となるように算出する手段を含む。
前記判定スコアを、前記地理文脈比が所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段を含む。
11 文書データベース
12 地理情報付与部
13 地理文脈計数部
14 地理文脈記憶部
15 対抽出部
Claims (8)
- 入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出装置であって、
文書集合を格納した文書データベースと、
語毎に総出現回数及び地名共起回数を格納する地理文脈記憶手段と、
前記文書データベースから読み出した各文書中に記述された地名表現を抽出し、地名が文書中に存在する位置情報を特定する地理情報付与手段と、
前記地理文脈記憶手段の前記地名に対応する語の総出現回数に1加算し、所定の距離内において該語が該地名と共起していれば、当該語の共起回数に1加算する地理文脈計数手段と、
入力文書を取得して語に分割し、分割された語について、前記地理情報付与手段を用いて地名の文書中での位置情報を取得し、該入力文書の各語と各地名の文書内での距離を求め、該語に基づいて前記地理文脈記憶手段から前記地名共起回数及び前記総出現回数を取得して地理文脈比を求め、該地理文脈比が大きいほど大きくなる判定スコアを算出し、該判定スコアが所定の値以上の地名と単語やフレーズの対を抽出する対抽出手段と、
を有することを特徴とする単語抽出装置。 - 前記対抽出手段は、
前記入力文書内での前記語wiと前記地名gjとの距離を、該語wiが出現した文と該地名gjが出現した文の間に含まれる文の数とし、
前記地理文脈比は、前記語wiの地名共起回数を前記語wiの総出現回数で除した値とする手段を含む
請求項1記載の単語抽出装置。 - 前記対抽出手段は、
前記判定スコアを、文書内での距離が一文以内であれば、前記地理文脈比が所定の値より低くとも対となるように算出する手段を含む
請求項1記載の単語抽出装置。 - 前記対抽出手段は、
前記判定スコアを、前記地理文脈比が所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する手段を含む
請求項1記載の単語抽出装置。 - 入力された文書集合の中から地名と単語やフレーズの対を抽出する単語抽出方法であって、
地理情報付与手段が、文書データベースから読み出した各文書中に記述された地名表現を抽出し、地名が文書中に存在する位置情報を特定する地理情報付与ステップと、
地理文脈計数手段が、前記地理文脈記憶手段の前記地名に対応する語の総出現回数に1加算し、所定の距離内において該語が該地名と共起していれば、当該語の共起回数に1加算する地理文脈計数ステップと、
対抽出手段が、入力文書を取得して語に分割し、分割された語について、前記地理情報付与手段を用いて地名の文書中での位置情報を取得し、該入力文書の各語と各地名の文書内での距離を求め、該語に基づいて前記地理文脈記憶手段から前記地名共起回数及び前記総出現回数を取得して地理文脈比を求め、該地理文脈比が大きいほど大きくなる判定スコアを算出し、該判定スコアが所定の値以上の地名と単語やフレーズの対を抽出する対抽出ステップと、
を行うことを特徴とする単語抽出方法。 - 前記対抽出手段は、
前記入力文書内での前記語wiと前記地名gjとの距離を、該語wiが出現した文と該地名gjが出現した文の間に含まれる文の数とし、
前記地理文脈比は、前記語wiの地名共起回数を前記語wiの総出現回数で除した値とする
請求項5記載の単語抽出方法。 - 前記対抽出手段は、
前記判定スコアを、
文書内での距離が一文以内であれば、前記地理文脈比が所定の値より低くとも対となるように算出する、
または、
前記地理文脈比が所定の値より高ければ、前記距離が所定の値より遠くても対となるように算出する
請求項5記載の単語抽出方法。 - コンピュータを、
請求項1乃至4のいずれか1項に記載の単語抽出装置の各手段として機能させるための単語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000453A JP5595426B2 (ja) | 2012-01-05 | 2012-01-05 | 単語抽出方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012000453A JP5595426B2 (ja) | 2012-01-05 | 2012-01-05 | 単語抽出方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013140499A JP2013140499A (ja) | 2013-07-18 |
JP5595426B2 true JP5595426B2 (ja) | 2014-09-24 |
Family
ID=49037877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012000453A Expired - Fee Related JP5595426B2 (ja) | 2012-01-05 | 2012-01-05 | 単語抽出方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5595426B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334169A (zh) * | 2019-07-01 | 2019-10-15 | 清华大学 | 一种新型地理计算模式 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6334062B2 (ja) * | 2015-05-29 | 2018-05-30 | 株式会社日立製作所 | 情報抽出システム、情報抽出方法、及び記録媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
JP4821039B2 (ja) * | 2000-10-24 | 2011-11-24 | 日本電気株式会社 | 地名情報抽出装置、その抽出方法及び記録媒体 |
JP5167546B2 (ja) * | 2006-08-21 | 2013-03-21 | 国立大学法人京都大学 | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 |
US8171029B2 (en) * | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
JP2009116415A (ja) * | 2007-11-01 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
CN101661461B (zh) * | 2008-08-29 | 2016-01-13 | 阿里巴巴集团控股有限公司 | 确定文档中核心地理信息的方法、系统 |
JP2011058939A (ja) * | 2009-09-09 | 2011-03-24 | Panasonic Electric Works Co Ltd | 外観検査装置、外観検査方法 |
JP5513929B2 (ja) * | 2010-03-02 | 2014-06-04 | 日本電信電話株式会社 | 経験情報の再利用性評価装置及び方法及びプログラム |
-
2012
- 2012-01-05 JP JP2012000453A patent/JP5595426B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334169A (zh) * | 2019-07-01 | 2019-10-15 | 清华大学 | 一种新型地理计算模式 |
CN110334169B (zh) * | 2019-07-01 | 2022-02-18 | 清华大学 | 一种新型地理计算装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2013140499A (ja) | 2013-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684483B (zh) | 知识图谱的构建方法、装置、计算机设备及存储介质 | |
RU2671047C2 (ru) | Понимание таблиц для поиска | |
CN103377226B (zh) | 一种智能检索方法及其系统 | |
US9081861B2 (en) | Uniform resource locator canonicalization | |
US11861516B2 (en) | Methods and system for associating locations with annotations | |
US8903837B2 (en) | Incorporating geographical locations in a search process | |
WO2019037258A1 (zh) | 信息推荐的装置、方法、系统及计算机可读存储介质 | |
CN105095444A (zh) | 信息获取方法和装置 | |
US10685073B1 (en) | Selecting textual representations for entity attribute values | |
US20130198240A1 (en) | Social Network Analysis | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN105373546B (zh) | 一种用于知识服务的信息处理方法及系统 | |
CN107870915B (zh) | 对搜索结果的指示 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
CN103399855A (zh) | 基于多数据源的行为意图确定方法及装置 | |
KR101931859B1 (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
JP6662689B2 (ja) | 単語判定装置 | |
JP5595426B2 (ja) | 単語抽出方法及び装置及びプログラム | |
JP5798086B2 (ja) | 文書からの地名と語の対の抽出装置及び方法及びプログラム | |
JP2007041700A (ja) | トピック抽出装置、トピック抽出方法、トピック抽出プログラム、および、記憶媒体 | |
Attique et al. | Efficient Processing of Moving Top‐k Spatial Keyword Queries in Directed and Dynamic Road Networks | |
CN112270199A (zh) | 基于CGAN方法的个性化语义空间关键字Top-K查询方法 | |
KR101975907B1 (ko) | 텍스트 마이닝 기반의 지역별 연구 트렌드 분석 장치 및 이의 동작 방법 | |
CN104090966A (zh) | 基于图模型的半结构化数据检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140625 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140729 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5595426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |