JP5426868B2 - 数値表現処理装置 - Google Patents
数値表現処理装置 Download PDFInfo
- Publication number
- JP5426868B2 JP5426868B2 JP2008289164A JP2008289164A JP5426868B2 JP 5426868 B2 JP5426868 B2 JP 5426868B2 JP 2008289164 A JP2008289164 A JP 2008289164A JP 2008289164 A JP2008289164 A JP 2008289164A JP 5426868 B2 JP5426868 B2 JP 5426868B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- unit
- attribute
- numerical
- attribute name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(1) 予め作成しておいた辞書を使い、属性と属性値を抽出する。辞書は少数の属性と属性名を使い「属性のX」や「Xの属性値」といった文型にある事例を収集することで作成する。(「意見抽出を目的とした機械学習による属性-評価値対同定」 情報処理学会自然言語処理研究会NL−165−4:文献1)
(2) 予め定義しておいた規則にしたがって、数値表現への係り受け関係からの数値と属性名を推定する。(「係り受けの制約と優先規則に基づく数量表現抽出」情報処理学会自然言語処理研究会NL−145−18)
(3) 文型と共起スコアを使って、対象、属性、属性名の3つ組を抽出する。(「テキストから属性関係を抽出する」情報処理学会自然言語処理研究会NL−164−4:文献2)
(4) HTMLタグや「AのB」のような文型を使って属性と属性値を抽出する。(「属性語のWeb文書からの自動発見と人手評価のための基準」自然言語処理 Vol.13,No.4)
(5) HTMLファイルのTABLEタグを使って属性と属性名の組を抽出する。(”Extracting attributes and their values from web pages” ACL-02 Student Research Workshop)
方角:R(東西方向を基準にラジアンで表す)
距離:L(単位はメートル)
ある地点の緯度:I
ある地点の経度:K
求めたい緯度:i
求めたい経度:k
計算に使う定数(赤道の半径):A(=6378137メートル)
(L/A)2=(i−I)2+{(k−K)cosI}2
R=tan-1{(i−I)/(k−K)cosI}
〔例文1〕
「犯人の特徴
25歳くらい、身長170cmくらい、中肉」
〔例文2〕
「精油所や給油所に対し、20年までにガソリンの炭素の含有量を10%削減するよう求める。」
〔例文3〕
「軽自動車を排気量が2000ccの自動車と比較すると、保険の金額は約60%とかなりお得な保険料設定でした。」
〔例文4〕
「配向膜における表面エネルギーが、30dyne/cmから40dyne/cmであるようにした。」
最後に、情報検索部800の動作を説明する。例文5の検索クエリを入力するものとする。
事物名:自動車、属性名:総排気量、数値:2000cc
検索クエリ入力部801は、利用者からの検索クエリの入力を受けつける処理部である。図8に示すユーザ・インタフェース画面に例文5の検索クエリを入力し、図10の状態になる。検索実行ボタンをクリックすると検索が実行される。具体的には、事物名検索部802にクエリが送信される。
100 文書ファイル入力部
200 文書部分抽出部
300 数値表現抽出部
400 属性名抽出部
401 属性名辞書
402 属性名検出部
403 属性名拡張部
404 属性名・数値表現組評価部
500 事物名抽出部
501 事物名抽出用パターン辞書
502 事物名抽出
503 属性名補完部
504 オントロジ利用による属性名補完部
505 オントロジ(部分全体関係)
600 尺度選択部
601 尺度選択用テーブル
602 単位構造解析部
603 換算部
604 接頭辞換算表
605 単位換算表
700 情報保存部
701 情報保存テーブル
702 事物名
703 事物名の開始位置
704 事物名の終了位置
705 属性名
706 属性名の開始位置
707 属性名の終了位置
708 属性名の属性名辞書における代表名
709 数値表現に含まれる数値
710 数値表現に含まれる単位・助数詞
711 数値表現に含まれる程度表現
712 数値表現が範囲表現の場合の範囲終了数値
713 数値表現の開始位置
714 数値表現の終了位置
715 対応づけられた尺度
716 数値709を換算して得た数値
717 数値712を換算して得た数値
800 情報検索部
801 検索クエリ入力部
802 事物名検索部
803 属性名と数値表現検索部
804 結果出力部
Claims (14)
- 電子文書から数値と当該数値の単位を抽出する数値表現抽出部と、
前記文書から前記数値を属性値とする属性名を抽出する属性名抽出部と、
属性名と当該属性名の数値表現の単位と絶対的な尺度とを関係づけて登録したテーブルを備え、前記テーブルに登録された情報を使い、前記数値表現抽出部で抽出した数値を属性名ごとに予め定められた絶対的な尺度に対応付け、当該絶対的な尺度の数値に変換する尺度選択部と、
属性名、数値表現と事物名の文型パターンが登録された事物名抽出用パターン辞書を備え、前記数値表現抽出部で抽出した数値表現と前記属性名抽出部で抽出した属性名の組を有する事物名を文書から抽出する事物名抽出部と
を有することを特徴とする数値表現処理装置。 - 請求項1記載の数値表現処理装置において、前記事物名抽出用パターン辞書には属性名と数値表現の単位の共起スコア及び事物名と属性名の共起スコアが登録されており、前記事物名抽出部は、前記文書から抽出された数値、当該数値の単位、及び当該数値の事物名を元に、前記事物名抽出用パターン辞書に登録された共起スコアを用いて、前記抽出された数値を値とする属性名を推定することを特徴とする数値表現処理装置。
- 請求項2記載の数値表現処理装置において、前記事物名抽出部は、オントロジを使って数値表現を値とする属性名を推定することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記属性名抽出部は、同義な属性名が同一の代表名に対応付けられるようにして属性名と代表名の対を登録した辞書を有し、当該辞書を用いて前記文書から抽出した属性名に対応する代表名を取得することを特徴とする数値表現処理装置。
- 請求項4記載の数値表現処理装置において、文書名、当該文書に含まれる数値をその事物名、属性名の代表名、前記属性名に対応付けられた絶対的な尺度に変換された数値を記憶したテーブルを有することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記尺度選択部は年齢を生年に変換することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記尺度選択部は位置を表す数値表現を緯度・経度に変換することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記尺度選択部は位置を表す数値表現を郵便番号に変換することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記属性名抽出部は、属性名の一部となる接尾辞の情報を登録した辞書を有し、前記接尾辞の情報を使って属性名を推定することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、前記属性名抽出部は、属性名とその属性名をとりうる対象の情報を登録した辞書を有し、前記辞書と照合して前記文書中から検出した属性名と、当該属性名の前後に出現する文字列のうち前記辞書に当該属性名をとりうる対象として登録されている文字列とを合わせて拡張した属性名を作成することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、
テーブルに登録された情報を使って、数値表現を値とする属性名を推定する機能を持つことを特徴とする数値表現処理装置。 - 請求項1記載の数値表現処理装置において、属性名を使って簡略表記された単位から正規の単位表記を推定することを特徴とする数値表現処理装置。
- 請求項1記載の数値表現処理装置において、組み立て単位の構造を解析する機能を有することを特徴とする数値表現処理装置。
- 請求項5記載の数値表現処理装置において、事物名と属性名と数値の入力を受け付ける検索クエリ入力部、及び、前記検索クエリ入力部に入力された属性名を前記代表名に変換し、前記入力された数値を前記入力された属性名に対応する絶対的な尺度の数値に変換し、前記テーブルを参照して、前記入力された事物名と前記変換された代表名及び数値が含まれる文書ファイルを検索する情報検索部を有することを特徴とする数値表現処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008289164A JP5426868B2 (ja) | 2008-11-11 | 2008-11-11 | 数値表現処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008289164A JP5426868B2 (ja) | 2008-11-11 | 2008-11-11 | 数値表現処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010117797A JP2010117797A (ja) | 2010-05-27 |
JP5426868B2 true JP5426868B2 (ja) | 2014-02-26 |
Family
ID=42305451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008289164A Expired - Fee Related JP5426868B2 (ja) | 2008-11-11 | 2008-11-11 | 数値表現処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5426868B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6223301B2 (ja) * | 2014-08-27 | 2017-11-01 | Kddi株式会社 | コンテンツ文章に記述された所定対象の対象数値を用いて検索するプログラム及び検索装置 |
JP6554804B2 (ja) * | 2015-02-04 | 2019-08-07 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN105488025B (zh) | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
JP6546703B2 (ja) * | 2016-08-02 | 2019-07-17 | 株式会社日立製作所 | 自然言語処理装置及び自然言語処理方法 |
JP6471837B1 (ja) * | 2017-08-03 | 2019-02-20 | オムロン株式会社 | 検索用データ生成装置 |
EP3588324A1 (en) * | 2018-06-26 | 2020-01-01 | Tata Consultancy Services Limited | Methods and systems for performing a model driven domain specific search |
JP6513869B1 (ja) * | 2018-10-31 | 2019-05-15 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
WO2021007088A1 (en) | 2019-07-05 | 2021-01-14 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
WO2021038836A1 (ja) * | 2019-08-30 | 2021-03-04 | 富士通株式会社 | 情報処理方法、情報処理プログラム、および情報処理装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05334292A (ja) * | 1992-05-28 | 1993-12-17 | Matsushita Electric Ind Co Ltd | 文章編集方法およびその装置 |
JPH06176073A (ja) * | 1992-12-10 | 1994-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 単位推定装置 |
JP3360617B2 (ja) * | 1998-08-18 | 2002-12-24 | 日本電気株式会社 | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
US7325194B2 (en) * | 2002-05-07 | 2008-01-29 | Microsoft Corporation | Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings |
JP2003330959A (ja) * | 2002-05-13 | 2003-11-21 | Just Syst Corp | カタログ検索システム |
JP4024137B2 (ja) * | 2002-11-28 | 2007-12-19 | 沖電気工業株式会社 | 数量表現検索装置 |
JP2005250682A (ja) * | 2004-03-02 | 2005-09-15 | Oki Electric Ind Co Ltd | 情報抽出システム |
-
2008
- 2008-11-11 JP JP2008289164A patent/JP5426868B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010117797A (ja) | 2010-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5426868B2 (ja) | 数値表現処理装置 | |
US20210382878A1 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
Lieberman et al. | STEWARD: architecture of a spatio-textual search engine | |
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
US9449081B2 (en) | Identification of semantic relationships within reported speech | |
US8229883B2 (en) | Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases | |
US9323741B2 (en) | System and method for searching functions having symbols | |
US9031935B2 (en) | Search system, search method, and program | |
CN102081634B (zh) | 语音检索装置和语音检索方法 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
US20150112981A1 (en) | Entity Review Extraction | |
KR101059557B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN109446288A (zh) | 一种基于Spark互联网涉密地图检测算法 | |
JP2017134787A (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
Mokhtari et al. | Tagging address queries in maps search | |
Ginev et al. | Scientific statement classification over arXiv. org | |
Van Assem et al. | Converting and annotating quantitative data tables | |
JP2008204399A (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
Efremova et al. | A hybrid disambiguation measure for inaccurate cultural heritage data | |
JP2002278982A (ja) | 情報抽出方法および情報検索方法 | |
JP4726683B2 (ja) | 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2006286026A (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
CN101310274B (zh) | 知识相关性搜索引擎 | |
Ohta et al. | Empirical evaluation of CRF-based bibliography extraction from reference strings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131129 |
|
LAPS | Cancellation because of no payment of annual fees |