JP4618045B2 - 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム - Google Patents
範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム Download PDFInfo
- Publication number
- JP4618045B2 JP4618045B2 JP2005239028A JP2005239028A JP4618045B2 JP 4618045 B2 JP4618045 B2 JP 4618045B2 JP 2005239028 A JP2005239028 A JP 2005239028A JP 2005239028 A JP2005239028 A JP 2005239028A JP 4618045 B2 JP4618045 B2 JP 4618045B2
- Authority
- JP
- Japan
- Prior art keywords
- numerical
- range
- value
- information
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
以下、本発明による範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラムの第1の実施形態を、図面を参照しながら詳述する。
図1は、第1の実施形態の範囲情報抽出装置の機能的構成を示すブロック図である。例えば、第1の実施形態の範囲情報抽出装置は、パソコン等の情報処理装置に対し、CD−ROMやフレキシブルディスク等の記録媒体に記録されている範囲情報抽出プログラム(データファイルや、データを格納するテーブル等を含む)をインストールしたり、情報範囲情報抽出プログラムをネットワークからダウンロードしてインストールしたりすることで実現されるが、機能的には、図1で表すことができる。なお、例えば、ASIC等、専用的なハードウェアとして実現しても良い。
次に、第1の実施形態の範囲情報抽出装置100の動作(範囲情報抽出方法)を、フローチャートを参照しながら説明する。
ST12. 上限の欄に”+∞”が記録されており、 他は全て初期値
ST13. 下限の欄に”−∞”が記録されており、 他は全て初期値
ST14. 上限の欄に”+∞”が記録されており、 下限の欄に”−∞”が記録
ST15. 下限の欄に数値が記録されており、 上限の欄に”+∞”が記録
ST16. 上限の欄に数値が記録されており、 下限の欄に”−∞”が記録
ST17. それ以外
これらの記録状態のうち、ST11からST14に該当する場合には、範囲処理保持部1054の上限、下限の欄の両方に数値表現の数値を記録し(S306)、上述したステップS301に戻る。
ST22・ 上限と下限の欄に同じ数値が記録、 その他の欄は全て初期値
ST23・ それ以外
記録状態がST21及びST22に合致する場合には、範囲処理保持部1054の上限の欄に”+∞”を記録する(S314)。記録状態がST23に合致する場合はステップS301に戻る。
ST32. 上限と下限の欄に同じ数値が記録、 その他の欄は全て初期値
ST33. それ以外
記録状態がST31及びST32に合致する場合には、範囲処理保持部1054の下限の欄に”−∞”を記録する(S316)。記録状態がST33に合致する場合はステップS301に戻る。
下限値=下限値の欄の値+(下限値の欄の値×下限変動値)
上限値=上限値の欄の値+(上限値の欄の値×上限変動値)
上述したステップS317、S318の変動表現の探索で変動表現が見付からなければ、範囲処理保持部1054の上限の欄の値を上限値、下限の欄の値を下限値とする(S321)。
上限値=2.0+(2.0×+10%)=2.2
これらの値と、範囲処理保持部1054の内容を範囲抽出結果保持手段106に書き出し、範囲処理保持部1054を初期化する。
上限値=150000+(150000×+10%)=165000
これらの値と、範囲処理保持部1054の内容を範囲抽出結果保持手段106に書き出し、範囲処理保持部1054を初期化する。
以上のように、第1の実施形態によれば、範囲抽出領域決定手段104と範囲抽出手段105とを備え、数値情報の前後の入力文書範囲を、対応する上限又は下限を規定する数値情報の探索範囲とし、数値情報の種別の同一性などに基づいて、範囲を持つ数値情報を取得するようにしたので、文書中の数値表現が範囲を持つような表現で記述されていても、正確に情報を抽出することができる。
次に、本発明による範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラムの第2の実施形態を、図面を参照しながら詳述する。
第2の実施形態の範囲情報抽出装置も、全体構成は、第1の実施形態の説明で用いた図1で表すことができる。
次に、第2の実施形態の範囲情報抽出装置100の動作(範囲情報抽出方法)を、フローチャートを参照しながら説明する。
上限値=上限値の欄の値+(上限値の欄の値×上限変動値の欄の値)
その後、計算で得られた上限値と下限値や、範囲処理保持部1054に記録されている開始位置や終了位置などを範囲抽出結果保持手段106に書き出し(S322)、範囲処理保持部1054を初期化して(S323)、図3のステップS106に戻る。
上限値=1.0+(1.0×+10%)=1.1
これらの値と、範囲処理保持部1054の内容を範囲抽出結果保持手段106に書き出し、範囲処理保持部1054を初期化する。そして、数値表現の抽出処理(ステップS106−S104−S105)に移る。
「60cm」が見付かる。範囲処理保持部1054の下限値の欄をみて「60cm」の値と等しいかを比べる。この場合には等しいので、範囲処理保持部1054の下限変動値の欄に先ほど取得した下限変動値の「−10%」を記録する。また、範囲処理保持部1054の上限値の欄をみて「60cm」の値と等しいかを比べる。この場合には等しいので、範囲処理保持部1054の上限変動値の欄に先ほど取得した上限変動値の「0%」を記録する。
上限値=0.6+(0.6×0%)=0.6
これらの値と、範囲処理保持部1054の内容を範囲抽出結果保持手段106に書き出し、範囲処理保持部1054を初期化する。そして、数値表現の抽出処理(ステップS106−S104−S105)に移る。
されているこの表現の数値情報を取得する。取得した結果、この数値表現の数値として「3000」である。
上限値=3000+(3000×0%)=3000
これらの値と、範囲処理保持部1054の内容を範囲抽出結果保持手段106に書き出し、範囲処理保持部1054を初期化する。そして、数値表現の抽出処理(ステップS106−S104−S105)に移る。
第2の実施形態によっても、文書中の数値表現が範囲を持つような表現で記述されていても、正確に情報を抽出することができるという効果や、範囲表現テーブルのようなパターンを予め用意しておく必要がなく、しかも、範囲の上限、下限を規定する数値表現が離れていても数値情報を取得することができるという効果を奏する。
次に、本発明による範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラムの第3の実施形態を、図面を参照しながら詳述する。
上記各実施形態では、範囲抽出領域の決定において、句読点と、単語数による規則で領域を決定していたが、決定方法はこれに限定されるものではなく、例えば、文字数に基づいた規則を適用するようにしても良く、特定の品詞のうち少なくとも1つに基づいた規則を適用するようにしても良い。
Claims (15)
- 電子文書に含まれている、数値とその種別を含む1以上の数値情報から、それら数値情報に係る範囲情報を抽出する範囲情報抽出装置において、
電子文書に含まれている、範囲情報の抽出に利用可能な数値情報を抽出する数値情報抽出手段と、
上記数値情報抽出手段が抽出した数値情報に基づいて、上記電子文書における、範囲情報を抽出させるための数値表現を探索する抽出領域を決定する範囲抽出領域決定手段と、
上記範囲抽出領域決定手段で決定された上記電子文書における抽出領域内に存在する1又は複数の数値表現から、範囲情報を抽出する範囲抽出手段とを備え、
上記範囲抽出領域決定手段は、数値情報の位置より前側及び又は後側の所定単語数とその数値情報を含む領域、数値情報の位置より前側及び又は後側の所定文字数とその数値情報を含む領域、数値情報の位置から句読点記号までの領域のうち、少なくとも1つの領域を抽出領域として決定する
ことを特徴とする範囲情報抽出装置。 - 上記範囲抽出領域決定手段は、範囲情報が抽出されていない、未処理の先頭側の2つの数値情報の種別が同一で、かつ、当該2つの数値情報間の文字列について、句読点記号が無いという条件、所定単語数以内という条件、もしくは所定文字数以内という条件のうち、少なくとも1つの条件を満たす関係である場合は、当該2つの数値情報の両方を選択するとともに、上記抽出領域の先頭側の限界位置を、当該2つの数値情報のうち前側に位置する数値情報の位置を基準に決定し、さらに、上記抽出領域の後側の限界位置を、当該2つの数値情報のうち後側に位置する数値情報の位置を基準に決定し、当該2つの数値情報が上記関係でない場合には、当該2つの数値情報のうち、前側に位置する数値情報を選択して上記抽出領域を決定する
ことを特徴とする請求項1に記載の範囲情報抽出装置。 - 上記範囲抽出手段は、上限値と下限値とを含む範囲情報を抽出することを特徴とする請求項1又は2に記載の範囲情報抽出装置。
- 上記範囲抽出手段は、
上記範囲抽出領域決定手段が決定した抽出領域における、数値情報を提供している、数値を含む数値表現、及び、数値範囲を表す数字以外の文字列でなる数値を含まない数値表現を、抽出領域の先頭から検出する数値表現検出部と、
上記数値表現検出部で検出された、数値を含まない数値表現を数値に変換する数値表現解釈部と、
範囲の上限値と下限値とを記録している範囲処理保持部と、
数値表現が検出される毎に、その数値表現が数値を含むものであればその数値と上記範囲処理保持部の直前内容とに基づき、その数値表現が数値を含まないものであれば変換された数値と上記範囲処理保持部の直前内容とに基づき、上記範囲処理保持部の内容を見直し、範囲情報の更新必要時に上記範囲処理保持部の内容を操作する範囲記録部とを備えることを特徴とする請求項3に記載の範囲情報抽出装置。 - 上記範囲抽出手段は、
上記範囲抽出領域決定手段が決定された抽出領域における、数値に近い位置に存在し、その数値の値ではなく、その数値に近い値を表す文字列が該当する変動表現を検出する変動表現検出部と、
変動表現とそれに対応する変動値の組を複数記録している変動表現対応値記録部と、
上記変動表現検出部で検出した変動表現から、対応する変動値を上記変動表現対応値記録部から取得する変動値取得部と、
上記範囲処理保持部の上限値と下限値の欄の値と、取得した変動値から、変動表現が影響する数値情報の上限値と下限値を計算する上下限算出部と
を備えることを特徴とする請求項4に記載の範囲情報抽出装置。 - 上記範囲抽出手段は、
上記範囲抽出領域決定手段が決定された抽出領域における、数値に近い位置に存在し、その数値の値ではなく、その数値に近い値を表す文字列が該当する変動表現を検出する変動表現検出部と、
変動表現とそれに対応する変動値の組を複数記録している変動表現対応値記録部と、
上記変動表現検出部で検出した変動表現から、対応する変動値を上記変動表現対応値記録部から取得する変動値取得部と、
検出した変動表現に近い位置に存在する数値と一致する上限値又は下限値が、上記範囲処理保持部から検出された場合、検出された上限値又は下限値に対応する変動値として、その検出した変動表現に対応する変動値を、上記範囲処理保持部に記録する変動値記録部と、
上記範囲処理保持部の上限値と下限値と変動値の欄の値から、変動表現が影響する数値情報の上限値と下限値を計算する上下限算出部と
を備えることを特徴とする請求項4に記載の範囲情報抽出装置。 - 上記数値情報抽出手段の前段に、電子文書における、数字を含まず、数直線上への配置が可能な文字列を、上記数直線上で、その文字列に対応する擬似的な数値情報に変換する擬似数値情報変換手段をさらに有する
ことを特徴とする請求項1〜6のいずれかに記載の範囲情報抽出装置。 - 電子文書に含まれている、数値とその種別を含む1以上の数値情報から、それら数値情報に係る範囲情報を抽出する範囲情報抽出装置が行う範囲情報抽出方法において、
電子文書に含まれている、範囲情報の抽出に利用可能な数値情報を抽出する数値情報抽出工程と、
上記数値情報抽出工程で抽出した数値情報に基づいて、上記電子文書における、範囲情報を抽出させるための数値表現を探索する抽出領域を決定する範囲抽出領域決定工程と、
上記範囲抽出領域決定工程で決定された上記電子文書における抽出領域内に存在する1又は複数の数値表現から、範囲情報を抽出する範囲抽出工程とを含み、
上記範囲抽出領域決定工程は、数値情報の位置より前側及び又は後側の所定単語数とその数値情報を含む領域、数値情報の位置より前側及び又は後側の所定文字数とその数値情報を含む領域、数値情報の位置から句読点記号までの領域のうち、少なくとも1つの領域を抽出領域として決定する
ことを特徴とする範囲情報抽出方法。 - 上記範囲抽出領域決定工程は、範囲情報が抽出されていない、未処理の先頭側の2つの数値情報の種別が同一で、かつ、当該2つの数値情報間の文字列について、句読点記号が無いという条件、所定単語数以内という条件、もしくは所定文字数以内という条件のうち、少なくとも1つの条件を満たす関係である場合は、当該2つの数値情報の両方を選択するとともに、上記抽出領域の先頭側の限界位置を、当該2つの数値情報のうち前側に位置する数値情報の位置を基準に決定し、さらに、上記抽出領域の後側の限界位置を、当該2つの数値情報のうち後側に位置する数値情報の位置を基準に決定し、当該2つの数値情報が上記関係でない場合には、当該2つの数値情報のうち、前側に位置する数値情報を選択して上記抽出領域を決定する
ことを特徴とする請求項8に記載の範囲情報抽出方法。 - 上記範囲抽出工程は、上限値と下限値とを含む範囲情報を抽出することを特徴とする請求項8又は9に記載の範囲情報抽出方法。
- 上記範囲抽出工程は、
上記範囲抽出領域決定工程で決定した抽出領域における、数値情報を提供している、数値を含む数値表現、及び、数値範囲を表す数字以外の文字列でなる数値を含まない数値表現を、抽出領域の先頭から検出する数値表現検出サブ工程と、
上記数値表現検出サブ工程で検出された、数値を含まない数値表現を数値に変換する数値表現解釈サブ工程と、
数値表現が検出される毎に、その数値表現が数値を含むものであれば、その数値と範囲の上限値と下限値とを記録している範囲処理保持部の直前内容とに基づき、その数値表現が数値を含まないものであれば変換された数値と上記範囲処理保持部の直前内容とに基づき、上記範囲処理保持部の内容を見直し、範囲情報の更新必要時に上記範囲処理保持部の内容を操作する範囲記録サブ工程とを備える
ことを特徴とする請求項10に記載の範囲情報抽出方法。 - 上記範囲抽出工程は、
上記範囲抽出領域決定手段が決定された抽出領域における、数値に近い位置に存在し、その数値の値ではなく、その数値に近い値を表す文字列が該当する変動表現を検出する変動表現検出サブ工程と、
上記変動表現検出サブ工程で検出された変動表現に対応する変動値を、変動表現とそれに対応する変動値の組を複数記録している変動表現対応値記録部から取得する変動値取得サブ工程と、
上記範囲処理保持部の上限値と下限値の欄の値と、取得した変動値から、変動表現が影響する数値情報の上限値と下限値を計算する上下限算出サブ工程と
をさらに備えることを特徴とする請求項11に記載の範囲情報抽出方法。 - 上記範囲抽出工程は、
上記範囲抽出領域決定手段が決定された抽出領域における、数値に近い位置に存在し、その数値の値ではなく、その数値に近い値を表す文字列が該当する変動表現を検出する変動表現検出サブ工程と、
上記変動表現検出サブ工程で検出された変動表現に対応する変動値を、変動表現とそれに対応する変動値の組を複数記録している変動表現対応値記録部から取得する変動値取得サブ工程と、
検出した変動表現に近い位置に存在する数値と一致する上限値又は下限値が、上記範囲処理保持部から検出された場合、検出された上限値又は下限値に対応する変動値として、その検出した変動表現に対応する変動値を、上記範囲処理保持部に記録する変動値記録サブ工程と、
上記範囲処理保持部の上限値と下限値と変動値の欄の値から、変動表現が影響する数値情報の上限値と下限値を計算する上下限算出サブ工程と
をさらに備えることを特徴とする請求項11に記載の範囲情報抽出方法。 - 電子文書における、数字を含まず、数直線上への配置が可能な文字列を、上記数直線上で、その文字列に対応する擬似的な数値情報に変換し、上記数値情報抽出工程に引き渡す擬似数値情報変換工程を含むことを特徴とする請求項8〜13のいずれかに記載の範囲情報抽出方法。
- 請求項8〜14のいずれかに記載の範囲情報抽出方法の工程及び用意しておくデータをコンピュータが処理し得るコードで記述したことを特徴とする範囲情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005239028A JP4618045B2 (ja) | 2005-05-18 | 2005-08-19 | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005145473 | 2005-05-18 | ||
JP2005239028A JP4618045B2 (ja) | 2005-05-18 | 2005-08-19 | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006350989A JP2006350989A (ja) | 2006-12-28 |
JP4618045B2 true JP4618045B2 (ja) | 2011-01-26 |
Family
ID=37646708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005239028A Expired - Fee Related JP4618045B2 (ja) | 2005-05-18 | 2005-08-19 | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4618045B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5154832B2 (ja) * | 2007-04-27 | 2013-02-27 | 株式会社日立製作所 | 文書検索システム及び文書検索方法 |
WO2012176374A1 (ja) | 2011-06-21 | 2012-12-27 | 日本電気株式会社 | 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム |
WO2021007088A1 (en) | 2019-07-05 | 2021-01-14 | Elsevier, Inc. | Systems and methods to extract the context of scientific measurements using targeted question answering |
JP7363577B2 (ja) * | 2020-02-28 | 2023-10-18 | 株式会社村田製作所 | 文書分類装置、学習方法および、学習プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067056A (ja) * | 1998-08-18 | 2000-03-03 | Nec Corp | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3597370B2 (ja) * | 1998-03-10 | 2004-12-08 | 富士通株式会社 | 文書処理装置および記録媒体 |
-
2005
- 2005-08-19 JP JP2005239028A patent/JP4618045B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000067056A (ja) * | 1998-08-18 | 2000-03-03 | Nec Corp | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2006350989A (ja) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US9286526B1 (en) | Cohort-based learning from user edits | |
JP4618045B2 (ja) | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム | |
JP4821039B2 (ja) | 地名情報抽出装置、その抽出方法及び記録媒体 | |
JP5117744B2 (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP3963112B2 (ja) | 楽曲検索装置および楽曲検索方法 | |
JP2005107931A (ja) | 画像検索装置 | |
JP4326107B2 (ja) | 問題作成装置及び記録媒体 | |
JP2023088441A (ja) | データ処理装置、データ処理方法及びプログラム | |
JP5115631B2 (ja) | 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
JP2020008951A (ja) | 表記揺れ抽出装置及び方法 | |
KR101080880B1 (ko) | 외래어의 자동 음차 표기 방법 및 장치 | |
JP5262190B2 (ja) | 入力補完装置、及び入力補完プログラム | |
JP2007171275A (ja) | 言語処理装置及び現後処理方法 | |
JP5688936B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5084530B2 (ja) | 商標検索システム | |
JP3548372B2 (ja) | 文字認識装置 | |
JP2006031099A (ja) | 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム | |
JPH044467A (ja) | 文書構造解析装置 | |
JP3097225B2 (ja) | かな漢字変換装置 | |
JP2007149123A (ja) | 楽曲検索装置、楽曲検索方法、楽曲検索プログラム | |
JP2009271593A (ja) | 情報検索装置、情報検索方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071009 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100928 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131105 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |