JP2000067056A - 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 - Google Patents
数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体Info
- Publication number
- JP2000067056A JP2000067056A JP10231258A JP23125898A JP2000067056A JP 2000067056 A JP2000067056 A JP 2000067056A JP 10231258 A JP10231258 A JP 10231258A JP 23125898 A JP23125898 A JP 23125898A JP 2000067056 A JP2000067056 A JP 2000067056A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- numerical information
- numerical
- information
- numerical value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
て登録し、文書検索に利用する。 【解決手段】 数値登録手段3002によって、文書から数
値情報を抽出して情報蓄積手段3003に登録する。数値の
解釈に曖昧さがある場合は、重複して登録する。条件入
力手段3004から、検索条件を入力、検索手段3005によっ
て情報蓄積手段3006を検索し、表示手段3007が結果を出
力する。出力時には、数値情報の種類によって、結果の
選択あるいは整形や並べ変えを行う。
Description
よび数値情報検索装置に関し、特に曖昧さのある数値表
現含む文書を対象にできる数値情報抽出装置および数値
情報検索装置と、これらの数値情報抽出装置、数値情報
検索装置をコンピュータで実現するためのプログラムを
記憶した記憶媒体に関する。
できる従来の文書検索装置の一例が、特開平8−329
165号公報に記載されている。 この従来の文書検索
装置は、図48に示すように動作する。
ると(4801〜4803)、その文書から特定のパターンを持
つ文字列を数値データとして抽出し(4804)、さらに、
その数値データの前後に存在する一定規則に基づいた文
字列を数字文字列データとして抽出する(4805)。この
数字文字列データの中から名詞データを抽出し、これを
所定の項目毎に分類して、上記数値データを対応付ける
(4806)。このようにして得られた各項目の数値データ
を1ヵ月等の所定期間毎に集計し(4807)、その集計結
果データを表示する(4803)。
頭から1文字ずつ調べてゆき、
「円」の組み合わせを見つける。文字列として取り出さ
れた数字は数値に変換される。
−215041号公報に記載されている。この従来の文
書検索装置の構成を図49に示す。この図49を参照す
ると、この文書検索装置は、検索対象文書保持部4901、
検索条件保持部4902、検索条件再構成部4903、全文検索
条件保持部4904、後処理条件保持部4905、全文検索処理
部4906、全文検索結果保持部4907、後処理条件判定部49
08、検索結果保持部4909とから構成されている。
字列検索と、数値による検索を含むその他の検索とにわ
け、文字列検索は全文検索を行い、検索結果に対してそ
の他の検索で結果の絞り込みを行う。数値による検索
は、たとえば図50に示すような文書から項目と数値を
取り出して数値に変換し、大小比較などを行う。
1の問題点は、文書中に現れる数値の表現がひとつの値
を指していない場合があるということである。「Aから
B」のように範囲を指定する他、「以上」や「多くと
も」のように上限や下限のどちらかだけを指定したり、
「約」や「くらい」によっておおよその数値を示す場合
などがある。この場合、数字列部分だけを抽出して数値
化しても、もとの文書中の情報が欠落してしまうため検
索洩れにつながる。
さ、重量など)を特定した検索を行う場合、特定の単位
について検索の誤差が生じる可能性があることである。
その理由は、違う種類の数量を表す単位に同じ名前が付
いている場合があるためである。たとえば、「ポンド」
は重量と通貨単位の両方で使われている。そのため、金
額に関する条件を指定して検索しようとしたときに、重
量を表す「ポンド」の数値が含まれた文書が検索される
可能性がある。
する数値の記述形式の限定が少ない場合、数値の解釈が
一意に決定できない場合があるということである。その
理由は、もともとの日本語の表記法として曖昧さを許し
ていたり、記述の省略が行われるためである。たとえ
ば、「100,102円」という記述は、「十万百二
円」とも「100円と102円」とも解釈できる。 ま
た、「10から15万人」という記述は、「10人から
15万人」という解釈の他に、「10万人から15万
人」の省略とも解釈できる。
ついてすべての可能性に対応する情報を検索対象とする
と、正しくない、あるいは、検索ユーザにとって不要の
検索結果が大量に含まれてしまう可能性があることであ
る。
点に鑑み、文書中に含まれている数値に関する情報を対
象として、数値情報を抽出できる数値情報抽出装置と、
数値の条件を指定し、文書を検索できる数値情報検索装
置を提供することにある。
抽出装置は、数字文字列の区切りの曖昧さを検出し区切
りの曖昧な数字文字列からは複数の数値文字列を取り出
す数値判別手段を備え、適切な区切りを選択するか、あ
るいは、複数の区切り方を選択するよう動作する。
の名称と単位の種類を登録した単位テーブルと、単位の
種類を決定するための条件を登録した種類条件テーブル
と、前記単位テーブルと前記種類条件テーブルと該テキ
ストを参照して単位の種類を決定する単位選択手段とを
備え、一つの単位に複数の種類が登録されている場合に
適切な種類を選択するよう動作する。
の名称と単位の階層関係を登録した単位テーブルと、単
位の階層関係を決定する階層判定手段とを備え、階層関
係にある複数の単位を使用して表現された数値を単一の
数値情報として登録するよう動作する。
情報に含まれる単位の種類によって、数値情報を選択す
る選択手段を備え、必要な数値情報だけを登録するよう
動作する。
表現と範囲表現の種類を登録した範囲表現テーブルと、
前記範囲表現テーブルとテキストを参照して範囲表現の
種類を決定する範囲抽出手段とを備え、範囲表現の種類
を付加した数値情報を作成するよう動作する。
情報に含まれる範囲表現の種類によって数値情報を選択
する選択手段を備え、必要な数値情報だけを登録するよ
う動作する。
を表す文字列の一部、あるいは、単位の省略を補う省略
補間手段を備え、省略された数値表現からも適切な数値
情報を抽出するよう動作する。
の抽出に曖昧さが生じた場合には複数の数値情報として
登録する数値登録手段を備え、曖昧な抽出結果があって
も洩れのない検索をするよう動作する。
の切り出しに曖昧さが生じた場合には複数の数値情報と
して登録する数値登録手段を備え、曖昧な抽出結果があ
っても洩れのない検索をするよう動作する。
の種類に曖昧さが生じた場合には複数の数値情報として
登録する数値登録手段を備え、曖昧な抽出結果があって
も洩れのない検索をするよう動作する。
や単位の表記に省略ある場合には省略を補って登録する
数値登録手段を備え、省略した表現があっても正しく検
索をするよう動作する。
結果として必要な数値情報の条件を登録した基準テーブ
ルを備え、必要な検索結果だけを出力するよう動作す
る。
結果の表示方法を登録した基準テーブルを備え、検索結
果の表示方法を数値表現の種類や曖昧さに応じて変えて
出力するよう動作する。
結果の表示順序を登録した基準テーブルを備え、検索結
果を必要度の高いものから出力するよう動作する。
結果の選択や表示方法を登録した基準テーブルと前記基
準テーブルをユーザが修正するための基準修正手段とを
備え、ユーザが検索結果の選択や表示方法の指定を行う
ことができるよう動作する。
の範囲表現や曖昧表現を種類わけする数値登録手段と、
前記の種類に応じて検索条件を変換して検索を行う検索
手段とを備え、範囲表現や曖昧な数値表現を含む文書を
正確に検索するよう動作する。
て図面を参照して詳細に説明する。
本発明の第1の実施の形態は、文書入力手段1と、テキ
スト保持手段2と、数値抽出手段3と、数値情報保持手段
4と、単位判定手段5と、範囲判定手段6と、出力手段8と
から構成されている。
位テーブル52とを含む。
囲表現テーブル62とを含む。
動作する。
内容をテキスト保持手段2に書き込む。
する手段で、ファイル装置、あるいはメモリで実現す
る。
憶している文書内容から数値を表す文字列を取り出し、
数値データに変換し、テキスト中の文字位置とともに数
値情報保持手段4に書き込む。
憶されている数値情報について、付属する単位を調べ、
数値情報保持手段4に登録する。単位抽出手段51は、数
値情報保持手段4に記憶されている数値情報のそれぞれ
について、テキスト保持手段2を参照して前後に隣接す
る文字列を調べ、単位テーブル52に登録されている単位
があれば数値情報保持手段4の該数値情報に追加する。
単位テーブル52は、単位を表す文字列と、数値の位置関
係を登録している。
憶されている数値情報の組み合わせが範囲を表している
かどうかを判定し、数値情報保持手段4の情報を修正す
る。範囲抽出手段61は、数値情報保持手段4に記憶され
ている数値情報のそれぞれについて、テキスト保持手段
2を参照して前後に隣接する文字列を調べ、単位が等し
く、範囲表現テーブル62に登録されている関係になって
いる情報があれば、数値情報保持手段4の該数値情報を
範囲を示すように変更する。範囲表現テーブル62は、範
囲を表す文字列と、数値の位置関係を登録している。
検索用のデータベースやインデックスに登録する。
説明する。数値抽出手段3は、数字列抽出手段31と、数
値判別手段32と、数値変換手段33とから構成されてい
る。
に記憶されているテキスト中から、数字表現を構成する
文字列を抽出する。数字表現を構成する文字列には、ア
ラビア数字、漢数字の他に、小数点、桁区切り記号、正
負の符号、指数を示す表現を含む。
表現として解釈できるかどうか判定し、できる場合は分
割した文字列を作成する。文字列がカンマと数字以外の
文字を含んでいる場合は、判定を行わず、該文字列を数
値変換手段33で数値に変換する。カンマと数字のみを含
んでいる場合、カンマで分割して各々の数字列を数値変
換手段33で数値に変換する。先頭の分割結果が3桁以内
で、以降の分割結果が全て3桁の場合は、分割前の文字
列も数値変換手段33で数値に変換する。
て数値情報保持手段4に登録する。数値に変換できなか
った場合は、登録しない。
本実施の形態の全体の動作について説明する。
らテキストを文字列として取り出し、テキスト保持手段
2に登録する(図5のステップ501)。文書中には、文書
タイトルや作成者名など数値による検索の必要のない情
報が区別できる形式で含まれている場合があるが、その
ような箇所は取り出す必要がない。また、文書作成日時
が決まった形式で登録されている場合のように、はじめ
から数値情報が分離されている場合にも、容易に数値と
しての検索が可能なので、取り出す必要がない。
持手段2に記憶されているテキスト中から数字を取り出
し数値に変換して数値情報保持手段4に登録する(ステ
ップ502)。一般に一つの文書に複数の数値情報が含ま
れているので、それぞれをテキスト保持手段2での文字
位置と対応づけて登録する。区切り方に曖昧さがある数
値文字列は、数値判別手段32によって複数の区切り方に
よる文字列を作成し登録する。
情報に付随する単位を取り出す(ステップ503)。数値
情報を取り出した位置の前後の文字列をテキスト保持手
段2で参照して、単位テーブル52に登録されている単位
が位置関係も含めて見つかれば、数値情報保持手段4の
該当データに単位が登録される。
報の内で範囲を指定しているものをまとめる(ステップ
504)。数値情報を取り出した位置の前後の文字列をテ
キスト保持手段2で参照して、範囲表現テーブル62に登
録されている単位が位置関係も含めて見つかれば、数値
情報保持手段4の該当データをまとめてひとつの範囲と
して登録しなおす。
手段4の内容が文書を判別する情報(文書名や文書番号
など)とともに出力される。
る。
出した文字列を数値判別手段32が分割して数値に変換す
るというように構成されているため、数値の解釈に曖昧
性がある時にも洩れなく出力することができる。
本実施の形態の動作を説明する。
対象とする」というテキストが文書入力手段1によって
テキスト保持手段2に記憶されている場合を例にする。
例を示す。図3では、数字の位置を四角(□)で示して
いる。たとえば、「□Kg」は「100Kg」のように数字の
後に単位「Kg」が位置することを示す。「毎秒□メート
ル」は「毎秒40.5メートル」のように「毎秒」と「メ
ートル」の間に数字が位置することを示す。
を示す。図4では、単位も含めた数字の位置を四角
(□)で示している。たとえば、「□以上□以下」は
「10万円以上20万円以下」のように数字が位置すること
を示す。
4の内容を示す図である。図6で、601は数値範囲の下限
値、602は上限値、603は数値に付く単位、604は数値表
現の開始位置、605は数値表現の終了位置を登録してい
る。
23」と「567」のふたつの数値を取り出し、数値情報保
持手段4に登録する(図6のA)。さらに、単位判定手段
5によって、「ドル」という単位が見つかり、数値情報
保持手段4に登録される(図6のB)。
□以下」という範囲表現が見つかり、図6のBに示すふ
たつの数値情報をまとめて、範囲を表すひとつの情報と
して登録される(図6のC)。
む数字列がある場合には、分割した数値も登録する。た
とえば、「12,345ドル」という文字列であれば、「1234
5ドル」、「12」、「345ドル」が登録される(図6の
D)。カンマは通常3桁毎に挿入されるので、「1234,56
7」や「123,45」は分割結果だけを登録する。
切りにカンマ以外の文字を使用した文書に対応するの
は、区切り桁数や区切り記号を変更することで容易であ
る。区切り方の適切さをあらわす数値を登録することも
できる。例えば、分割結果と全体の文字列とで異なる適
切さを与えられる(図6のEの606)。
の実施の形態について図面を参照して詳細に説明する。
形態は、文書入力手段1と、テキスト保持手段2と、数値
抽出手段203と、数値情報保持手段4と、単位判定手段20
5と、範囲判定手段6と、出力手段8とから構成されてい
る。
単位テーブル252と、単位選択手段253と、種類条件テー
ブル254とを含む。
動作する。
記憶している文書内容から数値を表す文字列を取り出
し、数値データに変換し、テキスト中の文字位置ととも
に数値情報保持手段4に書き込む。
記憶されている数値情報について、付属する単位とその
種類とを調べ、数値情報保持手段4に登録する。単位抽
出手段251は、数値情報保持手段4に記憶されている数値
情報のそれぞれについて、テキスト保持手段2を参照し
て前後に隣接する文字列を調べ、単位テーブル252に登
録されている単位を探す。同じ名前で種類の異なる単位
がある場合は、単位選択手段253によって、種類を決定
する。単位名と種類とを数値情報保持手段4の該数値情
報に追加する。単位テーブル252は、単位を表す文字列
と、単位の種類と、単位と数値の位置関係とを登録して
いる。単位選択手段253は、単位抽出手段251から単位を
表す文字列と、対応する複数の単位の種類と、単位の出
現位置とを受けとり、テキスト保持手段2と種類条件テ
ーブル254とを参照して、単位の種類を決定する。種類
条件テーブル254は、単位の種類を決めるための条件を
単位の種類ごとに登録している。
実施の形態の単位判定手段205の動作について説明す
る。
登録されている数値情報の各々について以下に説明する
動作で単位情報を付加する。
位置を読み取る(図8のステップ801)。
の出現位置の前後に単位テーブル252に登録されている
単位があるかどうかを調べる(ステップ802)。
報保管手段4に登録し、複数の種類の単位が見つかった
場合は、適切な種類を決定する(ステップ803)。
ブル254から見つかった単位の種類に対応する条件を取
り出し、テキスト保持手段2を参照して、適切な種類を
選択する(ステップ804)。
手段4に登録する(ステップ805)。
る。
種類を登録しているため、単位の種類を指定した検索に
使うための数値情報を抽出できる。
出手段が単位の種類を判別する単位選択手段を参照する
ように構成されているため、同名で種類が異なる単位が
競合したときに適切な種類を選択できる。
本実施の形態の動作を説明する。
示す。図9では、図3の例に加え、単位の種類を登録し
ている(図9の901)。たとえば、「□円」は金額を表
し、「□Kg」は重量を表す。「□ポンド」は、金額と重
量の両方を表すのに使用される。
の例を示す。図10の例では、単位の種類(図10の10
01)に関連のある単語を登録している(図10の100
2)。
品を購入する」というテキストが文書入力手段1によっ
てテキスト保持手段2に記憶されている場合を例にす
る。図11は、本動作例による数値情報保持手段4の内
容を示す図である。図11において、1106は単位の種類
を登録している。
23」と「567」のふたつの数値を取り出し、数値情報保
持手段4に登録している(図11のA)。さらに、単位抽
出手段251によって、「ポンド」という単位が「金額」
と「重量」の2種類見つかり、適切な方を選択するため
単位選択手段253に渡される。単位選択手段253は、種類
条件テーブル254からそれぞれの関連単語を取り出し、
テキスト保持手段2を参照して、それぞれの語を探す。
本例では、「金額」の条件に登録されている「値段」だ
けが見つかるため、「金額」が適切な種類として決定さ
れる。単位「ポンド」と種類「金額」が数値情報保持手
段4に登録される(図11のB)。
語が見つかった場合は、以下のような方法で選択でき
る。 ・最も近くに関連語が出現した種類を選択する。 ・関連語の数の多い種類を選択する。 ・関連語に重要度を与えて、重要度の大きい関連語の出
現した種類、あるいは、重要度の合計の大きな種類を選
択する。
る。
れについて、適切さの度合いを数値で求め、その適切さ
の度合いが単位の種類とともに数値情報保持手段4に登
録される。図11のCに例を示す。数値情報保持手段4に
は、「金額」と「重量」の両方の種類が登録され、適切
さの度合いが記録されている(図11の1107)。適切さ
の度合いの計算方法としては、関連単語の数、関連語の
重要度の和、関連語の重要度を数字列との距離で正規化
したものなどがある。
の実施の形態について図面を参照して詳細に説明する。
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段30
5と、範囲判定手段6と、出力手段8とから構成されてい
る。
単位テーブル352と、階層判定手段253とを含む。
動作する。
記憶されている数値情報について、付属する単位を調
べ、数値情報保持手段4に登録する。単位抽出手段351
は、数値情報保持手段4に記憶されている数値情報のそ
れぞれについて、テキスト保持手段2を参照して前後に
隣接する文字列を調べ、単位テーブル252に登録されて
いる単位を探す。単位が見つかったら、階層判定手段35
3によって、隣接する数値情報間に階層構造が無いかど
うかを調べ、階層構造のある単位がある場合は、一つの
情報にまとめ、単位名を数値情報保持手段4の該数値情
報に追加する。単位テーブル352は、単位を表す文字列
と、単位と数値の位置関係と、他の単位との階層関係と
を登録している。階層判定手段353は、単位抽出手段351
から単位を表す文字列と、単位の出現位置とを受けと
り、単位テーブル352と数値情報保持手段4とを参照し
て、階層関係にある情報をまとめる。
て本実施の形態の単位判定手段305の動作について説明
する。
登録されている数値情報の各々について以下に説明する
動作で単位情報を付加する。
位置を読み取る(図13のステップ1301)。
の出現位置の前後に単位テーブル352に登録されている
単位があるかどうかを調べる(ステップ1302)。
3によって他の数値情報との階層関係を調べる(ステッ
プ1303)。
参照し、現在処理対象となっている数値情報と隣接する
数値情報の単位を取り出し、単位テーブル352を参照し
て階層関係を判定する。
手段4に登録する(ステップ1304)。
て数値情報をまとめる(ステップ1305)。
手段4に登録する(ステップ1306)。
る。
階層関係を登録しているため、「2m50cm」のように、一
つの数値が複数の単位を使って表現されている場合でも
一つの数値として扱うことができる。
本実施の形態の動作を説明する。
を示す。図14では、図3の例に加え、単位の階層関係
情報を登録している(図14の1401)。たとえば、1円
は100銭に等しく、1mは100cm及び0.01kmと等しいことを
表す。
段4の内容を示す図である。
作を示した流れ図である。
うテキストが文書入力手段1によってテキスト保持手段2
に記憶されている場合を例にする。
「2」と「50」のふたつの数値を取り出し、数値情報保
持手段4に登録している(図15のA)。さらに、単位抽
出手段251によって、数値「2」に対して「m」という単
位が見つかる。階層判定手段353によって、数値情報保
持手段4で前にあるデータを参照する(図16のステッ
プ1601)が、前にはデータがないので階層関係無しと判
定される(ステップ1602、ステップ1608)。
つかり、階層判定手段353によって階層関係の判定が行
われる。
「2」についてのデータ(図15のB1)が得られる(ス
テップ1601)。
ることがわかり、階層関係の判定を行う(ステップ160
2)。
単位テーブル352を参照して、階層関係情報に「m」が登
録されているかを調べ、登録されていないので次のステ
ップに進む(ステップ1603)。かりに登録されていた場
合には、「m」で表された数値を「cm」に換算する(ス
テップ1604)。
位テーブル352を参照して、階層関係情報に「cm」が登
録されているかを調べる(ステップ1605)。
に換算する(ステップ1606)。
して終了する(ステップ1608)。換算した数値「0.5m」
と前の数値情報「2m」とを合計して、数値情報を作成す
る(ステップ1607)。
って数値情報保持手段に登録される(図15のC)。
の実施の形態について図面を参照して詳細に説明する。
の形態は、文書入力手段1と、テキスト保持手段2と、数
値抽出手段203と、数値情報保持手段4と、単位判定手段
205と、範囲判定手段6と、情報選択手段7と、出力手段8
とから構成されている。
件テーブル72とを含む。
参照して数値情報保持手段4の内容の一部を取り出し
て、出力手段8に渡す。
る。
て数値情報保持手段4の内容の一部だけを選択して、出
力手段8に渡すため、必要な種類の数値情報だけを選択
できる。
本実施の形態の動作を説明する。
例を示す。図18のAでは、出力手段8にわたす数値情報
の単位を指定している。図18のBでは、数値情報の単
位の種類を指定している。図18のCでは、数値情報の
種類と単位の両方を指定している。この例では、金額に
ついては円、ドル、
定している。
数値情報だけを出力手段8にわたす。
の実施の形態について図面を参照して詳細に説明する。
の形態は、文書入力手段1と、テキスト保持手段2と、数
値抽出手段203と、数値情報保持手段4と、単位判定手段
5と、範囲判定手段506と、出力手段8とから構成されて
いる。
範囲表現テーブル562とを含む。
動作する。
記憶されている数値情報の組み合わせが範囲を表してい
るかどうかを判定し、数値情報保持手段4の情報を修正
し、さらに、範囲表現の種類を登録する。範囲抽出手段
561は、数値情報保持手段4に記憶されている数値情報の
それぞれについて、テキスト保持手段2を参照して前後
に隣接する文字列を調べ、範囲表現テーブル562に登録
されている関係になっている情報があれば、範囲を示す
ように数値情報保持手段4の該数値情報を変更する。範
囲表現テーブル562は、範囲を表す文字列と数値の位置
関係とを登録し、また、範囲表現の種類を登録してい
る。
形態における範囲判定手段6の動作と同様である。ただ
し、範囲を示すと判定された数値情報を数値情報保持手
段4に登録する際に、範囲表現テーブル562に登録されて
いる範囲表現の種類も登録する。
る。
に範囲表現の種類を登録しているため、種類によって検
索処理を変えることのできる検索装置に適した数値情報
を登録できる。また、同じ意味を持つ範囲表現に同じ種
類を与えておくことで、表現の違いによらない数値情報
を登録できる。
本実施の形態の動作を説明する。
の例を示す。図20では、範囲表現(図20の2001)と
範囲表現の種類(図20の2002)が登録されている。た
とえば、「□から□」と「□〜□」はともに「上限下
限」という種類が付けられている。「□以下」と「□未
満」では、「□」の位置の数値を範囲に含むかどうかが
異なるので別の種類名が与えられている。「中心」とい
う種類は範囲ではなく単独の数値であることを示してい
る。範囲を表す表現が付いていない数値表現の種類にも
「中心」を与える。
とする」というテキストから抽出した数値情報が数値情
報保持手段4に登録された例を図21に示す。図21
で、範囲表現の種類が登録されている(図21の210
1)。
の別の例を示す。図22では、範囲表現と範囲表現の種
類が登録されている。範囲表現の種類は、範囲の取り方
の種類(図22の2201)と範囲の曖昧さ(図22の220
2)の組み合わせで表現されている。この例では、範囲
の意味の曖昧さは数値で与え、曖昧さがない場合を0、
曖昧さが大きくなると大きな数値としている。曖昧な表
現が付いていない数値表現に対しては、特定の値、例え
ば0を与える。たとえば、「□以上」と「□強」はとも
に数値の範囲の「下限」を示しているが、「□強」の方
が大きな曖昧さを登録している。
うテキストから抽出した数値情報が数値情報保持手段4
に登録された例を図23に示す。図23で、範囲表現の
曖昧さが登録されている(図23の2301)。
の実施の形態について図面を参照して詳細に説明する。
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段20
5と、範囲判定手段6と、情報選択手段607と、出力手段8
とから構成されている。
条件テーブル672とを含む。
を参照して数値情報保持手段4の内容の一部を取り出し
て、出力手段8に渡す。
る。
って数値情報保持手段4の内容の一部だけを選択して、
出力手段8に渡すため、範囲表現や曖昧な表現のうち必
要な情報だけを選択できる。
本実施の形態の動作を説明する。
の例を示す。図25では、選択する数値情報の範囲の取
り方(図25の2501)と曖昧さ(図25の2502)を登録
している。図25のAでは、範囲の取り方を制限せず、
曖昧さが0に等しいものを指定している。図25のBで
は、範囲の取り方が「中心」で、曖昧さが20未満のもの
を指定している。
つ数値情報だけを出力手段8にわたす。
の実施の形態について図面を参照して詳細に説明する。
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段5
と、範囲判定手段6と、出力手段8と、省略補間手段9と
から構成されている。
録されている情報のうち、文書中で数値文字列の一部、
あるいは、単位が省略されていたため、正しく登録され
ていないものを、テキスト保持手段2を参照して修正す
る。
形態の省略補間手段9の動作について説明する。
録されている各データについて以下の処理を行う。
する(図27のステップ2701)。
スト保持手段2を参照して、省略された数字列を推定し
て、省略のない数字列を復元し、数値化する(ステップ
2702)。
る(ステップ2703)。
スト保持手段2を参照して、省略された単位を推定する
(ステップ2704)。
保持手段4に登録する(ステップ2705)。
る。
ることで、数字列や単位が省略された場合でも正しく数
値情報を取り出すことができる。
本実施の形態の省略補間手段9の動作を説明する。
み。」というテキストから抽出した数値情報が数値情報
保持手段4に登録された例を図28に示す。図28のAは
省略補間手段9による処理の前の状態を示す。この数値
情報に対する省略補間手段9の動作を説明する。
01)。テキスト保持手段と数値情報保持手段4とを参照
して、範囲表現にあてはまるか、カンマあるいは読点で
区切られた数値情報の並びで、並びの最後の数値情報に
だけ単位が付いていて、かつ、最後の数値情報に対応す
るテキスト中での数字列にだけ付いている、位を表す漢
数字列(「百」、「千」、「万」、「億」、「兆」など
とその組み合わせ)がある場合、他の数値にも同じ漢数
字列を補う。例えば、「10から20億トン」については
「10」に「億」を補う。ただし、「10トンから20億ト
ン」では補わない。「二、三百万人」では、「二」に
「百万」を補う。図28のAの数値情報は、テキスト中
では「□から□」という範囲表現に当てはまり、後の数
値情報にだけ「万」が付いているので、「10」に対して
も「万」を追加して数値化する(図28のB)。
(図27のステップ2703)。テキスト保持手段と数値情
報保持手段4とを参照して、範囲表現にあてはまるか、
カンマあるいは読点で区切られた数値情報の並びで、並
びの最後の数値情報にだけ単位が付けられているものが
ある場合に、最後の数値情報と同じ単位を並びの他の数
値情報に与える。たとえば、「100〜200m」や「二十
五、二十六歳」という表現が該当する。図28のBの数
値情報は、テキスト中では「□から□」という範囲表現
に当てはまるので、「10」に対しても単位「円」を登録
する(図28のC)。
数値情報保持手段4に登録する(図27のステップ270
5、図28のD)。
間手段9の動作を説明する。
た結果を、他の数値情報と区別するための情報を付加し
て、数値情報保持手段4に追加して登録する。
録した結果の例を示す。図29の2901は、省略を補った
結果を判別するための領域で、省略を補った結果には
「補」が付加されている。また、数字列は補わずに単位
だけを補うこともできる(図29のB)。
の実施の形態について図面を参照して詳細に説明する。
の形態は、制御手段3001と、数値登録手段3002と、情報
蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
動作する。
具体的には具体的にはCPUとメモリで実現する。
文字列を抽出し、数値化して情報蓄積手段3003に登録す
る。
を登録している。ファイル装置、あるいは、メモリ上の
データベースやインデックスとして実現する。
する検索条件を入力する。
積手段3003を検索し、結果を結果保持手段3006に登録す
る。
はメモリで実現し、検索結果を登録しておく。
を、出力する。出力方法としては、ディスプレイでの表
示、プリンタでの印刷、音声による読み上げ、ファイル
装置への書き込むなどがある。
体の動作について説明する。
は、数値登録手段3002によって、文書から数値情報を抽
出して情報蓄積手段3003に登録する。テキストの中の数
値表現は、表記上の曖昧さや文字の省略のために、情報
の欠落や数値表現の切り出し方の曖昧さが生じる。ま
た、複数の意味を持つ単位や構文上の曖昧さによって
も、複数の解釈が可能になる場合がある。本実施の形態
の数値登録手段3002は、数値情報を抽出、数値化する際
に、数値情報に複数の解釈が生じる場合は、複数の解釈
結果を登録する。複数の解釈の間で、適切さの度合いに
差がある場合は、適切さを示す情報を同時に登録する。
は、条件入力手段3004から、検索条件を入力する。条件
入力手段3004は、入力用の端末装置に接続し、検索条件
は数式あるいは文章、検索用言語などで入力される。
って情報蓄積手段3003を検索し、結果を結果保持手段30
06に登録する。
を参照して結果を出力する。結果としては、文書番号や
文書名だけ、文書の一部あるいは全部などを用いる。
る。
場合に、数値登録手段3002が複数の数値情報として登録
するために、一意に解釈することのできない数値表現を
含む文書に対しても洩れのない検索を行うことができ
る。
て、解釈の適切さを示す情報を利用して、利用しやすい
検索結果の出力ができる。
の実施の形態について図面を参照して詳細に説明する。
の形態は、制御手段3001と、数値登録手段3102と、情報
蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段3と、数値情報保持手段4と、単位判定手段5と、範囲
判定手段6と、情報登録手段3208とを含む。
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字列の区切り方に複数の解釈がで
きる場合は、複数の区切り方で数字列を取り出してそれ
ぞれ数値化する。
の内容を文書を判別する情報(文書名や文書番号など)
とともに登録する。
る。
が複数ある場合に、数値登録手段3102が複数の数値情報
として登録するために、区切り方の曖昧な数値表現を含
む文書に対しても洩れのない検索を行うことができる。
本実施の形態の動作を説明する。
ル」というテキストを含む文書からは、「12345ド
ル」、「12」、「345ドル」が抽出される(図6のD)。
この数値情報が文書番号(この例では#1とする)ととも
に登録される。
ドル以上500ドル以下」と入力されると検索手段3005に
よって、「345ドル」の数値情報が抽出され、表示手段3
007によって文書#1の文書名や内容が表示される。「120
0ドル以上2000ドル以下」という条件であれば、「12345
ドル」の数値情報を検索し、文書#1を検索できる。文書
の作者の意図が、「12345」か「12と345」のどちらであ
っても検索洩れを起こすことがない。
10の実施の形態について図面を参照して詳細に説明す
る。
施の形態は、制御手段3001と、数値登録手段3302と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段203と、数値情報保持手段4と、単位判定手段205と、
範囲判定手段6と、情報登録手段3208とを含む。
スト部分から数値表現を抽出し、数値化して単位と単位
の種類とともに、情報蓄積手段3003に登録する。単位の
種類に複数の解釈ができる場合は、複数の種類で数値情
報を登録する。
る。
の解釈が複数ある場合に、数値登録手段3302が複数の数
値情報として登録するために、単位の種類の曖昧な数値
表現を含む文書に対しても洩れのない検索を行うことが
できる。
本実施の形態の動作を説明する。
以上567ポンド以下の値段の製品を購入する」というテ
キストを含む文書からは、「ポンド」が金額と重量の単
位であるために、二つの数値情報が抽出される(図11
のC)。この数値情報が文書番号(この例では#2とす
る)とともに登録される。
重量のどちらが指定されても、検索対象からもれること
がない。
11の実施の形態について図面を参照して詳細に説明す
る。
施の形態は、制御手段3001と、数値登録手段3502と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段203と、数値情報保持手段4と、単位判定手段5と、範
囲判定手段6と、省略補間手段9と、情報登録手段3208と
を含む。
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字列や単位に省略がある場合は、
省略補間手段9によって、省略を補った数値情報を作成
し登録する。
る。
対しては、省略を補った数値情報を作成して登録してい
るため、省略を含んでいる文書も正しく検索できる。
本実施の形態の動作を説明する。
円の価格になる見込み。」というテキストを含む文書か
らは、「10万円から15万円」を意味する数値情報が取り
出される(図28のD)。これによって、たとえば、「1
万円以下」という検索条件では、この情報は検索されな
い。
ために、省略を補う前後の数値情報をともに登録するこ
とができる。このとき、上記のテキストからは、「10円
から15万円」を意味する情報も登録される(図29の
B)。そのため、どちらが文書の意図であっても、検索
対象からもれることがない。
13の実施の形態について図面を参照して詳細に説明す
る。
施の形態は、制御手段3001と、数値登録手段3002と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3707と、基準修正手
段4108とから構成されている。
内容をユーザが修正するための手段である。現在の基準
テーブルの内容を表示し、テキストやチェックボタンな
どを利用して内容を修正する手段をユーザに提供する。
めの画面表示の例である。修正の際には、項目別のメニ
ューを用いる方法(図40のA)、いくつかの選択条件
をまとめたものを選択する方法(図40のB)がある。
そのほか、スクロールメニューを用いたり、エディタを
用いて直接に修正する方法もある。また、設定の一部に
ついては変更を許さないこともできる。
る。
表示方法を指定するための基準テーブルをユーザが基準
修正手段を用いて修正できるため、ユーザが必要な情報
や見やすい形を選択できる。
14の実施の形態について図面を参照して詳細に説明す
る。
施の形態は、制御手段3001と、数値登録手段4302と、情
報蓄積手段3003と、条件入力手段3004と、検索手段4305
と、結果保持手段3006と、表示手段3007とから構成され
ている。
は、文書入力手段1と、テキスト保持手段2と、数値抽出
手段203と、数値情報保持手段4と、単位判定手段5と、
範囲判定手段506と、情報登録手段3208とを含む。
数変換手段4351と、変換定義手段4352と、情報検索手段
4353とを含む。
る。
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字が範囲で表現されている場合、
および、曖昧な数値を表す表現が使用されている場合
は、数値表現とともに範囲表現の種類を登録する。
参照して、条件入力手段3004から入力した検索条件を範
囲の種類ごとの条件指定に変換する。
応する数値の範囲を登録している。
変換された条件で検索を行い、結果を結果保持手段3006
に登録する。
る。
値の範囲に変換するための概数定義手段を備えているた
め、曖昧な数値表現に対しても適切に検索を行うことが
できる。
本実施の形態の動作を説明する。
示す図である。図46の4601は範囲表現の種類で、範囲
判定手段506が数値情報に与える種類と共通である。460
2は、範囲表現の種類に対応する数値表現の範囲で、min
とmaxは数値情報保持手段4の数値範囲の下限値(図6の
601)、上限値(図6の602)に対応する。
む」情報を検索する例で動作を説明する。図47では、
文書番号、数値の上限値、下限値、範囲表現の種類を示
し、他の情報を省略している。
という条件がで入力される。 条件変換手段4351は、範
囲定義手段4352を参照して、以下の検索式に変換され
る。
つかる。
は0.8)は、検索前あるいは検索時にユーザが指定する
こともできる。また、範囲表現の種類が曖昧さや適切さ
を伴う数値(図22の2202)を伴っている場合は、この
数値を調整(例えば、定数倍する、一定数加減するな
ど)して使用することもできる。
たが、本発明は、これらの実施の形態のみに限定される
ものではない。さらに、上記した実施の形態の数値情報
抽出装置及び数値情報検索装置をコンピュータで実現す
るために、本発明の機能手段をコンピュータ読み取り可
能なプログラムとしてCD−ROMやフロッピーディス
クに代表される記憶媒体に記憶して提供される形態でも
良い。
幅広い表現の数値を含む文書から数値情報を抽出し、検
索できることにある。
も数値を抽出、検索できることにある。その理由は、範
囲判定手段において、範囲表現を、範囲や曖昧さによっ
て分類して処理しているためである。また、範囲や曖昧
な表現を種類分けし、種類に応じて適切な検索式を生成
するためである。
ることにある。その理由は、単位の階層関係を使用し
て、複数の単位で表現された数値を単一の数値として処
理でき、また、一部の単位が省略されている表現にも対
応しているためである。
タ量、あるいは、検索結果の量を削減できることにあ
る。その理由は、単位や範囲表現を分類でき、選択手段
や表示手段によって必要な種類の数値情報だけを選択す
るためである。) 第4の効果は、区切りの曖昧さや省略を含む数字列から
も正しい数値が抽出でき、もれなく検索できることにあ
る。その理由は、区切りの曖昧さを含む文字列からは複
数の区切り方を用いて数値を取り出している。また、省
略された数字列については前後関係から省略を補うため
である。
ロック図である。
すブロック図である。
の例を示す図である。
内容の例を示す図である。
の例を示す図である。
ロック図である。
示す流れ図である。
容の例を示す図である。
登録内容の例を示す図である。
容の例を示す図である。
ブロック図である。
を示す流れ図である。
内容の例を示す図である。
容の例を示す図である。
を示す流れ図である。
ブロック図である。
容の例を示す図である。
ブロック図である。
登録内容の例を示す図である。
容の例を示す図である。
登録内容の別の例を示す図である。
容の別の例を示す図である。
ブロック図である。
内容の例を示す図である。
ブロック図である。
示す流れ図である。
容の例を示す図である。
容の別の例を示す図である。
ブロック図である。
ブロック図である。
を示すブロック図である。
すブロック図である。
成を示すブロック図である。
すブロック図である。
成を示すブロック図である。
ロック図である。
容の例を示す図である。
容の第2の例を示す図である。
容の第3の例を示す図である。
ロック図である。
る画面表示の例である。
ロック図である。
成を示すブロック図である。
示すブロック図である。
容の例を示す図である。
である。
図である。
ロック図である。
の例である。
Claims (30)
- 【請求項1】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 該数値を表す文字列の区切りの曖昧さを検出し、区切り
の曖昧な文字列からは複数の数値文字列を取り出すよう
に構成したことを特徴とする数値情報抽出装置。 - 【請求項2】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記数値抽出手段は、 該数値を表す文字列の区切りの曖昧さを検出し、区切り
の曖昧な数字文字列からは複数の数値文字列を取り出す
数値判別手段を少なくとも含んで構成されることを特徴
とする数値情報抽出装置。 - 【請求項3】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 予め、単位の名称と単位の種類を登録した第1のテーブ
ルと、単位の種類を決定するための条件を登録した第2
のテーブルを用意しておき、該テキストと該第1及び第
2のテーブルを参照することによって、抽出する数値情
報に対して単位を付加するように構成したことを特徴と
する数値情報抽出装置。 - 【請求項4】請求項3に記載の数値情報抽出装置におい
て、同名で種類が異なる単位が競合する場合に、前記第
2のテーブルを参照することによって適切な種類を選択
し、該数値情報に対して単位を付加するように構成した
ことを特徴とする数値情報抽出装置。 - 【請求項5】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記単位判定手段は、 単位の名称と単位の種類を登録した単位テーブルと、 単位の種類を決定するための条件を登録した種類条件テ
ーブルと、 前記単位テーブルと前記種類条件テーブルと該テキスト
を参照して単位の種類を決定する単位選択手段と、を少
なくとも有して構成されることによって該数値情報に単
位を付加することを特徴とする数値情報抽出装置。 - 【請求項6】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 予め、単位の名称と単位の階層関係を登録したテーブル
を用意しておき、該テキストと該テーブルを参照するこ
とによって、抽出する数値情報に対して階層関係を考慮
した単位を付加するように構成したことを特徴とする数
値情報抽出装置。 - 【請求項7】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記単位判定手段は、 単位の名称と単位の階層関係を登録した単位テーブル
と、 単位の階層関係を決定する階層判定手段と、を少なくと
も有して構成されることによって該数値情報に階層関係
を考慮した単位を付加することを特徴とする数値情報抽
出装置。 - 【請求項8】前記出力手段に該数値情報を出力する前
に、該数値情報に含まれる単位の種類によって、数値情
報を選択する情報選択手段を備えることを特徴とする請
求項5または7に記載の数値情報抽出装置。 - 【請求項9】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 予め、範囲表現と範囲表現の種類を登録したテーブルを
用意しておき、該テキストと該テーブルを参照すること
によって範囲表現の種類を決定し、抽出する数値情報に
対してこの決定した範囲表現を付加するように構成した
ことを特徴とする数値情報抽出装置。 - 【請求項10】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記範囲判定手段は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出手段と、を少なくとも有して
構成されることによって、該数値情報に範囲表現の種類
を考慮した情報を付加することを特徴とする数値情報抽
出装置。 - 【請求項11】前記出力手段に該数値情報を出力する前
に、該数値情報に含まれる範囲表現の種類によって、数
値情報を選択する情報選択手段を備えることを特徴とす
る請求項10記載の数値情報抽出装置。 - 【請求項12】該テキストと数値情報とを参照して、数
値を表す文字列の一部が省略された数値情報に、省略さ
れた文字列を補って、該数値情報を修正する省略補間手
段を更に備えることを特徴とする請求項1〜11のいず
れか一項に記載の数値情報抽出装置。 - 【請求項13】該テキストと数値情報とを参照して、単
位が省略された数値情報に、省略された単位を補って、
該数値情報を修正する省略補間手段を更に備えることを
特徴とする請求項1〜11のいずれか一項に記載の数値
情報抽出装置。 - 【請求項14】該テキストと数値情報を参照して、数値
を表す文字列の一部または単位が省略された数値情報に
対して、省略された文字列または単位のどちらか一方も
しくは両方を補い、該数値情報を修正する省略補間手段
を備えることを特徴とする請求項1〜11のいずれか一
項に記載の数値情報抽出装置。 - 【請求項15】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、数値の抽出に曖昧さが生じた場合
に、単一の数値表現を複数の数値情報として登録するこ
とを特徴とする数値情報検索装置。 - 【請求項16】前記数値登録手段は、 数字文字列の区切りの曖昧さを検出し区切りの曖昧な数
字文字列からは複数の区切り方に基づく複数の数値文字
列を取り出す数値判別手段を少なくとも備えて構成され
ることを特徴とする請求項15記載の数値情報検索装
置。 - 【請求項17】前記数値登録手段は、 単位の名称と単位の種類を登録した単位テーブルと、 単位の種類を決定するための条件を登録した種類条件テ
ーブルと、 前記単位テーブルと前記種類条件テーブルと該テキスト
を参照して単位の種類を決定する単位選択手段とを少な
くとも備えて構成されることを特徴とする請求項15記
載の数値情報検索装置。 - 【請求項18】前記数値登録手段は、 数値を表す文字列の一部が省略された数値情報に、省略
された文字列を補って該数値情報を修正する省略補間手
段を少なくとも備えて構成されることを特徴とする請求
項15記載の数値情報検索装置。 - 【請求項19】前記数値登録手段は、 単位が省略された数値情報に、省略された単位を補って
該数値情報を修正する省略補間手段を少なくとも備えて
構成されることを特徴とする請求項15記載の数値情報
検索装置。 - 【請求項20】前記数値登録手段は、 数値を表す文字列の一部、または、単位が省略された数
値情報に、省略された文字列、または、省略された単位
を補って、該数値情報を修正する省略補間手段を少なく
とも備えて構成されることを特徴とする請求項15記載
の数値情報検索装置。 - 【請求項21】前記表示手段は、 検索結果として必要な数値情報の条件を登録した基準テ
ーブルと、 前記基準テーブルを参照して検索結果から必要な数値情
報を選択する分類選択手段を少なくとも備えて構成され
ることを特徴とする請求項15〜20のいずれか一項に
記載の数値情報検索装置。 - 【請求項22】前記表示手段は、 検索結果を出力する際の表示方法と数値情報の対応とを
登録した基準テーブルを少なくとも備え、 この基準テーブルを参照することよって検索結果を表示
することを特徴とする請求項15〜20のいずれか一項
に記載の数値情報検索装置。 - 【請求項23】前記表示手段は、 検索結果の表示順序を登録した基準テーブルを少なくと
も備え、 この基準テーブルを参照することによって検索結果を表
示することを特徴とする請求項15〜20のいずれか一
項に数値情報検索装置。 - 【請求項24】前記基準テーブルをユーザが修正するた
めの基準修正手段を備えることを特徴とする請求項21
〜23のいずれか一項に記載の数値情報検索装置。 - 【請求項25】前記数値登録手段は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出手段とを備え、 前記検索手段は、 範囲表現の種類に対応する数値の範囲を登録している範
囲定義手段と、 前記範囲定義手段を参照して、前記条件入力手段から入
力した検索条件を範囲の種類ごとの条件指定に変換する
条件変換手段と、 前記条件変換手段で変換された条件で検索を行う情報検
索手段とを備えて構成されることを特徴とする請求項1
5記載の数値情報検索装置。 - 【請求項26】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記数値抽出機能は、 該数値を表す文字列の区切りの曖昧さを検出し、区切り
の曖昧な数字文字列からは複数の数値文字列を取り出す
数値判定機能を少なくとも含んでいることを特徴とする
数値情報抽出プログラムを記憶した記憶媒体。 - 【請求項27】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記単位判定機能は、 単位の名称と単位の種類を登録した単位テーブルと、 単位の種類を決定するための条件を登録した種類条件テ
ーブルと、 前記単位テーブルと前記種類条件テーブルと該テキスト
を参照して単位の種類を決定する単位選択機能と、を少
なくとも含んで構成されることによって該数値情報に単
位を付加することを特徴とする数値情報抽出プログラム
を記憶した記憶媒体。 - 【請求項28】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記単位判定機能は、 単位の名称と単位の階層関係を登録した単位テーブル
と、 単位の階層関係を決定する階層判定機能と、を少なくと
も含んで構成されることによって該数値情報に階層関係
を考慮した単位を付加することを特徴とする数値情報抽
出プログラムを記憶した記憶媒体。 - 【請求項29】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記範囲判定機能は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出機能と、を少なくとも含んで
構成されることによって、該数値情報に範囲表現の種類
を考慮した情報を付加することを特徴とする数値情報抽
出プログラムを記憶した記憶媒体。 - 【請求項30】文書から数値情報を抽出して登録する数
値登録機能と、 該登録した数値情報を検索する条件を入力する条件入力
機能と、 該条件に従って数値情報を検索する検索機能と、 前記検索手段による検索結果を出力する表示機能と、を
コンピュータに実現するプログラムを記憶した記憶媒体
であって、 前記数値登録機能は、数値の抽出に曖昧さが生じた場合
に、単一の数値表現を複数の数値情報として登録するこ
とを特徴とする数値情報検索プログラムを記憶した記憶
媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23125898A JP3360617B2 (ja) | 1998-08-18 | 1998-08-18 | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP23125898A JP3360617B2 (ja) | 1998-08-18 | 1998-08-18 | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000067056A true JP2000067056A (ja) | 2000-03-03 |
JP3360617B2 JP3360617B2 (ja) | 2002-12-24 |
Family
ID=16920805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP23125898A Expired - Fee Related JP3360617B2 (ja) | 1998-08-18 | 1998-08-18 | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3360617B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344268A (ja) * | 2000-06-02 | 2001-12-14 | Tsubasa System Co Ltd | 情報検索装置及び情報検索方法 |
JP2005250980A (ja) * | 2004-03-05 | 2005-09-15 | Oki Electric Ind Co Ltd | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム |
JP2006209257A (ja) * | 2005-01-25 | 2006-08-10 | Ns Solutions Corp | 情報処理装置、情報処理方法及びプログラム |
JP2006350989A (ja) * | 2005-05-18 | 2006-12-28 | Oki Electric Ind Co Ltd | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2011107767A (ja) * | 2009-11-12 | 2011-06-02 | Hitachi Ltd | 文書分析システム及び辞書作成システム |
US8706708B2 (en) | 2002-06-06 | 2014-04-22 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
JP2021068376A (ja) * | 2019-10-28 | 2021-04-30 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9465838B2 (en) | 2011-06-21 | 2016-10-11 | Nec Corporation | Numeric range search device, numeric range search method, and numeric range search program |
-
1998
- 1998-08-18 JP JP23125898A patent/JP3360617B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344268A (ja) * | 2000-06-02 | 2001-12-14 | Tsubasa System Co Ltd | 情報検索装置及び情報検索方法 |
US8706708B2 (en) | 2002-06-06 | 2014-04-22 | Microsoft Corporation | Providing contextually sensitive tools and help content in computer-generated documents |
JP2005250980A (ja) * | 2004-03-05 | 2005-09-15 | Oki Electric Ind Co Ltd | 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム |
JP2006209257A (ja) * | 2005-01-25 | 2006-08-10 | Ns Solutions Corp | 情報処理装置、情報処理方法及びプログラム |
JP2006350989A (ja) * | 2005-05-18 | 2006-12-28 | Oki Electric Ind Co Ltd | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
JP4618045B2 (ja) * | 2005-05-18 | 2011-01-26 | 沖電気工業株式会社 | 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム |
JP2010117797A (ja) * | 2008-11-11 | 2010-05-27 | Hitachi Ltd | 数値表現処理装置 |
JP2011107767A (ja) * | 2009-11-12 | 2011-06-02 | Hitachi Ltd | 文書分析システム及び辞書作成システム |
JP2021068376A (ja) * | 2019-10-28 | 2021-04-30 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
JP7389330B2 (ja) | 2019-10-28 | 2023-11-30 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3360617B2 (ja) | 2002-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
US7840891B1 (en) | Method and system for content extraction from forms | |
JP5924339B2 (ja) | 数値範囲検索装置、数値範囲検索方法、および数値範囲検索プログラム | |
US6219665B1 (en) | Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program | |
KR20070058635A (ko) | 시각적 텍스트 통역을 위한 전자 디바이스 및 방법 | |
US20050131931A1 (en) | Abstract generation method and program product | |
JP3360617B2 (ja) | 数値情報抽出装置および数値情報検索装置並びに数値情報抽出プログラムを記憶した記憶媒体、数値情報検索プログラムを記憶した記憶媒体 | |
JP2019185138A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JPH1153394A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
JP2011238159A (ja) | 計算機システム | |
JPH05128152A (ja) | 文書検索支援方法 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP5553037B2 (ja) | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム | |
JPH08115330A (ja) | 類似文書検索方法および装置 | |
JP4229457B2 (ja) | データ表示装置及びデータ表示方法 | |
JP5688936B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP3371983B2 (ja) | 不完全文字列と文字列の照合方法および装置 | |
JP4192142B2 (ja) | 辞書登録装置、辞書登録方法および辞書登録プログラム | |
JP2004295224A (ja) | テキスト情報管理装置及びテキスト情報管理プログラム | |
JP2002073656A (ja) | 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体 | |
US20220165076A1 (en) | Processing apparatus, processing method, and non-strategy medium | |
JP2005050175A (ja) | イメージデータ文書検索システム | |
JP2023034004A (ja) | 原稿審査支援方法、装置、プログラム、および辞書システム | |
TW201224792A (en) | System for outputting illustrative sentence based on input type and method thereof | |
JP2000067070A (ja) | 情報検索方法、検索ファイル作成方法及び情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071018 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081018 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091018 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101018 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111018 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121018 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131018 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |