JP3360617B2 - Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program - Google Patents

Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program

Info

Publication number
JP3360617B2
JP3360617B2 JP23125898A JP23125898A JP3360617B2 JP 3360617 B2 JP3360617 B2 JP 3360617B2 JP 23125898 A JP23125898 A JP 23125898A JP 23125898 A JP23125898 A JP 23125898A JP 3360617 B2 JP3360617 B2 JP 3360617B2
Authority
JP
Japan
Prior art keywords
numerical information
numerical
unit
information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23125898A
Other languages
Japanese (ja)
Other versions
JP2000067056A (en
Inventor
洋志 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP23125898A priority Critical patent/JP3360617B2/en
Publication of JP2000067056A publication Critical patent/JP2000067056A/en
Application granted granted Critical
Publication of JP3360617B2 publication Critical patent/JP3360617B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は数値情報抽出装置お
よび数値情報検索装置に関し、特に曖昧さのある数値表
現含む文書を対象にできる数値情報抽出装置および数値
情報検索装置と、これらの数値情報抽出装置、数値情報
検索装置をコンピュータで実現するためのプログラムを
記憶した記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a numerical information extracting apparatus and a numerical information retrieving apparatus, and more particularly to a numerical information extracting apparatus and a numerical information retrieving apparatus capable of targeting a document containing an ambiguous numerical expression, and a method for extracting these numerical information. The present invention relates to a device and a storage medium storing a program for realizing a numerical information search device by a computer.

【0002】[0002]

【従来の技術】文書中に含まれる数値情報を扱うことの
できる従来の文書検索装置の一例が、特開平8−329
165号公報に記載されている。 この従来の文書検索
装置は、図48に示すように動作する。
2. Description of the Related Art An example of a conventional document retrieval apparatus capable of handling numerical information contained in a document is disclosed in Japanese Patent Laid-Open No. 8-329.
No. 165. This conventional document search device operates as shown in FIG.

【0003】すなわち、処理対象となる文書が入力され
ると(4801〜4803)、その文書から特定のパターンを持
つ文字列を数値データとして抽出し(4804)、さらに、
その数値データの前後に存在する一定規則に基づいた文
字列を数字文字列データとして抽出する(4805)。この
数字文字列データの中から名詞データを抽出し、これを
所定の項目毎に分類して、上記数値データを対応付ける
(4806)。このようにして得られた各項目の数値データ
を1ヵ月等の所定期間毎に集計し(4807)、その集計結
果データを表示する(4803)。
That is, when a document to be processed is input (4801 to 4803), a character string having a specific pattern is extracted from the document as numerical data (4804).
A character string based on a certain rule existing before and after the numerical data is extracted as numeric character string data (4805). Noun data is extracted from the numeric character string data, classified for each predetermined item, and associated with the numerical data (4806). The numerical data of each item obtained in this way is tabulated for each predetermined period such as one month (4807), and the tabulated result data is displayed (4803).

【0004】数値データを抽出するには、テキストを先
頭から1文字ずつ調べてゆき、
To extract numerical data, the text is examined character by character from the beginning,

【0005】[0005]

【外1】 [Outside 1]

【0006】と数字の組み合わせ、あるいは、数字と
「円」の組み合わせを見つける。文字列として取り出さ
れた数字は数値に変換される。
[0006] Find combinations of numbers and numbers, or combinations of numbers and "circles". Numbers extracted as strings are converted to numbers.

【0007】従来の文書検索装置の別の例が、特開平6
−215041号公報に記載されている。この従来の文
書検索装置の構成を図49に示す。この図49を参照す
ると、この文書検索装置は、検索対象文書保持部4901、
検索条件保持部4902、検索条件再構成部4903、全文検索
条件保持部4904、後処理条件保持部4905、全文検索処理
部4906、全文検索結果保持部4907、後処理条件判定部49
08、検索結果保持部4909とから構成されている。
Another example of a conventional document retrieval apparatus is disclosed in
No. -215041. FIG. 49 shows the configuration of this conventional document search apparatus. Referring to FIG. 49, this document search device includes a search target document holding unit 4901,
Search condition storage unit 4902, search condition reconstruction unit 4903, full-text search condition storage unit 4904, post-processing condition storage unit 4905, full-text search processing unit 4906, full-text search result storage unit 4907, post-processing condition determination unit 49
08, and a search result holding unit 4909.

【0008】この従来の文書検索装置は、検索条件を文
字列検索と、数値による検索を含むその他の検索とにわ
け、文字列検索は全文検索を行い、検索結果に対してそ
の他の検索で結果の絞り込みを行う。数値による検索
は、たとえば図50に示すような文書から項目と数値を
取り出して数値に変換し、大小比較などを行う。
In this conventional document search apparatus, search conditions are divided into a character string search and other searches including a numerical search. The character string search performs a full-text search, and the search result is compared with the other search results. To narrow down. In the search by numerical values, for example, items and numerical values are extracted from a document as shown in FIG. 50, converted into numerical values, and compared in magnitude.

【0009】[0009]

【発明が解決しようとする課題】これらの従来技術の第
1の問題点は、文書中に現れる数値の表現がひとつの値
を指していない場合があるということである。「Aから
B」のように範囲を指定する他、「以上」や「多くと
も」のように上限や下限のどちらかだけを指定したり、
「約」や「くらい」によっておおよその数値を示す場合
などがある。この場合、数字列部分だけを抽出して数値
化しても、もとの文書中の情報が欠落してしまうため検
索洩れにつながる。
The first problem with these prior arts is that the numerical representation that appears in a document may not point to a single value. In addition to specifying a range like "from A to B", you can also specify only one of the upper or lower limit like "more than" or "at most"
In some cases, approximate numbers are indicated by “about” or “about”. In this case, even if only the numerical string portion is extracted and converted into a numerical value, the information in the original document is lost, which leads to omission of retrieval.

【0010】第2の問題点は、数値の種類(金額、長
さ、重量など)を特定した検索を行う場合、特定の単位
について検索の誤差が生じる可能性があることである。
その理由は、違う種類の数量を表す単位に同じ名前が付
いている場合があるためである。たとえば、「ポンド」
は重量と通貨単位の両方で使われている。そのため、金
額に関する条件を指定して検索しようとしたときに、重
量を表す「ポンド」の数値が含まれた文書が検索される
可能性がある。
[0010] The second problem is that when a search is performed in which the type of numerical value (eg, amount, length, weight, etc.) is specified, a search error may occur in a specific unit.
The reason is that units representing different types of quantities may have the same name. For example, "pound"
Is used in both weight and currency units. Therefore, when an attempt is made to perform a search by designating a condition relating to an amount of money, there is a possibility that a document including a numerical value of “pound” indicating the weight is searched.

【0011】第3の問題点は、文書の種類や検索対象と
する数値の記述形式の限定が少ない場合、数値の解釈が
一意に決定できない場合があるということである。その
理由は、もともとの日本語の表記法として曖昧さを許し
ていたり、記述の省略が行われるためである。たとえ
ば、「100,102円」という記述は、「十万百二
円」とも「100円と102円」とも解釈できる。 ま
た、「10から15万人」という記述は、「10人から
15万人」という解釈の他に、「10万人から15万
人」の省略とも解釈できる。
A third problem is that when the type of document and the description format of a numerical value to be searched are limited, the interpretation of the numerical value may not be uniquely determined. The reason is that the original Japanese notation allows ambiguity or the description is omitted. For example, the description "100, 102 yen" can be interpreted as "100,000 yen" or "100 yen and 102 yen". Further, the description "10 to 150,000" can be interpreted as an abbreviation of "100,000 to 150,000" in addition to the interpretation of "10 to 150,000".

【0012】第4の問題点は、曖昧さを含む数値情報に
ついてすべての可能性に対応する情報を検索対象とする
と、正しくない、あるいは、検索ユーザにとって不要の
検索結果が大量に含まれてしまう可能性があることであ
る。
A fourth problem is that if numerical information containing ambiguity is to be searched for information corresponding to all possibilities, a large number of incorrect or unnecessary search results are included in the search user. There is a possibility.

【0013】本発明の目的は、上記した従来技術の問題
点に鑑み、文書中に含まれている数値に関する情報を対
象として、数値情報を抽出できる数値情報抽出装置と、
数値の条件を指定し、文書を検索できる数値情報検索装
置を提供することにある。
An object of the present invention is to provide a numerical information extracting apparatus capable of extracting numerical information from information relating to numerical values contained in a document in view of the above-mentioned problems of the prior art;
An object of the present invention is to provide a numerical information search device capable of specifying a numerical condition and searching a document.

【0014】[0014]

【課題を解決するための手段】本発明の第1の数値情報
抽出装置は、数字文字列の区切りの曖昧さを検出し区切
りの曖昧な数字文字列からは複数の数値文字列を取り出
す数値判別手段を備え、適切な区切りを選択するか、あ
るいは、複数の区切り方を選択するよう動作する。
SUMMARY OF THE INVENTION A first numerical information extracting apparatus according to the present invention detects an ambiguity of a delimiter of a numeric character string, and extracts a plurality of numeric character strings from the ambiguous numeric character string. Means are operative to select an appropriate break or to select a plurality of breaks.

【0015】本発明の第2の数値情報抽出装置は、単位
の名称と単位の種類を登録した単位テーブルと、単位の
種類を決定するための条件を登録した種類条件テーブル
と、前記単位テーブルと前記種類条件テーブルと該テキ
ストを参照して単位の種類を決定する単位選択手段とを
備え、一つの単位に複数の種類が登録されている場合に
適切な種類を選択するよう動作する。
A second numerical information extracting apparatus according to the present invention comprises: a unit table in which a unit name and a unit type are registered; a type condition table in which conditions for determining the unit type are registered; A unit selection means for determining the type of unit by referring to the type condition table and the text is provided. When a plurality of types are registered in one unit, an operation is performed to select an appropriate type.

【0016】本発明の第3の数値情報抽出装置は、単位
の名称と単位の階層関係を登録した単位テーブルと、単
位の階層関係を決定する階層判定手段とを備え、階層関
係にある複数の単位を使用して表現された数値を単一の
数値情報として登録するよう動作する。
A third numerical information extracting apparatus according to the present invention includes a unit table in which a unit name and a hierarchical relationship between units are registered, and a hierarchical determining means for determining the hierarchical relationship between the units. Operate to register a numerical value expressed using units as single numerical information.

【0017】本発明の第4の数値情報抽出装置は、数値
情報に含まれる単位の種類によって、数値情報を選択す
る選択手段を備え、必要な数値情報だけを登録するよう
動作する。
A fourth numerical information extracting apparatus according to the present invention includes a selecting means for selecting numerical information according to a type of a unit included in the numerical information, and operates so as to register only necessary numerical information.

【0018】本発明の第5の数値情報抽出装置は、範囲
表現と範囲表現の種類を登録した範囲表現テーブルと、
前記範囲表現テーブルとテキストを参照して範囲表現の
種類を決定する範囲抽出手段とを備え、範囲表現の種類
を付加した数値情報を作成するよう動作する。
A fifth numerical information extracting apparatus according to the present invention includes a range expression table in which a range expression and a type of the range expression are registered;
A range extracting means for determining the type of range expression by referring to the range expression table and text; and operating to create numerical information to which the type of range expression is added.

【0019】本発明の第6の数値情報抽出装置は、数値
情報に含まれる範囲表現の種類によって数値情報を選択
する選択手段を備え、必要な数値情報だけを登録するよ
う動作する。
The sixth numerical information extracting apparatus of the present invention includes a selecting means for selecting numerical information according to the type of range expression included in the numerical information, and operates to register only necessary numerical information.

【0020】本発明の第7の数値情報抽出装置は、数値
を表す文字列の一部、あるいは、単位の省略を補う省略
補間手段を備え、省略された数値表現からも適切な数値
情報を抽出するよう動作する。
The seventh numerical information extracting apparatus according to the present invention includes a part of a character string representing a numerical value or an omission interpolating means for supplementing the omission of a unit, and extracts appropriate numerical information from an abbreviated numerical expression. To work.

【0021】本発明の第1の数値情報検索装置は、数値
の抽出に曖昧さが生じた場合には複数の数値情報として
登録する数値登録手段を備え、曖昧な抽出結果があって
も洩れのない検索をするよう動作する。
The first numerical information retrieval apparatus of the present invention includes numerical value registering means for registering a plurality of numerical information when there is an ambiguity in the extraction of a numerical value. No search works.

【0022】本発明の第2の数値情報検索装置は、数値
の切り出しに曖昧さが生じた場合には複数の数値情報と
して登録する数値登録手段を備え、曖昧な抽出結果があ
っても洩れのない検索をするよう動作する。
The second numerical information retrieval apparatus of the present invention includes numerical value registering means for registering a plurality of numerical information when there is an ambiguity in cutting out a numerical value. No search works.

【0023】本発明の第3の数値情報検索装置は、単位
の種類に曖昧さが生じた場合には複数の数値情報として
登録する数値登録手段を備え、曖昧な抽出結果があって
も洩れのない検索をするよう動作する。
The third numerical information retrieval apparatus of the present invention includes numerical value registration means for registering as a plurality of numerical information when the type of unit is ambiguous. No search works.

【0024】本発明の第4の数値情報検索装置は、数値
や単位の表記に省略ある場合には省略を補って登録する
数値登録手段を備え、省略した表現があっても正しく検
索をするよう動作する。
The fourth numerical information retrieval apparatus according to the present invention includes a numerical value registering means for registering a numerical value or a unit in a case where the numerical value or the unit is omitted, so that a correct search can be performed even if the omitted expression is present. Operate.

【0025】本発明の第5の数値情報検索装置は、検索
結果として必要な数値情報の条件を登録した基準テーブ
ルを備え、必要な検索結果だけを出力するよう動作す
る。
The fifth numerical information search apparatus of the present invention includes a reference table in which necessary numerical information conditions are registered as search results, and operates so as to output only necessary search results.

【0026】本発明の第6の数値情報検索装置は、検索
結果の表示方法を登録した基準テーブルを備え、検索結
果の表示方法を数値表現の種類や曖昧さに応じて変えて
出力するよう動作する。
The sixth numerical information search device of the present invention includes a reference table in which a display method of a search result is registered, and operates so as to output the search result by changing the display method according to the type or ambiguity of the numerical expression. I do.

【0027】本発明の第7の数値情報検索装置は、検索
結果の表示順序を登録した基準テーブルを備え、検索結
果を必要度の高いものから出力するよう動作する。
The seventh numerical information search apparatus of the present invention includes a reference table in which the display order of search results is registered, and operates to output search results in descending order of need.

【0028】本発明の第8の数値情報検索装置は、検索
結果の選択や表示方法を登録した基準テーブルと前記基
準テーブルをユーザが修正するための基準修正手段とを
備え、ユーザが検索結果の選択や表示方法の指定を行う
ことができるよう動作する。
An eighth numerical information retrieval apparatus according to the present invention includes a reference table in which a method of selecting and displaying a search result is registered, and reference correction means for correcting the reference table by a user. It operates so that selection and designation of display method can be performed.

【0029】本発明の第9の数値情報検索装置は、数値
の範囲表現や曖昧表現を種類わけする数値登録手段と、
前記の種類に応じて検索条件を変換して検索を行う検索
手段とを備え、範囲表現や曖昧な数値表現を含む文書を
正確に検索するよう動作する。
[0029] A ninth numerical information retrieval apparatus according to the present invention comprises a numerical value registration means for classifying numerical expression range expressions and ambiguous expressions,
A search unit that converts a search condition according to the type and performs a search, and operates to accurately search for a document including a range expression or an ambiguous numerical expression.

【0030】[0030]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.

【0031】[第1の実施の形態]図1を参照すると、
本発明の第1の実施の形態は、文書入力手段1と、テキ
スト保持手段2と、数値抽出手段3と、数値情報保持手段
4と、単位判定手段5と、範囲判定手段6と、出力手段8と
から構成されている。
[First Embodiment] Referring to FIG.
The first embodiment of the present invention relates to a document input unit 1, a text holding unit 2, a numerical value extracting unit 3, and a numerical information holding unit.
4, unit determination means 5, range determination means 6, and output means 8.

【0032】単位判定手段5は、単位抽出手段51と、単
位テーブル52とを含む。
The unit determining means 5 includes a unit extracting means 51 and a unit table 52.

【0033】範囲判定手段6は、範囲抽出手段61と、範
囲表現テーブル62とを含む。
The range determining means 6 includes a range extracting means 61 and a range expression table 62.

【0034】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates as follows.

【0035】文書入力手段1は、検索対象となる文書の
内容をテキスト保持手段2に書き込む。
The document input unit 1 writes the contents of the document to be searched into the text holding unit 2.

【0036】テキスト保持手段2は、文書の内容を記憶
する手段で、ファイル装置、あるいはメモリで実現す
る。
The text holding means 2 is a means for storing the contents of a document, and is realized by a file device or a memory.

【0037】数値抽出手段3は、テキスト保持手段2に記
憶している文書内容から数値を表す文字列を取り出し、
数値データに変換し、テキスト中の文字位置とともに数
値情報保持手段4に書き込む。
The numerical value extracting means 3 extracts a character string representing a numerical value from the contents of the document stored in the text holding means 2,
The data is converted into numerical data and written into the numerical information holding means 4 together with the character position in the text.

【0038】単位判定手段5は、数値情報保持手段4に記
憶されている数値情報について、付属する単位を調べ、
数値情報保持手段4に登録する。単位抽出手段51は、数
値情報保持手段4に記憶されている数値情報のそれぞれ
について、テキスト保持手段2を参照して前後に隣接す
る文字列を調べ、単位テーブル52に登録されている単位
があれば数値情報保持手段4の該数値情報に追加する。
単位テーブル52は、単位を表す文字列と、数値の位置関
係を登録している。
The unit determination means 5 checks the attached unit of the numerical information stored in the numerical information holding means 4,
It is registered in the numerical information holding means 4. For each of the numerical information stored in the numerical information holding means 4, the unit extracting means 51 checks the character string adjacent before and after with reference to the text holding means 2, and finds a unit registered in the unit table 52. For example, it is added to the numerical information of the numerical information holding means 4.
The unit table 52 registers a character string representing a unit and a positional relationship between numerical values.

【0039】範囲判定手段6は、数値情報保持手段4に記
憶されている数値情報の組み合わせが範囲を表している
かどうかを判定し、数値情報保持手段4の情報を修正す
る。範囲抽出手段61は、数値情報保持手段4に記憶され
ている数値情報のそれぞれについて、テキスト保持手段
2を参照して前後に隣接する文字列を調べ、単位が等し
く、範囲表現テーブル62に登録されている関係になって
いる情報があれば、数値情報保持手段4の該数値情報を
範囲を示すように変更する。範囲表現テーブル62は、範
囲を表す文字列と、数値の位置関係を登録している。
The range judging means 6 judges whether the combination of the numerical information stored in the numerical information holding means 4 represents a range, and corrects the information in the numerical information holding means 4. The range extracting means 61 includes a text holding means for each of the numerical information stored in the numerical information holding means 4.
The character string adjacent to the front and back is checked with reference to 2 and if there is information having the same unit and registered in the range expression table 62, the numerical information of the numerical information holding means 4 indicates the range. To change. The range expression table 62 registers a character string representing a range and a positional relationship between numerical values.

【0040】出力手段8は、数値情報保持手段4の内容を
検索用のデータベースやインデックスに登録する。
The output means 8 registers the contents of the numerical information holding means 4 in a search database or index.

【0041】数値抽出手段3について、図2を参照して
説明する。数値抽出手段3は、数字列抽出手段31と、数
値判別手段32と、数値変換手段33とから構成されてい
る。
The numerical value extracting means 3 will be described with reference to FIG. The numerical value extracting means 3 includes a numerical string extracting means 31, a numerical value discriminating means 32, and a numerical value converting means 33.

【0042】数字列抽出手段31は、テキスト保持手段2
に記憶されているテキスト中から、数字表現を構成する
文字列を抽出する。数字表現を構成する文字列には、ア
ラビア数字、漢数字の他に、小数点、桁区切り記号、正
負の符号、指数を示す表現を含む。
The numeral string extracting means 31 is provided in the text holding means 2
Character strings constituting a numeric expression are extracted from the text stored in the. The character strings constituting the numeric expression include expressions indicating a decimal point, a digit separator, a plus / minus sign, and an exponent, in addition to Arabic numerals and Chinese numerals.

【0043】数値判別手段32は、該文字列が複数の数値
表現として解釈できるかどうか判定し、できる場合は分
割した文字列を作成する。文字列がカンマと数字以外の
文字を含んでいる場合は、判定を行わず、該文字列を数
値変換手段33で数値に変換する。カンマと数字のみを含
んでいる場合、カンマで分割して各々の数字列を数値変
換手段33で数値に変換する。先頭の分割結果が3桁以内
で、以降の分割結果が全て3桁の場合は、分割前の文字
列も数値変換手段33で数値に変換する。
The numerical value discriminating means 32 determines whether the character string can be interpreted as a plurality of numerical expressions, and if so, creates a divided character string. If the character string contains characters other than commas and numbers, no judgment is made, and the character string is converted into a numerical value by the numerical value conversion means 33. When only a comma and a number are included, each number string is divided by a comma and each number string is converted into a numerical value by the numerical value conversion means 33. If the first division result is within three digits and the subsequent division results are all three digits, the character string before division is also converted into a numerical value by the numerical value conversion means 33.

【0044】数値変換手段33は、文字列を数値に変換し
て数値情報保持手段4に登録する。数値に変換できなか
った場合は、登録しない。
The numerical value conversion means 33 converts the character string into a numerical value and registers it in the numerical value information holding means 4. If the value could not be converted, do not register.

【0045】次に、図1および図5の流れ図を参照して
本実施の形態の全体の動作について説明する。
Next, the overall operation of the present embodiment will be described with reference to the flowcharts of FIGS.

【0046】まず、文書入力手段1によって、文書中か
らテキストを文字列として取り出し、テキスト保持手段
2に登録する(図5のステップ501)。文書中には、文書
タイトルや作成者名など数値による検索の必要のない情
報が区別できる形式で含まれている場合があるが、その
ような箇所は取り出す必要がない。また、文書作成日時
が決まった形式で登録されている場合のように、はじめ
から数値情報が分離されている場合にも、容易に数値と
しての検索が可能なので、取り出す必要がない。
First, the text is extracted from the document as a character string by the document input means 1 and is stored in the text holding means.
2 (step 501 in FIG. 5). In a document, information that does not need to be searched by numerical values, such as a document title and a creator name, may be included in a distinguishable format, but such a portion does not need to be extracted. Further, even when numerical information is separated from the beginning, such as when a document creation date is registered in a fixed format, it is not necessary to retrieve the numerical information because it can be easily searched as a numerical value.

【0047】次に、数値抽出手段3によってテキスト保
持手段2に記憶されているテキスト中から数字を取り出
し数値に変換して数値情報保持手段4に登録する(ステ
ップ502)。一般に一つの文書に複数の数値情報が含ま
れているので、それぞれをテキスト保持手段2での文字
位置と対応づけて登録する。区切り方に曖昧さがある数
値文字列は、数値判別手段32によって複数の区切り方に
よる文字列を作成し登録する。
Next, numbers are extracted from the text stored in the text holding means 2 by the numerical value extracting means 3, converted into numerical values, and registered in the numerical value information holding means 4 (step 502). Generally, one document contains a plurality of pieces of numerical information, and each of them is registered in association with the character position in the text holding unit 2. For a numeric character string having an ambiguous delimiter, a character string with a plurality of delimiters is created and registered by the numerical value discriminating means 32.

【0048】さらに、単位判定手段5によって、各数値
情報に付随する単位を取り出す(ステップ503)。数値
情報を取り出した位置の前後の文字列をテキスト保持手
段2で参照して、単位テーブル52に登録されている単位
が位置関係も含めて見つかれば、数値情報保持手段4の
該当データに単位が登録される。
Further, the unit associated with each numerical information is extracted by the unit determining means 5 (step 503). The character string before and after the position where the numerical information is extracted is referred to by the text holding unit 2, and if the unit registered in the unit table 52 is found including the positional relationship, the unit is included in the corresponding data of the numerical information holding unit 4. be registered.

【0049】次に、範囲判定手段6によって、各数値情
報の内で範囲を指定しているものをまとめる(ステップ
504)。数値情報を取り出した位置の前後の文字列をテ
キスト保持手段2で参照して、範囲表現テーブル62に登
録されている単位が位置関係も含めて見つかれば、数値
情報保持手段4の該当データをまとめてひとつの範囲と
して登録しなおす。
Next, the range determining means 6 summarizes the numerical information specifying the range from among the numerical information (step
504). The character string before and after the position where the numerical information is extracted is referred to by the text holding unit 2, and if the unit registered in the range expression table 62 is found including the positional relationship, the corresponding data of the numerical information holding unit 4 is collected. Re-register as one range.

【0050】最後に、出力手段8によって数値情報保持
手段4の内容が文書を判別する情報(文書名や文書番号
など)とともに出力される。
Finally, the contents of the numerical information holding means 4 are output by the output means 8 together with information (document name, document number, etc.) for identifying the document.

【0051】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0052】本実施の形態では、数字列抽出手段31が抽
出した文字列を数値判別手段32が分割して数値に変換す
るというように構成されているため、数値の解釈に曖昧
性がある時にも洩れなく出力することができる。
In this embodiment, the character string extracted by the number string extracting means 31 is configured to be divided by the numerical value discriminating means 32 and converted into a numerical value. Can be output without omission.

【0053】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0054】「123ドル以上567ドル以下の製品を購入の
対象とする」というテキストが文書入力手段1によって
テキスト保持手段2に記憶されている場合を例にする。
An example will be described in which the text “Products of $ 123 or more and $ 567 or less are to be purchased” is stored in text holding means 2 by document input means 1.

【0055】また、図3に単位テーブル52の登録内容の
例を示す。図3では、数字の位置を四角(□)で示して
いる。たとえば、「□Kg」は「100Kg」のように数字の
後に単位「Kg」が位置することを示す。「毎秒□メート
ル」は「毎秒40.5メートル」のように「毎秒」と「メ
ートル」の間に数字が位置することを示す。
FIG. 3 shows an example of the registered contents of the unit table 52. In FIG. 3, the positions of the numbers are indicated by squares (□). For example, “□ Kg” indicates that the unit “Kg” is located after the number, such as “100Kg”. "Square meters per second" indicates that a number is located between "every second" and "meter", such as "40.5 meters per second".

【0056】図4に範囲表現テーブル62の登録内容の例
を示す。図4では、単位も含めた数字の位置を四角
(□)で示している。たとえば、「□以上□以下」は
「10万円以上20万円以下」のように数字が位置すること
を示す。
FIG. 4 shows an example of the registered contents of the range expression table 62. In FIG. 4, the positions of the numbers including the units are indicated by squares (□). For example, “□ or more and □ or less” indicates that the number is located as “100,000 yen or more and 200,000 yen or less”.

【0057】図6は、本動作例による数値情報保持手段
4の内容を示す図である。図6で、601は数値範囲の下限
値、602は上限値、603は数値に付く単位、604は数値表
現の開始位置、605は数値表現の終了位置を登録してい
る。
FIG. 6 shows a numerical information holding means according to this operation example.
FIG. 4 is a diagram showing the contents of FIG. In FIG. 6, reference numeral 601 denotes a lower limit value of a numerical range, 602 denotes an upper limit value, 603 denotes a unit attached to a numerical value, 604 denotes a start position of a numerical expression, and 605 denotes an end position of a numerical expression.

【0058】数値抽出手段3によってテキスト中から「1
23」と「567」のふたつの数値を取り出し、数値情報保
持手段4に登録する(図6のA)。さらに、単位判定手段
5によって、「ドル」という単位が見つかり、数値情報
保持手段4に登録される(図6のB)。
From the text, "1"
The two numerical values of "23" and "567" are extracted and registered in the numerical value information holding means 4 (A in FIG. 6). Furthermore, unit determination means
The unit “dollar” is found by 5 and registered in the numerical information holding unit 4 (B in FIG. 6).

【0059】次に、範囲判定手段6によって、「□以上
□以下」という範囲表現が見つかり、図6のBに示すふ
たつの数値情報をまとめて、範囲を表すひとつの情報と
して登録される(図6のC)。
Next, a range expression “□ or more and □ or less” is found by the range judging means 6, and the two numerical information shown in FIG. 6B are collectively registered as one piece of information representing the range (FIG. 6C).

【0060】数値判別手段32は、テキストにカンマを含
む数字列がある場合には、分割した数値も登録する。た
とえば、「12,345ドル」という文字列であれば、「1234
5ドル」、「12」、「345ドル」が登録される(図6の
D)。カンマは通常3桁毎に挿入されるので、「1234,56
7」や「123,45」は分割結果だけを登録する。
If the text includes a numeric string containing a comma, the numeric value discriminating means 32 also registers the divided numeric values. For example, the string "$ 12,345" would be "1234
$ 5 "," 12 "and" $ 345 "are registered (Fig. 6
D). Commas are usually inserted every three digits, so "1234,56
"7" and "123,45" register only the division result.

【0061】なお、区切り桁数が3以外の文書や、桁区
切りにカンマ以外の文字を使用した文書に対応するの
は、区切り桁数や区切り記号を変更することで容易であ
る。区切り方の適切さをあらわす数値を登録することも
できる。例えば、分割結果と全体の文字列とで異なる適
切さを与えられる(図6のEの606)。
It is easy to correspond to a document having a number of separator digits other than 3 or a document in which a character other than a comma is used as a digit separator by changing the number of separator digits or a symbol. It is also possible to register a numerical value indicating the appropriateness of the division method. For example, different appropriateness is given to the divided result and the entire character string (606 in FIG. 6E).

【0062】[第2の実施の形態]次に、本発明の第2
の実施の形態について図面を参照して詳細に説明する。
[Second Embodiment] Next, a second embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0063】図7を参照すると、本発明の第2の実施の
形態は、文書入力手段1と、テキスト保持手段2と、数値
抽出手段203と、数値情報保持手段4と、単位判定手段20
5と、範囲判定手段6と、出力手段8とから構成されてい
る。
Referring to FIG. 7, according to a second embodiment of the present invention, a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical value holding unit 4, a unit determining unit 20,
5, a range determining means 6, and an output means 8.

【0064】単位判定手段205は、単位抽出手段251と、
単位テーブル252と、単位選択手段253と、種類条件テー
ブル254とを含む。
The unit determining means 205 includes a unit extracting means 251
It includes a unit table 252, a unit selecting means 253, and a type condition table 254.

【0065】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates roughly as follows.

【0066】数値抽出手段203は、テキスト保持手段2に
記憶している文書内容から数値を表す文字列を取り出
し、数値データに変換し、テキスト中の文字位置ととも
に数値情報保持手段4に書き込む。
The numerical value extracting means 203 extracts a character string representing a numerical value from the document content stored in the text storing means 2, converts the character string into numerical data, and writes it into the numerical information storing means 4 together with the character position in the text.

【0067】単位判定手段205は、数値情報保持手段4に
記憶されている数値情報について、付属する単位とその
種類とを調べ、数値情報保持手段4に登録する。単位抽
出手段251は、数値情報保持手段4に記憶されている数値
情報のそれぞれについて、テキスト保持手段2を参照し
て前後に隣接する文字列を調べ、単位テーブル252に登
録されている単位を探す。同じ名前で種類の異なる単位
がある場合は、単位選択手段253によって、種類を決定
する。単位名と種類とを数値情報保持手段4の該数値情
報に追加する。単位テーブル252は、単位を表す文字列
と、単位の種類と、単位と数値の位置関係とを登録して
いる。単位選択手段253は、単位抽出手段251から単位を
表す文字列と、対応する複数の単位の種類と、単位の出
現位置とを受けとり、テキスト保持手段2と種類条件テ
ーブル254とを参照して、単位の種類を決定する。種類
条件テーブル254は、単位の種類を決めるための条件を
単位の種類ごとに登録している。
The unit judging means 205 checks the attached unit and the type of the numerical information stored in the numerical information holding means 4 and registers it in the numerical information holding means 4. The unit extracting unit 251 refers to the text holding unit 2 for each of the numerical information stored in the numerical information holding unit 4 and checks adjacent character strings before and after, and searches for a unit registered in the unit table 252. . If there are different types of units with the same name, the type is determined by the unit selection means 253. The unit name and type are added to the numerical information of the numerical information holding means 4. The unit table 252 registers a character string representing a unit, a type of the unit, and a positional relationship between the unit and a numerical value. The unit selection unit 253 receives the character string representing the unit, the corresponding plurality of unit types, and the appearance position of the unit from the unit extraction unit 251, and refers to the text holding unit 2 and the type condition table 254, Determine the type of unit. The type condition table 254 registers conditions for determining the type of unit for each type of unit.

【0068】次に、図7及び図8の流れ図を参照して本
実施の形態の単位判定手段205の動作について説明す
る。
Next, the operation of the unit determination means 205 of the present embodiment will be described with reference to the flowcharts of FIGS.

【0069】単位判定手段205は、数値情報保持手段4に
登録されている数値情報の各々について以下に説明する
動作で単位情報を付加する。
The unit judging means 205 adds unit information to each of the numerical information registered in the numerical information holding means 4 by the operation described below.

【0070】まず、数値情報保持手段4から数値の出現
位置を読み取る(図8のステップ801)。
First, the appearance position of a numerical value is read from the numerical value information holding means 4 (step 801 in FIG. 8).

【0071】次に、テキスト保持手段2を参照して数値
の出現位置の前後に単位テーブル252に登録されている
単位があるかどうかを調べる(ステップ802)。
Next, it is checked with reference to the text holding means 2 whether there is a unit registered in the unit table 252 before and after the appearance position of the numerical value (step 802).

【0072】ひとつの単位が見つかった場合は、数値情
報保管手段4に登録し、複数の種類の単位が見つかった
場合は、適切な種類を決定する(ステップ803)。
If one unit is found, it is registered in the numerical information storage means 4. If a plurality of types of units are found, an appropriate type is determined (step 803).

【0073】単位の種類を決定するには、選択条件テー
ブル254から見つかった単位の種類に対応する条件を取
り出し、テキスト保持手段2を参照して、適切な種類を
選択する(ステップ804)。
To determine the type of unit, a condition corresponding to the type of unit found is selected from the selection condition table 254, and an appropriate type is selected with reference to the text holding means 2 (step 804).

【0074】最後に、単位名、単位種類を数値情報保持
手段4に登録する(ステップ805)。
Finally, the unit name and unit type are registered in the numerical information holding means 4 (step 805).

【0075】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0076】本実施の形態では、単位テーブルに単位の
種類を登録しているため、単位の種類を指定した検索に
使うための数値情報を抽出できる。
In this embodiment, since the unit type is registered in the unit table, it is possible to extract numerical information to be used for a search in which the unit type is specified.

【0077】また、本実施の形態では、さらに、単位抽
出手段が単位の種類を判別する単位選択手段を参照する
ように構成されているため、同名で種類が異なる単位が
競合したときに適切な種類を選択できる。
Further, in this embodiment, since the unit extracting means is configured to refer to the unit selecting means for judging the type of the unit, the unit extracting means which is appropriate when a unit having the same name but different type competes. You can select the type.

【0078】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0079】図9に単位テーブル252の登録内容の例を
示す。図9では、図3の例に加え、単位の種類を登録し
ている(図9の901)。たとえば、「□円」は金額を表
し、「□Kg」は重量を表す。「□ポンド」は、金額と重
量の両方を表すのに使用される。
FIG. 9 shows an example of the registered contents of the unit table 252. In FIG. 9, in addition to the example of FIG. 3, the type of unit is registered (901 in FIG. 9). For example, “□ yen” represents the amount of money, and “□ Kg” represents the weight. “□ pound” is used to represent both amount and weight.

【0080】図10に種類条件テーブル254の登録内容
の例を示す。図10の例では、単位の種類(図10の10
01)に関連のある単語を登録している(図10の100
2)。
FIG. 10 shows an example of the registered contents of the type condition table 254. In the example of FIG. 10, the type of unit (10 in FIG. 10)
01) is registered (100 in FIG. 10).
2).

【0081】「123ポンド以上567ポンド以下の値段の製
品を購入する」というテキストが文書入力手段1によっ
てテキスト保持手段2に記憶されている場合を例にす
る。図11は、本動作例による数値情報保持手段4の内
容を示す図である。図11において、1106は単位の種類
を登録している。
An example is described in which the text “Purchase a product at a price between 123 and 567 pounds” is stored in the text holding means 2 by the document input means 1. FIG. 11 is a diagram showing the contents of the numerical information holding means 4 according to this operation example. In FIG. 11, reference numeral 1106 denotes a unit type.

【0082】数値抽出手段3によってテキスト中から「1
23」と「567」のふたつの数値を取り出し、数値情報保
持手段4に登録している(図11のA)。さらに、単位抽
出手段251によって、「ポンド」という単位が「金額」
と「重量」の2種類見つかり、適切な方を選択するため
単位選択手段253に渡される。単位選択手段253は、種類
条件テーブル254からそれぞれの関連単語を取り出し、
テキスト保持手段2を参照して、それぞれの語を探す。
本例では、「金額」の条件に登録されている「値段」だ
けが見つかるため、「金額」が適切な種類として決定さ
れる。単位「ポンド」と種類「金額」が数値情報保持手
段4に登録される(図11のB)。
The numerical value extracting means 3 converts “1” from the text.
Two numerical values of "23" and "567" are extracted and registered in the numerical value information holding means 4 (A in FIG. 11). Further, the unit “pound” is changed to “amount” by the unit extracting means 251.
And “weight” are found and passed to the unit selection means 253 to select the appropriate one. The unit selection means 253 extracts each related word from the type condition table 254,
With reference to the text holding means 2, each word is searched.
In this example, since only “price” registered in the condition of “amount” is found, “amount” is determined as an appropriate type. The unit “pound” and the type “amount” are registered in the numerical information holding means 4 (B in FIG. 11).

【0083】単位選択手段253において、複数の関連単
語が見つかった場合は、以下のような方法で選択でき
る。 ・最も近くに関連語が出現した種類を選択する。 ・関連語の数の多い種類を選択する。 ・関連語に重要度を与えて、重要度の大きい関連語の出
現した種類、あるいは、重要度の合計の大きな種類を選
択する。
When a plurality of related words are found in the unit selecting means 253, they can be selected in the following manner.・ Select the type in which the related word appears closest.・ Select a type that has many related words. -Give importance to the related words, and select the type in which the related word with high importance appears, or the type with a large total of importance.

【0084】本実施の形態の別の実施例について説明す
る。
Another example of the present embodiment will be described.

【0085】単位選択手段253は、単位の種類のそれぞ
れについて、適切さの度合いを数値で求め、その適切さ
の度合いが単位の種類とともに数値情報保持手段4に登
録される。図11のCに例を示す。数値情報保持手段4に
は、「金額」と「重量」の両方の種類が登録され、適切
さの度合いが記録されている(図11の1107)。適切さ
の度合いの計算方法としては、関連単語の数、関連語の
重要度の和、関連語の重要度を数字列との距離で正規化
したものなどがある。
The unit selecting means 253 obtains the degree of adequacy of each type of unit by a numerical value, and the degree of adequacy is registered in the numerical information holding means 4 together with the type of the unit. An example is shown in FIG. In the numerical value information holding means 4, both types of “money” and “weight” are registered, and the degree of appropriateness is recorded (1107 in FIG. 11). Methods for calculating the degree of appropriateness include the number of related words, the sum of the importance of related words, and a method in which the importance of related words is normalized by the distance from a numeric string.

【0086】[第3の実施の形態]次に、本発明の第3
の実施の形態について図面を参照して詳細に説明する。
[Third Embodiment] Next, a third embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0087】図12を参照すると、本発明の第3の実施
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段30
5と、範囲判定手段6と、出力手段8とから構成されてい
る。
Referring to FIG. 12, according to a third embodiment of the present invention, a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical value storing unit 4, a unit determining unit 30,
5, a range determining means 6, and an output means 8.

【0088】単位判定手段305は、単位抽出手段351と、
単位テーブル352と、階層判定手段253とを含む。
The unit determination means 305 comprises: a unit extraction means 351;
It includes a unit table 352 and a hierarchy determination unit 253.

【0089】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates roughly as follows.

【0090】単位判定手段305は、数値情報保持手段4に
記憶されている数値情報について、付属する単位を調
べ、数値情報保持手段4に登録する。単位抽出手段351
は、数値情報保持手段4に記憶されている数値情報のそ
れぞれについて、テキスト保持手段2を参照して前後に
隣接する文字列を調べ、単位テーブル252に登録されて
いる単位を探す。単位が見つかったら、階層判定手段35
3によって、隣接する数値情報間に階層構造が無いかど
うかを調べ、階層構造のある単位がある場合は、一つの
情報にまとめ、単位名を数値情報保持手段4の該数値情
報に追加する。単位テーブル352は、単位を表す文字列
と、単位と数値の位置関係と、他の単位との階層関係と
を登録している。階層判定手段353は、単位抽出手段351
から単位を表す文字列と、単位の出現位置とを受けと
り、単位テーブル352と数値情報保持手段4とを参照し
て、階層関係にある情報をまとめる。
The unit judging means 305 checks the attached unit of the numerical information stored in the numerical information holding means 4 and registers it in the numerical information holding means 4. Unit extraction means 351
For each piece of numerical information stored in the numerical information holding means 4, the text storage means 2 is consulted to check adjacent character strings before and after, and to search for a unit registered in the unit table 252. When a unit is found, the hierarchy determination means 35
According to 3, it is checked whether or not there is a hierarchical structure between adjacent numerical information. If there is a unit having a hierarchical structure, it is combined into one information, and the unit name is added to the numerical information of the numerical information holding means 4. The unit table 352 registers a character string representing a unit, a positional relationship between the unit and a numerical value, and a hierarchical relationship with another unit. The hierarchy determining unit 353 includes a unit extracting unit 351.
And the character string representing the unit and the appearance position of the unit are received, and the unit table 352 and the numerical information holding unit 4 are referred to, and the information in a hierarchical relationship is collected.

【0091】次に、図12及び図13の流れ図を参照し
て本実施の形態の単位判定手段305の動作について説明
する。
Next, the operation of the unit determination means 305 of this embodiment will be described with reference to the flowcharts of FIGS.

【0092】単位判定手段305は、数値情報保持手段4に
登録されている数値情報の各々について以下に説明する
動作で単位情報を付加する。
The unit determining means 305 adds unit information to each of the numerical information registered in the numerical information holding means 4 by the operation described below.

【0093】まず、数値情報保持手段4から数値の出現
位置を読み取る(図13のステップ1301)。
First, the appearance position of the numerical value is read from the numerical value information holding means 4 (step 1301 in FIG. 13).

【0094】次に、テキスト保持手段2を参照して数値
の出現位置の前後に単位テーブル352に登録されている
単位があるかどうかを調べる(ステップ1302)。
Next, it is checked with reference to the text holding means 2 whether there is a unit registered in the unit table 352 before and after the appearance position of the numerical value (step 1302).

【0095】見つかった単位について、階層判定手段35
3によって他の数値情報との階層関係を調べる(ステッ
プ1303)。
For the found unit, the hierarchy determining means 35
The hierarchical relationship with other numerical information is checked by 3 (step 1303).

【0096】階層判定手段353は、数値情報保持手段4を
参照し、現在処理対象となっている数値情報と隣接する
数値情報の単位を取り出し、単位テーブル352を参照し
て階層関係を判定する。
The hierarchy judging means 353 refers to the numerical information holding means 4, extracts the unit of the numerical information adjacent to the numerical information to be processed at present, and judges the hierarchical relationship by referring to the unit table 352.

【0097】階層関係がなければ、単位を数値情報保持
手段4に登録する(ステップ1304)。
If there is no hierarchical relationship, the unit is registered in the numerical information holding means 4 (step 1304).

【0098】階層関係があれば、単位の関係にしたがっ
て数値情報をまとめる(ステップ1305)。
If there is a hierarchical relationship, numerical information is put together according to the unit relationship (step 1305).

【0099】最後に、単位名、単位種類を数値情報保持
手段4に登録する(ステップ1306)。
Finally, the unit name and unit type are registered in the numerical information holding means 4 (step 1306).

【0100】次に、本実施の形態の効果について説明す
る。
Next, the effect of the present embodiment will be described.

【0101】本実施の形態では、単位テーブルに単位の
階層関係を登録しているため、「2m50cm」のように、一
つの数値が複数の単位を使って表現されている場合でも
一つの数値として扱うことができる。
In the present embodiment, since the hierarchical relationship of units is registered in the unit table, even if one numerical value is expressed using a plurality of units, such as “2 m50 cm”, it is regarded as one numerical value. Can handle.

【0102】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0103】図14に単位テーブル352の登録内容の例
を示す。図14では、図3の例に加え、単位の階層関係
情報を登録している(図14の1401)。たとえば、1円
は100銭に等しく、1mは100cm及び0.01kmと等しいことを
表す。
FIG. 14 shows an example of the registered contents of the unit table 352. In FIG. 14, in addition to the example of FIG. 3, unit hierarchical relation information is registered (1401 in FIG. 14). For example, one yen is equal to 100 yen, and 1 m is equal to 100 cm and 0.01 km.

【0104】図15は、本動作例による数値情報保持手
段4の内容を示す図である。
FIG. 15 is a diagram showing the contents of the numerical information holding means 4 according to this operation example.

【0105】図16は本実施例の階層判定手段353の動
作を示した流れ図である。
FIG. 16 is a flowchart showing the operation of the hierarchy determining means 353 of this embodiment.

【0106】「高さ2m50cmのキャビネを納入する」とい
うテキストが文書入力手段1によってテキスト保持手段2
に記憶されている場合を例にする。
The text “Deliver a cabinet with a height of 2 m 50 cm” is input by the document input unit 1 to the text holding unit 2.
For example, the case where the information is stored in the memory is described below.

【0107】数値抽出手段3によってテキスト中から
「2」と「50」のふたつの数値を取り出し、数値情報保
持手段4に登録している(図15のA)。さらに、単位抽
出手段251によって、数値「2」に対して「m」という単
位が見つかる。階層判定手段353によって、数値情報保
持手段4で前にあるデータを参照する(図16のステッ
プ1601)が、前にはデータがないので階層関係無しと判
定される(ステップ1602、ステップ1608)。
The two numerical values “2” and “50” are extracted from the text by the numerical value extracting means 3 and registered in the numerical value information holding means 4 (A in FIG. 15). Further, the unit "m" is found for the numerical value "2" by the unit extracting means 251. The hierarchy determining means 353 refers to the preceding data in the numerical information holding means 4 (step 1601 in FIG. 16), but since there is no data before, it is determined that there is no hierarchical relationship (step 1602, step 1608).

【0108】次に、数値「50」に対して単位「cm」が見
つかり、階層判定手段353によって階層関係の判定が行
われる。
Next, the unit “cm” is found for the numerical value “50”, and the hierarchy determining means 353 determines the hierarchical relationship.

【0109】まず、直前の数値情報を参照し、数値
「2」についてのデータ(図15のB1)が得られる(ス
テップ1601)。
First, referring to the immediately preceding numerical information, data (B1 in FIG. 15) for the numerical value "2" is obtained (step 1601).

【0110】位置関係によって、数値「50」の直前にあ
ることがわかり、階層関係の判定を行う(ステップ160
2)。
It can be seen from the positional relationship that it is immediately before the numerical value "50", and the hierarchical relationship is determined (step 160).
2).

【0111】数値「50」に対応する単位「cm」について
単位テーブル352を参照して、階層関係情報に「m」が登
録されているかを調べ、登録されていないので次のステ
ップに進む(ステップ1603)。かりに登録されていた場
合には、「m」で表された数値を「cm」に換算する(ス
テップ1604)。
Referring to the unit table 352 for the unit “cm” corresponding to the numerical value “50”, it is checked whether or not “m” is registered in the hierarchical relationship information. 1603). If it has been registered, the numerical value represented by "m" is converted to "cm" (step 1604).

【0112】数値「2」に対応する単位「m」について単
位テーブル352を参照して、階層関係情報に「cm」が登
録されているかを調べる(ステップ1605)。
The unit “m” corresponding to the numerical value “2” is checked with reference to the unit table 352 to see if “cm” is registered in the hierarchical relation information (step 1605).

【0113】登録されているので、「50cm」を「0.5m」
に換算する(ステップ1606)。
Since it is registered, "50cm" is replaced by "0.5m"
(Step 1606).

【0114】もしなかった場合は、階層関係無しと判定
して終了する(ステップ1608)。換算した数値「0.5m」
と前の数値情報「2m」とを合計して、数値情報を作成す
る(ステップ1607)。
If not, it is determined that there is no hierarchical relationship, and the process ends (step 1608). Converted value "0.5m"
And the previous numerical information “2m” are summed to create numerical information (step 1607).

【0115】作成した数値情報は数値抽出手段351によ
って数値情報保持手段に登録される(図15のC)。
The created numerical information is registered in the numerical information holding means by the numerical value extracting means 351 (C in FIG. 15).

【0116】[第4の実施の形態]次に、本発明の第4
の実施の形態について図面を参照して詳細に説明する。
[Fourth Embodiment] Next, a fourth embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0117】図17を参照すると、本発明の第4の実施
の形態は、文書入力手段1と、テキスト保持手段2と、数
値抽出手段203と、数値情報保持手段4と、単位判定手段
205と、範囲判定手段6と、情報選択手段7と、出力手段8
とから構成されている。
Referring to FIG. 17, according to a fourth embodiment of the present invention, a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical information holding unit 4, a unit determining unit
205, range determination means 6, information selection means 7, output means 8
It is composed of

【0118】選択手段7は、条件判定手段71と、選択条
件テーブル72とを含む。
The selection means 7 includes a condition determination means 71 and a selection condition table 72.

【0119】条件判定手段71は、選択条件テーブル72を
参照して数値情報保持手段4の内容の一部を取り出し
て、出力手段8に渡す。
The condition judging means 71 refers to the selection condition table 72 to extract a part of the contents of the numerical value information holding means 4 and pass it to the output means 8.

【0120】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0121】本実施の形態では、条件判定手段71によっ
て数値情報保持手段4の内容の一部だけを選択して、出
力手段8に渡すため、必要な種類の数値情報だけを選択
できる。
In this embodiment, since only a part of the contents of the numerical information holding means 4 is selected by the condition judging means 71 and passed to the output means 8, only the necessary kind of numerical information can be selected.

【0122】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0123】図18に選択条件テーブル72の登録内容の
例を示す。図18のAでは、出力手段8にわたす数値情報
の単位を指定している。図18のBでは、数値情報の単
位の種類を指定している。図18のCでは、数値情報の
種類と単位の両方を指定している。この例では、金額に
ついては円、ドル、
FIG. 18 shows an example of the registered contents of the selection condition table 72. In FIG. 18A, the unit of the numerical information passed to the output means 8 is specified. In FIG. 18B, the type of the unit of the numerical information is specified. In FIG. 18C, both the type and the unit of the numerical information are specified. In this example, the amounts are yen, dollar,

【0124】、$の4種類、重量についてはすべてを指
定している。
All four types and weights are designated.

【0125】条件判定手段71は、指定された単位を持つ
数値情報だけを出力手段8にわたす。
The condition determining means 71 passes only numerical information having the designated unit to the output means 8.

【0126】[第5の実施の形態]次に、本発明の第5
の実施の形態について図面を参照して詳細に説明する。
[Fifth Embodiment] Next, a fifth embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0127】図19を参照すると、本発明の第5の実施
の形態は、文書入力手段1と、テキスト保持手段2と、数
値抽出手段203と、数値情報保持手段4と、単位判定手段
5と、範囲判定手段506と、出力手段8とから構成されて
いる。
Referring to FIG. 19, according to a fifth embodiment of the present invention, a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical information holding unit 4, a unit determining unit
5, a range determination unit 506, and an output unit 8.

【0128】範囲判定手段506は、範囲抽出手段561と、
範囲表現テーブル562とを含む。
The range determining means 506 includes a range extracting means 561,
And a range expression table 562.

【0129】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates roughly as follows.

【0130】範囲判定手段506は、数値情報保持手段4に
記憶されている数値情報の組み合わせが範囲を表してい
るかどうかを判定し、数値情報保持手段4の情報を修正
し、さらに、範囲表現の種類を登録する。範囲抽出手段
561は、数値情報保持手段4に記憶されている数値情報の
それぞれについて、テキスト保持手段2を参照して前後
に隣接する文字列を調べ、範囲表現テーブル562に登録
されている関係になっている情報があれば、範囲を示す
ように数値情報保持手段4の該数値情報を変更する。範
囲表現テーブル562は、範囲を表す文字列と数値の位置
関係とを登録し、また、範囲表現の種類を登録してい
る。
The range determining means 506 determines whether or not the combination of the numerical information stored in the numerical information holding means 4 represents a range, corrects the information in the numerical information holding means 4, and further converts the range expression. Register the type. Range extraction means
Numeral 561 refers to the text storage unit 2 for each of the numerical information stored in the numerical information storage unit 4 to check adjacent character strings before and after, and has a relationship registered in the range expression table 562. If there is information, the numerical information of the numerical information holding means 4 is changed so as to indicate the range. The range expression table 562 registers a character string representing a range and a positional relationship between numerical values, and also registers a type of range expression.

【0131】範囲判定手段506の動作は、第1の実施の
形態における範囲判定手段6の動作と同様である。ただ
し、範囲を示すと判定された数値情報を数値情報保持手
段4に登録する際に、範囲表現テーブル562に登録されて
いる範囲表現の種類も登録する。
The operation of range determining means 506 is the same as the operation of range determining means 6 in the first embodiment. However, when registering the numerical information determined to indicate the range in the numerical information holding unit 4, the type of the range expression registered in the range expression table 562 is also registered.

【0132】次に、本実施の形態の効果について説明す
る。
Next, the effect of the present embodiment will be described.

【0133】本実施の形態では、範囲表現テーブル562
に範囲表現の種類を登録しているため、種類によって検
索処理を変えることのできる検索装置に適した数値情報
を登録できる。また、同じ意味を持つ範囲表現に同じ種
類を与えておくことで、表現の違いによらない数値情報
を登録できる。
In this embodiment, the range expression table 562
Since the type of the range expression is registered, numerical information suitable for a search device capable of changing a search process depending on the type can be registered. Also, by giving the same type to a range expression having the same meaning, it is possible to register numerical information that does not depend on a difference in expression.

【0134】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0135】図20に範囲表現テーブル562の登録内容
の例を示す。図20では、範囲表現(図20の2001)と
範囲表現の種類(図20の2002)が登録されている。た
とえば、「□から□」と「□〜□」はともに「上限下
限」という種類が付けられている。「□以下」と「□未
満」では、「□」の位置の数値を範囲に含むかどうかが
異なるので別の種類名が与えられている。「中心」とい
う種類は範囲ではなく単独の数値であることを示してい
る。範囲を表す表現が付いていない数値表現の種類にも
「中心」を与える。
FIG. 20 shows an example of the registered contents of the range expression table 562. In FIG. 20, a range expression (2001 in FIG. 20) and a type of range expression (2002 in FIG. 20) are registered. For example, “□ to □” and “□ to □” are both assigned a type of “upper / lower limit”. Different types are assigned to “less than or equal to” and “less than” because they differ in whether or not the numerical value at the position of “□” is included in the range. The type "center" indicates that it is a single numerical value, not a range. The "center" is also given to types of numerical expressions without a range expression.

【0136】「123ドルから567ドルの製品を購入の対象
とする」というテキストから抽出した数値情報が数値情
報保持手段4に登録された例を図21に示す。図21
で、範囲表現の種類が登録されている(図21の210
1)。
FIG. 21 shows an example in which numerical information extracted from the text “Products of $ 123 to $ 567 is to be purchased” is registered in the numerical information holding means 4. FIG.
The type of range expression is registered (210 in FIG. 21).
1).

【0137】図22に範囲表現テーブル562の登録内容
の別の例を示す。図22では、範囲表現と範囲表現の種
類が登録されている。範囲表現の種類は、範囲の取り方
の種類(図22の2201)と範囲の曖昧さ(図22の220
2)の組み合わせで表現されている。この例では、範囲
の意味の曖昧さは数値で与え、曖昧さがない場合を0、
曖昧さが大きくなると大きな数値としている。曖昧な表
現が付いていない数値表現に対しては、特定の値、例え
ば0を与える。たとえば、「□以上」と「□強」はとも
に数値の範囲の「下限」を示しているが、「□強」の方
が大きな曖昧さを登録している。
FIG. 22 shows another example of the registered contents of the range expression table 562. In FIG. 22, a range expression and a type of the range expression are registered. The range expression type includes a range taking type (2201 in FIG. 22) and a range ambiguity (220 in FIG. 22).
It is expressed by the combination of 2). In this example, the ambiguity of the meaning of the range is given by a numerical value, 0 if there is no ambiguity,
The larger the ambiguity, the larger the value. A specific value, for example, 0 is given to a numerical expression without an ambiguous expression. For example, “□ or more” and “□□” both indicate the “lower limit” of the numerical value range, but “□□” registers greater ambiguity.

【0138】「123ドル強の価格になる見込み。」とい
うテキストから抽出した数値情報が数値情報保持手段4
に登録された例を図23に示す。図23で、範囲表現の
曖昧さが登録されている(図23の2301)。
The numerical information extracted from the text “It is expected to be a little over $ 123.”
FIG. 23 shows an example registered in. In FIG. 23, the ambiguity of the range expression is registered (2301 in FIG. 23).

【0139】[第6の実施の形態]次に、本発明の第6
の実施の形態について図面を参照して詳細に説明する。
[Sixth Embodiment] Next, a sixth embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0140】図24を参照すると、本発明の第3の実施
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段20
5と、範囲判定手段6と、情報選択手段607と、出力手段8
とから構成されている。
Referring to FIG. 24, according to the third embodiment of the present invention, a document input means 1, a text holding means 2, a numerical value extracting means 203, a numerical information holding means 4, a unit determining means 20
5, range determination means 6, information selection means 607, and output means 8
It is composed of

【0141】選択手段607は、条件判定手段671と、選択
条件テーブル672とを含む。
The selection means 607 includes a condition determination means 671 and a selection condition table 672.

【0142】条件判定手段671は、選択条件テーブル672
を参照して数値情報保持手段4の内容の一部を取り出し
て、出力手段8に渡す。
The condition judging means 671 includes a selection condition table 672
And extract a part of the contents of the numerical information holding means 4 and pass it to the output means 8.

【0143】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0144】本実施の形態では、条件判定手段607によ
って数値情報保持手段4の内容の一部だけを選択して、
出力手段8に渡すため、範囲表現や曖昧な表現のうち必
要な情報だけを選択できる。
In this embodiment, only a part of the contents of the numerical information holding means 4 is selected by the condition judging means 607,
Since the information is passed to the output unit 8, only necessary information can be selected from the range expression or the ambiguous expression.

【0145】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0146】図25に選択条件テーブル672の登録内容
の例を示す。図25では、選択する数値情報の範囲の取
り方(図25の2501)と曖昧さ(図25の2502)を登録
している。図25のAでは、範囲の取り方を制限せず、
曖昧さが0に等しいものを指定している。図25のBで
は、範囲の取り方が「中心」で、曖昧さが20未満のもの
を指定している。
FIG. 25 shows an example of the registered contents of the selection condition table 672. In FIG. 25, how to select the range of numerical information to be selected (2501 in FIG. 25) and ambiguity (2502 in FIG. 25) are registered. In FIG. 25A, the range is not limited,
You have specified an ambiguity equal to 0. In B of FIG. 25, a method in which the range is set to “center” and the ambiguity is less than 20 is designated.

【0147】条件判定手段671は、指定された単位を持
つ数値情報だけを出力手段8にわたす。
The condition judging means 671 passes only the numerical information having the designated unit to the output means 8.

【0148】[第7の実施の形態]次に、本発明の第7
の実施の形態について図面を参照して詳細に説明する。
[Seventh Embodiment] Next, a seventh embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0149】図26を参照すると、本発明の第7の実施
の形態は、文書入力手段1と、テキスト保持手段2と数値
抽出手段203と、数値情報保持手段4と、単位判定手段5
と、範囲判定手段6と、出力手段8と、省略補間手段9と
から構成されている。
Referring to FIG. 26, according to the seventh embodiment of the present invention, a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical information holding unit 4, a unit determining unit 5,
, Range determination means 6, output means 8, and omission interpolation means 9.

【0150】省略補間手段9は、数値情報保持手段4に登
録されている情報のうち、文書中で数値文字列の一部、
あるいは、単位が省略されていたため、正しく登録され
ていないものを、テキスト保持手段2を参照して修正す
る。
The abbreviated interpolation means 9 includes a part of the numerical character string in the document, out of the information registered in the numerical information holding means 4,
Alternatively, the unit not correctly registered because the unit is omitted is corrected with reference to the text holding unit 2.

【0151】次に、図27の流れ図を参照して本実施の
形態の省略補間手段9の動作について説明する。
Next, the operation of the omitted interpolation means 9 of this embodiment will be described with reference to the flowchart of FIG.

【0152】省略補間手段9は、数値情報保持手段4に登
録されている各データについて以下の処理を行う。
The omitting interpolation means 9 performs the following processing on each data registered in the numerical value information holding means 4.

【0153】まず、数字列の省略があるかどうかを判定
する(図27のステップ2701)。
First, it is determined whether or not the number string is omitted (step 2701 in FIG. 27).

【0154】省略されている可能性がある場合は、テキ
スト保持手段2を参照して、省略された数字列を推定し
て、省略のない数字列を復元し、数値化する(ステップ
2702)。
If there is a possibility that the number string has been omitted, the omitted number string is estimated by referring to the text holding means 2, and the number string that has not been omitted is restored and digitized (step
2702).

【0155】次に、単位の省略があるかどうかを判定す
る(ステップ2703)。
Next, it is determined whether or not the unit is omitted (step 2703).

【0156】省略されている可能性がある場合は、テキ
スト保持手段2を参照して、省略された単位を推定する
(ステップ2704)。
If there is a possibility of being omitted, the omitted unit is estimated with reference to the text holding means 2 (step 2704).

【0157】最後に、補間された数値、単位を数値情報
保持手段4に登録する(ステップ2705)。
Finally, the interpolated numerical value and unit are registered in the numerical value information holding means 4 (step 2705).

【0158】次に、本実施の形態の効果について説明す
る。
Next, the effects of the present embodiment will be described.

【0159】本実施の形態では、省略補間手段9を備え
ることで、数字列や単位が省略された場合でも正しく数
値情報を取り出すことができる。
In the present embodiment, the provision of the omission interpolation means 9 makes it possible to correctly extract numerical information even when a number string or unit is omitted.

【0160】(実施例)次に、具体的な実施例を用いて
本実施の形態の省略補間手段9の動作を説明する。
(Example) Next, the operation of the omitting interpolation means 9 of this embodiment will be described using a specific example.

【0161】「10から15万円の価格になる見込
み。」というテキストから抽出した数値情報が数値情報
保持手段4に登録された例を図28に示す。図28のAは
省略補間手段9による処理の前の状態を示す。この数値
情報に対する省略補間手段9の動作を説明する。
FIG. 28 shows an example in which numerical information extracted from the text “Price is expected to be from 10000 to 150,000 yen” is registered in the numerical information holding means 4. A of FIG. 28 shows a state before the processing by the omitting interpolation means 9. The operation of the abbreviated interpolation means 9 for this numerical information will be described.

【0162】最初に、数値の省略を調べる(ステップ27
01)。テキスト保持手段と数値情報保持手段4とを参照
して、範囲表現にあてはまるか、カンマあるいは読点で
区切られた数値情報の並びで、並びの最後の数値情報に
だけ単位が付いていて、かつ、最後の数値情報に対応す
るテキスト中での数字列にだけ付いている、位を表す漢
数字列(「百」、「千」、「万」、「億」、「兆」など
とその組み合わせ)がある場合、他の数値にも同じ漢数
字列を補う。例えば、「10から20億トン」については
「10」に「億」を補う。ただし、「10トンから20億ト
ン」では補わない。「二、三百万人」では、「二」に
「百万」を補う。図28のAの数値情報は、テキスト中
では「□から□」という範囲表現に当てはまり、後の数
値情報にだけ「万」が付いているので、「10」に対して
も「万」を追加して数値化する(図28のB)。
First, check whether the numerical value is omitted (step 27).
01). With reference to the text holding unit and the numerical information holding unit 4, a list of numerical information that is applicable to the range expression or separated by a comma or a reading point, and only the last numerical information in the list has a unit, and A Chinese numeral string indicating the place ("Hundred", "Thousand", "Million", "Billion", "Trillion", etc., and a combination thereof) attached only to the numeral string in the text corresponding to the last numerical information If there is, supplement the other numbers with the same kanji string. For example, for "1 to 2 billion tons", "10" is supplemented by "100 million". However, “10 to 2 billion tons” does not make up for it. In "two or three million", "two" is supplemented by "one million". The numerical information of A in FIG. 28 applies to the range expression “□ to □” in the text, and “10,000” is added to only the subsequent numerical information, so “10,000” is also added to “10”. And digitized (B in FIG. 28).

【0163】次に、単位の省略があるかどうかを調べる
(図27のステップ2703)。テキスト保持手段と数値情
報保持手段4とを参照して、範囲表現にあてはまるか、
カンマあるいは読点で区切られた数値情報の並びで、並
びの最後の数値情報にだけ単位が付けられているものが
ある場合に、最後の数値情報と同じ単位を並びの他の数
値情報に与える。たとえば、「100〜200m」や「二十
五、二十六歳」という表現が該当する。図28のBの数
値情報は、テキスト中では「□から□」という範囲表現
に当てはまるので、「10」に対しても単位「円」を登録
する(図28のC)。
Next, it is checked whether or not the unit is omitted (step 2703 in FIG. 27). With reference to the text storage unit and the numerical information storage unit 4, whether the range expression is applicable,
If there is a list of numerical information separated by commas or reading points and only the last numerical information in the list has a unit, the same unit as the last numerical information is given to other numerical information in the list. For example, expressions such as "100 to 200 m" and "25, 26" are applicable. Since the numerical information of B in FIG. 28 applies to the range expression of “□ to □” in the text, the unit “circle” is also registered for “10” (C in FIG. 28).

【0164】最後に、省略を補った結果を範囲として、
数値情報保持手段4に登録する(図27のステップ270
5、図28のD)。
Finally, the range obtained by supplementing the omission is
Register in the numerical information holding means 4 (step 270 in FIG. 27)
5, FIG. 28D).

【0165】次に、本実施の形態の別の実施例の省略補
間手段9の動作を説明する。
Next, the operation of the omitting interpolation means 9 according to another embodiment of the present embodiment will be described.

【0166】本実施例の省略補間手段9は、省略を補っ
た結果を、他の数値情報と区別するための情報を付加し
て、数値情報保持手段4に追加して登録する。
The omission interpolation means 9 of this embodiment adds the information for distinguishing the omission from other numerical information to the numerical information holding means 4 and registers the result.

【0167】図29のAは、数値情報保持手段4に追加登
録した結果の例を示す。図29の2901は、省略を補った
結果を判別するための領域で、省略を補った結果には
「補」が付加されている。また、数字列は補わずに単位
だけを補うこともできる(図29のB)。
FIG. 29A shows an example of the result of additional registration in the numerical information holding means 4. Reference numeral 2901 in FIG. 29 is an area for determining the result of supplementing the omission, and “supplement” is added to the result of supplementing the omission. Further, it is also possible to supplement only the unit without supplementing the numeral string (B in FIG. 29).

【0168】[第8の実施の形態]次に、本発明の第8
の実施の形態について図面を参照して詳細に説明する。
[Eighth Embodiment] Next, an eighth embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0169】図30を参照すると、本発明の第8の実施
の形態は、制御手段3001と、数値登録手段3002と、情報
蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
Referring to FIG. 30, in the eighth embodiment of the present invention, a control means 3001, a numerical value registration means 3002, an information storage means 3003, a condition input means 3004, and a search means 3005
And a result holding means 3006 and a display means 3007.

【0170】これらの手段はそれぞれ概略つぎのように
動作する。
Each of these means operates roughly as follows.

【0171】制御手段3001は、装置全体の制御を行う。
具体的には具体的にはCPUとメモリで実現する。
The control means 3001 controls the entire apparatus.
Specifically, it is realized by a CPU and a memory.

【0172】数値登録手段3002は、文書から数値を表す
文字列を抽出し、数値化して情報蓄積手段3003に登録す
る。
The numerical value registering means 3002 extracts a character string representing a numerical value from the document, converts it into a numerical value, and registers it in the information storage means 3003.

【0173】情報蓄積手段3003は、各文書中の数値情報
を登録している。ファイル装置、あるいは、メモリ上の
データベースやインデックスとして実現する。
The information storage means 3003 registers numerical information in each document. It is realized as a file device or a database or index on a memory.

【0174】条件入力手段3004は、装置のユーザが指定
する検索条件を入力する。
The condition input means 3004 inputs a search condition specified by the user of the apparatus.

【0175】検索手段3005は、前記の検索条件で情報蓄
積手段3003を検索し、結果を結果保持手段3006に登録す
る。
The search means 3005 searches the information storage means 3003 according to the above search conditions, and registers the result in the result holding means 3006.

【0176】結果保持手段3006は、ファイル装置あるい
はメモリで実現し、検索結果を登録しておく。
The result holding means 3006 is realized by a file device or a memory, and registers search results.

【0177】表示手段3007は、結果保持手段3006の内容
を、出力する。出力方法としては、ディスプレイでの表
示、プリンタでの印刷、音声による読み上げ、ファイル
装置への書き込むなどがある。
Display means 3007 outputs the contents of result holding means 3006. Output methods include display on a display, printing on a printer, reading aloud by voice, and writing to a file device.

【0178】次に、図30を参照して本実施の形態の全
体の動作について説明する。
Next, the overall operation of the present embodiment will be described with reference to FIG.

【0179】数値情報を登録する際には、制御手段3001
は、数値登録手段3002によって、文書から数値情報を抽
出して情報蓄積手段3003に登録する。テキストの中の数
値表現は、表記上の曖昧さや文字の省略のために、情報
の欠落や数値表現の切り出し方の曖昧さが生じる。ま
た、複数の意味を持つ単位や構文上の曖昧さによって
も、複数の解釈が可能になる場合がある。本実施の形態
の数値登録手段3002は、数値情報を抽出、数値化する際
に、数値情報に複数の解釈が生じる場合は、複数の解釈
結果を登録する。複数の解釈の間で、適切さの度合いに
差がある場合は、適切さを示す情報を同時に登録する。
When registering numerical information, control means 3001
Extracts numerical information from the document and registers it in the information storage means 3003 by the numerical value registration means 3002. Numerical expressions in the text may cause missing information or ambiguity in how to extract the numerical expressions due to ambiguity in notation and omission of characters. Also, multiple interpretations may be possible, depending on units having multiple meanings or syntactic ambiguity. The numerical value registration unit 3002 of the present embodiment registers a plurality of interpretation results when a plurality of interpretations occur in the numerical information when extracting and digitizing the numerical information. If there is a difference in the degree of appropriateness among a plurality of interpretations, information indicating the appropriateness is registered at the same time.

【0180】数値情報を検索する際には、制御手段3001
は、条件入力手段3004から、検索条件を入力する。条件
入力手段3004は、入力用の端末装置に接続し、検索条件
は数式あるいは文章、検索用言語などで入力される。
When retrieving numerical information, control means 3001
Inputs a search condition from the condition input means 3004. The condition input means 3004 is connected to an input terminal device, and the search condition is input by a mathematical expression, a sentence, a search language, or the like.

【0181】次に、制御手段3001は、検索手段3005によ
って情報蓄積手段3003を検索し、結果を結果保持手段30
06に登録する。
Next, the control means 3001 searches the information storage means 3003 by the search means 3005, and stores the result in the result holding means 303.
Register at 06.

【0182】最後に、表示手段3007が情報蓄積手段3006
を参照して結果を出力する。結果としては、文書番号や
文書名だけ、文書の一部あるいは全部などを用いる。
Finally, the display means 3007 is changed to the information storage means 3006
And output the result. As a result, only the document number and the document name, part or all of the document, etc. are used.

【0183】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0184】本実施の形態では、数値の解釈が複数ある
場合に、数値登録手段3002が複数の数値情報として登録
するために、一意に解釈することのできない数値表現を
含む文書に対しても洩れのない検索を行うことができ
る。
In the present embodiment, when there are a plurality of interpretations of numerical values, since the numerical value registration means 3002 registers them as plural pieces of numerical information, documents containing numerical expressions that cannot be uniquely interpreted are also leaked. You can do a search without any.

【0185】また、複数の解釈を持つ数値情報につい
て、解釈の適切さを示す情報を利用して、利用しやすい
検索結果の出力ができる。
Further, with respect to numerical information having a plurality of interpretations, it is possible to output search results which are easy to use, by utilizing information indicating the appropriateness of the interpretation.

【0186】[第9の実施の形態]次に、本発明の第9
の実施の形態について図面を参照して詳細に説明する。
[Ninth Embodiment] Next, a ninth embodiment of the present invention will be described.
An embodiment will be described in detail with reference to the drawings.

【0187】図31を参照すると、本発明の第9の実施
の形態は、制御手段3001と、数値登録手段3102と、情報
蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
Referring to FIG. 31, according to the ninth embodiment of the present invention, a control means 3001, a numerical value registering means 3102, an information storing means 3003, a condition inputting means 3004, and a searching means 3005 are provided.
And a result holding means 3006 and a display means 3007.

【0188】図32を参照すると、数値登録手段3102
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段3と、数値情報保持手段4と、単位判定手段5と、範囲
判定手段6と、情報登録手段3208とを含む。
Referring to FIG. 32, numerical value registration means 3102
Includes a document input unit 1, a text holding unit 2, a numerical value extracting unit 3, a numerical information holding unit 4, a unit determining unit 5, a range determining unit 6, and an information registering unit 3208.

【0189】数値登録手段3102は、登録する文書のテキ
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字列の区切り方に複数の解釈がで
きる場合は、複数の区切り方で数字列を取り出してそれ
ぞれ数値化する。
The numerical value registration means 3102 extracts a numerical expression from the text part of the document to be registered, converts it into a numerical value, and registers it in the information storage means 3003. If multiple interpretations can be made for the division of the numeric string, the numeric string is extracted and digitized by each of the multiple divisions.

【0190】情報登録手段3208は、数値情報保持手段4
の内容を文書を判別する情報(文書名や文書番号など)
とともに登録する。
The information registering means 3208 stores the numerical information holding means 4
Information that determines the contents of the document (such as the document name and document number)
Register with

【0191】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0192】本実施の形態では、数値の区切り方の解釈
が複数ある場合に、数値登録手段3102が複数の数値情報
として登録するために、区切り方の曖昧な数値表現を含
む文書に対しても洩れのない検索を行うことができる。
In the present embodiment, when there are a plurality of interpretations of how to divide a numerical value, the numerical value registration means 3102 registers as a plurality of pieces of numerical information. A search without omission can be performed.

【0193】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0194】数値登録手段3102によって、「12,345ド
ル」というテキストを含む文書からは、「12345ド
ル」、「12」、「345ドル」が抽出される(図6のD)。
この数値情報が文書番号(この例では#1とする)ととも
に登録される。
From the document including the text “$ 12,345”, “$ 12,345”, “12”, and “$ 345” are extracted by the numerical value registering means 3102 (D in FIG. 6).
This numerical information is registered together with the document number (in this example, it is # 1).

【0195】条件入力手段3004から、検索条件が「300
ドル以上500ドル以下」と入力されると検索手段3005に
よって、「345ドル」の数値情報が抽出され、表示手段3
007によって文書#1の文書名や内容が表示される。「120
0ドル以上2000ドル以下」という条件であれば、「12345
ドル」の数値情報を検索し、文書#1を検索できる。文書
の作者の意図が、「12345」か「12と345」のどちらであ
っても検索洩れを起こすことがない。
From the condition inputting means 3004, if the search condition is "300
When "$ 500 or more and less than $ 500" is input, the retrieval means 3005 extracts numerical information of "$ 345", and the display means 3
007 displays the document name and contents of document # 1. "120
If the condition is $ 0 or more and $ 2,000 or less, "12345
You can search the numerical information of "dollar" and search document # 1. No matter whether the author of the document is "12345" or "12 and 345", no search is missed.

【0196】[第10の実施の形態]次に、本発明の第
10の実施の形態について図面を参照して詳細に説明す
る。
[Tenth Embodiment] Next, a tenth embodiment of the present invention will be described in detail with reference to the drawings.

【0197】図33を参照すると、本発明の第10の実
施の形態は、制御手段3001と、数値登録手段3302と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
Referring to FIG. 33, in the tenth embodiment of the present invention, a control means 3001, a numerical value registration means 3302, an information storage means 3003, a condition input means 3004, and a search means 3005
And a result holding means 3006 and a display means 3007.

【0198】図34を参照すると、数値登録手段3302
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段203と、数値情報保持手段4と、単位判定手段205と、
範囲判定手段6と、情報登録手段3208とを含む。
Referring to FIG. 34, numerical value registration means 3302
Document input means 1, text holding means 2, numerical value extracting means 203, numerical information holding means 4, unit determination means 205,
It includes a range determining means 6 and an information registering means 3208.

【0199】数値登録手段3302は、登録する文書のテキ
スト部分から数値表現を抽出し、数値化して単位と単位
の種類とともに、情報蓄積手段3003に登録する。単位の
種類に複数の解釈ができる場合は、複数の種類で数値情
報を登録する。
The numerical value registering means 3302 extracts a numerical expression from the text portion of the document to be registered, converts it into a numerical value, and registers it in the information storage means 3003 together with the unit and the type of unit. If multiple interpretations are possible for the unit type, numerical information is registered for multiple types.

【0200】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0201】本実施の形態では、数値につく単位の種類
の解釈が複数ある場合に、数値登録手段3302が複数の数
値情報として登録するために、単位の種類の曖昧な数値
表現を含む文書に対しても洩れのない検索を行うことが
できる。
In the present embodiment, when there are a plurality of interpretations of the unit type attached to the numerical value, the numerical value registration means 3302 registers the information as a plurality of numerical information. A search without omission can be performed.

【0202】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0203】数値登録手段3302によって、「123ポンド
以上567ポンド以下の値段の製品を購入する」というテ
キストを含む文書からは、「ポンド」が金額と重量の単
位であるために、二つの数値情報が抽出される(図11
のC)。この数値情報が文書番号(この例では#2とす
る)とともに登録される。
According to the numerical value registering means 3302, from the document including the text “Purchase a product at a price of 123 pounds or more and 567 pounds or less”, two numerical values are obtained because “pound” is a unit of money and weight. Is extracted (FIG. 11).
C). This numerical information is registered together with the document number (in this example, # 2).

【0204】そのため、条件入力手段3004から、金額と
重量のどちらが指定されても、検索対象からもれること
がない。
[0204] Therefore, no matter which of money or weight is designated from the condition input means 3004, there is no leakage from the search object.

【0205】[第11の実施の形態]次に、本発明の第
11の実施の形態について図面を参照して詳細に説明す
る。
[Eleventh Embodiment] Next, an eleventh embodiment of the present invention will be described in detail with reference to the drawings.

【0206】図35を参照すると、本発明の第11の実
施の形態は、制御手段3001と、数値登録手段3502と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3007とから構成され
ている。
Referring to FIG. 35, in the eleventh embodiment of the present invention, a control means 3001, a numerical value registering means 3502, an information storing means 3003, a condition inputting means 3004, and a searching means 3005
And a result holding means 3006 and a display means 3007.

【0207】図36を参照すると、数値登録手段3502
は、文書入力手段1と、テキスト保持手段2と数値抽出手
段203と、数値情報保持手段4と、単位判定手段5と、範
囲判定手段6と、省略補間手段9と、情報登録手段3208と
を含む。
Referring to FIG. 36, numerical value registration means 3502
Is a document input unit 1, a text holding unit 2, a numerical value extracting unit 203, a numerical information holding unit 4, a unit determining unit 5, a range determining unit 6, an abbreviated interpolation unit 9, and an information registering unit 3208. Including.

【0208】数値登録手段3502は、登録する文書のテキ
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字列や単位に省略がある場合は、
省略補間手段9によって、省略を補った数値情報を作成
し登録する。
The numerical value registering means 3502 extracts a numerical expression from the text part of the document to be registered, converts it into a numerical value, and registers it in the information storing means 3003. If there is an abbreviation in a number string or unit,
Numerical information supplementing the omission is created and registered by the omission interpolation means 9.

【0209】次に、本実施の形態の効果について説明す
る。
Next, the effect of this embodiment will be described.

【0210】本実施の形態では、省略を含む数値表現に
対しては、省略を補った数値情報を作成して登録してい
るため、省略を含んでいる文書も正しく検索できる。
In the present embodiment, for numerical expressions including abbreviations, numerical information supplementing the abbreviations is created and registered, so that documents including the abbreviations can be correctly searched.

【0211】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0212】数値登録手段3502によって、「10から15万
円の価格になる見込み。」というテキストを含む文書か
らは、「10万円から15万円」を意味する数値情報が取り
出される(図28のD)。これによって、たとえば、「1
万円以下」という検索条件では、この情報は検索されな
い。
Numerical information meaning “100,000 to 150,000 yen” is extracted from the document including the text “Price is expected to be from 100,000 to 150,000 yen” by numerical value registering means 3502 (FIG. 28). D). This allows, for example, "1
This information is not searched for under the search condition of "10,000 yen or less".

【0213】省略の補間の誤りによる検索洩れを避ける
ために、省略を補う前後の数値情報をともに登録するこ
とができる。このとき、上記のテキストからは、「10円
から15万円」を意味する情報も登録される(図29の
B)。そのため、どちらが文書の意図であっても、検索
対象からもれることがない。
[0213] In order to avoid omission of search due to omission interpolation error, numerical information before and after the omission can be registered together. At this time, information meaning "10 to 150,000 yen" is also registered from the above text (see FIG. 29).
B). Therefore, no matter which is the intention of the document, it does not leak from the search target.

【0214】[第13の実施の形態]次に、本発明の第
13の実施の形態について図面を参照して詳細に説明す
る。
[Thirteenth Embodiment] Next, a thirteenth embodiment of the present invention will be described in detail with reference to the drawings.

【0215】図41を参照すると、本発明の第13の実
施の形態は、制御手段3001と、数値登録手段3002と、情
報蓄積手段3003と、条件入力手段3004と、検索手段3005
と、結果保持手段3006と、表示手段3707と、基準修正手
段4108とから構成されている。
Referring to FIG. 41, in the thirteenth embodiment of the present invention, a control means 3001, a numerical value registration means 3002, an information storage means 3003, a condition input means 3004, and a search means 3005
, Result holding means 3006, display means 3707, and reference correcting means 4108.

【0216】基準修正手段4108は、基準テーブル3773の
内容をユーザが修正するための手段である。現在の基準
テーブルの内容を表示し、テキストやチェックボタンな
どを利用して内容を修正する手段をユーザに提供する。
The reference correction means 4108 is a means for the user to correct the contents of the reference table 3773. The contents of the current reference table are displayed, and the user is provided with a means for correcting the contents using a text, a check button, or the like.

【0217】図42は、基準テーブル3773を修正するた
めの画面表示の例である。修正の際には、項目別のメニ
ューを用いる方法(図40のA)、いくつかの選択条件
をまとめたものを選択する方法(図40のB)がある。
そのほか、スクロールメニューを用いたり、エディタを
用いて直接に修正する方法もある。また、設定の一部に
ついては変更を許さないこともできる。
FIG. 42 is an example of a screen display for correcting the reference table 3773. At the time of correction, there are a method of using a menu for each item (A in FIG. 40) and a method of selecting a combination of some selection conditions (B in FIG. 40).
In addition, there are methods of using a scroll menu or directly using an editor. It is also possible that some of the settings cannot be changed.

【0218】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0219】本実施の形態では、検索結果の表示対象や
表示方法を指定するための基準テーブルをユーザが基準
修正手段を用いて修正できるため、ユーザが必要な情報
や見やすい形を選択できる。
In the present embodiment, the user can modify the reference table for designating the display target and the display method of the search result by using the reference modifying means, so that the user can select necessary information and an easily viewable form.

【0220】[第14の実施の形態]次に、本発明の第
14の実施の形態について図面を参照して詳細に説明す
る。
[Fourteenth Embodiment] Next, a fourteenth embodiment of the present invention will be described in detail with reference to the drawings.

【0221】図43を参照すると、本発明の第13の実
施の形態は、制御手段3001と、数値登録手段4302と、情
報蓄積手段3003と、条件入力手段3004と、検索手段4305
と、結果保持手段3006と、表示手段3007とから構成され
ている。
Referring to FIG. 43, in the thirteenth embodiment of the present invention, a control means 3001, a numerical value registration means 4302, an information storage means 3003, a condition input means 3004, and a search means 4305 are provided.
And a result holding means 3006 and a display means 3007.

【0222】図44を参照すると、数値登録手段4302
は、文書入力手段1と、テキスト保持手段2と、数値抽出
手段203と、数値情報保持手段4と、単位判定手段5と、
範囲判定手段506と、情報登録手段3208とを含む。
Referring to FIG. 44, numerical value registration means 4302
Document input means 1, text holding means 2, numerical value extracting means 203, numerical information holding means 4, unit determination means 5,
It includes a range determination unit 506 and an information registration unit 3208.

【0223】図45を参照すると、検索手段4305は、概
数変換手段4351と、変換定義手段4352と、情報検索手段
4353とを含む。
Referring to FIG. 45, search means 4305 includes approximate number conversion means 4351, conversion definition means 4352, and information search means
And 4353.

【0224】次に、本実施の形態の動作について説明す
る。
Next, the operation of the present embodiment will be described.

【0225】数値登録手段4302は、登録する文書のテキ
スト部分から数値表現を抽出し、数値化して情報蓄積手
段3003に登録する。数字が範囲で表現されている場合、
および、曖昧な数値を表す表現が使用されている場合
は、数値表現とともに範囲表現の種類を登録する。
The numerical value registration means 4302 extracts a numerical expression from the text part of the document to be registered, converts it into a numerical value, and registers it in the information storage means 3003. If numbers are represented by ranges,
When an expression representing an ambiguous numerical value is used, the type of the range expression is registered together with the numerical expression.

【0226】条件変換手段4351は、範囲定義手段4352を
参照して、条件入力手段3004から入力した検索条件を範
囲の種類ごとの条件指定に変換する。
The condition conversion means 4351 refers to the range definition means 4352 and converts the search condition input from the condition input means 3004 into a condition specification for each type of range.

【0227】範囲定義手段4352は、範囲表現の種類に対
応する数値の範囲を登録している。
The range definition means 4352 registers a range of numerical values corresponding to the type of range expression.

【0228】情報検索手段4353は、条件変換手段4351で
変換された条件で検索を行い、結果を結果保持手段3006
に登録する。
The information retrieving means 4353 conducts a search under the conditions converted by the condition converting means 4351, and stores the result in the result holding means 3006.
Register with.

【0229】次に、本実施の形態の効果について説明す
る。
Next, effects of the present embodiment will be described.

【0230】本実施の形態では、曖昧な数値の表現を数
値の範囲に変換するための概数定義手段を備えているた
め、曖昧な数値表現に対しても適切に検索を行うことが
できる。
In the present embodiment, since approximate number definition means for converting an ambiguous numerical expression into a range of numerical values is provided, it is possible to appropriately search even an ambiguous numerical expression.

【0231】(実施例)次に、具体的な実施例を用いて
本実施の形態の動作を説明する。
(Example) Next, the operation of this embodiment will be described using a specific example.

【0232】図46は、概数定義手段4352の内容の例を
示す図である。図46の4601は範囲表現の種類で、範囲
判定手段506が数値情報に与える種類と共通である。460
2は、範囲表現の種類に対応する数値表現の範囲で、min
とmaxは数値情報保持手段4の数値範囲の下限値(図6の
601)、上限値(図6の602)に対応する。
FIG. 46 is a diagram showing an example of the contents of the approximate number defining means 4352. Reference numeral 4601 in FIG. 46 denotes a type of range expression, which is common to the type given by the range determination unit 506 to numerical information. 460
2 is the range of numerical expression corresponding to the type of range expression, min
And max are the lower limit of the numerical range of the numerical information holding means 4 (see FIG. 6).
601) and the upper limit (602 in FIG. 6).

【0233】図47の数値情報から、「30を範囲に含
む」情報を検索する例で動作を説明する。図47では、
文書番号、数値の上限値、下限値、範囲表現の種類を示
し、他の情報を省略している。
The operation will be described with an example in which information "30 is included in the range" is retrieved from the numerical information shown in FIG. In FIG.
The document number, the upper limit and lower limit of the numerical value, and the type of range expression are shown, and other information is omitted.

【0234】条件入力手段3004から「30を範囲に含む」
という条件がで入力される。 条件変換手段4351は、範
囲定義手段4352を参照して、以下の検索式に変換され
る。
From the condition inputting means 3004, "include 30"
Is entered. The condition conversion means 4351 is converted to the following search formula with reference to the range definition means 4352.

【0235】 範囲種類=中心 and 30 = min or 範囲種類=上限 and 30 ≦ max or 範囲種類=上限2 and 30 < max or 範囲種類=曖昧上限 and max*0.8 ≦ 30 and 30 ≦ max or 範囲種類=上限下限 and min ≦ 30 and 30 ≦ max 上記の検索式による検索の結果、文書番号2、3、5が見
つかる。
Range type = center and 30 = min or range type = upper limit and 30 ≦ max or range type = upper 2 and 30 <max or range type = ambiguous upper limit and max * 0.8 ≦ 30 and 30 ≦ max or range type = Upper and lower limits and min ≤ 30 and 30 ≤ max As a result of the search using the above search formula, document numbers 2, 3, and 5 are found.

【0236】範囲定義手段4352中の定数(図46の例で
は0.8)は、検索前あるいは検索時にユーザが指定する
こともできる。また、範囲表現の種類が曖昧さや適切さ
を伴う数値(図22の2202)を伴っている場合は、この
数値を調整(例えば、定数倍する、一定数加減するな
ど)して使用することもできる。
The constant (0.8 in the example of FIG. 46) in the range definition means 4352 can be specified by the user before or during the search. If the type of range expression has a numerical value with ambiguity or adequacy (2202 in FIG. 22), this numerical value may be adjusted (for example, multiplied by a constant or added or subtracted by a certain number) before use. it can.

【0237】以上本発明を実施の形態に基づいて説明し
たが、本発明は、これらの実施の形態のみに限定される
ものではない。さらに、上記した実施の形態の数値情報
抽出装置及び数値情報検索装置をコンピュータで実現す
るために、本発明の機能手段をコンピュータ読み取り可
能なプログラムとしてCD−ROMやフロッピーディス
クに代表される記憶媒体に記憶して提供される形態でも
良い。
Although the present invention has been described based on the embodiments, the present invention is not limited to only these embodiments. Further, in order to realize the numerical information extracting device and the numerical information searching device of the above-described embodiment by a computer, the functional means of the present invention is stored in a storage medium typified by a CD-ROM or a floppy disk as a computer-readable program. It may be in a form provided by being stored.

【0238】[0238]

【発明の効果】本発明の効果は、文書形式を限定せず、
幅広い表現の数値を含む文書から数値情報を抽出し、検
索できることにある。
The effect of the present invention is not limited to the document format,
The ability to extract and retrieve numerical information from documents containing a wide range of numerical values.

【0239】第1の効果は、範囲や曖昧な表現に対して
も数値を抽出、検索できることにある。その理由は、範
囲判定手段において、範囲表現を、範囲や曖昧さによっ
て分類して処理しているためである。また、範囲や曖昧
な表現を種類分けし、種類に応じて適切な検索式を生成
するためである。
The first effect is that numerical values can be extracted and searched for a range or an ambiguous expression. The reason is that the range expression is classified and processed according to the range and the ambiguity in the range determination means. Another reason is to classify ranges and ambiguous expressions and generate an appropriate search formula according to the type.

【0240】第2の効果は、多様な単位表現に対応でき
ることにある。その理由は、単位の階層関係を使用し
て、複数の単位で表現された数値を単一の数値として処
理でき、また、一部の単位が省略されている表現にも対
応しているためである。
The second effect is that various unit expressions can be handled. The reason is that using the hierarchical relationship of units, a number expressed in multiple units can be processed as a single number, and it also supports expressions where some units are omitted. is there.

【0241】第3の効果は、必要に応じて出力するデー
タ量、あるいは、検索結果の量を削減できることにあ
る。その理由は、単位や範囲表現を分類でき、選択手段
や表示手段によって必要な種類の数値情報だけを選択す
るためである。) 第4の効果は、区切りの曖昧さや省略を含む数字列から
も正しい数値が抽出でき、もれなく検索できることにあ
る。その理由は、区切りの曖昧さを含む文字列からは複
数の区切り方を用いて数値を取り出している。また、省
略された数字列については前後関係から省略を補うため
である。
The third effect is that the amount of data to be output as needed or the amount of search results can be reduced. The reason is that the unit and the range expression can be classified, and only the necessary type of numerical information is selected by the selection means and the display means. The fourth effect is that a correct numerical value can be extracted from a numerical string including ambiguity and omission of a delimiter, and that a search can be performed without fail. The reason is that a numeric value is extracted from a character string containing ambiguous delimiters using a plurality of delimiters. Also, the omitted numeral string is used to supplement the omission from the context.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態の構成を示す示すブ
ロック図である。
FIG. 1 is a block diagram showing a configuration of a first exemplary embodiment of the present invention.

【図2】第1の実施の形態の数値抽出手段3の構成を示
すブロック図である。
FIG. 2 is a block diagram illustrating a configuration of a numerical value extracting unit 3 according to the first embodiment.

【図3】第1の実施の形態の単位テーブル52の登録内容
の例を示す図である。
FIG. 3 is a diagram illustrating an example of registered contents of a unit table 52 according to the first embodiment.

【図4】第1の実施の形態の範囲表現テーブル62の登録
内容の例を示す図である。
FIG. 4 is a diagram illustrating an example of registered contents of a range expression table 62 according to the first embodiment.

【図5】第1の実施の形態の動作を示す流れ図である。FIG. 5 is a flowchart showing the operation of the first embodiment.

【図6】第1の実施の形態の数値情報保持手段4の内容
の例を示す図である。
FIG. 6 is a diagram illustrating an example of the contents of a numerical information holding unit 4 according to the first embodiment.

【図7】本発明の第2の実施の形態の構成を示す示すブ
ロック図である。
FIG. 7 is a block diagram showing a configuration of a second exemplary embodiment of the present invention.

【図8】第2の実施の形態の単位判定手段205の動作を
示す流れ図である。
FIG. 8 is a flowchart illustrating an operation of a unit determination unit 205 according to the second embodiment.

【図9】第2の実施の形態の単位テーブル252の登録内
容の例を示す図である。
FIG. 9 is a diagram illustrating an example of registered contents of a unit table 252 according to the second embodiment.

【図10】第2の実施の形態の種類条件テーブル254の
登録内容の例を示す図である。
FIG. 10 is a diagram illustrating an example of registered contents of a type condition table 254 according to the second embodiment.

【図11】第2の実施の形態の数値情報保持手段4の内
容の例を示す図である。
FIG. 11 is a diagram showing an example of the contents of a numerical information holding unit 4 according to the second embodiment.

【図12】本発明の第3の実施の形態の構成を示す示す
ブロック図である。
FIG. 12 is a block diagram showing a configuration of a third exemplary embodiment of the present invention.

【図13】第3の実施の形態の単位判定手段305の動作
を示す流れ図である。
FIG. 13 is a flowchart illustrating an operation of a unit determination unit 305 according to the third embodiment.

【図14】第3の実施の形態の単位テーブル352の登録
内容の例を示す図である。
FIG. 14 is a diagram illustrating an example of registered contents of a unit table 352 according to the third embodiment.

【図15】第3の実施の形態の数値情報保持手段4の内
容の例を示す図である。
FIG. 15 is a diagram illustrating an example of contents of a numerical value information holding unit 4 according to the third embodiment.

【図16】第3の実施の形態の階層判定手段353の動作
を示す流れ図である。
FIG. 16 is a flowchart illustrating an operation of a hierarchy determining unit 353 according to the third embodiment.

【図17】本発明の第4の実施の形態の構成を示す示す
ブロック図である。
FIG. 17 is a block diagram showing a configuration of a fourth exemplary embodiment of the present invention.

【図18】第4の実施の形態の選択条件テーブル72の内
容の例を示す図である。
FIG. 18 is a diagram illustrating an example of contents of a selection condition table 72 according to the fourth embodiment.

【図19】本発明の第5の実施の形態の構成を示す示す
ブロック図である。
FIG. 19 is a block diagram showing a configuration of a fifth exemplary embodiment of the present invention.

【図20】第5の実施の形態の範囲表現テーブル562の
登録内容の例を示す図である。
FIG. 20 is a diagram illustrating an example of registered contents of a range expression table 562 according to the fifth embodiment.

【図21】第5の実施の形態の数値情報保持手段4の内
容の例を示す図である。
FIG. 21 is a diagram illustrating an example of the contents of a numerical information holding unit 4 according to the fifth embodiment.

【図22】第5の実施の形態の範囲表現テーブル562の
登録内容の別の例を示す図である。
FIG. 22 is a diagram illustrating another example of the registered contents of the range expression table 562 according to the fifth embodiment.

【図23】第5の実施の形態の数値情報保持手段4の内
容の別の例を示す図である。
FIG. 23 is a diagram showing another example of the contents of the numerical value information holding means 4 according to the fifth embodiment.

【図24】本発明の第6の実施の形態の構成を示す示す
ブロック図である。
FIG. 24 is a block diagram showing a configuration of a sixth exemplary embodiment of the present invention.

【図25】第6の実施の形態の選択条件テーブル672の
内容の例を示す図である。
FIG. 25 is a diagram illustrating an example of the contents of a selection condition table 672 according to the sixth embodiment.

【図26】本発明の第7の実施の形態の構成を示す示す
ブロック図である。
FIG. 26 is a block diagram showing a configuration of a seventh exemplary embodiment of the present invention.

【図27】第7の実施の形態の省略補間手段9の動作を
示す流れ図である。
FIG. 27 is a flowchart showing the operation of the omission interpolation means 9 of the seventh embodiment.

【図28】第7の実施の形態の数値情報保持手段4の内
容の例を示す図である。
FIG. 28 is a diagram illustrating an example of the contents of a numerical information holding unit 4 according to the seventh embodiment.

【図29】第7の実施の形態の数値情報保持手段4の内
容の別の例を示す図である。
FIG. 29 is a diagram showing another example of the contents of the numerical value information holding means 4 of the seventh embodiment.

【図30】本発明の第8の実施の形態の構成を示す示す
ブロック図である。
FIG. 30 is a block diagram showing a configuration of an eighth embodiment of the present invention.

【図31】本発明の第9の実施の形態の構成を示す示す
ブロック図である。
FIG. 31 is a block diagram showing a configuration of a ninth embodiment of the present invention.

【図32】第9の実施の形態の数値登録手段3102の構成
を示すブロック図である。
FIG. 32 is a block diagram illustrating a configuration of a numerical value registration unit 3102 according to the ninth embodiment.

【図33】本発明の第10の実施の形態の構成を示す示
すブロック図である。
FIG. 33 is a block diagram showing a configuration of a tenth embodiment of the present invention.

【図34】第10の実施の形態の数値登録手段3302の構
成を示すブロック図である。
FIG. 34 is a block diagram showing a configuration of a numerical value register 3302 according to the tenth embodiment.

【図35】本発明の第11の実施の形態の構成を示す示
すブロック図である。
FIG. 35 is a block diagram showing a configuration of an eleventh embodiment of the present invention.

【図36】第11の実施の形態の数値登録手段3502の構
成を示すブロック図である。
FIG. 36 is a block diagram showing a configuration of a numerical value register 3502 according to the eleventh embodiment.

【図37】本発明の第12の実施の形態の構成を示すブ
ロック図である。
FIG. 37 is a block diagram showing a configuration of a twelfth embodiment of the present invention.

【図38】第12の実施の形態の基準テーブル3773の内
容の例を示す図である。
FIG. 38 is a diagram illustrating an example of the content of a reference table 3773 according to the twelfth embodiment.

【図39】第12の実施の形態の基準テーブル3773の内
容の第2の例を示す図である。
FIG. 39 is a diagram illustrating a second example of the content of the reference table 3773 according to the twelfth embodiment.

【図40】第12の実施の形態の基準テーブル3773の内
容の第3の例を示す図である。
FIG. 40 is a diagram illustrating a third example of the content of the reference table 3773 according to the twelfth embodiment.

【図41】本発明の第13の実施の形態の構成を示すブ
ロック図である。
FIG. 41 is a block diagram showing a configuration of a thirteenth embodiment of the present invention.

【図42】第13の実施の形態の基準修正手段4108によ
る画面表示の例である。
FIG. 42 is an example of a screen display by the reference correcting unit 4108 according to the thirteenth embodiment.

【図43】本発明の第14の実施の形態の構成を示すブ
ロック図である。
FIG. 43 is a block diagram showing a configuration of a fourteenth embodiment of the present invention.

【図44】第14の実施の形態の数値登録手段4302の構
成を示すブロック図である。
FIG. 44 is a block diagram showing a configuration of a numerical value register 4302 according to the fourteenth embodiment.

【図45】第14の実施の形態の検索手段4305の構成を
示すブロック図である。
FIG. 45 is a block diagram showing a configuration of a search unit 4305 according to the fourteenth embodiment.

【図46】第14の実施の形態の範囲定義手段4352の内
容の例を示す図である。
FIG. 46 is a diagram illustrating an example of the contents of a range definition unit 4352 according to the fourteenth embodiment.

【図47】第14の実施の形態の数値情報の例を示す図
である。
FIG. 47 is a diagram illustrating an example of numerical information according to a fourteenth embodiment.

【図48】従来の文書検索装置の一例の動作を示す流れ
図である。
FIG. 48 is a flowchart showing an operation of an example of a conventional document search device.

【図49】従来の文書検索装置の他の例の構成を示すブ
ロック図である。
FIG. 49 is a block diagram showing the configuration of another example of a conventional document search device.

【図50】従来の文書検索装置の他の例の検索対象文書
の例である。
FIG. 50 is an example of a search target document of another example of the conventional document search device.

【符号の説明】[Explanation of symbols]

1 文書入力手段 2 テキスト保持手段 3、203 数値抽出手段 4 数値情報保持手段 5、205、305 単位判定手段 6、506 範囲判定手段 7、607 情報選択手段 8 出力手段 9 省略補間手段 3001 制御手段 3002、3102、3302、3502、4302 数値登録手段 3003 情報蓄積手段 3004 条件入力手段 3005、4305 検索手段 3006 結果保持手段 3007、3707 表示手段 4108 基準修正手段 1 Document inputting means 2 Text holding means 3, 203 Numerical value extracting means 4 Numerical information holding means 5, 205, 305 Unit judging means 6, 506 Range judging means 7, 607 Information selecting means 8 Output means 9 Omitting interpolation means 3001 Control means 3002 , 3102, 3302, 3502, 4302 Numerical registration means 3003 Information storage means 3004 Condition input means 3005, 4305 Search means 3006 Result holding means 3007, 3707 Display means 4108 Reference correction means

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−36917(JP,A) 特開 昭62−284460(JP,A) 特開 平3−24668(JP,A) 特開 平6−176073(JP,A) 特開 平3−209564(JP,A) 特開 平10−27235(JP,A) 特開 平7−288670(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06K 9/00 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-7-36917 (JP, A) JP-A-62-284460 (JP, A) JP-A-3-24668 (JP, A) JP-A-6-284 176073 (JP, A) JP-A-3-209564 (JP, A) JP-A-10-27235 (JP, A) JP-A-7-288670 (JP, A) (58) Fields investigated (Int. 7 , DB name) G06F 17/30 G06K 9/00

Claims (26)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 該数値を表す文字列の区切りの曖昧さを検出し、区切り
の曖昧な文字列からは複数の数値文字列を取り出すよう
に構成したことを特徴とする数値情報抽出装置。
1. A numerical value information extracting device for extracting a character string representing a numerical value contained in a text, detecting an ambiguous delimiter of a character string representing the numerical value, and extracting a plurality of numerical values from the ambiguous character string. A numerical information extraction device characterized in that a character string is extracted.
【請求項2】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記数値抽出手段は、該数値を表す文字列の区切りの曖
昧さを検出し、区切りの曖昧な数字文字列からは複数の
数値文字列を取り出す数値判別手段を少なくとも含んで
構成されることを特徴とする数値情報抽出装置。
2. A numerical value extracting means for extracting a character string representing a numerical value included in a text and generating numerical information obtained by converting the character string into a numerical value, and adding a unit to the numerical information by referring to the text. Unit determination means for performing, a range determination means for adding information representing a range of numerical values to the numerical information or a combination of the numerical information with reference to the text, and an output means for outputting the numerical information. The numerical value extracting means is configured to detect the ambiguity of a delimiter of a character string representing the numerical value and to extract a plurality of numerical character strings from the ambiguous numerical character string. Numerical information extraction device characterized by being performed.
【請求項3】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 予め、単位の名称と単位の種類を登録した第1のテーブ
ルと、単位の種類を決定するための条件を登録した第2
のテーブルを用意しておき、 抽出する数値情報に対して単位を付加するために、該テ
キストと該第1のテーブルとを参照した結果、同名で種
類が異なる単位が競合する場合には、前記第2のテーブ
ルを参照することによって適切な種類を選択し、該数値
情報に対して単位を付加するように構成したことを特徴
とする数値情報抽出装置。
3. A numerical information extracting apparatus for extracting a character string representing a numerical value contained in a text, comprising: a first table in which a unit name and a unit type are registered in advance; and a unit for determining the unit type. The second that registered the condition
When the text and the first table are referred to in order to add a unit to the numerical information to be extracted, a unit having the same name and a different type conflicts. An apparatus for extracting numerical information, wherein an appropriate type is selected by referring to a second table, and a unit is added to the numerical information.
【請求項4】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記単位判定手段は、 単位の名称と単位の種類を登録した単位テーブルと、 単位の種類を決定するための条件を登録した種類条件テ
ーブルと、 単位の種類を決定するために、該テキストと該単位テー
ブルとを参照した結果、同名で種類が異なる単位が存在
する場合には、該種類条件テーブルを参照して単位の種
類を決定する単位選択手段と、を少なくとも有して構成
されることによって該数値情報に単位を付加することを
特徴とする数値情報抽出装置。
4. A numerical value extracting means for extracting a character string representing a numerical value contained in a text and generating numerical information obtained by converting the character string into a numerical value, and adding a unit to the numerical information by referring to the text. Unit determination means for performing, a range determination means for adding information representing a range of numerical values to the numerical information or a combination of the numerical information with reference to the text, and an output means for outputting the numerical information. The unit determination means includes: a unit table in which unit names and unit types are registered; a type condition table in which conditions for determining the unit types are registered; and a unit type determination unit. If there is a unit having the same name but a different type as a result of referring to the text and the unit table, at least unit selection means for determining the type of the unit by referring to the type condition table is provided. A numerical information extracting apparatus characterized in that a unit is added to the numerical information by being configured as described above.
【請求項5】前記出力手段に該数値情報を出力する前
に、該数値情報に含まれる単位の種類によって、数値情
報を選択する情報選択手段を備えることを特徴とする請
求項4に記載の数値情報抽出装置。
5. The information processing apparatus according to claim 4, further comprising an information selection unit for selecting the numerical information according to a type of a unit included in the numerical information before outputting the numerical information to the output unit. Numeric information extraction device.
【請求項6】テキスト中に含まれる数値を表す文字列を
抽出する数値情報抽出装置において、 予め、範囲表現と範囲表現の種類を登録したテーブルを
用意しておき、該テキストと該テーブルを参照すること
によって範囲表現の種類を決定し、抽出する数値情報に
対してこの決定した範囲表現を付加するように構成した
ことを特徴とする数値情報抽出装置。
6. A numerical information extracting apparatus for extracting a character string representing a numerical value included in a text, wherein a table in which a range expression and a type of the range expression are registered is prepared in advance, and the text and the table are referred to. A type of range expression, thereby determining the type of range expression, and adding the determined range expression to the extracted numerical information.
【請求項7】テキスト中に含まれる数値を表す文字列を
抽出し、該文字列を数値に変換した数値情報を作成する
数値抽出手段と、 該テキストを参照して該数値情報に単位を付加する単位
判定手段と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定手段と、 該数値情報を出力する出力手段と、を備えて構成され、 前記範囲判定手段は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出手段と、を少なくとも有して
構成されることによって、該数値情報に範囲表現の種類
を考慮した情報を付加することを特徴とする数値情報抽
出装置。
7. Numerical value extracting means for extracting a character string representing a numerical value included in a text and generating numerical information obtained by converting the character string into a numerical value, and adding a unit to the numerical information by referring to the text Unit determination means for performing, a range determination means for adding information representing a range of numerical values to the numerical information or a combination of the numerical information with reference to the text, and an output means for outputting the numerical information. The range determining means includes: a range expression table in which a range expression and a type of the range expression are registered; and a range extracting means that determines the type of the range expression by referring to the range expression table and the text. A numerical information extracting apparatus characterized in that the numerical information extracting apparatus is configured to include at least information considering a type of a range expression to the numerical information.
【請求項8】前記出力手段に該数値情報を出力する前
に、該数値情報に含まれる範囲表現の種類によって、数
値情報を選択する情報選択手段を備えることを特徴とす
る請求項7記載の数値情報抽出装置。
8. The information processing apparatus according to claim 7, further comprising an information selection unit for selecting the numerical information according to a type of a range expression included in the numerical information before outputting the numerical information to the output unit. Numeric information extraction device.
【請求項9】該テキストと数値情報とを参照して、数値
を表す文字列の一部が省略された数値情報に、省略され
た文字列を補って、該数値情報を修正する省略補間手段
を更に備えることを特徴とする請求項1〜8のいずれか
一項に記載の数値情報抽出装置。
9. An omission interpolation means for referring to the text and the numerical information to correct the numerical information by supplementing the omitted character string with the numerical information in which a part of a character string representing a numerical value is omitted. The numerical information extracting apparatus according to any one of claims 1 to 8, further comprising:
【請求項10】該テキストと数値情報とを参照して、単
位が省略された数値情報に、省略された単位を補って、
該数値情報を修正する省略補間手段を更に備えることを
特徴とする請求項1〜8のいずれか一項に記載の数値情
報抽出装置。
10. Referring to the text and the numerical information, supplementing the omitted unit with the omitted numerical information,
9. The numerical information extracting apparatus according to claim 1, further comprising an omission interpolation unit for correcting the numerical information.
【請求項11】該テキストと数値情報を参照して、数値
を表す文字列の一部または単位が省略された数値情報に
対して、省略された文字列または単位のどちらか一方も
しくは両方を補い、該数値情報を修正する省略補間手段
を備えることを特徴とする請求項1〜8のいずれか一項
に記載の数値情報抽出装置。
11. A numerical information in which a part of a character string representing a numerical value or a unit is omitted by referring to the text and the numerical information, and one or both of the omitted character string and the unit are supplemented. 9. The numerical information extracting apparatus according to claim 1, further comprising an omission interpolation unit for correcting the numerical information.
【請求項12】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、抽出した数値情報に数値表現の曖
昧さにより複数の解釈が生じる場合には、当該単一の数
値表現を複数の数値情報として登録することを特徴とす
る数値情報検索装置。
12. Numerical information registering means for extracting and registering numerical information from a document, condition inputting means for inputting a condition for searching for the registered numerical information, searching means for searching numerical information in accordance with the condition, a display means for outputting a search result by the search means, at least equipped with constituting, the numeric registration means, 曖numbers to the extracted numerical data representation
When a plurality of interpretations generated by昧is, numerical information retrieval apparatus characterized by registering the single numeric representation as a plurality of numerical information.
【請求項13】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、数字文字列の区切りの曖昧さを検
出し区切りの曖昧な数字文字列からは複数の区切り方に
基づく複数の数値文字列を取り出し、単一の数値表現を
複数の数値表現として登録することを特徴とする数値情
報検索装置。
13. Numerical value registering means for extracting and registering numerical information from a document, condition inputting means for inputting a condition for searching for the registered numerical information, searching means for searching numerical information in accordance with the condition, And display means for outputting a search result by the search means. more numerical strings removed and numerical information retrieval device comprising a registration child a single numeric representation as a plurality of numeric representation based.
【請求項14】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、 単位の種類を決定するために、単位の名称と単位の種類
を登録した単位テーブルと該文書とを参照した結果、単
位の種類に複数の解釈が生じる場合には、単一の数値表
現を複数の数値表現として登録することを特徴とする数
値情報検索装置。
14. Numerical information registering means for extracting and registering numerical information from a document, condition inputting means for inputting a condition for searching for the registered numerical information, searching means for searching numerical information in accordance with the condition, Display means for outputting a search result by the search means, wherein the numerical value registration means determines a type of the unit, a unit table in which the name of the unit and the type of the unit are registered, and the document. If a plurality of interpretations occur in the type of unit as a result of referring to, a single numerical expression is registered as a plurality of numerical expressions.
【請求項15】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、 数値を表す文字列の一部が省略された数値情報に、省略
された文字列を補って該数値情報を修正する省略補間手
段を少なくとも備え、単一の数値表現に対して前記省略
補間手段により修正される前後の数値表現を登録するこ
とを特徴とする数値情報検索装置。
15. Numerical value registration means for extracting and registering numerical information from a document, condition input means for inputting a condition for searching for the registered numerical information, search means for searching for numerical information according to the condition, And a display unit for outputting a search result by the search unit. The numerical value registration unit supplements the omitted character string with numerical information in which a part of a character string representing a numerical value is omitted. A numerical information search device comprising at least an abbreviated interpolation means for correcting numerical information, and registering a numerical expression before and after being corrected by the abbreviated interpolation means for a single numerical expression.
【請求項16】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、 単位が省略された数値情報に、省略された単位を補って
該数値情報を修正する省略補間手段を少なくとも備え、
単一の数値表現に対して、前記省略補間手段により修正
される前後の数値表現を登録することを特徴とする数値
情報検索装置。
16. Numerical value registration means for extracting and registering numerical information from a document, condition input means for inputting a condition for searching for the registered numerical information, search means for searching for numerical information according to the condition, Display means for outputting a search result by a search means, wherein the numerical value registration means corrects the omitted numerical unit by replacing the omitted numerical value information with the omitted numerical value information. At least,
A numerical information search device, wherein a numerical expression before and after being corrected by the omitting interpolation means is registered for a single numerical expression.
【請求項17】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、 数値を表す文字列の一部、または、単位が省略された数
値情報に、省略された文字列、または、省略された単位
を補って、該数値情報を修正する省略補間手段を少なく
とも備え、単一の数値表現に対して、前記省略補間手段
により修正される前後の数値表現を登録することを特徴
とする数値情報検索装置。
17. Numerical information registering means for extracting and registering numerical information from a document, condition inputting means for inputting a condition for searching for the registered numerical information, searching means for searching numerical information according to the condition, Display means for outputting a search result by the search means, wherein the numerical value registration means is a part of a character string representing a numerical value, or a character string omitted in numerical information in which units are omitted. Or at least an abbreviated interpolation means for correcting the numerical information by supplementing the omitted unit, and registering the numerical expressions before and after being corrected by the abbreviated interpolation means for a single numerical expression. Characteristic numerical information retrieval device.
【請求項18】前記表示手段は、 検索結果として必要な数値情報の条件を登録した基準テ
ーブルと、 前記基準テーブルを参照して検索結果から必要な数値情
報を選択する分類選択手段を少なくとも備えて構成され
ることを特徴とする請求項12〜17のいずれか一項に
記載の数値情報検索装置。
18. The display means includes at least a reference table in which a condition of numerical information required as a search result is registered, and a classification selecting means for selecting necessary numerical information from the search result by referring to the reference table. The numerical information search device according to any one of claims 12 to 17, wherein the numerical information search device is configured.
【請求項19】前記表示手段は、検索結果を出力する際
の表示方法と数値情報の対応とを登録した基準テーブル
を少なくとも備え、 この基準テーブルを参照することよって検索結果を表示
することを特徴とする請求項12〜17のいずれか一項
に記載の数値情報検索装置。
19. The display device according to claim 19, wherein the display means includes at least a reference table in which a display method for outputting the search result and correspondence between numerical information are registered, and the search result is displayed by referring to the reference table. The numerical information search device according to any one of claims 12 to 17, wherein
【請求項20】前記表示手段は、検索結果の表示順序を
登録した基準テーブルを少なくとも備え、 この基準テーブルを参照することによって検索結果を表
示することを特徴とする請求項12〜17のいずれか一
項に数値情報検索装置。
20. The display device according to claim 12, wherein said display means includes at least a reference table in which a display order of search results is registered, and displays the search results by referring to said reference table. A numerical information retrieval device.
【請求項21】前記基準テーブルをユーザが修正するた
めの基準修正手段を備えることを特徴とする請求項18
〜20のいずれか一項に記載の数値情報検索装置。
21. A system according to claim 18, further comprising a reference correcting means for correcting the reference table by a user.
21. The numerical information search device according to any one of items 20 to 20.
【請求項22】文書から数値情報を抽出して登録する数
値登録手段と、 該登録した数値情報を検索する条件を入力する条件入力
手段と、 該条件に従って数値情報を検索する検索手段と、 前記検索手段による検索結果を出力する表示手段と、を
少なくとも備えて構成され、 前記数値登録手段は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出手段とを備え、 前記検索手段は、 範囲表現の種類に対応する数値の範囲を登録している範
囲定義手段と、 前記範囲定義手段を参照して、前記条件入力手段から入
力した検索条件を範囲の種類ごとの条件指定に変換する
条件変換手段と、 前記条件変換手段で変換された条件で検索を行う情報検
索手段とを備えて構成されることを特徴とする数値情報
検索装置。
22. Numerical value registering means for extracting and registering numerical information from a document, condition inputting means for inputting a condition for searching for the registered numerical information, searching means for searching numerical information according to the condition, Display means for outputting a search result by the search means, wherein the numerical value registration means refers to a range expression table in which a range expression and a type of the range expression are registered, and refers to the range expression table and the text. Range extraction means for determining the type of range expression, wherein the search means is a range definition means for registering a range of numerical values corresponding to the type of range expression; and A condition conversion unit that converts a search condition input from the condition input unit into a condition specification for each range type; and an information search unit that performs a search using the condition converted by the condition conversion unit. A numerical information search device comprising:
【請求項23】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記数値抽出機能は、該数値を表す文字列の区切りの曖
昧さを検出し、区切りの曖昧な数字文字列からは複数の
数値文字列を取り出す数値判定機能を少なくとも含んで
いることを特徴とする数値情報抽出プログラムを記憶し
た記憶媒体。
23. A numerical value extracting function for extracting a character string representing a numerical value included in a text and generating numerical information obtained by converting the character string into a numerical value; and adding a unit to the numerical information by referring to the text. A unit determination function for performing a unit determination function that adds information indicating a range of numerical values to the numerical information or a combination of the numerical information with reference to the text; and an output function that outputs the numerical information. A storage medium storing a program to be realized in a computer, wherein the numerical value extracting function detects an ambiguity of a delimiter of a character string representing the numerical value, and converts a plurality of numerical character strings from the ambiguous numerical character string of the delimiter. A storage medium storing a numerical information extraction program characterized by including at least a numerical value determination function to be taken out.
【請求項24】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記単位判定機能は、 単位の名称と単位の種類を登録した単位テーブルと、 単位の種類を決定するための条件を登録した種類条件テ
ーブルと、 単位の種類を決定するために、該テキストと該単位テー
ブルとを参照した結果、同名で種類が異なる単位が存在
する場合には、該種類条件テーブルを参照して単位の種
類を決定する単位選択機能と、を少なくとも含んで構成
されることによって該数値情報に単位を付加することを
特徴とする数値情報抽出プログラムを記憶した記憶媒
体。
24. A numerical value extracting function for extracting a character string representing a numerical value contained in a text and generating numerical information obtained by converting the character string into a numerical value, and adding a unit to the numerical information by referring to the text. A unit determination function for performing a unit determination function that adds information indicating a range of numerical values to the numerical information or a combination of the numerical information with reference to the text; and an output function that outputs the numerical information. A storage medium storing a program to be realized in a computer, wherein the unit determination function includes: a unit table in which a unit name and a unit type are registered; and a type condition table in which a condition for determining the unit type is registered. As a result of referring to the text and the unit table to determine the type of the unit, if there is a unit having the same name but a different type, the unit is referred to the type condition table. And a unit selection function for determining a type of the numerical information, and a unit is added to the numerical information, thereby storing a numerical information extracting program.
【請求項25】テキスト中に含まれる数値を表す文字列
を抽出し、該文字列を数値に変換した数値情報を作成す
る数値抽出機能と、 該テキストを参照して該数値情報に単位を付加する単位
判定機能と、 該テキストを参照して該数値情報または該数値情報の組
み合わせに対して、数値の範囲を表す情報を付加する範
囲判定機能と、 該数値情報を出力する出力機能と、をコンピュータに実
現するプログラムを記憶した記憶媒体であって、 前記範囲判定機能は、 範囲表現と範囲表現の種類を登録した範囲表現テーブル
と、 前記範囲表現テーブルと該テキストを参照して範囲表現
の種類を決定する範囲抽出機能と、を少なくとも含んで
構成されることによって、該数値情報に範囲表現の種類
を考慮した情報を付加することを特徴とする数値情報抽
出プログラムを記憶した記憶媒体。
25. A numerical value extracting function for extracting a character string representing a numerical value included in a text and generating numerical information obtained by converting the character string into a numerical value, and adding a unit to the numerical information by referring to the text. A unit determination function for performing a unit determination function that adds information indicating a range of numerical values to the numerical information or a combination of the numerical information with reference to the text; and an output function that outputs the numerical information. A storage medium storing a program to be realized in a computer, wherein the range determination function includes: a range expression table in which a range expression and a type of the range expression are registered; and a type of the range expression by referring to the range expression table and the text. And a range extracting function for determining the range information. The numerical information extracting device adds information in consideration of the type of range expression to the numerical information. The storage medium storing the program.
【請求項26】文書から数値情報を抽出して登録する数
値登録機能と、 該登録した数値情報を検索する条件を入力する条件入力
機能と、 該条件に従って数値情報を検索する検索機能と、 前記検索手段による検索結果を出力する表示機能と、を
コンピュータに実現するプログラムを記憶した記憶媒体
であって、 前記数値登録機能は、抽出した数値情報に数値表現の曖
昧さにより複数の解釈が生じる場合には、当該単一の数
値表現を複数の数値情報として登録することを特徴とす
る数値情報検索プログラムを記憶した記憶媒体。
26. A numerical value registration function for extracting and registering numerical information from a document, a condition input function for inputting a condition for searching for the registered numerical information, a search function for searching numerical information according to the condition, A storage medium storing a program for realizing, in a computer, a display function of outputting a search result by a search unit, wherein the numerical value registration function includes a step of converting a numerical expression into an extracted numerical information.
A storage medium storing a numerical information search program characterized in that when a plurality of interpretations occur due to ambiguity , the single numerical expression is registered as a plurality of numerical information.
JP23125898A 1998-08-18 1998-08-18 Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program Expired - Fee Related JP3360617B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23125898A JP3360617B2 (en) 1998-08-18 1998-08-18 Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23125898A JP3360617B2 (en) 1998-08-18 1998-08-18 Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program

Publications (2)

Publication Number Publication Date
JP2000067056A JP2000067056A (en) 2000-03-03
JP3360617B2 true JP3360617B2 (en) 2002-12-24

Family

ID=16920805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23125898A Expired - Fee Related JP3360617B2 (en) 1998-08-18 1998-08-18 Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program

Country Status (1)

Country Link
JP (1) JP3360617B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465838B2 (en) 2011-06-21 2016-10-11 Nec Corporation Numeric range search device, numeric range search method, and numeric range search program

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4084531B2 (en) * 2000-06-02 2008-04-30 株式会社ブロードリーフ Information search apparatus and information search method
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
JP2005250980A (en) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd Document retrieval system, retrieval condition input device, retrieval execution device, document retrieval method and document retrieval program
JP2006209257A (en) * 2005-01-25 2006-08-10 Ns Solutions Corp Information processing apparatus, information processing method and program
JP4618045B2 (en) * 2005-05-18 2011-01-26 沖電気工業株式会社 Range information extraction device, range information extraction method, and range information extraction program
JP5426868B2 (en) * 2008-11-11 2014-02-26 株式会社日立製作所 Numerical expression processing device
JP5538830B2 (en) * 2009-11-12 2014-07-02 株式会社日立製作所 Document analysis system and dictionary creation system
JP7389330B2 (en) * 2019-10-28 2023-11-30 富士通株式会社 Information processing program, information processing method, and information processing device
CN116860828A (en) * 2023-06-16 2023-10-10 深圳市世强元件网络有限公司 Interval value retrieval method, storage medium and computer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465838B2 (en) 2011-06-21 2016-10-11 Nec Corporation Numeric range search device, numeric range search method, and numeric range search program

Also Published As

Publication number Publication date
JP2000067056A (en) 2000-03-03

Similar Documents

Publication Publication Date Title
JP3598211B2 (en) Related word extraction device, related word extraction method, and computer readable recording medium on which related word extraction program is recorded
JP2693780B2 (en) Text processing systems and methods for checking in text processing systems whether units or chemical formulas are used correctly and consistently
US7840891B1 (en) Method and system for content extraction from forms
JP2742115B2 (en) Similar document search device
US20090313205A1 (en) Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program
US6219665B1 (en) Retrieval menu creation device, a retrieval menu creation method, and a recording medium that stores a retrieval menu creation program
JP3360617B2 (en) Numerical information extracting device, numerical information searching device, storage medium storing numerical information extracting program, and storage medium storing numerical information searching program
JP2011513810A (en) Term identification method and apparatus
EP3779781A1 (en) Image processing device, image processing method, and storage medium on which program is stored
JP2006309347A (en) Method, system, and program for extracting keyword from object document
JPH1153394A (en) Device and method for document processing and storage medium storing document processing program
JPH05128152A (en) Document retrieval support system
JP2000194725A (en) Similar group extractor and storage medium stored with similar group extraction program
JP5326781B2 (en) Extraction rule creation system, extraction rule creation method, and extraction rule creation program
JP2003203091A (en) Document speed-read supporting device, method and program, and recording medium
JPH1011443A (en) Document code check system
JP4047417B2 (en) Document processing apparatus, storage medium storing document processing program, and document processing method
JP5553037B2 (en) Text input support system, text input support device, reference information creation device, and program
JP4229457B2 (en) Data display device and data display method
JPH08115330A (en) Method for retrieving similar document and device therefor
JP3464055B2 (en) Keyword extraction device
JP3371983B2 (en) Method and apparatus for collating incomplete character strings with character strings
JP3958722B2 (en) Image data document retrieval system
JP4192142B2 (en) Dictionary registration device, dictionary registration method, and dictionary registration program
JP5688936B2 (en) Information processing apparatus, information processing method, and program

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020917

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071018

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081018

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091018

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101018

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111018

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121018

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131018

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees