JPH11259498A - 文書処理装置および記録媒体 - Google Patents

文書処理装置および記録媒体

Info

Publication number
JPH11259498A
JPH11259498A JP10058384A JP5838498A JPH11259498A JP H11259498 A JPH11259498 A JP H11259498A JP 10058384 A JP10058384 A JP 10058384A JP 5838498 A JP5838498 A JP 5838498A JP H11259498 A JPH11259498 A JP H11259498A
Authority
JP
Japan
Prior art keywords
document
unit
attribute value
knowledge information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10058384A
Other languages
English (en)
Other versions
JP3597370B2 (ja
Inventor
Minako Hashimoto
三奈子 橋本
Wakako Kashino
和佳子 柏野
Akira Ochitani
亮 落谷
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5838498A priority Critical patent/JP3597370B2/ja
Priority to GB0022066A priority patent/GB2350712B/en
Priority to CN98813873A priority patent/CN1109994C/zh
Priority to PCT/JP1998/005926 priority patent/WO1999046698A1/ja
Publication of JPH11259498A publication Critical patent/JPH11259498A/ja
Priority to US09/630,553 priority patent/US6523025B1/en
Application granted granted Critical
Publication of JP3597370B2 publication Critical patent/JP3597370B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書の検索またはクリッピング精度を向上さ
せる。 【解決手段】 文書入力部1からは処理の対象となる文
書が入力される。事象特定手段4は、知識情報記憶手段
3に記憶されている知識情報を参照して、入力された文
書に記述されている事象の種類を特定する。属性値抽出
手段5は、特定された事象に係わる属性の属性値を文書
から抽出する。対応付け手段10は、属性値抽出手段5
によって抽出された属性値を、実世界の実体に対して対
応付ける処理を行う。文書記憶手段11は、対応付け手
段10によって生成された情報(正規化情報)と、文書
または文書の格納場所を特定する情報とを関連付けて記
憶する。文書抽出手段12は、ユーザインタフェース部
2から入力されたクエリと、正規化情報とを比較し、該
当する文書または文書の格納場所を特定する情報を文書
記憶手段11から出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は入力された文書に対
して所定の処理を施して記憶するとともに、与えられた
クエリに対応する文書を、記憶されている文書の中から
検索またはクリッピングする処理を行う文書処理装置お
よびそのような処理をコンピュータに実行させるプログ
ラムを記録した記録媒体に関する。
【0002】
【従来の技術】近年、インターネットの普及や全文デー
タベースの増加に伴って、個人が利用可能な情報が飛躍
的に増加している。
【0003】このような多量の情報の中から所望の情報
を取得する方法としては、例えば、得ようとするデータ
の特徴を記述した検索式(クエリ)をキーとして、検索
処理やクリッピング処理等を行う方法が一般的であっ
た。
【0004】
【発明が解決しようとする課題】しかし、従来の大規模
な商用オンラインデータベースや全文検索システムで
は、検索式の条件を緩やかにすると検索結果に含まれて
いるノイズ(不要なデータ)が増加し、また、逆に厳し
くすると検索洩れが発生するなど、ユーザが望む通りの
データを取得することが困難であるという問題があっ
た。
【0005】即ち、従来の文書フィルタリングにおける
文書絞り込み処理や文書検索処理では、クエリと文書の
内容の一致度や関連度に基づくランキング検索が行われ
ている程度であるので、文書に含まれている重要情報や
ユーザの検索意図を十分に反映した文書絞り込みを行う
ことは困難であった。
【0006】そのため、例えば、組織としての「橋本」
が検索したいと思っても、「橋本」という地名が含まれ
た文書が検索されたりすることが多かった。また、20
万円台の新製品について検索したい場合には、「二十万
円」「20万円」、「二十一万円」、「二五万円」のよ
うに、あらゆる可能性を考慮して生成したクエリを用い
る必要があった。
【0007】更に、文書が作成された日時を用いて検索
することは可能であっても、文書に含まれている日時情
報を活用した検索を行うことができないという問題点が
あった。
【0008】例えば、以下の文では、同じ「1日」でも
示している日が異なる。 (a)A社は、1日、B製品を発売する。 (b)A社は、1日、B製品を発売した。
【0009】ここで、この文が作成された日が1997
年2月15日だとすると、(a)の場合では、「1日」
は1997年3月1日を指し、また、(b)では199
7年2月1日を指すことになる。
【0010】従来の方法においては、文書中の日時情報
の属性を認知した上で、このような情報を検索に使用
(活用)することが困難であるという問題点があった。
本発明はこのような点に鑑みてなされたものであり、ユ
ーザの検索意図を十分に反映した文書検索または文書絞
り込みを行うことが可能な文書処理装置を提供すること
を目的とする。
【0011】また、本発明は、ユーザの検索意図を十分
に反映した文書検索処理またはクリッピング処理を行う
文書処理を行うプログラムを記録した記録媒体を提供す
ることを目的とする。
【0012】
【課題を解決するための手段】図1は、上記目的を達成
する本発明の原理図である。本発明は、入力された文書
に対して所定の処理を施して記憶するとともに、与えら
れたクエリに対応する文書を、記憶されている文書の中
から検索またはクリッピングする処理を行う文書処理装
置において、知識情報記憶手段3と、事象特定手段4
と、属性値抽出手段5と、対応付け手段10と、文書記
憶手段11と、文書抽出手段12とから構成されてい
る。
【0013】ここで、知識情報記憶手段3は、入力され
た文書を処理するために必要な知識情報を記憶する。事
象特定手段4は、入力された文書に記述されている事象
の種類を、知識情報記憶手段3に記憶されている知識情
報を参照して特定する。属性値抽出手段5は、事象特定
手段4によって特定された事象に係わる属性の属性値
を、知識情報記憶手段3に記憶されている知識情報を参
照して文書から抽出する。対応付け手段10は、知識情
報記憶手段3に記憶されている知識情報を参照して、属
性値抽出手段5によって抽出された属性値と、実世界の
実体との対応付けを行う。文書記憶手段11は、対応付
け手段10によって対応付けがなされた属性値と、文書
または文書の格納場所を特定するための情報とを関連付
けて記憶する。文書抽出手段12は、属性値とクエリと
を参照して、対象となる文書に対して検索処理またはク
リッピング処理を行う。
【0014】知識情報記憶手段3には、事象とそれに関
する属性、および、属性を構成する属性値を抽出するた
めの情報とが関連付けられて記憶されている。事象特定
手段4は、入力された文書と、知識情報記憶手段3に記
憶されている知識情報とを照合することにより、文書中
に記述されている事象を特定する。属性値抽出手段5
は、知識情報記憶手段3を参照して、特定された事象に
関する属性の属性値を文書から抽出する。対応付け手段
10は、知識情報記憶手段3に記憶されている知識情報
を参照して、抽出された属性値と実世界の実体とを1対
1に対応付ける処理を行う。文書記憶手段11は、対応
付けがなされた属性値と文書または文書の格納場所を特
定するための情報とを関連付けて記憶する。文書抽出手
段12は、入力されたクエリに含まれている情報と、文
書記憶手段11に記憶されている属性値とを照合するこ
とにより所望の文書を抽出する。
【0015】これにより、対象となる文書に記述されて
いる内容を、事象という観点から把握し、把握した事象
を構成する属性の属性値を抽出するとともに、抽出した
属性値を実世界の実体と対応付けることによって生成さ
れた情報を参照して文書を検索またはクリッピングする
ようにしたので、検索またはクリッピングの精度を向上
させることが可能となる。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の実施の形態の構
成例を示すブロック図である。この図において、文書入
力部1からは、処理対象の文書が入力される。ユーザイ
ンタフェース部2は、ユーザからのクエリを受け付け
る。
【0017】知識情報記憶手段3は、後述する事象やそ
の事象に係わる属性に関する情報および固有名を固有コ
ードに変換するための情報を記憶している。事象特定手
段4は、知識情報記憶手段3に記憶されている知識情報
(事象の種類に関する情報)を参照して、文書入力部1
またはユーザインタフェース部2から入力された文書や
クエリに記述されている事象の種類を特定する。
【0018】ここで、「事象」とは、実世界で生起する
「できごと」を示している。例えば、新聞記事などでは
「A社がXを発売する。」というような実世界で発生し
た(または、これから発生する)事象に種々の補足情報
が付加されて記述されていると考える。
【0019】従って、事象特定手段4に対して、例え
ば、前述の「A社がXを発売する。」が入力されると、
この文章に記述されている事象は、<新製品の発売>で
あると特定されることになる。ここで、<>は、その内
部の語句が抽象化されて得られた概念であることを示し
ている。
【0020】なお、新聞記事などのように、記述の対象
となる事象が明確であり、また、その表現様式が限られ
ている文書においては、記述された事象のとりうる構造
(以下、事象構造と適宜略記する)にも所定の制約条件
が自ずと生ずることから、このような「事象」に着目し
て文書を解析することにより、効果的な処理を行うこと
が可能となる。
【0021】属性値抽出手段5は、知識情報記憶手段3
に記憶されている知識情報(所定の事象に係わる属性に
関する情報)を参照して、文書またはクエリから属性値
を抽出する。
【0022】例えば、知識情報記憶手段3は、前述の<
新製品の発売>という事象に関しては、<販売会社>、
<製品情報>、<日付>、および、<変更点>などの属
性を記憶しており、属性値抽出手段5は、事象特定手段
4によって特定された事象に対応する属性を知識情報記
憶手段3から取得し、その属性に対応する属性値を文書
またはクエリから抽出する。
【0023】例えば、前述の「A社がXを発売する。」
という事象では、属性<販売会社>に対応する属性値
「A社」が取得され、また、属性<製品情報>に対応す
る属性値「X」などが抽出される。
【0024】作成日時取得手段6は、文書またはクエリ
の作成日時を取得する。時制取得手段7は、文書または
クエリを構成する文章の時制(tense )を取得する。正
規化手段8は、属性値抽出手段5によって抽出された属
性のうち、数値に変換可能なものを選択し、対応する数
値に変換(正規化)する。
【0025】単位変換手段9は、正規化手段8が正規化
した数値の単位を変換する処理を行う。対応付け手段1
0は、知識情報記憶手段3に記憶されている知識情報を
参照して、属性値抽出手段5によって抽出された属性値
を、実世界における実体に対応付ける処理を行う。な
お、この「実体」とは、文書に記述されている属性値が
示す実世界の「オブジェクト」を意味している。例え
ば、前述の例では、「A社」と呼ばれる企業が複数存在
する場合には、文書中に記述されている「A社」がどの
企業(オブジェクト)を示しているのかを特定する必要
があるので、対応付け手段10は、文書中の他の属性値
(例えば、「社長の名前」や「本社地」など)を参照し
て「A社」を特定する。
【0026】文書記憶手段11は、対応付け手段10に
よって対応付けがなされた属性値集合と、もとの文書
(または、もとの文書の格納場所を特定する情報)とを
対応付けて記憶する。
【0027】文書抽出手段12は、対応付け手段10か
ら供給されたクエリに対応する文書を、属性値を参照し
て文書記憶手段11から取得する。そして、重要度算出
手段13によって算出された個々の文書の重要度を参照
し、ある閾値以上の重要度を有する文書を出力する。
【0028】重要度算出手段13は、所定のキーワード
の出現頻度などを求めることにより、対象とする文書の
重要度を算出する。図2を参照して、図1に示す実施の
形態を含む通信システムの構成例について説明する。
【0029】図2において、図1に示す文書処理装置2
0は、例えば、インターネットなどのネットワーク21
に接続されている。このネットワーク21には、端末装
置22a,22bや、サーバ23などが接続されてい
る。
【0030】端末装置22a,22bは、その入力部を
ユーザが操作して入力したクエリなどを受け付けて、文
書処理装置20に送信するとともに、送信したクエリに
対応する文書を文書処理装置20が送信した場合には、
その文書を受信して、例えば、CRT(Cathode Ray Tu
be)モニタなどへ表示出力する。
【0031】サーバ23は、記憶部23aに記憶してい
る文書や画像などの情報を、ネットワーク21を介し
て、要求を行った装置に対して送信する。文書処理装置
20は、端末装置22a,22bなどから送信されたク
エリを記憶しておき、例えば、サーバ23から新たな文
書が供給された場合には、その文書と前述のクエリとの
関連度が高い場合には、端末装置22aまたは端末装置
22bに対して送信する。
【0032】次に、以上の実施の形態の動作について説
明する。図3は、図1に示す実施の形態において、新た
な文書が文書入力部1から入力された場合(例えば、図
2に示すサーバ23から新たな文書が供給された場合)
に実行される処理の一例を説明するフローチャートであ
る。
【0033】このフローチャートが開始されると、以下
の処理が実行されることになる。 [S1]文書入力部1は、新たな文書を入力する。 [S2]事象特定手段4は、文書に記述されている事象
の種類を特定する。
【0034】即ち、事象特定手段4は、知識情報記憶手
段3に記憶されている事象と表現とのマッピング規則情
報(図5参照)を参照して、文書に記述されている事象
の種類を特定する。図5に示すマッピング規則では、
“module”“end ”で囲繞された部分が一つの事象(ま
たは実体)と表現とのマッピング規則であり、1つの事
象に対する表現のバリエーションを記述している。な
お、図5に示すマッピング規則の詳細については後述す
る。 [S3]属性値抽出手段5は、知識情報記憶手段3に記
憶されている知識情報を参照して属性値を抽出する。
【0035】例えば、属性値抽出手段5は、図5に示す
「module main 」内に記述されている事象のバリエーシ
ョンのうち、入力された文書に対応する定義に含まれて
いる属性(例えば、<会社情報>、<製品>等)の属性
値を、他の「module」や「def 」などを参照することに
より文書から抽出する。例えば、属性<会社情報>に対
応する属性値は、第17行目〜第21行目に記述されて
いる定義および、第12行目〜第15行目に記述されて
いる定義を参照してパターンマッチングを行うことによ
り、文書から抽出する。 [S4]正規化手段8は、抽出された属性値に日付表現
が含まれているか否かを判定し、日付表現が含まれてい
る場合にはステップS5に進み、それ以外の場合にはス
テップS7に進む。 [S5]作成日時取得手段6は、文書が作成された日時
を取得し、また、時制取得手段7は、対象となる事象が
記述されている文章の時制(tense )を取得する。 [S6]正規化手段8は、取得した文書作成日時情報と
時制情報とを参照して、日付表現を対応する数値に変換
する「日付表現変換処理」を実行する。
【0036】なお、この処理の詳細については、図6を
参照して後述する。 [S7]正規化手段8は、抽出された属性値に金額表現
が含まれているか否かを判定し、金額表現が含まれてい
る場合には、ステップS8に進み、それ以外の場合には
ステップS11に進む。 [S8]正規化手段8は、注目している金額表現が規定
された通貨単位であるか否かを判定し、規定された通貨
単位である場合にはステップS10に進み、それ以外の
場合にはステップS9に進む。
【0037】例えば、規定されている通貨単位が「円」
ある場合に、「$」を単位とする金額表現が存在してい
る場合にはステップS9に進む。 [S9]単位変換手段9は、内蔵されている記憶部に記
憶している交換レートを読み出し、規定されている通貨
単位に変換する処理を行う。
【0038】例えば、「$100」という表現が存在し
ている場合に、交換レートが「1$=130円」である
とすると、「$100」は「13000円」に変換され
ることになる。 [S10]正規化手段8は、金額表現を数値に変換する
「金額表現変換処理」を行う。なお、この処理の詳細
は、図13を参照して詳述する。
【0039】前述の例では、「13000円」(文字
列)が「13000 」(数値)に変換される。 [S11]正規化手段8は、他の数値表現が存在するか
否かを判定し、他の数値表現が存在する場合にはステッ
プS12に進み、それ以外の場合にはステップS13に
進む。
【0040】例えば、「出荷台数50000台」などの
表現が存在する場合には、ステップS12に進む。 [S12]正規化手段8は、属性値に含まれている数値
表現を対応する数値に変換する。例えば、前述の例で
は、「50000」(文字列)が計算可能な数値「500
0」に変換されることになる。 [S13]対応付け手段10は、属性値に固有名(例え
ば、「橋本電気」等)が含まれているか否かを判定し、
含まれている場合にはステップS14に進み、それ以外
の場合にはステップS15に進む。 [S14]対応付け手段10は、固有名を抽出し、その
固有名に対応する固有名コードを知識情報記憶手段3か
ら取得して付与する。
【0041】例えば、前述の「橋本電気」に対応する固
有名コード「00011」が、知識情報記憶手段3から
読み出されて付与される。なお、知識情報記憶手段3に
は、関連する固有名を相互に関連づけて生成した情報が
記憶されているので、文書中のある固有名が複数の候補
を有する場合には、関連付けられている他の固有名を参
照することにより、固有名を正確に特定することが可能
となる。
【0042】即ち、「橋本電気」に対応する候補が「橋
本電気株式会社」と「株式会社橋本電気」の2つである
場合(同名の会社が存在する場合)には、文書中に記載
されている、例えば、社長名や所在地などと、知識情報
記憶手段3に関連付けられて記憶されている固有名とを
比較することにより、これらの候補を絞り込んで正確な
固有名を取得することができる。 [S15]対応付け手段10は、参照表現(「同」また
は「両」などの表現)が存在するか否かを判定し、参照
表現が存在する場合にはステップS16に進み、それ以
外の場合にはステップS18に進む。
【0043】例えば、参照表現である(同)が存在する
場合には、ステップS16に進むことになる。 [S16]対応付け手段10は、参照表現が参照してい
る対象を同定する。
【0044】例えば、「橋本電気(中山社長)は、橋本
電算機(同)の独立を・・・」の場合では、参照表現
「同」が参照している対象として「中山社長」を同定す
る。なお、この同定方法としては、「同」や「両」が内
挿された括弧“()”が検出された場合には、その括弧
より前に出現する括弧内の属性値を、参照表現が参照し
ている対象であると同定するようにすればよい。 [S17]対応付け手段10は、参照表現が参照してい
る対象に対応する固有コードを取得し、取得した固有名
コードを参照表現に対して付与する。
【0045】前述の例では、「中山社長」の固有コード
「0001」が参照表現「同」に付与されることにな
る。 [S18]対応付け手段10は、正規化された属性値
(以下、正規化情報と略記する)と、元の文書(また
は、元の文書の格納場所を特定するための情報)とを関
連付けて文書記憶手段11に記憶させる。
【0046】以上の処理により、入力された文書に記述
されている事象が特定されるとともに、その事象に係わ
る属性の属性値が取得される。そして、取得された属性
値と実世界の実体とが対応付けられて得られた正規化情
報と、もとの文書(または、元の文書の格納場所を特定
するための情報)とが文書記憶手段11に記憶されるこ
とになる。
【0047】次に、図3のステップS6に示す、「日付
表現変換処理」の詳細について説明する。図6は、図3
に示す「日付表現変換処理」の詳細を説明するフローチ
ャートである。このフローチャートが開始されると、以
下の処理が実行されることになる。 [S30]作成日時取得手段6は、文書の作成日時を取
得して、%docyear, %docmonth, %docday に代入する。
なお、文書の作成日時は、例えば、新聞記事であればそ
の記事の発行日を取得する。また、新聞記事以外の文書
であれば、ファイルの属性を参照して、その作成日時を
取得する。 [S31]正規化手段8は、属性値から日付表現を抽出
する。
【0048】例えば、対象となる文章が「橋本電気は新
たなコンピュータを1日に発売。」であれば、日付表現
として「1日」を抽出する。 [S32]正規化手段8は、抽出した日付表現が数字と
「年」、「月」、または、「日」によって構成されてい
るか否かを判定し、YESと判定した場合にはステップ
S33に進み、それ以外の場合にはステップS34に進
む。
【0049】例えば、前述の「1日」の例では、数字
「1」と「日」とによって構成されていることから、Y
ESと判定されてステップS33に進む。 [S33]正規化手段8は、数字変換テーブル(図7参
照)を参照して、日付表現を変換する処理を行う。
【0050】図7に示す数字変換テーブルでは、数字表
現に対応する正規化数値が関連付けられており、ある数
字表現(文字列)が与えられると、その表現に対応する
数値が与えられることになる。 [S34]正規化手段8は、図8に示す日時表現変換テ
ーブルを参照して、日時表現を対応する数値に変換す
る。
【0051】図8に示す日時表現変換テーブルでは、表
現と、そのタイプと、対応する正規化数値とが対応付け
られている。なお、タイプとは表現の型であり、例え
ば、「date」は特定の日時を示し、また、「dat
erange」は所定の期間を示している。例えば、1
998年に作成された文書に「昨年の3月4日」という
表現があれば、%year には(%docyear- 1 )=(1998-
1)=1997 が代入され、また、%monthと%dayには、それ
ぞれ“3”と“4”が代入される。
【0052】また、1997に作成された文書に「19
98年の春」という表現があれば、%year には“1998”
が代入されるので、from 1998-3-1 to 1998-5-30という
正規化値が得られることになる。
【0053】なお、この日時表現テーブルは、一例であ
るので、図示したテーブル以外にも種々の実施の形態が
考えられる。 [S35]正規化手段8は、全ての値が取得されたか否
かを判定し、取得されたと判定した場合にはステップS
37に進み、それ以外の場合にはステップS36に進
む。
【0054】例えば、年月日に対応する全ての値が取得
された場合にはステップS37に進む。 [S36]正規化手段8は、日付の推定処理を行う。な
お、この処理の詳細は、図9を参照して後述する。 [S37]正規化手段8は、正規化された数値を%year,
%month, %dayにそれぞれ代入して処理を終了する。
【0055】以上の処理によれば、文書に含まれている
日付表現を、対応する数値に変換することが可能とな
る。次に、図9を参照して図6のステップS36に示す
「日付推定処理」の詳細について説明する。図9に示す
フローチャートが開始されると、以下の処理が実行され
ることになる。 [S50]正規化手段8は、%year のみ値が未代入であ
るか否かを判定し、未代入である場合にはステップS5
1に進み、それ以外の場合にはステップS52に進む。 [S51]正規化手段8は、%year 推定処理を行う。な
お、この処理の詳細については、図10を参照して後述
する。 [S52]正規化手段8は、%day以外の値が未代入であ
るか否かを判定し、未代入である場合にはステップS5
3に進み、それ以外の場合にはステップS55に進む。 [S53]正規化手段8は、%month推定処理を行う。な
お、この処理の詳細については、図11を参照して詳述
する。 [S54]正規化手段8は、%year 推定処理を行う。 [S55]正規化手段8は、%month以外の値が未代入で
あるか否かを判定し、その結果、未代入である場合には
ステップS56に進み、それ以外の場合にはステップS
58に進む。 [S56]正規化手段8は、%day推定処理を行う。な
お、この処理の詳細については図12を参照して詳述す
る。 [S57]正規化手段8は、%year 推定処理を行う。 [S58]正規化手段8は、%year 以外の値が未代入で
あるか否かを判定し、未代入の場合にはステップS59
に進み、それ以外の場合には処理を終了する。 [S59]正規化手段8は、推定日時を「from %year-
1-1 to %year-12-31 」とする。即ち、%year以外の値
が未代入である場合には、検索漏れが生ずることを防止
するために、正規化値をできるだけ広い値に設定する。
【0056】次に、図10を参照して、図8のステップ
S51,S54,S57に示す「%year 推定処理」の詳
細について説明する。このフローチャートが開始される
と、以下の処理が実行されることになる。 [S60]正規化手段8は、対象となる文章から時制取
得手段7によって取得された時制が未来形である場合に
はステップS61に進み、それ以外の場合にはステップ
S65に進む。 [S61]正規化手段8は、%docmonth が%monthよりも
大きいか否かを判定し、大きいと判定した場合にはステ
ップS62に進み、それ以外の場合にはステップS63
に進む。 [S62]正規化手段8は、%year に値(%docyear+1)
を代入する。
【0057】例えば、文書が作成された月が4月である
場合に、「3月に・・・する予定である」という表現が
文章中にある場合には、この「3月」は、来年の3月を
示していると推定されることから、%year には値(%doc
year+1)が代入される。 [S63]正規化手段8は、%docmonth が%month以下で
あるか否かを判定し、YESと判定した場合にはステッ
プS64に進み、それ以外の場合にはステップS65に
進む。 [S64]正規化手段8は、%year に%docyearの値を代
入する。 [S65]正規化手段8は、時制取得手段7によって取
得された時制が過去であるか否かを判定し、YESと判
定した場合にはステップS66に進み、それ以外の場合
には図9の処理に復帰(リターン)する。 [S66]正規化手段8は、%docmonth の値が%monthの
値以上であるか否かを判定し、YESと判定した場合に
はステップS67に進み、それ以外の場合にはステップ
S68に進む。 [S67]正規化手段8は、%docyearの値を%year に代
入する。 [S68]正規化手段8は、%docmonth の値が%monthの
値よりも小さいか否かを判定し、YESと判定した場合
にはステップS69に進み、それ以外の場合には図9の
処理に復帰する。 [S69]正規化手段8は、値(%docyear-1)を%year
に代入する。
【0058】例えば、文書が作成された月が4月である
場合に、「6月に・・・した」という表現が文章中にあ
る場合には、この「6月」は、昨年の6月を示している
と推定されることから、%year には値(%docyear-1)が
代入される。
【0059】次に、図11を参照して、図9のステップ
S53に示す「%month推定処理」の詳細について説明す
る。このフローチャートが開始されると、以下の処理が
実行されることになる。 [S80]正規化手段8は、時制取得手段7によって取
得された対象となる文章の時制が未来形である場合には
ステップS81に進み、それ以外の場合にはステップS
85に進む。 [S81]正規化手段8は、%docday が%dayよりも大き
いか否かを判定し、YESと判定した場合にはステップ
S82に進み、それ以外の場合にはステップS83に進
む。 [S82]正規化手段8は、%monthに値(%docmonth+1
)を代入する。
【0060】例えば、文書が作成された日が2日である
場合に、「4日に・・・する予定である」という表現が
文章中にある場合には、この「4日」は、次の月の4日
を示していると推定されることから、%monthには値(%d
ocmonth+1 )が代入されることになる。 [S83]正規化手段8は、%docday の値が%dayの値以
下であるか否かを判定し、YESと判定した場合にはス
テップS84に進み、それ以外の場合にはステップS8
5に進む。 [S84]正規化手段8は、%monthに%docmonth の値を
代入する。 [S85]正規化手段8は、時制取得手段7によって取
得された時制が過去であるか否かを判定し、YESと判
定した場合にはステップS86に進み、それ以外の場合
には図9の処理に復帰(リターン)する。 [S86]正規化手段8は、%docday の値が%dayの値以
上であるか否かを判定し、YESと判定した場合にはス
テップS87に進み、それ以外の場合にはステップS8
8に進む。 [S87]正規化手段8は、%docmonth の値を%monthに
代入する。 [S88]正規化手段8は、%docday の値が%dayの値よ
りも小さいか否かを判定し、YESと判定した場合には
ステップS89に進み、それ以外の場合には図9の処理
に復帰する。 [S89]正規化手段8は、値(%docmonth-1 )を%mon
thに代入する。
【0061】例えば、文書が作成された日が4日である
場合に、「6日に・・・した」という表現が文章中にあ
る場合には、この「6日」は、前の月の6日を示してい
ると推定されることから、%monthには値(%docmonth-1
)が代入される。
【0062】次に、図12を参照して、図9のステップ
S56に示す「%day推定処理」の詳細について説明す
る。このフローチャートが開始されると、以下の処理が
実行されることになる。 [S100]正規化手段8は、%monthの値が1,3,
5,6,8,10,または,12のうちの何れかである
か否かを判定し、YESと判定した場合にはステップS
101に進み、それ以外の場合にはステップS102に
進む。 [S101]正規化手段8は、日付情報として「from %
year-%month-1 to %year-%month-31」を生成する。 [S102]正規化手段8は、%monthの値が4,6,
9,または,11のうちの何れかであるか否かを判定
し、YESと判定した場合にはステップS103に進
み、それ以外の場合にはステップS104に進む。 [S103]正規化手段8は、日付情報として「from %
year-%month-1 to %year-%month-30」を生成する。 [S104]正規化手段8は、「年」に関する属性値を
参照して、閏年か否かを判定し、閏年である場合にはス
テップS105に進み、それ以外の場合にはステップS
106に進む。 [S105]正規化手段8は、日付情報として「from %
year-%month-1 to %year-%month-29」を生成する。 [S106]正規化手段8は、日付情報として「from %
year-%month-1 to %year-%month-28」を生成する。
【0063】以上の処理によれば、文書に含まれている
日付情報が不十分な情報しか含んでいない場合において
も、文書の作成日時と、注目する文章の時制とに応じて
日付情報を推定するようにしたので、文書に含まれてい
る日付情報を検索を行う際に有効に活用することが可能
となる。
【0064】例えば、「来年の春」のような曖昧な表現
も、具体的な数値(例えば、1998年3月1日〜19
98年5月31日)に変換(正規化)することが可能と
なるので、このような曖昧な表現も検索の際に活用する
ことが可能となる。
【0065】次に、図13を参照して、図3のステップ
S10に示す「金額表現変換処理」の詳細について説明
する。このフローチャートが開始されると以下の処理が
実行されることになる。 [S120]正規化手段8は、図14に示す金額表現変
換テーブルを参照して、金額表現を対応する数値に変換
し、変数xに代入する。
【0066】例えば、「二十万円」という表現では、先
ず、「二」が“2 ”に変換され、「十」が“×10”に、
また、「万」が“×10000 ”に変換されるので、全体と
して値“200000”が得られることになる。 [S121]正規化手段8は、金額表現が「以上」で終
わるか否かを判定し、「以上」で終わる場合にはステッ
プS122に進み、それ以外の場合にはステップS12
3に進む。 [S122]正規化手段8は、正規化表現として「from
x to * 」を生成する。ここで、「*」は任意の値を意
味している。
【0067】前述の例では、x=2000であるので、「from
2000 to *」が生成される。 [S123]正規化手段8は、金額表現が「以下」で終
わるか否かを判定し、「以下」で終わる場合にはステッ
プS124に進み、それ以外の場合にはステップS12
5に進む。 [S124]正規化手段8は、正規化表現として「from
* to x 」を生成する。 [S125]正規化手段8は、金額表現が「台」で終わ
るか否かを判定し、「台」で終わる場合にはステップS
126に進み、それ以外の場合にはステップS128に
進む。 [S126]正規化手段8は、正規化表現として「from
x to x 」を生成する。 [S127]正規化手段8は、「to」の後のxに含まれ
ている“0 ”を“9 ”に全て変換する。
【0068】例えば、「10万円台」という表現では、
x=100000となるので、この場合には「to」の後のxに
含まれている“0 ”が“9 ”に全て変換されるので、19
9999 となる。従って、正規化表現としては、「from 10
0000 to 199999 」が生成されることになる。 [S128]正規化手段8は、金額表現が「台前半」で
終わるか否かを判定し、「台前半」で終わる場合にはス
テップS129に進み、それ以外の場合にはステップS
131に進む。 [S129]正規化手段8は、正規化表現として「from
x to x 」を生成する。 [S130]正規化手段8は、「to」の後のxに含まれ
ている最初の“0 ”を“5 ”に変換する。
【0069】例えば、「10万円台前半」という表現で
は、x=100000となる。この場合には「to」の後のxに
含まれている最初の“0 ”が“5 ”に変換されるので、
150000となる。従って、正規化表現としては、「from 1
00000 to 150000 」が生成されることになる。 [S131]正規化手段8は、金額表現が「台後半」で
終わるか否かを判定し、「台後半」で終わる場合にはス
テップS132に進み、それ以外の場合には図3の処理
に復帰する。 [S132]正規化手段8は、正規化表現として「from
x to x 」を生成する。 [S133]正規化手段8は、「from」の後のxに含ま
れている最初の“0 ”を“6 ”に変換する。 [S134]正規化手段8は、「to」の後のxに含まれ
ている“0 ”を“9 ”に変換する。
【0070】例えば、「10万円台後半」という表現で
は、x=100000となるので、この場合には「to」の後の
xに含まれている最初の“0 ”が“6 ”にステップS1
33において変換され、また、「to」の後のxに含まれ
ている“0 ”が“9 ”に全て変換されるので、正規化表
現としては、「from 160000 to 199999 」が生成される
ことになる。
【0071】以上の処理によれば、例えば、漢数字によ
って記述されている金額表現を対応する数値に変換する
とともに、例えば、「以上」や「台前半」などの曖昧な
表現を含む金額表現も対応する数値に変換することが可
能となる。
【0072】次に、具体的な例を挙げて以上の実施の形
態の動作について説明する。いま、図15に示す文書が
図1に示す文書入力部1から入力されたとする。なお、
図15に示す例文は、新製品の発売に関する文書であ
る。
【0073】このような文書が文書入力部1から入力さ
れると、事象特定手段4は文書に記述されている事象
を、知識情報記憶手段3に記憶されている知識情報を参
照して特定する(図3のステップS2)。
【0074】図15の例では、図5の第4行目〜11行
目に記述されている「module main」の中の第1番目の
項目(<会社情報>は[、]?<日付>、<製品>を発
売した。)に該当することから、この文書に記述されて
いる事象が「新製品の発売」であると判定されることに
なる。
【0075】なお、図5に示す知識情報では、事象の定
義が「module main 」〜「end module」によって囲繞さ
れた部分に記述されている。また、事象の定義の中に含
まれている、例えば、<会社情報>などの属性は、「mo
dule」や「def 」などにおいて定義されている。例え
ば、属性<会社情報>は、第17行目〜第21行目の
「module」内に定義されており、その内容は、(<業種
>、<会社名>)、(<業種2>&連結語;<会社名
>)、および、(<会社名>)の3種類である。
【0076】ここで、<業種>に関する定義は、第12
行目の「def 」の後に記述されており、(.*メーカ
|.*会社|.*大手|.*開発|.*販売|.*製造
|.*業)の中の何れかに該当するものが属性<業種>
の属性値であるとされる。従って、「パソコンメーカ」
や「パソコン大手」などの表現は、<業種>の属性値で
あると判定される。なお、「|」は「or」を意味してい
る。
【0077】また、同意語または類義語を含めて定義を
行う場合には、第19行目に示されているように、同意
語を含める部分を「&」と「;」の間に挿入する。この
例では、「連結語」が同意語または類義語を含む部分と
なり、その詳細は、第16行目に定義されており、「連
結語」=(を専門とする|である|している|する|
の)となる。従って、「オフィスオートメーションを専
門とする橋本電機」という表現は、会社情報の第2番目
の定義(<業種2>&連結語;<会社名>)に該当する
ことになる。
【0078】このように、本実施の形態においては、ト
ップダウン的な処理が実行されることから、文脈に応じ
たパターンマッチングが可能となる。以上のような処理
によって事象の種類が特定されると、時制取得手段7
は、事象が記述されている文章を取得し、その時制情報
を取得する。図15に示す文書の例では、その時制は過
去形(「発売した」)であるので、「過去形」が時制情
報として取得される。なお、このようにして取得された
時制は、図16の第2行目に示すように「アスペクト=
過去」として、正規化情報に付加される。
【0079】次に、属性値抽出手段5は、特定された事
象の種類に応じて、属性値を抽出する(図3のステップ
S3)。即ち、属性値抽出手段5は、図5に示す知識情
報と文書との間でパターンマッチングを行うことによっ
て属性値を抽出する。
【0080】図15の例では、例えば、<組織名>とし
て「橋本電機」が抽出され、また、新たに発売する<製
品情報>の<種別>としては「JCN互換パソコン」が
抽出され、その<製品名>としては、「GNWシリー
ズ」が抽出されている。
【0081】続いて、正規化手段8は、文書に日付表現
が存在するか否かを判定し(図3ステップS4)、存在
する場合には対応する数値に変換する処理を行う。図1
5に示す文書では、「十八日」という表現が含まれてい
ることから、正規化手段8は、図3に示すステップS5
において文書作成日時情報と時制情報とを取得して、ス
テップS6において日付表現変換処理を行う。
【0082】例えば、文書作成日時が「1993年10
月19日」であるとすると、図16の第6行目に示すよ
うに、「発表日付」としてそのタイプが「date」であ
り、また、その値が「1998-10-18」である情報が正規化
情報に付加されることになる。
【0083】続いて、正規化手段8は、図3のステップ
S7において、金額表現が存在するか否かを判定する。
図15に示す文書では、「十七万八千円」などの表現が
あることから、ステップS8に進み、そこで、規定され
た通貨単位か否かが判定される。例えば、規定された通
貨単位が「円」であるとし、対象となる表現が前述の
「十七万八千円」である場合には、ステップS10に進
むことになる。
【0084】なお、「$150」などの表現が含まれて
いる場合には、ステップS9において交換レート(1$
=130円)に応じて、通貨単位の変換が行われた後、
ステップS10に進む。
【0085】ステップS10では、文字列「十七万八千
円」が、値“178000”に変換される。続くステップS1
1では、他の数値表現が存在するか否かが判定される
が、図15に示す例の第1番目の文章には、日付表現以
外の数値表現は存在しないことから、ステップS13に
進む。
【0086】ステップS13では、対応付け手段10が
固有名が存在するか否かを判定する。図15の例では、
固有名「橋本電機」が存在することから、ステップS1
4に進む。
【0087】ステップS14では、対応付け手段10が
知識情報記憶手段3に記憶されている知識情報のうち、
橋本電機に対応する情報を取得する。なお、この情報
は、例えば、以下のような情報である。
【0088】 0001 橋本電機<会社名> 00011 橋本太郎<社長名> 00012 岡山県<所在地> 取得された「橋本電機」に対する候補が複数存在する場
合には、橋本電機に関連付けられて記憶されている他の
固有名(橋本太郎、岡山県)などが文書中に含まれてい
ないか判定され、候補が絞り込まれることになる。
【0089】そして、ステップS14において、絞り込
みの結果得られた固有名コード(例えば、0001)
が、正規化情報に付与されることになる(図16第4行
目参照)。
【0090】ステップS15では、対応付け手段10
は、参照表現が存在するか否かを判定する。図15に示
す例では、参照表現は存在しないから、NOと判定され
てステップS18において、生成された正規化情報と文
書(または、文書が格納されている場所を示す情報)と
を文書記憶手段11に記憶して処理を終了する。
【0091】図17は、他の文書例を示している。ま
た、図18は、図17に示す文書を処理して得られた正
規化情報の一例を示している。図18の第3行目に示す
ように、図17に示す文書に記述されている事象は、合
併情報(field =合併情報)であり、その時制は過去
(アスペクト=過去)である。また、「発表した」とい
う表現が第1番目の文章中にないことから、第2行目に
示すように、「文末表現=発表述語なし」とされてい
る。
【0092】更に、第5行目から第27行目に示されて
いる「合併主体組織情報」の内容としては、第8行目と
第18行目に示されている北海道大木リフトと、東北海
道大木リフトとが合併する主体組織であり、それ以外の
行には、これらの組織を補足するための<合併組織補足
情報>が記載されている。
【0093】第34行目以降には、分析の対象となった
文以外の残りの文章が記載されている。なお、この例で
は、図17の第3行目に「同」という参照表現が含まれ
ているので、図18の第23行目に示すように「参照先
=前」という記述が追加され、参照表現「同」が、第1
3〜第16行目に示されている「芥川龍太郎(025
1)」(要素2)であることが示されている。
【0094】次に、以上のようにして生成された正規化
情報を参照して、文書を検索する場合の処理の一例につ
いて説明する。図19は、図1に示すユーザインタフェ
ース部2に表示される入力画面の表示例である。この例
では、製品の販売情報が記載された文書を検索の対象と
している。即ち、<製品の販売>が事象として記述され
た文書が検索の対象とされる。
【0095】この例では、第1番目に示すボックス「組
織名」に、製品を発売した組織名が入力される。また、
第2番目に示すボックス「製品種」には、製品の種類が
入力される。更に、ボックス「価格」には製品の価格の
範囲が入力される。ボックス「発売日」には、発売され
た日の範囲が入力される。なお、最下行に表示されてい
るボタン「検索」は、全ての入力が終了し、検索を開始
する場合に操作される。
【0096】図20は、図19に示す画面に所定のクエ
リが入力された場合の入力例を示している。この例で
は、組織名として「AAA」が、また、製品種として
「パソコン」が入力されている。
【0097】更に、価格は、「100000」円以上
「300000」円以下とされており、発売日は「19
97」年「1」月「1」日から「1997」年「6」月
「30」日までとされている。
【0098】このような入力画面から入力されたクエリ
は、各入力項目の属性を示す情報が付与された後、事象
特定手段4、属性値抽出手段5、および、対応付け手段
10を介して、文書抽出手段12に供給される。なお、
付与される情報としては、例えば、「AAA」に対して
はタグ<組織名>が付与される。また、価格はタグ<価
格 type=price unit= 円 value =“ from 100000 to 30
0000”>に変換される。更に、発売日は、タグ<発売日
type=date value=“from 1997-1-1 to 1997-6-30 ”
>に変換される。
【0099】文書抽出手段12は、ユーザインタフェー
ス部2から供給されたクエリとタグとに対応する属性値
を有する文書を文書記憶手段11から取得する。即ち、
文書記憶手段11には、元の文書とともに正規化情報が
記憶されているので、文書抽出手段12は、この正規化
情報に含まれている属性値と、クエリのタグとを照合す
ることにより、所望の文書を抽出する。
【0100】このようにして検索された結果は、図示せ
ぬ表示装置に表示出力される。図21は、検索結果を表
示する画面のテンプレートを示している。この例では、
検索結果の属性値として「組織名」、「製品種」、「製
品名」、「価格」、「発売日」、および、「見出し」が
表示される。
【0101】図22は、実際の表示例を示している。こ
の例の第1行目の項目は、「AAA」という組織が、デ
スクトップ型のパソコンを、200000〜299999円で、1997
/02/29に発売しており、その文書の見出しは「低価格パ
ソコン発売」であることを示している。
【0102】図23は、図1に示すユーザインタフェー
ス部2に表示される入力画面の他の表示例である。この
例では、「組織の合併情報」が記載された文書を検索の
対象としている。即ち、組織の合併が事象として記述さ
れた文書が検索の対象とされる。この例では、第1番目
と第2番目に示すボックス「組織名」に、合併する組織
名が入力される。また、ボックス「合併日」には、合併
が行われる日の範囲が入力される。なお、最下行に表示
されているボタン「検索」は、全ての入力が終了した後
に、検索を開始する場合に操作される。
【0103】図24は、図23に示す入力画面に所定の
クエリが入力された場合の入力例を示している。この例
では、組織名として「AAA」が、また、合併日として
「1997」年「1」月「1」日から、「1997」年
「12」月「31」日までが入力されている。
【0104】このような入力画面において、ボタン「検
索」が操作されると、前述の場合と同様にタグが生成さ
れ、文書記憶手段11に記憶されている正規化情報と、
このタグとを照合することにより、文書が検索される。
【0105】図25は、図24の検索結果を表示する画
面の表示例である。この表示例では、検索結果の属性と
して「組織名」、「組織名」、「新組織名」、「合併
日」、および、「見出し」が表示される。
【0106】図26は、実際の表示例を示している。こ
の例では、検索結果の文書には、組織名が「AAA」お
よび「BBB」である会社が「1997/04/01」に合併し、
新組織名は「CCC」であることが示されており、ま
た、その文書の見出しは、「AAA, BBB,2社合併」であ
ることが示されている。
【0107】以上の実施の形態によれば、検索の対象と
なる事象に対応した入力画面を用意して、その入力画面
から必要な項目を入力することにより、所望の文書が取
得されることになる。ところで、文書記憶手段11に記
憶されている文書には、前述の正規化情報が関連付けら
れて記憶されているので、その正規化情報を参照するこ
とにより、例えば、対象とする文書に、新たに発売され
たパソコンの価格が「二十五万円」と漢数字で記載され
ているような場合においても、「200000」円〜「30000
0」円と記述されたクエリによって取得されることにな
る。
【0108】なお、以上の実施の形態においては、検索
しようとする事象に対応した入力画面から所定の項目を
入力し、入力された項目に対応する文書を検索するよう
にしたが、クエリを文章として入力し、入力された文章
に対して正規化処理を行った後、対応する文書を検索す
るようにしてもよい。以下、そのような方法により、ク
エリを正規化する処理の一例について、図27を参照し
て説明する。このフローチャートが開始されると以下の
処理が実行されることになる。 [S151]ユーザインタフェース部2は、文章として
記述されたクエリを入力する。 [S152]事象特定手段4は、クエリに記述されてい
る事象の種類を特定する。即ち、事象特定手段4は、知
識情報記憶手段3に記憶されている事象と表現とのマッ
ピング規則情報(図5参照)を参照して、クエリに記述
されている事象の種類を特定する。 [S153]属性値抽出手段5は、知識情報記憶手段3
に記憶されている知識情報を参照して属性値を抽出す
る。 [S154]正規化手段8は、抽出された属性値に日付
表現が含まれているか否かを判定し、日付表現が含まれ
ている場合にはステップS155に進み、それ以外の場
合にはステップS157に進む。 [S155]作成日時取得手段6は、クエリが作成され
た日時を取得し、また、時制取得手段7は、クエリの時
制(tense )を取得する。 [S156]正規化手段8は、取得したクエリ作成日時
情報と時制情報とを参照して、日付表現を対応する数値
に変換する「日付表現変換処理」を実行する。なお、こ
の処理の詳細については、図6を参照して既述したの
で、その説明は省略する。 [S157]正規化手段8は、抽出された属性値に金額
表現が含まれているか否かを判定し、金額表現が含まれ
ている場合には、ステップS158に進み、それ以外の
場合にはステップS161に進む。 [S158]正規化手段8は、注目している金額表現が
規定された通貨単位であるか否かを判定し、規定された
通貨単位である場合にはステップS160に進み、それ
以外の場合にはステップS159に進む。例えば、規定
されている通貨単位が「円」ある場合に、「$」を単位
とする金額表現が既述されている場合にはステップS1
59に進む。 [S159]単位変換手段9は、内蔵されている記憶部
に記憶している交換レートを読み出し、規定されている
通貨単位に変換する処理を行う。
【0109】例えば、「$100」という表現が存在し
ている場合に、交換レートが「1$=130円」である
とすると、「$100」は「13000円」に変換され
ることになる。 [S160]正規化手段8は、金額表現を数値に変換す
る「金額表現変換処理」を行う。なお、この処理の詳細
は、図13を参照して既述したので、その説明は省略す
る。
【0110】前述の例では、「13000円」(文字
列)が「13000 」(数値)に変換されることになる。 [S161]正規化手段8は、他の数値表現が存在する
か否かを判定し、他の数値表現が存在する場合にはステ
ップS162に進み、その他の場合にはステップS16
3に進む。
【0111】例えば、「出荷台数50000台」などが
存在する場合には、ステップS162に進む。 [S162]正規化手段8は、属性値に含まれている数
値表現を対応する数値に変換する。例えば、前述の例で
は、文字列「50000」が計算可能な数値「5000」に
変換されることになる。 [S163]対応付け手段10は、属性値に固有名(例
えば、「橋本電気」等)が含まれているか否かを判定
し、含まれている場合にはステップS164に進み、そ
れ以外の場合にはステップS165に進む。 [S164]対応付け手段10は、固有名を抽出し、そ
の固有名に対応する固有名コードを知識情報記憶手段3
から取得して属性値に付与する。
【0112】例えば、前述の「橋本電気」に対応する固
有名コード「00011」が、知識情報記憶手段から読
み出されて付与される。なお、知識情報記憶手段3に
は、関連する固有名を相互に関連づけて生成した情報が
記憶されているので、ある固有名が複数の候補を有する
場合には、関連付けられている他の固有名を参照するこ
とにより、固有名を正確に特定することが可能となる。
【0113】即ち、「橋本電気」に対応する候補が「橋
本電気株式会社」と「株式会社橋本電気」の2つである
場合(同名の会社が存在する場合)には、クエリ中に記
載されている、例えば、社長名や所在地などと、知識情
報記憶手段3に関連付けられて記憶されている固有名と
を比較することにより、これらの候補を絞り込んで正確
な固有名コードを取得することができる。 [S165]対応付け手段10は、参照表現(同または
両などの表現)が存在するか否かを判定し、参照表現が
存在する場合にはステップS166に進み、それ以外の
場合にはステップS168に進む。
【0114】例えば、参照表現である(同)が存在する
場合には、ステップS166に進むことになる。 [S166]対応付け手段10は、参照表現が参照して
いる対象を同定する。
【0115】例えば、「橋本電気(中山社長)は、橋本
電算機(同)の独立を・・・」の場合では、参照表現
「同」が参照している対象として「中山社長」を同定す
る。なお、この同定方法としては、「同」や「両」が内
挿された括弧“()”が検出された場合には、その括弧
より前に出現する括弧内の属性値を、参照表現が参照し
ている対象であると同定するようにすればよい。 [S167]対応付け手段10は、参照表現が参照して
いる対象に対応する固有コードを取得し、取得した固有
コードを参照表現に対して付与する。
【0116】前述の例では、「中山社長」の固有コード
「00010」が参照表現「同」に付与されることにな
る。 [S168]対応付け手段10は、以上のようにして生
成されたクエリの正規化情報を、文書抽出手段12に供
給する。その結果、文書抽出手段12は、以上のように
して生成されたクエリの正規化情報を参照して、文書記
憶手段11に記憶されている文書を検索する。
【0117】例えば、クエリとして「橋本酒造が純米
酒、橋本を発売した。」が入力された場合には、事象特
定手段4は、知識情報記憶手段3に記憶されている知識
情報を参照し、入力されたクエリが「新製品の発売」と
いう事象を示していることを特定する。
【0118】属性値抽出手段5は、<組織名>として
「橋本酒造」を抽出し、また、<製品種>として「純米
酒」を、また、<製品名>として「橋本」を抽出する。
対応付け手段10は、「橋本酒造」に対応する固有名コ
ードが存在する場合には、その固有名コードを取得して
付与する。例えば、「橋本酒造」の固有名コードが“0
111”である場合には、<組織名>橋本酒造(011
1)</組織名>というタグが生成されることになる。
【0119】文書抽出手段12は、以上のようにして生
成された正規化情報を参照して、文書記憶手段11から
該当する文書を抽出する。即ち、文書抽出手段12は、
組織名タグと固有名コード(0111)が付けられた
「橋本酒造」、製品種タグが付けられた「橋本」、およ
び、製品名タグが付けられた「橋本」を含み、その事象
が「新製品の発売」である文書を文書記憶手段11から
抽出する。
【0120】このような処理によれば、例えば、「橋本
さんは、橋本酒造製の純米酒を注文した。」という一文
が含まれている文書が検索結果として取得されることを
防止することができる。即ち、クエリと文書の正規化情
報には、抽出された属性を示すタグがそれぞれ付与され
ていることから、例えば、<製品名>である「橋本」
を、<人名>と混同すること防止することができる。
【0121】次に、以上の実施の形態により文書をクリ
ッピングする場合の処理の一例について説明する。図2
9は、文書をクリッピングする場合に、ユーザから送信
されたクエリを正規化する処理の一例を説明するフロー
チャートである。このフローチャートが開始されると、
以下の処理が実行されることになる。 [S180]ユーザインタフェース部2は、所定のユー
ザからのクエリを入力する。[S181]事象特定手段
4、属性値抽出手段5、および、対応付け手段10は、
図27および図28のステップS151〜S167の処
理を実行して、クエリを正規化する。 [S182]文書抽出手段12は、正規化されたクエリ
(正規化情報)と、それを送信したユーザを特定する情
報とを関連付けて記憶する。 [S183]文書抽出手段12と重要度算出手段13
は、文書記憶手段11に記憶されている文書と、ユーザ
毎のクエリの関連度を判定する「関連度判定処理」を実
行する。なお、この処理の詳細は、図30を参照して後
述する。
【0122】次に、図30を参照して、図29に示す
「関連度判定処理」の詳細について説明する。このフロ
ーチャートが開始されると、以下の処理が実行されるこ
とになる。 [S201]重要度算出手段13は、正規化情報が付与
された文書と、正規化されたクエリとの関連度をユーザ
単位で計算する。
【0123】なお、計算方法としては、例えば、正規化
されたクエリに含まれている重要表現を対象となる文書
がいくつ含んでいるかに応じてスコアリングを行い、ス
コアの高い文書を関連度の高い文書とする方法を採用す
ることができる。 [S202]文書抽出手段12は、重要度算出手段13
の計算結果を参照し、関連度の高い文書を抽出する。 [S203]文書抽出手段12は、正規化したクエリに
含まれている日付、金額、および、数値が、文書の正規
化情報に含まれているそれらの値と一致する文書を抽出
する。 [S204]文書抽出手段12は、一致した文書をネッ
トワーク21を介してユーザに送付する。
【0124】続いて、図31を参照して、例えば、サー
バ23から新たな文書が送信されてきた場合に、文書処
理装置20において実行される処理の一例を説明する。
このフローチャートが開始されると、以下の処理が実行
されることになる。 [S230]文書入力部1は、ネットワーク21を介し
て、例えば、サーバ23から新たな文書の入力を受け
る。 [S231]事象特定手段4、属性値抽出手段5、およ
び、対応付け手段10は、文書の正規化処理を実行す
る。
【0125】即ち、事象特定手段4、属性値抽出手段
5、および、対応付け手段10は、図3および図4に示
す処理を実行することにより入力された文書に対応する
正規化情報を生成する。 [S232]文書抽出手段12および重要度算出手段1
3は、図30に示す「関連度判定処理」を実行する。そ
の結果、生成された正規化情報に一致するクエリが存在
している場合には、そのクエリを送信したユーザに対し
て、新たに入力された文書が送付される。
【0126】以上の処理によれば、新たな文書が入力さ
れた場合には、入力された文書の正規化情報と、各ユー
ザの正規化されたクエリとの関連度を算出して、関連度
が高い場合には対応するユーザに対して文書を送信する
ようにしたので、ユーザの要求に適合した文書を正確に
選択して送信することが可能となる。
【0127】なお、上記の処理機能は、コンピュータに
よって実現することができる。その場合、文書処理装置
が有すべき機能の処理内容は、コンピュータで読み取り
可能な記録媒体に記録されたプログラムに記述されてお
り、このプログラムをコンピュータで実行することによ
り、上記処理がコンピュータで実現される。コンピュー
タで読み取り可能な記録媒体としては、磁気記録装置や
半導体メモリ等がある。
【0128】市場に流通させる場合には、CD−ROM
(Compact Disk Read Only Memory)やフロッピーディス
ク等の可搬型記録媒体にプログラムを格納して流通させ
たり、ネットワークを介して接続されたコンピュータの
記憶装置に格納しておき、ネットワークを通じて他のコ
ンピュータに転送することもできる。コンピュータで実
行する際には、コンピュータ内のハードディスク装置等
にプログラムを格納しておき、メインメモリにロードし
て実行するようにすればよい。
【0129】
【発明の効果】以上説明したように本発明では、対象と
なる文書に記述されている事象を特定し、特定された事
象に関する属性の属性値を抽出し、抽出した属性値と実
世界の実体とを対応付けすることによって生成された情
報を参照して、文書を検索またはクリッピングするよう
にしたので、各属性値を正確に認識して文書を検索また
はクリッピングすることが可能となるので、結果とし
て、文書の検索またはクリッピング精度を向上させるこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成例を示すブロック図
である。
【図2】図1に示す文書処理装置を含む通信システムの
構成例である。
【図3】文書の正規化処理の一例を説明するフローチャ
ートである。
【図4】文書の正規化処理の一例を説明するフローチャ
ートである。
【図5】知識情報の一例を示す図である。
【図6】図3に示す日付表現変換処理の詳細を説明する
フローチャートである。
【図7】数字変換テーブルの一例を示す図である。
【図8】日時表現変換テーブルの一例を示す図である。
【図9】図6に示す日付推定処理の詳細を示すフローチ
ャートである。
【図10】図9に示す%year 推定処理の詳細を説明する
フローチャートである。
【図11】図9に示す%month推定処理の詳細を説明する
フローチャートである。
【図12】図9に示す%day推定処理の詳細を説明するフ
ローチャートである。
【図13】図3に示す金額表現変換処理の詳細を説明す
るフローチャートである。
【図14】金額表現変換テーブルの一例を示す図であ
る。
【図15】図1に示す実施の形態に入力される文書の一
例である。
【図16】図15に示す文書を処理した結果生成される
正規化情報の一例である。
【図17】図1に示す実施の形態に入力される文書の他
の一例を示す図である。
【図18】図17に示す文書を処理した結果生成される
正規化情報の一例である。
【図19】製品販売情報に関する文書を検索する際の入
力画面の一例である。
【図20】図19に示す入力画面に入力がなされた場合
の一例である。
【図21】図19に示す入力画面に対応する検索結果表
示画面の一例である。
【図22】図20に示す入力画面に対応する検索結果の
画面の一例である。
【図23】組織合併情報に関する文書を検索する際の入
力画面の一例である。
【図24】図23に示す入力画面に入力がなされた場合
の一例である。
【図25】図23に示す入力画面に対応する検索結果表
示画面の一例である。
【図26】図24に示す入力画面に対応する検索結果の
画面の一例である。
【図27】クエリに対する正規化処理の一例を説明する
フローチャートである。
【図28】クエリに対する正規化処理の一例を説明する
フローチャートである。
【図29】文書のクリッピングを行う場合において、ユ
ーザからのクエリに対する処理の一例を説明するフロー
チャートである。
【図30】図29に示す関連度判定処理の詳細を説明す
るフローチャートである。
【図31】文書のクリッピングを行う場合において実行
される、文書に対する処理の一例を説明するフローチャ
ートである。
【符号の説明】
1 文書入力部 2 ユーザインタフェース部 3 知識情報記憶手段 4 事象特定手段 5 属性値抽出手段 6 作成日時取得手段 7 時制取得手段 8 正規化手段 9 単位変換手段 10 対応付け手段 11 文書記憶手段 12 文書抽出手段 13 重要度算出手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 落谷 亮 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 西野 文人 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書に対して所定の処理を施
    して記憶するとともに、与えられたクエリに対応する文
    書を、記憶されている文書の中から検索またはクリッピ
    ングする処理を行う文書処理装置において、 前記入力された文書を処理するために必要な知識情報を
    記憶する知識情報記憶手段と、 前記入力された文書に記述されている事象の種類を、前
    記知識情報記憶手段に記憶されている知識情報を参照し
    て特定する事象特定手段と、 前記事象特定手段によって特定された事象に係わる属性
    の属性値を、前記知識情報記憶手段に記憶されている知
    識情報を参照して前記文書から抽出する属性値抽出手段
    と、 前記知識情報記憶手段に記憶された知識情報を参照し
    て、前記属性値抽出手段によって抽出された属性値と、
    実世界の実体との対応付けを行う対応付け手段と、 前記対応付け手段によって対応付けがなされた属性値
    と、前記文書または前記文書の格納場所を特定するため
    の情報とを関連付けて記憶する文書記憶手段と、 前記属性値と前記クエリとを参照して、対象となる文書
    に対して検索処理またはクリッピング処理を行う文書抽
    出手段と、 を有することを特徴とする文書処理装置。
  2. 【請求項2】 前記対応付け手段は、前記属性値の中で
    固有名であるものに対しては、他の属性値を参照してそ
    の固有名が示す実世界の実体を特定するとともに、特定
    された実体を一意に示す所定の情報を付与し、 前記文書抽出手段は、前記対応付け手段によって付与さ
    れた前記所定の情報を参照して、検索処理またはクリッ
    ピング処理を行うことを特徴とする請求項1記載の文書
    処理装置。
  3. 【請求項3】 前記対応付け手段は、前記属性値が参照
    表現である「同」または「両」を含む場合に、それらの
    参照表現が参照する属性値を特定することを特徴とする
    請求項1記載の文書処理装置。
  4. 【請求項4】 前記文書に含まれているキーワードの出
    現頻度を参照して対象とする文書の重要度を算出する重
    要度算出手段を更に有し、 前記重要度算出手段は、前記対応付け手段によって参照
    先が特定された参照表現もキーワードと同等に処理する
    ことを特徴とする請求項3記載の文書処理装置。
  5. 【請求項5】 前記属性値のうち、数値化可能なものに
    関しては、対応する数値に変換して正規化する正規化手
    段を更に有し、 前記文書抽出手段は、前記正規化手段によって正規化さ
    れた情報を参照して、検索処理またはクリッピング処理
    を行うことを特徴とする請求項1記載の文書処理装置。
  6. 【請求項6】 前記正規化手段によって得られた数値が
    有する単位を、他の所定の単位に変換する単位変換手段
    を更に有することを特徴とする請求項5記載の文書処理
    装置。
  7. 【請求項7】 前記文書を構成する所定の文章の時制を
    取得する時制取得手段と、 前記文書が作成された日時を取得する作成日時取得手段
    とを更に有し、前記正規化手段は、前記時制取得手段に
    よって取得された文書の時制と、前記作成日時取得手段
    によって取得された作成日時とを参照して、日時または
    期間を示す属性値の具体的な値を推定することを特徴と
    する請求項5記載の文書処理装置。
  8. 【請求項8】 前記文書に含まれているキーワードの出
    現頻度を参照して対象とする文書の重要度を算出する重
    要度算出手段を更に有し、 前記重要度算出手段は、前記正規化手段によって推定さ
    れた日時または期間を加味して重要度を算出することを
    特徴とする請求項7記載の文書処理装置。
  9. 【請求項9】 前記事象特定手段、前記属性抽出手段、
    および、対応付け手段は、前記クエリに対しても文書の
    場合と同様の処理を行い、 前記文書抽出手段は、前記対応付け手段によって対応付
    けがなされた文書の属性値とクエリの属性値とを参照し
    て、検索またはクリッピング処理を行うことを特徴とす
    る請求項1記載の文書処理装置。
  10. 【請求項10】入力された文書に対して所定の処理を施
    して記憶するとともに、与えられたクエリに対応する文
    書を、記憶されている文書の中から検索またはクリッピ
    ングする処理をコンピュータに実行させるプログラムを
    記録したコンピュータ読み取り可能な記録媒体におい
    て、 コンピュータを、 前記入力された文書を処理するために必要な知識情報を
    記憶する知識情報記憶手段、 前記入力された文書に記述されている事象の種類を、前
    記知識情報記憶手段に記憶されている知識情報を参照し
    て特定する事象特定手段、 前記事象特定手段によって特定された事象に係わる属性
    の属性値を、前記知識情報記憶手段に記憶されている知
    識情報を参照して前記文書から抽出する属性値抽出手
    段、 前記知識情報記憶手段に記憶されている知識情報を参照
    して、前記属性値抽出手段によって抽出された属性値
    と、実世界の実体との対応付けを行う対応付け手段、 前記対応付け手段によって対応付けがなされた属性値
    と、前記文書または前記文書の格納場所を特定するため
    の情報とを関連付けて記憶する文書記憶手段、 前記属性値と前記クエリとを参照して、対象となる文書
    に対して検索処理またはクリッピング処理を行う文書抽
    出手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP5838498A 1998-03-10 1998-03-10 文書処理装置および記録媒体 Expired - Fee Related JP3597370B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP5838498A JP3597370B2 (ja) 1998-03-10 1998-03-10 文書処理装置および記録媒体
GB0022066A GB2350712B (en) 1998-03-10 1998-12-24 Document processing system and recording medium
CN98813873A CN1109994C (zh) 1998-03-10 1998-12-24 文件处理装置与记录媒体
PCT/JP1998/005926 WO1999046698A1 (fr) 1998-03-10 1998-12-24 Processeur de documents et support d'enregistrement
US09/630,553 US6523025B1 (en) 1998-03-10 2000-08-01 Document processing system and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5838498A JP3597370B2 (ja) 1998-03-10 1998-03-10 文書処理装置および記録媒体

Publications (2)

Publication Number Publication Date
JPH11259498A true JPH11259498A (ja) 1999-09-24
JP3597370B2 JP3597370B2 (ja) 2004-12-08

Family

ID=13082851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5838498A Expired - Fee Related JP3597370B2 (ja) 1998-03-10 1998-03-10 文書処理装置および記録媒体

Country Status (5)

Country Link
US (1) US6523025B1 (ja)
JP (1) JP3597370B2 (ja)
CN (1) CN1109994C (ja)
GB (1) GB2350712B (ja)
WO (1) WO1999046698A1 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278988A (ja) * 2001-03-15 2002-09-27 Just Syst Corp 語句列変換装置、検索装置、語句列変換方法、検索方法、ならびに、記録媒体
JP2002288221A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書表示装置、文書表示方法ならびに、プログラム
JP2005509952A (ja) * 2001-11-09 2005-04-14 インジェヌイティ システムズ インコーポレイテッド 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
WO2005096182A1 (ja) * 2004-03-31 2005-10-13 Matsushita Electric Industrial Co., Ltd. 情報抽出システム
WO2006006287A1 (ja) * 2004-07-12 2006-01-19 Shinichiro Fujiya ウエブ上の商品・サービスの検索システム
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
JP2006209257A (ja) * 2005-01-25 2006-08-10 Ns Solutions Corp 情報処理装置、情報処理方法及びプログラム
JP2006350989A (ja) * 2005-05-18 2006-12-28 Oki Electric Ind Co Ltd 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム
JP2007058476A (ja) * 2005-08-24 2007-03-08 Hitachi Ltd 省略日付表現からの年月日推定プログラムおよび装置
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム
JP2009176302A (ja) * 2008-01-23 2009-08-06 Palo Alto Research Center Inc 推薦システム用の時間情報および場所情報の言語抽出
US7577683B2 (en) 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
US7650339B2 (en) 2000-06-08 2010-01-19 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
JP2010205006A (ja) * 2009-03-04 2010-09-16 Nec Corp 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
US8489334B2 (en) 2002-02-04 2013-07-16 Ingenuity Systems, Inc. Drug discovery methods
US8793073B2 (en) 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
JP2016143200A (ja) * 2015-01-30 2016-08-08 富士通株式会社 符号化プログラム、符号化方法および符号化装置

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658624B1 (en) * 1996-09-24 2003-12-02 Ricoh Company, Ltd. Method and system for processing documents controlled by active documents with embedded instructions
US8230323B2 (en) * 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
US7184611B2 (en) * 2000-12-26 2007-02-27 Sony Corporation Data recording apparatus and method, data reproducing apparatus and method, data recording and reproducing apparatus and method, and map image data format
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US6820075B2 (en) * 2001-08-13 2004-11-16 Xerox Corporation Document-centric system with auto-completion
US7284191B2 (en) 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
AU2006201478B2 (en) * 2001-11-09 2009-11-26 QIAGEN Redwood City, Inc. Method and system for performing information extraction and quality control for a knowledge base
DE10157487C1 (de) * 2001-11-23 2003-06-18 Sgl Carbon Ag Faserverstärkter Verbundkörper für Schutzpanzerungen, seine Herstellung und Verwendungen
WO2003073374A2 (en) * 2002-02-27 2003-09-04 Brands Michael Rik Frans A data integration and knowledge management solution
JP2004178490A (ja) * 2002-11-29 2004-06-24 Oki Electric Ind Co Ltd 数値情報検索装置
CN1306430C (zh) * 2002-12-31 2007-03-21 上海科泰世纪科技有限公司 基于构件的用户自定义事件方法
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
EP1677208A1 (en) * 2004-12-30 2006-07-05 Sap Ag Method and system for searching for data objects
US20060149767A1 (en) * 2004-12-30 2006-07-06 Uwe Kindsvogel Searching for data objects
JP4321549B2 (ja) * 2005-09-28 2009-08-26 セイコーエプソン株式会社 文書作成システム、文書作成方法、プログラムおよび記憶媒体
US10026112B2 (en) * 2005-10-18 2018-07-17 Robert D. Fish Systems and methods for storing and retrieving goods and services information using parameter/value databases
JP2007287134A (ja) * 2006-03-20 2007-11-01 Ricoh Co Ltd 情報抽出装置、及び情報抽出方法
US9262503B2 (en) * 2007-01-26 2016-02-16 Information Resources, Inc. Similarity matching of products based on multiple classification schemes
US9390158B2 (en) * 2007-01-26 2016-07-12 Information Resources, Inc. Dimensional compression using an analytic platform
US20080288522A1 (en) * 2007-01-26 2008-11-20 Herbert Dennis Hunt Creating and storing a data field alteration datum using an analytic platform
US20080294372A1 (en) * 2007-01-26 2008-11-27 Herbert Dennis Hunt Projection facility within an analytic platform
WO2008092147A2 (en) * 2007-01-26 2008-07-31 Information Resources, Inc. Analytic platform
US20090006309A1 (en) * 2007-01-26 2009-01-01 Herbert Dennis Hunt Cluster processing of an aggregated dataset
US8504598B2 (en) 2007-01-26 2013-08-06 Information Resources, Inc. Data perturbation of non-unique values
US8160984B2 (en) 2007-01-26 2012-04-17 Symphonyiri Group, Inc. Similarity matching of a competitor's products
US20080294996A1 (en) * 2007-01-31 2008-11-27 Herbert Dennis Hunt Customized retailer portal within an analytic platform
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US20090319505A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Techniques for extracting authorship dates of documents
US8788977B2 (en) 2008-11-20 2014-07-22 Amazon Technologies, Inc. Movement recognition as input mechanism
US8321398B2 (en) * 2009-07-01 2012-11-27 Thomson Reuters (Markets) Llc Method and system for determining relevance of terms in text documents
US8878773B1 (en) 2010-05-24 2014-11-04 Amazon Technologies, Inc. Determining relative motion as input
CN102262630A (zh) * 2010-05-31 2011-11-30 国际商业机器公司 进行扩展化搜索的方法和装置
US9285895B1 (en) 2012-03-28 2016-03-15 Amazon Technologies, Inc. Integrated near field sensor for display devices
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
JP6684233B2 (ja) * 2017-01-12 2020-04-22 株式会社日立製作所 テスト入力情報検索装置及び方法
CN111859876A (zh) * 2019-04-21 2020-10-30 桂林电子科技大学 一种表格自动录入方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373423A (ja) * 1986-09-17 1988-04-04 Matsushita Electric Ind Co Ltd 情報の登録、検索装置
JPH0546670A (ja) * 1991-08-20 1993-02-26 Fuji Xerox Co Ltd 情報検索装置
JPH06266765A (ja) * 1993-03-16 1994-09-22 Toshiba Corp 文章検索装置
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5046670A (ja) * 1973-08-20 1975-04-25
EP0720090A2 (en) * 1994-12-28 1996-07-03 Canon Kabushiki Kaisha Information processing system for completing or resolving ambiguity of input information and method therefor
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
US5999925A (en) * 1997-07-25 1999-12-07 Claritech Corporation Information retrieval based on use of sub-documents
US5953718A (en) * 1997-11-12 1999-09-14 Oracle Corporation Research mode for a knowledge base search and retrieval system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373423A (ja) * 1986-09-17 1988-04-04 Matsushita Electric Ind Co Ltd 情報の登録、検索装置
JPH0546670A (ja) * 1991-08-20 1993-02-26 Fuji Xerox Co Ltd 情報検索装置
JPH06266765A (ja) * 1993-03-16 1994-09-22 Toshiba Corp 文章検索装置
JPH08115327A (ja) * 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 情報検索装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7577683B2 (en) 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US9514408B2 (en) 2000-06-08 2016-12-06 Ingenuity Systems, Inc. Constructing and maintaining a computerized knowledge representation system using fact templates
US8392353B2 (en) 2000-06-08 2013-03-05 Ingenuity Systems Inc. Computerized knowledge representation system with flexible user entry fields
US7650339B2 (en) 2000-06-08 2010-01-19 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
JP2002278988A (ja) * 2001-03-15 2002-09-27 Just Syst Corp 語句列変換装置、検索装置、語句列変換方法、検索方法、ならびに、記録媒体
JP2002288221A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書表示装置、文書表示方法ならびに、プログラム
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
JP2005509952A (ja) * 2001-11-09 2005-04-14 インジェヌイティ システムズ インコーポレイテッド 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム
US8489334B2 (en) 2002-02-04 2013-07-16 Ingenuity Systems, Inc. Drug discovery methods
US10453553B2 (en) 2002-02-04 2019-10-22 QIAGEN Redwood City, Inc. Drug discovery methods
US10006148B2 (en) 2002-02-04 2018-06-26 QIAGEN Redwood City, Inc. Drug discovery methods
US8793073B2 (en) 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
WO2005096182A1 (ja) * 2004-03-31 2005-10-13 Matsushita Electric Industrial Co., Ltd. 情報抽出システム
WO2006006287A1 (ja) * 2004-07-12 2006-01-19 Shinichiro Fujiya ウエブ上の商品・サービスの検索システム
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
JP2006209257A (ja) * 2005-01-25 2006-08-10 Ns Solutions Corp 情報処理装置、情報処理方法及びプログラム
JP2006350989A (ja) * 2005-05-18 2006-12-28 Oki Electric Ind Co Ltd 範囲情報抽出装置、範囲情報抽出方法及び範囲情報抽出プログラム
JP2007058476A (ja) * 2005-08-24 2007-03-08 Hitachi Ltd 省略日付表現からの年月日推定プログラムおよび装置
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム
JP2009176302A (ja) * 2008-01-23 2009-08-06 Palo Alto Research Center Inc 推薦システム用の時間情報および場所情報の言語抽出
JP2009245041A (ja) * 2008-03-31 2009-10-22 Hitachi Ltd 文書評価支援方法及びシステム
JP2010205006A (ja) * 2009-03-04 2010-09-16 Nec Corp 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
JP2016143200A (ja) * 2015-01-30 2016-08-08 富士通株式会社 符号化プログラム、符号化方法および符号化装置

Also Published As

Publication number Publication date
GB2350712B (en) 2003-09-03
WO1999046698A1 (fr) 1999-09-16
GB2350712A (en) 2000-12-06
US6523025B1 (en) 2003-02-18
JP3597370B2 (ja) 2004-12-08
CN1109994C (zh) 2003-05-28
CN1286776A (zh) 2001-03-07
GB0022066D0 (en) 2000-10-25

Similar Documents

Publication Publication Date Title
JP3597370B2 (ja) 文書処理装置および記録媒体
US10204121B1 (en) System and method for providing query recommendations based on search activity of a user base
CN107257970B (zh) 从结构化和非结构化数据源进行的问题回答
US9652799B2 (en) Product recommendation with product review analysis
US9846901B2 (en) Product recommendation with ontology-linked product review
TWI557664B (zh) Product information publishing method and device
JP5721818B2 (ja) 検索におけるモデル情報群の使用
DK177142B1 (da) Fremgangsmåde til præsentation af et datasæt ved brug af søgning, computerlæsbart medium og computer
US20020059220A1 (en) Intelligent computerized search engine
US9558234B1 (en) Automatic metadata identification
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
JP7324058B2 (ja) 文章解析方法、文章解析プログラム、および文章解析システム
CN112560418B (zh) 从自由形式的表格式数据创建行项目信息
JP2004029906A (ja) 文書検索装置および方法
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
CN109213830B (zh) 专业性技术文档的文档检索系统
JP2016197332A (ja) 情報処理システム、情報処理方法、およびコンピュータプログラム
JP5281354B2 (ja) 検索システム
JP5187187B2 (ja) 体験情報検索システム
KR101137056B1 (ko) 자동 상품모델 추천 로직을 이용한 상품 정보 등록 방법 및시스템
JP2002183195A (ja) 概念検索方式
JP2019164557A (ja) 検索システム
JP4146067B2 (ja) 文書検索システムおよび文書検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040423

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040729

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110917

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees