JPH1115838A - 文献検索方法、及びそのシステム - Google Patents

文献検索方法、及びそのシステム

Info

Publication number
JPH1115838A
JPH1115838A JP9165542A JP16554297A JPH1115838A JP H1115838 A JPH1115838 A JP H1115838A JP 9165542 A JP9165542 A JP 9165542A JP 16554297 A JP16554297 A JP 16554297A JP H1115838 A JPH1115838 A JP H1115838A
Authority
JP
Japan
Prior art keywords
sentence
document
search
key
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9165542A
Other languages
English (en)
Inventor
Hirotaka Shibata
裕隆 柴田
Tsuneo Hirota
恒雄 広田
Jun Taruishi
純 垂石
Hidehiko Nakamura
英彦 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP9165542A priority Critical patent/JPH1115838A/ja
Publication of JPH1115838A publication Critical patent/JPH1115838A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 不要な文献の検索を回避しつつ、有用な文献
のみを検索できるようにする。 【解決手段】 処理部4は、解析用辞書部2に格納され
ている各種解析用の辞書等を参照しながら、文献記憶部
3のCD−ROM3aに格納された文献から検索に用い
るキーセンテンスを抽出し、それをキーセンテンス記憶
部5に文献別に記憶させる。その記憶部5に記憶させた
キーセンテンスを、入力部1を介してユーザが入力した
少なくとも一つのセンテンスと照合し、各センテンスの
照合結果に基づいて適合文献を選択する。その検索結果
は出力部6を介してユーザに通知する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多くの文献のなか
からユーザが所望する内容が記述されている適合文献を
検索するための技術に関する。
【0002】
【従来の技術】今日では、情報化社会を迎えたこともあ
って、情報の重要性が非常に高まっている。様々な活動
を行うためには、適切な情報を入手し、それを効果的、
且つ効率的に活用しなければならなくなっている。
【0003】例えば、技術文献は、技術動向調査や研究
開発期間の短縮化といった観点から必須の情報である。
しかし、特許文献(公開公報や公告公報)が日本国内だ
けでも年間に50〜60万件が発行されていることから
も明らかなように、技術文献の量は非常に膨大である。
その特許文献は、最新の技術情報が開示されているとい
う以外に、大型化・多発化する特許係争事件を未然に防
止するという意味からも非常に重要な情報である。その
ため、膨大な情報のなかから重要な情報を選択する情報
(文献)検索の重要性も非常に高まってきている。
【0004】
【発明が解決しようとする課題】従来の文献検索は、各
文献からキーワード(自由キーワードを含む)を抽出し
ておき、ユーザが入力した索引語(検索語)に一致する
キーワードを抽出した文献を検索結果(適合文献)とし
て選択することを基本としていた。しかし、キーワード
(索引語)は、ある概念を間接的に表現するものであ
り、概念とキーワード(索引語)の対応関係は通常は多
対多である。キーワード(索引語)から概念を特定する
ことは普通はできない。このため、ユーザは必要とする
有用な適合文献を容易に得ることができなかった。
【0005】上記のような検索方法では、索引語を少な
くしたり、それを一般的な単語とすると、必要な文献
(適合文献)を検索することができるようになるが、必
要としない文献も多く検索される。反対に、索引語を多
くしたり、それを特殊な単語とすると、検索される文献
数を抑えられるようになるが、必要な文献が検索もれす
るようになる。何れにしても、再現率と精度は逆の関係
にあり、それらを共に上げることはできず、有用な文献
を容易に得ることはできない。
【0006】前者の再現率が高く精度が低い場合、有用
な文献の検索もれは回避されるが、ユーザは検索された
文献のなかから必要な文献を選別するために多大な労力
を費やさなければならないという問題点が発生する。反
対に、後者の再現率が低く精度が高い場合には、文献の
選別作業に費やす労力は低減されるが、有用な文献の検
索もれが発生し、適切な活動が行えなくなるという問題
点が発生する。膨大な情報量を扱うようになった今日で
は、検索結果の量を抑えることを重視しがちであり、後
者がかかえる問題点を発生させる傾向となっている。
【0007】本発明の課題は、不要な文献の検索を回避
しつつ、有用な文献のみを検索できるようにすることに
ある。
【0008】
【課題を解決するための手段】本発明の文献検索方法
は、予め定めた規則に従って文献毎にキーセンテンスを
抽出し、該抽出したキーセンテンスをユーザが入力した
検索用センテンスと照合し、該検索用センテンスと一
致、或いは類似すると照合されたキーセンテンスを抽出
した文献を適合文献として選択する。
【0009】上記の方法において、キーセンテンスは、
規則に従い、文献中の記載から重要語を特定し、該特定
した重要語を含むセンテンスを文献中から取り出し、該
取り出したセンテンス、及びその周辺のセンテンスを対
象とした文脈解析を含む文章解析を行い、該解析結果に
基づいて、取り出したセンテンスを整理することで抽出
する、ことが望ましい。
【0010】また、キーセンテンスは、予め定められた
複数のカテゴリに沿って抽出し、検索用センテンスは、
複数のカテゴリに応じてユーザに少なくとも一つを入力
させ、検索用センテンスとキーセンテンスの照合は、カ
テゴリ別に行い、適合文献の選択は、複数のカテゴリの
それぞれにおける照合結果に基づいて行う、ことが望ま
しい。その複数のカテゴリとしては、文献が特許文献で
あった場合に、発明或いは考案の分野、対象機器、該発
明或いは考案の対象部分、課題、該課題に対する解決手
段、該発明或いは考案の効果のなかの少なくとも一つを
含む、ことが望ましい。
【0011】また、キーセンテンス、及び検索用センテ
ンスは、少なくとも1つの単語、或いは語句から構成さ
れた何らかの意味を表現する文字列であることが望まし
く、検索用センテンスのキーセンテンスとの照合は、そ
れらを意味表現に変換して行うことが望ましい。また、
検索用センテンスとキーセンテンスの照合は、それらを
構成する単語、或いは語句を、同レベルの概念のなかで
予め選択した表現、或いは上位概念のなかで予め選択し
た表現に置き換えて行う、ことが望ましい。
【0012】本発明の文献検索システムは、予め定めた
規則に従って文献毎にキーセンテンスを抽出する抽出手
段と、ユーザが検索用センテンスを入力するための入力
手段と、抽出手段が抽出したキーセンテンスを、入力手
段により入力された検索用センテンスと照合する照合手
段と、照合手段が検索用センテンスと一致、或いは類似
すると照合したキーセンテンスを抽出した文献を適合文
献として選択する選択手段と、を具備する。
【0013】上記の構成において、抽出手段は、規則に
従い、文献中の記載から重要語を特定し、該特定した重
要語を含むセンテンスを文献中から取り出し、該取り出
したセンテンス、及びその周辺のセンテンスを対象とし
た文脈解析を含む文章解析を行い、該解析結果に基づい
て、取り出したセンテンスを整理することでキーセンテ
ンスを抽出する、ことが望ましい。
【0014】また、抽出手段は、キーセンテンスを、予
め定められた複数のカテゴリに沿って抽出し、照合手段
は、入力手段により各カテゴリに応じてユーザが入力し
た少なくとも一つの検索用センテンスを抽出手段が抽出
したキーセンテンスと照合し、選択手段は、検索用セン
テンス毎の照合結果に基づいて適合文献を選択する、こ
とが望ましい。その複数のカテゴリとしては、文献が特
許文献であった場合に、発明或いは考案の分野、対象機
器、該発明或いは考案の対象部分、課題、該課題に対す
る解決手段、該発明或いは考案の効果のなかの少なくと
も一つを含む、ことが望ましい。
【0015】また、上記の構成に加えて、抽出手段によ
るキーセンテンスの抽出結果を通知する通知手段を、更
に具備することが望ましい。更には、抽出手段が抽出し
たキーセンテンスを変更するための変更手段を、具備す
ることが望ましい。
【0016】また、上記キーセンテンス、及び検索用セ
ンテンスは、少なくとも1つの単語、或いは語句から構
成された何らかの意味を表現する文字列である、ことが
望ましく、検索用センテンスのキーセンテンスとの照合
は、それらのセンテンスを意味構造に変換して行う、こ
とが望ましい。また、検索用センテンスとキーセンテン
スの照合は、それらを構成する単語、或いは語句を、同
レベルの概念のなかで予め選択した表現、或いは上位概
念のなかで予め選択した表現に置き換えて行う、ことが
望ましい。
【0017】また、上記の構成に更に加えて、検索用セ
ンテンス及びキーセンテンスを構成する単語、或いは語
句を置き換える概念上のレベルを指定するための指定手
段を、具備することが望ましい。
【0018】本発明の記憶媒体は、予め定めた規則に従
って文献毎にキーセンテンスを抽出する機能と、ユーザ
が入力した検索用センテンスを取得する機能と、抽出す
る機能によって抽出されたキーセンテンスを、取得する
機能によって取得された検索用センテンスと照合する機
能と、該照合する機能によって検索用センテンスと一
致、或いは類似すると照合されたキーセンテンスが抽出
された文献を適合文献として選択する機能と、を備えた
プログラムを記録している。
【0019】本発明の文献検索方法、及びそのシステム
では、各文献からキーセンテンスを抽出し、そのキーセ
ンテンスをユーザが入力した検索用センテンスと照合す
ることにより、適合文献を選択する。センテンスには、
語句だけでなく、それらの間の修飾関係も示されてお
り、単なる語句の羅列と比較して情報量が大きい。その
センテンスを用いた検索を行うことで、ノイズの大幅な
除去とともに、検索もれの大幅な低減が可能となる。即
ち再現率を高く維持させたままで精度も高くすることが
可能となる。
【0020】検索用センテンスのキーセンテンスとの照
合は、それらのセンテンスを意味構造に変換して行う。
同義文はその深層構造(意味構成)レベルの構造)が全
て同じ、或いは非常に類似した形になる性質がある。そ
のようなことから、構文的な構造の違いが照合(検索)
に影響するのが回避される。
【0021】センテンスを構成する語句は、キーセンテ
ンス、検索用センテンス共にそれを同レベルの概念のな
かで予め選択した表現、或いは上位概念のなかで予め選
択した表現に置き換えて照合を行う。それにより、同義
語、類似語を一つの表現に統一した形での照合が可能と
なる。
【0022】キーセンテンスを様々な視点(カテゴリ)
から抽出し、ユーザには任意の視点で作成した検索用セ
ンテンスだけを入力させる。それにより、入力する検索
用センテンスの数やそれらの組合せにより適合文献とし
て検索される範囲の調整が可能となって、検索を行うう
えでの選択肢が増え、利便性は向上される。
【0023】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態につき詳細に説明する。図1は、本実施
の形態が適用されたシステムの構成図である。なお、図
1に示すシステムは、例えばコンピュータを用いて特許
文献検索用に構築されたものである。
【0024】入力部1は、ユーザ(索引作業者または利
用者)が各種のコマンドや文字等を入力するためのもの
である。具体的には、キーボードやポインティングデバ
イス、或いは通信手段によって接続された端末(パーソ
ナルコンピュータ等を含む)である。
【0025】解析用辞書部2は、ユーザが参照するシソ
ーラス(索引語として登録されたディスクリプタ、その
同義語・準同義語である非ディスクリプタ、上位語、下
位語、関連語、語間の関係の種類を示す記号、見出し語
の意味範囲や使い方を示すスコープ・ノートなどから構
成された検索語彙集)や、自立語辞書、付属語辞書、同
義語辞書、上位語辞書、構文規則、各種テーブル等の文
章解析用の各種辞書類を格納したものである。コンピュ
ータシステムにおいては、例えば主記憶装置、或いは/
及び、補助記憶装置が対応する。
【0026】シソーラスは、ユーザが索引作業で参照す
る辞書であり、上記同義語辞書や上位語辞書等の辞書類
は、システム側が参照する辞書である。それら辞書類
は、当然のことながら、シソーラスとの間に概念や階層
関係等の矛盾がないように作成したものである。
【0027】文献記憶部3は、検索対象とする文献を記
憶したものである。検索対象としている特許文献(特許
及び実用新案の公開公報や公告公報)は、近年はCD−
ROMの形で発行されている。そのため、本実施の形態
では、特許文献が記憶されているCD−ROM3aを記
憶媒体として採用し、文献記憶部3をCD−ROM装置
としている。そのCD−ROM装置は、複数のCD−R
OM3aに自動的にアクセスできるように、CD−RO
Mオートチェンジャが搭載されていることが望ましい。
【0028】なお、文献記憶部3としては、CD−RO
M装置の他に、大容量の磁気ディスク、或いはMT(磁
気テープ)といった記憶媒体を採用した記憶装置であっ
ても良い。
【0029】処理部4は、解析用辞書部2に格納されて
いる各種の辞書を参照しながら、CD−ROM3aに格
納された特許文献から検索に用いるセンテンス(キーセ
ンテンス)をそれぞれ抽出し、そのキーセンテンスを、
入力部1から入力された検索用のセンテンスと照合する
ことで検索を行う。コンピュータシステムにおいては、
例えばCPU、主記憶装置、補助記憶装置等が対応す
る。
【0030】キーセンテンス記憶部5は、処理部4が各
文献毎に抽出したキーセンテンスを記憶する。コンピュ
ータシステムにおいては、例えば主記憶装置、或いは/
及び、補助記憶装置が対応する。
【0031】出力部6は、例えば表示装置であり、ユー
ザが入力した内容や現在の状態、更には検索結果等を、
処理部4の制御に従って出力する。次に、上記のシステ
ムで処理部4によって実現される本実施の形態による文
献検索について詳細に説明する。
【0032】上記したように、本実施の形態では、各文
献毎にキーセンテンスを抽出し、該抽出したキーセンテ
ンスを、ユーザが入力したセンテンスと照合することに
より検索を行っている。そのため、このような文献検索
を行ううえで重要なキーセンテンスの抽出方法、照合方
法の2つについて、各方法毎に詳細に説明する。なお、
ここでのキーセンテンスを含むセンテンスとは、何らか
の意味を表現する少なくとも1つの単語、或いは語句か
ら構成される文字列のことである。 ・キーセンテンスの抽出方法 先ず、キーセンテンスの抽出方法の概要について説明す
る。
【0033】キーセンテンスの抽出は、各特許文献毎に
重要語を特定し、その特定した重要語を基に行うのを基
本としている。普通、文献に記載されている内容は、そ
の先頭部分の記載からおおよそ推定することができる。
そのため、重要語の特定は、例えばタイトルを構成する
語句、更にはタイトルに続く文章を必要に応じて参照す
ることにより、重要語となりうる範囲を限定して、文を
主題化する助詞及び複合辞(“は”、“には”、“と
は”など)の直前の漢字、カタカナ文字で構成される2
文字以上の語句のなかで実際に出現したその範囲内の語
句を重要語とすることで行っている。
【0034】その特許文献のタイトルには、発明(混乱
を避けるために、実用新案であってもこの表現に統一す
る)が対象とする範囲を必要以上に限定するのを回避す
るために、通常は使われないような表現や造語的な表現
(それは普通明細書中で定義される)が採用されること
も多い。このため、重要語となりうる範囲は、例えば特
許文献に付けられるタイトル(或いはそれに用いられて
いる語句)と、そのタイトルから重要語になりうると予
想される語句の範囲との関係を対応付ける情報を用意す
ることで行っている。その情報は、例えば発明の対象と
なる技術分野別にまとめた重要語となりうる用語群と、
各技術分野に割り当てるべきタイトル(それを構成する
語句)とを対応付けるテーブル(以降、これを重要語テ
ーブルと呼ぶ)として用意したものである。タイトルを
構成する語句が最も多く持つ技術分野が、文献の技術分
野であると特定している。
【0035】なお、本実施の形態では、タイトルから技
術分野を特定できない場合、タイトルに続く項目の「産
業上の利用分野」、更には「従来の技術」の項目の記載
を参照し、その記載のなかで、文を主題化する助詞及び
複合辞の直前の漢字、カタカナ文字で構成される2文字
以上の語句のなかで出現頻度の高い語句、或いはそれに
ついての記載量が比較的に多い語句を、文献の技術分野
を最も表す語句と見なしてそれを特定している。
【0036】上記のようにして重要語を確定した後、そ
の重要語が含まれたセンテンスを先頭から順次取り出
す。そうして取り出したセンテンスのなかには、例えば
ある事柄についての説明を2つ以上のセンテンスに分け
ているといったように、文脈の関係から文として意味が
完結していないものがあると予想される。また、記載量
が大きい場合には、非常に多くのセンテンスが取り出さ
れることも考えられる。更には、それが取り出された文
献特有の語句があって、意味は完結していても(意味的
に間違っているとはいえないとしても)それだけでは意
味が実際には理解できないようなセンテンスが取り出さ
れることも予想される。そのため、例えば以下のように
して取り出したセンテンスを整理する。
【0037】取り出したセンテンス、及びその周辺(少
なくとも、それの直前、更にはその直後)のセンテンス
を対象にして文脈解析を含む文章解析を行い、取り出し
たセンテンス中に指示詞や接続詞が存在していた場合に
は、解析結果を基にした単語の置き換え等の操作を行
い、あいまい性を解消させて意味が完結したセンテンス
に整形する。連続するセンテンスで主語に相当するもの
が共通であったような場合には、文章解析によって得ら
れるそれらのセンテンスの意味構造から、センテンス間
の説明の繋がりを判断し、その判断結果に応じてセンテ
ンスを合成する操作を行う。具体的には、例えば「CP
Uはメモリにデータを出力する」、「そのメモリはCP
Uから入力したデータを格納する」という2つのセンテ
ンスがあったとすると、それら2つのセンテンスを合成
して、「CPUはメモリにデータを出力して格納させ
る」といった1つのセンテンスを新たに生成する。この
ようなセンテンスの合成(生成)を行うことにより、セ
ンテンス毎の意味的な情報量の変動を抑えることができ
る。
【0038】上記のように、センテンスの意味的な面か
らの整形を行う一方では、図や表等を説明している文節
は削除し、それを削除して意味が完結しなくなるセンテ
ンスはそれ自体も削除する。そのような操作を行った後
は、センテンス間の比較を行い、意味的に一致、或いは
ある程度類似しているセンテンスが複数あった場合に
は、それらの中から一つだけを残して他は削除する。こ
れらを行うことにより、取り出したセンテンスのなかか
ら必要と考えられるものだけを残す。
【0039】このようにして残ったセンテンス(キーセ
ンテンス)に対しては、設定内容やそのセンテンスの構
造に応じて、語句を同レベルの概念の予め選択しておい
た優先使用語(例えばシソーラスにおける統制語)、或
いはそれの上位概念の優先使用語に置き換える。その
後、それの文章解析(文脈解析を含む)結果として得ら
れる意味構造を予め定めた意味表現形式、例えば概念依
存表現形式で保存する。概念依存表現形式を採用したの
は、特許文献には動作を独特の言い回しや表現で記述す
ることが多いためである。
【0040】上記語句の置き換えは、例えば以下のよう
にして行っている。本実施の形態では、キーセンテンス
中の語句を置き換える概念上のレベルを指定(設定)で
きるようにしている。より具体的には、そのレベルを上
位概念とするか、同じレベルとするかを指定できるよう
にしている。それにより、その設定内容に応じて語句の
置き換えを行うようにしている。
【0041】多くのセンテンスでは、単にその設定内容
に応じた語句(ここでは、表現を置き換える単位として
用いる)の置き換えが行えると予想される。しかし、セ
ンテンスを構成する語句によっては、単純に語句の置き
換えが行えないことも考えられる。例えば概念のレベル
が同じで異なる用語が複数存在するといったような場合
もある。一例を挙げれば、給紙カセットから取り出され
た記録紙は最終的には排紙トレイに搬送される、といっ
たような文章である。
【0042】そのような文章では、単に語句を置き換え
ると、意味がおかしくなるという不具合が発生する。そ
のため、本実施の形態では、例えば置き換え後の表現に
それらが異なることを表す用語を付加させている。例え
ば給紙カセットと排紙トレイの同一レベル上の優先使用
語が記録用媒体収納部であれば、給紙カセットは第1記
録用媒体収納部、排紙トレイは第2記録用媒体収納部と
いったように、第1や第2を付加してそれらが同一レベ
ルの概念の用語であっても異なることを表現する。それ
により、上記不具合を回避することができる。なお、当
然のことながら、必要に応じて付加する用語としては、
例えば単に数字といったそれ以外のものであっても良
い。
【0043】上位概念は、それよりも下位の概念を包括
している。これは、検索において、上位概念の表現(上
位概念語)を用いる程、検索範囲が広がることを意味す
る。そのため、語句を置き換えるレベルの変更により、
例えば置き換えのレベルが同一では適合文献が少なけれ
ばそのレベルを上位に変更して適合文献を多くするとい
ったことができるようになる。そのようにして、適合文
献とする範囲(レベル)を調整することができ、検索に
おける利便性を向上させることができる。
【0044】センテンスは、構文的に異なった構造であ
っても同じ概念を表現することができる。同義文が多く
存在することが多い。単語レベルでは、表現は異なって
も実際には同じ、或いはほとんど同じ意味を持つ同義語
や類似語が多数存在することもある。しかし、同義語辞
書、或いは/及び、上位語辞書を参照して語句を統制さ
せた語句(例えばシソーラスにおけるディスクリプタ)
に置き換えることで、単語レベルでの意味的に大差がな
い表現の違いが検索に影響するのを回避することができ
る。センテンスを意味表現に変換することで、意味的に
あまり差が生じない構文的な構造の違いが検索に影響す
るのを回避することができる。これにより、センテンス
がもつ実際の意味を対象とした検索(照合)が行えるよ
うにしている。
【0045】センテンスの整理方法としては、上記以外
に、照合にかかる時間の短縮、及びその照合をより適切
に行えるようにするといった意味から、センテンスの冗
長性の低減のために必要性が低いと考えられる語句を削
除している。それは、例えば単語の修飾関係から名詞を
修飾する語句を削除したり、重要語、予め定義した重要
度判定規則(例えば、“によって”、“により”、“に
よると”、“として”、“にとって”といった語の直前
の単語はそれを含む文にとって重要性が高いとする規
則)、更には修飾関係等を基に、センテンスに存在する
名詞を重みづけし、比較的に重要でない名詞、及びそれ
を修飾する語句を削除していくことで行うことができ
る。
【0046】なお、センテンスの残し方としては、例え
ばXX(物を表す語句)がYY(例えば動作内容を表す
語句)する、といったようなセンテンスとして残すべき
構文構造(文型パターン)を予め定義しておき、その構
文構造に一致、或いは類似しているセンテンスを残すよ
うにしても良い。また、センテンスの抽出としては、穴
のあいた構文構造(文型パターン)を予め用意してお
き、その穴に文章から抽出した該当する単語、或いは語
句を埋める文合成法により行っても良い。
【0047】ところで、一般に、情報要求者が必要とす
る情報を得るためには、情報要求を適切に把握しなけれ
ばならない。その情報要求を適切に把握するためには、
情報要求の主題的側面だけでなく、それを生み出した背
景(検索の目的や意義、研究段階、検索対象の範囲およ
びそれの特徴等)や、要求者の個人的特性(経歴や職
業、地位、持っている知識の種類や深さ)などまで考慮
して検討しなければならない。このことは、必要な情報
を得ようとするアプローチは視点によって様々であるこ
とを意味する。このため、本実施の形態では、様々な視
点から検索できるように、複数の視点(以降、その視点
をカテゴリと呼ぶ)でセンテンスを取り出すようにして
いる。具体的には、特許文献は項目分けして文章が記載
されていることもあって、分野、対象機器、発明対象部
分、発明の取り組む課題、解決手段、発明の効果の6つ
のカテゴリを設定し、各カテゴリ別にセンテンスを抽出
している。各カテゴリのセンテンスは、例えば以下のよ
うにして抽出している。ここでは、一般的な特許文献の
構成を前提として説明する。
【0048】分野のセンテンスは、「発明が属する技術
分野」の項目中の記載から抽出する。そのセンテンス
は、例えばその記載から冗長性を低減させる語句や実質
的に不要と考えられる語句の削除を行って整理する。そ
れにより、例えばAA(動作や装置等を表現する語句)
する(用いられる)BB(装置や方法等の名称)に関す
る、といったセンテンスを抽出する。
【0049】文献は、そこに述べられている内容を読者
が容易に理解できるようにするために、全体からその細
部にといった流れで記載されているのが普通である。そ
の細部がどこであるかは、特許文献では「発明が解決し
ようとする課題」の項目まで読めば理解できるようにな
っている。そのため、対象機器、及び発明対象部分で
は、例えば上記重要語テーブルを参照しつつ、「発明が
解決しようとする課題」の項目までに出現した重要語と
なりうる語句の概念の上下関係を基に、それらのカテゴ
リにおける重要語を各々特定してセンテンスを抽出す
る。より具体的には、例えば概念的に上下関係にある重
要語となりうる語句が意味的に2つ以上出現したセンテ
ンスを取り出し、そのセンテンスを解析してそれらの重
要語を特定する。これは、例えばコンピュータに搭載さ
れたCPUは・・・・する、といったように、ある機器
を構成するある部分が発明対象部分であった場合、その
機器を示す名称とその部分の名称が1つの文に出現する
確率が高いと考えられるためである。
【0050】発明の取り組む課題では、「発明が解決し
ようとする課題」の項目からセンテンスを抽出する。発
明の課題(目的)は、例えば「本発明は、・・・・する
ことを目的とする」といったように、ある程度決まった
パターンで記載されることが殆どである。そのため、こ
のカテゴリでは、例えば発明(センテンスに必ずしも含
まれていなくとも良い)と、予め設定した重要語となり
うるその他の語句(課題、目的など)を含むセンテンス
を抽出する。その予め設定した重要語は、例えばカテゴ
リ別に重要語となりうる用語をまとめたテーブル(以
降、便宜的にカテゴリ別重要語テーブルと呼ぶ)として
解析用辞書部2に格納したものである。
【0051】そのようにしてセンテンスを抽出した後
は、抽出したセンテンスの整理を行う。より具体的に
は、例えばそのセンテンスの先頭部分(例えば“本発明
は”といったような語句)の必要性は低いと考えられる
ことから、その先頭部分の語句は削除するようにしてい
る。
【0052】なお、この発明の取り組む課題において
は、抽出すべきセンテンスの文型パターンの大部分を特
定できることから、予め用意した穴あきの文型パターン
の穴に必要な語句を抽出して埋めるようにしても良い。
【0053】解決手段では、「課題を解決するための手
段」の項目からセンテンスを抽出する。このときには、
例えば文を主題化する助詞及び複合辞の直前の漢字、カ
タカナ文字で構成される2文字以上の語句を含むセンテ
ンスを抽出する。例えば手段は、何らかの動作、或いは
機能を備えている。そのことに着目して、例えばXXが
YYする、といった手段を説明する文の構文構造(部分
的な文型パターン)を幾つか辞書として用意し、抽出し
たセンテンスのなかから、その構文構造に一致、或いは
類似しているセンテンスだけを残しても良い。
【0054】発明の効果では、「発明の実施の形態」、
及び「発明の効果」の項目からセンテンスを抽出する。
効果の記載には、例えば(コスト)ダウン、低減、向
上、回避などといった特有の用語が用いられることが多
い。そのため、それらの用語は、上記カテゴリ別重要語
テーブルに、発明の効果のカテゴリにおける重要語とし
てまとめている。また、効果を記載する場合、普通は、
その文のなかに、或いは少なくともその周辺(多くは前
後)にその理由も記載される。そのため、センテンスの
抽出は、例えばカテゴリ別重要語テーブルを参照して行
い、抽出したセンテンスのなかから、その理由が記載さ
れていないものを削除している。
【0055】このようにして、各文献毎に、6つのカテ
ゴリ別にセンテンスが抽出される。その抽出されたセン
テンスは、上記のように整理され、その整理によって選
別されたセンテンスだけがキーセンテンスとして意味表
現のデータ形式でキーセンテンス記憶部5に記憶され
る。図2は、そのキーセンテンス記憶部5のデータ構成
図である。図2に示すように、抽出されたキーセンテン
スはカテゴリ毎、文献毎に分けて保存される。 ・キーセンテンスの照合方法 適合文献を検索するためのセンテンスは、ユーザが任意
に入力するようにしている。キーセンテンスは、同義文
の関係にあるセンテンスは一致していると照合できるよ
うに、意味表現の形で保存している。そのため、ユーザ
が入力したセンテンスは、意味解析(当然のことなが
ら、形態素解析、構文解析を含む)を行い、それを意味
表現に変換し、その変換後のセンテンスを用いてキーセ
ンテンスと照合する。なお、その変換後のセンテンス
は、以降、入力されたセンテンスと区別するために索引
文と呼ぶことにする。
【0056】ユーザが入力したセンテンスとキーセンテ
ンスとでは、それに含まれる語数や情報量に違いがある
のが普通であると考えられる。そのため、何れか一方の
センテンスの意味が、他方のセンテンスの意味に含まれ
ている場合には、それらは一致、或いは類似していると
判定する。具体的には、例えばXX(物を表す語句)が
YY(ある動作内容を表す語句)し、ZZ(YYとは異
なる動作内容を表す語句)する、といったキーセンテン
スを抽出していた場合、XXがYYする、XXがZZす
るという2つのセンテンスのうちの何れかをユーザが入
力すれば、それらは一致すると判定する。より具体的に
は、例えば「太郎が走って学校に行った」というキーセ
ンテンスに対して、「太郎が(は)走った」、或いは
「太郎は学校に行った」というセンテンスは共に少なく
とも類似していると判定する。
【0057】なお、センテンスの語数が比較的に多い場
合にも柔軟に対処できるように、センテンスを構成する
語句の重みづけを行って、一致する語句の重みから一致
するか否か判定するようにしても良い。そのようにした
場合、上記の例では後者のほうが前者よりも類似してい
ると判定することができるようになる。そのときには、
センテンス間(キーセンテンスとユーザが入力したセン
テンス)の語数の違いに対処できるように、一致する語
句の割合も考慮することが望ましい。
【0058】ユーザが入力したセンテンスとキーセンテ
ンスとは、上記のようにして照合を行う。キーセンテン
スは、上記したように、6つのカテゴリで抽出してい
る。そのため、全体的な照合結果、即ち適合文献は、各
カテゴリ別のキーセンテンスとの照合結果を基にして、
例えば以下のように求めている。
【0059】6つのカテゴリに対してそれぞれセンテン
スを入力させるようにしても良いが、それはユーザにと
って大きな負担になるとも考えられる。そのため、ユー
ザは、それらのカテゴリのなかから少なくとも1つ以上
センテンスを入力すれば良いことにしている。ユーザが
入力したセンテンスをカテゴリ別に各々キーセンテンス
と照合した結果からセンテンスが一致する全体的な割合
を求め、その割合が予め定めた値以上であった場合に、
そのキーセンテンスを抽出した文献を適合文献として選
択している。
【0060】なお、適合文献として選択する基準は、ユ
ーザが入力するセンテンスの数は任意であることから、
その数、センテンスを入力したカテゴリ等に応じて変化
させることが望ましい。
【0061】センテンスは、語句と語句間の繋がりやか
かり具合といった修飾関係を表している。1つのセンテ
ンスは、そのセンテンスに出現する語句を全て索引語と
する場合と比較して、非常に多くの情報が含まれてい
る。そのため、センテンスを用いて検索を行うことで、
ノイズを大幅に除去しつつ、適合文献を検索する精度を
向上させることができる。それにより、ユーザは、適合
文献を小さな労力で入手でき、また、より適切な活動が
行えるようになる。
【0062】また、複数のカテゴリでキーセンテンスを
抽出することで、ユーザは入力するセンテンスの数の増
減、即ち検索における情報量の増減によって適合文献の
範囲の広さを調節することが容易にできるようになる。
また、センテンスの組合せを工夫することで、検索にお
いて重要視するポイントを絞りこむことができ、それに
よって適合文献の範囲も絞り込むことができる。これら
のようなことから、適合文献の範囲を細かく制御するこ
とができ、検索における利便性も向上する。
【0063】なお、どのカテゴリのセンテンスを任意に
入力できるようにした場合には、入力されたセンテンス
を各カテゴリのキーセンテンスと全て照合するようにし
ても良いが、照合に要する時間を短縮し、適合文献とす
る基準の設定の容易性といった面から言えば、入力した
センテンスがどのカテゴリのものであるかをユーザに指
定させるほうが望ましい。また、キーワード検索と同じ
ように、演算子を用いてセンテンス間の関わりを指定で
きるようにすることが望ましい。
【0064】次に、上記したキーセンテンスの抽出、照
合を行う処理部4の動作について、図3〜図7に示す各
種のフローチャートを参照して詳細に説明する。図3
は、キーセンテンス取得処理のフローチャートである。
この処理は、文献記憶部3(CD−ROM3a)に格納
されている文献からキーセンテンスを抽出してキーセン
テンス記憶部5に記憶させる処理である。例えば入力部
1に対する所定の操作を行うことで起動・実行される。
CD−ROM3aに記憶された文献は、例えばその公報
の種類(特許か否か、公開公報か否かといった違いから
分類される)別に、その番号の小さいうから順にシーケ
ンシャルに処理する。
【0065】先ず、ステップS1では、キーセンテンス
抽出の対象となる文献が有るか否か判定する。CD−R
OM3aに未処理の文献が存在していた場合、その判定
はYESとなってステップS2に移行する。そうでない
場合には、即ちCD−ROM3aに、直前に処理が終了
した文献よりも番号の大きい文献がなく、また処理して
いない文献の種類もない場合には、その判定はNOとな
って一連の処理を終了する。
【0066】ステップS2では、次に処理対象とすべき
文献を文献記憶部3から取り込む。続くステップS3で
は、キーセンテンスを文献から抽出する文章解析処理を
行う。その文章解析により、上記したようにしてセンテ
ンスがカテゴリ毎に抽出され、抽出されたセンテンスの
整理が行われる。その結果、保存すべきキーセンテンス
が確定する。
【0067】ステップS3に続くステップ4では、各カ
テゴリ毎に、整理後のセンテンスを意味表現に変換し、
また、設定内容、及びセンテンスの意味構造に基づく語
句の置き換えを行う。ステップS3で文章解析処理を行
った結果、保存させるべきセンテンスが残らないカテゴ
リが出てくることも考えられる。そのような場合、ステ
ップ4では、そのカテゴリに抽出エラーが発生したとし
て、そのカテゴリで抽出したセンテンスのなかから重要
語をキーワードとして抽出する。そのようにして保存さ
せるキーセンテンスの作成に関わる処理を終了した後
は、ステップS5に移行して、キーセンテンス記憶部5
に文献別にキーセンテンスを記憶させる(図2参照)。
抽出エラーが発生したカテゴリにおいては、そのカテゴ
リで抽出したセンテンス、及びそのセンテンスから抽出
したキーワードを記憶させる。その後、ステップS1に
戻って以降の処理を同様に行う。
【0068】このように、キーセンテンス取得処理を処
理部4が実行することにより、各文献毎に抽出されたキ
ーセンテンスがキーセンテンス記憶部5に文献別に記憶
されて用意される。なお、そのキーセンテンス取得処理
は、負荷が非常に重いことから、図1に示すシステムを
人が使用しない時間帯を利用して実行させることが望ま
しい。図4は、図3のステップS3として実行される文
章解析処理のフローチャートである。次に、この図3を
参照して、その処理について詳細に説明する。
【0069】先ず、ステップS11では、現在処理対象
としている文献の先頭部分の記載の取り出しを行う。具
体的には発明の名称(タイトル)、「産業上の利用分
野」、更には「従来の技術」の各項目の文章を取り出
す。その後、ステップS12に移行する。
【0070】ステップS12では、その取り出した文章
の記載に基づき、それを取り出した文献において重要語
となりうる重要語の範囲を特定する。その特定は、上記
したように、重要語テーブル(技術分野別に重要語をま
とめたテーブル)を参照し、そのテーブルのなかでタイ
トルを構成する語句を最も多く持つ技術分野を特定する
ことで行う。その語句から特定できなかった場合に、
「産業上の利用分野」、「従来の技術」の記載を参照
し、文を主題化する助詞及び複合辞の直前の漢字、カタ
カナ文字で構成される2文字以上の語句のなかで出現頻
度の高い語句、或いはそれについての記載量が比較的に
多い語句を最も多く含む技術分野を特定することで行
う。そのようにして、文献の記載から重要語の範囲を特
定した後は、ステップS13に移行する。
【0071】ステップS13では、ステップS12で特
定した重要語、或いは予め設定した重要語(カテゴリ別
重要語テーブルに格納されている)を含むセンテンスと
その周辺のセンテンスをカテゴリ別に取り出す。それに
より、余分な範囲の文章の解析を行うのが回避され、解
析に要する時間が短縮されることになる。その後は、ス
テップS14に移行する。
【0072】ステップS14では、カテゴリ別に取り出
したセンテンスを対象に文章解析、即ち形態素解析、構
文解析、意味解析、更には文脈解析を行い、そのセンテ
ンスの句構造、依存構造、意味構造等を抽出する。
【0073】ステップS14に続くステップS15で
は、それら抽出した構造を基に、不要、或いは重要性の
低い語句や文節の削除、選別といったセンテンスの整理
を行う。そのような整理を行うことにより、キーセンテ
ンスが確定する。こうしてキーセンテンスを確定させた
後に一連の処理が終了し、その後は図3のステップS4
の処理に移行することになる。
【0074】キーセンテンスを自動抽出する場合には、
抽出エラーが少なからず発生することが予想される。余
り必要とは考えられないセンテンスを抽出することもあ
り得る。このことから、本実施の形態では、上記のよう
にしてキーセンテンス記憶部5に保存されたキーセンテ
ンスを、ユーザが必要に応じて確認、及び変更できるよ
うにしている。それにより、ユーザはより効率的な検索
作業を行えるようになる。
【0075】図5は、その確認、及び変更を実現させる
キーセンテンス表示処理のフローチャートである。この
キーセンテンス表示処理は、ユーザが入力部1に対して
所定の操作を行うことで処理部4が実行する処理であ
る。次に、この図5を参照して、その処理について詳細
に説明する。
【0076】なお、入力部1に対する所定の操作とは、
例えば出力部6に表示されているメニュー画面(入力部
1が端末であった場合にはメニュー画面は入力部1に表
示される)において、該当するメニュー項目をクリック
することである。キーセンテンスは、文献、カテゴリの
順序で階層的に指定していくことで表示や変更が行える
ようになっている。
【0077】そのメニュー項目がクリックされると、先
ず、ステップS21を実行する。そのステップS21で
は、キーセンテンス記憶部5にアクセスして、そこにキ
ーセンテンスが保存(記憶)されている文献の範囲、及
び抽出エラーが発生した文献名を出力部6に表示させ
る。それらを表示させている画面は、キーセンテンスを
表示させる文献を指定するための画面(以降、便宜的に
文献選択画面と呼ぶ)である。それらを表示させた後
は、何らかの操作が行われるまでステップS21、S2
2の処理ループを繰り返し実行する。
【0078】文献選択画面が表示されている状態におい
て、ユーザがこのメニューの終了を指示する操作、例え
ば終了ボタンのクリック操作を行った場合、ステップS
22では終了操作が行われたと判定して、ここで一連の
処理を終了する。ユーザが文献を指定する操作を行った
場合には、例えば文献名(番号)等を入力した場合に
は、ステップS22からステップS23に移行する。
【0079】ステップS23では、キーセンテンスを抽
出する全カテゴリを表示し、そのカテゴリのなかで抽出
エラーが発生しているカテゴリを強調表示する。それら
を表示させている画面は、キーセンテンスを表示させる
カテゴリを指定するための画面(以降、便宜的にカテゴ
リ選択画面と呼ぶ)である。それらを表示させた後は、
何らかの操作が行われるまでステップS23、S24の
処理ループを繰り返し実行する。
【0080】カテゴリ選択画面が表示されている状態に
おいて、ユーザがその画面表示の終了を指示する操作、
例えば終了ボタンのクリック操作を行った場合、ステッ
プS24では終了操作が行われたと判定して、ステップ
S21に戻り、再度文献選択画面を表示する。これに対
し、ユーザがカテゴリを指定する操作を行った場合に
は、例えば表示させているカテゴリの名称をクリック操
作した場合には、ステップS24からステップS25に
移行する。
【0081】ステップS25では、そのカテゴリで抽出
したキーセンテンスを表示する。そのカテゴリが抽出エ
ラーの発生したカテゴリであったときには、そのカテゴ
リで抽出したセンテンスを表示する。そのようにしてキ
ーセンテンスを表示させた後は、何らかの操作が行われ
るまでステップS25、S26の処理ループを繰り返し
実行する。なお、キーセンテンスを表示させている画面
は、変更させるキーセンテンスを選択する画面でもある
ことから、以降はキーセンテンス選択画面と呼ぶことに
する。
【0082】キーセンテンス選択画面が表示されている
状態において、ユーザがその画面表示の終了を指示する
操作、例えば終了ボタンのクリック操作を行った場合、
ステップS26では終了操作が行われたと判定して、ス
テップS23に戻り、再度カテゴリ選択画面を表示す
る。これに対し、ユーザがキーセンテンスを指定する操
作を行った場合には、例えば表示させているキーセンテ
ンスをクリック操作した場合には、ステップS26から
ステップS27に移行する。
【0083】ステップS27では、その指定されたキー
センテンス、それの変更後のキーセンテンスを入力する
エリアを配置したキーセンテンスの入力画面を表示す
る。その入力画面を表示した後は、キーセンテンスの入
力が終了したことを指示する操作が行われるまでの間、
ステップS28の判定がNOとなってステップS27、
S28の処理ループを繰り返し実行する。
【0084】入力画面が表示されている状態において、
ユーザが入力画面における作業の終了を指示する操作、
例えば変更後のキーセンテンスを入力するか、変更の対
象となっているキーセンテンスの削除を指定する操作を
行うか、或いはキーセンテンスの変更をキャンセルする
操作を行った場合、ステップS28の判定はYESとな
り、ステップS25に戻って再度キーセンテンス選択画
面を表示する。なお、キーセンテンスの入力の終了は、
例えば確認ボタンをクリックすること指定され、キーセ
ンテンスの削除は、例えば削除ボタンをクリックするこ
とで指定され、それの変更のキャンセルは、例えばキャ
ンセルボタンをクリックすることで指定される。
【0085】上記したように、本実施の形態では、語句
を置き換える概念上のレベルをユーザが指定できるよう
にしている。その指定は、特に詳細な説明は省略する
が、メニュー画面から各種の変更可能な項目が配置され
た画面(設定変更画面)を表示させ、その画面上で所望
の項目の設定内容の変更を行うようになっている。ユー
ザが何らかの設定を変更すると、その画面上での作業の
終了をユーザが指示した後、その変更を反映させる後処
理(設定内容変更後処理)を処理部4が実行する。それ
により、キーセンテンスにおいては、概念上のレベルを
変えた語句の置き換えが行われる。次に、それを実現さ
せる設定内容変更後処理について、図6に示すそのフロ
ーチャートを参照して詳細に説明する。なお、図6は、
キーセンテンスに関わる部分の処理を抜粋して示したも
のである。
【0086】先ず、ステップS31では、何らかの設定
内容の変更が行われたか否か判定する。上記設定変更画
面上でユーザが何らかの項目の設定内容を変更した場
合、その判定はYESとなってステップS32に移行す
る。そうでない場合には、その判定はNOとなって一連
の処理を終了する。
【0087】ステップS32では、語句の置き換えを行
う概念上のレベルの変更、即ちキーセンテンスの作成条
件が変更されたか否か判定する。概念上のレベルを同一
から上位、或いは上位から同一にユーザが変更した場
合、その判定はYESとなってステップS34に移行す
る。そうでない場合には、即ちキーセンテンスの作成条
件以外の項目の設定内容をユーザが変更した場合には、
その判定はNOとなってステップS33に移行する。そ
のステップS33では、該当する項目の設定内容の変化
に応じた処理を実行し、それが終了した後、一連の処理
を終了する。
【0088】一方のステップS34では、キーセンテン
ス記憶部5に作成済みのキーセンテンスが記憶されてい
るか否か判定する。キーセンテンス記憶部5に既にキー
センテンスが記憶されていた場合、その判定はYESと
なってステップS35に移行する。そうでない場合に
は、即ちキーセンテンス記憶部5にキーセンテンスが記
憶されていない場合には、その判定はNOとなって一連
の処理を終了する。
【0089】ステップS35では、新たに設定された作
成条件に従ってキーセンテンスの再作成を行う。その再
作成は、文献記憶部3に記憶されている文献を対象とし
て行っても良いが、非常に時間がかかる。そのため、本
実施の形態では、優先使用語に置き換えられた語句をキ
ーセンテンスと共に記憶させておき、その語句から変更
後の作成条件が指定する新たに置き換えるべき優先使用
語を特定して、それをキーセンテンス中の対応する用語
と交換することにより、キーセンテンスの再作成を行っ
ている。そのようにしてキーセンテンスの再作成を行っ
た後はステップS36に移行する。
【0090】上記のようなキーセンテンスの再作成は、
文献からキーセンテンスを作成する場合と比較すれば非
常に短時間で終了するが、ある程度の時間は必要であ
る。その時間は、ユーザの迅速な検索作業を阻害するこ
とになる。そのため、本実施の形態では、迅速な検索作
業を行えるように、ユーザの指定(設定変更画面上で行
う)に応じて、再作成したキーセンテンスを作成済みの
キーセンテンスに置き換える以外に、それらを両方保存
しておけるようにしている。それを実現するために、ス
テップS36では、再作成したキーセンテンスを指定さ
れた保存方法、即ち上書きにするか別に保存するかの指
定に従ってキーセンテンス記憶部5に保存する。その保
存が終了した後、一連の処理を終了する。
【0091】上記のような再作成したキーセンテンスの
保存を行った場合、キーセンテンス記憶部5の空容量に
応じてキーセンテンスを保存させることができるように
なり(特許の出願件数は膨大である)、システムの運営
上の利便性が向上するという効果が得られる。なお、上
記設定内容変更後処理を実行した後に図3のキーセンテ
ンス取得処理を実行する場合には、変更後の作成条件に
従って語句の置き換えが行われることになる。
【0092】図7は、キーセンテンス記憶部5に記憶さ
れたキーセンテンスを対象として処理部4が実行する検
索処理のフローチャートである。次に、この図7を参照
して、その処理について詳細に説明する。
【0093】先ず、ステップS41では、ユーザにセン
テンスを入力させる。そのセンテンスは、上記したよう
に、少なくとも一つ入力すれば良いようにしており、そ
れ以降の処理ステップは、その入力されたセンテンスに
応じて行われる。また、キーセンテンス記憶部5に語句
を置き換える概念上のレベルが異なるキーセンテンスが
複数存在していた場合には、ユーザはその何れかをステ
ップS41で指定させることができる。その指定を行わ
なかった場合には、キーセンテンスの作成条件として定
められた方が選択される。
【0094】ステップS41に続くステップS42で
は、入力されたセンテンスの解析を行い、その解析結果
を基にステップS43で索引文を作成する。その作成に
おける語句の置き換えは、照合するキーセンテンスの語
句の置き換え方法に合わせるために、ステップS41に
おけるキーセンテンスの種類の選択結果に応じて行われ
る。なお、特には図示していないが、センテンスの解析
を行った結果、そのセンテンスの意味が完結していない
ことが判明した場合には、その旨をユーザに出力部6を
介して通知し、再度センテンスを入力させている。
【0095】索引文を作成した後は、ステップS44に
移行して、その索引文をキーセンテンス記憶部5に記憶
されているキーセンテンスと照合して文献検索を行い、
各索引文毎の照合結果から適合文献を選択する。各文献
のキーセンテンスとの照合が全て終わった後、ステップ
S45に移行して検索結果を出力する。その検索結果の
出力は、例えば出力部6に、適合文献を示す公報の番号
を表示することで行い、その表示を行った後、一連の処
理を終了する。
【0096】なお、本実施の形態では、特許文献を対象
にして検索を行っているが、本発明が対象とする文献は
特許文献だけに限定されるものではない。特許文献に代
表される科学文献だけでなく、経済や産業といったこと
に関する文献や、新聞記事といったものでも検索の対象
とすることができる。
【0097】また、本実施の形態では、キーセンテンス
を上記6つのカテゴリで抽出しているが、カテゴリはそ
れらに限定されるものではない。それら以外に、例えば
対象機器、或いは発明対象部分の構成、及びその動作に
着目し、何がどのように動作するのかといったことをキ
ーセンテンスとして抽出するようにしても良い。また、
機器に採用されている方式(符号化方式、画像の形成に
関わる方式、データ転送に関わる方式等)に着目して、
キーセンテンスを抽出しても良い。これら以外にも、カ
テゴリは文献の種類等に応じて様々なものを採用するこ
とができる。
【0098】上記構成や動作に着目したキーセンテンス
の抽出方法としては、例えば以下のようなものが考えら
れる。発明は、物の発明と方法の発明との2つのカテゴ
リに大別される。それらのカテゴリの違いは、発明のタ
イトル(名称)から特定することができる。
【0099】特許文献では、上記したように、図面を参
照して発明が説明される。発明の対象部分は、通常、他
の部分よりも詳細に説明されており、それを説明するた
めの図面も多い。物の発明であれば、例えば図1は全体
図、図2は全体図に示されている中での発明対象部分の
構成図、図3はその発明対象部分中の一部分の拡大図と
いったように、階層的に図面で示されるのが普通であ
る。方法の発明であれば、フローチャートやシーケンス
図、或いはタイミングチャートといった説明図から動作
を説明するのが普通である。そのような説明図で動作が
説明されている物は、発明対象部分それ自体か、或いは
それに近いと考えることができる。
【0100】このようなことから、図面の種類を考慮し
つつ図面の階層構造を抽出し、その階層構造に基づいて
文献に記載された内容を解析しても、発明の分野、対象
機器、対象部分等を特定することができる。例えばその
文献が物の発明であり、図1が全体図、図2が各種スイ
ッチ類が示されている操作部、図3が全体図に示されて
いるDSPの構成図、図4がDSPの動作を示すフロー
チャートであれば、DSPの説明が他よりも詳細である
ことから、そのDSP、或いはそれを含む周辺が発明対
象部分である可能性が極めて高いと言える。フローチャ
ートは、発明がどのようにして課題を解決(効果を達
成)するかを示す動作を説明していると言える。そのた
め、上記6つのカテゴリにおいて抽出すべきセンテンス
の意味的な範囲を特定することができるようになる。
【0101】上記のようにして抽出すべきセンテンスの
意味的な範囲を特定した場合には、センテンスの抽出だ
けでなく、ある決めた文型パターンに整形してキーセン
テンスを抽出することが比較的に容易になる。例えば、
<分野、対象機器、或いは明対象部分>において、<課
題を解決するための手段(動作、構成等)>することに
より、<発明の効果>させる、といった文献パターンを
用意し、「<」、「>」で括った穴に当てはまる語句、
或いはセンテンスを文献中から取り出して埋めるような
ことも比較的容易に行えるようになる。その穴に埋める
語句、或いはセンテンスは、様々なユーザにも対処でき
るように、一つに制限しないことが望ましい。
【0102】そのようにしてキーセンテンスの文献パタ
ーンを統制(文型パターンは複数であっても良い)した
場合には、ユーザが入力するセンテンスとキーセンテン
スとの間の文型の違いによる悪影響を回避することがで
きるようになる。それにより、再現率、及び精度をより
向上させることができる。センテンス入力においては、
ユーザはセンテンスの構成を考慮しなくて済むようにな
ることから、その負担を軽減させることができるように
なる。
【0103】また、図3〜図7に示すフローチャート、
或いは少なくとも図3、図7に示すフローチャートを実
現するためのプログラムは記憶媒体に記憶させて配布し
ても良い。或いは、何らかの通信手段に接続させた処理
装置にそのプログラムを格納しておき、通信手段を介し
て必要とするシステムにプログラムを転送するようにし
ても良い。記憶媒体、例えばCD−ROMに、そのプロ
グラムと特許文献を共に記憶させた場合には、そのCD
−ROMを購入するだけで本実施の形態が適用されたシ
ステムを構築することができるようになる。それによ
り、利便性を向上させることができる。
【0104】
【発明の効果】以上説明したように本発明は、各文献か
らキーセンテンスを抽出し、そのキーセンテンスをユー
ザが入力した検索用センテンスと照合することにより、
適合文献を選択する。単なる語句の羅列と比較して情報
量が大きいセンテンスによる検索を行うため、ノイズを
大幅に除去するとともに、検索もれを大幅に低減するこ
とができる。即ち再現率を高く維持しつつ、精度を高く
することができる。
【0105】また、本発明では、検索用センテンスのキ
ーセンテンスとの照合を、それらのセンテンスを意味構
造に変換して行う。そのため、センテンス間の構文的な
構造の違いが照合(検索)に影響するのを回避でき、意
味的な面から照合をより正確に行うことができる。
【0106】また、本発明では、センテンスを構成する
語句を、キーセンテンス、検索用センテンス共に統制し
た表現に置き換えて照合を行う。そのため、同義語、類
似語といった表現上の違いによる検索もれを回避するこ
とができ、精度をより向上させることができる。
【0107】また、本発明では、キーセンテンスを様々
な視点(カテゴリ)から抽出し、ユーザに任意の検索用
センテンスだけを入力させている。そのため、ユーザは
入力する検索用センテンスの数や組合せにより適合文献
を特定するうえでの情報量、重要視するポイントを調整
することができる。それにより、ユーザは適合文献とし
て検索させる範囲を調整することができ、検索を行うう
えでの選択肢が増え、その利便性も向上する。
【図面の簡単な説明】
【図1】本実施の形態が適用されたシステムの構成図で
ある。
【図2】キーセンテンス記憶部のデータ構成図である。
【図3】キーセンテンス取得処理のフローチャートであ
る。
【図4】文章解析処理のフローチャートである。
【図5】キーセンテンス表示処理のフローチャートであ
る。
【図6】設定内容変更後処理のフローチャートである。
【図7】検索処理のフローチャートである。
【符号の説明】
1 入力部 2 解析用辞書部 3 文献記憶部 3a CD−ROM 4 処理部 5 キーセンテンス記憶部 6 出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中村 英彦 東京都稲城市矢野口1776番地 富士通機電 株式会社内

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 予め定めた規則に従って文献毎にキーセ
    ンテンスを抽出し、 該抽出したキーセンテンスをユーザが入力した検索用セ
    ンテンスと照合し、 該検索用センテンスと一致、或いは類似すると照合され
    たキーセンテンスを抽出した文献を適合文献として選択
    する、 ことを特徴とする文献検索方法。
  2. 【請求項2】 前記キーセンテンスは、前記規則に従
    い、前記文献中の記載から重要語を特定し、該特定した
    重要語を含むセンテンスを前記文献中から取り出し、該
    取り出したセンテンス、及びその周辺のセンテンスを対
    象とした文脈解析を含む文章解析を行い、該解析結果に
    基づいて、前記取り出したセンテンスを整理することで
    抽出する、 ことを特徴とする請求項1記載の文献検索方法。
  3. 【請求項3】 前記キーセンテンスは、予め定められた
    複数のカテゴリに沿って抽出し、 前記検索用センテンスは、前記複数のカテゴリに応じて
    ユーザに少なくとも一つを入力させ、 前記検索用センテンスとキーセンテンスの照合は、前記
    カテゴリ別に行い、 前記適合文献の選択は、前記複数のカテゴリのそれぞれ
    における照合結果に基づいて行う、 ことを特徴とする請求項1、または2記載の文献検索方
    法。
  4. 【請求項4】 前記文献が特許文献であった場合に、前
    記複数のカテゴリとして、発明或いは考案の分野、対象
    機器、該発明或いは考案の対象部分、課題、該課題に対
    する解決手段、該発明或いは考案の効果のなかの少なく
    とも一つを含む、 ことを特徴とする請求項3記載の文献検索方法。
  5. 【請求項5】 前記キーセンテンス、及び検索用センテ
    ンスは、少なくとも1つの単語、或いは語句から構成さ
    れた何らかの意味を表現する文字列である、 ことを特徴とする請求項1、2、3、または4記載の文
    献検索方法。
  6. 【請求項6】 前記検索用センテンスの前記キーセンテ
    ンスとの照合は、それらを意味表現に変換して行う、 ことを特徴とする請求項1〜5の何れか1つに記載の文
    献検索方法。
  7. 【請求項7】 前記検索用センテンスとキーセンテンス
    の照合は、それらを構成する単語、或いは語句を、同レ
    ベルの概念のなかで予め選択した表現、或いは上位概念
    のなかで予め選択した表現に置き換えて行う、 ことを特徴とする請求項1〜6の何れか一つに記載の文
    献検索方法。
  8. 【請求項8】 予め定めた規則に従って文献毎にキーセ
    ンテンスを抽出する抽出手段と、 ユーザが検索用センテンスを入力するための入力手段
    と、 前記抽出手段が抽出したキーセンテンスを、前記入力手
    段により入力された検索用センテンスと照合する照合手
    段と、 前記照合手段が前記検索用センテンスと一致、或いは類
    似すると照合したキーセンテンスを抽出した文献を適合
    文献として選択する選択手段と、 を具備したことを特徴とする文献検索システム。
  9. 【請求項9】 前記抽出手段は、前記規則に従い、前記
    文献中の記載から重要語を特定し、該特定した重要語を
    含むセンテンスを前記文献中から取り出し、該取り出し
    たセンテンス、及びその周辺のセンテンスを対象とした
    文脈解析を含む文章解析を行い、該解析結果に基づい
    て、前記取り出したセンテンスを整理することで前記キ
    ーセンテンスを抽出する、 ことを特徴とする請求項8記載の文献検索方法。
  10. 【請求項10】 前記抽出手段は、前記キーセンテンス
    を、予め定められた複数のカテゴリに沿って抽出し、 前記照合手段は、前記入力手段により各カテゴリに応じ
    てユーザが入力した少なくとも一つの検索用センテンス
    を前記抽出手段が抽出したキーセンテンスと照合し、 前記選択手段は、前記検索用センテンス毎の照合結果に
    基づいて適合文献を選択する、 ことを特徴とする請求項8、または9記載の文献検索シ
    ステム。
  11. 【請求項11】 前記文献が特許文献であった場合に、
    前記複数のカテゴリとして、発明或いは考案の分野、対
    象機器、該発明或いは考案の対象部分、課題、該課題に
    対する解決手段、該発明或いは考案の効果のなかの少な
    くとも一つを含む、 ことを特徴とする請求項10記載の文献検索システム。
  12. 【請求項12】 前記抽出手段による前記キーセンテン
    スの抽出結果を通知する通知手段を、 更に具備したことを特徴とする請求項8〜11の何れか
    一つに記載の文献検索システム。
  13. 【請求項13】 前記抽出手段が抽出した前記キーセン
    テンスを変更するための変更手段を、 更に具備したことを特徴とする請求項8〜12の何れか
    一つに記載の文献検索システム。
  14. 【請求項14】 前記キーセンテンス、及び検索用セン
    テンスは、少なくとも1つの単語、或いは語句から構成
    された何らかの意味を表現する文字列である、 ことを特徴とする請求項8〜13の何れか一つに記載の
    文献検索システム。
  15. 【請求項15】 前記検索用センテンスの前記キーセン
    テンスとの照合は、それらのセンテンスを意味構造に変
    換して行う、 ことを特徴とする請求項8〜14の何れか一つに記載の
    文献検索システム。
  16. 【請求項16】 前記検索用センテンスとキーセンテン
    スの照合は、それらを構成する単語、或いは語句を、同
    レベルの概念のなかで予め選択した表現、或いは上位概
    念のなかで予め選択した表現に置き換えて行う、 ことを特徴とする請求項8〜15の何れか一つに記載の
    文献検索システム。
  17. 【請求項17】 前記検索用センテンス及びキーセンテ
    ンスを構成する単語、或いは語句を置き換える概念上の
    レベルを指定するための指定手段を、 更に具備したことを特徴とする請求項8〜16の何れか
    一つに記載の文献検索システム。
  18. 【請求項18】 予め定めた規則に従って文献毎にキー
    センテンスを抽出する機能と、 ユーザが入力した検索用センテンスを取得する機能と、 前記抽出する機能によって抽出されたキーセンテンス
    を、前記取得する機能によって取得された検索用センテ
    ンスと照合する機能と、 該照合する機能によって前記検索用センテンスと一致、
    或いは類似すると照合されたキーセンテンスが抽出され
    た文献を適合文献として選択する機能と、 を備えたプログラムを記録したことを特徴とする記録媒
    体。
JP9165542A 1997-06-23 1997-06-23 文献検索方法、及びそのシステム Withdrawn JPH1115838A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9165542A JPH1115838A (ja) 1997-06-23 1997-06-23 文献検索方法、及びそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9165542A JPH1115838A (ja) 1997-06-23 1997-06-23 文献検索方法、及びそのシステム

Publications (1)

Publication Number Publication Date
JPH1115838A true JPH1115838A (ja) 1999-01-22

Family

ID=15814370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9165542A Withdrawn JPH1115838A (ja) 1997-06-23 1997-06-23 文献検索方法、及びそのシステム

Country Status (1)

Country Link
JP (1) JPH1115838A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167893A (ja) * 2001-11-29 2003-06-13 Hitachi Tohoku Software Ltd 特許文献の理解支援システムおよび特許文献の理解支援プログラム
JP2022073949A (ja) * 2020-10-30 2022-05-17 ソプラ株式会社 セキュリティidの会話文検索システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003167893A (ja) * 2001-11-29 2003-06-13 Hitachi Tohoku Software Ltd 特許文献の理解支援システムおよび特許文献の理解支援プログラム
JP2022073949A (ja) * 2020-10-30 2022-05-17 ソプラ株式会社 セキュリティidの会話文検索システム

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
EP0810534B1 (en) Document display system and electronic dictionary
US7130867B2 (en) Information component based data storage and management
US6308149B1 (en) Grouping words with equivalent substrings by automatic clustering based on suffix relationships
CA2772746C (en) Trusted query system and method
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
EP1011057B1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
JPH08255172A (ja) 文書検索システム
GB2260007A (en) Information storage/retrieval system and display method
JPH0484271A (ja) 文書内情報検索装置
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JPH0844771A (ja) 情報検索装置
JPH1115838A (ja) 文献検索方法、及びそのシステム
JPH1055372A (ja) オンデマンド・インターフェース装置及びコンピュータ読み取り可能な記録媒体
US20010037330A1 (en) Data input form retrieving system, data input form retrieving method, and computer-readable recording medium
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
JPH09282208A (ja) テーブル生成方法
JPH11203312A (ja) キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JP4248828B2 (ja) 文書処理装置、文書処理方法及び記録媒体
JPH06203078A (ja) 情報検索方法およびその装置
JPH0410062A (ja) 語彙拡張機能を有する文書検索方法
JPH10334114A (ja) 文書検索装置及び文書検索プログラムを記録した記憶媒体
JPH0981581A (ja) データベースの作成方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040907