JP2000293529A

JP2000293529A - 情報の機械的検索法およびその装置

Info

Publication number: JP2000293529A
Application number: JP11096503A
Authority: JP
Inventors: Toshihiro Nakazato; 寿弘中里
Original assignee: Mitsubishi Gas Chemical Co Inc
Current assignee: Mitsubishi Gas Chemical Co Inc
Priority date: 1999-04-02
Filing date: 1999-04-02
Publication date: 2000-10-20

Abstract

(57)【要約】（修正有）【課題】既知の適合情報に対する再現率を１００％と
する検索式を導き、漏れの少ない高い再現性を実現す
る。【解決手段】既知の適合情報中の検索候補語を抽出
し、必要ならばそれらをグループ化する為の類語化処理
を行い、同一情報中の共起関係にある２語以上のブール
積よりなる検索子頻度表を作成し、それらから高頻度順
に、全ての基礎母集団を含むよう、新規の検索子を選択
し系列式を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索方法およ
びその装置に関するものであり、詳しくは、（１）検索
結果に対しては、実用的な水準に適合率（注記０１）を
人為的に設定出来る事と、検索の専門家と同等以上の高
い再現率（注記０１）を確保し、機械的検索法の信頼性
を確立すると共に、（２）検索式の作成およびその操作
に関しては、検索子の選択に関する個人差をほとんど無
くし、情報化に対するより高い普遍性を与えるととも
に、初心者でも熟練検索者に匹敵する検索を可能とし、
人材の効用に広く資する、等の目的を実現するための方
法および装置に関するものである。

【０００２】

【式１】

【０００３】

【従来の技術】情報を収集するにおいて、大きくみれば
二つの分野があり、一つはインタビューや取材、あるい
は手めくりによる閲覧、索引による調査等人が直接探す
方法があり、二つには機械的検索、即ち主としてコンピ
ュータ検索の分野があり、その中でも特に情報をデータ
ベースの中に蓄積し、各情報に検索候補語（検索語とし
ての自然語や統制語等）を付与し、それらを指標として
目的の情報にたどり着く方法とがある。本発明はデータ
ベースに対するコンピュータ検索に関する分野であり、
オンライン、スタンドアロンの種類は問わない。

【０００４】従来データベースを対象として開発されて
きた機械的検索法としては、次のような方法が提案され
ている。

【０００５】（１）特開平４−６２６６７号には、予め
優先順位が付与されて選択された全ての単独検索語を含
む全集合を検索の対象とし、続いてそれらの共起関係に
あるプール積検索語を２語、３語と作成して部分集合に
分解し、含まれる検索語と優先順位とより適合性を判断
し、高得点のものから優位な情報か否かを精査する方法
である。

【０００６】（２）特開平６−２７４５４１号には、検
索者が例えばシソーラス等より選択した一つの検索語に
対して、同一情報中に共起する高頻度の他の用語を関連
検索語として、自動的に援用しより広い検索をおこなう
事によって再現率を向上させようとするものである。

【０００７】（３）「適合情報利用によるオンライン高
性能自動文献探索法」（海老沼幸夫著．情報管理．ＶＯ
Ｌ．２７．Ｎ０．８．Ｐ．６９２―７０３．１９８４
年）には、基礎母集団として１０件ほど、有効な検索語
として１０語ほどを人が選択し、データベース中に出現
する各検索語の頻度に対する基礎母集団中に出現する各
検索語の頻度（このように実際のデータベースとサンプ
ルとの関係を考察する系を、以下サンプル・モデルと呼
ぶこととする）の比を部分適合率（著者は能力値とい
う）として求め、同一情報中でのこれらの合計を当該情
報が有する得点とし、基礎母集団中での最小の得点を閾
値として、有効な検索語が全て利用されるまで単独の検
索語から順次共起関係にあるブール積検索語を調べ、当
該閾値以上のものを部分検索式（著者は探索式という）
として採用し、これらのブール和をとって最終検索式と
する方法である。

【０００８】（４）特開平５−１５１２７１号には、実
施例によると基礎母集団としての３件の適合情報と５件
の不適合情報を別途用意して微小集団の模擬的マイクロ
・データベース（これをマイクロ・モデルと呼ぶ事とす
る）を作成する。各検索語のマイクロ・モデル中の部分
適合率と適合情報中での検索語の出現頻度率とを比較し
て、後者の方が高いものを人の判断によらず機械的に検
索語として決定する。以降の処理において、マイクロ・
モデル中の部分適合率の算出方法を多少変形して（発明
者は能力値という）、閾値と照合する等殆ど前記３報の
方法に準拠して処理される方法である。

【０００９】（５）特開平８−３２０８７９号には、前
記４報の方法とほぼ同様の技術的基礎に基づき、部分検
索式を多項目的に分割作成し、一方検索結果を適合性の
高い順に出力する、等の改善をおこなったものである。

【００１０】（６）特開平７―１４１３９６号には、蓄
積された既知の適合情報中における検索語の出現頻度
と、新規な適合情報を追加蓄積した後の当該検索語の出
現頻度とを比較して、その微分値ないしは差分が設定さ
れた閾値条件を満足したとき、その検索語を含む情報は
見逃してはならない特異情報の可能性があるとして、精
査の対象から逸脱しないようにしようとするものであ
る。

【００１１】（７）「情報検索によって新しい仮説は発
見できるか。ＤｏｎＲ．Ｓｗａｎｓｏｎの新理論紹
介」（学習院女子短期大学，菊地しづ子著．医学図書
館，ｖｏ１．３７，ｎｏ．１，ｐ．２９−３３，１９９
０年）には、複数の主題を同時に含んでいて、しかも検
索語としてはそのいずれかが脱落していて、通常の共起
関係による検索語検索では全く検索不可能であると考え
られる情報を、引例の検索を組み入れる事によって検索
を実現しようとするものである。

【００１２】以上の他にも多くの検索法が提案されてい
るが、ここに挙げられた例によって本発明が直接関係す
る技術的内容について、従来の技術に関する基本的趨勢
をまとめると次のようになる。

【００１３】即ち、一つには、前記（１）、（２）及び
（７）等に代表されるように、「再現率を重視した」検
索法として、共起関係にある関連語や連想語およびシソ
ーラス、あるいは引例等を参照して関連する上位、下位
概念等その他を同時に併用して検索し、できるだけ漏れ
の少ない検索結果を導こうとする提案である。

【００１４】また二つには、前記（３）、（４）及び
（５）等に代表されるように、「検索式の作成法を重視
した」検索法として、有意な検索語の選択や部分検索式
を決定するにおいて、各検索候補語や部分検索式の出現
頻度や適合率等を計算して、確率論的に導かれた閾値や
能力値あるいは重み等を基準にして、自動的に検索式を
発生させようとする提案である。

【００１５】更に三つには、前記（６）に代表されるよ
うに、「特異情報を重視した」検索法として、既存の適
合情報群とは相当異なった検索語を持つ新規な情報を、
一般の検索の中で同時に検出して検索者に通報し、主題
の変化や先端の動向に対して検索者が的確に追随して行
けるようにと、意図された提案がある。しかもこのよう
な機能は単に変化や先走りを追うことが出来るという点
にのみ価値があるだけではなく、過去の遡及検索におい
ても得てして見逃されがちな、適合情報の中での微小集
団の情報を選択的に抽出するためにも利用されうる。

【００１６】以上のような検索の技術開発に於いて、評
価の基準として考えておかなければならない点として、
次のような指摘がなされている。

【００１７】その欠点の一つは、再現率と適合率が逆比
例的な関係にあるという、検索の操作それ自体が示す背
反的な特徴に対して、下記に列挙する諸々の報告に代表
されるような、吟味あるいは批判がなされてきた事であ
る。

【００１８】（８）″ＰｒｅｓｅｎｔｉｎｇＲｅｓｕ
ｌｔｓｏｆＥｘｐｅｒｉｍｅｎｔａｌＲｅｔｒｉ
ｅｖａ１Ｃｏｍｐａｒｉｓｏｎｓ″（Ｅ．Ｍ．Ｋｅｅ
ｎ著，ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ
＆Ｍａｎａｇｅｍｅｎｔ，ｖｏｌ．２８，ｎｏ．
４，ｐ．４９１−５０２，１９９２年）（９）″ＥｆｆｅｃｔｉｖｅＳｔｒａｔｅｇｉｅｓ
ｆｏｒＳｅａｒｃｈｉｎｇＥｘｉｓｔｉｎｇＰａ
ｔｅｎｔＲｉｇｈｔｓ″（Ｊ．ｖａｎｄｅｒＤｒｉ
ｆｔ著，ＷｏｒｌｄＰａｔｅｎｔＩｎｆｏｒｍａｔ
ｉｏｎ，ｖｏｌ．１３，ｎｏ．２，ｐ．６７−７１，１
９９１年）（１０）″ＤｅｔｅｒｍｉｎｉｎｇｔｈｅＥｆｆｅ
ｃｔｉｖｅｎｅｓｓｏｆＲｅｔｒｉｅｖａ１Ａ１
ｇｏｒｉｔｈｍｓ″（Ｈ．Ｐ．Ｆｒｅｉ，Ｐ．Ｓｃｈｅ
ａｕｂｌｅ著，ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓ
ｓｉｎｇ＆Ｍａｎａｇｅｍｅｎｔ，ｖｏｌ．２７，
ｎｏｓ．２／３，ｐ．１５３−１６４，１９９１年）（１１）″ＴｈｅＰｒａｇｍａｔｉｃｓｏｆＩｎ
ｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａ１Ｅｘｐｅｒ
ｉｍｅｎｔａｔｉｏｎ，Ｒｅｖｉｓｉｔｅｄ″（Ｊ．Ｔ
ａｇｕｅ−Ｓｕｔｃｌｉｆｆｅ著，Ｉｎｆｏｒｍａｔｉ
ｏｎＰｒｏｃｅｓｓｉｎｇ＆Ｍａｎａｇｅｍｅｎ
ｔ，ｖｏｌ．２８，ｎｏ．４，ｐ．４６７−４９０，
１９９２年）（１２）″ＶａｒｉａｔｉｏｎｓｉｎＲｅｌｅｖ
ａｎｃｅＪｕｄｇｍｅｎｔｓａｎｄｔｈｅＥｖ
ａｌｕａｔｉｏｎｏｆＲｅｔｒｉｅｖａ１Ｐｅｒｆ
ｏｒｍａｎｃｅ″（Ｒ．Ｂｕｒｇｉｎ著，Ｉｎｆｏｒｍ
ａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ＆Ｍａｎａｇｅ
ｍｅｎｔ，ｖｏ１．２８，ｎｏ．５，ｐ．６１９−６２
７，１９９２年）

【００１９】以上の（８）から（１２）までの報告で
は、「再現率を上げれば上げるほど適合率が低下し、適
合率を上げれば上げるほど再現率が低下し、これらを同
時に向上させる事は殆ど不可能である。」という事を認
め、実用的な適合率を与える検索結果を受入れ、その時
に得られる比較的低い再現率を甘受せざるを得ない、と
結論していることである。

【００２０】その欠点の二つは、検索結果の中に出現す
る適合情報と不適合情報を識別する人間の能力、これは
サベイランス・キャパシティ或いは検証能力とでも云え
る能力には限界があり、小規模なモデル実験ではその障
害は無視されがちで、大規模なシステムにそのまま適用
すると、その過剰負荷のために検索行為そのものが崩壊
するという事について、下記の報告に批判がなされてい
る事である。

【００２１】（１３）「情報システム・データベース構
築の基礎理論（８．４情報システムの評価における
『小規模システム症候群』）」（ロベルト・フーグマン
著．情報インデクシング研究会訳．東京．（社）情報科
学技術協会．Ｐ．２８３−２８９．１９８４年）（１４）「架橋ポリマーの検索」（久松健三、大島和
幸、近藤立夫、佐伯嗣郎、木島康、小山内正明著．平成
４年度日本ＰＬＡＳＤＯＣオンライン研究会秋季研修
会．１９９２年）

【００２２】このような状況の下に前記（１）から
（７）までの提案を見てみると、大きく分けて二つの問
題点が見られる。

【００２３】第一番目としては、前記（１）から（５）
に共通する点は、それらの検索法において、再現率と適
合率が同時に改善されてはいないという点が問題であ
る。

【００２４】即ち、「再現率を重視した」前記（１）及
び（２）等の検索法では、確かに漏れを少なくするため
には当該提案のごとき処理は大変有効であるとは思われ
るが、しかし単独検索子を含む全集合を集めたり、共起
関係にある関連語をブール和で追加するということは、
大規模システムでは非常に広い検索結果を導くことにな
り、これでは膨大な数量を持つ現実のデータベースを取
り扱おうとしたとき、結果的に手めくりによる全数検査
のような負荷と変わらなくなり、人の検証能力を大きく
逸脱してしまうという点を改善しないかぎり、現実性を
欠く。

【００２５】従って、そこに得られたより高い再現率を
維持したまま、如何に有効な絞り込み方法を後続させる
かが極めて重要であるが、一般には前記した通り再現率
と適合率は逆比例的関係にあり、これらの双方を同時に
高い水準まで向上させることは世界的レベルにおいて未
だ十分な成功をみていない。従って本提案のごとく一度
広げられた検索範囲を絞り込むためには、余程の有効な
手段が開発されないかぎり折角得られた高い再現率を維
持できないのであるが、前記（１）においては付与され
た優先順位がその役目を果たすであろうが、一般のデー
タベースにそれを期待することはできず、前記（２）に
おいては絞り込みの有効な手段が定量的には示されてな
く、結局両者とも適合率に関して普遍的には何ら考慮さ
れておらず、大規模なシステムに適用すると膨大な数の
非現実的な検索結果になる可能性に対して、無防備であ
る。

【００２６】又、「検索式の作成法を重視した」前記
（３）、（４）及び（５）等の検索法では、確かに検索
子の選択や部分検索式の決定ひいては総合検索式の作成
等が、極めて客観的かつ機械的におこなわれ、また閾値
等の決定に用いられた確率論的根拠にも無理がなく大変
有望な方法であるとは思われる。しかしこれらの手法
はあくまでも検索式の作成法であって、より高い再現率
もまたより高い適合率をも、同時に保証するものではな
いという点が問題である。

【００２７】なぜならば、各情報から選択された検索子
が、それ自体が所属していた親情報から切り離され、検
索子群全体の中でのみ共起関係にあるとしてブール積が
作成されるために、そこに作成された共起関係即ちブー
ル積検索子が、同一情報中に確実に存在するという保証
は無くなるからである。つまり全く無効な検索子群を作
成することも起こり得るのであり、従ってこのような部
分検索式の総和から作成された式によって検索された結
果、確実にキャッチされなければならない筈の基礎母集
団に対してさえ、検索漏れを起こす可能性がある。この
事が、提案された検索結果に如何なる影響を及ぼすかに
ついては、何ら言及されておらず、従って不首尾な結果
に至る可能性がそのまま放置されている。

【００２８】また一方、適合率からのみみれば、前記
（３）のようなサンプル・モデルでは実用性があるのに
対して、演鐸的に効率を求めた前記（４）のようなマイ
クロ・モデルでは、適合率の劣化という副作用が発生す
るために、検索法そのものの機能的完成度が低下すると
いえよう。このような事は当該発明の進歩性に大きく影
響しているにも関わらず、これらの提案においては何ら
言及されてはいないのである。但し、前記（３）によっ
て得られた適合率が実用的水準に達しているという結果
は、適合率に関してのみいえる事であり、そのことが前
記した再現率劣化の危険性を何ら救済するものではな
い。

【００２９】第二番目としては、一部の提案者の着眼を
除いて、多く見落とされている極めて重要な事は、検索
子に関する高適合率や高出現頻度を基準として検索する
という事は、同質の主題に関して純粋培養型の検索をお
こなう事であり、適合情報として重要であるにも関わら
ず低頻度の特異なあるいは異質な検索語をもつ情報群を
選択的に切り捨てているという点である。つまり高適合
率を尊重すればするほど逆に適合性の広がりを返って喪
失していくという点である。この事はまた逆も成立し低
い出現頻度をもつ検索子のみを中心に検索をおこなう事
も、再現率の極端な劣化を来すことは言うまでもない。

【００３０】以上のような事情が発生する理由は簡単で
あり、つまり適合情報というものは全て同質の主題や検
索子から成り立ってはいないからである。従って必ずい
くつかの異なった主題のグループが大小取り混ぜて集ま
ったものであり、それぞれに重要な適合情報でありどれ
一つとして軽んずべきではなく、それに対する手当てが
如何に講じられているかという点が、再現率の完成度を
決定するといえよう。

【００３１】ところが、検索子の選択や部分検索式の作
成に当たって、その決定の根拠を高適合率や高出現頻度
のみに置く、前記（１）から（５）に代表される従来の
技術では、既知の適合情報の内基礎母集団中の大グルー
プのものと同質の情報を優先的に選択し、他の小グルー
プのものを結果的に排除していくよう自動的に設定され
ている。

【００３２】この機能の意味するところは、その用語が
検索子として認められ、検索式に採用されるようになる
には、同種の情報がある程度時間を経て蓄積されてこな
ければならずその間のタイムラグのため、近い将来に有
望な新技術となるかも知れないその兆候の現れをいち早
くキャッチして、開発の先端動向に素早く追随していく
という意図が妨げられるという事であり、のみならず過
去に対する遡及検索においても、重要且つ希少なグルー
プの情報の多くをほとんど欠落させてしまうという、致
命的な再現率の低下に甘んじなければならない事であ
る。

【００３３】従って、低出現頻度や低適合率を有する基
礎母集団中の小グループの検索子を検索式に確実に反映
させて、希少なグループの適合情報をも検索し得る、総
合的な提案はまだ実現していないといえよう。

【００３４】このような視点に注目して、前記（６）や
その他の時系列的検索法などに代表されるように、出現
頻度や適合率の相対値によって判断するのではなく、注
目する検索子の大きな変化によって要注意情報として精
査すべきことを、検索者に通報する等の提案がなされて
いる。ただし前記（６）の提案は、検索後の最終データ
を読み取って適合性の示唆を保証するものではなく、と
にかくその中に特異な用語があるか否かを結果的に判別
する方法であって、検索法そのものではない。

【００３５】同様に、前記（７）の提案では、検索子が
全く付与されていなくても該当する情報を見つけ出そう
とする試みであり、これは既に引例検索法して実用化さ
れつつある。この提案で重要な点は、高適合性あるいは
高頻度に出現する検索子のみを追求することは最早や棄
却され、全く異なった検索域から適合情報を追求しよう
とされていることである。従って、再現性をより一層向
上させる一手段としては、大変有効な手法ではある。し
かし、残念ながら、引例そのものの任意性および引例検
索が可能なデータベースは極めて限られているというこ
と、など当該手法は検索子検索に比べて普遍性あるもの
とはいえず、補助的な一手段であり全体的な検索法で無
いことは云うまでもない。

【００３６】また、前記（８）から（１２）までの研究
例では、再現率と適合率の逆比例的関係を如何に克服す
るかについての種々の提案がなされてはいるが、その意
図するところは純粋培養型であったり、基礎母集団に対
する自己再現性を無視していたり、再現率の劣化を僅か
に改善しているに過ぎなかったり、小規模システム症候
群の中の判断であったりと様々であり、総合的な解決を
これらの提案の中に期待する事はできない。

【００３７】また、検索式の自動作成は出来ないと言い
切っている主張もあり、一方、その可能性を捨ててはい
ない意見もある。つまり検索法に関する定説が確定して
いないのが現状であるといえる。

【００３８】以上のごとく、従来の検索技術に於いて
は、決定的な向上が期待できないばかりでなく、一つの
改善（例えば適合率）を意図した事が他の面（例えば再
現率）の効果を、またその逆も同じであるが、場合によ
っては非実用的な水準にまで劣化させる事を防止出来な
いという事態に直面していると云える。

【００３９】更に、前記例のかなりの報告では、検索法
を評価するために用いられた基礎母集団数やデータベー
ス中の情報数、および採用された検索子数が少なすぎる
為、大規模なデータベースに対して十分実用性が在ると
は云えないばかりでなく、むしろＲ．フーグマンが指摘
するように、大規模なデータベースにそのまま適用する
と、その時点で明らかに自己崩壊するかも知れないとい
う、危険性の方が高いと云える。最後の文献（１４）に
ついては、後記実施例にて説明する。

【００４０】

【発明が解決しようとする課題】以上で分かるように、
従来の技術には、（１）膨大なシソーラス等を学習する事無しに、検索の
初心者でさえ熟練者に匹敵するような検索式の機械的な
作成（２）熟練検索者と同等以上の高い再現率で、検索し得
る検索式の作成（３）適合率を、実用的な水準に人為的に設定出来る検
索結果の獲得（４）適合小グループの検索子をも含めて、基礎母集団
全体を完全に検索できるという、自己再現性が完成され
た検索式の作成以上の四つの検索技術がすべて満たされた検索式の作成
法は、まだ実現されてはおらず、これを解決し実現する
事が本発明の課題である。

【００４１】

【課題を解決するための手段】本発明は、検索候補語お
よびその類語を用いて情報を検索するにおいて、１語処理部として、既知の適合情報中の検索子を利用
するための１語検索子抽出部、１語の種類・判別検索件
数・判別適合率等の１語検索子属性辞書部、１語検索子
属性転写部、類語化処理部、不要語化処理部、閾値条件
判定部、同条件を満足した場合採用１語として保存する
ファイル作成部、それを追加保存するダミーファイル作
成部等を具え、２語処理部として、同一情報中で共起関係にある２語
検索子合成部、２語の種類・判別検索件数・判別適合率
等の２語検索子属性辞書部、２語検索子属性転写部、２
語系列式作成部およびそれを保存するファイル作成部、
それを追加保存するダミーファイル作成部、２語系列式
中に出現する採用１語検出部、それを追加保存するダミ
ーファイル作成部、閾値条件判定部、同条件を満足した
場合採用２語として保存するファイル作成部、それを追
加保存するダミーファイル作成部、３語化指定処理部、
２語検索子から採用１語ダミーファイル中の１語を含む
２語および２語系列ダミーファイル中の２語を、それぞ
れ削除する処理部等を具え、３語処理部として、３語化指定された２語を含む同一
情報中で共起関係にある３語検索子合成部、３語の種類
・判別検索件数・判別適合率等の３語検索子属性辞書
部、３語検索子属性転写部、３語系列式作成部およびそ
れを保存するファイル作成部、それを追加保存するダミ
ーファイル作成部、３語系列式中に出現する採用１語検
出部およびそれを追加保存するダミーファイル作成部、
閾値条件判定部、同条件を満足した場合採用３語として
保存するファイル作成部、それを追加保存するダミーフ
ァイル作成部、閾値条件を満足しない３語を削除するた
めの排除処理部、３語検索子から採用１語ダミーファイ
ル中の１語を含む３語、並びに２語系列ダミーファイル
中の２語を含む３語、さらに３語系列ダミーファイル中
の３語をそれぞれ削除する処理部、等を具え、前記〜までのすべてに共通する処理として、各処
理部のデータおよびメッセージ表示部、検索子属性管理
辞書部、閾値判定部、判別式作成部、判別検索件数入力
および判別適合率計算部、判別検索件数および判別適合
率に関する閾値条件設定部、同閾値更新処理部、等を具
え、前記とに共通する処理として、採用１語検出部、
採用２語検出部、２または３語系列式中の脱落に対し
て、新規に２語を組み込むための２語補填部およびそれ
を追加保存するダミーファイル作成部、各系列式中同頻
度の判別式は、必要とあれば二次以上に結合し、新たな
系列式を導く系列式作成部、各系列式を二次以上に結合
する最終検索式作成部、等より構成された情報の機械的
検索法およびその装置である。

【００４２】更に、閾値条件を構成するにおいて、閾値として適合率閾値および検索件数閾値を個別に設
け、（ａ）適合率閾値に関しては、目的とする最終検索
式の適合率の、１〜５倍に設定し、（ｂ）検索件数閾値
に関しては、１件の情報を捕獲するに要する、前記
（ａ）にて設定された適合率を与える検索件数の、１〜
１０倍に設定し、閾値条件の内検索件数に関しては、判別式中の各検索
子に対する判別検索件数が当該閾値と比較して、小なら
ば系列式の構成要素として採用し、さもなければ同一情
報中で共起関係にある他の１語を組み足して、より高次
のブール積の作成部に送られるかまたは排除されるに於
いて、閾値条件の内適合率に関しては、判別式中の各検索子
に対する判別検索件数と、基礎母集団中のその頻度との
割合として得られる判別適合率を計算し、当該閾値と比
較して、大ならば系列式の構成要素として採用し、さも
なければ同一情報中で共起関係にある他の１語を組み足
して、より高次のブール積の作成部に送られるかまたは
排除されるに於いて、上記またはのいずれかの条件が満足される検索子
を採用して系列式を構成された情報の機械的検索法およ
びその装置である。

【００４３】

【発明の実施の形態】以下に、本発明を詳細に説明す
る。

【００４４】（１）１語抽出処理部および１語辞書部と
しては、１語抽出処理部においては、（ａ）基礎母集団中の検
索候補語を抽出する１語抽出部、（ｂ）当該１語を含む
親情報を属性の一つとして記憶する格納部、（ｃ）同一
情報中の検索候補語を無重複化する無重複化処理部、
（ｄ）検索候補語と一致する１語検索子辞書の属性情報
を、格納部に転写する転写部、（ｅ）検索候補語に対す
る類語化処理部、（ｆ）類語を編集・更新し辞書に記憶
する変換部、（ｇ）有効１語検索子か否かを人為的に選
択する不要語処理部、（ｈ）基礎母集団中の１語検索子
の出現頻度降順序列部、（ｉ）基礎母集団中の各検索子
の出現頻度ブール和とその増分を計算する１語増分計算
部、等を具え、

【００４５】１語辞書部においては、（ａ）１語検索
子およびその属性を記憶する１語検索子辞書部、（ｂ）
作成された頻度降順序列中の属性データが、当該辞書中
に無いかまたは変化した場合、当該１語検索子を検出し
て検索件数を要請する１語判別式（注記０２）作成部、
（ｃ）入力された検索件数と基礎母集団中の出現頻度よ
り、各判別適合率を計算して、それらの属性を当該辞書
に記憶する１語属性処理部、（ｄ）１、２、３語検索子
に対して共通である判別基準となる閾値として、判別検
索件数、判別適合率等を設定する閾値設定部および更新
部、（ｅ）閾値条件と１語属性とを照合して採用１語検
索子とするか、次の２語の共起関係に送るかを決定する
１語判定部、（ｆ）採用１語検索子を保存する採用１語
ファイル作成部、（ｇ）以上のすべての結果を１語検素
子辞書に記憶する転送部、等を具え、

【００４６】［注記０２］判別式とは、１、２、３語等
の各検索子をそれぞれ個別に検索するための検索式を云
い、このときその構成要素である１語も同時に検索さ
れ、下記１語属性処理部にてデータが更新される。

【００４７】１語処理全般においては、（ａ）以上の
各過程およびその属性等を必要に応じて閲覧表示する表
示部、（ｂ）必要な処理に対する問い合わせ、警告、命
令等の機能表示部、等を具え、

【００４８】（２）２語合成処理部、２語辞書部および
２語系列作成部としては、２語合成処理部において
は、（ａ）前記不要語処理部（１）（ｇ）にて不要語
指定されなかった有効１語検索子を、同一情報中の２語
のブール積とする２語検索子合成部、（ｂ）当該検索子
を含む親情報を属性の一つとして記憶する格納部、
（ｃ）同一情報中の当該検索子を無重複化する無重複化
処理部、（ｄ）２語検索子と一致する２語検索子辞書の
属性情報を、格納部に転写する転写部、（ｅ）採用１語
ファイルおよびそのダミーファイル（注記０３）に在る
採用１語検索子、および下記２語検索子系列作成部
（ｃ）にて作成された、系列２語中に出現する独立１語
検索子を含む２語を、当該合成部（ａ）より削除する２
語排除部、（ｆ）採用２語ダミーファイルに在る２語検
索子を、当該合成部（ａ）より削除する２語排除部、
（ｇ）系列２語ダミーファイル（注記０４）に在る２語
検索子を、当該合成部（ａ）より削除する２語排除部、
（ｈ）脱落が発生し２語補填処理（注記０５）が行なわ
れた場合の、廃棄２語ダミーファイルに在る２語を当該
合成部（ａ）より削除する２語排除部、等を具え、

【００４９】［注記０３］ダミーファイルとは、各系列
を作成するときに発生する採用１語、採用２語および２
語補填に伴う廃棄２語を蓄積保存し、さらに完成した各
系列に含まれる１、２および３語検素子を蓄積保存した
ファイル。［注記０４］各系列が完了したとき、それに用いられた
２語系列式を蓄積保存したファイル。［注記０５］３語系列作成部にて、基礎母集団に対する
自己再現率を１００％となし得ない場合、その元となっ
た２語を廃棄し新しい２語と入れ換える。

【００５０】２語辞書部においては、（ａ）２語検索
子およびその属性を記憶する２語検索子辞書部、（ｂ）
作成された系列中の属性データが、当該辞書中に無いか
または変化した場合、当該２語検索子を検出して検索デ
ータを要請する２語判別式作成部、（ｃ）入力された検
索件数と基礎母集団中の出現頻度より、各判別適合率を
計算して、それらの属性を当該辞書に記憶する２語属性
処理部、（ｄ）以上のすべての結果と下記１語判定部
（ｇ）および２語判定部同（ｈ）の結果を、１および２
語検索子辞書に記憶する転送部、等を具え、

【００５１】２語系列作成部においては、（ａ）基礎
母集団中の２語検索子の出現頻度降順序列部、（ｂ）基
礎母集団中の各２語検索子の出現頻度ブール和とその増
分を計算する２語増分計算部、（ｃ）当該序列部（ａ）
より同頻度の検索子の内、直前の高頻度ブール和に対し
て増分が発生する検索子を、基礎母集団を１００％含む
ように抽出する２語検索子系列作成部、（ｄ）当該系列
が基礎母集団を１００％含まない場合は、脱落を生じた
２語検索子を特定し、当該情報中の１語検索子の類語化
方法を変化させる２語補填部、（ｅ）前記閾値設定部
（１）（ｄ）にて定義された閾値設定部および更新
部、（ｆ）閾値条件と２語検索子を構成する各１語の属
性とを照合して、採用１語検索子とするか否かを決定す
る１語判定部、（ｇ）もし系列２語中に採用１語検索子
が出現した場合は、これを独立させ採用１語ファイル、
およびそのダミーファイルに追加保存し、同時に２語系
列を作成し直す採用１語処理部、（ｈ）閾値条件と２語
検索子の属性とを照合して、採用２語検索子とするか次
の３語の共起関係に送るか（以下「３語指定された」と
よぶ）を決定する２語判定部、（ｉ）もし系列２語中に
採用２語検索子が出現した場合は、これを採用し採用２
語ファイル、およびそのダミーファイルに追加保存する
採用２語処理部、等を具え

【００５２】２語処理全般においては、（ａ）以上の
各過程およびその属性等を、必要に応じて閲覧表示する
表示部、（ｂ）必要な処理に対する問い合わせ、警告、
命令等の機能表示部、等を具え、

【００５３】（３）３語合成処理部、３語辞書部および
３語系列作成部としては、３語合成処理部においては、（ａ）前記２語系列作成
部（２）（ｃ）において、３語共起関係に送られるよ
う指定された２語検索子を、同一情報中の３語のブール
積とする３語検索子合成部、（ｂ）当該積を含む親情報
を属性の一つとして記憶する格納部、（ｃ）同一情報中
の当該積を無重複化する無重複化処理部、（ｄ）３語検
索子と一致する３語検索子辞書の属性情報を、格納部に
転写する転写部、（ｅ）採用１語ファイルおよびそのダ
ミーファイルに在る採用１語検索子、および下記３語検
索子系列作成部（ｃ）にて作成された、系列３語中に
出現する採用１語検索子を含む３語を、当該合成部
（ａ）より削除する３語排除部、（ｆ）採用２語ダミー
ファイルに在る２語検索子を含む３語を、当該合成部
（ａ）より削除する３語排除部、（ｇ）系列２語ダミー
ファイルに在る２語検索子を含む３語を、当該合成部
（ａ）より削除する３語排除部、（ｈ）系列３語ダミー
ファイルに在る３語検索子を、当該合成部（ａ）より削
除する３語排除部、（ｉ）脱落が発生し２語補填処理が
行なわれた場合の、廃棄２語ダミーファイルに在る２語
検索子を含む３語を、当該合成部（ａ）より削除する３
語排除部、等を具え、

【００５４】３語辞書部においては、（ａ）３語検索
子およびその属性を記憶する３語検索子辞書部、（ｂ）
作成された系列中の属性データが、当該辞書中に無いか
または変化した場合、当該３語検索子を検出して検索デ
ータを要請する３語判別式作成部、（ｃ）入力された検
索件数と基礎母集団中の出現頻度より、各判別適合率を
計算して、それらの属性を当該辞書に記憶する３語属性
処理部、（ｄ）以上のすべての結果と下記１語判定部
（ｇ）および３語判定部（ｉ）の結果を、１および３語
検素子辞書に記憶する転送部、等を具え、

【００５５】３語系列作成部においては、（ａ）基礎
母集団中の３語検索子の出現頻度降順序列部、（ｂ）前
記２語判定部（２）（ｈ）にて３語指定された、各３
語検索子の出現頻度降順ブール和と、その増分を計算す
る３語増分計算部、（ｃ）当該序列部で（ａ）より同頻
度の検索子の内、直前の高頻度ブール和に対して増分が
発生する検索子を、基礎母集団を１００％含むように抽
出する３語検索子系列作成部、（ｄ）当該系列が基礎母
集団を１００％含まない場合は、脱落を生じた２語検索
子を特定し、当該２語検索子を前記２語検索子系列作成
部，（ｃ）より除外し、２語系列を作成し直す２語補
填部、（ｅ）１語検索子辞書を参照して系列３語中に採
用１語検索子が出現した場合は、これを独立させ採用１
語ファイルおよびそのダミーファイルに追加保存し、同
時に２語系列を作成し直す採用１語処理部、（ｆ）前記
閾値設定部（１）（ｄ）にて定義された閾値設定部お
よび更新部、（ｇ）閾値条件と３語検索子を構成する各
１語の属性とを照合して、採用１語検索子とするか否か
を決定する１語判定部、（ｈ）もし系列３語中に採用１
語検索子が出現した場合は、これを独立させ採用１語フ
ァイルおよびそのダミーファイルに追加保存し、同時に
２語系列を作成し直す採用１語処理部、（ｉ）閾値条件
と３語検索子の属性とを照合して、採用３語検索子とす
るか系列から除外するかを決定する３語判定部、（ｊ）
系列から除外すべき３語検索子を、前記３語系列作成部
（ｃ）より削除し、前記３語増分計算部より作成し直
す採用３語処理部、等を具え、

【００５６】３語処理全般においては、（ａ）以上の
各過程およびその属性等を必要に応じて閲覧表示する表
示部、（ｂ）必要な処理に対する問い合わせ、警告、命
令等の機能表示部、等を具え、以上のように共起関係に
ある検索子を順次多重的に組み合わせていく過程は、上
に示したように段階的個別的に作成されてもよいし、ま
た別の方法で行なわれてもよく、その方法を何ら制限す
るものではない。本発明では３語までの共起関係につい
て説明するが、必要とあれば３語処理（３）に行なった
方法を用いて、４語、５語と更なる多重検索子を組み足
していくことを、何ら妨げるものではない。

【００５７】（４）系列式の完了および全系列式を合成
する最終検索式作成部としては２語系列式の完了においては、（ａ）前記閾値設定部
（１）（ｄ）にて定義された閾値設定部、（ｂ）２語
系列において全ての検索子が、閾値条件を満足している
か否かを判別する２語系列閾値判定部、（ｃ）判定
（ｂ）において、もし否ならばそのまま終了して以後の
処理に継続するが、是ならば系列式を完了し以後の処理
を終了し、（ｄ）次段の系列作成処理のための必要な準
備として、（Ｉ）採用１語ファイルに新規の１語があれ
ば、これをそのダミーファイルに転写し、（II）採用２
語ファイルに新規の２語があれば、これをそのダミーフ
ァイルに転写し、(III）採用３語ファイルに新規の３語
があれば、これをそのダミーファイルに転写し、（IV）
２語補填ファイルに新規の２語があれば、これをそのダ
ミーファイルに転写し、（Ｖ）系列式を作成するために
与えられた、系列を特定する指標を歩進し、その他必要
な処理を行なう２語系列完了部、等を具え、

【００５８】３語系列式の完了においては、（ａ）前
記閾値設定部（１）（ｄ）にて定義された閾値設定
部、（ｂ）３語系列において全ての検索子が、閾値条件
を満足しているか否かを判別する３語系列閾値判定部、
（ｃ）判定（ｂ）において、もし否ならばそのまま終了
して以後の処理に継続するが、正ならば系列式を完了し
以後の処理を終了し、（ｄ）次段の系列処理のための必
要な準備として、前記（ｄ）記載の処理を行なう３語
系列完了部、等を具え、

【００５９】全系列式を合成統合する最終検索式作成
部においては、上記またはにおいて得られた各系列
式に対して、（ａ）系列式が１系列ならば、そのままあ
るいは各系列式中同頻度の判別式を必要とあれば２次以
上に結合し、最終検索式とする。（ｂ）上記（ａ）の系
列式が複数あるならば、各系列間の２次以上のブール積
の総和を最終検索式とする、最終検索式作成部、等より
構成される。

【００６０】本発明の作用は、前記課題を解決するため
の手段の中に全て説明されているが、発明が解決しよう
とする課題のところで提起した「検索技術の根本となる
四つの要素が全て満たされた検索法」として、本発明が
用いた手段のどれが、課題としての何を実現しようと意
図されたかを説明する。

【００６１】まず、課題（２），（４）：基礎母集団を
含めてそれ以外の新規な関連情報を、より大きな再現率
でもって検索し得る検索式の作成については、

【００６２】「基礎母集団以外の新規な関連情報を検
索する」ということは、その検索式によって既に基礎母
集団を１００％検索できるという事が、完全に保証され
ていなければならない。これは解決の手段、および
の検索子合成処理および系列作成部にて記したとお
り、「基礎母集団中の同一情報中に出現、もしくは共起
出現する検索子」およびそれらの「直前の高頻度ブール
和に対して、増分が発生する検索子を抽出する」事によ
り実現されている。このような極めて基礎的な考え方
が、従来の技術においては見過ごされてきた。

【００６３】「より大きな再現率」を獲得するために
は、従来の技術において記した通り、一つの検索候補語
に対して多くの関連語を同時に併用することが有力な方
法の一つであり、本発明においても「類語化処理」によ
って同質の効果を実現しようとするものである。しかし
従来の技術において行われた方法は、現実のデータベー
スの中に存在する関連語を用意するのではなくて、他の
辞書とかシソーラスとかあるいは人の連想語とかを集め
ようとしている。

【００６４】ところが、現実のデータベースの中に用い
られている類似語なり関連語は、そのデータベース特有
のパターンをもっており、安易な予見性を受け付けない
ものである。従って、他の情報源によって類語辞書なる
ものを如何に膨大に用意したとしても、対象とするデー
タベース中の用語の類似関係を実際に調査し確認してみ
なければ、無駄ではないが無効語が多くその投資効率は
よくない。

【００６５】間違いない方法としては、現実にそのデー
タベースから吸収すること以外にないであろう。しかし
予めこのような辞書を作成することは絶望的でありまた
その必要もない。この過程を効率的に実行するには、技
術分野毎に一、二のテーマに関して一、二回丹念に辞書
作りをすればよく、その努力は差ほど難儀なものでもな
く、またその後の処理や他のテーマに対してもかなりの
部分に当該辞書を共通して利用でき、辞書の追加修正は
予想外に楽であることが判明した。

【００６６】これを実現しているのが、解決の手段記
載の「検索候補語に対する類語化処理部、類語を編集・
更新し辞書に記憶する変換部」等である。これは辞書を
作成・更新する処理であるが、更新された辞書は「辞書
から検索子属性情報を格納部に転写する」ことによって
極めて有効に機能する。なぜならば当該辞書中の類似関
係は、検索しようとしているデータベースのパターンを
直接保有しているため当然の事である。

【００６７】更に、当該辞書は一つのテーマに関する類
似関係以外に、過去に吸収された類似関係をも記憶し累
積されているため、現前のテーマに対する検索式を作成
するにおいて、その基礎母集団が有する以上の豊富な類
語を利用して検索が行なわれ、再現率の向上に大きな効
果を示すであろう。以上の及びが本発明における第
一の再現率向上手段である。

【００６８】しかし、幾つか選ばれた系列式が検索し
得る範囲は、それぞれに特異な指向性をもっている。特
に従来の技術の中の第二番目の問題点において記したご
とく、「高適合率や高出現頻度を基準とした検索は、同
質の主題のみ追いかけ、重要であるが低頻度の異質な検
索語をもつ情報群を切り捨てる事になる。従って再現性
の広さを返って喪失しており、この事はまた逆も成立し
低い出現頻度をもつ検索子のみで検索をおこなう事も、
再現率の極端な劣化を来す。」という欠点を克服するた
めには、基礎母集団中の低い出現頻度をもつ適合情報群
を確実に検索し得るよう、系列式は自己再現率１００％
である事と、当該式を複数作成する事が必要であること
が分かった。

【００６９】自己再現率１００％であることの重要性は
自明の事として、系列式を複数作成する事の必要性は次
の理由による。

【００７０】即ち、初めの系列においては、高適合率や
高出現頻度を基準としたものが集中しており、次の抽出
処理においては、既成の系列で使用されてダミーファイ
ルに蓄積された検索子に関連するものは全て排除される
ので、引き続き作成される後続の系列は、次第に低適合
率や低出現頻度を基準としたものに、自動的に変化して
いく。一方作成される系列式の数は、基本的には２語系
列式に脱落が発生するまでであるが、必ずしもこれに制
限されることは無く、たとえ脱落が発生し補填が不可能
となっても、引き続き補足的に部分的な系列式を追加作
成することは何ら差し支えない。

【００７１】かくして、重要かつ稀少なグループの情報
がもつ特定の検素子群を、系列検索式や統合検索式の中
に確実に組み入れて、従来見逃されてきたかも知れない
もう一つの検索漏れが、可能なかぎり広く防止された。
この過程が解決の手段（２）及び（３）のダミーファイ
ルによる排除部およびおよび当該ダミーファイルヘの追
加保存で実現されている。これが本発明における第二の
再現率向上手段である。

【００７２】次に課題（４）：検索結果に対して、適合
率を実用的な水準に人為的に設定出来るようにするため
に、次のような手法を開発した。

【００７３】一般に適合率が３５％〜７０％という大き
な値の検索結果においては、再現率と適合率の逆比例的
関係に支配されて、再現率が相当劣化している可能性が
あると考えるべきである。極端に言えば、再現率＝１０
０−適合率、と考えてもよい位で、この場合再現率は６
５％〜３０％と受け止めておいた方が無難であるといえ
る。従って適合率の改善を行なう場合には、それを向上
させる工夫をした前後において、再現率が高度に維持さ
れている事の確認が必要である。

【００７４】ところで検索式を構成する各判別式に
は、検索件数の絶対値と判別適合率において様々な分布
がみられる。この判別式として何を選ぶかが検索式全体
の適合率を支配する。

【００７５】そこで、本発明では、検索式の構成単位で
ある判別式の適合率自体に閾値を設定し、その低下を抑
え、更にその判断基準を自由に設定変更出来るようにし
て、それらのブール和から当然帰結する、適合率の無防
備な低下を未然に防止している。これを実現しているの
が、解決の手段後半の閾値条件の構成における「閾値条
件と１〜３語検索子の属性とを照合して、採用するか、
より高次の検索子に送るか、さもなければ系列から除外
するかを決定する」機能である。この機能の内、適合率
閾値を無閾に高く設定すると、２語系列式に脱落が発生
する機会が極めて早くに生じ、系列式を十分作成するこ
とが出来ない。

【００７６】適合率閾値としては経験的に１〜２０％程
度、および件数閾値としては５０〜３００件程度に設定
される。その結果各系列の適合率としては、およそ適合
率閾値の１／１〜１／３位になることが多い。これが本
発明における、適合率を人為的に設定する第一の手段で
あり、また適合率向上の第一の手段である。

【００７７】しかし閾値条件を満足しただけでは、上
記したように尚適合率が低い場合が多く、また同一系列
式内での各検索子の判別適合率は、高低広く分散してい
る。

【００７８】そこで、本発明では、特許請求の範囲請求
項１記載のごとく、各系列式中同頻度の判別式は、必要
とあれば二次以上に結合し、全判別式のブール和を新た
な系列式として、それらを更に二次以上に結合して最終
検索式を導く事により、初めに得られた再現率をできる
だけ維持しつつ適合率の更なる向上を実現した。これを
実現しているのが、解決の手段（５）「全系列式を合成
する最終検索式作成部」である。

【００７９】一般に各系列式には、適合情報の濃密な集
合と希薄な集合が混在しており、これらを結合する次数
は、再現率を重視した場合は余り高次にすべきではなく
経験的には２〜３次が望ましく、適合率を重視した場合
は最大系列式数の次数まで利用され得る。これが本発明
における、適合率を人為的に設定する第二の手段であり
また適合率向上の第二の手段である。

【００８０】

【実施例】

【００８１】評価α：初めに、検索の評価として次の基
準と式を設定する。

【式２】この式の意味するところは次の通りである。適合率、再
現率が共に１００％のとき評価αは２００点となり、適
合率＝３．１６％、再現率＝１００％のとき評価αは１
００点になるように係数を与えた。このα＝１００点
が、検索法評価の分岐点になるものと考えられる。例え
ば適合率＝３．１６％、再現率＝９９％のごとく単に再
現率が１％低下しただけで、評価αは７９点と著しく低
下することになる。ところが再現率＝９９％、適合率＝
１０％のごとく適合率に大きな向上があった場合は、評
価αは９９点となり、当該検索法は極めて優秀であると
判断される。尚評価点が１２０点以上とするには、再現
率は９９．５％以上、適合率は１７％前後以上が要求さ
れる。従ってα＝２００点に近い結果を求めることは、
ほとんど不可能に近いと考えられる。

【００８２】検索の専門家がおこなう特許ファイルに関
する検索の事例として、キーワードとＩＰＣによる前記
文献（１４）の検索結果によれば、再現率において、ＣＡ（ＣｈｅｍｉｃａｌＡｂｓｔｒｕｃｔ文献特許ＤＢ）＝２６％、パトリス（日本特許情報機構：日本特許ＤＢ）＝４８％、ＷＰＩ（ＷｏｒｌｄＰａｔｅｎｎｔＩｎｄｅｘＤＢ）＝３８％（ここに、ＤＢ＝データベース）となっている。しかし
ＷＰＩの場合、マニュアルコードとＰＬＡＳＤＯＣコー
ドを併用すると再現率は７４％となる（立花肇：三井東
圧化学当時私信）。いずれにしろ本報告のような広い概
念的なワードレベルの検索では、この程度の結果しか得
られず更に検索精度を向上させるには、より特化され指
向性の高いワードやコード類を組み合わせる必要があ
る、と結論されている。ところで本報告には適合率に関
する記載が無いため、上記評価αの実体的な値の算出は
できない。しかし適合率として経験的には通常数％〜十
％前後であろうから、これよりおよその評価は可能であ
り、本例に対して上記評価αを算出すると以下の通りで
ある。再現率としては両コードを加えた立花の私信によ
った。再現率適合率評価α ７４％２％２点７４％５％１５点７４％１０％２５点従って本報告の検索精度は、高目にみても２０〜３０点
位かと判断される。

【００８３】ところがもし検索のテーマが、以下に記載
するような特化され指向性の高い場合は、再現率は９０
％前後に向上するのが通常である。そのときの評価αを
推算すれば以下の通りである。再現率適合率評価α ９０％２％２５点９０％５％３８点９０％１０％４８点これより検索の専門家がおこなう標準的な検索における
評価αは、概ね５０点位と見積もられる。従って本発明
の実施例における評価αは、５０点を標準値として以下
検索の精度を判断する。

【００８４】つづいて本発明の実施例に関して共通する
事項を説明する。本発明の実施例における検索のテーマ
は、指向性の高い二つの主題からなる、「ポリカーボネ
ート樹脂に関する製造法ならびに物質特許」とした。

【００８５】本実施例における適合情報としての基礎母
集団は、平成３年度に得られた既知の公開特許公報のみ
８７件とし、平成３〜５年の３年間に当社の技術関係者
が精査して適合情報であると認めたものは、当該８７件
を含めて公開・公告特許公報合わせて３０６件であっ
た。検索を行なうデータベースはパトリスによった。

【００８６】検索式の作成および検索の実行について
は、既にその詳細を説明した課題を解決するための手段
および発明の実施の形態に記載した、代表的な手順に準
じて行なった。

【００８７】実施例１本発明の効果を実証するために、実施例を用いてその詳
細を説明する。用意された適合情報は、前記した平成３
年の１年間の中から、公告公報を除いて適合と認められ
た全公開公報８７件を、基礎母集団とした。実施した全
プロセスは、既に「発明の実施の形態」において詳しく
説明したので省略する。

【００８８】閾値の設定：閾値としては、判別適合率＝
３．５％とし、１件が３．５％となる集合は２９件であ
り、この約１０倍の３００件を判別検索件数とした。判
別検索期間は、平成３年全１年間とした。当該閾値は、
検索者がその経験にもとづいて自由に設定されうるもの
であり、何ら本例に制限されるものではない。

【００８９】検索語：抽出する検索語としては本実施例
ではフリータームのみを選び、第５系列式まで導いた。
各系列中の各検索子の適合密度を図１に示す。隣りあう
系列群のデータは、グラフ上重なるので順次１０倍づつ
ずらせて表示した。

【００９０】検素の結果：検素の結果を表１に示す。但
し遺漏率＝１００−再現率とする。

【００９１】

【表１】

【００９２】本実施例では、検索の初心者が単にコンピ
ュータを操作するだけで、且つフリータームのみしか用
いていないにも関わらず、その第１、２系列式において
は、３年間の再現率がいずれも９５％以上であり、評価
αはほぼ標準値に匹敵している検索結果が得られてい
る。

【００９３】ところで、第３系列式以降の結果がそれ単
独ではかなり不良であるが、これは本発明の正しさを逆
に証明しているということが、次の実施例で示される。

【００９４】実施例２本発明の効果をさらに実証するために、表１中の第３系
列式以降の結果の効果について説明する。表１におい
て、第３系列式以降の結果は一見不良のようにみえる
が、順次これらの系列式のブール和をとっていくと、表
２の再現率に示されるように、第５系列目で遂に再現率
は１００％となり、これをグラフに示すと図２の１次１
次結合のプロット（○）である。

【００９５】

【表２】

【００９６】つまり各系列式はそれが検索しようとする
中心主題を少しずつ変化させ、高頻度検素子を含む適合
集合から低頻度検索子を含む適合集合へとシフトして、
第５系列目までの和で遂に平成３年度の公開公報８７件
に基づいて、同年の公告公報をも含めて、平成５年度ま
での３年間に適合する全ての公告、公開公報３０６件
を、完全に検索出来たことを意味するものである。検索
の初心者が、単にコンピューターを扱うだけで、これだ
けの成果が得られることは驚くべき事である。

【００９７】しかし表２で分かる通り、各系列式の単純
な１次結合即ち単なるブール和だけでは、再現率１００
％のときの適合率は実用的には十分大きくはなく、その
ため評価αも標準値よりかなり低いと見られる。従って
適合率が低くても、徹底的に網羅的検索を行う必要があ
る場合には、本法はその目的を充分達成していることが
分かる。

【００９８】実施例３本発明の効果をさらに実証するために、表１中の第５系
列式までの各系列を２次的に結合すると、即ち２系列ず
つのブール積を全て加えてそれらのブール和をとると、
適合率の改善が計られ且つ再現率の低下がかなり防止さ
れることが期待される。その結果を表３に示す。これを
グラフに示すと図２の１次２次結合のプロット（●）で
ある。

【００９９】

【表３】

【０１００】結果として、再現率の低下が９８％強に止
まったことは極めて優秀であり、適合率は１次結合に比
べて約３倍に向上し、約１．３％である点実用範囲内に
あるものと判断される。また全ての評価αが標準値を上
回っており、実用的には十分耐えうると云うべきであろ
う。

【０１０１】実施例４本発明の効果をさらに実証するために、表１中の第５系
列式までの各系列内において、同頻度の検索子を２次的
に結合して、全て加えたそれらのブール和を擬２次系列
式とすると、適合率の改善が計られ且つ再現率の低下が
かなり防止されることが期待される。その結果を表４か
ら６に示す。

【０１０２】表４より分かる通り、表１の単純１次系列
式の結果に比べて、表４の擬２次系列式の結果は、適合
率では１．５から４倍に向上するが、遺漏率では１から
３．５倍と増加している。

【０１０３】

【表４】

【０１０４】これらに対して実施例２、３と同じく、第
５系列式までの各系列を１次および２次的に結合して得
られた結果を、表５、６に示す。

【０１０５】表５をグラフに示すと図２の擬２次１次結
合のプロット（□）である。表５では表２に比べて、適
合率は３倍強に改善され、再現率も９９％弱と優れてい
る。また評価αは標準値を１０点以上も上回っており、
実用性は充分高いと云える。

【０１０６】

【表５】

【０１０７】表６をグラフに示すと図２の擬２次２次結
合のプロット（■）である。表６では表２に比べて、適
合率は約１０倍に改善され、９５％強の再現率が得られ
ている。また評価αは標準値以上であり、検索の熟練者
に十分匹敵する結果であると云える。

【０１０８】

【表６】

【０１０９】実施例５本発明の効果をさらに実証するために、表１中の第５系
列式までの各系列中において、同頻度の検索子を３次的
に結合して、全て加えたそれらのブール和を擬３次系列
式とすると、適合率の改善が計られ且つ再現率の低下が
かなり防止されることが期待される。その結果を表７か
ら９に示す。

【０１１０】表７より分かる通り、表１の単純１次系列
式の結果に比べて、表７の擬３次系列式の結果は、適合
率では１．５から４．５倍に向上するが、遺漏率では１
から３．５倍と増加している。

【０１１１】

【表７】

【０１１２】これらに対して実施例３、４と同じく、第
５系列式までの各系列を１次および２次的に結合して得
られた結果を、表８、９に示す。

【０１１３】表８をグラフに示すと図２の擬３次１次結
合のプロット（△）である。表８では表２に比べて、適
合率は４倍に改善され、再現率も９８％と優れている。
又評価αは標準値を１０点近く上回っており、実用性は
充分高いと云える。

【０１１４】

【表８】

【０１１５】表９をグラフに示すと図２の擬３次２次結
合のプロット（▲）である。表９では表２に比べて、適
合率は１０倍に改善され、９３％強の再現率が得られて
いる。また評価αは標準値並みとみなされ、検索の熟練
者に十分匹敵する結果であると云える。

【０１１６】

【表９】

【０１１７】

【発明の効果】本発明によれば、従来、熟練者でなけれ
ば対応できなかった検索技術のノウハウをコンピュータ
ーに行わせることにより、適合率を実用的な水準に人為
的に制御し、その中で熟練者と同等以上の再現率を確保
することを可能にした。

【図面の簡単な説明】

【図１】実施例１における各系列のＦＫＷ系検索子の適
合密度

【図２】実施例１〜５の系列式の結合次数と検索の効果

Claims

【特許請求の範囲】

【請求項１】検索候補語およびその類語を用いて情報
を検索するにおいて１語処理部として、既知の適合情報中の検索子を利用
するための１語検索子抽出部、１語の種類・判別検索件
数・判別適合率等の１語検索子属性辞書部、１語検索子
属性転写部、類語化処理部、不要語化処理部、閾値条件
判定部、同条件を満足した場合採用１語として保存する
ファイル作成部、それを追加保存するダミーファイル作
成部等を具え、２語処理部として、同一情報中で共起関係にある２語
検索子合成部、２語の種類・判別検索件数・判別適合率
等の２語検索子属性辞書部、２語検索子属性転写部、２
語系列式作成部およびそれを保存するファイル作成部、
それを追加保存するダミーファイル作成部、２語系列式
中に出現する採用１語検出部、それを追加保存するダミ
ーファイル作成部、閾値条件判定部、同条件を満足した
場合採用２語として保存するファイル作成部、それを追
加保存するダミーファイル作成部、３語化指定処理部、
２語検索子から採用１語ダミーファイル中の１語を含む
２語および２語系列ダミーファイル中の２語を、それぞ
れ削除する処理部等を具え、３語処理部として、３語化指定された２語を含む同一
情報中で共起関係にある３語検素子合成部、３語の種類
・判別検索件数・判別適合率等の３語検索子属性辞書
部、３語検索子属性転写部、３語系列式作成部およびそ
れを保存するファイル作成部、それを追加保存するダミ
ーファイル作成部、３語系列式中に出現する採用１語検
出部およびそれを追加保存するダミーファイル作成部、
閾値条件判定部、同条件を満足した場合採用３語として
保存するファイル作成部、それを追加保存するダミーフ
ァイル作成部、閾値条件を満足しない３語を削除するた
めの排除処理部、３語検索子から採用１語ダミーファイ
ル中の１語を含む３語、並びに２語系列ダミーファイル
中の２語を含む３語、さらに３語系列ダミーファイル中
の３語をそれぞれ削除する処理部、等を具え、前記〜までのすべてに共通する処理として、各
処理部のデータおよびメッセージ表示部、検索子属性管
理辞書部、閾値判定部、判別式作成部、判別検索件数入
力および判別適合率計算部、判別検索件数および判別適
合率に関する閾値条件設定部、同閾値更新処理部、等を
具え、前記とに共通する処理として、採用１語検出部、
採用２語検出部、２または３語系列式中の脱落に対し
て、新規に２語を組み込むための２語補填部およびそれ
を追加保存するダミーファイル作成部、各系列式中同頻
度の判別式は、必要とあれば二次以上に結合し、新たな
系列式を導く系列式作成部、各系列式を二次以上に結合
する最終検索式作成部、等より構成されることを特徴と
する情報の機械的検索法およびその装置。
【請求項２】閾値条件を構成するにおいて、閾値として適合率閾値および検索件数閾値を個別に設
け、（ａ）適合率閾値に関しては、目的とする最終検索
式の適合率の、１〜５倍に設定し、（ｂ）検索件数閾値
に関しては、１件の情報を捕獲するに要する、前記
（ａ）にて設定された適合率を与える検索件数の、１〜
１０倍に設定し、閾値条件の内検索件数に関しては、判別式中の各検索
子に対する判別検索件数が当該閾値と比較して、小なら
ば系列式の構成要素として採用し、さもなければ同一情
報中で共起関係にある他の１語を組み足して、より高次
のブール積の作成部に送られるかまたは排除されるに於
いて、閾値条件の内適合率に関しては、判別式中の各検索子
に対する判別検索件数と、基礎母集団中のその頻度との
割合として得られる判別適合率を計算し、当該閾値と比
較して、大ならば系列式の構成要素として採用し、さも
なければ同一情報中で共起関係にある他の１語を組み足
して、より高次のブール積の作成部に送られるかまたは
排除されるに於いて、上記またはのいずれかの条件が満足される検索子
を採用して系列式が構成される請求項１記載の情報の機
械的検索法およびその装置。