JP2000293529A - 情報の機械的検索法およびその装置 - Google Patents

情報の機械的検索法およびその装置

Info

Publication number
JP2000293529A
JP2000293529A JP11096503A JP9650399A JP2000293529A JP 2000293529 A JP2000293529 A JP 2000293529A JP 11096503 A JP11096503 A JP 11096503A JP 9650399 A JP9650399 A JP 9650399A JP 2000293529 A JP2000293529 A JP 2000293529A
Authority
JP
Japan
Prior art keywords
word
search
unit
words
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11096503A
Other languages
English (en)
Inventor
Toshihiro Nakazato
寿弘 中里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Gas Chemical Co Inc
Original Assignee
Mitsubishi Gas Chemical Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Gas Chemical Co Inc filed Critical Mitsubishi Gas Chemical Co Inc
Priority to JP11096503A priority Critical patent/JP2000293529A/ja
Publication of JP2000293529A publication Critical patent/JP2000293529A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 既知の適合情報に対する再現率を100%と
する検索式を導き、漏れの少ない高い再現性を実現す
る。 【解決手段】 既知の適合情報中の検索候補語を抽出
し、必要ならばそれらをグループ化する為の類語化処理
を行い、同一情報中の共起関係にある2語以上のブール
積よりなる検索子頻度表を作成し、それらから高頻度順
に、全ての基礎母集団を含むよう、新規の検索子を選択
し系列式を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索方法およ
びその装置に関するものであり、詳しくは、(1)検索
結果に対しては、実用的な水準に適合率(注記01)を
人為的に設定出来る事と、検索の専門家と同等以上の高
い再現率(注記01)を確保し、機械的検索法の信頼性
を確立すると共に、(2)検索式の作成およびその操作
に関しては、検索子の選択に関する個人差をほとんど無
くし、情報化に対するより高い普遍性を与えるととも
に、初心者でも熟練検索者に匹敵する検索を可能とし、
人材の効用に広く資する、等の目的を実現するための方
法および装置に関するものである。
【0002】
【式1】
【0003】
【従来の技術】情報を収集するにおいて、大きくみれば
二つの分野があり、一つはインタビューや取材、あるい
は手めくりによる閲覧、索引による調査等人が直接探す
方法があり、二つには機械的検索、即ち主としてコンピ
ュータ検索の分野があり、その中でも特に情報をデータ
ベースの中に蓄積し、各情報に検索候補語(検索語とし
ての自然語や統制語等)を付与し、それらを指標として
目的の情報にたどり着く方法とがある。本発明はデータ
ベースに対するコンピュータ検索に関する分野であり、
オンライン、スタンドアロンの種類は問わない。
【0004】従来データベースを対象として開発されて
きた機械的検索法としては、次のような方法が提案され
ている。
【0005】(1)特開平4−62667号には、予め
優先順位が付与されて選択された全ての単独検索語を含
む全集合を検索の対象とし、続いてそれらの共起関係に
あるプール積検索語を2語、3語と作成して部分集合に
分解し、含まれる検索語と優先順位とより適合性を判断
し、高得点のものから優位な情報か否かを精査する方法
である。
【0006】(2)特開平6−274541号には、検
索者が例えばシソーラス等より選択した一つの検索語に
対して、同一情報中に共起する高頻度の他の用語を関連
検索語として、自動的に援用しより広い検索をおこなう
事によって再現率を向上させようとするものである。
【0007】(3)「適合情報利用によるオンライン高
性能自動文献探索法」(海老沼幸夫著.情報管理.VO
L.27.N0.8.P.692―703.1984
年)には、基礎母集団として10件ほど、有効な検索語
として10語ほどを人が選択し、データベース中に出現
する各検索語の頻度に対する基礎母集団中に出現する各
検索語の頻度(このように実際のデータベースとサンプ
ルとの関係を考察する系を、以下サンプル・モデルと呼
ぶこととする)の比を部分適合率(著者は能力値とい
う)として求め、同一情報中でのこれらの合計を当該情
報が有する得点とし、基礎母集団中での最小の得点を閾
値として、有効な検索語が全て利用されるまで単独の検
索語から順次共起関係にあるブール積検索語を調べ、当
該閾値以上のものを部分検索式(著者は探索式という)
として採用し、これらのブール和をとって最終検索式と
する方法である。
【0008】(4)特開平5−151271号には、実
施例によると基礎母集団としての3件の適合情報と5件
の不適合情報を別途用意して微小集団の模擬的マイクロ
・データベース(これをマイクロ・モデルと呼ぶ事とす
る)を作成する。各検索語のマイクロ・モデル中の部分
適合率と適合情報中での検索語の出現頻度率とを比較し
て、後者の方が高いものを人の判断によらず機械的に検
索語として決定する。以降の処理において、マイクロ・
モデル中の部分適合率の算出方法を多少変形して(発明
者は能力値という)、閾値と照合する等殆ど前記3報の
方法に準拠して処理される方法である。
【0009】(5)特開平8−320879号には、前
記4報の方法とほぼ同様の技術的基礎に基づき、部分検
索式を多項目的に分割作成し、一方検索結果を適合性の
高い順に出力する、等の改善をおこなったものである。
【0010】(6)特開平7―141396号には、蓄
積された既知の適合情報中における検索語の出現頻度
と、新規な適合情報を追加蓄積した後の当該検索語の出
現頻度とを比較して、その微分値ないしは差分が設定さ
れた閾値条件を満足したとき、その検索語を含む情報は
見逃してはならない特異情報の可能性があるとして、精
査の対象から逸脱しないようにしようとするものであ
る。
【0011】(7)「情報検索によって新しい仮説は発
見できるか。Don R.Swansonの新理論紹
介」(学習院女子短期大学,菊地しづ子著.医学図書
館,vo1.37,no.1,p.29−33,199
0年)には、複数の主題を同時に含んでいて、しかも検
索語としてはそのいずれかが脱落していて、通常の共起
関係による検索語検索では全く検索不可能であると考え
られる情報を、引例の検索を組み入れる事によって検索
を実現しようとするものである。
【0012】以上の他にも多くの検索法が提案されてい
るが、ここに挙げられた例によって本発明が直接関係す
る技術的内容について、従来の技術に関する基本的趨勢
をまとめると次のようになる。
【0013】即ち、一つには、前記(1)、(2)及び
(7)等に代表されるように、「再現率を重視した」検
索法として、共起関係にある関連語や連想語およびシソ
ーラス、あるいは引例等を参照して関連する上位、下位
概念等その他を同時に併用して検索し、できるだけ漏れ
の少ない検索結果を導こうとする提案である。
【0014】また二つには、前記(3)、(4)及び
(5)等に代表されるように、「検索式の作成法を重視
した」検索法として、有意な検索語の選択や部分検索式
を決定するにおいて、各検索候補語や部分検索式の出現
頻度や適合率等を計算して、確率論的に導かれた閾値や
能力値あるいは重み等を基準にして、自動的に検索式を
発生させようとする提案である。
【0015】更に三つには、前記(6)に代表されるよ
うに、「特異情報を重視した」検索法として、既存の適
合情報群とは相当異なった検索語を持つ新規な情報を、
一般の検索の中で同時に検出して検索者に通報し、主題
の変化や先端の動向に対して検索者が的確に追随して行
けるようにと、意図された提案がある。しかもこのよう
な機能は単に変化や先走りを追うことが出来るという点
にのみ価値があるだけではなく、過去の遡及検索におい
ても得てして見逃されがちな、適合情報の中での微小集
団の情報を選択的に抽出するためにも利用されうる。
【0016】以上のような検索の技術開発に於いて、評
価の基準として考えておかなければならない点として、
次のような指摘がなされている。
【0017】その欠点の一つは、再現率と適合率が逆比
例的な関係にあるという、検索の操作それ自体が示す背
反的な特徴に対して、下記に列挙する諸々の報告に代表
されるような、吟味あるいは批判がなされてきた事であ
る。
【0018】(8)″Presenting Resu
lts of Experimental Retri
eva1 Comparisons″(E.M.Kee
n著,Information Processing
& Management,vol.28,no.
4,p.491−502,1992年) (9)″Effective Strategies
for Searching Existing Pa
tent Rights″(J.van derDri
ft著,World Patent Informat
ion,vol.13,no.2,p.67−71,1
991年) (10)″Determining the Effe
ctiveness of Retrieva1 A1
gorithms″(H.P.Frei,P.Sche
auble著,Information Proces
sing & Management,vol.27,
nos.2/3,p.153−164,1991年) (11)″The Pragmatics of In
formation Retrieva1 Exper
imentation,Revisited″(J.T
ague−Sutcliffe著,Informati
on Processing & Managemen
t,vol.28, no.4,p.467−490,
1992年) (12)″Variations in Relev
ance Judgments and the Ev
aluation of Retrieva1Perf
ormance″(R.Burgin著,Inform
ation Processing & Manage
ment,vo1.28,no.5,p.619−62
7,1992年)
【0019】以上の(8)から(12)までの報告で
は、「再現率を上げれば上げるほど適合率が低下し、適
合率を上げれば上げるほど再現率が低下し、これらを同
時に向上させる事は殆ど不可能である。」という事を認
め、実用的な適合率を与える検索結果を受入れ、その時
に得られる比較的低い再現率を甘受せざるを得ない、と
結論していることである。
【0020】その欠点の二つは、検索結果の中に出現す
る適合情報と不適合情報を識別する人間の能力、これは
サベイランス・キャパシティ或いは検証能力とでも云え
る能力には限界があり、小規模なモデル実験ではその障
害は無視されがちで、大規模なシステムにそのまま適用
すると、その過剰負荷のために検索行為そのものが崩壊
するという事について、下記の報告に批判がなされてい
る事である。
【0021】(13)「情報システム・データベース構
築の基礎理論(8.4 情報システムの評価における
『小規模システム症候群』)」(ロベルト・フーグマン
著.情報インデクシング研究会訳.東京.(社)情報科
学技術協会.P.283−289.1984年) (14)「架橋ポリマーの検索」(久松健三、大島和
幸、近藤立夫、佐伯嗣郎、木島康、小山内正明著.平成
4年度日本PLASDOCオンライン研究会秋季研修
会.1992年)
【0022】このような状況の下に前記(1)から
(7)までの提案を見てみると、大きく分けて二つの問
題点が見られる。
【0023】第一番目としては、前記(1)から(5)
に共通する点は、それらの検索法において、再現率と適
合率が同時に改善されてはいないという点が問題であ
る。
【0024】即ち、「再現率を重視した」前記(1)及
び(2)等の検索法では、確かに漏れを少なくするため
には当該提案のごとき処理は大変有効であるとは思われ
るが、しかし単独検索子を含む全集合を集めたり、共起
関係にある関連語をブール和で追加するということは、
大規模システムでは非常に広い検索結果を導くことにな
り、これでは膨大な数量を持つ現実のデータベースを取
り扱おうとしたとき、結果的に手めくりによる全数検査
のような負荷と変わらなくなり、人の検証能力を大きく
逸脱してしまうという点を改善しないかぎり、現実性を
欠く。
【0025】従って、そこに得られたより高い再現率を
維持したまま、如何に有効な絞り込み方法を後続させる
かが極めて重要であるが、一般には前記した通り再現率
と適合率は逆比例的関係にあり、これらの双方を同時に
高い水準まで向上させることは世界的レベルにおいて未
だ十分な成功をみていない。従って本提案のごとく一度
広げられた検索範囲を絞り込むためには、余程の有効な
手段が開発されないかぎり折角得られた高い再現率を維
持できないのであるが、前記(1)においては付与され
た優先順位がその役目を果たすであろうが、一般のデー
タベースにそれを期待することはできず、前記(2)に
おいては絞り込みの有効な手段が定量的には示されてな
く、結局両者とも適合率に関して普遍的には何ら考慮さ
れておらず、大規模なシステムに適用すると膨大な数の
非現実的な検索結果になる可能性に対して、無防備であ
る。
【0026】又、「検索式の作成法を重視した」前記
(3)、(4)及び(5)等の検索法では、確かに検索
子の選択や部分検索式の決定ひいては総合検索式の作成
等が、極めて客観的かつ機械的におこなわれ、また閾値
等の決定に用いられた確率論的根拠にも無理がなく大変
有望な方法であるとは思われる。 しかしこれらの手法
はあくまでも検索式の作成法であって、より高い再現率
もまたより高い適合率をも、同時に保証するものではな
いという点が問題である。
【0027】なぜならば、各情報から選択された検索子
が、それ自体が所属していた親情報から切り離され、検
索子群全体の中でのみ共起関係にあるとしてブール積が
作成されるために、そこに作成された共起関係即ちブー
ル積検索子が、同一情報中に確実に存在するという保証
は無くなるからである。つまり全く無効な検索子群を作
成することも起こり得るのであり、従ってこのような部
分検索式の総和から作成された式によって検索された結
果、確実にキャッチされなければならない筈の基礎母集
団に対してさえ、検索漏れを起こす可能性がある。この
事が、提案された検索結果に如何なる影響を及ぼすかに
ついては、何ら言及されておらず、従って不首尾な結果
に至る可能性がそのまま放置されている。
【0028】また一方、適合率からのみみれば、前記
(3)のようなサンプル・モデルでは実用性があるのに
対して、演鐸的に効率を求めた前記(4)のようなマイ
クロ・モデルでは、適合率の劣化という副作用が発生す
るために、検索法そのものの機能的完成度が低下すると
いえよう。このような事は当該発明の進歩性に大きく影
響しているにも関わらず、これらの提案においては何ら
言及されてはいないのである。但し、前記(3)によっ
て得られた適合率が実用的水準に達しているという結果
は、適合率に関してのみいえる事であり、そのことが前
記した再現率劣化の危険性を何ら救済するものではな
い。
【0029】第二番目としては、一部の提案者の着眼を
除いて、多く見落とされている極めて重要な事は、検索
子に関する高適合率や高出現頻度を基準として検索する
という事は、同質の主題に関して純粋培養型の検索をお
こなう事であり、適合情報として重要であるにも関わら
ず低頻度の特異なあるいは異質な検索語をもつ情報群を
選択的に切り捨てているという点である。つまり高適合
率を尊重すればするほど逆に適合性の広がりを返って喪
失していくという点である。この事はまた逆も成立し低
い出現頻度をもつ検索子のみを中心に検索をおこなう事
も、再現率の極端な劣化を来すことは言うまでもない。
【0030】以上のような事情が発生する理由は簡単で
あり、つまり適合情報というものは全て同質の主題や検
索子から成り立ってはいないからである。従って必ずい
くつかの異なった主題のグループが大小取り混ぜて集ま
ったものであり、それぞれに重要な適合情報でありどれ
一つとして軽んずべきではなく、それに対する手当てが
如何に講じられているかという点が、再現率の完成度を
決定するといえよう。
【0031】ところが、検索子の選択や部分検索式の作
成に当たって、その決定の根拠を高適合率や高出現頻度
のみに置く、前記(1)から(5)に代表される従来の
技術では、既知の適合情報の内基礎母集団中の大グルー
プのものと同質の情報を優先的に選択し、他の小グルー
プのものを結果的に排除していくよう自動的に設定され
ている。
【0032】この機能の意味するところは、その用語が
検索子として認められ、検索式に採用されるようになる
には、同種の情報がある程度時間を経て蓄積されてこな
ければならずその間のタイムラグのため、近い将来に有
望な新技術となるかも知れないその兆候の現れをいち早
くキャッチして、開発の先端動向に素早く追随していく
という意図が妨げられるという事であり、のみならず過
去に対する遡及検索においても、重要且つ希少なグルー
プの情報の多くをほとんど欠落させてしまうという、致
命的な再現率の低下に甘んじなければならない事であ
る。
【0033】従って、低出現頻度や低適合率を有する基
礎母集団中の小グループの検索子を検索式に確実に反映
させて、希少なグループの適合情報をも検索し得る、総
合的な提案はまだ実現していないといえよう。
【0034】このような視点に注目して、前記(6)や
その他の時系列的検索法などに代表されるように、出現
頻度や適合率の相対値によって判断するのではなく、注
目する検索子の大きな変化によって要注意情報として精
査すべきことを、検索者に通報する等の提案がなされて
いる。ただし前記(6)の提案は、検索後の最終データ
を読み取って適合性の示唆を保証するものではなく、と
にかくその中に特異な用語があるか否かを結果的に判別
する方法であって、検索法そのものではない。
【0035】同様に、前記(7)の提案では、検索子が
全く付与されていなくても該当する情報を見つけ出そう
とする試みであり、これは既に引例検索法して実用化さ
れつつある。この提案で重要な点は、高適合性あるいは
高頻度に出現する検索子のみを追求することは最早や棄
却され、全く異なった検索域から適合情報を追求しよう
とされていることである。従って、再現性をより一層向
上させる一手段としては、大変有効な手法ではある。し
かし、残念ながら、引例そのものの任意性および引例検
索が可能なデータベースは極めて限られているというこ
と、など当該手法は検索子検索に比べて普遍性あるもの
とはいえず、補助的な一手段であり全体的な検索法で無
いことは云うまでもない。
【0036】また、前記(8)から(12)までの研究
例では、再現率と適合率の逆比例的関係を如何に克服す
るかについての種々の提案がなされてはいるが、その意
図するところは純粋培養型であったり、基礎母集団に対
する自己再現性を無視していたり、再現率の劣化を僅か
に改善しているに過ぎなかったり、小規模システム症候
群の中の判断であったりと様々であり、総合的な解決を
これらの提案の中に期待する事はできない。
【0037】また、検索式の自動作成は出来ないと言い
切っている主張もあり、一方、その可能性を捨ててはい
ない意見もある。つまり検索法に関する定説が確定して
いないのが現状であるといえる。
【0038】以上のごとく、従来の検索技術に於いて
は、決定的な向上が期待できないばかりでなく、一つの
改善(例えば適合率)を意図した事が他の面(例えば再
現率)の効果を、またその逆も同じであるが、場合によ
っては非実用的な水準にまで劣化させる事を防止出来な
いという事態に直面していると云える。
【0039】更に、前記例のかなりの報告では、検索法
を評価するために用いられた基礎母集団数やデータベー
ス中の情報数、および採用された検索子数が少なすぎる
為、大規模なデータベースに対して十分実用性が在ると
は云えないばかりでなく、むしろR.フーグマンが指摘
するように、大規模なデータベースにそのまま適用する
と、その時点で明らかに自己崩壊するかも知れないとい
う、危険性の方が高いと云える。最後の文献(14)に
ついては、後記実施例にて説明する。
【0040】
【発明が解決しようとする課題】以上で分かるように、
従来の技術には、 (1)膨大なシソーラス等を学習する事無しに、検索の
初心者でさえ熟練者に匹敵するような検索式の機械的な
作成 (2)熟練検索者と同等以上の高い再現率で、検索し得
る検索式の作成 (3)適合率を、実用的な水準に人為的に設定出来る検
索結果の獲得 (4)適合小グループの検索子をも含めて、基礎母集団
全体を完全に検索できるという、自己再現性が完成され
た検索式の作成 以上の四つの検索技術がすべて満たされた検索式の作成
法は、まだ実現されてはおらず、これを解決し実現する
事が本発明の課題である。
【0041】
【課題を解決するための手段】本発明は、検索候補語お
よびその類語を用いて情報を検索するにおいて、 1語処理部として、既知の適合情報中の検索子を利用
するための1語検索子抽出部、1語の種類・判別検索件
数・判別適合率等の1語検索子属性辞書部、1語検索子
属性転写部、類語化処理部、不要語化処理部、閾値条件
判定部、同条件を満足した場合採用1語として保存する
ファイル作成部、それを追加保存するダミーファイル作
成部等を具え、 2語処理部として、同一情報中で共起関係にある2語
検索子合成部、2語の種類・判別検索件数・判別適合率
等の2語検索子属性辞書部、2語検索子属性転写部、2
語系列式作成部およびそれを保存するファイル作成部、
それを追加保存するダミーファイル作成部、2語系列式
中に出現する採用1語検出部、それを追加保存するダミ
ーファイル作成部、閾値条件判定部、同条件を満足した
場合採用2語として保存するファイル作成部、それを追
加保存するダミーファイル作成部、3語化指定処理部、
2語検索子から採用1語ダミーファイル中の1語を含む
2語および2語系列ダミーファイル中の2語を、それぞ
れ削除する処理部等を具え、 3語処理部として、3語化指定された2語を含む同一
情報中で共起関係にある3語検索子合成部、3語の種類
・判別検索件数・判別適合率等の3語検索子属性辞書
部、3語検索子属性転写部、3語系列式作成部およびそ
れを保存するファイル作成部、それを追加保存するダミ
ーファイル作成部、3語系列式中に出現する採用1語検
出部およびそれを追加保存するダミーファイル作成部、
閾値条件判定部、同条件を満足した場合採用3語として
保存するファイル作成部、それを追加保存するダミーフ
ァイル作成部、閾値条件を満足しない3語を削除するた
めの排除処理部、3語検索子から採用1語ダミーファイ
ル中の1語を含む3語、並びに2語系列ダミーファイル
中の2語を含む3語、さらに3語系列ダミーファイル中
の3語をそれぞれ削除する処理部、等を具え、 前記〜までのすべてに共通する処理として、各処
理部のデータおよびメッセージ表示部、検索子属性管理
辞書部、閾値判定部、判別式作成部、判別検索件数入力
および判別適合率計算部、判別検索件数および判別適合
率に関する閾値条件設定部、同閾値更新処理部、等を具
え、 前記とに共通する処理として、採用1語検出部、
採用2語検出部、2または3語系列式中の脱落に対し
て、新規に2語を組み込むための2語補填部およびそれ
を追加保存するダミーファイル作成部、各系列式中同頻
度の判別式は、必要とあれば二次以上に結合し、新たな
系列式を導く系列式作成部、各系列式を二次以上に結合
する最終検索式作成部、等より構成された情報の機械的
検索法およびその装置である。
【0042】更に、閾値条件を構成するにおいて、 閾値として適合率閾値および検索件数閾値を個別に設
け、(a)適合率閾値に関しては、目的とする最終検索
式の適合率の、1〜5倍に設定し、(b)検索件数閾値
に関しては、1件の情報を捕獲するに要する、前記
(a)にて設定された適合率を与える検索件数の、1〜
10倍に設定し、 閾値条件の内検索件数に関しては、判別式中の各検索
子に対する判別検索件数が当該閾値と比較して、小なら
ば系列式の構成要素として採用し、さもなければ同一情
報中で共起関係にある他の1語を組み足して、より高次
のブール積の作成部に送られるかまたは排除されるに於
いて、 閾値条件の内適合率に関しては、判別式中の各検索子
に対する判別検索件数と、基礎母集団中のその頻度との
割合として得られる判別適合率を計算し、当該閾値と比
較して、大ならば系列式の構成要素として採用し、さも
なければ同一情報中で共起関係にある他の1語を組み足
して、より高次のブール積の作成部に送られるかまたは
排除されるに於いて、 上記またはのいずれかの条件が満足される検索子
を採用して系列式を構成された情報の機械的検索法およ
びその装置である。
【0043】
【発明の実施の形態】以下に、本発明を詳細に説明す
る。
【0044】(1)1語抽出処理部および1語辞書部と
しては、 1語抽出処理部においては、(a)基礎母集団中の検
索候補語を抽出する1語抽出部、(b)当該1語を含む
親情報を属性の一つとして記憶する格納部、(c)同一
情報中の検索候補語を無重複化する無重複化処理部、
(d)検索候補語と一致する1語検索子辞書の属性情報
を、格納部に転写する転写部、(e)検索候補語に対す
る類語化処理部、(f)類語を編集・更新し辞書に記憶
する変換部、(g)有効1語検索子か否かを人為的に選
択する不要語処理部、(h)基礎母集団中の1語検索子
の出現頻度降順序列部、(i)基礎母集団中の各検索子
の出現頻度ブール和とその増分を計算する1語増分計算
部、等を具え、
【0045】1語辞書部においては、(a)1語検索
子およびその属性を記憶する1語検索子辞書部、(b)
作成された頻度降順序列中の属性データが、当該辞書中
に無いかまたは変化した場合、当該1語検索子を検出し
て検索件数を要請する1語判別式(注記02)作成部、
(c)入力された検索件数と基礎母集団中の出現頻度よ
り、各判別適合率を計算して、それらの属性を当該辞書
に記憶する1語属性処理部、(d)1、2、3語検索子
に対して共通である判別基準となる閾値として、判別検
索件数、判別適合率等を設定する閾値設定部および更新
部、(e)閾値条件と1語属性とを照合して採用1語検
索子とするか、次の2語の共起関係に送るかを決定する
1語判定部、(f)採用1語検索子を保存する採用1語
ファイル作成部、(g)以上のすべての結果を1語検素
子辞書に記憶する転送部、等を具え、
【0046】[注記02]判別式とは、1、2、3語等
の各検索子をそれぞれ個別に検索するための検索式を云
い、このときその構成要素である1語も同時に検索さ
れ、下記1語属性処理部にてデータが更新される。
【0047】1語処理全般においては、(a)以上の
各過程およびその属性等を必要に応じて閲覧表示する表
示部、(b)必要な処理に対する問い合わせ、警告、命
令等の機能表示部、等を具え、
【0048】(2)2語合成処理部、2語辞書部および
2語系列作成部としては、2語合成処理部において
は、(a)前記不要語処理部(1)(g)にて不要語
指定されなかった有効1語検索子を、同一情報中の2語
のブール積とする2語検索子合成部、(b)当該検索子
を含む親情報を属性の一つとして記憶する格納部、
(c)同一情報中の当該検索子を無重複化する無重複化
処理部、(d)2語検索子と一致する2語検索子辞書の
属性情報を、格納部に転写する転写部、(e)採用1語
ファイルおよびそのダミーファイル(注記03)に在る
採用1語検索子、および下記2語検索子系列作成部
(c)にて作成された、系列2語中に出現する独立1語
検索子を含む2語を、当該合成部(a)より削除する2
語排除部、(f)採用2語ダミーファイルに在る2語検
索子を、当該合成部(a)より削除する2語排除部、
(g)系列2語ダミーファイル(注記04)に在る2語
検索子を、当該合成部(a)より削除する2語排除部、
(h)脱落が発生し2語補填処理(注記05)が行なわ
れた場合の、廃棄2語ダミーファイルに在る2語を当該
合成部(a)より削除する2語排除部、等を具え、
【0049】[注記03]ダミーファイルとは、各系列
を作成するときに発生する採用1語、採用2語および2
語補填に伴う廃棄2語を蓄積保存し、さらに完成した各
系列に含まれる1、2および3語検素子を蓄積保存した
ファイル。 [注記04]各系列が完了したとき、それに用いられた
2語系列式を蓄積保存したファイル。 [注記05]3語系列作成部にて、基礎母集団に対する
自己再現率を100%となし得ない場合、その元となっ
た2語を廃棄し新しい2語と入れ換える。
【0050】2語辞書部においては、(a)2語検索
子およびその属性を記憶する2語検索子辞書部、(b)
作成された系列中の属性データが、当該辞書中に無いか
または変化した場合、当該2語検索子を検出して検索デ
ータを要請する2語判別式作成部、(c)入力された検
索件数と基礎母集団中の出現頻度より、各判別適合率を
計算して、それらの属性を当該辞書に記憶する2語属性
処理部、(d)以上のすべての結果と下記1語判定部
(g)および2語判定部同(h)の結果を、1および2
語検索子辞書に記憶する転送部、等を具え、
【0051】2語系列作成部においては、(a)基礎
母集団中の2語検索子の出現頻度降順序列部、(b)基
礎母集団中の各2語検索子の出現頻度ブール和とその増
分を計算する2語増分計算部、(c)当該序列部(a)
より同頻度の検索子の内、直前の高頻度ブール和に対し
て増分が発生する検索子を、基礎母集団を100%含む
ように抽出する2語検索子系列作成部、(d)当該系列
が基礎母集団を100%含まない場合は、脱落を生じた
2語検索子を特定し、当該情報中の1語検索子の類語化
方法を変化させる2語補填部、(e)前記閾値設定部
(1)(d)にて定義された閾値設定部および更新
部、(f)閾値条件と2語検索子を構成する各1語の属
性とを照合して、採用1語検索子とするか否かを決定す
る1語判定部、(g)もし系列2語中に採用1語検索子
が出現した場合は、これを独立させ採用1語ファイル、
およびそのダミーファイルに追加保存し、同時に2語系
列を作成し直す採用1語処理部、(h)閾値条件と2語
検索子の属性とを照合して、採用2語検索子とするか次
の3語の共起関係に送るか(以下「3語指定された」と
よぶ)を決定する2語判定部、(i)もし系列2語中に
採用2語検索子が出現した場合は、これを採用し採用2
語ファイル、およびそのダミーファイルに追加保存する
採用2語処理部、等を具え
【0052】2語処理全般においては、(a)以上の
各過程およびその属性等を、必要に応じて閲覧表示する
表示部、(b)必要な処理に対する問い合わせ、警告、
命令等の機能表示部、等を具え、
【0053】(3)3語合成処理部、3語辞書部および
3語系列作成部としては、 3語合成処理部においては、(a)前記2語系列作成
部(2)(c)において、3語共起関係に送られるよ
う指定された2語検索子を、同一情報中の3語のブール
積とする3語検索子合成部、(b)当該積を含む親情報
を属性の一つとして記憶する格納部、(c)同一情報中
の当該積を無重複化する無重複化処理部、(d)3語検
索子と一致する3語検索子辞書の属性情報を、格納部に
転写する転写部、(e)採用1語ファイルおよびそのダ
ミーファイルに在る採用1語検索子、および下記3語検
索子系列作成部(c)にて作成された、系列3語中に
出現する採用1語検索子を含む3語を、当該合成部
(a)より削除する3語排除部、(f)採用2語ダミー
ファイルに在る2語検索子を含む3語を、当該合成部
(a)より削除する3語排除部、(g)系列2語ダミー
ファイルに在る2語検索子を含む3語を、当該合成部
(a)より削除する3語排除部、(h)系列3語ダミー
ファイルに在る3語検索子を、当該合成部(a)より削
除する3語排除部、(i)脱落が発生し2語補填処理が
行なわれた場合の、廃棄2語ダミーファイルに在る2語
検索子を含む3語を、当該合成部(a)より削除する3
語排除部、等を具え、
【0054】3語辞書部においては、(a)3語検索
子およびその属性を記憶する3語検索子辞書部、(b)
作成された系列中の属性データが、当該辞書中に無いか
または変化した場合、当該3語検索子を検出して検索デ
ータを要請する3語判別式作成部、(c)入力された検
索件数と基礎母集団中の出現頻度より、各判別適合率を
計算して、それらの属性を当該辞書に記憶する3語属性
処理部、(d)以上のすべての結果と下記1語判定部
(g)および3語判定部(i)の結果を、1および3語
検素子辞書に記憶する転送部、等を具え、
【0055】3語系列作成部においては、(a)基礎
母集団中の3語検索子の出現頻度降順序列部、(b)前
記2語判定部(2)(h)にて3語指定された、各3
語検索子の出現頻度降順ブール和と、その増分を計算す
る3語増分計算部、(c)当該序列部で(a)より同頻
度の検索子の内、直前の高頻度ブール和に対して増分が
発生する検索子を、基礎母集団を100%含むように抽
出する3語検索子系列作成部、(d)当該系列が基礎母
集団を100%含まない場合は、脱落を生じた2語検索
子を特定し、当該2語検索子を前記2語検索子系列作成
部,(c)より除外し、2語系列を作成し直す2語補
填部、(e)1語検索子辞書を参照して系列3語中に採
用1語検索子が出現した場合は、これを独立させ採用1
語ファイルおよびそのダミーファイルに追加保存し、同
時に2語系列を作成し直す採用1語処理部、(f)前記
閾値設定部(1)(d)にて定義された閾値設定部お
よび更新部、(g)閾値条件と3語検索子を構成する各
1語の属性とを照合して、採用1語検索子とするか否か
を決定する1語判定部、(h)もし系列3語中に採用1
語検索子が出現した場合は、これを独立させ採用1語フ
ァイルおよびそのダミーファイルに追加保存し、同時に
2語系列を作成し直す採用1語処理部、(i)閾値条件
と3語検索子の属性とを照合して、採用3語検索子とす
るか系列から除外するかを決定する3語判定部、(j)
系列から除外すべき3語検索子を、前記3語系列作成部
(c)より削除し、前記3語増分計算部より作成し直
す採用3語処理部、等を具え、
【0056】3語処理全般においては、(a)以上の
各過程およびその属性等を必要に応じて閲覧表示する表
示部、(b)必要な処理に対する問い合わせ、警告、命
令等の機能表示部、等を具え、以上のように共起関係に
ある検索子を順次多重的に組み合わせていく過程は、上
に示したように段階的個別的に作成されてもよいし、ま
た別の方法で行なわれてもよく、その方法を何ら制限す
るものではない。本発明では3語までの共起関係につい
て説明するが、必要とあれば3語処理(3)に行なった
方法を用いて、4語、5語と更なる多重検索子を組み足
していくことを、何ら妨げるものではない。
【0057】(4)系列式の完了および全系列式を合成
する最終検索式作成部としては 2語系列式の完了においては、(a)前記閾値設定部
(1)(d)にて定義された閾値設定部、(b)2語
系列において全ての検索子が、閾値条件を満足している
か否かを判別する2語系列閾値判定部、(c)判定
(b)において、もし否ならばそのまま終了して以後の
処理に継続するが、是ならば系列式を完了し以後の処理
を終了し、(d)次段の系列作成処理のための必要な準
備として、(I)採用1語ファイルに新規の1語があれ
ば、これをそのダミーファイルに転写し、(II)採用2
語ファイルに新規の2語があれば、これをそのダミーフ
ァイルに転写し、(III)採用3語ファイルに新規の3語
があれば、これをそのダミーファイルに転写し、(IV)
2語補填ファイルに新規の2語があれば、これをそのダ
ミーファイルに転写し、(V)系列式を作成するために
与えられた、系列を特定する指標を歩進し、その他必要
な処理を行なう2語系列完了部、等を具え、
【0058】3語系列式の完了においては、(a)前
記閾値設定部(1)(d)にて定義された閾値設定
部、(b)3語系列において全ての検索子が、閾値条件
を満足しているか否かを判別する3語系列閾値判定部、
(c)判定(b)において、もし否ならばそのまま終了
して以後の処理に継続するが、正ならば系列式を完了し
以後の処理を終了し、(d)次段の系列処理のための必
要な準備として、前記(d)記載の処理を行なう3語
系列完了部、等を具え、
【0059】全系列式を合成統合する最終検索式作成
部においては、上記またはにおいて得られた各系列
式に対して、(a)系列式が1系列ならば、そのままあ
るいは各系列式中同頻度の判別式を必要とあれば2次以
上に結合し、最終検索式とする。(b)上記(a)の系
列式が複数あるならば、各系列間の2次以上のブール積
の総和を最終検索式とする、最終検索式作成部、等より
構成される。
【0060】本発明の作用は、前記課題を解決するため
の手段の中に全て説明されているが、発明が解決しよう
とする課題のところで提起した「検索技術の根本となる
四つの要素が全て満たされた検索法」として、本発明が
用いた手段のどれが、課題としての何を実現しようと意
図されたかを説明する。
【0061】まず、課題(2),(4):基礎母集団を
含めてそれ以外の新規な関連情報を、より大きな再現率
でもって検索し得る検索式の作成については、
【0062】「基礎母集団以外の新規な関連情報を検
索する」ということは、その検索式によって既に基礎母
集団を100%検索できるという事が、完全に保証され
ていなければならない。これは解決の手段、および
の検索子合成処理および系列作成部にて記したとお
り、「基礎母集団中の同一情報中に出現、もしくは共起
出現する検索子」およびそれらの「直前の高頻度ブール
和に対して、増分が発生する検索子を抽出する」事によ
り実現されている。このような極めて基礎的な考え方
が、従来の技術においては見過ごされてきた。
【0063】「より大きな再現率」を獲得するために
は、従来の技術において記した通り、一つの検索候補語
に対して多くの関連語を同時に併用することが有力な方
法の一つであり、本発明においても「類語化処理」によ
って同質の効果を実現しようとするものである。しかし
従来の技術において行われた方法は、現実のデータベー
スの中に存在する関連語を用意するのではなくて、他の
辞書とかシソーラスとかあるいは人の連想語とかを集め
ようとしている。
【0064】ところが、現実のデータベースの中に用い
られている類似語なり関連語は、そのデータベース特有
のパターンをもっており、安易な予見性を受け付けない
ものである。従って、他の情報源によって類語辞書なる
ものを如何に膨大に用意したとしても、対象とするデー
タベース中の用語の類似関係を実際に調査し確認してみ
なければ、無駄ではないが無効語が多くその投資効率は
よくない。
【0065】間違いない方法としては、現実にそのデー
タベースから吸収すること以外にないであろう。しかし
予めこのような辞書を作成することは絶望的でありまた
その必要もない。この過程を効率的に実行するには、技
術分野毎に一、二のテーマに関して一、二回丹念に辞書
作りをすればよく、その努力は差ほど難儀なものでもな
く、またその後の処理や他のテーマに対してもかなりの
部分に当該辞書を共通して利用でき、辞書の追加修正は
予想外に楽であることが判明した。
【0066】これを実現しているのが、解決の手段記
載の「検索候補語に対する類語化処理部、類語を編集・
更新し辞書に記憶する変換部」等である。これは辞書を
作成・更新する処理であるが、更新された辞書は「辞書
から検索子属性情報を格納部に転写する」ことによって
極めて有効に機能する。なぜならば当該辞書中の類似関
係は、検索しようとしているデータベースのパターンを
直接保有しているため当然の事である。
【0067】更に、当該辞書は一つのテーマに関する類
似関係以外に、過去に吸収された類似関係をも記憶し累
積されているため、現前のテーマに対する検索式を作成
するにおいて、その基礎母集団が有する以上の豊富な類
語を利用して検索が行なわれ、再現率の向上に大きな効
果を示すであろう。以上の及びが本発明における第
一の再現率向上手段である。
【0068】しかし、幾つか選ばれた系列式が検索し
得る範囲は、それぞれに特異な指向性をもっている。特
に従来の技術の中の第二番目の問題点において記したご
とく、「高適合率や高出現頻度を基準とした検索は、同
質の主題のみ追いかけ、重要であるが低頻度の異質な検
索語をもつ情報群を切り捨てる事になる。従って再現性
の広さを返って喪失しており、この事はまた逆も成立し
低い出現頻度をもつ検索子のみで検索をおこなう事も、
再現率の極端な劣化を来す。」という欠点を克服するた
めには、基礎母集団中の低い出現頻度をもつ適合情報群
を確実に検索し得るよう、系列式は自己再現率100%
である事と、当該式を複数作成する事が必要であること
が分かった。
【0069】自己再現率100%であることの重要性は
自明の事として、系列式を複数作成する事の必要性は次
の理由による。
【0070】即ち、初めの系列においては、高適合率や
高出現頻度を基準としたものが集中しており、次の抽出
処理においては、既成の系列で使用されてダミーファイ
ルに蓄積された検索子に関連するものは全て排除される
ので、引き続き作成される後続の系列は、次第に低適合
率や低出現頻度を基準としたものに、自動的に変化して
いく。一方作成される系列式の数は、基本的には2語系
列式に脱落が発生するまでであるが、必ずしもこれに制
限されることは無く、たとえ脱落が発生し補填が不可能
となっても、引き続き補足的に部分的な系列式を追加作
成することは何ら差し支えない。
【0071】かくして、重要かつ稀少なグループの情報
がもつ特定の検素子群を、系列検索式や統合検索式の中
に確実に組み入れて、従来見逃されてきたかも知れない
もう一つの検索漏れが、可能なかぎり広く防止された。
この過程が解決の手段(2)及び(3)のダミーファイ
ルによる排除部およびおよび当該ダミーファイルヘの追
加保存で実現されている。これが本発明における第二の
再現率向上手段である。
【0072】次に課題(4):検索結果に対して、適合
率を実用的な水準に人為的に設定出来るようにするため
に、次のような手法を開発した。
【0073】一般に適合率が35%〜70%という大き
な値の検索結果においては、再現率と適合率の逆比例的
関係に支配されて、再現率が相当劣化している可能性が
あると考えるべきである。極端に言えば、再現率=10
0−適合率、と考えてもよい位で、この場合再現率は6
5%〜30%と受け止めておいた方が無難であるといえ
る。従って適合率の改善を行なう場合には、それを向上
させる工夫をした前後において、再現率が高度に維持さ
れている事の確認が必要である。
【0074】ところで検索式を構成する各判別式に
は、検索件数の絶対値と判別適合率において様々な分布
がみられる。この判別式として何を選ぶかが検索式全体
の適合率を支配する。
【0075】そこで、本発明では、検索式の構成単位で
ある判別式の適合率自体に閾値を設定し、その低下を抑
え、更にその判断基準を自由に設定変更出来るようにし
て、それらのブール和から当然帰結する、適合率の無防
備な低下を未然に防止している。これを実現しているの
が、解決の手段後半の閾値条件の構成における「閾値条
件と1〜3語検索子の属性とを照合して、採用するか、
より高次の検索子に送るか、さもなければ系列から除外
するかを決定する」機能である。この機能の内、適合率
閾値を無閾に高く設定すると、2語系列式に脱落が発生
する機会が極めて早くに生じ、系列式を十分作成するこ
とが出来ない。
【0076】適合率閾値としては経験的に1〜20%程
度、および件数閾値としては50〜300件程度に設定
される。その結果各系列の適合率としては、およそ適合
率閾値の1/1〜1/3位になることが多い。これが本
発明における、適合率を人為的に設定する第一の手段で
あり、また適合率向上の第一の手段である。
【0077】しかし閾値条件を満足しただけでは、上
記したように尚適合率が低い場合が多く、また同一系列
式内での各検索子の判別適合率は、高低広く分散してい
る。
【0078】そこで、本発明では、特許請求の範囲請求
項1記載のごとく、各系列式中同頻度の判別式は、必要
とあれば二次以上に結合し、全判別式のブール和を新た
な系列式として、それらを更に二次以上に結合して最終
検索式を導く事により、初めに得られた再現率をできる
だけ維持しつつ適合率の更なる向上を実現した。これを
実現しているのが、解決の手段(5)「全系列式を合成
する最終検索式作成部」である。
【0079】一般に各系列式には、適合情報の濃密な集
合と希薄な集合が混在しており、これらを結合する次数
は、再現率を重視した場合は余り高次にすべきではなく
経験的には2〜3次が望ましく、適合率を重視した場合
は最大系列式数の次数まで利用され得る。これが本発明
における、適合率を人為的に設定する第二の手段であり
また適合率向上の第二の手段である。
【0080】
【実施例】
【0081】評価α:初めに、検索の評価として次の基
準と式を設定する。
【式2】 この式の意味するところは次の通りである。適合率、再
現率が共に100%のとき評価αは200点となり、適
合率=3.16%、再現率=100%のとき評価αは1
00点になるように係数を与えた。このα=100点
が、検索法評価の分岐点になるものと考えられる。例え
ば適合率=3.16%、再現率=99%のごとく単に再
現率が1%低下しただけで、評価αは79点と著しく低
下することになる。ところが再現率=99%、適合率=
10%のごとく適合率に大きな向上があった場合は、評
価αは99点となり、当該検索法は極めて優秀であると
判断される。尚評価点が120点以上とするには、再現
率は99.5%以上、適合率は17%前後以上が要求さ
れる。従ってα=200点に近い結果を求めることは、
ほとんど不可能に近いと考えられる。
【0082】検索の専門家がおこなう特許ファイルに関
する検索の事例として、キーワードとIPCによる前記
文献(14)の検索結果によれば、再現率において、 CA(Chemical Abstruct文献特許DB)=26%、 パトリス(日本特許情報機構:日本特許DB) =48%、 WPI(World Patennt Index DB)=38% (ここに、DB=データベース)となっている。しかし
WPIの場合、マニュアルコードとPLASDOCコー
ドを併用すると再現率は74%となる(立花肇:三井東
圧化学当時私信)。いずれにしろ本報告のような広い概
念的なワードレベルの検索では、この程度の結果しか得
られず更に検索精度を向上させるには、より特化され指
向性の高いワードやコード類を組み合わせる必要があ
る、と結論されている。ところで本報告には適合率に関
する記載が無いため、上記評価αの実体的な値の算出は
できない。しかし適合率として経験的には通常数%〜十
%前後であろうから、これよりおよその評価は可能であ
り、本例に対して上記評価αを算出すると以下の通りで
ある。再現率としては両コードを加えた立花の私信によ
った。 再現率 適合率 評価α 74% 2% 2点 74% 5% 15点 74% 10% 25点 従って本報告の検索精度は、高目にみても20〜30点
位かと判断される。
【0083】ところがもし検索のテーマが、以下に記載
するような特化され指向性の高い場合は、再現率は90
%前後に向上するのが通常である。そのときの評価αを
推算すれば以下の通りである。 再現率 適合率 評価α 90% 2% 25点 90% 5% 38点 90% 10% 48点 これより検索の専門家がおこなう標準的な検索における
評価αは、概ね50点位と見積もられる。従って本発明
の実施例における評価αは、50点を標準値として以下
検索の精度を判断する。
【0084】つづいて本発明の実施例に関して共通する
事項を説明する。本発明の実施例における検索のテーマ
は、指向性の高い二つの主題からなる、「ポリカーボネ
ート樹脂に関する製造法ならびに物質特許」とした。
【0085】本実施例における適合情報としての基礎母
集団は、平成3年度に得られた既知の公開特許公報のみ
87件とし、平成3〜5年の3年間に当社の技術関係者
が精査して適合情報であると認めたものは、当該87件
を含めて公開・公告特許公報合わせて306件であっ
た。検索を行なうデータベースはパトリスによった。
【0086】検索式の作成および検索の実行について
は、既にその詳細を説明した課題を解決するための手段
および発明の実施の形態に記載した、代表的な手順に準
じて行なった。
【0087】実施例1 本発明の効果を実証するために、実施例を用いてその詳
細を説明する。用意された適合情報は、前記した平成3
年の1年間の中から、公告公報を除いて適合と認められ
た全公開公報87件を、基礎母集団とした。実施した全
プロセスは、既に「発明の実施の形態」において詳しく
説明したので省略する。
【0088】閾値の設定:閾値としては、判別適合率=
3.5%とし、1件が3.5%となる集合は29件であ
り、この約10倍の300件を判別検索件数とした。判
別検索期間は、平成3年全1年間とした。当該閾値は、
検索者がその経験にもとづいて自由に設定されうるもの
であり、何ら本例に制限されるものではない。
【0089】検索語:抽出する検索語としては本実施例
ではフリータームのみを選び、第5系列式まで導いた。
各系列中の各検索子の適合密度を図1に示す。隣りあう
系列群のデータは、グラフ上重なるので順次10倍づつ
ずらせて表示した。
【0090】検素の結果:検素の結果を表1に示す。但
し遺漏率=100−再現率とする。
【0091】
【表1】
【0092】本実施例では、検索の初心者が単にコンピ
ュータを操作するだけで、且つフリータームのみしか用
いていないにも関わらず、その第1、2系列式において
は、3年間の再現率がいずれも95%以上であり、評価
αはほぼ標準値に匹敵している検索結果が得られてい
る。
【0093】ところで、第3系列式以降の結果がそれ単
独ではかなり不良であるが、これは本発明の正しさを逆
に証明しているということが、次の実施例で示される。
【0094】実施例2 本発明の効果をさらに実証するために、表1中の第3系
列式以降の結果の効果について説明する。表1におい
て、第3系列式以降の結果は一見不良のようにみえる
が、順次これらの系列式のブール和をとっていくと、表
2の再現率に示されるように、第5系列目で遂に再現率
は100%となり、これをグラフに示すと図2の1次1
次結合のプロット(○)である。
【0095】
【表2】
【0096】つまり各系列式はそれが検索しようとする
中心主題を少しずつ変化させ、高頻度検素子を含む適合
集合から低頻度検索子を含む適合集合へとシフトして、
第5系列目までの和で遂に平成3年度の公開公報87件
に基づいて、同年の公告公報をも含めて、平成5年度ま
での3年間に適合する全ての公告、公開公報306件
を、完全に検索出来たことを意味するものである。検索
の初心者が、単にコンピューターを扱うだけで、これだ
けの成果が得られることは驚くべき事である。
【0097】しかし表2で分かる通り、各系列式の単純
な1次結合即ち単なるブール和だけでは、再現率100
%のときの適合率は実用的には十分大きくはなく、その
ため評価αも標準値よりかなり低いと見られる。従って
適合率が低くても、徹底的に網羅的検索を行う必要があ
る場合には、本法はその目的を充分達成していることが
分かる。
【0098】実施例3 本発明の効果をさらに実証するために、表1中の第5系
列式までの各系列を2次的に結合すると、即ち2系列ず
つのブール積を全て加えてそれらのブール和をとると、
適合率の改善が計られ且つ再現率の低下がかなり防止さ
れることが期待される。その結果を表3に示す。これを
グラフに示すと図2の1次2次結合のプロット(●)で
ある。
【0099】
【表3】
【0100】結果として、再現率の低下が98%強に止
まったことは極めて優秀であり、適合率は1次結合に比
べて約3倍に向上し、約1.3%である点実用範囲内に
あるものと判断される。また全ての評価αが標準値を上
回っており、実用的には十分耐えうると云うべきであろ
う。
【0101】実施例4 本発明の効果をさらに実証するために、表1中の第5系
列式までの各系列内において、同頻度の検索子を2次的
に結合して、全て加えたそれらのブール和を擬2次系列
式とすると、適合率の改善が計られ且つ再現率の低下が
かなり防止されることが期待される。その結果を表4か
ら6に示す。
【0102】表4より分かる通り、表1の単純1次系列
式の結果に比べて、表4の擬2次系列式の結果は、適合
率では1.5から4倍に向上するが、遺漏率では1から
3.5倍と増加している。
【0103】
【表4】
【0104】これらに対して実施例2、3と同じく、第
5系列式までの各系列を1次および2次的に結合して得
られた結果を、表5、6に示す。
【0105】表5をグラフに示すと図2の擬2次1次結
合のプロット(□)である。表5では表2に比べて、適
合率は3倍強に改善され、再現率も99%弱と優れてい
る。また評価αは標準値を10点以上も上回っており、
実用性は充分高いと云える。
【0106】
【表5】
【0107】表6をグラフに示すと図2の擬2次2次結
合のプロット(■)である。表6では表2に比べて、適
合率は約10倍に改善され、95%強の再現率が得られ
ている。また評価αは標準値以上であり、検索の熟練者
に十分匹敵する結果であると云える。
【0108】
【表6】
【0109】実施例5 本発明の効果をさらに実証するために、表1中の第5系
列式までの各系列中において、同頻度の検索子を3次的
に結合して、全て加えたそれらのブール和を擬3次系列
式とすると、適合率の改善が計られ且つ再現率の低下が
かなり防止されることが期待される。その結果を表7か
ら9に示す。
【0110】表7より分かる通り、表1の単純1次系列
式の結果に比べて、表7の擬3次系列式の結果は、適合
率では1.5から4.5倍に向上するが、遺漏率では1
から3.5倍と増加している。
【0111】
【表7】
【0112】これらに対して実施例3、4と同じく、第
5系列式までの各系列を1次および2次的に結合して得
られた結果を、表8、9に示す。
【0113】表8をグラフに示すと図2の擬3次1次結
合のプロット(△)である。表8では表2に比べて、適
合率は4倍に改善され、再現率も98%と優れている。
又評価αは標準値を10点近く上回っており、実用性は
充分高いと云える。
【0114】
【表8】
【0115】表9をグラフに示すと図2の擬3次2次結
合のプロット(▲)である。表9では表2に比べて、適
合率は10倍に改善され、93%強の再現率が得られて
いる。また評価αは標準値並みとみなされ、検索の熟練
者に十分匹敵する結果であると云える。
【0116】
【表9】
【0117】
【発明の効果】本発明によれば、従来、熟練者でなけれ
ば対応できなかった検索技術のノウハウをコンピュータ
ーに行わせることにより、適合率を実用的な水準に人為
的に制御し、その中で熟練者と同等以上の再現率を確保
することを可能にした。
【図面の簡単な説明】
【図1】実施例1における各系列のFKW系検索子の適
合密度
【図2】実施例1〜5の系列式の結合次数と検索の効果

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 検索候補語およびその類語を用いて情報
    を検索するにおいて 1語処理部として、既知の適合情報中の検索子を利用
    するための1語検索子抽出部、1語の種類・判別検索件
    数・判別適合率等の1語検索子属性辞書部、1語検索子
    属性転写部、類語化処理部、不要語化処理部、閾値条件
    判定部、同条件を満足した場合採用1語として保存する
    ファイル作成部、それを追加保存するダミーファイル作
    成部等を具え、 2語処理部として、同一情報中で共起関係にある2語
    検索子合成部、2語の種類・判別検索件数・判別適合率
    等の2語検索子属性辞書部、2語検索子属性転写部、2
    語系列式作成部およびそれを保存するファイル作成部、
    それを追加保存するダミーファイル作成部、2語系列式
    中に出現する採用1語検出部、それを追加保存するダミ
    ーファイル作成部、閾値条件判定部、同条件を満足した
    場合採用2語として保存するファイル作成部、それを追
    加保存するダミーファイル作成部、3語化指定処理部、
    2語検索子から採用1語ダミーファイル中の1語を含む
    2語および2語系列ダミーファイル中の2語を、それぞ
    れ削除する処理部等を具え、 3語処理部として、3語化指定された2語を含む同一
    情報中で共起関係にある3語検素子合成部、3語の種類
    ・判別検索件数・判別適合率等の3語検索子属性辞書
    部、3語検索子属性転写部、3語系列式作成部およびそ
    れを保存するファイル作成部、それを追加保存するダミ
    ーファイル作成部、3語系列式中に出現する採用1語検
    出部およびそれを追加保存するダミーファイル作成部、
    閾値条件判定部、同条件を満足した場合採用3語として
    保存するファイル作成部、それを追加保存するダミーフ
    ァイル作成部、閾値条件を満足しない3語を削除するた
    めの排除処理部、3語検索子から採用1語ダミーファイ
    ル中の1語を含む3語、並びに2語系列ダミーファイル
    中の2語を含む3語、さらに3語系列ダミーファイル中
    の3語をそれぞれ削除する処理部、等を具え、 前記〜までのすべてに共通する処理として、 各
    処理部のデータおよびメッセージ表示部、検索子属性管
    理辞書部、閾値判定部、判別式作成部、判別検索件数入
    力および判別適合率計算部、判別検索件数および判別適
    合率に関する閾値条件設定部、同閾値更新処理部、等を
    具え、 前記とに共通する処理として、採用1語検出部、
    採用2語検出部、2または3語系列式中の脱落に対し
    て、新規に2語を組み込むための2語補填部およびそれ
    を追加保存するダミーファイル作成部、各系列式中同頻
    度の判別式は、必要とあれば二次以上に結合し、新たな
    系列式を導く系列式作成部、各系列式を二次以上に結合
    する最終検索式作成部、等より構成されることを特徴と
    する情報の機械的検索法およびその装置。
  2. 【請求項2】 閾値条件を構成するにおいて、 閾値として適合率閾値および検索件数閾値を個別に設
    け、(a)適合率閾値に関しては、目的とする最終検索
    式の適合率の、1〜5倍に設定し、(b)検索件数閾値
    に関しては、1件の情報を捕獲するに要する、前記
    (a)にて設定された適合率を与える検索件数の、1〜
    10倍に設定し、 閾値条件の内検索件数に関しては、判別式中の各検索
    子に対する判別検索件数が当該閾値と比較して、小なら
    ば系列式の構成要素として採用し、さもなければ同一情
    報中で共起関係にある他の1語を組み足して、より高次
    のブール積の作成部に送られるかまたは排除されるに於
    いて、 閾値条件の内適合率に関しては、判別式中の各検索子
    に対する判別検索件数と、基礎母集団中のその頻度との
    割合として得られる判別適合率を計算し、当該閾値と比
    較して、大ならば系列式の構成要素として採用し、さも
    なければ同一情報中で共起関係にある他の1語を組み足
    して、より高次のブール積の作成部に送られるかまたは
    排除されるに於いて、 上記またはのいずれかの条件が満足される検索子
    を採用して系列式が構成される請求項1記載の情報の機
    械的検索法およびその装置。
JP11096503A 1999-04-02 1999-04-02 情報の機械的検索法およびその装置 Pending JP2000293529A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11096503A JP2000293529A (ja) 1999-04-02 1999-04-02 情報の機械的検索法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11096503A JP2000293529A (ja) 1999-04-02 1999-04-02 情報の機械的検索法およびその装置

Publications (1)

Publication Number Publication Date
JP2000293529A true JP2000293529A (ja) 2000-10-20

Family

ID=14166924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11096503A Pending JP2000293529A (ja) 1999-04-02 1999-04-02 情報の機械的検索法およびその装置

Country Status (1)

Country Link
JP (1) JP2000293529A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
JP2012155673A (ja) * 2011-01-28 2012-08-16 Hitachi Ltd 検索式生成装置、検索システム、検索式生成方法
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法
JP6156763B1 (ja) * 2016-11-24 2017-07-05 剛一 尾和 特許文献の検索方法
CN112685540A (zh) * 2021-01-07 2021-04-20 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008518345A (ja) * 2004-10-28 2008-05-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ データ処理システム及びデータ処理方法
JP2012155673A (ja) * 2011-01-28 2012-08-16 Hitachi Ltd 検索式生成装置、検索システム、検索式生成方法
JP6094937B1 (ja) * 2016-09-30 2017-03-15 剛一 尾和 特許文献集合のスクリーニング方法
JP2018060488A (ja) * 2016-09-30 2018-04-12 剛一 尾和 特許文献集合のスクリーニング方法
JP6156763B1 (ja) * 2016-11-24 2017-07-05 剛一 尾和 特許文献の検索方法
JP2018085082A (ja) * 2016-11-24 2018-05-31 剛一 尾和 特許文献の検索方法
CN112685540A (zh) * 2021-01-07 2021-04-20 深圳市欢太科技有限公司 搜索方法、装置、存储介质以及终端

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN112035598A (zh) 一种智能语义检索方法、系统和电子设备
CN107993724A (zh) 一种医学智能问答数据处理的方法及装置
WO2018153215A1 (zh) 一种自动生成语义相近句子样本的方法
Miller et al. CHARTLINE: providing bibliographic references relevant to patient charts using the UMLS Metathesaurus Knowledge Sources.
CN110349632B (zh) 一种从PubMed文献筛选基因关键词的方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
Aklouche et al. Query Expansion Based on NLP and Word Embeddings.
CN108416008A (zh) 一种基于自然语言处理的bim产品数据库语义检索方法
CN108959314A (zh) 一种语义检索方法和装置
CN107291895A (zh) 一种快速的层次化文档查询方法
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
Henk et al. Metaresearch recommendations using knowledge graph embeddings
Khotimah et al. Indonesian News Articles Summarization Using Genetic Algorithm.
JP2000293529A (ja) 情報の機械的検索法およびその装置
JP2005122231A (ja) 画面表示システム及び画面表示方法
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置
CN110347812A (zh) 一种面向司法文本的搜索排序方法及系统
Chen et al. Automatically structuring on Chinese ultrasound report of cerebrovascular diseases via natural language processing
KR101429621B1 (ko) 중복 뉴스 결합 시스템 및 중복 뉴스 결합 방법
CN116110594B (zh) 基于关联文献的医学知识图谱的知识评价方法及系统
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
Zhang et al. construction of Chinese pediatric epilepsy knowledge graph
CN118332106A (zh) 一种基于额外关系信息的中文实体关系抽取方法
KR20100033585A (ko) 단어연관그래프를 이용한 단어 의미의 자동 군집 기법