JP2001147923A - 類似文書検索装置、類似文書検索方法及び記録媒体 - Google Patents

類似文書検索装置、類似文書検索方法及び記録媒体

Info

Publication number
JP2001147923A
JP2001147923A JP32832999A JP32832999A JP2001147923A JP 2001147923 A JP2001147923 A JP 2001147923A JP 32832999 A JP32832999 A JP 32832999A JP 32832999 A JP32832999 A JP 32832999A JP 2001147923 A JP2001147923 A JP 2001147923A
Authority
JP
Japan
Prior art keywords
document
similar
search
documents
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP32832999A
Other languages
English (en)
Inventor
Shigemi Nakazato
茂美 中里
Hiromi Saito
裕美 齋藤
Tsutomu Kobayashi
勉 小林
Hiroshi Yamazaki
弘 山崎
Yukio Nakamoto
幸夫 中本
Takuya Nishina
卓哉 仁科
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP32832999A priority Critical patent/JP2001147923A/ja
Publication of JP2001147923A publication Critical patent/JP2001147923A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】検索キーとして与えられた文書と類似する文書
の他に、その文書に関連した文書を検索結果として提示
する。 【解決手段】データベースに登録された各文書を元に過
去に類似文書として抽出されたことのある文書を階層的
に繋げたネットワーク情報を作成しておく。検索キーと
して与えられた文書と類似する文書A,文書Bをデータ
ベースの中から第1の類似文書として検索した際に、2
次検索により上記ネットワーク情報を参照して文書A,
文書Bと関連の高い文書A1,文書A2,文書B等をデ
ータベースの中から第2の類似文書として検索する。こ
れらの文書を当該検索キー文書に対する検索結果として
出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、データベースの中
から類似文書を検索する類似文書検索装置であって、特
に過去に類似文書として抽出された文書を含めて検索可
能な類似文書検索装置と、この装置に用いられる類似文
書検索方法及び記録媒体に関する。
【0002】
【従来の技術】従来、例えば引用文献等として用いられ
る各種文書をデータベース化しておき、その中から指定
された文書(以下、検索キー文書と称す)に類似する文
書を自動検索するシステムがある。このようなシステム
では、検索キー文書に含まれている単語と検索対象とな
る文書に含まれている単語とを比較し、共通する単語の
種類、出現場所、出現回数などからベクトル空間法など
により類似度を算出して、類似度の高い文書を検索結果
として出力している。
【0003】
【発明が解決しようとする課題】上述したように、従来
の類似文書の検索では、検索キー文書と検索対象文書と
の間の類似度計算により、その中で類似度の高い文書を
検索結果として出力していた。しかしながら、この方法
では、検索キー文書に直接類似している1次的な文書を
抽出することはできても、類似文書として抽出された文
書に関連した2次的な文書を抽出することはできない。
このような2次的な文書は、検索キーとして与えられた
文書との類似度は低くても、関連性の高い文書である可
能性が高いため、検索結果として提示することが望まれ
る。
【0004】本発明は上記のような点に鑑みなされたも
ので、検索キーとして与えられた文書と類似する文書の
他に、その文書に関連した文書を検索結果として提示す
ることのできる類似文書検索装置、類似文書検索方法及
び記録媒体を提供することを目的とする。
【0005】
【課題を解決するための手段】本発明の類似文書検索装
置は、検索キーとして与えられた文書と類似する文書を
データベースの中から第1の類似文書として検索する第
1の検索手段の他に、上記第1の類似文書と関連性の高
い他の文書を上記データベースの中から第2の類似文書
として検索する第2の検索手段を備え、上記第1および
第2の類似文書を当該検索キー文書に対する検索結果と
して出力するようにしたものである。
【0006】詳しくは、データベースに登録された各文
書を元に過去に類似文書として抽出されたことのある文
書を階層的に繋げたネットワーク情報を記憶した記憶手
段を用いて、上記第1の類似文書に対応したネットワー
ク情報を上記記憶手段から読み出し、そのネットワーク
情報に基づいて上記第1の類似文書と関連の高い文書を
上記データベースの中から第2の類似文書として検索す
る。
【0007】このような構成によれば、検索キーとして
与えられた文書に直接類似している1次的な文書だけで
なく、その文書に関連した2次的な文書を含めて抽出し
て検索結果として出力することができる。
【0008】
【発明の実施の形態】まず、本発明の実施形態を説明す
る前に理解を容易にするため、本発明の類似文書検索装
置の概要について説明する。
【0009】本発明の類似文書検索装置は、複数の文書
が登録されたデータベースを備え、検索キーとして与え
られた文書と類似する文書をデータベースの中から検索
する。その際に、検索キーとして与えられた文書と類似
する文書(以下、第1の類似文書と称す)だけでなく、
その第1の類似文書に関連した文書(以下、第2の類似
文書と称す)を含めて検索し、これらの文書を検索結果
として出力するものである。
【0010】ここで、第2の類似文書の検索は、第1の
類似文書として得られた文書のネットワーク情報に基づ
いて行われる。ネットワーク情報とは、過去に類似文書
として抽出されたことのある文書を階層的に繋げたもの
である。
【0011】例えば、図1に示すように、検索キーとし
て与えられた文書に対し、文書Aと文書Bが第1の類似
文書として得られたとする。このうち、文書Aに関して
は、過去に文書A1と文書A2が類似文書として抽出さ
れたことがある。さらに、文書A1に関しては文書A
3、文書A2に関しては文書A4と文書A5、文書A4
と文書A5に関しては文書A6が類似文書として抽出さ
れたことがある。
【0012】これらの文書の結び付きをネットワーク化
しておき、文書Aが第1の類似文書として得られた際
に、文書A1,文書A2…を関連性の高い文書つまり第
2の類似文書として抽出する。文書Bについても同様で
あり、文書B1、文書B2を第2の類似文書として抽出
する。
【0013】なお、図中の数値は文書間の類似度を表し
ている。例えば検索キー文書と文書Aとの類似度値は
「0.7」であり、文書Aと文書A1との類似度値は
「0.6」である。
【0014】どの時点までの類似文書を抽出するのか
は、ネットワークの階層の深さを指定することで行う。
つまり、階層の深さ「0」であれば、検索キー文書に対
する第1の類似文書として文書Aと文書Bのみが抽出さ
れることになる。階層の深さ「1」であれば、文書Aか
らは文書A1と文書A2が第2の類似文書として抽出さ
れ、文書Bからは文書B1が第2の類似文書として抽出
されることになる。
【0015】以下に、このような類似文書の検索を実現
するための実施形態について説明する。
【0016】(第1の実施形態)図2は本発明の第1の
実施形態に係る類似文書検索装置の構成を示すブロック
図である。なお、本装置は、例えば磁気ディスク等の記
録媒体に記録されたプログラムを読み込み、このプログ
ラムによって動作が制御されるコンピュータによって実
現される。
【0017】図2に示すように、本装置は制御装置1、
入力装置2、表示装置3、外部記憶装置4から構成され
る。制御装置1は、制御部1a(CPU)とメモリ部1
bからなり、所定のプログラムに従って本装置全体の制
御を行う。入力装置2は、例えばキーボードやマウスな
どからなり、検索条件の入力などを行う場合に用いられ
る。表示装置3は、例えばCRT(Cathode-ray tube)
やLCD(Liquid Crystal Display)などからなり、類
似検索結果などを表示する。外部記憶装置4は、例えば
磁気ディスク装置や光ディスク装置などからなり、本装
置で扱われる各種データを保持する。この外部記憶装置
4には、複数の文書が登録された文書データベース4
a、この文書データベース4aに登録された各文書毎に
過去の類似検索によって抽出された文書を階層的に繋げ
たネットワーク情報を記憶したネットワーク記憶部4b
などが設けられている。
【0018】図3は制御装置1の内部構成を示した図で
ある。
【0019】制御装置1は制御部1aとメモリ部1bか
らなっている。
【0020】制御部1aは各種制御や処理を実行する部
分であり、メイン処理部200、初期化部201、入力
部202、出力部203、検索対象文書読み出し部20
4、検索対象文書単語抽出部205、検索対象単語出現
頻度算出部206、検索キー文書入力部207、検索キ
ー単語抽出部208、検索キー単語出現頻度算出部20
9、検索条件設定部210、共通単語抽出部211、類
似度算出部212、ネットワーク制御部213、ネット
ワーク類似度比較部214、類似文書抽出済み判別部2
15、検索結果出力部216、ネットワーク保存部21
7などから構成される。
【0021】また、メモリ部1bは各所データを保持す
る部分であり、検索条件設定バッファ部230、検索対
象文書格納バッファ部231、検索対象単語情報格納バ
ッファ部232、検索キー文書格納バッファ部233、
検索キー単語情報格納バッファ部234、共通単語情報
格納バッファ部235、類似度格納バッファ部236、
ネットワーク情報格納バッファ部237、第1の出力バ
ッファ部238、第2の出力バッファ部239、抽出済
み文書リストバッファ部240、作業バッファ部241
などから構成される。
【0022】ここで、メイン処理部200は、各処理部
を統括的に制御する部分である。初期化部201は、各
バッファ部の初期化を行う。入力部202は、ユーザの
設定操作等に対する入力処理を行う。出力部203は、
入力部202により入力された検索キー文書や各種設定
の内容を表示装置3に出力する。
【0023】検索対象文書読み出し部204は、類似文
書検索時に外部記憶装置4の文書データベース4aに登
録されている各種文書のテキスト情報を検索対象文書と
して読み込み、それらの文書(テキスト情報)を検索対
象文書格納バッファ部231に格納する。
【0024】検索対象文書単語抽出部205は、検索対
象文書格納バッファ部231に格納されている各文書に
対する単語切りを行い、各文書毎にその文書の内容を表
す上でキーとなる単語を抽出し、検索対象単語情報格納
バッファ部232に格納する。なお、単語切りは、形態
素解析などを用いて行い、その文書の内容を表す上でキ
ーとなる単語は、各単語の品詞情報(例えば「名詞」や
「サ変名詞」)を使って行う。
【0025】検索対象単語出現頻度算出部206は、検
索対象文書単語抽出部206により抽出された各単語の
出現頻度を単語種単位で算出し、検索対象単語情報格納
バッファ部232に格納する。
【0026】検索キー文書入力部207は、入力装置か
ら入力された検索キー文書のテキスト情報を検索キー文
書格納バッファ部234に格納する。
【0027】検索キー単語抽出部208は、検索キー文
書格納バッファ部234に格納されている検索キー文書
に対する単語切りを行い、その文書の内容を表す上でキ
ーとなる単語を抽出し、検索キー単語情報格納バッファ
部234に格納する。なお、上記検索対象文書単語抽出
部205と同様に、単語切りは、形態素解析などを用い
て行い、その文書の内容を表す上でキーとなる単語は、
各単語の品詞情報(例えば「名詞」や「サ変名詞」)を使
って行う。
【0028】検索対象単語出現頻度算出部209は、検
索対象検索キー単語抽出部211により抽出された各単
語の出現頻度を単語種単位で算出し、検索キー単語情報
格納バッファ部234に格納する。
【0029】検索条件設定部210は、ユーザによって
指定された類似度閾値と、ネットワークの階層数を検索
条件として検索条件設定バッファ部230に格納する。
【0030】共通単語抽出部211は、検索キー単語情
報格納バッファ部234に格納された検索キー文書の単
語情報と、検索対象単語情報格納バッファ部232に格
納された検索対象文書の単語情報とから、両バッファに
格納されている単語とその頻度に関する情報を共通単語
情報格納バッファ部235に格納する。
【0031】類似度算出部212は、検索キー単語情報
格納バッファ部235と検索対象単語情報格納バッファ
部232と共通単語情報格納バッファ部235とから、
単語の出現頻度にその単語の重みを加味し、単語ベクト
ル空間法などから検索キー文書と検索対象文書との間の
類似度を算出し、その類似度値を類似度格納バッファ部
236に格納する。この類似度格納バッファ部236の
中で類似度が上位にある文書が第1の類似文書として判
断され、その文書IDが第1の出力バッファ部238に
格納される。
【0032】ネットワーク部213は、類似度格納バッ
ファ部236に格納された各文書(検索対象文書)の類
似度値を元に、所定の類似度を有する文書(第1の類似
文書)に対応した指定階層分のネットワーク情報を外部
記憶装置4のネットワーク記憶部4bより読み出し、ネ
ットワーク情報格納バッファ部237に格納する。
【0033】ネットワーク類似度比較部214は、ネッ
トワーク情報格納バッファ部237に格納されたネット
ワーク情報の中から検索条件として指定された閾値以上
の類似度を有する文書を第2の類似文書として判断し、
その文書IDを第2の出力バッファ部239に格納す
る。また、抽出済み文書リストバッファ部240に対し
て、抽出された文書のIDを追加する。
【0034】類似文書抽出済み判別部215は、既に類
似文書として挙がっている文書を他のネットワーク関係
により抽出されないように判別する部分であり、抽出済
み文書リストバッファ部240を参照して抽出済みの文
書であるかどうかを判別する。
【0035】検索結果出力部216は、第1の出力バッ
ファ部238に格納された類似文書(第1の類似文書)
と第2の出力バッファ部239に格納された類似文書
(第2の類似文書)を検索キー文書に対する検索結果と
して表示装置5に出力する。
【0036】ネットワーク保存部217は、表示装置3
に出力された検索結果に対して類似文書として確定され
た文書のネットワーク情報を更新して外部記憶装置4に
保存する。
【0037】次に、第1の実施形態の動作について説明
する。
【0038】図4は第1の実施形態における類似文書検
索処理の動作を示すフローチャートである。
【0039】まず、制御装置1は初期化部201を起動
してメモリ部2の各種バッファを初期化する(ステップ
A10)。次に、制御装置1は検索条件設定部210を
起動して類似文書検索モードを設定し、入力装置2を通
じて入力された検索条件を検索条件設定バッファ部23
0に格納する(ステップA11)。上記検索条件とは、ネ
ットワークの類似度閾値とネットワーク階層である。
【0040】具体的には、図5に示すような検索条件設
定画面が表示され、この検索条件設定画面上にてネット
ワーク類似度の閾値とネットワーク階層の深さをユーザ
が任意に指定することになる。例えば、「類似度閾値=
0.5」、「ネットワークの階層=2」といったような指
定をユーザが行った場合には、検索条件設定バッファ部
230の内容は図6のようになる。「類似度閾値=0.
5」とは、ネットワーク内で類似度「0.5」以上の文
書を類似文書(第2の類似文書)として抽出することを
示し、「ネットワークの階層=2」とは、抽出対象をネッ
トワークの第2階層までとすることを示す。
【0041】続いて、制御装置1は検索キー文書入力部
207を起動して、ユーザにより検索キーとして指定さ
れた文書のテキスト情報の読み込みを行い、これを検索
キー文書格納バッファ部233に格納する(ステップA
12)。なお、検索キーとなる文書は、例えば外部記憶
装置4に保持されており、ユーザの指定操作に伴って検
索キー文書格納バッファ部233に読み込まれるものと
する。
【0042】検索条件と検索キー文書が設定されると、
制御装置1は検索キー単語抽出部208を起動し、検索
キー文書格納バッファ部233に格納された検索キー文
書のテキスト情報を形態素解析し、その解析結果に基づ
いて当該文書に含まれている各単語を抽出し、検索キー
単語情報格納バッファ部234に格納する(ステップA
13)。その際に、検索キー単語出現頻度算出部209
によって、上記抽出単語の出現頻度(単語数)を単語種
毎に算出し、その算出結果を上記検索キー単語情報格納
バッファ部234に格納する(ステップA14)。
【0043】例えば、図7に示すような内容を有する文
書が検索キーとして与えられた場合には、検索キー単語
情報格納バッファ部234の内容は図8のようになる。
この例では、検索キー文書から「指定」,「文書」,
「類似」,「検索」,「類似文献検索」といった各単語
が抽出され、これらの単語の出現頻度(単語数)と共に
検索キー単語情報格納バッファ部234に格納されてい
る。
【0044】次に、制御装置1は外部記憶装置4の文書
データベース4aに保持された各文書のそれぞれに対し
て、以下のような類似度算出処理を実行する(ステップ
A15)。
【0045】制御装置1は、まず、検索対象文書読み出
し部204を起動して、外部記憶装置4の文書データベ
ース4aの中から検索対象となる文書のテキスト情報を
1件ずつ読み出し、検索対象文書格納バッファ部231
に格納する(ステップA16)。
【0046】続いて、制御装置1は検索対象文書単語抽
出部205を起動し、検索対象文書格納バッファ部23
1に格納された文書のテキスト情報を形態索解析し、そ
の解析結果に基づいて当該文書に含まれている各単語を
抽出して検索対象単語情報格納バッファ部232に格納
する(ステップA17)。その際に、検索対象単語出現頻
度算出部206によって、上記抽出単語の出現頻度(単
語数)を単語種毎に算出し、その算出結果を上記検索対
象単語情報格納バッファ部232に格納する(ステップ
A18)。
【0047】例えば、図9に示すような内容を有する文
書が検索対象文書として読み込まれた場合には、検索対
象単語情報格納バッファ部232の内容は図10のよう
になる。この例では、検索対象文書から「指定」,「文
書」,「検索」,「文書検索」といった各単語が抽出さ
れ、これらの単語の出現頻度(単語数)と共に検索対象
単語情報格納バッファ部232に格納されている。
【0048】次に、制御装置1は共通単語抽出部211
を起動し、検索キー単語情報格納バッファ部234に格
納された各単語と検索対象単語情報格納バッファ部23
2に格納された各単語とを比較し、両者で共通する単語
を抽出して共通単語情報格納バッファ部235に格納す
る(ステップA19)。
【0049】例えば、検索キー単語情報格納バッファ部
234と検索対象単語情報格納バッファ部232の内容
がそれぞれ図8、図10のようであった場合には、共通
単語情報格納バッファ部235の内容は図11のように
なる。この例では、検索キー文書と検索対象文書とで共
通する単語として、「指定」,「文書」,「検索」が抽
出されて共通単語情報格納バッファ部235に格納され
ている。
【0050】ここで、制御装置1は類似度算出部212
を起動し、検索対象単語情報格納バッファ部232と検
索キー単語情報格納バッファ部234、共通単語情報格
納バッファ部235のそれぞれの格納情報に基づいて検
索キー文書と検索対象文書との間の類似度を算出し、そ
の類似度値を類似度格納バッファ部236に格納する
(ステップA20)。なお、この類似度の算出には、ベク
トル空間法などが用いられる。
【0051】上記ステップA16〜A20の処理が文書
データベース4a内の全ての文書に対して繰り返し行わ
れる。これにより、類似度格納バッファ部236には、
検索対象として用いられる各文書の類似度値が格納され
ることになる。
【0052】全ての文書に対する類似度算出処理が終わ
ると(ステップA15のNo)、制御装置1は類似度格
納バッファ部236の中で類似度値が上位にある文書を
キーにして、以下のような2次検索処理を実行する。な
お、類似度値が上位にある文書とは、所定の閾値以上の
類似度を有する文書のことである。この閾値は予め固定
的に定められていても良いし、ユーザが任意に設定でき
るようにしても良い。
【0053】制御装置1は、まず、類似度格納バッファ
部236の中の類似度値上位文書を第1の類似文書とし
て判断し、その文書IDを第1の出力バッファ部238
に登録する(ステップA22)。
【0054】次に、制御装置1は類似文書抽出済み判別
部215を起動し、抽出済み文書リストバッファ部24
0に2次検索処理の対象とする類似度上位文書のIDが
登録されているか否かを判断する(ステップA23)。抽
出済み文書リストバッファ部240に当該文書のIDが
登録されている場合には(ステップA23のYes)、
制御装置1は既に処理済みであると判断してステップA
21に戻る。
【0055】また、抽出済み文書リストバッファ部24
0に2次検索処理の対象とする類似度上位文書のIDが
登録されていない場合には(ステップA23のNo)、
制御装置1は未処理であると判断し、ネットワーク制御
部213を起動して当該文書に対応するネットワーク情
報を外部記憶装置4のネットワーク記憶部4bから読み
出し、ネットワーク情報格納バッファ部237に格納す
る(ステップA24)。この場合、検索条件設定バッファ
部230内に検索条件の1つとして設定されている階層
の深さに従ってネットワーク情報の読み込みを行うもの
とする。
【0056】例えば、図1に示すようなネットワークで
は、ネットワーク情報格納バッファ部237の内容は図
12のようになる。この例では、文書Aと文書Bの2つ
の文書が類似度上位文書(第1の類似文書)として抽出
された場合のネットワークを示している。文書Aのネッ
トワーク情報には、「文書A」→「文書A1,文書A
2」→「文書A3,文書A4,文書A5」→「文書A
6」といったように、過去に類似文書として得られた文
書が関連付けられている。また、文書Bのネットワーク
情報には、「文書B」→「文書B1」→「文書B2」→
「文書B3」といったように、過去に類似文書として得
られた文書が関連付けられている。
【0057】次に、制御装置1はネットワーク類似度比
較部214を起動し、そのネットワーク情報の中で閾値
以上の類似度を有する文書が存在するか否かを判別する
(ステップA25)。なお、このときの閾値は検索条件の
1つとして検索条件設定バッファ部230に設定されて
いる。
【0058】閾値以上の類似度を有する文書が存在しな
い場合には(ステップA25のNo)、ステップA21
に戻り、次の類似度上位文書をキーにした2次検索処理
を行うことになる。
【0059】また、指定閾値以上の類似度を有する文書
が存在した場合には(ステップA25のYes)、制御
装置1は、再度、類似文書抽出済み判別部215を起動
して、その文書(ネットワーク情報から得られた文書)
のIDが抽出済み文書リストバッファ部240に登録さ
れているか否かを確認する(ステップA26)。抽出済
み文書リストバッファ部240に既に登録済みであれば
(ステップA26のYes)、抽出済みの文書であると
して、ステップA21に戻る。
【0060】抽出済み文書リストバッファ部240に登
録されていなければ(ステップA26のNo)、制御装
置1は当該文書(ネットワーク情報から得られた文書)
のIDを第2の類似文書として第2の出力バッファ部2
39に登録すると共に、同文書IDを抽出済み文書リス
トバッファ部240に登録する(ステップA27)。
【0061】詳しくは、現在のネットワーク階層の深さ
を作業バッファ部241にセットしながら、各階層毎に
所定の類似度を有する文書を順次抽出し、その文書ID
を第2の出力バッファ部239に登録していく。これを
検索条件として指定された階層の深さまで行った後、次
の類似度上位文書をキーにした2次検索処理を行うべ
く、ステップA21に戻る。
【0062】全ての類似文書を取得したら、制御装置1
は検索結果出力部216を起動し、第1の出力バッファ
部238と第2の出力バッファ部239の内容を最終的
な検索結果として表示装置3に出力する(ステップA2
8)。
【0063】図13に検索結果表示画面の一例を示す。
この例では、図1に示すようなネットワークにおいて、
検索条件としてネットワークの類似度閾値=0.5、ネ
ットワーク階層=2である場合での検索結果を示してい
る。「文書A」と「文書B」は検索キーとして与えられ
た文書に直接類似する文書(第1の類似文書)である。
また、「文書A1,A2,A3」と「文書B1」は「文
書B」は2次検索処理によって得られた類似文書(第2
の類似文書)である。このうち、「文書A1,A2,A
3」は「文書A」のネットワーク情報、「文書B1」は
「文書B」のネットワーク情報から得られたものであ
る。
【0064】ここで、検索結果が出力された際に、正し
い類似文書か否かをオペレータが確認する(ステップA
29)。つまり、所望の類似文書が検索結果として抽出
されているか否かをオペレータの判断によって決定す
る。これは、今回の検索結果をネットワーク情報に反映
させるためにある。正しい類似文書であれば、入力装置
2の操作により、その類似文書を確定する。また、誤っ
た類似文書が含まれていれば、その類似文書をキャンセ
ルするなどの操作を行う。
【0065】検索結果として得られた類似文書が正しい
ものとして確定されると、制御装置1はネットワーク保
存部217を起動し、その類似文書に関するネットワー
ク情報を図14のように作成し、そのネットワーク情報
に基づいて外部記憶装置4のネットワーク記憶部4bの
内容を更新する(ステップA30)。以後、その更新され
たネットワーク情報を用いて2次検索処理が行われる。
【0066】なお、ここではオペレータの判断より、正
しい類似文書として確定された文書のネットワーク情報
を更新するようにしたが、所定のプログラムにより正し
い類似文書か否かを判断し、その判断結果に従ってネッ
トワーク情報を更新するようにしても良い。
【0067】このように、過去の類似検索結果をネット
ワーク化して保持しておくことにより、ある文書が検索
キーとして与えられた際に、その検索キー文書と直接類
似する文書だけでなく、その文書と関連性の高い文書を
抽出することができる。
【0068】また、2次検索用の条件(類似度閾値およ
びネットワーク階層)を指定しておくことで、検索キー
文書にあまりにもかけ離れた文書を類似文書として出力
することを抑えることができる。
【0069】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。
【0070】第2の実施形態では、類似文書として得ら
れた複数の文書を類似度の高い順にソートして出力する
ことを特徴としている。
【0071】図15に本発明の第2の実施形態としての
制御装置1の内部構成を示す。なお、図3(第1の実施
形態)と同一部分には同一符号を付して、その説明は省
略するものとする。
【0072】図15において、図3と異なる点は、制御
装置1の制御部1aにソート部218が設けられている
ことと、メモリ部1bにソートバッファ部242が設け
られていることである。ソート部218は、類似文書と
して得られた各文書の検索キー文書に対する類似度を算
出し、類似度の高い順に上記各文書の出力順位を決定
し、その出力順位に従って各文書をソートしてソートバ
ッファ部242に格納する。この場合、検索結果出力部
216では、ソートバッファ部242に格納された各文
書を検索キー文書に対する検索結果として表示装置5に
出力する。
【0073】次に、第2の実施形態の動作について説明
する。
【0074】図16は第2の実施形態における類似文書
検索処理の動作を示すフローチャートである。なお、図
16のステップB10〜B27までの処理は上記図4
(第1の実施形態)のステップA10〜A27までの処
理と同様である。
【0075】すなわち、まず、制御装置1は初期化部2
01を起動してメモリ部2の各種バッファを初期化した
後(ステップB10)、検索条件設定部210を起動して
類似文書検索モードを設定し、入力装置2を通じて入力
された検索条件を検索条件設定バッファ部230に格納
する(ステップB11)。この場合、検索条件とは、ネッ
トワークの類似度閾値と、ネットワークの階層数であ
る。
【0076】続いて、制御装置1は検索キー文書入力部
207を起動して、ユーザにより検索キーとして指定さ
れた文書のテキスト情報の読み込みを行い、これを検索
キー文書格納バッファ部233に格納する(ステップB
12)。なお、検索キーとなる文書は、例えば外部記憶
装置4に保持されており、ユーザの指定操作に伴って検
索キー文書格納バッファ部233に読み込まれるものと
する。
【0077】検索条件と検索キー文書が設定されると、
制御装置1は検索キー単語抽出部208を起動し、検索
キー文書格納バッファ部233に格納された検索キー文
書のテキスト情報を形態素解析し、その解析結果に基づ
いて当該文書に含まれている各単語を抽出し、検索キー
単語情報格納バッファ部234に格納する(ステップB
13)。その際に、検索キー単語出現頻度算出部209
によって、上記抽出単語の出現頻度(単語数)を単語種
毎に算出し、その算出結果を上記検索キー単語情報格納
バッファ部234に格納する(ステップB14)。
【0078】次に、制御装置1は外部記憶装置4の文書
データベース4aに保持された各文書のそれぞれに対し
て、以下のような類似度算出処理を実行する(ステップ
B15)。
【0079】制御装置1は、まず、検索対象文書読み出
し部204を起動して、外部記憶装置4の文書データベ
ース4aの中から検索対象となる文書のテキスト情報を
1件ずつ読み出し、検索対象文書格納バッファ部231
に格納する(ステップB16)。
【0080】続いて、制御装置1は検索対象文書単語抽
出部205を起動し、検索対象文書格納バッファ部23
1に格納された文書のテキスト情報を形態索解析し、そ
の解析結果に基づいて当該文書に含まれている各単語を
抽出して検索対象単語情報格納バッファ部232に格納
する(ステップB17)。その際に、検索対象単語出現頻
度算出部206によって、上記抽出単語の出現頻度(単
語数)を単語種毎に算出し、その算出結果を上記検索対
象単語情報格納バッファ部232に格納する(ステップ
B18)。
【0081】次に、制御装置1は共通単語抽出部211
を起動し、検索キー単語情報格納バッファ部234に格
納された各単語と検索対象単語情報格納バッファ部23
2に格納された各単語とを比較し、両者で共通する単語
を抽出して共通単語情報格納バッファ部235に格納す
る(ステップB19)。
【0082】ここで、制御装置1は類似度算出部212
を起動し、検索対象単語情報格納バッファ部232と検
索キー単語情報格納バッファ部234、共通単語情報格
納バッファ部235のそれぞれの格納情報に基づいて検
索キー文書と検索対象文書との間の類似度を算出し、そ
の類似度値を類似度格納バッファ部236に格納する
(ステップB20)。なお、この類似度の算出には、ベク
トル空間法などが用いられる。
【0083】上記ステップB16〜B20の処理が文書
データベース4a内の全ての文書に対して繰り返し行わ
れる。これにより、類似度格納バッファ部236には、
検索対象として用いられる各文書の類似度値が格納され
ることになる。
【0084】全ての文書に対する類似度算出処理が終わ
ると(ステップB15のNo)、制御装置1は類似度格
納バッファ部236の中で類似度値が上位にある文書に
対して、以下のような2次検索処理を実行する。なお、
類似度値が上位にある文書とは、所定の閾値以上の類似
度を有する文書のことである。この閾値は予め固定的に
定められていても良いし、ユーザが任意に設定できるよ
うにしても良い。
【0085】制御装置1は、まず、類似度格納バッファ
部236の中の類似度値上位文書を第1の類似文書とし
て判断し、その文書IDを第1の出力バッファ部238
に登録する(ステップB22)。
【0086】次に、制御装置1は類似文書抽出済み判別
部215を起動し、抽出済み文書リストバッファ部24
0に2次検索処理の対象とする類似度上位文書のIDが
登録されているか否かを判断する(ステップB23)。抽
出済み文書リストバッファ部240に当該文書のIDが
登録されている場合には(ステップB23のYes)、
制御装置1は既に処理済みであると判断してステップB
21に戻る。
【0087】また、抽出済み文書リストバッファ部24
0に2次検索処理の対象とする類似度上位文書のIDが
登録されていない場合には(ステップB23のNo)、
制御装置1は未処理であると判断し、ネットワーク制御
部213を起動して当該文書に対応するネットワーク情
報を外部記憶装置4のネットワーク記憶部4bから読み
出し、ネットワーク情報格納バッファ部237に格納す
る(ステップB24)。この場合、検索条件設定バッファ
部230内に検索条件の1つとして設定されている階層
数に従ってネットワーク情報の読み込みを行うものとす
る。
【0088】次に、制御装置1はネットワーク類似度比
較部214を起動し、そのネットワーク情報の中で閾値
以上の類似度を有する文書が存在するか否かを判別する
(ステップB25)。なお、このときの閾値は検索条件の
1つとして検索条件設定バッファ部230に設定されて
いる。
【0089】閾値以上の類似度を有する文書が存在しな
い場合には(ステップB25のNo)、ステップB21
に戻り、次の類似度上位文書をキーにした2次検索処理
を行うことになる。
【0090】また、指定閾値以上の類似度を有する文書
が存在した場合には(ステップB25のYes)、制御
装置1は、再度、類似文書抽出済み判別部215を起動
して、その文書(ネットワーク情報から得られた文書)
のIDが抽出済み文書リストバッファ部240に登録さ
れているか否かを確認する(ステップB26)。抽出済
み文書リストバッファ部240に既に登録済みであれば
(ステップB26のYes)、抽出済みの文書であると
して、ステップB21に戻る。
【0091】抽出済み文書リストバッファ部240に登
録されていなければ(ステップB26のNo)、制御装
置1は当該文書(ネットワーク情報から得られた文書)
のIDを第2の類似文書として第2の出力バッファ部2
39に登録すると共に、同文書IDを抽出済み文書リス
トバッファ部240に登録する(ステップB27)。
【0092】詳しくは、現在のネットワーク階層数を作
業バッファ部241にセットしながら、各階層毎に所定
の類似度を有する文書を順次抽出し、その文書IDを第
2の出力バッファ部239に登録していく。これを所定
の階層数まで行った後、次の類似度上位文書をキーにし
た2次検索処理を行うべく、ステップB21に戻る。
【0093】ここで、第2の実施形態では、全ての類似
文書を取得後、制御装置1はソート部218を起動す
る。ソート部218では、類似度格納バッファ部236
の内容とネットワーク情報格納バッファ部237のネッ
トワーク関係の類似度に基づいて、第1の出力バッファ
部238および第2の出力バッファ部239に格納され
た各文書の検索キー文書に対する類似度を再計算し、そ
の計算結果に従って各文書のIDを類似度の高い順にソ
ートしてソートバッファ部242に格納する(ステップ
B28)。
【0094】例えば、図17のような検索結果が得られ
ていたとすると、ソート結果は図18のようになる。こ
の場合の類似度の再計算は、以下のような式で表され
る。
【0095】 S=s0 [ * s1 [ … [ * sn]]] S:類似度再計算の結果 s:文書間の類似度 0,1,n:ネットワーク階層の深さ 具体的に説明すると、図17の例において、「文書A」
は階数の深さ「0」であるため、検索キー文書との類似
度Sは「0.7」となる。「文書A1」は階数の深さ
「1」であるため、検索キー文書との類似度Sは「0.
7*0.6」となる。「文書A2」は階数の深さ「1」
であるため、検索キー文書との類似度Sは「0.7*
0.5」となる。「文書A3」は階数の深さ「2」であ
るため、検索キー文書との類似度Sは「0.7*0.6
*0.5」となる。同様に、「文書B」は階数の深さ
「0」であるため、検索キー文書との類似度Sは「0.
4」となる。「文書B1」は階数の深さ「1」であるた
め、検索キー文書との類似度Sは「0.4*0.8」と
なる。
【0096】続いて、制御装置1は検索結果出力部21
6を起動し、ソートバッファ部242の内容を最終的な
検索結果として表示装置3に出力する(ステップB2
9)。
【0097】図19に検索結果表示画面の一例を示す。
この例では、類似度値の高い方から「文書A」,「文書
A1」,「文書B」,「文書A2」,「文書B」,「文
書A3」といった順で検索結果が出力されている。
【0098】以後の処理は図4と同様であり、検索結果
が出力された際に、正しい類似文書か否かをオペレータ
が確認し(ステップB30)、類似文書が正しいものとし
て確定されると、制御装置1はネットワーク保存部21
7を起動し、その類似文書に関するネットワーク情報を
作成して外部記憶装置4のネットワーク記憶部4bの内
容を更新する(ステップB31)。なお、ここではオペレ
ータの判断より、正しい類似文書として確定された文書
のネットワーク情報を更新するようにしたが、所定のプ
ログラムにより正しい類似文書か否かを判断し、その判
断結果に従ってネットワーク情報を更新するようにして
も良い。
【0099】このように、類似文書として得られた複数
の文書が類似度の高い順に出力される。したがって、最
も確からしい類似文書がどの文書であるかを確認するこ
とができる。
【0100】なお、本発明の類似文書検索装置は、例え
ば特許分野における引用文献の検索の他、一般的なパー
ソナルコンピュータ等におけるファイル管理など、検索
を必要とする技術一般に広く適用できるものである。
【0101】また、上述した各実施形態において記載し
た手法は、コンピュータに実行させることのできるプロ
グラムとして、例えば磁気ディスク(フロッピーディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリなどの記録媒体に書き込んで
各種装置に適用したり、通信媒体により伝送して各種装
置に適用することも可能である。本装置を実現するコン
ピュータは、記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されることによ
り、上述した処理を実行する。
【0102】
【発明の効果】以上詳記したように本発明によれば、検
索キーとして与えられた文書に直接類似している1次的
な文書(第1の類似文書)だけでなく、その文書に関連
した2次的な文書(第2の類似文書)を含めて抽出する
ことができ、類似文書として有効な文書をユーザに適切
に提示することができる。
【図面の簡単な説明】
【図1】本発明の類似文書検索装置の概要を説明するた
めの図。
【図2】本発明の類似文書検索装置の構成を示すブロッ
ク図
【図3】本発明の第1の実施形態における制御装置の内
部構成を示す図。
【図4】本発明の第1の実施形態における類似文書検索
処理の動作を示すフローチャート。
【図5】検索条件設定画面を示す図。
【図6】検索条件設定バッファ部のデータ構造を示す
図。
【図7】検索キー文書の一例を示す図。
【図8】検索キー単語情報格納バッファ部のデータ構造
を示す図。
【図9】検索対象文書の一例を示す図。
【図10】検索対象単語情報格納バッファ部のデータ構
造を示す図。
【図11】共通単語情報格納バッファ部のデータ構造を
示す図。
【図12】ネットワーク情報格納バッファ部のデータ構
造を示す図。
【図13】検索結果表示画面の一例を示す図。
【図14】更新後のネットワーク情報格納バッファ部の
データ構造を示す図。
【図15】本発明の第2の実施形態における制御装置の
内部構成を示す図。
【図16】本発明の第2の実施形態における類似文書検
索処理の動作を示すフローチャート。
【図17】類似文書検索結果を示す図。
【図18】ソートバッファ部のデータ構造を示す図。
【図19】ソート後の検索結果表示画面の一例を示す
図。
【符号の説明】
1…制御装置 1a…制御部 1b…メモリ部 2…入力装置 3…表示装置 4…外部記憶装置 4a…文書データベース 4b…ネットワーク記憶部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 齋藤 裕美 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 小林 勉 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 山崎 弘 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 コンピュ―タエンジニアリング株式会社内 Fターム(参考) 5B075 ND03 ND35 PP24 PR06 QM05

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書が登録されたデータベース
    と、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索する第1
    の検索手段と、 この第1の検索手段によって得られた上記第1の類似文
    書と関連性の高い他の文書を上記データベースの中から
    第2の類似文書として検索する第2の検索手段と、 上記第1および第2の検索手段によって得られた上記第
    1および第2の類似文書を当該検索キー文書に対する検
    索結果として出力する出力手段とを具備したことを特徴
    とする類似文書検索装置。
  2. 【請求項2】 複数の文書が登録されたデータベース
    と、 このデータベースに登録された各文書を元に過去に類似
    文書として抽出されたことのある文書を階層的に繋げた
    ネットワーク情報を記憶した記憶手段と、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索する第1
    の検索手段と、 この第1の検索手段によって得られた上記第1の類似文
    書に対応したネットワーク情報を上記記憶手段から読み
    出し、そのネットワーク情報に基づいて上記第1の類似
    文書と関連の高い文書を上記データベースの中から第2
    の類似文書として検索する第2の検索手段と、 上記第1および第2の検索手段によって得られた上記第
    1および第2の類似文書を当該検索キー文書に対する検
    索結果として出力する出力手段と、 を具備したことを特徴とする類似文書検索装置。
  3. 【請求項3】 類似度閾値およびネットワーク階層を検
    索条件として指定する指定手段を有し、 上記第2の検索手段は、上記指定手段によって指定され
    た階層までのネットワーク情報に含まれ、上記類似度閾
    値以上の類似度を有する文書を第2の類似文書として検
    索することを特徴とする請求項2記載の類似文書検索装
    置。
  4. 【請求項4】 上記第1および第2の類似文書として得
    られた各文書に対する上記検索キー文書との類似度を上
    記ネットワーク情報の階層を加味して算出し、その類似
    度の高い順に出力順位を決定する出力順位決定手段を有
    し、 上記出力手段は、この出力順位決定手段によって決定さ
    れた出力順位に従って上記第1および第2の類似文書と
    して得られた各文書を出力することを特徴とする請求項
    2記載の類似文書検索装置。
  5. 【請求項5】 複数の文書が登録されたデータベースの
    中から類似文書を検索する類似文書検索方法であって、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索し、 この第1の類似文書と関連性の高い他の文書を上記デー
    タベースの中から第2の類似文書として検索し、 上記第1および第2の類似文書を当該検索キー文書に対
    する検索結果として出力することを特徴とする類似文書
    検索方法。
  6. 【請求項6】 複数の文書が登録されたデータベースの
    中から類似文書を検索する類似文書検索方法であって、 上記データベースに登録された各文書を元に過去に類似
    文書として抽出されたことのある文書を階層的に繋げた
    ネットワーク情報をメモリに記憶しておき、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索し、 この第1の類似文書に対応したネットワーク情報を上記
    メモリから読み出し、そのネットワーク情報に基づいて
    上記第1の類似文書と関連の高い文書を上記データベー
    スの中から第2の類似文書として検索し、 上記第1および第2の類似文書を当該検索キー文書に対
    する検索結果として出力することを特徴とする類似文書
    検索方法。
  7. 【請求項7】 複数の文書が登録されたデータベースを
    備えたコンピュータに、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索する機能
    と、 この第1の類似文書と関連性の高い他の文書を上記デー
    タベースの中から第2の類似文書として検索する機能
    と、 上記第1および第2の類似文書を当該検索キー文書に対
    する検索結果として出力する機能とを実行させるプログ
    ラムを記録したコンピュータ読取り可能な記録媒体。
  8. 【請求項8】 複数の文書が登録されたデータベースを
    備えたコンピュータに、 上記データベースに登録された各文書を元に過去に類似
    文書として抽出されたことのある文書を階層的に繋げた
    ネットワーク情報をメモリに記憶させる機能と、 検索キーとして与えられた文書と類似する文書を上記デ
    ータベースの中から第1の類似文書として検索する機能
    と、 この第1の類似文書に対応したネットワーク情報を上記
    メモリから読み出し、そのネットワーク情報に基づいて
    上記第1の類似文書と関連の高い文書を上記データベー
    スの中から第2の類似文書として検索機能と、 上記第1および第2の類似文書を当該検索キー文書に対
    する検索結果として出力する機能とを実行させるプログ
    ラムを記録したコンピュータ読取り可能な記録媒体。
JP32832999A 1999-11-18 1999-11-18 類似文書検索装置、類似文書検索方法及び記録媒体 Pending JP2001147923A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32832999A JP2001147923A (ja) 1999-11-18 1999-11-18 類似文書検索装置、類似文書検索方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32832999A JP2001147923A (ja) 1999-11-18 1999-11-18 類似文書検索装置、類似文書検索方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001147923A true JP2001147923A (ja) 2001-05-29

Family

ID=18209025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32832999A Pending JP2001147923A (ja) 1999-11-18 1999-11-18 類似文書検索装置、類似文書検索方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001147923A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016109A (ja) * 2001-06-29 2003-01-17 Hitachi Ltd 文書情報管理方法および装置、および管理サーバ
JP2004145753A (ja) * 2002-10-25 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及び装置及び文書検索プログラム
JP2005084943A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 文書検索システムおよび方法
JP2008542926A (ja) * 2005-06-03 2008-11-27 トムソン グローバル リソーシーズ オープンウェブコンテンツへのアクセスを備えるペイフォーアクセス法律調査システム
JP2014197300A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
JP2018116322A (ja) * 2017-01-16 2018-07-26 株式会社日立製作所 ログメッセージグループ化装置、ログメッセージグループ化システムおよびログメッセージグループ化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003016109A (ja) * 2001-06-29 2003-01-17 Hitachi Ltd 文書情報管理方法および装置、および管理サーバ
JP2004145753A (ja) * 2002-10-25 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及び装置及び文書検索プログラム
JP2005084943A (ja) * 2003-09-09 2005-03-31 Hitachi Ltd 文書検索システムおよび方法
JP2008542926A (ja) * 2005-06-03 2008-11-27 トムソン グローバル リソーシーズ オープンウェブコンテンツへのアクセスを備えるペイフォーアクセス法律調査システム
JP2014197300A (ja) * 2013-03-29 2014-10-16 株式会社Jvcケンウッド テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
JP2018116322A (ja) * 2017-01-16 2018-07-26 株式会社日立製作所 ログメッセージグループ化装置、ログメッセージグループ化システムおよびログメッセージグループ化方法

Similar Documents

Publication Publication Date Title
US7130849B2 (en) Similarity-based search method by relevance feedback
US7769771B2 (en) Searching a document using relevance feedback
US7831929B2 (en) Method, system, and program product for controlling a display on a data editing screen
JP2004500645A (ja) ビジュアルデータ形式の記憶と検索
JP4335726B2 (ja) 画面に表示されたデータを介して異なるアプリケーションで連携を行う方法およびプログラム
US6070169A (en) Method and system for the determination of a particular data object utilizing attributes associated with the object
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3350594B2 (ja) 検索装置
CN115329753A (zh) 一种基于自然语言处理的智能数据分析方法和系统
JP3131142B2 (ja) 地図データリンケージシステム
JPH07146880A (ja) 文書検索装置及び方法
US20020147705A1 (en) Method system and program product for data searching
CN113742291A (zh) 一种文件保存方法、装置以及计算机存储介质
US7849086B2 (en) Document processor and computer readable medium
JPH04340163A (ja) キーワード検索方式
JP2676731B2 (ja) 電子化文書検索装置
JP3772105B2 (ja) データベース管理装置、方法、プログラム及び記録媒体
JP2001084271A (ja) 情報検索装置及びそのアルゴリズム更新方法及びコンピュータ読み取り可能な記憶媒体
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP3210842B2 (ja) 情報処理装置
JPH0535798A (ja) データベース検索装置
JPH11272526A (ja) データ処理装置及び記憶媒体
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JPH10207909A (ja) 文書検索システムおよび方法
JP3305782B2 (ja) ソフトウェア標準化方法およびソフトウェア生産物の解析方法