JP2005018555A - Document data retrieval method and program - Google Patents
Document data retrieval method and program Download PDFInfo
- Publication number
- JP2005018555A JP2005018555A JP2003184379A JP2003184379A JP2005018555A JP 2005018555 A JP2005018555 A JP 2005018555A JP 2003184379 A JP2003184379 A JP 2003184379A JP 2003184379 A JP2003184379 A JP 2003184379A JP 2005018555 A JP2005018555 A JP 2005018555A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- document data
- search
- document
- alias
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、多数の文献データ中からキーワードを手掛かりに所望の文献データを検索するための文献データ検索方法及びプログラムに関するものである。
【0002】
【従来の技術】
例えば、生物医学系の研究者が研究活動に必要な情報を収集しようとする場合、MEDLINE(生物医学系論文を格納した文献データベース)等のオンライン文献等にアクセスし、必要な情報を得ることが一般に行われている。この場合、できるだけ検索結果の精度を上げるための工夫として、キーワードを複数入力する手法が一般的に用いられている。
【0003】
【発明が解決しようとする課題】
しかし、近年MEDLINE等のデータベースへの登録論文数が急激に増加しており、それにともない、研究に必要な文献を精度よく効率的に入手することが困難になっている。その主たる要因が、遺伝子もしくはタンパク質名の別名での使用である。研究者が必要な情報を遺伝子もしくはタンパク質名をキーワードとして用いて文献を検索しようとしても、名称の多義性のために無関係な文献が多数含まれてしまうという問題、及び同義性のために必要な文献が検索結果から漏れてしまうという問題が生じている。また、入力した複数のキーワードが検索結果の精度に多大な影響を及ぼすため、適切なキーワードの設定が求められるが、適切なキーワードを設定するだけでも、検索対象に関する高度な事前知識が要求される場合があり、時間や手間がかかってしまう。このため、生物医学系の学術論文から研究に必要な文献を検索する場合、欲しい情報の含まれる文献だけを網羅的・効率的に検索するのが難しく、検索結果に多数の無関係な文献が含まれてしまう。研究者は、結局中身を確認しながら文献を取捨選択する必要があるため、文献の入手だけでかなりの労力が必要となっている。また、本来入手したい文献が検索から漏れていても、その事実に気が付くことは不可能である。
尚、本発明は遺伝子名もしくはタンパク質名をキーワードとする検索についてのみ適用できるとする趣旨ではなく、検索キーワードは遺伝子名もしくはタンパク質名以外のいかなるものであってもよい。
【0004】
本発明の目的は、キーワードを用いて多数の文献中から必要な文献を効率的且つ網羅的に絞り込むことができる文献データ検索方法及びプログラムを提供することにある。
【0005】
【課題を解決するための手段】
上記課題を解決するため、本発明によれば、多数の文献データのうち所与のキーワードに関連する文献データのみをコンピュータを利用して検索するための方法であって、別名辞書作成手段が前記キーワードに対応する別名を各種公共データベースから収集し前記キーワードに対する別名辞書を作成するステップと、文献検索手段が前記別名辞書にのっている用語が用いられている文献データを検索して取り出すステップと、略字辞書作成手段が前記文献検索手段によって取り出された文献データから略字情報を抽出して略字辞書を作成するステップと、妥当性判別手段が前記別名辞書と前記略字辞書とを用いて前記文献検索手段が検索した文献データ内で用いられている用語をチェックして前記キーワードに関連する文献データであるか否かの妥当性を判別するステップと、出力手段が前記妥当性判別手段によって妥当性を有すると判別された文献データを検索出力結果として出力するステップとを備えたことを特徴とする文献データ検索方法が提案される。
【0006】
また、 所与のキーワードに関連する文献データを検索するためにコンピュータを、前記キーワードに対応する別名を各種公共データベースから収集し前記キーワードに対する別名辞書を作成する別名辞書作成手段、前記別名辞書にのっている用語が用いられている文献データを検索して取り出す文献検索手段、前記文献検索手段によって取り出された文献データから略字情報を抽出して略字辞書を作成する略字辞書作成手段、前記別名辞書と前記略字辞書とを用いて前記文献検索手段が検索した文献データ内で用いられている用語をチェックして前記キーワードに関連する文献データであるか否かの妥当性を判別する妥当性判別手段、及び前記妥当性判別手段によって妥当性を有すると判別された文献データを検索出力結果として出力する出力手段として機能させるための文献データ検索プログラムが提案される。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態の一例につき詳細に説明する。
【0008】
図1は本発明による文献検索装置のシステム構成図、図2はこの文献検索装置により実行される文献検索処理のフロー図である。
【0009】
文献検索装置1は、コンピュータ装置を利用して構成されたもので、2は中央処理装置(CPU)、3は検索の対象となる文献データが蓄積されている文献データベース、4は外部メモリ、5は文献検索のための処理プログラムが格納されている内部メモリ、6は入出力装置で、これらはバス7に接続されている。入出力装置6にはキーボード8、表示装置9、印刷装置10が接続されている。文献検索装置1は、外部の各種データベースに通信ネットワークNを介してアクセスすることができるようにするため通信制御部7Aを備えており、文献検索装置1は、公衆回線等を介して通信ネットワークNに接続されている文献データベース3A、公共データベース3Bにアクセスし、必要な文献を取り込んで外部メモリ4内に格納しておくことができる構成となっている。なお、図1では、データベースは文献データベース3Aと公共データベース3Bの2つだけが例示されているが、文献データベースの数はいくつあってもよい。
【0010】
図2は、内部メモリ5に格納されている処理プログラムが中央処理装置2において実行されることにより遂行される文献データ検索処理の処理フローを示す図である。
【0011】
先ず、ステップ11で利用者がキーボード8から文献検索のためのキーワードを入力すると、ステップ12では、通信制御部7Aにより通信ネットワークNを介して文献データベース3A及び公共データベース3Bにアクセスするなどして各種公共データベースにおいて使用されている所与のキーワードに対する別名を探し出して、別名辞書を作成する。この別名辞書は外部メモリ4に格納される。また、各々の別名から逆に所与のキーワードを呼び出すためのファイルIを作成し、作成されたファイルIも外部メモリ4に格納される。この別名辞書は、所与のキーワードについてどのような別名が用いられているかを公共データベースから適宜の手段で作成することができる。
【0012】
次のステップ13では、通信制御部7Aにより通信ネットワークNを介して文献データベース3にアクセスし、例えば該当する生物医学関係の文献データベースに格納されている文献データ中から、作成された別名辞書にのっている用語が用いられている全ての文献データを検索、ダウンロード(収集)する。収集された文献データは外部メモリ4に格納される。このように、所与のキーワードに対する多数の別名をも検索キーワードとして文献検索を行うので、文献検索のカバー率の改善が期待される。ある文献データを収集する根拠となった検索キーワード群(検索キーワードが1つの場合もある)は、該文献データIDに対応する検索キーワードのリスト(A)として作成され、リスト(A)は外部メモリ4に格納される。
【0013】
ステップ14では、ステップ13の検索処理によって収集された各文献データから略字情報を抽出する。抽出された略字情報は、該文献データIDに対応する略字辞書として外部メモリ4に格納される。ここで、略字情報は、文献データ中に出現する略字とこれに対応する正式名称(定義)との組み合わせから成る情報であり、略字抽出処理は、公知の適宜の装置、方法を用いることができる。
【0014】
ステップ15では、外部メモリ4内に格納されている別名辞書とファイルI、リスト(A)、略字辞書とを用いて、ステップ13で検索された各文献データの妥当性を判別する。すなわちステップ13で検索された文献集合の中には、用語の多義性によって所与のキーワードとは何等関連しない文献データが収集されている可能性がある。そこで、検索の精度を上げるため、検索された文献データの妥当性を、所与のキーワードに関連する文献データと言えるか否かと言う観点から判別し、できる限り、所与のキーワードとは関連しない文献データを排除する。この妥当性の判別は、以下の条件で行う。
【0015】
判別の対象となる文献データから略字抽出処理によって略字辞書が作成された場合には、
1.該略字辞書の略字部分に、該文献データを収集する根拠となった検索キーワードが存在し、且つ該定義部分にある基準を満たす単語が1つでも含まれていること。
もしくは、
該略字辞書の定義部分に、該文献データを収集する根拠となった検索キーワードが存在し、且つ該略字部分に、ある基準を満たす単語が1つでも含まれていること。
ここで、ある基準を満たす単語とは、所与のキーワードの別名辞書にのっている全単語の中から選択される。
2.該文献データのタイトルもしくはアブストラクト(概略)部分に該検索キーワードが存在すること。
3.該タイトルもしくは該アブストラクト部分において発見した該検索キーワードの前後の単語が、いずれも所定の不許可単語でないこと。
以上の3条件全てをクリアした場合のみ、該文献データを所望する文献データとしての妥当性ありと判別して、ステップ16に入る。
【0016】
判別の対象となる文献データから略字抽出処理によって略字辞書が作成されなかった場合、もしくは、略字辞書が作成された場合でも、略字もしくは定義のいずれにも該文献データを収集する根拠となった検索キーワードが含まれない場合には、
1.該文献データのタイトルもしくはアブストラクト部分に、ある基準を満たす単語が1つでも含まれていること。
ただし、該検索キーワードが一単語のみから構成されており、且つ、ある基準を満たす単語であった場合には、該検索キーワード以外の、ある基準を満たす単語が1つでも含まれなければならない。
ここで、ある基準を満たす単語とは、所与のキーワードの別名辞書にのっている全単語の中から選択される。
もしくは、
検索キーワードが6文字以上で構成されていること。
ただし、この文字数はこれに限定せず、検索対象に合わせて適宜設定を変更することが可能である。
2.該タイトルもしくは該アブストラクト部分に該検索キーワードが存在すること。
3.該タイトルもしくは該アブストラクト部分において発見した該検索キーワードの前後の単語が、いずれも所定の不許可単語でないこと。
以上の3条件全てをクリアした場合のみ、該文献データを所望する文献データとしての妥当性ありと判別して、ステップ16に入る。
【0017】
以上のようにして、各文献データについての妥当性の判別結果を得、ステップ16で妥当性があると判別された文献データのみを検索結果として出力する。妥当性ありと判別されなかった文献データは検索結果から除外される。この検索結果の出力フォーマットは、利用者の要求に応じて、文献データのID(番号)やタイトル、アブストラクト、オーサー等を自由に組み合わせることが可能である。出力は表示装置9により表示し、及び又は印刷装置10により印刷することにより行うことができる。尚、検索結果は、また、内部メモリ5に格納しておき、いつでも取り出して表示、印刷できるようにしておくことができる。
【0018】
また、文献データ判別のための情報対象としてタイトルもしくはアブストラクト部分を利用しているが、これらは一例であり、文献データに付随している全ての情報から適宜に選択することができる。
【0019】
図3〜5には、ステップ15で実行される妥当性判別処理のより具体的な実施の態様が示されている。妥当性判別処理プログラム20は、先ず該文献データを収集する根拠となった検索キーワードと所与のキーワードとの間に妥当性があるかどうかの判別を行い、検索キーワードのリスト(A)から妥当性のある検索キーワードのみを残したリスト(B)を作成する。
【0020】
ステップ21では、先ず妥当性判別の対象となる文献データの中に未判別データがあるか否かを調べ、存在する場合にはステップ21の判別結果はYESとなり、ステップ22に入る。以降、文献データが空になるまで各文献データについてステップ22〜35を繰り返し実行し、文献データの妥当性を判別する。
【0021】
ステップ22では、一件分の文献データを外部メモリ4から内部メモリ5に取り込む。続いて、該文献IDに対応する略字辞書とリスト(A)を、それぞれ外部メモリ4から内部メモリ5に取り込む。
【0022】
ステップ23では、リスト(A)の中に未判別の検索キーワードがあるか否かを調べ、存在する場合にはステップ23の判別結果はYESとなり、ステップ24に入る。以降、リスト(A)が空になるまで各検索キーワードについてステップ24〜32を繰り返し実行し、検索キーワードの妥当性を判別する。
【0023】
ステップ24では、リスト(A)から検索キーワードを1つ読み込む。次に、該検索キーワードに対応するファイルIを外部メモリ4から内部メモリ5に取り込む。さらに、ファイルIから該検索キーワードに対応する所与のキーワードを読み込み、該所与のキーワードに対応する別名辞書を外部メモリ4から内部メモリ5に取り込む。取り込んだ当該文献データに対応する略字辞書には、該文献中のカッコ記号内にあるデータ(例えば略字)とそのカッコ記号の直前にあるデータ(例えばその略字に対する定義)との組み合わせデータが記録されている。カッコ記号内に定義があり、そのカッコ記号の直前に略字がある場合もある。いずれにしても、以下の説明においてはカッコ記号内のデータをインナと称し、カッコ記号の直前のデータをアウタと称する。
尚、ファイルI内に該検索キーワードに対応する所与のキーワードが複数存在する場合もある。これは、多義性のために、全く異なる所与のキーワードに対して全く同一の検索キーワードが収集されるためである。この場合は、ステップ24(該所与のキーワードに対応する別名辞書を外部メモリ4から内部メモリ5に取り込む)〜32を全ての所与のキーワードに対して行った後、ステップ23に戻る。
【0024】
ステップ24で判別に必要な情報を取り込んだ後は、ステップ25に入る。ステップ25では、略字辞書のインナに該検索キーワードと一致するものが存在するか否かを判別する。一致するインナが存在する場合にはステップ25の判別結果はYESとなり、ステップ26に入る。
【0025】
ステップ26では、該所与のキーワードに対応する別名辞書の中に、略字辞書の該インナに対応するアウタと一致する別名が存在するか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ26の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。
【0026】
ステップ26の判別結果がNOの場合、ステップ27に入る。ステップ27では、略字辞書の該インナに対応するアウタと一致する、ある基準を満たす単語が1つでも含まれているか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ27の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。
ここで、ある基準とは、該所与のキーワードの別名辞書にのっている単語であり、かつ、4文字以上で構成されており、かつ、予め用意された不許可単語以外であるとする。以上、全ての基準を満たした単語のみが、ある基準を満たす単語として該当する。ただし、この基準設定はこれに限定せず、検索対象に合わせて適宜設定を変更することが可能である。ステップ27の判別結果がNOの場合には、該検索キーワードは該所与のキーワードとは無関係と判定し、そのままステップ23に戻る。
【0027】
ステップ25の判別結果がNOの場合には、ステップ28に入る。ステップ28では、略字辞書のアウタに該検索キーワードと一致するものが存在するか否かを判別する。一致するアウタが存在する場合にはステップ28の判別結果はYESとなり、ステップ29に入る。
【0028】
ステップ29では、該所与のキーワードに対応する別名辞書の中に、略字辞書の該アウタに対応するインナと一致する別名が存在するか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ29の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。
【0029】
ステップ29の判別結果がNOの場合、ステップ30に入る。ステップ30では、略字辞書の該アウタに対応するインナと一致する、ある基準を満たす単語が1つでも含まれているか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ30の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。
ここで、ある基準とは、ステップ27で使用した基準と同じである。ステップ30の判別結果がNOの場合には、該検索キーワードは該所与のキーワードとは無関係と判定し、そのままステップ23に戻る。
【0030】
ステップ28の判別結果がNOの場合、すなわち略字辞書を参照して該キーワードがインナもしくはアウタのいずれにも含まれていないと判別された場合、または当該文献データに対応する略字辞書そのものが存在しない場合には、ステップ31に入る。ステップ31では、該文献データのタイトルもしくはアブストラクト部分に、ある基準を満たす単語が1つでも含まれているか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ31の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。
ここで、ある基準とは、ステップ27で使用した基準と同じである。
【0031】
ステップ31の判別結果がNOの場合には、ステップ32に入る。ステップ32では、該検索キーワードが6文字以上で構成されているか否かをチェックし、該検索キーワードの妥当性を判別する。妥当性ありと判別した場合にはステップ32の判別結果はYESとなり、該検索キーワードをリスト(B)に保存して、ステップ23に戻る。ステップ32の判別結果がNOの場合には、該検索キーワードは該所与のキーワードとは無関係と判定し、そのままステップ23に戻る。
【0032】
ステップ23の判別結果がNOの場合、すなわちリスト(A)に未判定の検索キーワードが存在しない場合には、ステップ33に入る。ステップ33では、リスト(B)の中に未判別の検索キーワードがあるか否かを調べ、存在する場合にはステップ33の判別結果はYESとなり、ステップ34に入る。以降、リスト(B)が空になるまで各検索キーワードについてステップ34〜35を繰り返し実行し、検索キーワードの妥当性を判別する。
【0033】
ステップ34では、リスト(B)から検索キーワードを1つ読み込む。次に、該検索キーワードが該文献データのタイトルもしくはアブストラクトに存在するか否かを判別する。該検索キーワードが該文献データ内に存在する場合にはステップ34の判別結果はYESとなり、ステップ35に入る。ステップ34の判別結果がNOの場合には、ステップ33に戻る。
【0034】
ステップ35では、該文献データのタイトルもしくはアブストラクト中に発見された、該検索キーワード前後の単語が所定の不許可単語であるか否かをチェックし、前後どちらの単語ともに不許可単語に該当しなかった場合にはステップ35の判別結果がYESとなり、検索結果として該文献IDと該所与のキーワードの組み合せをリストIIに保存して、ステップ33に戻る。
ただし、該検索キーワード前後の単語とは同一文章内に限られ、該検索キーワードが文頭もしくは文末にて使用される場合は、直後もしくは直前の単語のみを対象とする。
【0035】
ステップ35の判別結果がNOの場合、すなわち該検索キーワードの前もしくは後のどちらか一方でも不許可単語に該当した場合には、そのままステップ33に戻る。
【0036】
ステップ33の判別結果がNOの場合、すなわちリスト(B)に未判定の検索キーワードが存在しない場合には、ステップ21に戻る。
【0037】
このようにして、用意された全ての処理対象文のデータについての検索処理が終了すると、ステップ21の判別結果がNOとなり、このプログラムの処理が終了する。検索結果は、リストIIから出力に必要な情報を取出した後利用者に提示される。
【0038】
【発明の効果】
本発明によれば、検索精度すなわち正解率及びカバー率を飛躍的に改善させることができ、研究者の情報収集時間・労力を大幅に節減することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の一例を示す構成図。
【図2】検索処理システムにおいて実行される処理プログラムを示すフローチャート。
【図3】図2の妥当性判別処理の詳細フローチャートの一部を示す図。
【図4】図2の妥当性判別処理の詳細フローチャートの一部を示す図。
【図5】図2の妥当性判別処理の詳細フローチャートの一部を示す図。
【符号の説明】
1 文献検索装置
2 中央処理装置
3 文献データベース
4 外部メモリ
5 内部メモリ
6 入出力装置
7 バス
8 キーボード
9 表示装置
10 印刷装置[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document data search method and program for searching desired document data from a large number of document data using a keyword as a clue.
[0002]
[Prior art]
For example, when a biomedical researcher wants to collect information necessary for research activities, he / she can access online literature such as MEDLINE (bibliographic database storing biomedical articles) and obtain necessary information. Generally done. In this case, as a device for increasing the accuracy of the search result as much as possible, a technique of inputting a plurality of keywords is generally used.
[0003]
[Problems to be solved by the invention]
However, in recent years, the number of papers registered in a database such as MEDLINE has increased rapidly, and accordingly, it is difficult to obtain documents necessary for research accurately and efficiently. The main factor is the use of another name for gene or protein name. Even if researchers try to search for documents using gene or protein names as necessary keywords, many unrelated documents are included due to the ambiguity of names, and it is necessary for synonyms. There is a problem that documents are leaked from search results. In addition, since the input keywords have a great influence on the accuracy of search results, it is necessary to set appropriate keywords. However, advanced prior knowledge about search targets is required just by setting appropriate keywords. It may take time and effort. For this reason, when searching for documents required for research from biomedical academic papers, it is difficult to comprehensively and efficiently search only for documents containing the desired information, and the search results include many unrelated documents. It will be. Researchers need to select documents while confirming their contents, so a considerable amount of labor is required only by obtaining the documents. In addition, even if a document originally desired to be obtained is missing from the search, it is impossible to notice the fact.
The present invention is not intended to be applicable only to searches using gene names or protein names as keywords, and the search keywords may be anything other than gene names or protein names.
[0004]
An object of the present invention is to provide a document data search method and program capable of efficiently and comprehensively narrowing down required documents from a large number of documents using keywords.
[0005]
[Means for Solving the Problems]
In order to solve the above-mentioned problem, according to the present invention, there is provided a method for searching only document data related to a given keyword among a large number of document data using a computer, wherein the alias dictionary creating means Collecting aliases corresponding to the keywords from various public databases and creating an alias dictionary for the keywords; and searching and retrieving literature data in which the term search means uses the terms in the alias dictionary; Abbreviated dictionary creating means extracting abbreviation information from the document data extracted by the document retrieving means to create an abbreviation dictionary; and a validity determining means using the alias dictionary and the abbreviation dictionary for the document retrieval. Check whether the term used in the document data retrieved by the means is the document data related to the keyword And a document data search method comprising: a step of determining validity of the document; and a step of outputting the document data determined as having been validated by the validity determination unit as a search output result. Proposed.
[0006]
Further, an alias dictionary creating means for collecting an alias corresponding to the keyword from various public databases and creating an alias dictionary for the keyword to search for literature data related to the given keyword, Document retrieval means for retrieving and retrieving document data using the terminology used, Abbreviation dictionary creation means for creating abbreviation dictionary by extracting abbreviation information from document data retrieved by the document retrieval means, and the alias dictionary And abbreviation dictionary to check the terminology used in the document data searched by the document search unit and determine the validity of whether the document data is related to the keyword The document data determined to be valid by the validity determination means is output as a search output result. A literature data search program for functioning as a force means is proposed.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an example of an embodiment of the present invention will be described in detail with reference to the drawings.
[0008]
FIG. 1 is a system configuration diagram of a document search apparatus according to the present invention, and FIG. 2 is a flowchart of a document search process executed by the document search apparatus.
[0009]
The document retrieval device 1 is configured by using a computer device, 2 is a central processing unit (CPU), 3 is a document database in which document data to be searched is stored, 4 is an external memory, 5 Is an internal memory in which a processing program for searching documents is stored, 6 is an input / output device, and these are connected to a
[0010]
FIG. 2 is a diagram showing a processing flow of a document data search process performed by the processing program stored in the
[0011]
First, when a user inputs a keyword for document search from the
[0012]
In the next step 13, the
[0013]
In
[0014]
In
[0015]
When an abbreviation dictionary is created by the abbreviation extraction process from the document data to be determined,
1. The abbreviation portion of the abbreviation dictionary includes a search keyword that is the basis for collecting the document data, and includes at least one word that satisfies the criteria in the definition portion.
Or
A search keyword that is the basis for collecting the document data exists in the definition part of the abbreviation dictionary, and the abbreviation part includes at least one word that satisfies a certain criterion.
Here, a word satisfying a certain criterion is selected from all words in an alias dictionary for a given keyword.
2. The search keyword exists in the title or abstract (outline) part of the document data.
3. None of the words before and after the search keyword found in the title or the abstract part is a predetermined disallowed word.
Only when all the above three conditions are cleared, the document data is determined to be valid as the desired document data, and the process enters
[0016]
Search that is the basis for collecting document data in either abbreviations or definitions, even if an abbreviation dictionary is not created by the abbreviation extraction process from the document data to be determined, or even if an abbreviation dictionary is created If no keyword is included,
1. The title or abstract part of the document data contains at least one word that satisfies a certain standard.
However, when the search keyword is composed of only one word and satisfies a certain criterion, at least one word that satisfies a certain criterion other than the search keyword must be included.
Here, a word satisfying a certain criterion is selected from all words in an alias dictionary for a given keyword.
Or
The search keyword must consist of at least 6 characters.
However, the number of characters is not limited to this, and the setting can be changed as appropriate according to the search target.
2. The search keyword exists in the title or the abstract part.
3. None of the words before and after the search keyword found in the title or the abstract part is a predetermined disallowed word.
Only when all the above three conditions are cleared, the document data is determined to be valid as the desired document data, and the process enters
[0017]
As described above, the validity determination result for each document data is obtained, and only the document data determined to be valid in
[0018]
Moreover, although the title or abstract part is used as an information object for document data discrimination, these are merely examples, and can be appropriately selected from all the information attached to the document data.
[0019]
3 to 5 show a more specific embodiment of the validity determination process executed in
[0020]
In
[0021]
In
[0022]
In
[0023]
In
There may be a plurality of given keywords corresponding to the search keyword in the file I. This is because, for the sake of ambiguity, the same search keyword is collected for a completely different given keyword. In this case, Steps 24 (capture the alias dictionary corresponding to the given keyword from the
[0024]
After fetching information necessary for discrimination in
[0025]
In
[0026]
If the determination result in
Here, a certain criterion is a word that is in the alias dictionary of the given keyword, is composed of four or more characters, and is other than a non-permitted word prepared in advance. . As described above, only words that satisfy all the criteria correspond to words that satisfy a certain criterion. However, the reference setting is not limited to this, and the setting can be appropriately changed according to the search target. If the decision result in the
[0027]
If the determination result in step 25 is NO, step 28 is entered. In
[0028]
In
[0029]
If the determination result in
Here, the certain standard is the same as the standard used in
[0030]
If the determination result in
Here, the certain standard is the same as the standard used in
[0031]
If the determination result in
[0032]
If the decision result in the
[0033]
In
[0034]
In
However, the words before and after the search keyword are limited to the same sentence, and when the search keyword is used at the beginning or end of a sentence, only the word immediately after or immediately before is targeted.
[0035]
If the decision result in the
[0036]
If the determination result in
[0037]
In this way, when the search processing for all prepared processing target sentence data is completed, the determination result in
[0038]
【The invention's effect】
According to the present invention, it is possible to dramatically improve the search accuracy, that is, the accuracy rate and the coverage rate, and it is possible to greatly reduce the researcher's information collection time and labor.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing an example of an embodiment of the present invention.
FIG. 2 is a flowchart showing a processing program executed in the search processing system.
FIG. 3 is a diagram showing a part of a detailed flowchart of validity determination processing in FIG. 2;
FIG. 4 is a diagram showing a part of a detailed flowchart of validity determination processing in FIG. 2;
FIG. 5 is a view showing a part of a detailed flowchart of validity determination processing in FIG. 2;
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Literature retrieval device 2 Central processing unit 3
Claims (2)
別名辞書作成手段が前記キーワードに対応する別名を各種公共データベースから収集し前記キーワードに対する別名辞書を作成するステップと、
文献検索手段が前記別名辞書にのっている用語が用いられている文献データを検索して取り出すステップと、
略字辞書作成手段が前記文献検索手段によって取り出された文献データから略字情報を抽出して略字辞書を作成するステップと、
妥当性判別手段が前記別名辞書と前記略字辞書とを用いて前記文献検索手段が検索した文献データ内で用いられている用語をチェックして前記キーワードに関連する文献データであるか否かの妥当性を判別するステップと、
出力手段が前記妥当性判別手段によって妥当性を有すると判別された文献データを検索出力結果として出力するステップとを備えたことを特徴とする文献データ検索方法。A method for searching only literature data related to a given keyword among a large number of literature data using a computer,
An alias dictionary creating means collecting aliases corresponding to the keywords from various public databases and creating an alias dictionary for the keywords;
A step in which a document retrieval means retrieves and retrieves document data in which terms in the alias dictionary are used;
Abbreviated dictionary creating means for extracting abbreviation information from the document data extracted by the document search means to create an abbreviation dictionary;
The validity determination means checks the terms used in the document data searched by the document search means using the alias dictionary and the abbreviation dictionary, and whether or not the document data is related to the keyword. Determining gender,
A document data search method comprising: a step of outputting document data determined to be valid by the validity determination unit as a search output result.
前記キーワードに対応する別名を各種公共データベースから収集し前記キーワードに対する別名辞書を作成する別名辞書作成手段、
前記別名辞書にのっている用語が用いられている文献データを検索して取り出す文献検索手段、
前記文献検索手段によって取り出された文献データから略字情報を抽出して略字辞書を作成する略字辞書作成手段、
前記別名辞書と前記略字辞書とを用いて前記文献検索手段が検索した文献データ内で用いられている用語をチェックして前記キーワードに関連する文献データであるか否かの妥当性を判別する妥当性判別手段、
前記妥当性判別手段によって妥当性を有すると判別された文献データを検索出力結果として出力する出力手段として機能させるための文献データ検索プログラム。A computer to search for literature data related to a given keyword,
Alias dictionary creating means for collecting aliases corresponding to the keywords from various public databases and creating an alias dictionary for the keywords;
Literature retrieval means for retrieving and retrieving literature data in which terms in the alias dictionary are used,
Abbreviation dictionary creation means for creating abbreviation dictionary by extracting abbreviation information from the literature data extracted by the literature search means;
Validity for determining whether or not the document data is related to the keyword by checking the terms used in the document data searched by the document search means using the alias dictionary and the abbreviation dictionary Sex discrimination means,
A literature data search program for functioning as output means for outputting literature data determined to be valid by the validity judgment means as a search output result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003184379A JP4221249B2 (en) | 2003-06-27 | 2003-06-27 | Literature data retrieval method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003184379A JP4221249B2 (en) | 2003-06-27 | 2003-06-27 | Literature data retrieval method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005018555A true JP2005018555A (en) | 2005-01-20 |
JP4221249B2 JP4221249B2 (en) | 2009-02-12 |
Family
ID=34184167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003184379A Expired - Fee Related JP4221249B2 (en) | 2003-06-27 | 2003-06-27 | Literature data retrieval method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4221249B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114513567A (en) * | 2020-11-16 | 2022-05-17 | Oppo广东移动通信有限公司 | Terminal protection shell, communication tag, control method, device and system |
-
2003
- 2003-06-27 JP JP2003184379A patent/JP4221249B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114513567A (en) * | 2020-11-16 | 2022-05-17 | Oppo广东移动通信有限公司 | Terminal protection shell, communication tag, control method, device and system |
CN114513567B (en) * | 2020-11-16 | 2023-03-24 | Oppo广东移动通信有限公司 | Terminal protection shell, communication tag, control method, device and system |
Also Published As
Publication number | Publication date |
---|---|
JP4221249B2 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7680778B2 (en) | Support for reverse and stemmed hit-highlighting | |
US8285714B2 (en) | Method and apparatus for providing related words for queries using word co-occurrence frequency | |
JP2010257488A (en) | System and method for interactive search query refinement | |
JP2004280280A (en) | Document retrieval system using word meaning-related network | |
JP5891759B2 (en) | Bookmark extraction apparatus and method, and computer program | |
US20030140038A1 (en) | Search engine for computer graphic images | |
JP2006099428A (en) | Document summary preparation system, method, and program | |
KR20060104681A (en) | System and method for searching patent using dna fragment number | |
JPH09198395A (en) | Document retrieval device | |
KR101505673B1 (en) | Multi-language searching system, multi-language searching method, and image searching system based on meaning of word | |
WO2011163567A2 (en) | Methods and systems for filtering search results | |
CN103678601A (en) | Model essay retrieval request processing method and device | |
JP4221249B2 (en) | Literature data retrieval method and program | |
JP3702268B2 (en) | Information search system, information search method and program | |
JP2008065417A (en) | Associative word group retrieval device and system, and content match type advertisement system | |
JPH0944523A (en) | Relative word display device | |
JP4675986B2 (en) | Information sharing apparatus and information sharing program | |
JPH10289241A (en) | Image processor and its control method | |
JP2002366576A (en) | Method, system and program product for data searching | |
RU2015156695A (en) | Method and system for processing a prefix associated with a search query | |
JP2007299039A (en) | Method for searching gene information | |
JP2007026116A (en) | Concept search system and concept search method | |
JP2008197700A (en) | Document management system and document management method | |
JP6949449B2 (en) | Data search system and data search program | |
JP4034503B2 (en) | Document search system and document search method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040917 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050823 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111121 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131121 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |