JP2009223852A - 検索装置 - Google Patents
検索装置 Download PDFInfo
- Publication number
- JP2009223852A JP2009223852A JP2008070672A JP2008070672A JP2009223852A JP 2009223852 A JP2009223852 A JP 2009223852A JP 2008070672 A JP2008070672 A JP 2008070672A JP 2008070672 A JP2008070672 A JP 2008070672A JP 2009223852 A JP2009223852 A JP 2009223852A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character
- determination
- word
- search word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
【課題】 検索語に応じて適切な検索方式を自動的に選択することにより、性能の高い医療テキスト検索を実現する。
【解決手段】 検索語入力部1により検索語が取得されると、検索方式決定部2は、判定用文字リスト保持部4を照会して検索語に判定用文字が含まれているか否かを判定する。検索語に判定用文字が含まれていると判定された場合には、テキスト検索の方式をN−gram方式(ただし、N=1)に決定する。一方、検索語に判定用文字が含まれていないと判定された場合には、形態素解析辞書保持部5を照会して形態素解析辞書に検索語のエントリーが存在するか否かを判定し、検索語のエントリーが存在すると判定された場合は形態素解析方式に決定し、検索語のエントリーが存在しないと判定された場合はN−gram方式(ただし、N=検索語の文字数)に決定する。
【選択図】 図1
【解決手段】 検索語入力部1により検索語が取得されると、検索方式決定部2は、判定用文字リスト保持部4を照会して検索語に判定用文字が含まれているか否かを判定する。検索語に判定用文字が含まれていると判定された場合には、テキスト検索の方式をN−gram方式(ただし、N=1)に決定する。一方、検索語に判定用文字が含まれていないと判定された場合には、形態素解析辞書保持部5を照会して形態素解析辞書に検索語のエントリーが存在するか否かを判定し、検索語のエントリーが存在すると判定された場合は形態素解析方式に決定し、検索語のエントリーが存在しないと判定された場合はN−gram方式(ただし、N=検索語の文字数)に決定する。
【選択図】 図1
Description
本発明は、テキスト検索に用いる検索方式を制御する検索装置およびプログラムに関する。
データベース等に蓄積された多数のテキスト(電子文書)から利用者に指定された検索語を含むテキストを検索するにあたり、一般的に用いられる主な全文検索アルゴリズムとして、形態素解析を利用する方式(以下、形態素解析方式)と、統計情報(N−gram)を利用する方式(以下、N−gram方式)の2種類がある。
形態素解析方式は、単語区切りがない日本語のテキストについてのインデックスを作成するために、形態素解析技術を用いてテキストを単語単位に区切り、これをもとに作成されたインデックスを利用する方式である。N−gram方式は、テキストを単語単位ではなく一定のN文字単位に区切り、これをもとに作成されたインデックスを利用する方式である。
形態素解析方式は、単語区切りがない日本語のテキストについてのインデックスを作成するために、形態素解析技術を用いてテキストを単語単位に区切り、これをもとに作成されたインデックスを利用する方式である。N−gram方式は、テキストを単語単位ではなく一定のN文字単位に区切り、これをもとに作成されたインデックスを利用する方式である。
また、上記2つのアルゴリズムの決定を相補的にカバーするために、両者を併用する以下の手法も提案されている。
例えば、特許文献1には、登録対象文書に対し形態素解析等の単語識別処理を行ない、単語の先頭位置と末尾位置を識別し、識別結果を基に単語境界情報を取得し、登録対象文書から抽出した所定長の部分文字列(n−gram)に対し文書識別情報と該n−gramの文書における出現位置情報と前記単語境界情報を有する検索用インデクスを作成するようにし、そして検索時には、検索タームに対応する検索用インデクスを抽出し、該検索用インデクスに基づき、これらの単語境界情報を用いて単語の境界を意識した単語識別検索(前方一致、後方一致、完全一致検索)と、単語境界情報を用いない単語境界を意識しない任意語検索を高速に実現する手法が提案されている。
例えば、特許文献1には、登録対象文書に対し形態素解析等の単語識別処理を行ない、単語の先頭位置と末尾位置を識別し、識別結果を基に単語境界情報を取得し、登録対象文書から抽出した所定長の部分文字列(n−gram)に対し文書識別情報と該n−gramの文書における出現位置情報と前記単語境界情報を有する検索用インデクスを作成するようにし、そして検索時には、検索タームに対応する検索用インデクスを抽出し、該検索用インデクスに基づき、これらの単語境界情報を用いて単語の境界を意識した単語識別検索(前方一致、後方一致、完全一致検索)と、単語境界情報を用いない単語境界を意識しない任意語検索を高速に実現する手法が提案されている。
例えば、特許文献2には、検索対象テキストを記憶する検索対象データ記憶手段と、検索対象テキストを単語単位に分割するテキスト分割手段と、単語単位に分割されたテキストを保持する単語分割テキスト記憶手段と、単語単位に分割されたテキストから、単語の区切りを示す単語情報を持ち文字数がNである単語情報付文字列インデックスを作成するインデックス作成手段と、作成された単語情報付文字列インデックスを記憶するインデックス記憶手段と、単語情報付文字列インデックスを用いて検索語の文字列検索や単語検索を行う検索手段とを設けることによって、単語検索と文字列検索とを一つの装置できるようにして、検索漏れを防ぎ、検索ノイズを低減させる手法が提案されている。
部位名や病名など医療用語が多く含まれる医療テキストを対象に検索を行う場合、上述した2つの一般的な検索アルゴリズムをそのまま用いると、それぞれ以下のような問題が生じる。
形態素解析方式を採用すると、形態素解析辞書に登録されていない語は検索できないという問題点がある。これは、病名や症状名は、「肝細胞癌」(肝臓における湿潤した炎症)など必要に応じて複数の要素から構成される複合的な表現が多く、また、「肝臓癌」、「肝癌」、「肝臓細胞癌」のように同じ対象に対して組み合わせ的に様々な表記が発生するので、これら全ての語を形態素解析辞書に予め登録しておくことは難しいためである。従って、医療テキストを対象にした検索においては、カバー率の低下が予想される。
形態素解析方式を採用すると、形態素解析辞書に登録されていない語は検索できないという問題点がある。これは、病名や症状名は、「肝細胞癌」(肝臓における湿潤した炎症)など必要に応じて複数の要素から構成される複合的な表現が多く、また、「肝臓癌」、「肝癌」、「肝臓細胞癌」のように同じ対象に対して組み合わせ的に様々な表記が発生するので、これら全ての語を形態素解析辞書に予め登録しておくことは難しいためである。従って、医療テキストを対象にした検索においては、カバー率の低下が予想される。
N−gram方式を採用すると、辞書に登録していない単語でも検索できるため、上記の問題を解決することができる。しかしながら、形態素解析によるわかち書きに比べると、意図したものとは異なる検索結果が生じることが多い。例えば、「頭部」という検索語を入力した場合、「乳頭部」がヒットしてしまうなど、精度の低下が起こる。
また、これら2つのアルゴリズムを併用する従来発明を用いても、両方式を併用するやり方ではそれぞれの弊害が起こるため、上記の問題は解決されない。
また、これら2つのアルゴリズムを併用する従来発明を用いても、両方式を併用するやり方ではそれぞれの弊害が起こるため、上記の問題は解決されない。
本発明は、上記従来の事情に鑑みなされたものであり、検索語に応じて適切な検索方式を自動的に選択することにより、性能の高い医療テキスト検索を実現することを目的としている。
第1の本発明は、文字列を1以上の文字数の文字単位に区切って検索を行う第1の検索手段と、文字列を単語単位に区切って検索を行う第2の検索手段と、1文字からなる判定用文字を記憶する第1の記憶手段と、医療に関する電子文書の検索に用いられる検索語を取得する取得手段と、前記取得手段により取得された検索語に前記第1の記憶手段により記憶されている判定用文字が含まれるか否かを判定する第1の判定手段と、前記第1の判定手段により検索語に判定用文字が含まれると判定された場合には、前記第1の検索手段により文字列を1文字の文字単位に区切って行う検索を実行させ、前記第1の判定手段により検索語に判定用文字が含まれないと判定された場合には、前記第2の検索手段により文字列を単語単位に区切って行う検索を実行させるように制御する制御手段と、を備えたことを特徴とする検索装置である。
第2の本発明は、第1の本発明において、前記検索装置は、前記第2の検索手段により文字列を単語単位に区切るときに用いられる単語辞書を記憶する第2の記憶手段と、前記取得手段により取得された検索語が前記第2の記憶手段により記憶されている単語辞書に含まれるか否かを判定する第2の判定手段と、を備え、前記制御手段は、前記第1の判定手段により検索語に判定用文字が含まれると判定された場合であっても、前記第2の判定手段により検索語が単語辞書に含まれないと判定された場合には、前記第1の検索手段により文字列を当該検索語の文字数の文字単位に区切って行う検索を実行させるように制御することを特徴とする。
第3の本発明は、第1又は第2の本発明において、前記判定用文字は、その語義の数が所定数より少ない文字であることを特徴とする。
第4の本発明は、コンピュータに、文字列を1以上の文字数の文字単位に区切って検索を行う第1の検索機能と、文字列を単語単位に区切って検索を行う第2の検索機能と、1文字からなる判定用文字を記憶する第1の記憶機能と、医療に関する電子文書の検索に用いられる検索語を取得する取得機能と、前記取得機能により取得された検索語に前記第1の記憶機能により記憶されている判定用文字が含まれるか否かを判定する第1の判定機能と、前記第1の判定機能により検索語に判定用文字が含まれると判定された場合には、前記第1の検索機能により文字列を1文字の文字単位に区切って行う検索を実行させ、前記第1の判定機能により検索語に判定用文字が含まれないと判定された場合には、前記第2の検索機能により文字列を単語単位に区切って行う検索を実行させるように制御する制御機能と、を実現させるためのプログラムである。
第1の本発明に係る検索装置によると、1文字の文字単位に区切って行う検索を行うことが適切であると想定される医療分野特有の語(判定用文字)を設定しておくことで、指定された検索語に当該判定用文字が含まれるか否かによって検索方式を自動的に選択することが可能となり、性能の高い医療テキスト検索を実現することができる。
第2の本発明に係る検索装置によると、指定された検索語に当該判定用文字が含まれない場合であっても、単語区切り用の単語辞書に当該検索語が含まれない場合には、単語単位に区切って行う検索を実行しても所望の検索結果が得られないと想定されるため、この場合には当該検索語の文字数の文字単位に区切って行う検索を選択することで、性能の高い医療テキスト検索を実現することができる。
第3の本発明に係る検索装置によると、判定用文字として語義が少ない語を設定しておくことで、性能の高い医療テキスト検索を実現することができる。これは、語義が少ない語は、指定された検索語での意味と異なる意味でテキスト中に出現することは稀であるため、文字単位に区切って行う検索を実行することで検索漏れが少なく、また不要なテキストが検索されることも少ないのに対し、語義が多い語は、指定された検索語での意味と異なる意味でテキスト中に出現することも珍しくないため、文字単位に区切って行う検索を実行すると不要なテキストが検索される可能性が高まって好ましくないからである。
第4の本発明に係るプログラムによると、上記の検索装置をコンピュータにより実現することができる。
本発明を、一実施形態に基づいて具体的に説明する。
図1は、本発明の一例である、医療に関するテキスト(電子カルテ、医療レポート、医療分野の論文や特許文献などの各種電子文書)を蓄積したデータベース等から検索条件に該当する医療テキストを検索する医療テキスト検索装置の機能ブロック図を示している。
図1は、本発明の一例である、医療に関するテキスト(電子カルテ、医療レポート、医療分野の論文や特許文献などの各種電子文書)を蓄積したデータベース等から検索条件に該当する医療テキストを検索する医療テキスト検索装置の機能ブロック図を示している。
本例の医療テキスト検索装置は、利用者により入力された検索語を取得する検索語入力部1、検索語に基づいて検索方式を決定する検索方式決定部2、検索方式を決定する際に用いる判定用文字のリストを作成する判定用文字リスト作成部3、判定用文字リストを保持する判定用文字リスト保持部4、形態素解析用の単語辞書である形態素解析辞書(複数の単語を格納)を保持する形態素解析辞書保持部5、検索方式決定部2で決定された検索方式を用いて検索を実行する検索部6、検索結果を出力(画面表示や印刷出力など)する検索結果出力部7、を備えている。
本例の検索部6は、N−gram方式のテキスト検索と形態素解析方式のテキスト検索とを有しており、検索方式決定部2の決定に従った方式によりテキスト検索を行う。N−gram方式のテキスト検索は、テキスト中の文字列を文字数N(1以上の整数)の文字単位に区切ってテキスト検索を行う方式であり、形態素解析方式のテキスト検索は、テキスト中の文字列を形態素解析により単語単位に区切ってテキスト検索を行う方式である。
判定用文字リスト作成部3にリストとして保持されている判定用文字は、1文字の文字単位に区切って行う検索(つまり、N=1のN−gram方式による検索)を行うことが適切であると想定される医療分野特有の語である。本例では、「肺」、「脾」、「肝」、「腎」、「腰」、「舌」などの1文字の語が保持されている。
検索語入力部1は、医療テキスト検索装置に設けられたキーボード等の入力手段により利用者から入力された検索語を取得する。なお、例えば、他の利用者端末等により利用者から入力された検索語をネットワーク経由で取得する、といった他の態様により実現してもよい。
検索方式決定部2は、検索語入力部1で取得された検索語に基づいて、図2の処理フローに示す手順によりテキスト検索の方式を決定する。
まず、判定用文字リスト保持部4により保持されている判定用文字リストを照会して(ステップS11)、検索語qに判定用文字Cが含まれているか否かを判定する(ステップS12)。
検索語qに判定用文字Cが含まれていると判定された場合には、テキスト検索の方式をN=1のN−gram方式に決定する(ステップS13)。
検索語qに判定用文字Cが含まれていないと判定された場合には、形態素解析辞書保持部5に保持されている形態素解析辞書を照会して(ステップS14)、形態素解析辞書に検索語qのエントリーが存在するか否かを判定する(ステップS15)。そして、検索語qのエントリーが存在すると判定された場合には、テキスト検索の方式を形態素解析方式に決定し(ステップS16)、検索語qのエントリーが存在しないと判定された場合には、テキスト検索の方式をN=length(q)のN−gram方式に決定する(length(q)は、検索語qの文字数を表す)。
まず、判定用文字リスト保持部4により保持されている判定用文字リストを照会して(ステップS11)、検索語qに判定用文字Cが含まれているか否かを判定する(ステップS12)。
検索語qに判定用文字Cが含まれていると判定された場合には、テキスト検索の方式をN=1のN−gram方式に決定する(ステップS13)。
検索語qに判定用文字Cが含まれていないと判定された場合には、形態素解析辞書保持部5に保持されている形態素解析辞書を照会して(ステップS14)、形態素解析辞書に検索語qのエントリーが存在するか否かを判定する(ステップS15)。そして、検索語qのエントリーが存在すると判定された場合には、テキスト検索の方式を形態素解析方式に決定し(ステップS16)、検索語qのエントリーが存在しないと判定された場合には、テキスト検索の方式をN=length(q)のN−gram方式に決定する(length(q)は、検索語qの文字数を表す)。
具体的には、例えば、検索語入力部1により検索語「肝細胞癌」が取得された場合は、判定用文字リスト(「肺」、「脾」、「肝」、「腎」、「腰」、「舌」などの判定用文字を保持)を照会すると、検索語「肝細胞癌」には判定用文字「肝」が含まれていることがわかり、N=1のN−gram方式に決定される。
また、例えば、検索語入力部1により検索語「後頭部」が取得された場合は、検索語「肝細胞癌」には判定用文字が含まれていないため、形態素解析辞書を照会する。そして、検索語「肝細胞癌」が形態素解析辞書に含まれている場合には形態素解析方式に決定され、形態素解析辞書に含まれていない場合にはN=3のN−gram方式に決定される。
また、例えば、検索語入力部1により検索語「後頭部」が取得された場合は、検索語「肝細胞癌」には判定用文字が含まれていないため、形態素解析辞書を照会する。そして、検索語「肝細胞癌」が形態素解析辞書に含まれている場合には形態素解析方式に決定され、形態素解析辞書に含まれていない場合にはN=3のN−gram方式に決定される。
次に、判定用文字リストの作成について説明する。
本例の医療テキスト検索装置では、判定用文字リスト作成部3が、図3に示す処理フローに従って自動的に作成している。
判定用文字リスト作成部3は、形態素解析辞書保持部5に保持されている形態素解析辞書の中から1文字だけの語(例えば、「心」、「頭」、「肝」など)を読み込み(ステップS21)、当該読み込んだ各語を対象に、以下の処理を行う(ステップS22)。
まず、漢字の持つ語義の多様性を計量するために、対象の語について漢和辞典(図示せず)を照会し(ステップS23)、辞典に記載されている語義の項目数Kを計数する(ステップS24)。そして、当該計数された項目数K(つまり語義数)が所定値(本例では3)より小さいか否かを判定し(ステップS25)、この判定条件を満たす場合には対象の語を判定用文字リストに追加する(ステップS26)。
本例の医療テキスト検索装置では、判定用文字リスト作成部3が、図3に示す処理フローに従って自動的に作成している。
判定用文字リスト作成部3は、形態素解析辞書保持部5に保持されている形態素解析辞書の中から1文字だけの語(例えば、「心」、「頭」、「肝」など)を読み込み(ステップS21)、当該読み込んだ各語を対象に、以下の処理を行う(ステップS22)。
まず、漢字の持つ語義の多様性を計量するために、対象の語について漢和辞典(図示せず)を照会し(ステップS23)、辞典に記載されている語義の項目数Kを計数する(ステップS24)。そして、当該計数された項目数K(つまり語義数)が所定値(本例では3)より小さいか否かを判定し(ステップS25)、この判定条件を満たす場合には対象の語を判定用文字リストに追加する(ステップS26)。
具体的には、例えば、対象の語が「心」である場合は、漢和辞典の一例である『漢字源』(学研)に記載されている語義は5項目であるので項目数K=5となり、項目数K<3の条件を満たさないため、判定用文字リストに追加されない。
また、例えば、対象の語が「頭」である場合は、語義は6項目であるので項目数K=6となり、項目数K<3の条件を満たさないため、判定用文字リストに追加されない。
一方、例えば、対象の語が「肝」である場合は、語義は2項目であるので項目数K=2となり、項目数K<3の条件を満たすため、判定用文字リストに追加される。
また、例えば、対象の語が「頭」である場合は、語義は6項目であるので項目数K=6となり、項目数K<3の条件を満たさないため、判定用文字リストに追加されない。
一方、例えば、対象の語が「肝」である場合は、語義は2項目であるので項目数K=2となり、項目数K<3の条件を満たすため、判定用文字リストに追加される。
本例では、医療テキスト検索装置又は他の装置に保持されている漢和辞典の電子データに基づいて、判定用文字リスト作成部3が判定用文字リストを自動的に作成しているが、人手により漢和辞典を参照して判定用文字リストを作成してもよい。
なお、判定用文字リストは、使用に応じて適宜修正されることが望ましい。
なお、判定用文字リストは、使用に応じて適宜修正されることが望ましい。
次に、判定用文字リストの作成手法の他の一例として、コーパスから判定用文字リストを作成する処理について、図4の処理フローを参照して説明する。
判定用文字リスト作成部3は、検索対象(医療テキスト)のコーパスが入力されると(ステップS21)、日本語の規則に従って文字列を文節単位に区切ると共にその係り受け関係を解析する構文解析システム(図示せず)により当該コーパスを構文解析させ、その結果を取得する(ステップS22)。例えば「T1強調像で肺を中心に病変が見られます。」というコーパスを構文解析すると、図5に示すように、文節1「T1強調像で」、文節2「肺を」、文節3「中心に」、文節4「病変が見られます。」の4つの文節に区切られる。そして、構文解析の結果から、文節に含まれる名詞が1文字のみの文節を抽出し、(ステップS23)、文字毎の出現頻度を計数する(ステップS24)。例えば図5に示す構文解析結果の場合、文節2「肺を」が抽出されて、文字毎の出現頻度が計数される。その後、抽出した全ての文字Ci(i=1〜抽出された文字の種類数)について(ステップS25)、文字Ciの出現頻度が係数m以上か否かを判定し(ステップS26)、出現頻度が係数m以上の文字Ciを判定用文字リストに追加する(ステップS27)。
このように、本例では、漢和辞典等の知識源を使用せずに、コーパスから判定用文字リストを自動学習するようにしている。
なお、本例では、入力されたコーパスを文節単位に区切る手段として構文解析システムを用いているが、これに代えて他の手段を用いてもよく、例えば、文字列を日本語の規則に従って文節区切りするチャンカーを用いることができる。
判定用文字リスト作成部3は、検索対象(医療テキスト)のコーパスが入力されると(ステップS21)、日本語の規則に従って文字列を文節単位に区切ると共にその係り受け関係を解析する構文解析システム(図示せず)により当該コーパスを構文解析させ、その結果を取得する(ステップS22)。例えば「T1強調像で肺を中心に病変が見られます。」というコーパスを構文解析すると、図5に示すように、文節1「T1強調像で」、文節2「肺を」、文節3「中心に」、文節4「病変が見られます。」の4つの文節に区切られる。そして、構文解析の結果から、文節に含まれる名詞が1文字のみの文節を抽出し、(ステップS23)、文字毎の出現頻度を計数する(ステップS24)。例えば図5に示す構文解析結果の場合、文節2「肺を」が抽出されて、文字毎の出現頻度が計数される。その後、抽出した全ての文字Ci(i=1〜抽出された文字の種類数)について(ステップS25)、文字Ciの出現頻度が係数m以上か否かを判定し(ステップS26)、出現頻度が係数m以上の文字Ciを判定用文字リストに追加する(ステップS27)。
このように、本例では、漢和辞典等の知識源を使用せずに、コーパスから判定用文字リストを自動学習するようにしている。
なお、本例では、入力されたコーパスを文節単位に区切る手段として構文解析システムを用いているが、これに代えて他の手段を用いてもよく、例えば、文字列を日本語の規則に従って文節区切りするチャンカーを用いることができる。
図6は、本例に係る医療テキスト検索装置の主要なハードウェア構成を示している。
すなわち、本例の医療テキスト検索装置は、各種演算処理を行うCPU11、CPU11の作業領域となるRAM12、基本的な制御プログラムを記憶するROM13、本発明に係る機能を実現するためのプログラムや各種データを記憶するHDD14、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F15、他の装置との間で通信を行うインターフェースである通信I/F16、等のハードウェア資源を有するコンピュータで構成されている。
すなわち、本例の医療テキスト検索装置は、各種演算処理を行うCPU11、CPU11の作業領域となるRAM12、基本的な制御プログラムを記憶するROM13、本発明に係る機能を実現するためのプログラムや各種データを記憶するHDD14、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F15、他の装置との間で通信を行うインターフェースである通信I/F16、等のハードウェア資源を有するコンピュータで構成されている。
そして、本発明に係るプログラムをHDD14から読み出してRAM12に展開し、これをCPU11により実行させることで、本発明に係る検索装置の各機能手段をコンピュータにより実現している。本例では、判定用文字候補リスト保持部4により第1の記憶手段が構成され、形態素解析辞書保持部5により第2の記憶手段が構成され、検索語入力部1により取得手段が構成され、検索方式決定部2により第1及び第2の判定手段並びに制御手段が構成され、検索部6により第1及び第2の検索手段が構成されている。
本発明に係るプログラムは、例えば当該プログラムを記憶したCD−ROM等の外部記憶媒体を配布する形式やネットワークを介して配信する形式により、本発明の実施者に提供される。
また、本発明に係る各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、それぞれ専用のハードウエアモジュールで構成してもよい。
また、本発明に係る各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
また、本発明は、医療分野のテキスト検索に限定して使用されるものではなく、本発明に係る検索方式の決定手法を効果的に利用可能な他の分野のテキスト検索に使用するようにしてもよい。
また、本発明に係る各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、それぞれ専用のハードウエアモジュールで構成してもよい。
また、本発明に係る各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
また、本発明は、医療分野のテキスト検索に限定して使用されるものではなく、本発明に係る検索方式の決定手法を効果的に利用可能な他の分野のテキスト検索に使用するようにしてもよい。
1:検索語入力部、 2:検索方式決定部、 3:判定用文字候補リスト作成部、 4:判定用文字候補リスト保持部、 5:形態素解析辞書保持部、 6:検索部、 7:検索結果出力部
Claims (4)
- 文字列を1以上の文字数の文字単位に区切って検索を行う第1の検索手段と、
文字列を単語単位に区切って検索を行う第2の検索手段と、
1文字からなる判定用文字を記憶する第1の記憶手段と、
医療に関する電子文書の検索に用いられる検索語を取得する取得手段と、
前記取得手段により取得された検索語に前記第1の記憶手段により記憶されている判定用文字が含まれるか否かを判定する第1の判定手段と、
前記第1の判定手段により検索語に判定用文字が含まれると判定された場合には、前記第1の検索手段により文字列を1文字の文字単位に区切って行う検索を実行させ、前記第1の判定手段により検索語に判定用文字が含まれないと判定された場合には、前記第2の検索手段により文字列を単語単位に区切って行う検索を実行させるように制御する制御手段と、
を備えたことを特徴とする検索装置。 - 前記検索装置は、
前記第2の検索手段により文字列を単語単位に区切るときに用いられる単語辞書を記憶する第2の記憶手段と、
前記取得手段により取得された検索語が前記第2の記憶手段により記憶されている単語辞書に含まれるか否かを判定する第2の判定手段と、を備え、
前記制御手段は、前記第1の判定手段により検索語に判定用文字が含まれると判定された場合であっても、前記第2の判定手段により検索語が単語辞書に含まれないと判定された場合には、前記第1の検索手段により文字列を当該検索語の文字数の文字単位に区切って行う検索を実行させるように制御することを特徴とする請求項1に記載の検索装置。 - 前記判定用文字は、その語義の数が所定数より少ない文字であることを特徴とする請求項1又は請求項2に記載の検索装置。
- コンピュータに、
文字列を1以上の文字数の文字単位に区切って検索を行う第1の検索機能と、
文字列を単語単位に区切って検索を行う第2の検索機能と、
1文字からなる判定用文字を記憶する第1の記憶機能と、
医療に関する電子文書の検索に用いられる検索語を取得する取得機能と、
前記取得機能により取得された検索語に前記第1の記憶機能により記憶されている判定用文字が含まれるか否かを判定する第1の判定機能と、
前記第1の判定機能により検索語に判定用文字が含まれると判定された場合には、前記第1の検索機能により文字列を1文字の文字単位に区切って行う検索を実行させ、前記第1の判定機能により検索語に判定用文字が含まれないと判定された場合には、前記第2の検索機能により文字列を単語単位に区切って行う検索を実行させるように制御する制御機能と、
を実現させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008070672A JP2009223852A (ja) | 2008-03-19 | 2008-03-19 | 検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008070672A JP2009223852A (ja) | 2008-03-19 | 2008-03-19 | 検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009223852A true JP2009223852A (ja) | 2009-10-01 |
Family
ID=41240512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008070672A Pending JP2009223852A (ja) | 2008-03-19 | 2008-03-19 | 検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009223852A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022535853A (ja) * | 2020-04-07 | 2022-08-10 | ビージーアイ ジェノミクス カンパニー リミテッド | ヒト表現型オントロジーの決定方法及び関連装置 |
-
2008
- 2008-03-19 JP JP2008070672A patent/JP2009223852A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022535853A (ja) * | 2020-04-07 | 2022-08-10 | ビージーアイ ジェノミクス カンパニー リミテッド | ヒト表現型オントロジーの決定方法及び関連装置 |
JP7317146B2 (ja) | 2020-04-07 | 2023-07-28 | ビージーアイ ジェノミクス カンパニー リミテッド | ヒト表現型オントロジーの決定方法及び関連装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8909654B2 (en) | Information search method, apparatus, program and computer readable recording medium | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
US20130268554A1 (en) | Structured document management apparatus and structured document search method | |
JPH11203311A (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
JPH07219969A (ja) | 画像部品を検索する装置及びその方法 | |
US8521739B1 (en) | Creation of inferred queries for use as query suggestions | |
JP2004341753A (ja) | 検索支援装置、検索支援方法、およびプログラム | |
JP5121872B2 (ja) | 画像検索装置 | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2009223852A (ja) | 検索装置 | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
EP2469426A1 (en) | Control computer and file search method using the same | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2009265770A (ja) | 重要文提示システム | |
JP2009128967A (ja) | 文書検索装置 | |
JP5553037B2 (ja) | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
JP2009075662A (ja) | 検索支援装置 | |
JP2009129202A (ja) | データ処理装置、データ処理方法、および、プログラム | |
JP2005174003A (ja) | 要約生成方法およびプログラム | |
JP5430238B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2011059748A (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101118 |