JP5699789B2 - 情報処理装置、情報処理方法、プログラム及び情報処理システム - Google Patents

情報処理装置、情報処理方法、プログラム及び情報処理システム Download PDF

Info

Publication number
JP5699789B2
JP5699789B2 JP2011105034A JP2011105034A JP5699789B2 JP 5699789 B2 JP5699789 B2 JP 5699789B2 JP 2011105034 A JP2011105034 A JP 2011105034A JP 2011105034 A JP2011105034 A JP 2011105034A JP 5699789 B2 JP5699789 B2 JP 5699789B2
Authority
JP
Japan
Prior art keywords
search
information
text
sentence
search condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011105034A
Other languages
English (en)
Other versions
JP2012238062A (ja
Inventor
賢一郎 小林
賢一郎 小林
政明 星野
政明 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011105034A priority Critical patent/JP5699789B2/ja
Priority to EP12164283A priority patent/EP2523126A3/en
Priority to US13/454,791 priority patent/US20120290561A1/en
Priority to CN201210135871.5A priority patent/CN102779149B/zh
Publication of JP2012238062A publication Critical patent/JP2012238062A/ja
Application granted granted Critical
Publication of JP5699789B2 publication Critical patent/JP5699789B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、プログラム及び情報処理システムに関する。
情報処理技術の発展に伴い、大量の情報を取り扱うことが可能となった。これに伴い、大量の情報を管理しつつ、管理している情報から必要に応じて特定の情報を検索する技術が検討されている。
例えば各種のウェブ検索サーバでは、情報の検索を行いたいトピックに関するキーワードを入力することで、管理している情報の中からキーワードに適合した情報を提供するサービスが実現されている。しかしながら、かかる技術では、入力されたキーワードに適合する情報が全て抽出されてしまうため、ユーザは、自身が必要と考える情報を得るために、新たなキーワードを利用して抽出された情報の絞り込みを行う必要があった。
また、複数のキーワードを論理式に基づいて入力して情報の検索を行うことで、抽出される情報をより絞り込むための技術も検討されているが、ユーザは、論理式を理解したうえで、検索の際に自身で検索論理式を作成しなければならなかった。
このような問題点を解決するために、情報の検索を行うための情報検索クエリとして自然文の入力を受け付け、入力された自然文を解析することで、格納している文書ファイルの中から情報を抽出する技術が検討されている(例えば、以下の特許文献1を参照。)
特開2010−79915号公報
しかしながら、上記特許文献1に記載の技術では、入力された自然文と類似する文を全て抽出してしまうために、抽出する情報の絞り込みが十分ではなく、情報の検索に関する操作性を維持しつつ、検索される情報を更に絞り込むことが可能な技術が希求されていた。
本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える、情報処理装置が提供される。
また、本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、前記検索条件情報に対して言語解析処理を行うことと、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、前記検索条件情報に対して言語解析処理を行う言語処理機能と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、を実現させるためのプログラムが提供される。
また、本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える情報検索サーバと、前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、を有し、前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システムが提供される。
本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報が取得され、取得された前記検索条件情報に対して言語解析処理が実施され、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造が抽出される。その後、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式が生成され、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストが検索される。
以上説明したように本開示によれば、情報の検索に関する操作性を維持しつつ、検索される情報を更に絞り込むことが可能である。
本開示の第1の実施形態に係る情報処理装置の構成を示したブロック図である。 同実施形態に係る言語処理部の構成の一例を示したブロック図である。 同実施形態に係る検索対象データ生成部の構成の一例を示したブロック図である。 検索対象テキストの一例を示した説明図である。 同実施形態に係る言語解析処理の一例を示した説明図である。 同実施形態に係る言語解析処理の一例を示した説明図である。 同実施形態に係る言語解析処理の一例を示した説明図である。 同実施形態に係る文の構造化処理について説明するための説明図である。 同実施形態に係る文の構造化処理について説明するための説明図である。 同実施形態に係る文の構造化処理について説明するための説明図である。 同実施形態に係る時系列事実データについて説明するための説明図である。 同実施形態に係る検索インデックスについて説明するための説明図である。 同実施形態に係る検索論理式の生成処理について説明するための説明図である。 同実施形態に係るテキスト検索処理について説明するための説明図である。 同実施形態に係るテキスト検索処理について説明するための説明図である。 同実施形態に係る検索結果の表示処理について説明するための説明図である。 同実施形態に係るテキスト検索処理について説明するための説明図である。 同実施形態に係るテキスト検索処理について説明するための説明図である。 同実施形態に係る検索結果の表示処理について説明するための説明図である。 同実施形態に係る検索結果の表示処理について説明するための説明図である。 同実施形態に係る検索結果の表示処理について説明するための説明図である。 同実施形態に係る情報処理方法の流れの一例を示した流れ図である。 同実施形態に係る情報処理方法の流れの一例を示した流れ図である。 同実施形態に係る情報処理方法の流れの一例を示した流れ図である。 同実施形態に係る情報処理装置の第1変形例について説明するための説明図である。 本開示の実施形態に係る情報処理装置のハードウェア構成を示したブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は、以下の順序で行うものとする。
(1)第1の実施形態
(1−1)目的
(1−2)情報処理装置の構成について
(1−3)情報検索処理の具体例
(1−4)情報処理方法の流れについて
(1−5)第1変形例
(2)本開示の実施形態に係る情報処理装置のハードウェア構成について
(3)まとめ
(第1の実施形態)
以下の実施形態では、検索対象テキストとして、主に医療情報に関する各種テキストデータを例にとって説明を行うものとする。このような医療情報に関するテキストデータとしては、電子カルテ、クリニカルパス、退院サマリ(退院時要約)のような電子化された診療情報や、インターネット等のネットワーク上に存在する学会等における診療報告などの数多くの電子化されたテキストデータ等がある。これらの医療情報テキストは、小説などの一般的なテキストとは異なり、時間の流れ(時系列)に対して事実の記述が整理された形の文章であるという特徴を有する。
しかしながら、本開示の実施形態に係る情報処理装置及び情報処理方法が検索可能な検索対象テキストは、医療情報に関する各種テキストデータに限定されるわけではなく、各種トピックに関するテキストデータを検索可能であることは言うまでもない。
このような各種トピックとして、家庭電化製品に関するトピック、スポーツに関するトピック、観光に関するトピック及び料理に関するトピック等がある。また、これらのトピックのうち医療情報や家庭電化製品に関する情報等のように、特定の単語又は単語群と当該単語又は単語群に固有の識別情報とが関連付けられた言語コード情報(例えば、国際医療コード等)や、いわゆる言語オントロジー情報が存在するトピックについては、更に好適にテキストデータの検索を実施することが可能である。
<目的>
以下では、本開示の第1の実施形態に係る情報処理装置及び情報処理方法について説明するに先立ち、まず、本開示の実施形態の目的について簡単に説明するものとする。
医療情報テキストを検索するための技術は提唱され、数多くが実用化されている。このような実用化されている医療情報の検索システムでは、キーワードを利用した検索を行っており、キーワードが含まれるカルテ等の医療情報を検索することが可能である。しかしながら、キーワードレベルの検索を行っているため、キーワードを含む医療情報を抽出することが可能ではあるが、例えば薬の名前を検索したとしても、どのような病例に利用されたかを知るためには、得られた検索結果の中からユーザが判断して絞り込んでいく必要があった。
また、複数のキーワードを論理式により組み合わせて検索クエリを生成し、検索に利用することで、より絞り込んだ情報の検索を行うことも可能である。しかしながら、かかる場合には、ユーザが論理式を理解して自身で検索クエリを生成しなくてはならないため、ユーザにとって使いやすいものではなかった。
このような医療情報テキストの検索のために、上記特許文献1のような自然文による情報検索技術を適用することも可能ではあるが、上記特許文献1の技術では、自然文の時間的な状況や時間の流れは考慮していない。そのため、例えば、投薬の順番の違いや、過去の症例なのか今後発症する可能性がある症例なのか等を判断することができず、単語を含むか否かによる類似度合いにより検索を行うことしかできない。
そこで、本発明者らは、以上のような問題を解決するために、医療情報テキストのようなテキストデータを検索する際に、操作性に関するユーザの利便性を維持しつつ、情報の更なる絞り込みを可能とする技術について鋭意検討を行った。
その結果、以下で説明するように、情報検索クエリとして入力される自然文の時間的な状況や時間の流れに着目することで、操作性に関するユーザの利便性を維持しつつ、情報の更なる絞り込みが可能となる技術に想到した。
<情報処理装置の構成について>
まず、図1を参照しながら、本開示の第1の実施形態に係る情報処理装置の構成について、詳細に説明する。図1は、本実施形態に係る情報処理装置10の構成を示したブロック図である。
情報処理装置10は、図1に例示したように、統括制御部101、検索対象テキスト取得部103、言語処理部105、テキスト構造抽出部107、検索対象データ生成部109、検索条件情報取得部111、検索論理式生成部113、データ検索部115、表示データ選択部117、表示制御部119、及び、記憶部121を主に備える。
統括制御部101は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、通信装置等により実現される。統括制御部101は、本実施形態に係る情報処理装置10で実施される各種の処理を統括して制御する処理部である。本実施形態に係る情報処理装置10により実現される各種の機能は、統括制御部101による制御のもとで、図1に例示したような各種の処理部が処理を実施することにより実現されるものである。また、統括制御部101自体が各種の処理を実施して、情報処理装置10が提供する各種の機能を実現させることも可能である。
検索対象テキスト取得部103は、例えば、CPU、ROM、RAM、通信装置等により実現される。検索対象テキスト取得部103は、情報処理装置10が備えるストレージ装置の所定の格納領域や、情報処理装置10が通信可能な装置や、CD、DVD、Blu−rayディスク等といった各種記録媒体から、検索対象となるテキスト(検索対象テキスト)のデータを取得する。ここで、情報処理装置10が通信可能な装置は、インターネットやローカルネットワークやホームネットワーク等のネットワークに接続されている各種装置であってもよく、本実施形態に係る情報処理装置10に各種ケーブルや無線通信等を介して直接接続されているものであってもよい。
以下では、検索対象テキスト取得部103が取得した各種の検索対象テキストが、格構造に応じて構造化されていないテキスト(以下、非構造化テキストと称する。)であるものとして説明を行う。
検索対象テキスト取得部103は、所定の格納領域や、各種装置や、各種記録媒体から検索対象テキストのデータを取得すると、取得したデータを統括制御部101に出力する。統括制御部101は、検索対象テキスト取得部103から出力されたデータを後述する言語処理部105に出力して、非構造化テキストを格構造に応じて構造化する一連の処理を開始させる。
言語処理部105は、例えば、CPU、ROM、RAM、通信装置等により実現される。言語処理部105は、統括制御部101から通知された非構造化テキストや、後述する検索条件情報取得部111が取得した検索条件情報を構成するそれぞれの文に対して、各種の解析方法を利用した言語解析処理を実施する。これにより、本実施形態に係る情報処理装置10は、非構造化テキストや検索条件情報に含まれる文の格構造を解析するとともに、非構造化テキストや検索条件情報を構成する各文に関する他の様々な情報を抽出することが可能となる。
この言語処理部105は、図2に例示したように、形態素解析部131と、構文解析部133と、意味解析部135と、テキスト翻訳部137と、辞書ファイル記憶部139と、を更に備える。
形態素解析部131は、例えば、CPU、ROM、RAM、通信装置等により実現される。形態素解析部131は、統括制御部101から通知された各種のテキスト(すなわち、非構造化テキストや、ユーザにより入力された検索条件に関する検索条件情報等)に対して、形態素解析(morphological analysis)を行う処理部である。これにより、統括制御部101から通知された各種のテキストが、複数の形態素に分割されることとなる。ここで、形態素(morpheme)とは、実際の文中に現れてまとまった意味をもつ最小の単位のことをいう。非構造化テキストや検索条件に関するテキストが形態素に分割されることによって、これらの文章に含まれる語の品詞を特定することが可能となる。
形態素解析を実施するためのアルゴリズムとしては様々なものが提案されており、形態素解析部131は、任意のアルゴリズムを利用して形態素解析を実施することが可能である。
形態素解析部131は、各種テキストに対する形態素解析が終了すると、得られた解析結果に関する情報(文に含まれる単語と、この単語の品詞に関する情報)を、統括制御部101及び後述する構文解析部133に出力する。また、形態素解析部131は、得られた解析結果に関する情報を、記憶部121等に格納してもよい。また、情報処理装置10が備える各処理部は、形態素解析部131による形態素解析の解析結果に関する情報を適宜利用することが可能である。
構文解析部133は、例えば、CPU、ROM、RAM、通信装置等により実現される。構文解析部133は、統括制御部101から通知された各種のテキストに関するデータに対して、構文解析(syntactic analysis,parsing)を行う処理部である。構文解析部133は、形態素解析部131による形態素解析の解析結果に関する情報を利用して、各種テキストを構成する文章を文法的に解析し、文章を複数の句(phrase)に分割する。これにより、各種テキストに含まれる語の文法的な役割が特定されるとともに、語と語の係り受けの関係や、格を判定することが可能となる。
構文解析を実施するためのアルゴリズムとしては様々なものが提案されており、構文解析部133は、任意のアルゴリズムを利用して構文解析を実施することが可能である。
構文解析部133によって判定される格の種類としては、例えば以下の表1に示したようなものがある。なお、下記の表1に示した格はあくまでも一例であって、構文解析部133が利用するアルゴリズムが出力する格を適宜利用することが可能である。
Figure 0005699789
構文解析部133は、統括制御部101から通知された各種テキストに含まれる文章に対する構文解析が終了すると、得られた解析結果に関する情報(文章においてそれぞれの格に対応するのはどの単語なのかを表す情報等)を、統括制御部101及び後述する意味解析部135に出力する。また、構文解析部133は、得られた解析結果に関する情報を、記憶部121等に格納してもよい。また、情報処理装置10が備える各処理部は、構文解析部133による構文解析の解析結果に関する情報を適宜利用することが可能である。
意味解析部135は、例えば、CPU、ROM、RAM、通信装置等により実現される。意味解析部135は、統括制御部101から通知された各種テキストに関するデータに対して、意味解析(semantic analysis)を行う処理部である。意味解析部135は、形態素解析部131及び構文解析部133による解析結果に関する情報を利用して、統括制御部101から通知されたテキストを解析し、文章に含まれる語と語の意味的な関係を特定する。これにより、意味解析部135は、統括制御部101から通知された各種テキストに含まれるそれぞれの文章について、その概念を把握することが可能となるとともに、各文章についてモダリティ(modality)等を特定することができる。
ここで、モダリティとは、文が指す内容に対する主体の判断や心的態度を表したものである。かかるモダリティの例として、時制を示すもの、論理(and,or,否定)を示すもの、希望や命令を示すもの、動作の継続、反復、完了を示すもの等、様々なものがある。
意味解析を実施するためのアルゴリズムとしては様々なものが提案されており、意味解析部135は、任意のアルゴリズムを利用して意味解析を実施することが可能である。
意味解析部135は、テキストに対する意味解析が終了すると、得られた解析結果に関する情報を、統括制御部101に出力する。また、意味解析部135は、得られた解析結果に関する情報を、記憶部121等に格納してもよい。
統括制御部101は、形態素解析部131、構文解析部133及び意味解析部135のそれぞれから、解析結果に関する情報が出力されると、得られた解析結果に関する情報をとりまとめて、後述するテキスト構造解析部107に出力する。
なお、形態素解析部131、構文解析部133及び意味解析部135は、各種のテキストデータに対して解析を実施するにあたり、後述する辞書ファイル記憶部139に格納されている各種の辞書ファイルや、インターネット等のネットワーク上に存在する各種の辞書ファイル等を利用可能である。
テキスト翻訳部137は、例えば、CPU、ROM、RAM、通信装置等により実現される。テキスト翻訳部137は、統括制御部101から通知された各種のテキストの少なくとも一部を、テキストの表記に利用されている言語を他の言語へと翻訳する処理部である。表記に利用されている言語がどの言語へと翻訳されるかについては、特に限定するものではないが、翻訳先の言語を英語等の国際公用語とすることによって、よりグローバルなテキスト検索を実現することが可能となる。
テキストの翻訳を実施するためのアルゴリズムとしては様々なものが提案されており、テキスト翻訳部137は、任意のアルゴリズムを利用して翻訳処理を実施することが可能である。
また、テキスト翻訳部137は、各種のテキストデータに対して翻訳処理を実施するにあたり、後述する辞書ファイル記憶部139に格納されている各種の辞書ファイルや、インターネット等のネットワーク上に存在する各種の辞書ファイル等を利用可能である。
テキスト翻訳部137は、テキストに対する翻訳処理が終了すると、得られた翻訳結果に関する情報を、統括制御部101に出力する。また、テキスト翻訳部137は、得られた翻訳結果に関する情報を、記憶部121等に格納してもよい。
辞書ファイル記憶部139には、言語処理部105の有する各処理部が解析処理や翻訳処理を行う際に利用する各種の辞書ファイルが格納されている。このような辞書の一例として、例えば、形態素に関するデータベース、単語辞書、概念辞書等を挙げることができる。このような辞書は、各処理部で共通して利用されるものであってもよく、各処理部に特化したものであってもよい。また、このような辞書は、着目しているテキストのジャンルを問わず利用される汎用的なものであってもよく、テキストのジャンルごとに準備された、あるジャンルに特化したものであってもよい。
以上、図2を参照しながら、本実施形態に係る情報処理装置10が備える言語処理部105の構成について、詳細に説明した。
以下では、再び図1に戻って、本実施形態に係る情報処理装置10の構成について説明する。
テキスト構造抽出部107は、例えば、CPU、ROM、RAM、通信装置等により実現される。テキスト構造抽出部107は、統括制御部101から通知された非構造化テキストや検索条件情報に関する言語解析結果を利用して、これら非構造化テキストや検索条件情報の文構造を抽出する。その上で、テキスト構造抽出部107は、非構造化テキストや検索条件情報を構成する各文を、言語解析結果から得られる格構造を利用して構造化し、構造化データとする。
より詳細には、テキスト構造抽出部107は、言語解析結果に基づいて、非構造化テキストや検索条件情報を構成する各文に含まれるそれぞれの句を、その句が有している役割を示した情報(例えば、名詞句なのか、動詞句なのか、述語節なのか等)及びその句に対応する格を示した情報と互いに関連付けて句情報とする。その上で、テキスト構造抽出部107は、生成したそれぞれの句情報を、抽出した文構造に関する知見に基づいて互いに関連付けていく。このような処理を行うことで、テキスト構造抽出部107は、非構造化テキストや検索条件情報を構成する各文の述語構造を特定し、各文を構造化していく。
また、テキスト構造抽出部107は、検索対象テキストの内容に適合した言語コード情報が存在する場合、非構造化テキストや検索条件情報を構造化する際に、かかる言語コード情報を利用してテキストの構造化を図る。
ここで、言語コード情報とは、単語又は単語群と、当該単語又は単語群に固有の識別情報(以下、言語コードと称する。)と、が互いに関連付けられた情報群であり、特定の内容に関して構築された各種データベースや、特定の内容に関する各種のオントロジーを例示することができる。
テキスト構造抽出部107は、検索対象テキストや検索条件情報を構成する文の中に言語コード情報に含まれる単語又は単語群が存在する場合には、これらの単語又は単語群及び句情報を、言語コードに置き換える。これにより、表記のゆれを吸収することが可能となり、さらに言語コードが国際標準コードの場合には言語をまたいで同一の事実を同一の構造で表現することが可能となる。その結果、言語に依存しない意味概念レベルでの格構造を実現することが可能となり、検索対象テキストの検索精度を更に向上させることができる。
ここで、本実施形態において着目している医療関係のトピックでは、上記言語コード情報として、ICD−10やSNOMED等に代表される国際医療コードを利用することが可能である。
なお、テキスト構造抽出部107は、検索対象テキストや検索条件情報の述語構造を、以下で具体例を示すような論理式や、Feature Structure(素性構造)方式や、Global Document Annotation(GDA:大域文書修飾)方式など、任意の方式で表記することが可能である。
また、テキスト構造抽出部107は、検索対象テキストや検索条件情報を構造化する際に、言語コードを含まない係り受け木(木構造)を省略してもよい。ただし、係り受け木の更に上位に言語コードを含む係り受け木が存在する場合には、係り受け構造のみを構造化データとして残存させて、単語情報を省略してもよい。これにより、言語コード情報に対応するトピックに特化した構造化を実現することができる。
ここで、係り受け木の構造を省略化する際に、時間格に関しては検索処理に有用であるため、省略しないことが好ましいが、他の格情報と同様に省略することも可能である。また、省略しなかったが省略可能な格情報については、検索条件情報の構造化データを比較する際に、比較の対象としてもよく、比較の対象から外してもよい。
更に、テキスト構造抽出部107は、言語処理部105と相互に連携して、時間格に対応する表記を英語等の国際公用語(国際標準的な言語)に翻訳した上で保持することにより、表記レベルでの比較を可能としてもよい。
テキスト構造抽出部107は、文構造の抽出及びテキストの構造化を終了して、述語構造を表した構造化データを生成すると、得られた構造化データを統括制御部101に出力する。
検索対象データ生成部109は、例えば、CPU、ROM、RAM、通信装置等により実現される。検索対象データ生成部109は、テキスト構造抽出部107により格構造に応じて構造化されたテキスト(構造化テキスト)を利用して、テキストの検索処理に用いられる検索対象データを生成する。
検索対象データ生成部109は、統括制御部101から、検索対象テキストに関する構造化テキストが通知されると、まず、かかる検索対象テキストに対して、当該検索対象テキストを特定するための固有の識別情報(以下、テキスト識別情報と称する。)を付与する。その上で、検索対象データ生成部109は、通知された検索対象テキストに関する時系列事実データを生成するとともに、本実施形態に係る情報処理装置10で管理されている検索対象テキストの検索に用いられる検索インデックスの生成を行う。
この検索対象データ生成部109は、図3に例示したように、時系列事実データ生成部141と、検索インデックス生成部143と、を更に備える。
時系列事実データ生成部141は、例えば、CPU、ROM、RAM、通信装置等により実現される。時系列事実データ生成部141は、テキスト構造抽出部107による処理結果に基づき、着目している検索対象テキストを構成する文のうち言語コードを含むものを抽出し、抽出した文に対応する述語構造を文の出現順に蓄積することで、時系列事実データを生成する。
また、時系列事実データ生成部141は、時系列事実データを構成する述語構造それぞれに対して、固有の識別情報(以下、センテンス識別情報と称する。)を付与する。これにより、時系列事実データに含まれるそれぞれの文をテキスト識別情報とセンテンス識別情報とを利用して一意に特定することが可能となる。
本実施形態に係る情報処理装置10では、検索対象となるテキストを構成する各文の時系列での述語構造の推移を、検索対象となるテキストのトピックの推移と判断する。また、テキストを構成する各文に時間格に対応する句が含まれている場合には、時間格の変化に更に着目して、トピックの推移を判断することも可能である。本実施形態に係る情報処理装置10では、このような時系列事実データを生成してテキストの検索処理に利用することにより、検索条件として指定されたトピックの推移に則したテキストを、容易に検索することが可能となる。
検索インデックス生成部143は、例えば、CPU、ROM、RAM、通信装置等により実現される。検索インデックス生成部143は、テキスト構造抽出部107による処理結果及び時系列事実データ生成部141による処理結果に基づいて、テキストの検索処理に用いられる検索インデックスを生成する。
この検索インデックスは、構造化テキスト中に存在する言語コードをトリガとして生成され、ある言語コードに対して、かかる言語コードを含む文を特定するための特定情報が関連付けられたものである。ここで、文を特定するための特定情報としては、先述のテキスト識別情報及びセンテンス識別情報が用いられる。すなわち、検索インデックス生成部143により生成される検索インデックスは、それぞれの言語コードが、どの検索対象テキストのどの文に記載されているかを示した、言語コードに関する目次情報として機能するものである。
検索インデックス生成部143は、統括制御部101から新たな検索対象テキストの構造化データが通知されると、存在している検索インデックスに対して、新たに通知された検索対象テキストに含まれる言語コードや言語コードを含む文を特定するための特定情報を追記していく。このような処理が行われることにより、本実施形態に係る情報処理装置10で管理している検索対象テキストに関する検索インデックスが生成されることとなる。
このようにして生成された時系列事実データ及び検索インデックスを含む検索対象データは、記憶部121等の所定の格納領域に格納される。
以上、図3を参照しながら、本実施形態に係る情報処理装置10が備える検索対象データ生成部109の構成について、詳細に説明した。
以下では、再び図1に戻って、本実施形態に係る情報処理装置10の構成について説明する。
検索条件情報取得部111は、例えば、CPU、ROM、RAM、入力装置、通信装置等により実現される。検索条件情報取得部111は、ユーザがキーボード、マウス、タッチパッド等の入力装置を介して入力した、検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する。検索条件情報取得部111は、検索条件情報を取得すると、取得した検索条件情報を統括制御部101に出力する。統括制御部101は、検索条件情報取得部111から出力された検索条件情報を、検索論理式生成部113に出力する。これにより、検索対象テキストの中から検索条件に適合するテキストを検索するための検索処理が開始されることとなる。
検索式生成部の一例である検索論理式生成部113は、例えば、CPU、ROM、RAM等により実現される。検索論理式生成部113は、統括制御部101から検索条件情報取得部111が取得した検索条件情報が通知されると、統括制御部101を介して、通知された検索条件情報の言語処理を言語処理部105に要請する。言語処理部105から検索条件情報の言語解析結果が通知されると、検索論理式生成部113は、検索条件情報の文構造の抽出を、統括制御部101を介してテキスト構造抽出部107に要請する。テキスト構造抽出部107から文構造の解析結果が通知されると、検索論理式生成部113は、検索条件情報の言語解析結果及び検索条件情報の文構造に応じて、検索条件情報に含まれるテキストの文構造を反映した、検索対象テキストを検索するための検索論理式を生成する。
ここで、検索条件情報の言語解析結果及び検索条件情報の文構造から検索論理式を生成するための処理は、テキスト構造抽出部107が実施する非構造化テキストの構造化処理と同様のものである。このような処理により、検索論理式生成部113は、検索条件情報に対応するテキストを構造化する。
検索論理式生成部113は、統括制御部101から通知された検索条件情報に対応する検索論理式を生成すると、生成した検索論理式を統括制御部101に出力する。統括制御部101は、検索論理式生成部113から出力された検索論理式を、後述するデータ検索部115に出力する。
検索部の一例であるデータ検索部115は、例えば、CPU、ROM、RAM等により実現される。データ検索部115は、検索論理式生成部113が生成した検索論理式を利用し、検索条件情報の文構造に応じて、検索対象テキストの中から検索条件に適合するテキストを検索する。また、データ検索部115は、検索条件情報に複数の文が含まれる場合に、検索条件情報に含まれる各文の述語構造の推移を検索条件情報におけるトピックの推移と判断し、かかるトピックの推移に基づいて、検索対象テキストの中から検索条件に適合するテキストを検索する。
また、データ検索部115は、検索条件情報に対応するテキストの一部を利用して、検索対象テキストの構造単位で検索を実施することも可能である。
具体的には、データ検索部115は、検索対象データ生成部109が生成した検索インデックスを参照し、検索論理式に含まれる言語コードが検索インデックス中に存在するか否かを判断する。データ検索部115は、検索インデックスに検索論理式に含まれる言語コードが存在した場合、該当する言語コードに対応付けられている特定情報(テキスト識別情報及びセンテンス識別情報)を参照して該当する文の構造化データ(述語構造を表したデータ)を取得し、候補データとして蓄積する。
データ検索部115は、検索インデックスを参照して、検索論理式に含まれる言語コードに関する全ての候補を抽出すると、検索論理式で表される構造化データと、候補データとの比較を実施して、文構造の近いものから順にコストの算出(すなわち、重み付け情報の添付)を行う。
ここで、データ検索部115が利用するデータ間の比較のためのアルゴリズムとしては、例えば、全走査アルゴリズムや、O(ND)アルゴリズムや、O(NP)アルゴリズム等があるが、これらのアルゴリズム以外にも公知の方法を利用可能である。
データ検索部115は、データ間の比較を実施する際に、述部に対して直接係り関係を持つ文構造のレベルを第1レベルと定義し、第1レベルの各要素を修飾する句を第2レベルと定義し、第2レベルを修飾するものを第3レベルと定義する。以下同様にしてこのような処理を順に実施していくことで、データ検索部115は、構造化データを複数の階層に階層化する。その後、データ検索部115は、各階層(レベル)毎に一致率に対して閾値を設けることにより、検索論理式と候補データとの類似度を算出する。この類似度が、候補データの優先度を示すこととなる。
データ検索部115により検索された候補データに関する情報は、統括制御部101を介して表示データ選択部117へと通知される。
選択部の一例である表示データ選択部117は、例えば、CPU、ROM、RAM等により実現される。表示データ選択部117は、データ検索部115により検索されたテキストの中から、検索結果として出力するテキストを選択する。
例えば、表示データ選択部117は、検索条件情報に含まれるテキストに対応する検索論理式の文構造の類似度合いに応じて、類似度合いの高いもの(又は類似度合いの低いもの)から順に、検索結果として出力するテキストを選択する。すなわち、表示データ選択部117は、候補データに記載されているテキスト識別情報及びセンテンス識別情報を利用して、本実施形態に係る情報処理装置10が管理している検索対象テキストの中から該当するテキストを検索し、類似度合いの高いもの(又は類似度合いの低いもの)から順に、検索結果として選択する。
また、表示データ選択部117は、データ検索部115により検出された候補データを利用して、検索論理式に類似する文を特定すると、検索論理式に類似する文に先駆する文、又は、類似する文以降に現れる文を、検索結果として出力してもよい。この際に、表示データ選択部117は、該当する文を全て表示するようにしてもよいし、該当する文のうち所定の部分のみを表示するようにしてもよい。
また、表示データ選択部117は、検索結果として出力したテキストに関して、ユーザにより指定された文が存在する場合には、指定された文に対して先駆又は後続する文に含まれるトピックについて各種統計処理を実施し、得られた統計処理結果を出力してもよい。
具体的には、表示データ選択部117は、検索結果として出力したテキストに関して、ユーザにより指定された文が存在する場合、指定された文に対して先駆又は後続する文を特定し、特定結果を統括制御部101に出力する。統括制御部101は、表示データ選択部117から通知された文に関する言語解析処理及びテキスト構造抽出処理を、それぞれ言語処理部105及びテキスト構造抽出部107に要請する。これにより、表示データ選択部117から通知された文が、上記と同様に構造化されることとなる。
表示データ選択部117は、ユーザにより指定された文に対して先駆又は後続する文に関する構造化データを取得すると、かかる構造化データに含まれる言語コードを抽出し、かかる言語コードに対応したトピックに関して、各種統計処理を実施する。
この際、表示データ選択部117は、参照した構造化データにおいて、最初に出現した言語コードに対応するトピックのみを統計処理の対象としてもよく、参照した構造化データに含まれる複数の言語コードに対応する複数のトピックを統計処理の対象としてもよい。
なお、表示データ選択部117は、上記統計処理を実施する際に、少なくとも対象格と述部のいずれかに関連付けられている言語コードを、統計処理対象のトピックとして取り扱うことが好ましい。また、述部及び対象格以外の格に関連付けられている言語コードについては、統計処理の対象としてもよいし、統計処理の対象から除外するようにしてもよい。
なお、上記説明では、表示データ選択部117が、ユーザにより指定された検索結果の一部に基づいて統計処理を実施する場合について説明したが、表示データ選択部117は、表示制御部119を介して検索条件情報を表示させ、表示されている検索条件情報の中からユーザの着目する部分を指定させて統計処理対象としてもよい。また、表示データ選択部117は、ユーザにより入力された検索条件情報すべてを対象にして、統計処理を実施してもよい。また、表示データ選択部117は、これらの方法以外にも、任意の方法を用いて統計処理対象を特定することが可能である。
更に、表示データ選択部117は、情報処理装置10が内部に格納している各種のデータを相互参照して、検索結果とあわせて表示させることが可能である。これにより、検索結果とあわせて検索結果に対応する画像データを表示させたり、他のテキストデータを表示させたりすることが可能となる。
表示データ選択部117により選択されたデータや統計処理により得られたデータ等は、統括制御部101に出力され、後述する表示制御部119による表示制御のもとで、情報処理装置10が備えるディスプレイ等の表示装置(図示せず。)や、情報処理装置10が通信可能な装置に設けられた表示装置(図示せず。)に表示されることとなる。
表示制御部119は、例えば、CPU、ROM、RAM、出力装置、通信装置等により実現される。表示制御部119は、検索対象テキストの中から検出された検出結果等(例えば、検出されたテキストや統計処理結果等)の表示制御を行う。
また、表示制御部119は、検出結果のうち検索条件情報と構造の類似する箇所を強調して表示させてもよく、検出結果のうち検索条件情報と構造の類似する箇所よりも先に位置する箇所、又は、後に位置する箇所を強調して表示させてもよい。
なお、このような強調処理としては、対応箇所を反転させて表示させたり、網掛けして表示させたりする処理等が挙げられる。また、このような強調処理はあくまでも一例であって、他の公知の強調方法を利用することも可能である。
記憶部121は、本実施形態に係る情報処理装置10が備えるストレージ装置の一例である。この記憶部121には、情報処理装置10が保持している検索対象データの実体データや各種の言語コード情報が格納される。また、記憶部121には、言語処理部105、テキスト構造抽出部107、検索対象データ生成部109及び表示データ選択部117による処理により得られた各種情報が格納される。
また、記憶部121には、検索対象テキストの検索結果に関する履歴情報など、各種の履歴情報が記録されていてもよい。さらに、記憶部121には、本実施形態に係る情報処理装置10が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等、または、各種のデータベース等が、適宜記録される。この記憶部121は、情報処理装置10が備える各処理部が自由に読み書きを行うことが可能である。
以上、本実施形態に係る情報処理装置10の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、CPU等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。
<情報検索処理の具体例について>
続いて、図4〜図19を参照しながら、本実施形態に係る情報処理装置10が実施する情報検索処理について、具体的に説明する。
[検索対象データの生成処理]
まず、検索対象データの生成処理について、具体的に説明する。
なお、以下の説明では、電子カルテやクリニカルパスや退院サマリに代表されるような電子化された診療情報や、ウェブ上に存在する学会等における診療報告等の数多くの電子化された医療テキストに着目する。
情報処理装置10の検索対象テキスト取得部103は、かかる医療情報に対応する非構造化テキストのデータを取得すると、取得したデータを統括制御部101に出力する。統括制御部101は、検索対象テキスト取得部103から出力された医療情報に関するデータを、言語処理部105に出力する。言語処理部105は、これらの医療情報を用いて形態素的、構文的、意味的な解析を行い、各種の解析結果を生成する。情報処理装置10は、例えば図4に示したような医療情報を取得した場合、図4に示した医療情報を構成する各文に対して言語解析処理を実施して、図5A〜図5Cに示したような解析結果を取得する。
言語処理部105の形態素解析部131により図4に示した非構造化テキストが解析されることにより、図5Aに示したように、各文が形態素へと分割され、その品詞等が特定される。また、構文解析部133は、形態素解析部131による解析結果を利用することで、図5Bに示したような構文解析結果(すなわち、係り受け木)に関する知見を得ることができる。また、意味解析部135が、形態素解析結果及び構文解析結果を利用して意味解析を行うことにより、図5Cに示したような結果が生成されることとなる。
言語処理部105は、図5A〜図5Cに示したような解析結果を生成すると、生成した解析結果を、テキスト構造抽出部107に出力する。テキスト構造抽出部107は、これらの解析結果に基づいて、文の構造化を行う。これにより、文章を構造化し検索に適した形の論理式である論理式データが生成されることになる。
例えば、図6上段に示したような「5年前に左心室前壁の心筋梗塞を発症し入院した。」という文が非構造化テキストに存在していたものとする。この文は、言語処理部105により解析されることで、図6中段に示したような係り受け木と、格構造が特定されることとなる。テキスト構造抽出部107は、これらの知見を利用することで、図6下段に示したような論理式データを生成する。ここで、図6下段に示した論理式データにおいて、中括弧“{}”は句の係り受け関係を表しており、小括弧“()”は句の情報を示している。句の情報には、図6に示したように、句の具体的な表記と、句の品詞に関する情報である句情報と、句がどのような格であるかを示す格情報と、その属性(アトリビュート)とが含まれる。
また、テキスト構造抽出部107は、記憶部121に格納されている言語コード情報である国際医療コードを用いることで、表記の揺れを吸収する。
テキスト構造抽出部107は、図7に示したように、「左心室前壁の」という語句を、かかる語句の上位概念である「左心室」という語句に関連づけられている言語コードを用いて、「T32600」と置換する。また、かかる国際医療コードを利用することで、「左心室前壁の」という句が「名詞句」であるという情報を保持しなくとも良くなるため、かかる部分に対応する句情報を、「(T32600、連体修飾)」という構造化データに変換する。
同様に、テキスト構造抽出部107は、「心筋梗塞を」という句を、「[ICD−9=410、M54700]」という識別番号に置換し、「入院した。」という句を、「P0020」という識別番号に置換する。
このように、本実施形態に係る情報処理装置10では、言語コード情報である国際医療コードを用いることで表記の揺れを吸収し、「入院」と「アドミタンス」と「hospitalization」という同じ意味を持つ表記を、国際医療コード「P0020」で表現することが可能となる。
また、テキスト構造抽出部107は、言語処理部105と連携して、「5年前に」という時間格に対応する句をそのまま利用してもよいが、「five years ago」という国際標準語である英語に置換して格納することも可能である。
このように、非構造化テキストに基づきテキスト構造抽出部107によって生成される構造化データは、言語に依存しない意味概念レベルでの格構造を表現しているため、言語をまたいで同じ事実を同じ構造で表現することが可能である。図8は、図6及び図7に示した日本語と同じ内容の英語を構造化した例であるが、日本語の場合と同様に構造化することが可能であることがわかる。
また、図6や図7に示したように、国際医療コードを用いて構造化を実施する際には、国際医療コードを含まない係り受け木を省略することが可能である。図7における「(、原因格)」の部分が、かかる部分に相当し、上位の係り受け構造を述部に原因格として結び付けている。
このような構造化処理は1文ごとに行われ、文それぞれに対して、図7に例示したような述語構造を表した構造化データが生成されることとなる。
次に、検索対象データ生成部109の時系列事実データ生成部141は、生成された構造化データのうち国際医療コードを含むものを、文の出現順に並べて蓄積し、時系列事実データを生成する。例えば図9上段に示したように、国際医療コードを含む3つの文が存在する場合、時系列事実データ生成部141は、それぞれの文に対応する述語構造を示した構造化データを順に蓄積して、図9下段に示したような時系列事実データを生成する。
また、検索インデックス生成部143は、テキスト構造抽出部107によって生成される構造化データを参照して、国際医療データを含む構造化データを抽出する。その後、検索インデックス生成部143は、検索インデックスのうち抽出した構造化データに含まれる国際医療データに該当する欄に、当該国際医療データを含む構造化データを特定するための特定情報を追記する。例えば、Text_ID=17,Sentence_ID=4に対応する構造化データに、「T32600」という国際医療コードが含まれていた場合、検索インデックス生成部143は、検索インデックスの国際医療コード「T32600」に対して、特定情報として「Text_ID=17,Sentence_ID=4」を新たに関連付ける。同様の処理がそれぞれの検索対象テキストに対して実施されることにより、図10に例示したような、情報処理装置10が管理している検索対象テキストに関する検索インデックスが生成される。
以上説明したような処理により、検索対象テキストの検索に利用されるデータの準備が完了する。
このような処理は、オンラインで行われても良く、オフラインで行われても良い。また、検索対象テキストとして用いられるデータは、既存の電子カルテシステムやウェブ上のデータなどからクローニングすることにより、蓄積が可能である。
[自然文入力による検索処理]
続いて、以上説明したような処理により生成された検索対象データの活用に関して、具体的に説明する。
まず、第一の活用方法である自然文入力による検索処理について、具体的に説明する。
情報処理装置10のユーザにより、キーボード、マウス、タッチパット等の入力装置を介して検索条件情報が入力されると、検索条件情報取得部111は、入力された検索条件情報を取得して、統括制御部101へと出力する。かかる検索条件情報は、一般的なキーワードであってもよいし、1つ以上の自然文であってもよい。
統括制御部101は、検索条件情報取得部111から検索条件情報が通知されると、かかる検索条件情報を、検索論理式生成部113へと出力する。検索論理式生成部113は、統括制御部101から通知された検索条件情報に対する言語処理及び構造抽出処理を、それぞれ言語処理部105及びテキスト構造抽出部107に要請する。その後、検索論理式生成部113は、これらの処理部により生成された処理結果に基づいて、検索処理に利用される構造化された検索条件文である検索論理式を生成する。
例えば図11に示したような「心筋梗塞による入院」というテキストが検索条件情報として入力された場合、検索論理式生成部113は、言語処理部105及びテキスト構造抽出部107による処理結果を利用して、図11下段に示したような検索論理式を生成する。
検索論理式生成部113は、検索論理式を生成すると、生成した検索論理式を統括制御部101に出力する。統括制御部101は、取得した検索論理式をデータ検索部115へと出力して、データ検索処理の開始を要請する。
データ検索部115は、図11に例示したような検索論理式に含まれている国際医療コードを元に記憶部121等に格納されている検索インデックスを検索し、対象となる文の構造化データを取得して、図12に例示したように、候補データとして蓄積する。データ検索部115は、記憶部121等に格納されている検索インデックスを参照して全ての候補を抽出すると、検索論理式と候補データとして格納されている構造化データとの比較を行い、文構造の近いものから順に重み付けを行う。
図13は、O(ND)アルゴリズムを用いて、検索論理式と候補データとを比較する例を示している。図13に示した例の場合、「[ICD−9=410,M54700]」という国際医療コードと、「(、原因格)」という句情報と、「P0020」という国際医療コードに一致が見られることがわかる。データ検索部115は、述部(すなわち、「(P0020、過去)」という句情報)に対して直接係り関係を持つレベルを第1レベルと定義し、第1レベルのそれぞれの要素を修飾する句を第2レベル、第2レベルを修飾するものを第3レベルというように階層化する。その上で、各レベルでの一致率に対して閾値を設けることにより類似度を検証し、重み付けスコアとする。
データ検索部115は、以上のようにして重み付け(換言すれば、優先順位付けともいえる。)を行った候補データを、統括制御部101を介して表示データ選択部117へと出力する。
表示データ選択部117は、候補データのうち優先度の高いものから順に、テキストのIDと文のIDに基づいて、医療情報テキストの中から該当するテキストを検索し、該当するテキストを表示制御部119に出力する。表示制御部119は、表示データ選択部117により選択されたテキストを表示する際、例えば図14に示したように、ユーザが入力した検索条件情報に対応する箇所を、網掛け、色の変更、太字にするなどといった強調処理を行って、どの部分が一致したかが明瞭となるように検索結果を表示させる。
以上のような流れで処理が実施されることにより、自然な文での入力によるテキスト情報の検索が実現できる。なお、上記例では、優先度の高いものから順に表示する場合について説明したが、優先度の低いものから順に表示するようにしてもよい。
また、本実施形態に係る情報検索方法では、検索対象テキストを構成する各文の述語構造の推移をトピックの推移とみなし、かかるトピックの推移に着目して検索処理を実施する。そのため、本実施形態に係る情報検索方法では、「文A→文B→文C→文D→文E」という構成の5つの文からなる検索対象テキストと、「文A→文B→文D→文C→文E」という構成の5つの文からなる検索対象テキストとを、別なものとして認識する。同様に、本実施形態に係る情報検索方法では、「文A→文B→文C→文D→文E」という構成の5つの文からなる検索対象テキストと、「文A→文B→文B’→文C→文C’→文D→文E」という構成の7つの文からなる検索対象テキストとを、別なものとして認識する。このため、本実施形態に係る情報検索方法では、自然文による情報検索を可能としているにもかかわらず、情報の更なる絞り込みを実現することが可能となる。
[類似症例の検索処理]
本実施形態に係る情報検索方法は、上記のように、自然文による検索により、情報の更なる絞り込みを実現可能な自然文によるテキスト検索を実現可能である。また、本実施形態に係る情報処理装置では、検索条件情報として、複数の文章を設定することもできる。
そこで、検索条件情報として、着目する症例の経過を示した複数の文章を入力する。本実施形態に係る情報検索方法では、上述のように文の述語構造の推移を考慮した情報の検索が行われるため、検索条件情報と同様の経過が見られた症例の検索(すなわち、類似症例の検索)を実現することが可能である。
かかる場合においても、本実施形態に係る情報処理装置10は、上記「自然文による検索処理」と同様にして、検索条件情報に含まれる複数の文章それぞれについて検索論理式を生成して、候補データを生成する。その後、上記「自然文による検索処理」と同様にして優先順位付けを行い、優先度の高いものから順に表示する。
このような類似症例の検索処理は、情報処理装置10の表示画面に表示されているテキスト(例えば、ウェブ上に存在するテキスト等)に対して実施することも可能であるし、図15に示したように、情報処理装置10やネットワーク上等に存在する各種装置のストレージ装置に格納されているデータに対しても実施することが可能である。この場合、図15に示したように、ディレクトリやファイルを指定することによって、検索対象テキストを指定することも可能である。
[経過の予測処理]
また、本実施形態に係る情報検索方法を利用することで、例えば、症例の経過予測や、処置方法の検索を実施することも可能である。
先だっての説明により、本実施形態に係る情報検索方法を利用することで、類似する症例の検索が実現できることを示した。ここで、情報処理装置10のユーザは、表示画面に表示されている任意の医療情報テキスト情報の一部を指定することにより、それ以前の症例が類似しているものに関して、指示された箇所以降の他の類似ケースでの処置方法を検索して提示することも可能である。
例えば図16に示したように表示されているテキストの一部を、ユーザがマウス等の入力装置により指定すると、検索条件情報取得部111は、ユーザにより指定された領域に含まれる文を部分的に切り出して、検索条件情報とする。この際に、検索条件情報取得部111は、指定された文(箇所)だけを切り出すことも可能であるし、指定された文以前、又は、指定された文以降に存在する文を切り出すことも可能である。切り出された文は、先だって説明した例と同様にして解析され、構造化データ(すなわち、検索論理式)に変換される。図16に示した例では、「心筋梗塞を発症し入院した。」という文が切り出されて、検索条件情報として利用されることとなる。
その後、先だって説明した例と同様にして検索条件情報に基づき検索論理式が生成され、生成された検索論理式を利用して候補データが生成され、検索結果が表示されることとなる。ここで、本適用例の場合には、検索条件情報に類似する箇所が検索結果として表示されるのではなく、類似箇所以降に出現する文が表示される。これにより、「検索された医療情報テキストではその後の処置をどのように行っているか」という内容を、ユーザに提示することができる。
例えば、図17に示すように、図16で指定された文以前が類似しているものに対して、指定された文以降の処置から始まる文章が検索結果として表示される。この際表示される各テキストは、上記方法と同様の評価方法により重み付けが行われ、ユーザに対して提示される。
また、図17に示した例は、指定された文以前の症例が類似しているものに対して、指定された文以降の処置に関するテキストが提示されたものであったが、指定されている文以降の類似を検証し、指定された文以前の経緯を探索する場合についても、同様に実施することが可能である。
また、図17に示した例では、検索された医療情報テキストの文章そのものを表示しているが、例えば図18に示したように、文章そのものではなく、医療トピック(すなわち、行った処置)のみをまとめて表示することも可能である。更に、それらを組み合わせて、医療トピックと、その元となるテキストの双方をあわせて提示することも可能である。
[検索結果の予測分析]
次に、本実施形態に係る情報検索方法の更に別の活用方法である予測分析について説明する。すなわち、上記では、本実施形態に係る情報検索方法の活用方法である予測表示に関して説明したが、他の類似ケースに関しては、類似例におけるその後の処置を表示するだけでなく、その後の処置の統計情報を提示することも可能である。
すなわち、ユーザ入力に基づいて、統括制御部101から表示データ選択部117に対して予測分析を行うように要請があった場合、表示データ選択部117は、上記経過の予測処理機能により検索された医療テキストのうち、ユーザにより指定された文に後続する文を特定し、特定結果を統括制御部101に出力する。特定された文は上記と同様にして構造化データへと変換され、表示データ選択部117へと通知される。表示データ選択部117は、通知された構造化データから最初に出現する医療トピックを抽出して統計情報を取ることにより、今後の処置の種類ごとに分類を行う。このようにして分類された医療トピックの例を、図19に示す。
図19に示した例では、ユーザにより指定された文に後続する文において最初に出現する一つの医療トピックに関して統計処理を行っているが、複数の医療トピックを対象として統計処理を実施してもよい。
また、医療トピックとして述部に対象格以外の格を含めたものは考慮することも無視することも可能であるが、対象格及び述部の少なくとも何れか一方に医療情報が含まれるものを医療トピックとして扱うことが好ましい。
このような予測分析が実現されることで、類似症例における他症例での支持された処置の分布が求められ、医療を学ぶ学生などには次の処置の可能性を模索する上で有用な情報提供となる。
以上、図4〜図19を参照しながら、本実施形態に係る情報処理装置10が実施する情報検索方法の具体例について説明した。
<情報処理方法の流れについて>
続いて、図20〜図22を参照しながら、本実施形態に係る情報処理装置10で実施される情報処理方法の流れについて、簡単に説明する。
[検索対象データの生成処理]
まず、図20を参照しながら、検索対象データの生成処理の流れの一例について、簡単に説明する。
情報処理装置10の検索対象テキスト取得部103は、まず、検索対象テキストの基となる非構造化テキストのデータを、当該データが存在する場所から取得し(ステップS101)、統括制御部101に出力する。
続いて、統括制御部101は、取得した非構造化テキストのデータを、言語処理部105に出力し、言語処理部105は、統括制御部101から通知された非構造化テキストを構成する文を、それぞれ解析する(ステップS103)。
言語処理部105は、非構造化テキストの言語解析処理が終了すると、得られた処理結果を、統括制御部101を介してテキスト構造抽出部107に出力する。テキスト構造抽出部107は、言語処理部105による解析結果を利用して、非構造化テキストを構成する各文を構造化し(ステップS105)、構造化データとする。
続いて、検索対象データ生成部109の時系列事実データ生成部141は、テキスト構造抽出部107により生成された構造化データを利用して、時系列事実データを生成する(ステップS107)。また、かかる時系列事実データの生成とともに、検索対象データ生成部109の検索インデックス生成部143は、検索インデックスを生成する(ステップS109)。このような流れで処理が行われることにより、非構造化テキストを基にして検索対象データが生成される。
[テキストの検索処理の流れ]
次に、図21を参照しながら、検索対象テキストの検索処理の流れの一例について、簡単に説明する。
まず、情報処理装置10の検索条件情報取得部111は、ユーザが各種の入力装置を介して入力した検索条件情報を取得して(ステップS121)、取得した検索条件情報を統括制御部101に出力する。
続いて、統括制御部101は、検索条件情報取得部111から出力された検索条件情報を、検索論理式生成部113に出力する。検索論理式生成部113は、検索条件情報の言語解析処理及び文構造の抽出処理を、それぞれ言語処理部105及びテキスト構造抽出部107に要請する。これにより、検索条件情報が解析されることとなる(ステップS123)。
検索論理式生成部113は、言語処理部105及びテキスト構造抽出部107のそれぞれから解析結果が通知されると、得られた解析結果を利用して、検索論理式を生成する(ステップS125)。その後、検索論理式生成部113は、生成した検索論理式を、統括制御部101を介してデータ検索部115に出力する。
次に、データ検索部115は、検索論理式生成部113により生成された検索論理式を利用して検索インデックスを検索し(ステップS127)、候補データを生成する。その後、データ検索部115は、生成した候補データを、統括制御部101を介して表示データ選択部117に出力する。
続いて、表示データ選択部117は、データ検索部115から出力された候補データを利用して、表示する検索結果を選択するとともに、ユーザ操作や初期設定事項等に応じて、検索結果の表示形式を選択する(ステップS129)。その後、表示データ選択部117は、表示制御部119に対して、検索結果の表示を要請する。表示制御部119が表示データ選択部117からの要請に応じて表示制御を行うことにより、検索結果がユーザに対して表示されることとなる(ステップS131)。
[トピックの統計処理の流れ]
次に、図22を参照しながら、検索対象テキストの検索結果に含まれるトピックに対する統計処理の流れの一例について、簡単に説明する。
まず、情報処理装置10の検索条件情報取得部111は、ユーザが各種の入力装置を介して入力した検索条件情報を取得して(ステップS141)、取得した検索条件情報を統括制御部101に出力する。
続いて、統括制御部101は、検索条件情報取得部111から出力された検索条件情報を、検索論理式生成部113に出力する。検索論理式生成部113は、検索条件情報の言語解析処理及び文構造の抽出処理を、それぞれ言語処理部105及びテキスト構造抽出部107に要請する。これにより、検索条件情報が解析されることとなる(ステップS143)。
検索論理式生成部113は、言語処理部105及びテキスト構造抽出部107のそれぞれから解析結果が通知されると、得られた解析結果を利用して、検索論理式を生成する(ステップS145)。その後、検索論理式生成部113は、生成した検索論理式を、統括制御部101を介してデータ検索部115に出力する。
次に、データ検索部115は、検索論理式生成部113により生成された検索論理式を利用して検索インデックスを検索し(ステップS147)、候補データを生成する。その後、データ検索部115は、生成した候補データを、統括制御部101を介して表示データ選択部117に出力する。
続いて、表示データ選択部117は、データ検索部115から出力された候補データを利用して、表示する検索結果を選択するとともに、ユーザ操作や初期設定事項等に応じて、検索結果の表示形式を選択する(ステップS149)。その後、表示データ選択部117は、表示制御部119に対して、検索結果の表示を要請する。表示制御部119が表示データ選択部117からの要請に応じて表示制御を行うことにより、検索結果がユーザに対して表示されることとなる(ステップS151)。
その後、ユーザにより検索結果の一部が指定され、統計処理の実施が要請されると、表示データ選択部117は、上述のような方法によりユーザによる指定箇所以前(又は以降)に存在するトピックを特定し、各種の統計処理を実施する(ステップS153)。その後、表示データ選択部117は、得られた統計処理結果を表示制御部119に出力し、統計処理結果の表示を要請する。表示制御部119が表示データ選択部117からの要請に応じて表示制御を行うことにより、統計処理結果がユーザに対して表示されることとなる(ステップS155)。
なお、上記説明では、表示データ選択部117が、ユーザにより指定された検索結果の一部に基づいて統計処理を実施する場合について説明したが、先述のように、表示データ選択部117は、検索条件情報のうちユーザにより指定された部分や検索条件情報すべてを対象として統計処理を実施することも可能である。
以上、図20〜図22を参照しながら、本実施形態に係る情報処理方法の流れの一例について、簡単に説明した。
<第1変形例>
以上説明したように、本実施形態に係る情報処理装置10は、形態素解析、構文解析及び意味解析のような各種解析機能及び翻訳機能を含む言語処理機能と、検索対象テキストを利用して、情報の検索に利用される検索対象データを生成する検索対象データ生成機能と、検索条件情報に基づいて検索対象テキストを検索する情報検索機能という、主に3つの機能を有する装置である。
このような3つの主な機能は、以上説明したように、1つの装置に実装されていてもよく、例えばネットワーク上に存在する複数の装置(例えば、各種のサーバ)に分散して実装されていてもよい。また、複数の装置に分散させる処理部をどのように組み合わせるかについては、適宜設定することができる。
例えば、本実施形態に係る情報処理装置10が実現する機能を、図23に例示したように、インターネット等のネットワーク上に存在する3種類のサーバに分散させて、テキスト検索サービスを実現することも可能である。すなわち、ネットワーク上に存在する情報検索サーバ20に対して、情報処理装置10における検索対象データ生成機能及び情報検索機能を実装し、テキスト管理サーバ30により管理されている構造化されたテキストを利用して、言語処理サーバ40が備える言語処理機能と連携しながら、以上説明したような情報検索処理を実現することが可能である。
かかる場合、パーソナルコンピュータ、携帯電話、スマートフォン、携帯ゲーム機器等といったユーザ操作端末50は、検索条件情報を各種の入力装置により取得して、情報検索サーバ20に通知する機能と、情報検索サーバ20から出力された検索結果を表示するための表示制御機能とを少なくとも有していればよい。
(ハードウェア構成について)
次に、図24を参照しながら、本開示の実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図24は、本開示の実施形態に係る情報処理装置10のハードウェア構成を説明するためのブロック図である。
情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、ホストバス907と、ブリッジ909と、外部バス911と、インターフェース913と、入力装置915と、出力装置917と、ストレージ装置919と、ドライブ921と、接続ポート923と、通信装置925とを備える。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなどユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置10のユーザは、この入力装置915を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置917は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。
ストレージ装置919は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種データなどを格納する。
ドライブ921は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD−DVDメディア、Blu−rayメディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ、または、SDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)または電子機器等であってもよい。
接続ポート923は、機器を情報処理装置10に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS−232Cポート、光オーディオ端子、HDMI(High−Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処理装置10は、外部接続機器929から直接各種データを取得したり、外部接続機器929に各種データを提供したりする。
通信装置925は、例えば、通信網931に接続するための通信デバイス等で構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信網931は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信等であってもよい。
以上、本開示の実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
(まとめ)
以上説明したように、本開示の実施形態に係る情報処理装置及び情報処理方法によれば、自然文を入力することにより、精度の高いテキストデータの検索を自然なインターフェースにより実現することができ、検索論理式を自然文から自動的に生成することが可能となる。また、カルテや診療データ等のようなデータに類似するものの検索を行う場合には、時系列を考慮した検索を行い前後関係が類似するものをより確からしいものとして検索することができる。
また、上記技術により時系列を判断できることにより、時系列的な流れについて、大量の類似データの中から統計処理を行うことが可能となり、ひいては、事象の推移の分岐点を検出して統計情報による今後の予測提示を行うことも可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本技術は以下のような構成も取ることができる。
(1)格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える、情報処理装置。
(2)前記検索部は、前記検索条件情報に複数の文が含まれる場合に、前記検索条件情報に含まれる各文の述語構造の推移に基づいて、前記検索対象テキストの中から前記述語構造の推移に適合するテキストを検索する、(1)に記載の情報処理装置。
(3)単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、前記情報処理装置は、前記言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部を更に備え、前記検索対象データ生成部は、前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、(1)又は(2)に記載の情報処理装置。
(4)前記検索式生成部は、前記言語コード情報を利用し、前記検索条件情報に含まれるテキストのうち当該言語コード情報に含まれる単語又は単語群を前記言語コードに置換して前記検索式を生成し、前記検索部は、前記検索式に含まれる前記言語コードを利用して前記検索インデックスを検索し、当該検索式に含まれる言語コードを含む文を、候補データとして抽出する、(3)に記載の情報処理装置。
(5)前記情報処理装置は、前記検索部により抽出された前記候補データの中から、検索結果として出力するテキストを選択する選択部を更に備え、前記選択部は、前記検索条件情報に含まれるテキストの文構造と、前記候補データそれぞれの文構造との類似度合いに応じて、前記検索結果として出力するテキストを選択する、(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)前記選択部は、前記検出結果として選択したテキストのうち、前記検索式に類似する文に対して先駆する文、又は、前記検索式に類似する文に対して後続する文を、前記検索結果として出力する、(5)に記載の情報処理装置。
(7)前記選択部は、前記検索結果として出力したテキストもしくは前記検索条件情報のうち、ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文に存在する前記言語コードに対応したトピックに関して統計解析を実施し、得られた統計解析結果を出力する、(5)に記載の情報処理装置。
(8)前記選択部は、前記ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文のうち、対象格又は述部に前記言語コードが含まれるものに対して、前記統計解析を実施する、(7)に記載の情報処理装置。
(9)前記情報処理装置は、格構造に応じた構造化がなされていない非構造化テキストを取得した場合、前記言語処理部による言語処理結果、及び、前記構造抽出部によって抽出された文構造に基づいて前記非構造化テキストを構造化することにより、前記検索対象テキストを生成する、(3)に記載の情報処理装置。
(10)前記情報処理装置は、前記検索対象テキストの中から検出された前記検出結果の表示制御を行う表示制御部を更に備え、前記表示制御部は、前記検出結果のうち前記検索条件情報と文構造の類似する箇所を強調して表示させる、(1)〜(9)のいずれか1項に記載の情報処理装置。
(11)格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、前記検索条件情報に対して言語解析処理を行うことと、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、を含む、情報処理方法。
(12)コンピュータに、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、前記検索条件情報に対して言語解析処理を行う言語処理機能と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、を実現させるためのプログラム。
(13)格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える情報検索サーバと、前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、を有し、前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システム。
10 情報処理装置
101 統括制御部
103 検索対象テキスト取得部
105 言語処理部
107 テキスト構造抽出部
109 検索対象データ生成部
111 検索条件情報取得部
113 検索論理式生成部
115 データ検索部
117 表示データ選択部
119 表示制御部
121 記憶部
131 形態素解析部
133 構文解析部
135 意味解析部
137 テキスト翻訳部
139 辞書ファイル記憶部
141 時系列事実データ生成部
143 検索インデックス生成部

Claims (12)

  1. 格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、
    前記検索条件情報に対して言語解析処理を行う言語処理部と、
    前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、
    前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、
    生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、
    単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部と、
    を備え
    前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
    前記検索対象データ生成部は、
    前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
    前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、情報処理装置。
  2. 前記検索部は、前記検索条件情報に複数の文が含まれる場合に、前記検索条件情報に含まれる各文の述語構造の推移に基づいて、前記検索対象テキストの中から前記述語構造の推移に適合するテキストを検索する、請求項1に記載の情報処理装置。
  3. 前記検索式生成部は、前記言語コード情報を利用し、前記検索条件情報に含まれるテキストのうち当該言語コード情報に含まれる単語又は単語群を前記言語コードに置換して前記検索式を生成し、
    前記検索部は、前記検索式に含まれる前記言語コードを利用して前記検索インデックスを検索し、当該検索式に含まれる言語コードを含む文を、候補データとして抽出する、請求項に記載の情報処理装置。
  4. 前記情報処理装置は、前記検索部により抽出された前記候補データの中から、検索結果として出力するテキストを選択する選択部を更に備え、
    前記選択部は、前記検索条件情報に含まれるテキストの文構造と、前記候補データそれぞれの文構造との類似度合いに応じて、前記検索結果として出力するテキストを選択する、請求項に記載の情報処理装置。
  5. 前記選択部は、前記検結果として選択したテキストのうち、前記検索式に類似する文に対して先駆する文、又は、前記検索式に類似する文に対して後続する文を、前記検索結果として出力する、請求項に記載の情報処理装置。
  6. 前記選択部は、前記検索結果として出力したテキストもしくは前記検索条件情報のうち、ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文に存在する前記言語コードに対応したトピックに関して統計解析を実施し、得られた統計解析結果を出力する、請求項に記載の情報処理装置。
  7. 前記選択部は、前記ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文のうち、対象格又は述部に前記言語コードが含まれるものに対して、前記統計解析を実施する、請求項に記載の情報処理装置。
  8. 前記情報処理装置は、格構造に応じた構造化がなされていない非構造化テキストを取得した場合、前記言語処理部による言語処理結果、及び、前記構造抽出部によって抽出された文構造に基づいて前記非構造化テキストを構造化することにより、前記検索対象テキストを生成する、請求項に記載の情報処理装置。
  9. 前記情報処理装置は、前記検索対象テキストの中から検出された検索結果の表示制御を行う表示制御部を更に備え、
    前記表示制御部は、前記検結果のうち前記検索条件情報と文構造の類似する箇所を強調して表示させる、請求項1に記載の情報処理装置。
  10. 単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、格構造に応じて構造化された検索対象テキストの検索処理に用いられる検索対象データを生成することと、
    前記検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、
    前記検索条件情報に対して言語解析処理を行うことと、
    前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、
    前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、
    生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、
    を含み、
    前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
    前記検索対象データを生成する際には、
    前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データが生成されるとともに、
    前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスが生成される、情報処理方法。
  11. コンピュータに、
    格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、
    前記検索条件情報に対して言語解析処理を行う言語処理機能と、
    前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、
    前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、
    生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、
    単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成機能と、
    を実現させ、
    前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
    前記検索対象データ生成機能は、
    前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
    前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、プログラム。
  12. 格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、
    前記検索条件情報に対して言語解析処理を行う言語処理部と、
    前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、
    前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、
    生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、
    単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部と、
    を備え、
    前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
    前記検索対象データ生成部は、
    前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
    前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する情報検索サーバと、
    前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、
    を有し、
    前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システム。
JP2011105034A 2011-05-10 2011-05-10 情報処理装置、情報処理方法、プログラム及び情報処理システム Expired - Fee Related JP5699789B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011105034A JP5699789B2 (ja) 2011-05-10 2011-05-10 情報処理装置、情報処理方法、プログラム及び情報処理システム
EP12164283A EP2523126A3 (en) 2011-05-10 2012-04-16 Information processing apparatus, information processing method, program, and information processing system
US13/454,791 US20120290561A1 (en) 2011-05-10 2012-04-24 Information processing apparatus, information processing method, program, and information processing system
CN201210135871.5A CN102779149B (zh) 2011-05-10 2012-05-03 信息处理装置,信息处理方法和信息处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011105034A JP5699789B2 (ja) 2011-05-10 2011-05-10 情報処理装置、情報処理方法、プログラム及び情報処理システム

Publications (2)

Publication Number Publication Date
JP2012238062A JP2012238062A (ja) 2012-12-06
JP5699789B2 true JP5699789B2 (ja) 2015-04-15

Family

ID=46456302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011105034A Expired - Fee Related JP5699789B2 (ja) 2011-05-10 2011-05-10 情報処理装置、情報処理方法、プログラム及び情報処理システム

Country Status (4)

Country Link
US (1) US20120290561A1 (ja)
EP (1) EP2523126A3 (ja)
JP (1) JP5699789B2 (ja)
CN (1) CN102779149B (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101361190B1 (ko) 2007-01-22 2014-02-21 삼성전자주식회사 무선 메쉬 네트워크에서 채널을 할당하기 위한 방법 및이를 이용한 통신 디바이스
US10157175B2 (en) 2013-03-15 2018-12-18 International Business Machines Corporation Business intelligence data models with concept identification using language-specific clues
US20150309965A1 (en) * 2014-04-28 2015-10-29 Elwha Llc Methods, systems, and devices for outcome prediction of text submission to network based on corpora analysis
US10698924B2 (en) 2014-05-22 2020-06-30 International Business Machines Corporation Generating partitioned hierarchical groups based on data sets for business intelligence data models
CN104050295B (zh) * 2014-07-01 2018-01-02 彩带网络科技(北京)有限公司 一种交互方法及系统
CN104166682B (zh) * 2014-07-21 2018-05-01 安徽华贞信息科技有限公司 一种基于组合理论的类自然语言的语义信息抽取方法及系统
CN104199803B (zh) * 2014-07-21 2017-10-13 安徽华贞信息科技有限公司 一种基于组合理论的文本信息处理系统及方法
JP6642429B2 (ja) * 2014-07-23 2020-02-05 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
US9846574B2 (en) * 2014-12-19 2017-12-19 Signalfx, Inc. Representing result data streams based on execution of data stream language programs
US10394692B2 (en) 2015-01-29 2019-08-27 Signalfx, Inc. Real-time processing of data streams received from instrumented software
US10002179B2 (en) 2015-01-30 2018-06-19 International Business Machines Corporation Detection and creation of appropriate row concept during automated model generation
US9984116B2 (en) 2015-08-28 2018-05-29 International Business Machines Corporation Automated management of natural language queries in enterprise business intelligence analytics
CN105550261A (zh) * 2015-12-09 2016-05-04 国云科技股份有限公司 一种基于ibatis的快速检索方法
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
CN108320788A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 医院业务分析方法及装置
CN107341264B (zh) * 2017-07-19 2020-09-25 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN110020006B (zh) * 2017-07-27 2021-04-27 北京国双科技有限公司 查询语句的生成方法及相关设备
CN107562732B (zh) * 2017-10-26 2022-06-14 北京康夫子健康技术有限公司 电子病历的处理方法及系统
JP7101946B2 (ja) * 2018-07-10 2022-07-19 株式会社医用工学研究所 検索システム
TWI702537B (zh) * 2018-09-28 2020-08-21 智齡科技股份有限公司 基於語彙分析之智慧護理文本生成系統以及使用其之智慧護理資訊平台
US11210346B2 (en) * 2019-04-04 2021-12-28 Iqvia Inc. Predictive system for generating clinical queries
CN110347785A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 非结构化文书搜索方法、装置、计算机设备和存储介质
CN112270167B (zh) * 2020-10-14 2022-02-08 北京百度网讯科技有限公司 角色标注方法、装置、电子设备和存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6678677B2 (en) * 2000-12-19 2004-01-13 Xerox Corporation Apparatus and method for information retrieval using self-appending semantic lattice
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US20040167800A1 (en) * 2003-02-26 2004-08-26 Duke University Methods and systems for searching, displaying, and managing medical teaching cases in a medical teaching case database
JP4435144B2 (ja) * 2006-12-04 2010-03-17 株式会社東芝 データ検索システム及びプログラム
US7890493B2 (en) * 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
BRPI0815826A2 (pt) * 2007-08-31 2015-02-18 Microsoft Corp Resolução de co-referência em um sistema de processamento linguagem natural sensível à ambiguidade
JP4602388B2 (ja) * 2007-09-19 2010-12-22 株式会社東芝 類似文検索システム及びプログラム
CN101446944A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义关系树的构造和比较方法
JP5439028B2 (ja) * 2009-05-12 2014-03-12 株式会社エヌ・ティ・ティ・データ 情報検索装置、情報検索方法、およびプログラム
JP5391887B2 (ja) * 2009-07-13 2014-01-15 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
JP2011105034A (ja) 2009-11-12 2011-06-02 Etsuaki Matsui 薄型画像表示モニタ車載用支持装置
US8375021B2 (en) * 2010-04-26 2013-02-12 Microsoft Corporation Search engine data structure

Also Published As

Publication number Publication date
EP2523126A3 (en) 2012-12-12
US20120290561A1 (en) 2012-11-15
CN102779149B (zh) 2016-12-14
CN102779149A (zh) 2012-11-14
EP2523126A2 (en) 2012-11-14
JP2012238062A (ja) 2012-12-06

Similar Documents

Publication Publication Date Title
JP5699789B2 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
US10394851B2 (en) Methods and systems for mapping data items to sparse distributed representations
AU2012235939B2 (en) Real-time automated interpretation of clinical narratives
US9690861B2 (en) Deep semantic search of electronic medical records
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US9785671B2 (en) Template-driven structured query generation
US20130262449A1 (en) System and method for search refinement using knowledge model
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
US11055295B1 (en) Method and apparatus for determining search result demographics
US20140108460A1 (en) Data store organizing data using semantic classification
US10970324B2 (en) System for generation of automated response follow-up
US20140108424A1 (en) Data store organizing data using semantic classification
JP2015511746A5 (ja)
US9081847B2 (en) Data store organizing data using semantic classification
JP5497105B2 (ja) 文書検索装置および方法
JP6409071B2 (ja) 文の並び替え方法および計算機
TWI427494B (zh) 雲端架構的專利文件檢索平台、處理方法及其檢索方法
EP2720160A2 (en) Data store organizing data using semantic classification
Dessi Toward Automatic RDF Property Tagging
Górka et al. Application of semantic networks in natural language issues
Atzoria et al. QA 3: a Natural Language Approach to Statistical Question Answering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150202

R151 Written notification of patent or utility model registration

Ref document number: 5699789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees