JP5699789B2

JP5699789B2 - 情報処理装置、情報処理方法、プログラム及び情報処理システム

Info

Publication number: JP5699789B2
Application number: JP2011105034A
Authority: JP
Inventors: 賢一郎小林; 政明星野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-05-10
Filing date: 2011-05-10
Publication date: 2015-04-15
Anticipated expiration: 2031-05-10
Also published as: CN102779149A; CN102779149B; JP2012238062A; EP2523126A2; US20120290561A1; EP2523126A3

Description

本発明は、情報処理装置、情報処理方法、プログラム及び情報処理システムに関する。

情報処理技術の発展に伴い、大量の情報を取り扱うことが可能となった。これに伴い、大量の情報を管理しつつ、管理している情報から必要に応じて特定の情報を検索する技術が検討されている。

例えば各種のウェブ検索サーバでは、情報の検索を行いたいトピックに関するキーワードを入力することで、管理している情報の中からキーワードに適合した情報を提供するサービスが実現されている。しかしながら、かかる技術では、入力されたキーワードに適合する情報が全て抽出されてしまうため、ユーザは、自身が必要と考える情報を得るために、新たなキーワードを利用して抽出された情報の絞り込みを行う必要があった。

また、複数のキーワードを論理式に基づいて入力して情報の検索を行うことで、抽出される情報をより絞り込むための技術も検討されているが、ユーザは、論理式を理解したうえで、検索の際に自身で検索論理式を作成しなければならなかった。

このような問題点を解決するために、情報の検索を行うための情報検索クエリとして自然文の入力を受け付け、入力された自然文を解析することで、格納している文書ファイルの中から情報を抽出する技術が検討されている（例えば、以下の特許文献１を参照。）

特開２０１０−７９９１５号公報

しかしながら、上記特許文献１に記載の技術では、入力された自然文と類似する文を全て抽出してしまうために、抽出する情報の絞り込みが十分ではなく、情報の検索に関する操作性を維持しつつ、検索される情報を更に絞り込むことが可能な技術が希求されていた。

本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える、情報処理装置が提供される。

また、本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、前記検索条件情報に対して言語解析処理を行うことと、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、前記検索条件情報に対して言語解析処理を行う言語処理機能と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、を実現させるためのプログラムが提供される。

また、本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える情報検索サーバと、前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、を有し、前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システムが提供される。

本開示によれば、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報が取得され、取得された前記検索条件情報に対して言語解析処理が実施され、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造が抽出される。その後、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式が生成され、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストが検索される。

以上説明したように本開示によれば、情報の検索に関する操作性を維持しつつ、検索される情報を更に絞り込むことが可能である。

本開示の第１の実施形態に係る情報処理装置の構成を示したブロック図である。同実施形態に係る言語処理部の構成の一例を示したブロック図である。同実施形態に係る検索対象データ生成部の構成の一例を示したブロック図である。検索対象テキストの一例を示した説明図である。同実施形態に係る言語解析処理の一例を示した説明図である。同実施形態に係る言語解析処理の一例を示した説明図である。同実施形態に係る言語解析処理の一例を示した説明図である。同実施形態に係る文の構造化処理について説明するための説明図である。同実施形態に係る文の構造化処理について説明するための説明図である。同実施形態に係る文の構造化処理について説明するための説明図である。同実施形態に係る時系列事実データについて説明するための説明図である。同実施形態に係る検索インデックスについて説明するための説明図である。同実施形態に係る検索論理式の生成処理について説明するための説明図である。同実施形態に係るテキスト検索処理について説明するための説明図である。同実施形態に係るテキスト検索処理について説明するための説明図である。同実施形態に係る検索結果の表示処理について説明するための説明図である。同実施形態に係るテキスト検索処理について説明するための説明図である。同実施形態に係るテキスト検索処理について説明するための説明図である。同実施形態に係る検索結果の表示処理について説明するための説明図である。同実施形態に係る検索結果の表示処理について説明するための説明図である。同実施形態に係る検索結果の表示処理について説明するための説明図である。同実施形態に係る情報処理方法の流れの一例を示した流れ図である。同実施形態に係る情報処理方法の流れの一例を示した流れ図である。同実施形態に係る情報処理方法の流れの一例を示した流れ図である。同実施形態に係る情報処理装置の第１変形例について説明するための説明図である。本開示の実施形態に係る情報処理装置のハードウェア構成を示したブロック図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は、以下の順序で行うものとする。
（１）第１の実施形態
（１−１）目的
（１−２）情報処理装置の構成について
（１−３）情報検索処理の具体例
（１−４）情報処理方法の流れについて
（１−５）第１変形例
（２）本開示の実施形態に係る情報処理装置のハードウェア構成について
（３）まとめ

（第１の実施形態）
以下の実施形態では、検索対象テキストとして、主に医療情報に関する各種テキストデータを例にとって説明を行うものとする。このような医療情報に関するテキストデータとしては、電子カルテ、クリニカルパス、退院サマリ（退院時要約）のような電子化された診療情報や、インターネット等のネットワーク上に存在する学会等における診療報告などの数多くの電子化されたテキストデータ等がある。これらの医療情報テキストは、小説などの一般的なテキストとは異なり、時間の流れ（時系列）に対して事実の記述が整理された形の文章であるという特徴を有する。

しかしながら、本開示の実施形態に係る情報処理装置及び情報処理方法が検索可能な検索対象テキストは、医療情報に関する各種テキストデータに限定されるわけではなく、各種トピックに関するテキストデータを検索可能であることは言うまでもない。

このような各種トピックとして、家庭電化製品に関するトピック、スポーツに関するトピック、観光に関するトピック及び料理に関するトピック等がある。また、これらのトピックのうち医療情報や家庭電化製品に関する情報等のように、特定の単語又は単語群と当該単語又は単語群に固有の識別情報とが関連付けられた言語コード情報（例えば、国際医療コード等）や、いわゆる言語オントロジー情報が存在するトピックについては、更に好適にテキストデータの検索を実施することが可能である。

＜目的＞
以下では、本開示の第１の実施形態に係る情報処理装置及び情報処理方法について説明するに先立ち、まず、本開示の実施形態の目的について簡単に説明するものとする。

医療情報テキストを検索するための技術は提唱され、数多くが実用化されている。このような実用化されている医療情報の検索システムでは、キーワードを利用した検索を行っており、キーワードが含まれるカルテ等の医療情報を検索することが可能である。しかしながら、キーワードレベルの検索を行っているため、キーワードを含む医療情報を抽出することが可能ではあるが、例えば薬の名前を検索したとしても、どのような病例に利用されたかを知るためには、得られた検索結果の中からユーザが判断して絞り込んでいく必要があった。

また、複数のキーワードを論理式により組み合わせて検索クエリを生成し、検索に利用することで、より絞り込んだ情報の検索を行うことも可能である。しかしながら、かかる場合には、ユーザが論理式を理解して自身で検索クエリを生成しなくてはならないため、ユーザにとって使いやすいものではなかった。

このような医療情報テキストの検索のために、上記特許文献１のような自然文による情報検索技術を適用することも可能ではあるが、上記特許文献１の技術では、自然文の時間的な状況や時間の流れは考慮していない。そのため、例えば、投薬の順番の違いや、過去の症例なのか今後発症する可能性がある症例なのか等を判断することができず、単語を含むか否かによる類似度合いにより検索を行うことしかできない。

そこで、本発明者らは、以上のような問題を解決するために、医療情報テキストのようなテキストデータを検索する際に、操作性に関するユーザの利便性を維持しつつ、情報の更なる絞り込みを可能とする技術について鋭意検討を行った。

その結果、以下で説明するように、情報検索クエリとして入力される自然文の時間的な状況や時間の流れに着目することで、操作性に関するユーザの利便性を維持しつつ、情報の更なる絞り込みが可能となる技術に想到した。

＜情報処理装置の構成について＞
まず、図１を参照しながら、本開示の第１の実施形態に係る情報処理装置の構成について、詳細に説明する。図１は、本実施形態に係る情報処理装置１０の構成を示したブロック図である。

情報処理装置１０は、図１に例示したように、統括制御部１０１、検索対象テキスト取得部１０３、言語処理部１０５、テキスト構造抽出部１０７、検索対象データ生成部１０９、検索条件情報取得部１１１、検索論理式生成部１１３、データ検索部１１５、表示データ選択部１１７、表示制御部１１９、及び、記憶部１２１を主に備える。

統括制御部１０１は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、通信装置等により実現される。統括制御部１０１は、本実施形態に係る情報処理装置１０で実施される各種の処理を統括して制御する処理部である。本実施形態に係る情報処理装置１０により実現される各種の機能は、統括制御部１０１による制御のもとで、図１に例示したような各種の処理部が処理を実施することにより実現されるものである。また、統括制御部１０１自体が各種の処理を実施して、情報処理装置１０が提供する各種の機能を実現させることも可能である。

検索対象テキスト取得部１０３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。検索対象テキスト取得部１０３は、情報処理装置１０が備えるストレージ装置の所定の格納領域や、情報処理装置１０が通信可能な装置や、ＣＤ、ＤＶＤ、Ｂｌｕ−ｒａｙディスク等といった各種記録媒体から、検索対象となるテキスト（検索対象テキスト）のデータを取得する。ここで、情報処理装置１０が通信可能な装置は、インターネットやローカルネットワークやホームネットワーク等のネットワークに接続されている各種装置であってもよく、本実施形態に係る情報処理装置１０に各種ケーブルや無線通信等を介して直接接続されているものであってもよい。

以下では、検索対象テキスト取得部１０３が取得した各種の検索対象テキストが、格構造に応じて構造化されていないテキスト（以下、非構造化テキストと称する。）であるものとして説明を行う。

検索対象テキスト取得部１０３は、所定の格納領域や、各種装置や、各種記録媒体から検索対象テキストのデータを取得すると、取得したデータを統括制御部１０１に出力する。統括制御部１０１は、検索対象テキスト取得部１０３から出力されたデータを後述する言語処理部１０５に出力して、非構造化テキストを格構造に応じて構造化する一連の処理を開始させる。

言語処理部１０５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。言語処理部１０５は、統括制御部１０１から通知された非構造化テキストや、後述する検索条件情報取得部１１１が取得した検索条件情報を構成するそれぞれの文に対して、各種の解析方法を利用した言語解析処理を実施する。これにより、本実施形態に係る情報処理装置１０は、非構造化テキストや検索条件情報に含まれる文の格構造を解析するとともに、非構造化テキストや検索条件情報を構成する各文に関する他の様々な情報を抽出することが可能となる。

この言語処理部１０５は、図２に例示したように、形態素解析部１３１と、構文解析部１３３と、意味解析部１３５と、テキスト翻訳部１３７と、辞書ファイル記憶部１３９と、を更に備える。

形態素解析部１３１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。形態素解析部１３１は、統括制御部１０１から通知された各種のテキスト（すなわち、非構造化テキストや、ユーザにより入力された検索条件に関する検索条件情報等）に対して、形態素解析（ｍｏｒｐｈｏｌｏｇｉｃａｌａｎａｌｙｓｉｓ）を行う処理部である。これにより、統括制御部１０１から通知された各種のテキストが、複数の形態素に分割されることとなる。ここで、形態素（ｍｏｒｐｈｅｍｅ）とは、実際の文中に現れてまとまった意味をもつ最小の単位のことをいう。非構造化テキストや検索条件に関するテキストが形態素に分割されることによって、これらの文章に含まれる語の品詞を特定することが可能となる。

形態素解析を実施するためのアルゴリズムとしては様々なものが提案されており、形態素解析部１３１は、任意のアルゴリズムを利用して形態素解析を実施することが可能である。

形態素解析部１３１は、各種テキストに対する形態素解析が終了すると、得られた解析結果に関する情報（文に含まれる単語と、この単語の品詞に関する情報）を、統括制御部１０１及び後述する構文解析部１３３に出力する。また、形態素解析部１３１は、得られた解析結果に関する情報を、記憶部１２１等に格納してもよい。また、情報処理装置１０が備える各処理部は、形態素解析部１３１による形態素解析の解析結果に関する情報を適宜利用することが可能である。

構文解析部１３３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。構文解析部１３３は、統括制御部１０１から通知された各種のテキストに関するデータに対して、構文解析（ｓｙｎｔａｃｔｉｃａｎａｌｙｓｉｓ，ｐａｒｓｉｎｇ）を行う処理部である。構文解析部１３３は、形態素解析部１３１による形態素解析の解析結果に関する情報を利用して、各種テキストを構成する文章を文法的に解析し、文章を複数の句（ｐｈｒａｓｅ）に分割する。これにより、各種テキストに含まれる語の文法的な役割が特定されるとともに、語と語の係り受けの関係や、格を判定することが可能となる。

構文解析を実施するためのアルゴリズムとしては様々なものが提案されており、構文解析部１３３は、任意のアルゴリズムを利用して構文解析を実施することが可能である。

構文解析部１３３によって判定される格の種類としては、例えば以下の表１に示したようなものがある。なお、下記の表１に示した格はあくまでも一例であって、構文解析部１３３が利用するアルゴリズムが出力する格を適宜利用することが可能である。

構文解析部１３３は、統括制御部１０１から通知された各種テキストに含まれる文章に対する構文解析が終了すると、得られた解析結果に関する情報（文章においてそれぞれの格に対応するのはどの単語なのかを表す情報等）を、統括制御部１０１及び後述する意味解析部１３５に出力する。また、構文解析部１３３は、得られた解析結果に関する情報を、記憶部１２１等に格納してもよい。また、情報処理装置１０が備える各処理部は、構文解析部１３３による構文解析の解析結果に関する情報を適宜利用することが可能である。

意味解析部１３５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。意味解析部１３５は、統括制御部１０１から通知された各種テキストに関するデータに対して、意味解析（ｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ）を行う処理部である。意味解析部１３５は、形態素解析部１３１及び構文解析部１３３による解析結果に関する情報を利用して、統括制御部１０１から通知されたテキストを解析し、文章に含まれる語と語の意味的な関係を特定する。これにより、意味解析部１３５は、統括制御部１０１から通知された各種テキストに含まれるそれぞれの文章について、その概念を把握することが可能となるとともに、各文章についてモダリティ（ｍｏｄａｌｉｔｙ）等を特定することができる。

ここで、モダリティとは、文が指す内容に対する主体の判断や心的態度を表したものである。かかるモダリティの例として、時制を示すもの、論理（ａｎｄ，ｏｒ，否定）を示すもの、希望や命令を示すもの、動作の継続、反復、完了を示すもの等、様々なものがある。

意味解析を実施するためのアルゴリズムとしては様々なものが提案されており、意味解析部１３５は、任意のアルゴリズムを利用して意味解析を実施することが可能である。

意味解析部１３５は、テキストに対する意味解析が終了すると、得られた解析結果に関する情報を、統括制御部１０１に出力する。また、意味解析部１３５は、得られた解析結果に関する情報を、記憶部１２１等に格納してもよい。

統括制御部１０１は、形態素解析部１３１、構文解析部１３３及び意味解析部１３５のそれぞれから、解析結果に関する情報が出力されると、得られた解析結果に関する情報をとりまとめて、後述するテキスト構造解析部１０７に出力する。

なお、形態素解析部１３１、構文解析部１３３及び意味解析部１３５は、各種のテキストデータに対して解析を実施するにあたり、後述する辞書ファイル記憶部１３９に格納されている各種の辞書ファイルや、インターネット等のネットワーク上に存在する各種の辞書ファイル等を利用可能である。

テキスト翻訳部１３７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。テキスト翻訳部１３７は、統括制御部１０１から通知された各種のテキストの少なくとも一部を、テキストの表記に利用されている言語を他の言語へと翻訳する処理部である。表記に利用されている言語がどの言語へと翻訳されるかについては、特に限定するものではないが、翻訳先の言語を英語等の国際公用語とすることによって、よりグローバルなテキスト検索を実現することが可能となる。

テキストの翻訳を実施するためのアルゴリズムとしては様々なものが提案されており、テキスト翻訳部１３７は、任意のアルゴリズムを利用して翻訳処理を実施することが可能である。

また、テキスト翻訳部１３７は、各種のテキストデータに対して翻訳処理を実施するにあたり、後述する辞書ファイル記憶部１３９に格納されている各種の辞書ファイルや、インターネット等のネットワーク上に存在する各種の辞書ファイル等を利用可能である。

テキスト翻訳部１３７は、テキストに対する翻訳処理が終了すると、得られた翻訳結果に関する情報を、統括制御部１０１に出力する。また、テキスト翻訳部１３７は、得られた翻訳結果に関する情報を、記憶部１２１等に格納してもよい。

辞書ファイル記憶部１３９には、言語処理部１０５の有する各処理部が解析処理や翻訳処理を行う際に利用する各種の辞書ファイルが格納されている。このような辞書の一例として、例えば、形態素に関するデータベース、単語辞書、概念辞書等を挙げることができる。このような辞書は、各処理部で共通して利用されるものであってもよく、各処理部に特化したものであってもよい。また、このような辞書は、着目しているテキストのジャンルを問わず利用される汎用的なものであってもよく、テキストのジャンルごとに準備された、あるジャンルに特化したものであってもよい。

以上、図２を参照しながら、本実施形態に係る情報処理装置１０が備える言語処理部１０５の構成について、詳細に説明した。
以下では、再び図１に戻って、本実施形態に係る情報処理装置１０の構成について説明する。

テキスト構造抽出部１０７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。テキスト構造抽出部１０７は、統括制御部１０１から通知された非構造化テキストや検索条件情報に関する言語解析結果を利用して、これら非構造化テキストや検索条件情報の文構造を抽出する。その上で、テキスト構造抽出部１０７は、非構造化テキストや検索条件情報を構成する各文を、言語解析結果から得られる格構造を利用して構造化し、構造化データとする。

より詳細には、テキスト構造抽出部１０７は、言語解析結果に基づいて、非構造化テキストや検索条件情報を構成する各文に含まれるそれぞれの句を、その句が有している役割を示した情報（例えば、名詞句なのか、動詞句なのか、述語節なのか等）及びその句に対応する格を示した情報と互いに関連付けて句情報とする。その上で、テキスト構造抽出部１０７は、生成したそれぞれの句情報を、抽出した文構造に関する知見に基づいて互いに関連付けていく。このような処理を行うことで、テキスト構造抽出部１０７は、非構造化テキストや検索条件情報を構成する各文の述語構造を特定し、各文を構造化していく。

また、テキスト構造抽出部１０７は、検索対象テキストの内容に適合した言語コード情報が存在する場合、非構造化テキストや検索条件情報を構造化する際に、かかる言語コード情報を利用してテキストの構造化を図る。

ここで、言語コード情報とは、単語又は単語群と、当該単語又は単語群に固有の識別情報（以下、言語コードと称する。）と、が互いに関連付けられた情報群であり、特定の内容に関して構築された各種データベースや、特定の内容に関する各種のオントロジーを例示することができる。

テキスト構造抽出部１０７は、検索対象テキストや検索条件情報を構成する文の中に言語コード情報に含まれる単語又は単語群が存在する場合には、これらの単語又は単語群及び句情報を、言語コードに置き換える。これにより、表記のゆれを吸収することが可能となり、さらに言語コードが国際標準コードの場合には言語をまたいで同一の事実を同一の構造で表現することが可能となる。その結果、言語に依存しない意味概念レベルでの格構造を実現することが可能となり、検索対象テキストの検索精度を更に向上させることができる。

ここで、本実施形態において着目している医療関係のトピックでは、上記言語コード情報として、ＩＣＤ−１０やＳＮＯＭＥＤ等に代表される国際医療コードを利用することが可能である。

なお、テキスト構造抽出部１０７は、検索対象テキストや検索条件情報の述語構造を、以下で具体例を示すような論理式や、ＦｅａｔｕｒｅＳｔｒｕｃｔｕｒｅ（素性構造）方式や、ＧｌｏｂａｌＤｏｃｕｍｅｎｔＡｎｎｏｔａｔｉｏｎ（ＧＤＡ：大域文書修飾）方式など、任意の方式で表記することが可能である。

また、テキスト構造抽出部１０７は、検索対象テキストや検索条件情報を構造化する際に、言語コードを含まない係り受け木（木構造）を省略してもよい。ただし、係り受け木の更に上位に言語コードを含む係り受け木が存在する場合には、係り受け構造のみを構造化データとして残存させて、単語情報を省略してもよい。これにより、言語コード情報に対応するトピックに特化した構造化を実現することができる。

ここで、係り受け木の構造を省略化する際に、時間格に関しては検索処理に有用であるため、省略しないことが好ましいが、他の格情報と同様に省略することも可能である。また、省略しなかったが省略可能な格情報については、検索条件情報の構造化データを比較する際に、比較の対象としてもよく、比較の対象から外してもよい。

更に、テキスト構造抽出部１０７は、言語処理部１０５と相互に連携して、時間格に対応する表記を英語等の国際公用語（国際標準的な言語）に翻訳した上で保持することにより、表記レベルでの比較を可能としてもよい。

テキスト構造抽出部１０７は、文構造の抽出及びテキストの構造化を終了して、述語構造を表した構造化データを生成すると、得られた構造化データを統括制御部１０１に出力する。

検索対象データ生成部１０９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。検索対象データ生成部１０９は、テキスト構造抽出部１０７により格構造に応じて構造化されたテキスト（構造化テキスト）を利用して、テキストの検索処理に用いられる検索対象データを生成する。

検索対象データ生成部１０９は、統括制御部１０１から、検索対象テキストに関する構造化テキストが通知されると、まず、かかる検索対象テキストに対して、当該検索対象テキストを特定するための固有の識別情報（以下、テキスト識別情報と称する。）を付与する。その上で、検索対象データ生成部１０９は、通知された検索対象テキストに関する時系列事実データを生成するとともに、本実施形態に係る情報処理装置１０で管理されている検索対象テキストの検索に用いられる検索インデックスの生成を行う。

この検索対象データ生成部１０９は、図３に例示したように、時系列事実データ生成部１４１と、検索インデックス生成部１４３と、を更に備える。

時系列事実データ生成部１４１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。時系列事実データ生成部１４１は、テキスト構造抽出部１０７による処理結果に基づき、着目している検索対象テキストを構成する文のうち言語コードを含むものを抽出し、抽出した文に対応する述語構造を文の出現順に蓄積することで、時系列事実データを生成する。

また、時系列事実データ生成部１４１は、時系列事実データを構成する述語構造それぞれに対して、固有の識別情報（以下、センテンス識別情報と称する。）を付与する。これにより、時系列事実データに含まれるそれぞれの文をテキスト識別情報とセンテンス識別情報とを利用して一意に特定することが可能となる。

本実施形態に係る情報処理装置１０では、検索対象となるテキストを構成する各文の時系列での述語構造の推移を、検索対象となるテキストのトピックの推移と判断する。また、テキストを構成する各文に時間格に対応する句が含まれている場合には、時間格の変化に更に着目して、トピックの推移を判断することも可能である。本実施形態に係る情報処理装置１０では、このような時系列事実データを生成してテキストの検索処理に利用することにより、検索条件として指定されたトピックの推移に則したテキストを、容易に検索することが可能となる。

検索インデックス生成部１４３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、通信装置等により実現される。検索インデックス生成部１４３は、テキスト構造抽出部１０７による処理結果及び時系列事実データ生成部１４１による処理結果に基づいて、テキストの検索処理に用いられる検索インデックスを生成する。

この検索インデックスは、構造化テキスト中に存在する言語コードをトリガとして生成され、ある言語コードに対して、かかる言語コードを含む文を特定するための特定情報が関連付けられたものである。ここで、文を特定するための特定情報としては、先述のテキスト識別情報及びセンテンス識別情報が用いられる。すなわち、検索インデックス生成部１４３により生成される検索インデックスは、それぞれの言語コードが、どの検索対象テキストのどの文に記載されているかを示した、言語コードに関する目次情報として機能するものである。

検索インデックス生成部１４３は、統括制御部１０１から新たな検索対象テキストの構造化データが通知されると、存在している検索インデックスに対して、新たに通知された検索対象テキストに含まれる言語コードや言語コードを含む文を特定するための特定情報を追記していく。このような処理が行われることにより、本実施形態に係る情報処理装置１０で管理している検索対象テキストに関する検索インデックスが生成されることとなる。

このようにして生成された時系列事実データ及び検索インデックスを含む検索対象データは、記憶部１２１等の所定の格納領域に格納される。

以上、図３を参照しながら、本実施形態に係る情報処理装置１０が備える検索対象データ生成部１０９の構成について、詳細に説明した。
以下では、再び図１に戻って、本実施形態に係る情報処理装置１０の構成について説明する。

検索条件情報取得部１１１は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、入力装置、通信装置等により実現される。検索条件情報取得部１１１は、ユーザがキーボード、マウス、タッチパッド等の入力装置を介して入力した、検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する。検索条件情報取得部１１１は、検索条件情報を取得すると、取得した検索条件情報を統括制御部１０１に出力する。統括制御部１０１は、検索条件情報取得部１１１から出力された検索条件情報を、検索論理式生成部１１３に出力する。これにより、検索対象テキストの中から検索条件に適合するテキストを検索するための検索処理が開始されることとなる。

検索式生成部の一例である検索論理式生成部１１３は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等により実現される。検索論理式生成部１１３は、統括制御部１０１から検索条件情報取得部１１１が取得した検索条件情報が通知されると、統括制御部１０１を介して、通知された検索条件情報の言語処理を言語処理部１０５に要請する。言語処理部１０５から検索条件情報の言語解析結果が通知されると、検索論理式生成部１１３は、検索条件情報の文構造の抽出を、統括制御部１０１を介してテキスト構造抽出部１０７に要請する。テキスト構造抽出部１０７から文構造の解析結果が通知されると、検索論理式生成部１１３は、検索条件情報の言語解析結果及び検索条件情報の文構造に応じて、検索条件情報に含まれるテキストの文構造を反映した、検索対象テキストを検索するための検索論理式を生成する。

ここで、検索条件情報の言語解析結果及び検索条件情報の文構造から検索論理式を生成するための処理は、テキスト構造抽出部１０７が実施する非構造化テキストの構造化処理と同様のものである。このような処理により、検索論理式生成部１１３は、検索条件情報に対応するテキストを構造化する。

検索論理式生成部１１３は、統括制御部１０１から通知された検索条件情報に対応する検索論理式を生成すると、生成した検索論理式を統括制御部１０１に出力する。統括制御部１０１は、検索論理式生成部１１３から出力された検索論理式を、後述するデータ検索部１１５に出力する。

検索部の一例であるデータ検索部１１５は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等により実現される。データ検索部１１５は、検索論理式生成部１１３が生成した検索論理式を利用し、検索条件情報の文構造に応じて、検索対象テキストの中から検索条件に適合するテキストを検索する。また、データ検索部１１５は、検索条件情報に複数の文が含まれる場合に、検索条件情報に含まれる各文の述語構造の推移を検索条件情報におけるトピックの推移と判断し、かかるトピックの推移に基づいて、検索対象テキストの中から検索条件に適合するテキストを検索する。

また、データ検索部１１５は、検索条件情報に対応するテキストの一部を利用して、検索対象テキストの構造単位で検索を実施することも可能である。

具体的には、データ検索部１１５は、検索対象データ生成部１０９が生成した検索インデックスを参照し、検索論理式に含まれる言語コードが検索インデックス中に存在するか否かを判断する。データ検索部１１５は、検索インデックスに検索論理式に含まれる言語コードが存在した場合、該当する言語コードに対応付けられている特定情報（テキスト識別情報及びセンテンス識別情報）を参照して該当する文の構造化データ（述語構造を表したデータ）を取得し、候補データとして蓄積する。

データ検索部１１５は、検索インデックスを参照して、検索論理式に含まれる言語コードに関する全ての候補を抽出すると、検索論理式で表される構造化データと、候補データとの比較を実施して、文構造の近いものから順にコストの算出（すなわち、重み付け情報の添付）を行う。

ここで、データ検索部１１５が利用するデータ間の比較のためのアルゴリズムとしては、例えば、全走査アルゴリズムや、Ｏ（ＮＤ）アルゴリズムや、Ｏ（ＮＰ）アルゴリズム等があるが、これらのアルゴリズム以外にも公知の方法を利用可能である。

データ検索部１１５は、データ間の比較を実施する際に、述部に対して直接係り関係を持つ文構造のレベルを第１レベルと定義し、第１レベルの各要素を修飾する句を第２レベルと定義し、第２レベルを修飾するものを第３レベルと定義する。以下同様にしてこのような処理を順に実施していくことで、データ検索部１１５は、構造化データを複数の階層に階層化する。その後、データ検索部１１５は、各階層（レベル）毎に一致率に対して閾値を設けることにより、検索論理式と候補データとの類似度を算出する。この類似度が、候補データの優先度を示すこととなる。

データ検索部１１５により検索された候補データに関する情報は、統括制御部１０１を介して表示データ選択部１１７へと通知される。

選択部の一例である表示データ選択部１１７は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ等により実現される。表示データ選択部１１７は、データ検索部１１５により検索されたテキストの中から、検索結果として出力するテキストを選択する。

例えば、表示データ選択部１１７は、検索条件情報に含まれるテキストに対応する検索論理式の文構造の類似度合いに応じて、類似度合いの高いもの（又は類似度合いの低いもの）から順に、検索結果として出力するテキストを選択する。すなわち、表示データ選択部１１７は、候補データに記載されているテキスト識別情報及びセンテンス識別情報を利用して、本実施形態に係る情報処理装置１０が管理している検索対象テキストの中から該当するテキストを検索し、類似度合いの高いもの（又は類似度合いの低いもの）から順に、検索結果として選択する。

また、表示データ選択部１１７は、データ検索部１１５により検出された候補データを利用して、検索論理式に類似する文を特定すると、検索論理式に類似する文に先駆する文、又は、類似する文以降に現れる文を、検索結果として出力してもよい。この際に、表示データ選択部１１７は、該当する文を全て表示するようにしてもよいし、該当する文のうち所定の部分のみを表示するようにしてもよい。

また、表示データ選択部１１７は、検索結果として出力したテキストに関して、ユーザにより指定された文が存在する場合には、指定された文に対して先駆又は後続する文に含まれるトピックについて各種統計処理を実施し、得られた統計処理結果を出力してもよい。

具体的には、表示データ選択部１１７は、検索結果として出力したテキストに関して、ユーザにより指定された文が存在する場合、指定された文に対して先駆又は後続する文を特定し、特定結果を統括制御部１０１に出力する。統括制御部１０１は、表示データ選択部１１７から通知された文に関する言語解析処理及びテキスト構造抽出処理を、それぞれ言語処理部１０５及びテキスト構造抽出部１０７に要請する。これにより、表示データ選択部１１７から通知された文が、上記と同様に構造化されることとなる。

表示データ選択部１１７は、ユーザにより指定された文に対して先駆又は後続する文に関する構造化データを取得すると、かかる構造化データに含まれる言語コードを抽出し、かかる言語コードに対応したトピックに関して、各種統計処理を実施する。

この際、表示データ選択部１１７は、参照した構造化データにおいて、最初に出現した言語コードに対応するトピックのみを統計処理の対象としてもよく、参照した構造化データに含まれる複数の言語コードに対応する複数のトピックを統計処理の対象としてもよい。

なお、表示データ選択部１１７は、上記統計処理を実施する際に、少なくとも対象格と述部のいずれかに関連付けられている言語コードを、統計処理対象のトピックとして取り扱うことが好ましい。また、述部及び対象格以外の格に関連付けられている言語コードについては、統計処理の対象としてもよいし、統計処理の対象から除外するようにしてもよい。

なお、上記説明では、表示データ選択部１１７が、ユーザにより指定された検索結果の一部に基づいて統計処理を実施する場合について説明したが、表示データ選択部１１７は、表示制御部１１９を介して検索条件情報を表示させ、表示されている検索条件情報の中からユーザの着目する部分を指定させて統計処理対象としてもよい。また、表示データ選択部１１７は、ユーザにより入力された検索条件情報すべてを対象にして、統計処理を実施してもよい。また、表示データ選択部１１７は、これらの方法以外にも、任意の方法を用いて統計処理対象を特定することが可能である。

更に、表示データ選択部１１７は、情報処理装置１０が内部に格納している各種のデータを相互参照して、検索結果とあわせて表示させることが可能である。これにより、検索結果とあわせて検索結果に対応する画像データを表示させたり、他のテキストデータを表示させたりすることが可能となる。

表示データ選択部１１７により選択されたデータや統計処理により得られたデータ等は、統括制御部１０１に出力され、後述する表示制御部１１９による表示制御のもとで、情報処理装置１０が備えるディスプレイ等の表示装置（図示せず。）や、情報処理装置１０が通信可能な装置に設けられた表示装置（図示せず。）に表示されることとなる。

表示制御部１１９は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、出力装置、通信装置等により実現される。表示制御部１１９は、検索対象テキストの中から検出された検出結果等（例えば、検出されたテキストや統計処理結果等）の表示制御を行う。

また、表示制御部１１９は、検出結果のうち検索条件情報と構造の類似する箇所を強調して表示させてもよく、検出結果のうち検索条件情報と構造の類似する箇所よりも先に位置する箇所、又は、後に位置する箇所を強調して表示させてもよい。

なお、このような強調処理としては、対応箇所を反転させて表示させたり、網掛けして表示させたりする処理等が挙げられる。また、このような強調処理はあくまでも一例であって、他の公知の強調方法を利用することも可能である。

記憶部１２１は、本実施形態に係る情報処理装置１０が備えるストレージ装置の一例である。この記憶部１２１には、情報処理装置１０が保持している検索対象データの実体データや各種の言語コード情報が格納される。また、記憶部１２１には、言語処理部１０５、テキスト構造抽出部１０７、検索対象データ生成部１０９及び表示データ選択部１１７による処理により得られた各種情報が格納される。

また、記憶部１２１には、検索対象テキストの検索結果に関する履歴情報など、各種の履歴情報が記録されていてもよい。さらに、記憶部１２１には、本実施形態に係る情報処理装置１０が、何らかの処理を行う際に保存する必要が生じた様々なパラメータや処理の途中経過等、または、各種のデータベース等が、適宜記録される。この記憶部１２１は、情報処理装置１０が備える各処理部が自由に読み書きを行うことが可能である。

以上、本実施形態に係る情報処理装置１０の機能の一例を示した。上記の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、各構成要素の機能を、ＣＰＵ等が全て行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用する構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。

＜情報検索処理の具体例について＞
続いて、図４〜図１９を参照しながら、本実施形態に係る情報処理装置１０が実施する情報検索処理について、具体的に説明する。

［検索対象データの生成処理］
まず、検索対象データの生成処理について、具体的に説明する。
なお、以下の説明では、電子カルテやクリニカルパスや退院サマリに代表されるような電子化された診療情報や、ウェブ上に存在する学会等における診療報告等の数多くの電子化された医療テキストに着目する。

情報処理装置１０の検索対象テキスト取得部１０３は、かかる医療情報に対応する非構造化テキストのデータを取得すると、取得したデータを統括制御部１０１に出力する。統括制御部１０１は、検索対象テキスト取得部１０３から出力された医療情報に関するデータを、言語処理部１０５に出力する。言語処理部１０５は、これらの医療情報を用いて形態素的、構文的、意味的な解析を行い、各種の解析結果を生成する。情報処理装置１０は、例えば図４に示したような医療情報を取得した場合、図４に示した医療情報を構成する各文に対して言語解析処理を実施して、図５Ａ〜図５Ｃに示したような解析結果を取得する。

言語処理部１０５の形態素解析部１３１により図４に示した非構造化テキストが解析されることにより、図５Ａに示したように、各文が形態素へと分割され、その品詞等が特定される。また、構文解析部１３３は、形態素解析部１３１による解析結果を利用することで、図５Ｂに示したような構文解析結果（すなわち、係り受け木）に関する知見を得ることができる。また、意味解析部１３５が、形態素解析結果及び構文解析結果を利用して意味解析を行うことにより、図５Ｃに示したような結果が生成されることとなる。

言語処理部１０５は、図５Ａ〜図５Ｃに示したような解析結果を生成すると、生成した解析結果を、テキスト構造抽出部１０７に出力する。テキスト構造抽出部１０７は、これらの解析結果に基づいて、文の構造化を行う。これにより、文章を構造化し検索に適した形の論理式である論理式データが生成されることになる。

例えば、図６上段に示したような「５年前に左心室前壁の心筋梗塞を発症し入院した。」という文が非構造化テキストに存在していたものとする。この文は、言語処理部１０５により解析されることで、図６中段に示したような係り受け木と、格構造が特定されることとなる。テキスト構造抽出部１０７は、これらの知見を利用することで、図６下段に示したような論理式データを生成する。ここで、図６下段に示した論理式データにおいて、中括弧“｛｝”は句の係り受け関係を表しており、小括弧“（）”は句の情報を示している。句の情報には、図６に示したように、句の具体的な表記と、句の品詞に関する情報である句情報と、句がどのような格であるかを示す格情報と、その属性（アトリビュート）とが含まれる。

また、テキスト構造抽出部１０７は、記憶部１２１に格納されている言語コード情報である国際医療コードを用いることで、表記の揺れを吸収する。
テキスト構造抽出部１０７は、図７に示したように、「左心室前壁の」という語句を、かかる語句の上位概念である「左心室」という語句に関連づけられている言語コードを用いて、「Ｔ３２６００」と置換する。また、かかる国際医療コードを利用することで、「左心室前壁の」という句が「名詞句」であるという情報を保持しなくとも良くなるため、かかる部分に対応する句情報を、「（Ｔ３２６００、連体修飾）」という構造化データに変換する。
同様に、テキスト構造抽出部１０７は、「心筋梗塞を」という句を、「［ＩＣＤ−９＝４１０、Ｍ５４７００］」という識別番号に置換し、「入院した。」という句を、「Ｐ００２０」という識別番号に置換する。

このように、本実施形態に係る情報処理装置１０では、言語コード情報である国際医療コードを用いることで表記の揺れを吸収し、「入院」と「アドミタンス」と「ｈｏｓｐｉｔａｌｉｚａｔｉｏｎ」という同じ意味を持つ表記を、国際医療コード「Ｐ００２０」で表現することが可能となる。

また、テキスト構造抽出部１０７は、言語処理部１０５と連携して、「５年前に」という時間格に対応する句をそのまま利用してもよいが、「ｆｉｖｅｙｅａｒｓａｇｏ」という国際標準語である英語に置換して格納することも可能である。

このように、非構造化テキストに基づきテキスト構造抽出部１０７によって生成される構造化データは、言語に依存しない意味概念レベルでの格構造を表現しているため、言語をまたいで同じ事実を同じ構造で表現することが可能である。図８は、図６及び図７に示した日本語と同じ内容の英語を構造化した例であるが、日本語の場合と同様に構造化することが可能であることがわかる。

また、図６や図７に示したように、国際医療コードを用いて構造化を実施する際には、国際医療コードを含まない係り受け木を省略することが可能である。図７における「（、原因格）」の部分が、かかる部分に相当し、上位の係り受け構造を述部に原因格として結び付けている。

このような構造化処理は１文ごとに行われ、文それぞれに対して、図７に例示したような述語構造を表した構造化データが生成されることとなる。

次に、検索対象データ生成部１０９の時系列事実データ生成部１４１は、生成された構造化データのうち国際医療コードを含むものを、文の出現順に並べて蓄積し、時系列事実データを生成する。例えば図９上段に示したように、国際医療コードを含む３つの文が存在する場合、時系列事実データ生成部１４１は、それぞれの文に対応する述語構造を示した構造化データを順に蓄積して、図９下段に示したような時系列事実データを生成する。

また、検索インデックス生成部１４３は、テキスト構造抽出部１０７によって生成される構造化データを参照して、国際医療データを含む構造化データを抽出する。その後、検索インデックス生成部１４３は、検索インデックスのうち抽出した構造化データに含まれる国際医療データに該当する欄に、当該国際医療データを含む構造化データを特定するための特定情報を追記する。例えば、Ｔｅｘｔ＿ＩＤ＝１７，Ｓｅｎｔｅｎｃｅ＿ＩＤ＝４に対応する構造化データに、「Ｔ３２６００」という国際医療コードが含まれていた場合、検索インデックス生成部１４３は、検索インデックスの国際医療コード「Ｔ３２６００」に対して、特定情報として「Ｔｅｘｔ＿ＩＤ＝１７，Ｓｅｎｔｅｎｃｅ＿ＩＤ＝４」を新たに関連付ける。同様の処理がそれぞれの検索対象テキストに対して実施されることにより、図１０に例示したような、情報処理装置１０が管理している検索対象テキストに関する検索インデックスが生成される。

以上説明したような処理により、検索対象テキストの検索に利用されるデータの準備が完了する。

このような処理は、オンラインで行われても良く、オフラインで行われても良い。また、検索対象テキストとして用いられるデータは、既存の電子カルテシステムやウェブ上のデータなどからクローニングすることにより、蓄積が可能である。

［自然文入力による検索処理］
続いて、以上説明したような処理により生成された検索対象データの活用に関して、具体的に説明する。
まず、第一の活用方法である自然文入力による検索処理について、具体的に説明する。

情報処理装置１０のユーザにより、キーボード、マウス、タッチパット等の入力装置を介して検索条件情報が入力されると、検索条件情報取得部１１１は、入力された検索条件情報を取得して、統括制御部１０１へと出力する。かかる検索条件情報は、一般的なキーワードであってもよいし、１つ以上の自然文であってもよい。

統括制御部１０１は、検索条件情報取得部１１１から検索条件情報が通知されると、かかる検索条件情報を、検索論理式生成部１１３へと出力する。検索論理式生成部１１３は、統括制御部１０１から通知された検索条件情報に対する言語処理及び構造抽出処理を、それぞれ言語処理部１０５及びテキスト構造抽出部１０７に要請する。その後、検索論理式生成部１１３は、これらの処理部により生成された処理結果に基づいて、検索処理に利用される構造化された検索条件文である検索論理式を生成する。

例えば図１１に示したような「心筋梗塞による入院」というテキストが検索条件情報として入力された場合、検索論理式生成部１１３は、言語処理部１０５及びテキスト構造抽出部１０７による処理結果を利用して、図１１下段に示したような検索論理式を生成する。

検索論理式生成部１１３は、検索論理式を生成すると、生成した検索論理式を統括制御部１０１に出力する。統括制御部１０１は、取得した検索論理式をデータ検索部１１５へと出力して、データ検索処理の開始を要請する。

データ検索部１１５は、図１１に例示したような検索論理式に含まれている国際医療コードを元に記憶部１２１等に格納されている検索インデックスを検索し、対象となる文の構造化データを取得して、図１２に例示したように、候補データとして蓄積する。データ検索部１１５は、記憶部１２１等に格納されている検索インデックスを参照して全ての候補を抽出すると、検索論理式と候補データとして格納されている構造化データとの比較を行い、文構造の近いものから順に重み付けを行う。

図１３は、Ｏ（ＮＤ）アルゴリズムを用いて、検索論理式と候補データとを比較する例を示している。図１３に示した例の場合、「［ＩＣＤ−９＝４１０，Ｍ５４７００］」という国際医療コードと、「（、原因格）」という句情報と、「Ｐ００２０」という国際医療コードに一致が見られることがわかる。データ検索部１１５は、述部（すなわち、「（Ｐ００２０、過去）」という句情報）に対して直接係り関係を持つレベルを第１レベルと定義し、第１レベルのそれぞれの要素を修飾する句を第２レベル、第２レベルを修飾するものを第３レベルというように階層化する。その上で、各レベルでの一致率に対して閾値を設けることにより類似度を検証し、重み付けスコアとする。

データ検索部１１５は、以上のようにして重み付け（換言すれば、優先順位付けともいえる。）を行った候補データを、統括制御部１０１を介して表示データ選択部１１７へと出力する。

表示データ選択部１１７は、候補データのうち優先度の高いものから順に、テキストのＩＤと文のＩＤに基づいて、医療情報テキストの中から該当するテキストを検索し、該当するテキストを表示制御部１１９に出力する。表示制御部１１９は、表示データ選択部１１７により選択されたテキストを表示する際、例えば図１４に示したように、ユーザが入力した検索条件情報に対応する箇所を、網掛け、色の変更、太字にするなどといった強調処理を行って、どの部分が一致したかが明瞭となるように検索結果を表示させる。

以上のような流れで処理が実施されることにより、自然な文での入力によるテキスト情報の検索が実現できる。なお、上記例では、優先度の高いものから順に表示する場合について説明したが、優先度の低いものから順に表示するようにしてもよい。

また、本実施形態に係る情報検索方法では、検索対象テキストを構成する各文の述語構造の推移をトピックの推移とみなし、かかるトピックの推移に着目して検索処理を実施する。そのため、本実施形態に係る情報検索方法では、「文Ａ→文Ｂ→文Ｃ→文Ｄ→文Ｅ」という構成の５つの文からなる検索対象テキストと、「文Ａ→文Ｂ→文Ｄ→文Ｃ→文Ｅ」という構成の５つの文からなる検索対象テキストとを、別なものとして認識する。同様に、本実施形態に係る情報検索方法では、「文Ａ→文Ｂ→文Ｃ→文Ｄ→文Ｅ」という構成の５つの文からなる検索対象テキストと、「文Ａ→文Ｂ→文Ｂ’→文Ｃ→文Ｃ’→文Ｄ→文Ｅ」という構成の７つの文からなる検索対象テキストとを、別なものとして認識する。このため、本実施形態に係る情報検索方法では、自然文による情報検索を可能としているにもかかわらず、情報の更なる絞り込みを実現することが可能となる。

［類似症例の検索処理］
本実施形態に係る情報検索方法は、上記のように、自然文による検索により、情報の更なる絞り込みを実現可能な自然文によるテキスト検索を実現可能である。また、本実施形態に係る情報処理装置では、検索条件情報として、複数の文章を設定することもできる。

そこで、検索条件情報として、着目する症例の経過を示した複数の文章を入力する。本実施形態に係る情報検索方法では、上述のように文の述語構造の推移を考慮した情報の検索が行われるため、検索条件情報と同様の経過が見られた症例の検索（すなわち、類似症例の検索）を実現することが可能である。

かかる場合においても、本実施形態に係る情報処理装置１０は、上記「自然文による検索処理」と同様にして、検索条件情報に含まれる複数の文章それぞれについて検索論理式を生成して、候補データを生成する。その後、上記「自然文による検索処理」と同様にして優先順位付けを行い、優先度の高いものから順に表示する。

このような類似症例の検索処理は、情報処理装置１０の表示画面に表示されているテキスト（例えば、ウェブ上に存在するテキスト等）に対して実施することも可能であるし、図１５に示したように、情報処理装置１０やネットワーク上等に存在する各種装置のストレージ装置に格納されているデータに対しても実施することが可能である。この場合、図１５に示したように、ディレクトリやファイルを指定することによって、検索対象テキストを指定することも可能である。

［経過の予測処理］
また、本実施形態に係る情報検索方法を利用することで、例えば、症例の経過予測や、処置方法の検索を実施することも可能である。

先だっての説明により、本実施形態に係る情報検索方法を利用することで、類似する症例の検索が実現できることを示した。ここで、情報処理装置１０のユーザは、表示画面に表示されている任意の医療情報テキスト情報の一部を指定することにより、それ以前の症例が類似しているものに関して、指示された箇所以降の他の類似ケースでの処置方法を検索して提示することも可能である。

例えば図１６に示したように表示されているテキストの一部を、ユーザがマウス等の入力装置により指定すると、検索条件情報取得部１１１は、ユーザにより指定された領域に含まれる文を部分的に切り出して、検索条件情報とする。この際に、検索条件情報取得部１１１は、指定された文（箇所）だけを切り出すことも可能であるし、指定された文以前、又は、指定された文以降に存在する文を切り出すことも可能である。切り出された文は、先だって説明した例と同様にして解析され、構造化データ（すなわち、検索論理式）に変換される。図１６に示した例では、「心筋梗塞を発症し入院した。」という文が切り出されて、検索条件情報として利用されることとなる。

その後、先だって説明した例と同様にして検索条件情報に基づき検索論理式が生成され、生成された検索論理式を利用して候補データが生成され、検索結果が表示されることとなる。ここで、本適用例の場合には、検索条件情報に類似する箇所が検索結果として表示されるのではなく、類似箇所以降に出現する文が表示される。これにより、「検索された医療情報テキストではその後の処置をどのように行っているか」という内容を、ユーザに提示することができる。

例えば、図１７に示すように、図１６で指定された文以前が類似しているものに対して、指定された文以降の処置から始まる文章が検索結果として表示される。この際表示される各テキストは、上記方法と同様の評価方法により重み付けが行われ、ユーザに対して提示される。

また、図１７に示した例は、指定された文以前の症例が類似しているものに対して、指定された文以降の処置に関するテキストが提示されたものであったが、指定されている文以降の類似を検証し、指定された文以前の経緯を探索する場合についても、同様に実施することが可能である。

また、図１７に示した例では、検索された医療情報テキストの文章そのものを表示しているが、例えば図１８に示したように、文章そのものではなく、医療トピック（すなわち、行った処置）のみをまとめて表示することも可能である。更に、それらを組み合わせて、医療トピックと、その元となるテキストの双方をあわせて提示することも可能である。

［検索結果の予測分析］
次に、本実施形態に係る情報検索方法の更に別の活用方法である予測分析について説明する。すなわち、上記では、本実施形態に係る情報検索方法の活用方法である予測表示に関して説明したが、他の類似ケースに関しては、類似例におけるその後の処置を表示するだけでなく、その後の処置の統計情報を提示することも可能である。

すなわち、ユーザ入力に基づいて、統括制御部１０１から表示データ選択部１１７に対して予測分析を行うように要請があった場合、表示データ選択部１１７は、上記経過の予測処理機能により検索された医療テキストのうち、ユーザにより指定された文に後続する文を特定し、特定結果を統括制御部１０１に出力する。特定された文は上記と同様にして構造化データへと変換され、表示データ選択部１１７へと通知される。表示データ選択部１１７は、通知された構造化データから最初に出現する医療トピックを抽出して統計情報を取ることにより、今後の処置の種類ごとに分類を行う。このようにして分類された医療トピックの例を、図１９に示す。

図１９に示した例では、ユーザにより指定された文に後続する文において最初に出現する一つの医療トピックに関して統計処理を行っているが、複数の医療トピックを対象として統計処理を実施してもよい。

また、医療トピックとして述部に対象格以外の格を含めたものは考慮することも無視することも可能であるが、対象格及び述部の少なくとも何れか一方に医療情報が含まれるものを医療トピックとして扱うことが好ましい。

このような予測分析が実現されることで、類似症例における他症例での支持された処置の分布が求められ、医療を学ぶ学生などには次の処置の可能性を模索する上で有用な情報提供となる。

以上、図４〜図１９を参照しながら、本実施形態に係る情報処理装置１０が実施する情報検索方法の具体例について説明した。

＜情報処理方法の流れについて＞
続いて、図２０〜図２２を参照しながら、本実施形態に係る情報処理装置１０で実施される情報処理方法の流れについて、簡単に説明する。

［検索対象データの生成処理］
まず、図２０を参照しながら、検索対象データの生成処理の流れの一例について、簡単に説明する。
情報処理装置１０の検索対象テキスト取得部１０３は、まず、検索対象テキストの基となる非構造化テキストのデータを、当該データが存在する場所から取得し（ステップＳ１０１）、統括制御部１０１に出力する。

続いて、統括制御部１０１は、取得した非構造化テキストのデータを、言語処理部１０５に出力し、言語処理部１０５は、統括制御部１０１から通知された非構造化テキストを構成する文を、それぞれ解析する（ステップＳ１０３）。

言語処理部１０５は、非構造化テキストの言語解析処理が終了すると、得られた処理結果を、統括制御部１０１を介してテキスト構造抽出部１０７に出力する。テキスト構造抽出部１０７は、言語処理部１０５による解析結果を利用して、非構造化テキストを構成する各文を構造化し（ステップＳ１０５）、構造化データとする。

続いて、検索対象データ生成部１０９の時系列事実データ生成部１４１は、テキスト構造抽出部１０７により生成された構造化データを利用して、時系列事実データを生成する（ステップＳ１０７）。また、かかる時系列事実データの生成とともに、検索対象データ生成部１０９の検索インデックス生成部１４３は、検索インデックスを生成する（ステップＳ１０９）。このような流れで処理が行われることにより、非構造化テキストを基にして検索対象データが生成される。

［テキストの検索処理の流れ］
次に、図２１を参照しながら、検索対象テキストの検索処理の流れの一例について、簡単に説明する。
まず、情報処理装置１０の検索条件情報取得部１１１は、ユーザが各種の入力装置を介して入力した検索条件情報を取得して（ステップＳ１２１）、取得した検索条件情報を統括制御部１０１に出力する。

続いて、統括制御部１０１は、検索条件情報取得部１１１から出力された検索条件情報を、検索論理式生成部１１３に出力する。検索論理式生成部１１３は、検索条件情報の言語解析処理及び文構造の抽出処理を、それぞれ言語処理部１０５及びテキスト構造抽出部１０７に要請する。これにより、検索条件情報が解析されることとなる（ステップＳ１２３）。

検索論理式生成部１１３は、言語処理部１０５及びテキスト構造抽出部１０７のそれぞれから解析結果が通知されると、得られた解析結果を利用して、検索論理式を生成する（ステップＳ１２５）。その後、検索論理式生成部１１３は、生成した検索論理式を、統括制御部１０１を介してデータ検索部１１５に出力する。

次に、データ検索部１１５は、検索論理式生成部１１３により生成された検索論理式を利用して検索インデックスを検索し（ステップＳ１２７）、候補データを生成する。その後、データ検索部１１５は、生成した候補データを、統括制御部１０１を介して表示データ選択部１１７に出力する。

続いて、表示データ選択部１１７は、データ検索部１１５から出力された候補データを利用して、表示する検索結果を選択するとともに、ユーザ操作や初期設定事項等に応じて、検索結果の表示形式を選択する（ステップＳ１２９）。その後、表示データ選択部１１７は、表示制御部１１９に対して、検索結果の表示を要請する。表示制御部１１９が表示データ選択部１１７からの要請に応じて表示制御を行うことにより、検索結果がユーザに対して表示されることとなる（ステップＳ１３１）。

［トピックの統計処理の流れ］
次に、図２２を参照しながら、検索対象テキストの検索結果に含まれるトピックに対する統計処理の流れの一例について、簡単に説明する。
まず、情報処理装置１０の検索条件情報取得部１１１は、ユーザが各種の入力装置を介して入力した検索条件情報を取得して（ステップＳ１４１）、取得した検索条件情報を統括制御部１０１に出力する。

続いて、統括制御部１０１は、検索条件情報取得部１１１から出力された検索条件情報を、検索論理式生成部１１３に出力する。検索論理式生成部１１３は、検索条件情報の言語解析処理及び文構造の抽出処理を、それぞれ言語処理部１０５及びテキスト構造抽出部１０７に要請する。これにより、検索条件情報が解析されることとなる（ステップＳ１４３）。

検索論理式生成部１１３は、言語処理部１０５及びテキスト構造抽出部１０７のそれぞれから解析結果が通知されると、得られた解析結果を利用して、検索論理式を生成する（ステップＳ１４５）。その後、検索論理式生成部１１３は、生成した検索論理式を、統括制御部１０１を介してデータ検索部１１５に出力する。

次に、データ検索部１１５は、検索論理式生成部１１３により生成された検索論理式を利用して検索インデックスを検索し（ステップＳ１４７）、候補データを生成する。その後、データ検索部１１５は、生成した候補データを、統括制御部１０１を介して表示データ選択部１１７に出力する。

続いて、表示データ選択部１１７は、データ検索部１１５から出力された候補データを利用して、表示する検索結果を選択するとともに、ユーザ操作や初期設定事項等に応じて、検索結果の表示形式を選択する（ステップＳ１４９）。その後、表示データ選択部１１７は、表示制御部１１９に対して、検索結果の表示を要請する。表示制御部１１９が表示データ選択部１１７からの要請に応じて表示制御を行うことにより、検索結果がユーザに対して表示されることとなる（ステップＳ１５１）。

その後、ユーザにより検索結果の一部が指定され、統計処理の実施が要請されると、表示データ選択部１１７は、上述のような方法によりユーザによる指定箇所以前（又は以降）に存在するトピックを特定し、各種の統計処理を実施する（ステップＳ１５３）。その後、表示データ選択部１１７は、得られた統計処理結果を表示制御部１１９に出力し、統計処理結果の表示を要請する。表示制御部１１９が表示データ選択部１１７からの要請に応じて表示制御を行うことにより、統計処理結果がユーザに対して表示されることとなる（ステップＳ１５５）。

なお、上記説明では、表示データ選択部１１７が、ユーザにより指定された検索結果の一部に基づいて統計処理を実施する場合について説明したが、先述のように、表示データ選択部１１７は、検索条件情報のうちユーザにより指定された部分や検索条件情報すべてを対象として統計処理を実施することも可能である。

以上、図２０〜図２２を参照しながら、本実施形態に係る情報処理方法の流れの一例について、簡単に説明した。

＜第１変形例＞
以上説明したように、本実施形態に係る情報処理装置１０は、形態素解析、構文解析及び意味解析のような各種解析機能及び翻訳機能を含む言語処理機能と、検索対象テキストを利用して、情報の検索に利用される検索対象データを生成する検索対象データ生成機能と、検索条件情報に基づいて検索対象テキストを検索する情報検索機能という、主に３つの機能を有する装置である。

このような３つの主な機能は、以上説明したように、１つの装置に実装されていてもよく、例えばネットワーク上に存在する複数の装置（例えば、各種のサーバ）に分散して実装されていてもよい。また、複数の装置に分散させる処理部をどのように組み合わせるかについては、適宜設定することができる。

例えば、本実施形態に係る情報処理装置１０が実現する機能を、図２３に例示したように、インターネット等のネットワーク上に存在する３種類のサーバに分散させて、テキスト検索サービスを実現することも可能である。すなわち、ネットワーク上に存在する情報検索サーバ２０に対して、情報処理装置１０における検索対象データ生成機能及び情報検索機能を実装し、テキスト管理サーバ３０により管理されている構造化されたテキストを利用して、言語処理サーバ４０が備える言語処理機能と連携しながら、以上説明したような情報検索処理を実現することが可能である。

かかる場合、パーソナルコンピュータ、携帯電話、スマートフォン、携帯ゲーム機器等といったユーザ操作端末５０は、検索条件情報を各種の入力装置により取得して、情報検索サーバ２０に通知する機能と、情報検索サーバ２０から出力された検索結果を表示するための表示制御機能とを少なくとも有していればよい。

（ハードウェア構成について）
次に、図２４を参照しながら、本開示の実施形態に係る情報処理装置１０のハードウェア構成について、詳細に説明する。図２４は、本開示の実施形態に係る情報処理装置１０のハードウェア構成を説明するためのブロック図である。

情報処理装置１０は、主に、ＣＰＵ９０１と、ＲＯＭ９０３と、ＲＡＭ９０５と、を備える。また、情報処理装置１０は、更に、ホストバス９０７と、ブリッジ９０９と、外部バス９１１と、インターフェース９１３と、入力装置９１５と、出力装置９１７と、ストレージ装置９１９と、ドライブ９２１と、接続ポート９２３と、通信装置９２５とを備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０５は、ＣＰＵ９０１が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス９０７により相互に接続されている。

ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなどユーザが操作する操作手段である。また、入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置１０の操作に対応した携帯電話やＰＤＡ等の外部接続機器９２９であってもよい。さらに、入力装置９１５は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置１０のユーザは、この入力装置９１５を操作することにより、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置およびランプなどの表示装置や、スピーカおよびヘッドホンなどの音声出力装置や、プリンタ装置、携帯電話、ファクシミリなどがある。出力装置９１７は、例えば、情報処理装置１０が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置１０が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

ストレージ装置９１９は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイス等により構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種データなどを格納する。

ドライブ９２１は、記録媒体用リーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体９２７に記録を書き込むことも可能である。リムーバブル記録媒体９２７は、例えば、ＤＶＤメディア、ＨＤ−ＤＶＤメディア、Ｂｌｕ−ｒａｙメディア等である。また、リムーバブル記録媒体９２７は、コンパクトフラッシュ（登録商標）（ＣｏｍｐａｃｔＦｌａｓｈ：ＣＦ）、フラッシュメモリ、または、ＳＤメモリカード（ＳｅｃｕｒｅＤｉｇｉｔａｌｍｅｍｏｒｙｃａｒｄ）等であってもよい。また、リムーバブル記録媒体９２７は、例えば、非接触型ＩＣチップを搭載したＩＣカード（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｃａｒｄ）または電子機器等であってもよい。

接続ポート９２３は、機器を情報処理装置１０に直接接続するためのポートである。接続ポート９２３の一例として、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）ポート等がある。接続ポート９２３の別の例として、ＲＳ−２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）ポート等がある。この接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置１０は、外部接続機器９２９から直接各種データを取得したり、外部接続機器９２９に各種データを提供したりする。

通信装置９２５は、例えば、通信網９３１に接続するための通信デバイス等で構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデム等であってもよい。この通信装置９２５は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置９２５に接続される通信網９３１は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信等であってもよい。

以上、本開示の実施形態に係る情報処理装置１０の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

（まとめ）
以上説明したように、本開示の実施形態に係る情報処理装置及び情報処理方法によれば、自然文を入力することにより、精度の高いテキストデータの検索を自然なインターフェースにより実現することができ、検索論理式を自然文から自動的に生成することが可能となる。また、カルテや診療データ等のようなデータに類似するものの検索を行う場合には、時系列を考慮した検索を行い前後関係が類似するものをより確からしいものとして検索することができる。

また、上記技術により時系列を判断できることにより、時系列的な流れについて、大量の類似データの中から統計処理を行うことが可能となり、ひいては、事象の推移の分岐点を検出して統計情報による今後の予測提示を行うことも可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える、情報処理装置。
（２）前記検索部は、前記検索条件情報に複数の文が含まれる場合に、前記検索条件情報に含まれる各文の述語構造の推移に基づいて、前記検索対象テキストの中から前記述語構造の推移に適合するテキストを検索する、（１）に記載の情報処理装置。
（３）単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、前記情報処理装置は、前記言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部を更に備え、前記検索対象データ生成部は、前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、（１）又は（２）に記載の情報処理装置。
（４）前記検索式生成部は、前記言語コード情報を利用し、前記検索条件情報に含まれるテキストのうち当該言語コード情報に含まれる単語又は単語群を前記言語コードに置換して前記検索式を生成し、前記検索部は、前記検索式に含まれる前記言語コードを利用して前記検索インデックスを検索し、当該検索式に含まれる言語コードを含む文を、候補データとして抽出する、（３）に記載の情報処理装置。
（５）前記情報処理装置は、前記検索部により抽出された前記候補データの中から、検索結果として出力するテキストを選択する選択部を更に備え、前記選択部は、前記検索条件情報に含まれるテキストの文構造と、前記候補データそれぞれの文構造との類似度合いに応じて、前記検索結果として出力するテキストを選択する、（１）〜（４）のいずれか１項に記載の情報処理装置。
（６）前記選択部は、前記検出結果として選択したテキストのうち、前記検索式に類似する文に対して先駆する文、又は、前記検索式に類似する文に対して後続する文を、前記検索結果として出力する、（５）に記載の情報処理装置。
（７）前記選択部は、前記検索結果として出力したテキストもしくは前記検索条件情報のうち、ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文に存在する前記言語コードに対応したトピックに関して統計解析を実施し、得られた統計解析結果を出力する、（５）に記載の情報処理装置。
（８）前記選択部は、前記ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文のうち、対象格又は述部に前記言語コードが含まれるものに対して、前記統計解析を実施する、（７）に記載の情報処理装置。
（９）前記情報処理装置は、格構造に応じた構造化がなされていない非構造化テキストを取得した場合、前記言語処理部による言語処理結果、及び、前記構造抽出部によって抽出された文構造に基づいて前記非構造化テキストを構造化することにより、前記検索対象テキストを生成する、（３）に記載の情報処理装置。
（１０）前記情報処理装置は、前記検索対象テキストの中から検出された前記検出結果の表示制御を行う表示制御部を更に備え、前記表示制御部は、前記検出結果のうち前記検索条件情報と文構造の類似する箇所を強調して表示させる、（１）〜（９）のいずれか１項に記載の情報処理装置。
（１１）格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、前記検索条件情報に対して言語解析処理を行うことと、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、を含む、情報処理方法。
（１２）コンピュータに、格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、前記検索条件情報に対して言語解析処理を行う言語処理機能と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、を実現させるためのプログラム。
（１３）格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、前記検索条件情報に対して言語解析処理を行う言語処理部と、前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、を備える情報検索サーバと、前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、を有し、前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システム。

１０情報処理装置
１０１統括制御部
１０３検索対象テキスト取得部
１０５言語処理部
１０７テキスト構造抽出部
１０９検索対象データ生成部
１１１検索条件情報取得部
１１３検索論理式生成部
１１５データ検索部
１１７表示データ選択部
１１９表示制御部
１２１記憶部
１３１形態素解析部
１３３構文解析部
１３５意味解析部
１３７テキスト翻訳部
１３９辞書ファイル記憶部
１４１時系列事実データ生成部
１４３検索インデックス生成部

Claims

格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、
前記検索条件情報に対して言語解析処理を行う言語処理部と、
前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、
前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、
生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、
単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部と、
を備え、
前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
前記検索対象データ生成部は、
前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、情報処理装置。
前記検索部は、前記検索条件情報に複数の文が含まれる場合に、前記検索条件情報に含まれる各文の述語構造の推移に基づいて、前記検索対象テキストの中から前記述語構造の推移に適合するテキストを検索する、請求項１に記載の情報処理装置。
前記検索式生成部は、前記言語コード情報を利用し、前記検索条件情報に含まれるテキストのうち当該言語コード情報に含まれる単語又は単語群を前記言語コードに置換して前記検索式を生成し、
前記検索部は、前記検索式に含まれる前記言語コードを利用して前記検索インデックスを検索し、当該検索式に含まれる言語コードを含む文を、候補データとして抽出する、請求項１に記載の情報処理装置。
前記情報処理装置は、前記検索部により抽出された前記候補データの中から、検索結果として出力するテキストを選択する選択部を更に備え、
前記選択部は、前記検索条件情報に含まれるテキストの文構造と、前記候補データそれぞれの文構造との類似度合いに応じて、前記検索結果として出力するテキストを選択する、請求項３に記載の情報処理装置。
前記選択部は、前記検索結果として選択したテキストのうち、前記検索式に類似する文に対して先駆する文、又は、前記検索式に類似する文に対して後続する文を、前記検索結果として出力する、請求項４に記載の情報処理装置。
前記選択部は、前記検索結果として出力したテキストもしくは前記検索条件情報のうち、ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文に存在する前記言語コードに対応したトピックに関して統計解析を実施し、得られた統計解析結果を出力する、請求項４に記載の情報処理装置。
前記選択部は、前記ユーザにより指定された文に対して先駆又は後続する文、又は、前記検索条件情報を構成するそれぞれの文のうち、対象格又は述部に前記言語コードが含まれるものに対して、前記統計解析を実施する、請求項６に記載の情報処理装置。
前記情報処理装置は、格構造に応じた構造化がなされていない非構造化テキストを取得した場合、前記言語処理部による言語処理結果、及び、前記構造抽出部によって抽出された文構造に基づいて前記非構造化テキストを構造化することにより、前記検索対象テキストを生成する、請求項１に記載の情報処理装置。
前記情報処理装置は、前記検索対象テキストの中から検出された検索結果の表示制御を行う表示制御部を更に備え、
前記表示制御部は、前記検索結果のうち前記検索条件情報と文構造の類似する箇所を強調して表示させる、請求項１に記載の情報処理装置。
単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、格構造に応じて構造化された検索対象テキストの検索処理に用いられる検索対象データを生成することと、
前記検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得することと、
前記検索条件情報に対して言語解析処理を行うことと、
前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出することと、
前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成することと、
生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索することと、
を含み、
前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
前記検索対象データを生成する際には、
前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データが生成されるとともに、
前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスが生成される、情報処理方法。
コンピュータに、
格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得機能と、
前記検索条件情報に対して言語解析処理を行う言語処理機能と、
前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出機能と、
前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成機能と、
生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索機能と、
単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成機能と、
を実現させ、
前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
前記検索対象データ生成機能は、
前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する、プログラム。
格構造に応じて構造化された検索対象テキストを検索するための検索条件を表すテキスト情報である検索条件情報を取得する検索条件情報取得部と、
前記検索条件情報に対して言語解析処理を行う言語処理部と、
前記検索条件情報の言語解析結果を利用して、当該検索条件情報の文構造を抽出する構造抽出部と、
前記検索条件情報の文構造に応じて、前記検索対象テキストを検索するために用いられる前記検索条件情報の文構造を反映した検索式を生成する検索式生成部と、
生成された前記検索式を利用し、前記検索条件情報の文構造に応じて前記検索対象テキストの中から前記検索条件に適合するテキストを検索する検索部と、
単語又は単語群が当該単語又は単語群に固有の識別情報である言語コードと関連付けられている言語コード情報を利用して、前記検索対象テキストの検索処理に用いられる検索対象データを生成する検索対象データ生成部と、
を備え、
前記言語コード情報に基づいて、前記検索対象テキストのうち前記言語コード情報に含まれる単語又は単語群が、対応する前記言語コードに置換されるとともに、前記言語コードに置換された前記単語又は単語群の前記検索対象テキスト中における格が、前記言語コードと関連付けられることにより、前記検索対象テキストの述語構造が表記されており、
前記検索対象データ生成部は、
前記検索対象テキストを構成する文のうち前記言語コードを含む文に対応する述語構造が、当該文の出現順に蓄積された時系列事実データを生成するとともに、
前記検索対象テキストに付与された固有の識別情報であるテキスト識別情報と、前記検索対象テキストを構成するそれぞれの文に付与された固有の識別情報であるセンテンス識別情報と、を利用して、前記言語コードに対して、当該言語コードを含む文を特定するための前記テキスト識別情報及び前記センテンス識別情報が関連付けられた検索インデックスを生成する情報検索サーバと、
前記検索条件情報を生成して、生成した前記検索条件情報を前記情報検索サーバへと出力するユーザ操作端末と、
を有し、
前記情報検索サーバは、前記ユーザ操作端末から出力された前記検索条件情報に対する検索結果を当該ユーザ操作端末に出力する、情報処理システム。