JP4602388B2 - 類似文検索システム及びプログラム - Google Patents

類似文検索システム及びプログラム Download PDF

Info

Publication number
JP4602388B2
JP4602388B2 JP2007242641A JP2007242641A JP4602388B2 JP 4602388 B2 JP4602388 B2 JP 4602388B2 JP 2007242641 A JP2007242641 A JP 2007242641A JP 2007242641 A JP2007242641 A JP 2007242641A JP 4602388 B2 JP4602388 B2 JP 4602388B2
Authority
JP
Japan
Prior art keywords
search
sentence
keyword
unit
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007242641A
Other languages
English (en)
Other versions
JP2009075747A (ja
Inventor
晶 佐々木
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007242641A priority Critical patent/JP4602388B2/ja
Publication of JP2009075747A publication Critical patent/JP2009075747A/ja
Application granted granted Critical
Publication of JP4602388B2 publication Critical patent/JP4602388B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力された検索対象文の類似文を用例として用例データベースから検索する類似文検索システム及びプログラムに関する。
類似文検索システムは、入力された検索対象文に対して用例データベースから検索対象文に類似する類似文を検索するものであり、このような類似文の用例検索は、情報検索や翻訳時に参照する用例検索等で用いられる。
類似文検索においては、検索対象文と用例データベースに登録された各文との類似度を算出し、ユーザが設定する閾値以上の類似度となった文を検索結果として検出する。類似度の算出方法には様々な方法があるが、文を構成する単語の文字列及び単語単位での一致を基にする方法が基本である。これに加えて、類義語を事前に辞書に登録しておき、類義語の関係にある語同士は一致しているとみなし、文字列として全く同じ単語を含まなくても、話題としては近い類似文も検出できるようにしたものがある(例えば、特許文献1参照)。また、類似度の算出にあたり、文の構文・意味関係の一致を考慮し、より意味内容が近い類似文の検出を行えるようにしたものがある(例えば、特許文献2参照)。
このような類似文検索システムでは、文全体としての類似度よりも検索対象文の中の特定の言い回しに注目し、その言い回しを含んだ類似文の検出を目的とする場合には、検出結果がユーザの希望にそぐわない場合がある。これは、従来の検索システムでは類似度計算の際に文の各構成要素の重みを均等に扱っているからである。すなわち、特定の言い回しを含んでいても、文全体に対してその言い回しの割合が低い場合には、文全体としては類似度が低くなるからである。
このような問題に対して、類似度計算の際に文を構成する部分に応じて重みを変えるという、以下のような3つの検索方法が提案されている。
(1)第1の検索方法においては、用例・検索対象文の両方に対して、文法・意味的に置換、削除、追加が可能な文中の箇所に各情報を付与して、置換可能な語同士の比較、不要箇所の削除、不足箇所の追加を行って類似度を算出する(例えば、特許文献3参照)。これによって、文の骨子により重点を置いた類似度の算出が行えるようになる。なお、この第1の検索方法では、用例及び検索対象文の両方に対して事前に情報を付与しておく必要があるが、文同士を比較することで、置換、削除、追加が半自動的に行われる。例えば、削除可能な部分の指定に関して、以下の2つの用例A1、A2を比較して、修飾語である「貴重な」は削除可能と自動的に判断する。
用例A1:中山がフリーキックで得点を上げた。
用例A2:そして、30分後に、中田がPKで貴重な得点をした。
(2)第2の検索方法においては、用例・検索対象文の両方に対して、主語と動詞、動詞と目的語の関係を抽出して「文断片」を作成し、その文断片ごとに類似判定を行う。複雑な構造を持つ文は、文断片ごとに類似度判定が行われるため、文の一部ではあっても検索対象文と類似度の高い部分を含む用例を検出することができる(例えば、特許文献4参照)。例えば、以下のような検索対象文X1と用例A3、A4とがあった場合、どちらの用例A3、A4に対しても検索文全体としての類似度はあまり高くないが、用例A3は検索対象文の前半と、用例A4では後半との類似度が高いため、どちらの用例A3、A4も類似文として検出される。
検索対象文X1:「応募総数は、過去最高の415万編で、参加学校は3万校近くにのぼっている。」
用例A3:「応募総数は、過去最高の約415万編にも及んだ。」
用例A4:「国内外の参加学校数は、3万校近くにのぼっている。」。
(3)第3の検索方法においては、文の構成要素を意味の塊(チャンク)ごとにまとめ、主格、目的格などの構文の骨格を構成する格情報を持つチャンクの重みを大きくし、チャンクの中心となる語にさらに重みを付加して類似度を算出する(例えば、特許文献5参照)。例えば、検索対象文が「オーストラリアの名将フェリマンは女子400メートル決勝戦の金メダルを獲得した。」であり、用例集の中に「2000年9月25日、北京時間午後4時、女子400メートル決勝戦で、オーストラリアの名将フェリマンは金メダルを獲得した。」という文が存在した場合、「女子400メートル決勝戦」、「オーストラリアの名将フェリマン」、「金メダル」、「獲得した」等の文意を取る上で重要な構成要素の重みが大きくなる。これによって、文の骨子により重点を置いた類似度の算出が行えるようになる。
これら3つの検索方法により、検索対象文に対して文の骨子が類似している文や、文全体としての類似度はあまり高くないが、文の一部に検索対象文と類似度の高い部分を持つ文の検出を行うことができる。
特開平11−110395号公報 特開2000−242650号公報 特開2001−357065号公報 特開2005−190185号公報 特開2006−65387号公報
しかしながら、前述の3つの検索方法で重点が置かれている文の構成要素は、ユーザが注目している部分と必ずしも一致するとは限らず、これらの検索方法をもってしても、ユーザが注目している特定の言い回しを含んだ類似文の検出結果がユーザの要望を満たすことができない。例えば、下記の検索対象文X2に対し、用例データベースに用例A5、A6、A7が格納されている場合を例に挙げて説明する。
検索対象文X2:患者40人と健常成人20名を、○○薬を使用する群としない群にそれぞれランダムに割り付けた。
用例A5:手術可能な△△疾患患者100人を、術前にXX薬を3サイクル投与後に手術を実施した群と、手術単独群にランダムに割り付けた。
用例A6:たとえば、60の工場の半数をランダムに治療群に、半数を対照群に割り付ける。
用例A7:小児をランダム化により化学療法実施群と標準的な追跡ケア群とに割り付けた。
第1の検索方法においては、ユーザが修飾語に注目していても、修飾語は削除可能と判断されてしまい、類似度算出の際に考慮されないという問題がある。例えば、検索対象文X2は医学統計に関する文であり、この文中の「割り付け方がランダムであること」が重要なポイントである。にもかかわらず、第1の検索方法においては、「ランダムな」が修飾語(形容動詞)であるという理由の元に、重要なキーワードを含む文と含まない文との間で類似度に差が生じない。これによって、「ランダムな」を含む文が優先的に検出されることはなく、検出されたとしても、希望する文とそうでない文との区別に手間がかかる。
同様に、上述した第2の検索方法においても、「ランダムな」が類似度計算において考慮されないという問題がある。これに加えて、検索対象文X2の「割り付ける」の間接目的語である「○○薬を使用する群」及び「しない群」を、用例A5の「術前にXX薬を3サイクル投与後に手術を実施した群」及び「手術単独群」と比較した場合、「群」以外の語の占める割合が高いため、両者の類似度は低くなってしまうという問題がある。これは、第2の検索方法では類似度を比較する単位を細かくしてはいるが、ユーザが注目する部分自体には相変わらず重みが与えられていないことに起因する。すなわち、ユーザが検出を望んでいるのは、「〜群と〜群」という「群」を合成語の一部として含む2つの語が並列関係にある文であり、「〜」の部分はあくまでも任意なので、この関係自体に重みを与えなくては、ユーザの検索の目的を満足することはできない。従って、用例A6、A7についても検索されない可能性がある。
一方、上述した第3の検索方法においては、意味のチャンクの中心語に対して重みが加味されるため、上記の例でいうと「群」に重みは加味される。しかしながら、検出の基準はあくまでも文全体の類似度であるため、やはり用例2と検索対象文との類似度は低くなってしまう。また、修飾語である「ランダムな」は格要素を構成しないため、やはり類似度の重みは加味されないという問題は依然として存在する。
本発明の目的は、検索対象文の中でユーザが注目する特定の言い回しがある場合、その特定の言い回しを含む用例をデータベースから効率良く検索することができる類似文検索システム及びプログラムを提供することを目的とする。
本発明に係わる類似文検索システムは、
用例データベースを記憶した記憶装置と、類似文の用例検索の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、
前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、
前記入力装置から入力された検索対象文を受け付ける検索対象入力部と、前記検索対象入力部で受け付けられた検索対象文中のキーワードの指定を受け付けるキーワード指定部と、前記検索対象入力部で受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する言語解析部と、前記言語解析部で解析した各語の構文・意味上の役割情報のうち前記キーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する検索式生成部と、前記検索式生成部で生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索するデータベース検索部と、前記データベース検索部で検索された用例を前記表示装置に出力する出力部とを備えた類似文検索プログラムを演算実行するCPUとを備えることを特徴とする。
本発明によれば、検索対象文の中でユーザが注目する特定の言い回しがある場合、その特定の言い回しを含む用例をデータベースから効率良く検索することができる。
図1は、本発明の実施の形態に係わる類似文検索システムの構成図である。類似文検索システム11は、入力された検索対象文の類似文を用例として用例データベースから検索して出力するものであり、例えば一般的なコンピュータに類似文検索プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。類似文検索システム11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力装置16、表示装置17、及び記憶装置19が接続されている。
記憶装置19には、類似文検索プログラム20が記憶されるとともに用例データベース21及び類義語辞書22が記憶される。類似文検索プログラム20は、検索対象文入力部23、キーワード指定部24、言語解析部25、検索制御部26、検索式生成部27、データベース検索部28、出力部29を有する。
CPU12は、入力装置16からの入力信号に基づいてROM13から類似文検索システム11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力装置16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された類似文検索プログラム20、用例データベース21、類義語辞書22のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、後述する類似文検索処理を実現する。
入力装置16は、類似文の用例検索の検索対象文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。表示装置17は、入力装置16から入力されたデータや類似文の用例検索結果等の出力手段であり、CRT表示装置や液晶ディスプレイ表示装置が使用される。
図2は、本発明の実施の形態に係わる類似文検索システム11のCPU12の機能ブロック図である。図2に示すCPU12内の各機能ブロックは、類似文検索プログラム20を構成する各部、すなわち、検索対象文入力部23、キーワード指定部24、言語解析部25、検索制御部26、検索式生成部27、データベース検索部28、出力部29に対応する。
検索対象文入力部23は、類似文を検索する対象となる文(検索対象文)の入力を受け付けるものである。例えば、検索対象文は、ユーザ自身が入力装置16であるキーボード等から直接入力したり、記憶媒体を介してディスクドライブから入力される。検索対象文入力部23は、入力装置16から入力された検索対象文を受け付ける。
キーワード指定部24は、検索対象文においてユーザが注目する語(キーワード)の指定を受け付けるものである。例えば、キーワードは、入力装置16であるマウス等によるドラッグ操作によって指定される。詳細については後述するように、キーワードは検索式を生成するために使用されるものであり、1つだけ指定された場合には、検出される類似文に必ず含まれ、複数指定された場合には、優先順位と検出される類似文に必ず含まれるかどうかという条件を指定することになる。
言語解析部25は、文の言語解析を行うことにより、文を構成する各語の構文・意味上の役割情報を取得するものである。構文・意味上の役割情報は、例えば、文を構成する各語の品詞、格、並列表現等の情報である。具体的には、自然言語処理で一般的に用いられる解析手法である、形態素解析、構文解析、係り受け解析及び意味解析を行うことにより、文を構成する各語の構文・意味上の役割情報を取得する。なお、言語解析部25による解析は、入力された検索対象文と、用例データベース21に格納された用例の両方に対して行われる。
用例データベース21には、文を構成する語と、文脈中における各語の構文・意味上の役割情報とを含む複数の用例が登録されている。用例は検索対象文に類似する類似文である。用例データベース21への用例の登録は、例えば、入力装置16であるディスクドライブに挿入された記憶媒体を介して行われる。なお、ここでは予め各用例において、文を構成する各語に対して言語解析部25を用いて得られた構文・意味上の役割情報が関連付けられているものとする。
検索制御部26は、後述する検索式生成部27、データベース検索部28及び出力部29を制御するものである。
検索式生成部27は、検索制御部26で制御され、キーワード指定部24で指定されたキーワードと、検索対象文を構成する各語及びその構文・意味上の役割情報とを用いて検索式を生成するものである。すなわち、言語解析部25で解析した各語の構文・意味上の役割情報のうち、キーワードの構文・意味上の役割情報とキーワードとを含む検索式を生成する。これにより、ユーザが指定したキーワードだけでなく、その構文・意味上の役割情報を含んだ検索式が作成される。検索式の詳細については後述する。
データベース検索部28は、検索制御部26で制御され、用例データベース21に登録された用例を検索するものである。具体的には、用例データベース21に登録された用例と検索式との間で、キーワード及びキーワードに対応付けられた構文・意味上の役割情報の比較を行い、一致もしくは類似する用例を検索する。
類義語辞書22には、特定の語に対して類義語関係にある語が関連付けて登録されている。類義語辞書22は、検索式と用例データベース21に登録された用例との比較を行う際に参照されて、類義語の関係にある語同士は一致しているとみなされる。類義語辞書22を参照した検索を行うかどうかは、ユーザが指定することができる。
出力部29は、検索制御部26で制御され、用例データベース21に登録された用例の検索結果を出力するものである。例えば、表示装置13に表示することで検索結果を出力する。なお、出力は表示装置13への出力に限定されるものではなく、表示装置13による出力に代え、あるいは、表示装置13による出力に加えて音声や印刷装置により検索結果を出力するようにしてもよい。
次に、本発明の実施の形態に係わる類似文検索システム11における検索処理内容について説明する。図3は、本発明の実施の形態に係わる類似文検索システム11における検索処理内容を示すフロー図である。
本発明の実施の形態に係わる類似文検索システム11を用いて検索処理を行う場合、まず、ユーザから入力装置16を介して検索対象文が入力されるので、検索対象文入力部23は、この検索対象文の検索文字列の入力を受け付ける(S11)。検索対象文が入力された後においては、ユーザから検索対象文におけるキーワードが指定されるので、キーワード指定部24は、キーワードが指定されたときは、このキーワードの指定を受け付ける(S12)。
キーワードが受け付けられると、言語解析部25は、検索対象文の言語解析を行う(S13)。これにより、検索対象文を構成する各語の構文・意味上の役割情報が取得され、各語に対して構文・意味上の役割情報が付与される。そして、検索式生成部27は、指定されたキーワードと、各キーワードに対応付けられた構文・意味上の役割情報とから検索式を生成する(S14)。
検索式が生成されたならば、データベース検索部28は、用例データベース21に登録された用例と検索式との間で、キーワードとそのキーワードに対応付けられた構文・意味上の役割情報とを用いて一致または類似する用例を検索する(S15)。そして、類似度がユーザにより設定された閾値以上となった用例が存在するか否か、つまり、検索結果が得られたか否かを判定し(S16)、類似度がユーザにより設定された閾値以上となった用例が存在する場合には、当該用例を用例データベース21から抽出して検索結果とする(S17)。また、複数の検索結果が存在する場合には、類似度が高い順に並べ替える。一方、類似度がユーザにより設定された閾値以上の用例データが存在しない場合には、該当する用例が存在しない旨を検索結果とする(S18)。そして、データベース検索部28による検索が完了すると、出力部29は、その検索結果を出力する(S19)。このようにして一連の類似文検索処理が終了する。
いま、ユーザから検索対象文として「患者40人と健常成人20名を、○○薬を使用する群と○○薬を使用しない群にそれぞれランダムに割り付けた。」(検索対象文X2)が入力され、また、キーワードとして「割り付け」、「群」(2箇所)、「ランダム」が指定され、検索結果にはこれらのキーワードすべてが含まれる(必須)が指定されたとする。
このような検索対象文X2の入力及びキーワードの指定は、検索対象文入力部23及びキーワード指定部24により受け付けられる(S11、S12)。そうすると、言語解析部25は、当該検索対象文X2の言語解析を行う(S13)。図4は言語解析部25での言語解析結果を示す説明図である。
図4に示すように、検索対象文X2を構成する各語のツリー構造が得られ、検索対象文X2を構成する自立語(ノード)と、各自立語間の構文・意味上の関係(リンク)が明らかになる。この場合、キーワードである「割り付け」にはキーワードである「ランダム」が副詞として修飾しており、さらにキーワードである「群」を含む2つの名詞句が「に格(間接目的語)」として接続していることが明らかになる。つまり、キーワードの構文・意味上の役割情報が明らかになる。なお、図4では、簡潔のため、キーワード以外の語に関するリンクを適宜省略した形で記述している。
このような検索対象文X2の言語解析が完了すると、検索式生成部27により、ステップS12で指定されたキーワード「割り付け」、「群」、「ランダム」と、ステップS13で取得された構文・意味上の役割情報とから検索式が生成される(S14)。
図5は、キーワードの構文・意味上の役割情報とキーワードとを含む検索式の説明図である。図5(a)は検索式をツリー構造で表現したもの、図5(b)は検索式を文字列で表現したものである。なお、図5(a)でキーワードの単語に役割情報が付いていることと、図5(b)で「(必)」という文字が付いているのは、指定されたキーワードが「必須」であることを示す。
このような検索式が生成されると、データベース検索部28により、当該検索式を用いて用例データベース21に登録された用例データの検索が行われる(S15)。具体的には、まず「必須」のキーワードを含む文を、用例データベース21に登録された用例の中から検索する。次に、検索された結果(1次検索結果)に対してツリー構造のノード及びリンクのマッチングを行うことで、1次検索結果の絞込みを行う。なお、このようなツリー構造を基にしたマッチングの手法は、例えば、本出願人による特開2005−208825号公報に開示される手法を用いる。
図6はデータベース検索部28により検索された用例の一例の説明図である。図6では、前述した用例A5「手術可能な△△疾患患者100人を、術前にXX薬を3サイクル投与後に手術を実施した群と、手術単独群にランダムに割り付けた。」である場合を示している。
すなわち、図6に示すように、用例A5は図5に示した検索対象文X2の検索式と同一のツリー構造を持つ。従って、検索式と同一のツリー構造を持つ用例A5が検出される。そして、データベース検索部28による検索が完了すると、出力部29は、その検索結果を出力する(S17)。この一例では、キーワードはすべて「必須」としたため、ツリー構造が完全に一致したものだけが検出されているが、キーワードに「必須」でないものを指定した場合と、類義語辞書22を使用する場合は、類似度が指定した閾値以上となった用例データが検出される。これらの具体例については後述する。
ここで、データベース検索部28では、検索対象文や検索式は文字列データで扱う。例えば、前述の検索対象文X2「患者40人と健常成人20名を、○○薬を使用する群としない群にそれぞれランダムに割り付けた。」及び図5の検索式は、以下の形式で扱われる。
検索対象文:割り付け(fukushi_ランダム kan-moku_群(rentai-shu_使用(choku-moku_薬) heiretu_群(hitei_syouryaku使用)) choku-moku_患者(shu_40人 heiretu_成人(shu_健常(shu_20名))) fukushi_それぞれ)
検索式:割り付け@@(fukushi _ランダム@@kan-moku_群@@(heiretu_群@@))
この一例においては、カッコが単語同士の繋がりを表しており、ローマ字で記された文字列が構文・意味上の役割情報を表している。また、記号「@@」は、キーワードが「必須」であることを示している。これらの用例と検索式は、「割り付け(fukushi _ランダム kan-moku_群(heiretu_群))」という部分が一致することで、マッチしたと判断されることとなる。
以上説明した検索の内容について、より具体的に説明する。用例データベース21に以下のような5個の用例A5〜A9が登録されており、検索対象文X2につき、以下の3つの検索方法1、2、3で検索した場合について説明する。
(検索対象文)
検索対象文X2:患者40人と健常成人20名を、○○薬を使用する群としない群にそれぞれランダムに割り付けた。
(用例データベース)
用例A5:手術可能な△△疾患患者100人を、術前にXX薬を3サイクル投与後に手術を実施した群と、手術単独群にランダムに割り付けた。
用例A6:たとえば、60の工場の半数をランダムに治療群に、半数を対照群に割り付けるような場合である。
用例A7:小児をランダム化により化学療法実施群と標準的な追跡ケア群とに割り付ける。
用例A8:このバイアスは、対象の選択から始まって、対象群と介入群への割り付け、曝露状態や結果の評価、データの解析などあらゆる時点で起こり得ます。
用例A9:患者を治療群と対照群の2つの群に封筒法などで無作為に割り付け、適切なサンプルサイズで比較試験を行うことが大切といえる。
(検索方法1)
キーワードをすべて「必須」として指定した場合である。すなわち、キーワードとして、「割り付け」、「群」、「ランダム」を指定し、各キーワードの優先順位には差がなく、すべてが検索結果に含まれると指定する。そうすると、検索式は以下の通りとなる。
「割り付け(必)+(副詞_ランダム(必)) +(間接目的_(群(必)_並列_群(必)))」
検索の結果、用例データベース21の5つの用例A5〜A9から、まず、必須のキーワードを含む用例A5、A6、A7が検出される。次に、この1次検索結果から、検索式と同じツリー構造を持つ用例A5と用例A6に検索結果が絞り込まれる。このように、キーワードの一致だけでなく、キーワードの文中における構文・意味上の役割情報までも考慮した検索を行うことで、検索対象文中でのキーワードの使われ方がより近い用例に絞り込んだ、効率の良い検索を行うことができる。
(検索方法2)
キーワードの優先順位、及び検出される類似文に必ず含まれるかどうかという条件を指定した場合である。指定したキーワードに加えて「患者」をキーワードに指定して、他の4つのキーワードよりも優先順位は低く、検出結果に必ずしも含まれなくてよい、という条件を指定したとする。この条件では、用例A6は「患者」を含まないが、「患者」は「必須」のキーワードではないため、用例A6は検出の対象となり、「患者」を含む用例A5よりは類似度が低くなる。このように、キーワードの指定の際に条件を指定することによって、検索の網羅度は高くしながらも、注目する言い回しの中で重要度の高い部分により焦点を当てた検索を行うことができる。
(検索方法3)
類義語辞書22を使用するよう指定した場合である。類義語辞書22を使用するよう指定すると、類義語の関係にある語同士は一致しているとみなされる。類義語辞書22の中に、「ランダム」と「無作為」とは類義語関係にある語が関連付けられているとすると、用例A9の「無作為」と「ランダム」とが同義語とみなされて、1次検索の際にも検出されるようになる。このように、類義語辞書22を用いると、キーワードと文字列としては完全一致していなくても、似た言い回しも検出することができる。
以上説明したように、本発明の実施の形態による類似文検索システムでは、キーワード及びそのキーワードの構文・意味上の役割情報までも考慮した検索を行うので、検索対象文の中でユーザが注目する特定の言い回しがある場合、その特定の言い回しを含む用例を用例データベース21から効率良く検索することができる。また、キーワードの指定の際に条件を指定することによって、検索網羅度を高くしながらも、注目する言い回しの中で重要度の高い部分により焦点を当てた検索を行うことができる。さらに、類義語辞書22を用いることで、キーワードと文字列としては完全一致していなくても、似た言い回しも検出することができる。
本発明の実施の形態に係わる類似文検索システムの構成図。 本発明の実施の形態に係わる類似文検索システムのCPUの機能ブロック図。 本発明の実施の形態に係わる類似文検索システムにおける検索処理内容を示すフロー図。 本発明の実施の形態における言語解析部での言語解析結果の一例を示す説明図。 本発明の実施の形態における検索式生成部で生成された検索式の一例の説明図 本発明の実施の形態におけるデータベース検索部により検索された用例の一例の説明図。
符号の説明
11…類似文検索システム、12…CPU、13…ROM、14…RAM、15…バス、16…入力装置、17…表示装置、19…記憶装置、20…類似文検索プログラム、21…用例データベース、22…類義語辞書、23…検索対象文入力部、24…キーワード指定部、25…言語解析部、26…検索制御部、27…検索式生成部、28…データベース検索部、29…出力部

Claims (4)

  1. 用例データベースを記憶した記憶装置と、類似文の用例検索の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、
    前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、
    前記入力装置から入力された検索対象文を受け付ける検索対象入力部と、前記検索対象入力部で受け付けられた検索対象文中のキーワードの指定を受け付けるキーワード指定部と、前記検索対象入力部で受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する言語解析部と、前記言語解析部で解析した各語の構文・意味上の役割情報のうち前記キーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する検索式生成部と、前記検索式生成部で生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索するデータベース検索部と、前記データベース検索部で検索された用例を前記表示装置に出力する出力部とを備えた類似文検索プログラムを演算実行するCPUとを備える類似文検索システム。
  2. 前記キーワード指定部は、前記入力装置から複数のキーワードの指定を受け付けたときは、受け付けたキーワードの優先順位及び検索結果に必ず含めるかどうかの条件も併せて受け付けることを特徴とする請求項1に記載の類似文検索システム。
  3. 特定の語に対して類義語関係にある語を関連付けて登録した類義語辞書を設け、前記キーワードに対し前記類義語辞書の使用の要求が前記入力装置からあったときは、前記データベース検索部は、前記キーワードに対して類義語関係にある語を含む用例も検索することを特徴とする請求項1または2に記載の類似文検索システム。
  4. 類似文検索プログラム及び用例データベースを記憶した記憶装置と、類似文の用例の検索対象文を入力するとともに操作に必要な情報を入力する入力装置と、前記検索対象文や前記用例データベースから検索された用例を表示する表示装置と、前記類似文検索プログラムを演算実行するCPUとを備えた類似文検索システムにおいて、コンピュータに、前記入力装置から入力された検索対象文を受け付ける機能と、受け付けられた検索対象文中のキーワードの指定を受け付ける機能と、受け付けられた検索対象文を構成する各語の構文・意味上の役割情報を解析する機能と、解析した各語の構文・意味上の役割情報のうち前記指定されたキーワードの構文・意味上の役割情報と前記キーワードとを含む検索式を生成する機能と、生成された検索式を用いて前記キーワードを含む用例を前記用例データベースから検索しその中から前記構文・意味上の役割情報が一致する用例を検索する機能と、検索された用例を前記表示装置に出力する機能とを実現させるための類似文検索プログラム。
JP2007242641A 2007-09-19 2007-09-19 類似文検索システム及びプログラム Expired - Fee Related JP4602388B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007242641A JP4602388B2 (ja) 2007-09-19 2007-09-19 類似文検索システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007242641A JP4602388B2 (ja) 2007-09-19 2007-09-19 類似文検索システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2009075747A JP2009075747A (ja) 2009-04-09
JP4602388B2 true JP4602388B2 (ja) 2010-12-22

Family

ID=40610667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007242641A Expired - Fee Related JP4602388B2 (ja) 2007-09-19 2007-09-19 類似文検索システム及びプログラム

Country Status (1)

Country Link
JP (1) JP4602388B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5527726B2 (ja) * 2010-07-21 2014-06-25 独立行政法人情報通信研究機構 翻訳支援装置、翻訳支援方法、およびプログラム
JP5699789B2 (ja) * 2011-05-10 2015-04-15 ソニー株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP5915274B2 (ja) * 2012-03-09 2016-05-11 富士通株式会社 情報検索方法、プログラムおよび情報検索装置
JP2014006770A (ja) * 2012-06-26 2014-01-16 Nec Corp 資産化装置、資産化方法および資産化プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2005208825A (ja) * 2004-01-21 2005-08-04 Toshiba Corp データ検索システム、データ検索方法及びプログラム
JP2006058934A (ja) * 2004-08-17 2006-03-02 Toppan Printing Co Ltd 検索システム、方法、プログラム、及びそのプログラムを記録した記録媒体
JP2006079366A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体
JP2006215717A (ja) * 2005-02-02 2006-08-17 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2609173B2 (ja) * 1990-03-26 1997-05-14 株式会社エイ・ティ・アール自動翻訳電話研究所 用例主導型機械翻訳方法
JPH07146878A (ja) * 1993-11-25 1995-06-06 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP3275813B2 (ja) * 1998-01-06 2002-04-22 日本電気株式会社 文書検索装置、方法及び記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031950A (ja) * 2003-07-11 2005-02-03 Canon Inc 情報検索装置、情報検索方法およびプログラム
JP2005208825A (ja) * 2004-01-21 2005-08-04 Toshiba Corp データ検索システム、データ検索方法及びプログラム
JP2006058934A (ja) * 2004-08-17 2006-03-02 Toppan Printing Co Ltd 検索システム、方法、プログラム、及びそのプログラムを記録した記録媒体
JP2006079366A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体
JP2006215717A (ja) * 2005-02-02 2006-08-17 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム

Also Published As

Publication number Publication date
JP2009075747A (ja) 2009-04-09

Similar Documents

Publication Publication Date Title
Clark et al. Tydi qa: A benchmark for information-seeking question answering in ty pologically di verse languages
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP5699789B2 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP2000513843A (ja) 辞書に基づく品詞確率による自然言語パーザ
JPH1011447A (ja) パターンに基づく翻訳方法及び翻訳システム
JP2010157178A (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
Meyers et al. The termolator: terminology recognition based on chunking, statistical and search-based scores
Chen et al. Ranking medical terms to support expansion of lay language resources for patient comprehension of electronic health record notes: adapted distant supervision approach
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
JP4602388B2 (ja) 類似文検索システム及びプログラム
Cossin et al. Iam at clef ehealth 2018: Concept annotation and coding in french death certificates
Wróbel et al. Transformer-based part-of-speech tagging and lemmatization for Latin
JP2002278949A (ja) 表題生成装置及び方法
JP2002503849A (ja) 漢字文における単語区分方法
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Granfeldt et al. CEFLE and Direkt Profil: A new computer learner corpus in French L2 and a system for grammatical profiling
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP5640856B2 (ja) プログラムおよび情報処理装置
Trandafili et al. A novel document summarization system for Albanian language
JP7295429B2 (ja) 文書処理プログラム、文書処理方法および文書処理装置
Malireddy et al. Gold corpus for telegraphic summarization
JP7302267B2 (ja) 検索プログラム、検索方法及び検索装置
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4602388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees