JP2008210206A - 類似文章検索プログラム - Google Patents

類似文章検索プログラム Download PDF

Info

Publication number
JP2008210206A
JP2008210206A JP2007046926A JP2007046926A JP2008210206A JP 2008210206 A JP2008210206 A JP 2008210206A JP 2007046926 A JP2007046926 A JP 2007046926A JP 2007046926 A JP2007046926 A JP 2007046926A JP 2008210206 A JP2008210206 A JP 2008210206A
Authority
JP
Japan
Prior art keywords
sentence
search
compound word
similar
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007046926A
Other languages
English (en)
Other versions
JP4838743B2 (ja
Inventor
Ken Yamaguchi
建 山口
Mutsumi Ishikawa
睦弓 石川
Yuuko Kitamura
有子 北村
Yoichi Miyazaki
曜一 宮崎
Katsuyoshi Mita
克祥 三田
Tetsuya Asano
哲也 浅野
Akihiro Matsui
昭裕 松井
Taeko Matsutomi
妙子 松富
Koji Ito
公次 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MEIDEN SOFTWARE CORP
Shizuoka Prefecture
Original Assignee
MEIDEN SOFTWARE CORP
Shizuoka Prefecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MEIDEN SOFTWARE CORP, Shizuoka Prefecture filed Critical MEIDEN SOFTWARE CORP
Priority to JP2007046926A priority Critical patent/JP4838743B2/ja
Publication of JP2008210206A publication Critical patent/JP2008210206A/ja
Application granted granted Critical
Publication of JP4838743B2 publication Critical patent/JP4838743B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】利用者がキーワードを意識することなく文章を入力すると、文章中の単語の位置や前後関係に基づいて、精度よくかつ柔軟に類似文章を検索できる類似文章検索プログラムを提供する。
【解決手段】入力された文章に類似する文章を検索する処理を実行するコンピュータプログラムであって、入力された文章を形態素解析して文節を判定すると共に各文節毎に係り受けを解析し(S230、S240)、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成し(S250)、入力された文章に複合語を関連付けて文章データベースに記録し(S260)、新たに任意の原文が入力された場合に複合語を作成し、原文に対して得られた複合語をキーとして、文章データベースからキーとなる複合語を含む文章を検索する。
【選択図】図2

Description

本発明は、データベースに蓄積された文章データの中から、利用者が入力した文章に類似する文章を検索するコンピュータプログラムに関する。
コンピュータの普及やデータの電子化の進展に伴い、膨大なデータベースから効率的に文書検索を行う必要が増大している。文書検索技術としては、利用者の入力キーワードに基づいてデータベースの文書のテキスト検索を行う技術が知られているが、検索される文書数が多過ぎたり、まったく検索されないという不具合がある。
このようなことから、利用者にキーワードと共にそのキーワードの品詞を指定して入力させ、キーワードと品詞を組合わせた検索条件でデータベースの検索を行い、検索精度や効率を向上させる技術が開示されている(特許文献1参照)。
一方、キーワード検索においては、利用者がキーワードを設定する作業が必要であると共に、キーワードに該当しない限り検索されないという本質的な問題がある。そこで、利用者が自然文や単語列を入力すると、その文の形態素解析を行い、予め単語毎に設定した意味カテゴリに基づいて入力文中の単語の意味カテゴリを抽出し、その単語と意味カテゴリをキーとしてデータベースに蓄積された検索文(類似文章)を検索する技術が開示されている(特許文献2参照)。
特開平9−73460号公報 特許第2732661号公報
しかしながら、上記した特許文献1記載の技術の場合、利用者がキーワードと共に品詞を設定する作業が必要であると共に、これらの設定が不適切な場合、検索される文書数が多過ぎたり、まったく検索されないという不具合が解消されない。
又、特許文献2記載の技術の場合、予め単語毎に意味カテゴリを設定しているが、文章中での単語の位置や前後の単語との関係によって意味が変わることがあり、入力文の内容を解析する点で精度や利用勝手が充分とはいえない。例えば、利用者にとっては、入力した文章中の単語の前後関係をシステム側で判断し、その文章に適切に類似した文章をあいまい的に検索(以降、あいまい検索と称する)できる方が便利である。
本発明は、前述の課題に鑑みてなされたもので、利用者がキーワードを意識することなく文章を入力しても、文章中の単語(品詞)の位置や前後関係に基づいて、精度よくかつ柔軟に類似文章を検索できる類似文章検索プログラムの提供を目的とする。
上記した目的を達成するため、本発明の類似文章検索プログラムは、入力された文章に類似する文章を検索する処理を実行し、前記入力された文章を形態素解析して文節を判定すると共に各文節毎に係り受けを解析する解析過程と、前記文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する複合語作成過程と、前記入力された文章に前記複合語を関連付けて文章データベースに記録する文章データベース記録過程と、新たに任意の原文が入力された場合に、前記解析過程と前記複合語作成過程とを実行し、前記原文に対して得られた複合語をキーとして、前記文章データベースから前記キーとなる複合語を含む文章を検索する類似文章検索過程と、前記検索された文章を出力する出力過程とを有することを特徴とする。
この類似文章検索プログラムでは、利用者がキーワードを意識することなく文章を入力しても、文章中の単語の位置や前後関係に基づいた意味内容を反映した1以上の文節をグループとし、当該グループに含まれる単語を有する複合語を作成するので、この複合語をキーとして精度よくかつ柔軟に類似文章を検索できる。
また、本発明の類似文章検索プログラムは、前記複合語作成過程において、前記複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一することが好ましい。
この類似文章検索プログラムでは、複合語における余分な品詞を削除するので、あいまい検索が実行され易くなる。
また、本発明の類似文章検索プログラムは、前記原文の複合語が複数個ある場合に、前記類似文章検索過程において、前記原文の複合語のすべてを持つ第1の文章と、前記原文の複合語のうち少なくとも1つを持つ第2の文章とを前記文章データベースからそれぞれ検索し、前記第1及び第2の文章とに所定の重み付けを付与することが好ましい。
この類似文章検索プログラムでは、キーとなる複合語の数に応じて種々の検索結果が得られ、それらを重み付けして出力することにより、検索の精度と柔軟性のバランスをとったあいまい検索を行うことができる。特に、利用者の入力する文章に個人差があっても、柔軟に検索を実行することができ、厳密な検索によって結果が得られない不具合が解消される。
また、本発明の類似文章検索プログラムは、前記入力された文章を所定のカテゴリーに分類し、同一のカテゴリー内に属する類似する前記文章を上位化した統合文章を作成する統合文章作成過程と、得られた統合文章に対し、前記解析過程及び前記複合語作成過程とを実行して得られた複合語を、前記統合文章に関連付けて文章データベースに記録する統合文章管理過程とをさらに有し、前記類似文章検索過程において、前記原文から得られた複合語をキーとして、前記文章データベースに記録された前記統合文章を検索することが好ましい。
この類似文章検索プログラムでは、文章データベース内の原文を集約した統合文章についても検索の対象となるので、多様な検索結果が得られ、あいまい検索が実行し易くなる。
また、本発明の類似文章検索プログラムは、前記類似文章検索過程において、前記複合語に含まれる品詞に割当てられた重み付けに応じて検索結果に順位付けをすることが好ましい。
この類似文章検索プログラムでは、例えば、検索された複合語に品詞が多数含まれる場合や、重要語句として指定した品詞を含む複合語の検索順位を高め、検索精度を向上させることができる。
さらに、本発明の類似文章検索プログラムは、前記類似文章検索過程において、前記カテゴリーに割当てられた重み付けに応じて検索結果に順位付けをすることが好ましい。
この類似文章検索プログラムでは、文章データベース内のカテゴリーについても検索の対象となるので、多様な検索結果が得られ、あいまい検索が実行し易くなる。
本発明によれば、以下の効果を奏する。
すなわち、本発明の類似文章検索プログラムによれば、利用者がキーワードを意識することなく文章を入力しても、文章中の単語(品詞)の位置や前後関係に基づいて、精度よくかつ柔軟に類似文章を検索できる。
以下、本発明に係る類似文章検索プログラムの一実施形態を、添付した図面に基づき説明する。
図1は、本発明の類似文章検索プログラムをコンピュータ上で実行するための検索システムを示すブロック図である。
検索システム100は、Webサーバ等であってよく、CPU等のプロセッサ101、本発明の類似文章検索プログラムを格納するプログラム格納部103、同義語辞書104及び文章DB(データベース)部105を備える。プログラム格納部103に格納されたプログラムは、図示しないメモリ(ROM,RAM等)に格納されてプロセッサ101により実行される。
検索システム100は、インターネット等のネットワーク400を介して利用者端末200及びサンプル文章DB部300に接続されている。利用者は、利用者端末200から検索システム100にアクセスして検索を希望する原文(例えば、日本語自由文)を入力して、検索システム100からは検索結果が利用者端末200に送信される。
サンプル文章DB部300は、データベースサーバ等であってよく、文章DB105に蓄積するための様々な日本語文章データが蓄積され、必要に応じて文章DB105にデータ転送される。
検索システム100において、ハードディスクドライブ等の記録媒体からなるプログラム格納部103は、分類化プログラム1031、統合化プログラム1032、形態素解析プログラム1033、係り受け解析プログラム1034、複合語作成プログラム1035、スコア(重み付け)指定プログラム1036、類似文章検索プログラム1037、出力プログラム1038を備える。又、プログラム部103は、前述の各プログラム以外に、本発明の日本語自由文検索方式を実行するための他のプログラムを適宜備える。
分類化プログラム1031は、サンプル文章DB部300に蓄積された文章を、所定のカテゴリ(大分類・中分類・小分類・細分類)に分類化する。
統合化プログラム1032は、分類化プログラム1031によって分類化された文章のうち、同一のカテゴリー内に属する類似する前記文章を上位化(統合化)して簡素な統合文章を作成する。
形態素解析プログラム1033は、文章の形態素解析を実行する。ここで、形態素とは、文字列をこれ以上に細かくすると意味をなさなくなる最小の文字列(品詞)をいい、形態素解析は日本語検索技術において公知の解析手法である。本発明においては、例えば品詞を予め同義語辞書104に設定しておき、同義語辞書104を参照しながら文章を品詞に分解することにより形態素解析を行うことができる。
形態素解析プログラム1033の解析対象となる文章としては、1)サンプル文章DB部300に蓄積されたもとの文章(原文)、2)統合化プログラム1032により統合化された統合文章と、3)利用者端末から入力された文章の原文、が挙げられる。
なお、本発明において、「原文」とは、統合化される前のもとの文章をいう。
係り受け解析プログラム1034は、形態素解析を基に文節を判定すると共に各文節毎に係り受けを解析する。文節は、日本語において定義される単位であり、自立語、又は自立語とそれに後続する付属語からなる。又、係り受けは、文節間の関係を定義する。文節及び係り受けの判定は日本語検索技術や言語処理(かな漢字変換等)において公知の手法である。
本発明においては、例えば形態素解析によって得られた品詞の種類毎に自立語か付属語かを予め同義語辞書104に設定しておき、これを参照して文節を解析することができる。又、本発明においては、品詞の種類毎に後節に係るか係らないかを予め同義語辞書104に設定しておき、これを参照して文節間の係り受けを解析することができる。
複合語作成プログラム1035は、係り受け解析プログラム1034による解析結果を基に、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する。また、複合語作成プログラム1035は、後述する複合語の簡素化を実行する。
スコア(重み付け)指定プログラム1036は、利用者により文章DB部105から類似文章を検索する際、文章DB部105に記録されている文章データに予めスコア(重み付け)を指定する、これにより、検索結果に優劣を付け、検索の適合性(フィット性)を向上させることができる。
類似文章検索プログラム1037は、利用者が検索システム100にアクセスして検索を行う場合に、文章DB部105を基に検索処理を実行する。
出力プログラム1038は、検索結果を利用者端末200に送信する。
文章DB部105は、複合語作成プログラム1035により作成された複合語を、解析もとの文章に関連付けて記録する。又、必要に応じ、文章DB部105はさらに、統合化プログラム1032によって統合化された統合文、および上記カテゴリを、上記した複合語に関連付けて記録する。
なお、文章DB部105に上記データを記録するタイミングとしては、サンプル文章DB部300から文章データが転送された時点の他、利用者端末200から検索対象となる文章が入力された際に直ちにその文章の複合語を作成することにより動的(リアルタイム)に記録することもできる。
<文章DBへの記録>
次に、本発明のプログラムを実行して行われる文章DBへの記録処理について、図2〜図7を参照して説明する。図2は、文章DBへの記録手順を示すフローチャートである。
図2において、まず、分類化プログラム1031は、サンプル文章DB部102に蓄積されている文章の分類化を実行する(ステップ210)。分類化とは、文章を所定のカテゴリーに分類することをいう。
カテゴリーとしては、例えば図3に示すように「大分類、中分類、小分類及び細分類」のような複数の上位及び下位概念からなるものが挙げられる。例えば、大分類及び中分類は「外来」いうキーワードの集まりとし、小分類及び細分類は「外来」に関する単語、文節、短文又は文章として分類する。
なお、これらの各分類に対応づけられたキーワード、短文又は文章のうち少なくともいずれかは予め同義語辞書104に設定されており、同義語辞書104を参照することにより、入力された文章をカテゴリーに分類し、分類した結果を文章DB部105に記録する。又、例えば、大分類、中分類に対応するキーワードを同義語辞書104に設定しておき、同義語辞書104に基づいて入力された文章を中分類まで分類した後、文章中の文節を小分類や細分類に割当てることによって、小分類や細分類に属する単語や文節等を動的に記録してもよい。
ステップ210を実行した後、統合化プログラム1032は、同一のカテゴリー内に属する類似する前記文章を上位化(統合化)して簡素な統合文章を作成する(ステップ220)。この処理は、例えば図4のようにして行われる。
図4において、同一のカテゴリー(大分類:外来、中分類:病院・医師の選択)に属する文章(原文)A、Bがあるものとする。統合化プログラム1032は、大分類と中分類が一致する原文A,Bを類似する文章と判定し、次に各原文A,Bの形態素解析の結果から、「相談」、「悩む」、「迷った」という品詞を取得する。これらの品詞が出現した場合に対応する模範文「これから治療を受けるためにはどの病院や医師がよいか選択に悩んだ」が予め同義語辞書104に設定されており、これらの品詞が取得されると、統合化プログラム1032は同義語辞書104を参照して模範文を抽出し、統合文として出力する。
次に、形態素解析プログラム1033は、各カテゴリー、統合文章及び原文に対して、形態素解析を実行し、文節を判定する(ステップ230)。次に、係り受け解析プログラム1034は、形態素解析を基に文節を判定すると共に各文節毎に係り受けを解析する(ステップ240)。形態素解析や文節判定については既に説明したとおりであり、公知の形態素解析や文節判定の手法を採用することができる。
例えば、原文が「腰椎と脊椎に骨転移が認められ医師から手術不可能と告げられた。」である場合を例にとり、具体的にこれらの手法を説明する。
まず、形態素解析により原文を品詞に分類すると、図5のようになる。
次に、分類した品詞をさらに自立語と付属語に分類する。ここで、自立語は、文中で単独でも文節を構成できる語であり、例文の「腰椎」、「脊髄」、「骨転移」である。また、付属語は、単独では文節を構成することができず、常に自立語の下について文節の一部として用いられる語であり、例文の「と」、「に」、「が」などである。
このようにして、自立語と付属語に分類することにより、文節を判定することができる。例文では、「腰椎と/脊椎に/骨転移が/認められ/医師から/手術不可能と/告げられた。」の位置(/)で文節に区切られる。
次に、係り受け解析においては、品詞の種類毎に後節に係るか係らないかを同義語辞書104を参照して判定する。例えば、文節「腰椎と」における助詞「と」は後ろの文節に係るものであると設定されているので、文節「腰椎と」(文節番号0)は後節「脊椎に」」(文節番号1)に係ると判定される。又、文節「告げられた。」は句読点を含むので、係り先のないと判定される。このようにして、上記例文を係り受け解析した結果は、図6のようになる。
次に、複合語作成プログラム1035は、係り受け解析プログラム1034による結果に応じて複合語を作成する(ステップ250)。すなわち、複合語作成プログラム1035は、文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する。
上記例文の場合、文節「認められ」は動詞であり、又、文節「告げられた。」は係り先のないため、これらの前の文節を含むグループをそれぞれ複合語1,2として作成することとなる。例えば、複合語1は文節「認められ」を含みそれ以前の文節を包含する4つの文節からなる。
複合語1: 腰椎と 脊椎に 骨転移が 認められ
複合語2: 医師から 手術 不可能と 告げられた。
上記した複合語は、文章中の動詞や係り先のない文節を区切り位置として1以上の文節をグループ化するので、単語の位置や前後関係に基づいた意味内容を反映したグループが得られる。そして、当該グループに含まれる単語から複合語が構成されるので、この複合語をキーとすることにより、検索の精度と柔軟性(あいまい検索)を両立でき、容易に類似文章を検索できる。
つまり、本発明は、文章中の意味内容毎にキーワードをグループ化したものであり、後述するように、利用者が入力した原文中の複合語のうち、すべての複合語を検索キーとするだけでなく、そのうち少なくとも1つを検索キーとする検索も同時に行う場合、検索結果が多様となり、検索の柔軟性(あいまい性)がさらに向上する。
なお、このようにして作成された複合語には、助詞や副詞・接続詞等、検索を複雑にする要素が含まれる。このため、複合語作成プログラム1035は、複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一し、複合語を簡素化することが好ましい(ステップ260)。
削除する品詞としては、感動詞、記号、形容詞−接尾、形容詞−非自立、助詞、助動詞、接続詞、動詞−接尾、副詞、名詞−非自立、名詞−数、名詞−接尾、名詞−代名詞、名詞−副詞可能、連体詞、動詞−非自立、動詞(ある、いる、おる、する、なる、思う)などの品詞又は品詞分類が該当する。上記例文の場合、「認め+られ」の「られ」は動詞であるが接尾語であるため削除する。
又、動詞の活用形を統一する場合としては、例えば「認め」を基本形「認める」に統一することが該当する。
上記例文の場合、簡素化された複合語は、以下のようになる。
複合語1: 腰椎 脊椎 骨 転移 認める
複合語2: 医師 手術 不可能 告げる
以上のようにして、各カテゴリー、統合文章及び原文に対してそれぞれ作成された複合語は、各カテゴリー、統合文章及び原文にそれぞれ関連付けられて文章DB部105に記録される。
次に、スコア(重み付け)指定プログラム1036は、文章DB部105に記録された文章データに含まれる単語のスコア(重み付け)を自動的に決定する(ステップ270)。スコアとしては、文章中での単語の使用頻度に応じた重み付けや、単語の重要度に応じた重み付けがある。
使用頻度に応じた重み付けの決定方法としては、例えばステップ260で簡素化された複合語に含まれる各単語の使用回数をカウントし、各単語の使用頻度に応じて、図7に示すようにスコアを自動的に配点する方法がある。
単語の重要度に応じた重み付けの決定方法としては、例えば重要度が高い特定の単語をカウントし、上記使用頻度によって自動的に配点されたスコアに重要度のカウント分を上書きする方法がある。単語の重要度に応じた方法によれば、特定分野のキーワードのスコア配点を上げ、利用者が希望する分野の検索結果のマッチングを向上させることができる。
<利用者によるDBの利用と検索>
次に、利用者が検索システム100にアクセスして文章DB部105を利用し、検索を行う場合の、本発明のプログラムの実行処理について、図8〜図12を参照して説明する。図8は、検索処理手順を示すフローチャートである。
図8において、まず、利用者端末200から日本語自由文(原文)が入力されると、類似文章検索プログラム1037は形態素解析プログラム1033、係り受け解析プログラム1034、複合語作成プログラム1035を実行させ、図2で説明したような処理手順により、入力された日本語自由文の複合語を作成する(ステップ510)。
次に、類似文章検索プログラム1037は、ステップ510で作成された複合語をキーとして、文章DB部105にこの複合語があるか否かを検索する。ステップ510で作成された複合語が複数個ある場合、この検索は、次の2つの手順で行うことができる。
まず、類似文章検索プログラム1037は、ステップ510で作成された複数個の複合語をすべて含む文章(原文、統合文章)又はカテゴリーが文章DB部105にあるか否かを検索する(全複合語検索;ステップ520)。例えば、複合語1,2を有する原文を利用者が入力した場合、文章DB部105に記録された文章のうち、複合語1,2を有するもののみが検索される。
次に、類似文章検索プログラム1037は、ステップ510で作成された複数個の複合語のうち、少なくとも1つを含む文章(原文、統合文章)又はカテゴリーが文章DB部105にあるか否かを検索する(個別複合語検索;ステップ530)。例えば、複合語1,2を有する原文を利用者が入力した場合、文章DB部105に記録された文章のうち、複合語1のみを有するものや、複合語2のみを有するものも検索される。
ステップ520の処理の概念は図9に示され、この処理は、あいまい検索の全検索度を確保するものである。又、ステップ530の処理の概念は図10に示され、この処理は、あいまい検索の特定度を確保するものである。
次に、類似文章検索プログラム1037は、ステップ520、530で得られた結果にそれぞれスコア(重み付け)を行い、これらを総合したトータルスコアを算出する(ステップ540)。
ステップ540の処理手順は特に限定されないが、例えば、検索キーに対する各複合語の単語一致個数と、一致した単語にそれぞれ付けられたスコア(重み付け)とに基づき、以下の式1〜3で算出される。
まず、式1では、文章DB部に記録されている原文、統合文、カテゴリー(各分類)のそれぞれについて別個に一致スコアを算出する。
一致スコア=(一致単語1のスコア+一致単語2のスコア+…一致単語nのスコア)×一致単語数 (1)
次に、原文、統合文、カテゴリーのそれぞれについて算出した一致スコアを、原文、統合文、カテゴリー毎の重み付けによって再度スコアする。但し、ステップ530に対しては、文章DB部に記録されているカテゴリー(各分類)による検索結果を反映しない。
全複合語検索結果(ステップ520)のスコア=
(各分類一致スコア×各分類の重み)+(統合文一致スコア×統合文の重み)+(原文一致スコア×原文の重み) (2)
個別複合語検索結果(ステップ530)のスコア=
(統合文一致スコア×統合文の重み)+(原文一致スコア×原文の重み) (3)
そして、類似文章検索プログラム1037は、全複合語検索結果のスコア及び個別複合語検索結果のスコアに基づいて、最終的な検索結果としてのトータルスコアを以下の式4により算出する(ステップ540)。
トータルスコア=(全複合語検索スコア×全複合語検索の重み)+(個別複合語検索スコア×個別複合語検索の重み) (4)
以上のように、全複合語検索と個別複合語検索との2通りの検索を行い、それらの結果を合わせ、類似度順位を決定することにより、あいまい検索の精度と柔軟性を確保することができる。つまり、検索のもれがなく、検索結果が多過ぎることもなくなる。
なお、あいまい検索の性能を自動的に調整するため、利用者端末側から、各分類、統合文及び原文のスコア配分をダイナミックに変えられるようにしてもよい。スコア配分が変わることにより、検索性能を利用者が希望するレベルに自動的に調整することが可能となる。
例えば、カテゴリー(各分類)を重視する場合、利用者は、キーワード検索により各分類ごとの検索結果を期待することができる。また、統合文を重視する場合、利用者は、標準検索により統合的な検索結果を期待することができる。また、原文を重視する場合、利用者は、詳細検索により詳細な検索結果を期待することができる。
最後に、出力プログラム1038は、ステップ540で算出された文章のうち、トータルスコアが高い順に出力する(ステップ550)。
<検索結果のスコアの際の重複語句の処理>
次に、上記ステップ520及び530の検索処理において、検索した複合語の中に同一の単語(品詞)が複数個含まれる場合の処理について説明する。
通常、複合語の中に同一の単語が複数個含まれる場合、その単語が用いられた回数に応じてスコアが増加する。例えば、文章DB部に記録された原文が「医師の診察を受け/医者からの風邪と診断されて/医者の処方箋をもらった。」である場合、複合語は3個あるが、各複合語をすべてスコアすると、「医者」という単語が3回用いられている。仮に「医者」という単語に30点のスコアがあると、利用者が入力した日本語自由文に「医者」という単語があるだけで、これに該当する上記原文のスコアは30点×3回(一致回数)=90点となる。しかしながら、このような場合、他の単語と「医者」との重み付けの関係が失われ、検索がうまく行われなくなることがある。
そこで、1つの文章中に同一単語が何度出現しても、1回分しかスコアをカウントしないように処理し、スコアを補正することができる。又、上記原文において、「医者」に対する本来のスコア30点を出現回数(3回)で割り、スコア10点を3回カウントしてもよい。
<実施例>
以下、本発明による検索の一例を示す。
(1)文章データベースの文章の分類化と文章の統合化
(文章例1)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文1:再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
統合文1:毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(文章例2)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文2 :抗がん剤治療の副作用と通院が大変だった。
統合文2:抗がん剤治療の副作用と通院が大変だった。
(文章例3)
大分類:症状・副作用・後遺症
中分類:治療による副作用・後遺症
小分類:抗がん剤による副作用の症状
細分類:抗がん剤による脱毛
原文3 :通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
統合文3:通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(2)文章データベースの形態素解析
例文)外来での抗がん剤治療がつらい。
上記例文を形態素解析した結果を図11に示す。
(3)文章データベースの係り受け解析
例文)外来での抗がん剤治療がつらい。
上記例文を係り受け解析した結果を図12に示す。
(4)文章データベースの簡素化複合語作成
例文1)外来での抗がん剤治療がつらい。
(簡素化複合語作成)
複合語1 外来 抗がん剤 治療 つらい
例文2)再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(簡素化複合語作成)
複合語1 再発 温存 手術 選択 悩む
複合語2 抗がん剤 治療 外来 行う
複合語3 体 負担 かかる
例文3)毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(簡素化複合語作成)
複合語1 抗がん剤 治療 外来 行う
複合語2 体 負担 かかる
例文4)抗がん剤治療の副作用と通院が大変だった。
(簡素化複合語作成)
複合語1 抗がん剤 治療 副作用 通院 大変
例文5)通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
(簡素化複合語作成)
複合語1 通院 抗がん剤 治療 悩む
複合語2 いう つらい
複合語3 病院 同病 人々 話す
複合語4 できる
複合語5 全身 毛 抜ける
複合語6 ショック 生える
複合語7 不安 わかる
例文6)通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(簡素化複合語作成)
複合語1 通院 抗がん剤 治療 つらい
複合語2 入院 同病 人 話す
複合語3 できる
複合語4 全身 毛 抜ける
複合語5 ショック 生える
複合語6 不安 わかる
(5)単語のスコアの自動決定例
外来 使用頻度 81回 スコア 40
抗がん剤 使用頻度 2575回 スコア 40(特定語)
治療 使用頻度 109回 スコア 30
つらい 使用頻度 410回 スコア 30
(6)利用者が入力した日本語自由文の複合語作成
例文)抗がん剤治療を通院で行っているので、通院や待ち時間、治療の副作用などで体に負担がかかり、つらい。
(簡素化複合語作成)
複合語1 抗がん剤 治療 通院 行う
複合語2 通院 待ち時間 治療 副作用 体 負担 かかる
複合語3 つらい
(7)利用者が入力した日本語自由文の全複合語による検索
(6)に示した全複合語(抗がん剤、治療、通院、行う、通院、待ち時間、治療、副作用、体、負担、かかる、つらい)で検索する。
(8)利用者が入力した日本語自由文の個別複合語による検索
(6)に示した各複合語ごとにそれぞれ別個検索する。
複合語1 抗がん剤 治療 通院 行う
複合語2 通院 待ち時間 治療 副作用 体 負担 かかる
複合語3 つらい
(9)全複合語検索と個別複合語検索のスコアからトータルスコアを算出し順位付けする例
但し、各々の重みや単語スコアを調整するため、スコアの点数は流動的である。
(利用者が入力した日本語自由文)
抗がん剤治療を通院で行っているので、通院や待ち時間、治療の副作用などで体に負担がかかり、つらい。
(検索1位 トータルスコア:6655)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:2430 原文スコア:1475 統合文スコア:2750)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文 :再発したときは温存手術を選択したからかと悩み、毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
統合文:毎週の抗がん剤治療は外来で行われるので体に負担がかかる。
(検索2位 トータルスコア:6200)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:410 原文スコア:950 統合文スコア:4840)
大分類:症状・副作用・後遺症
中分類:治療による副作用・後遺症
小分類:抗がん剤による副作用の症状
細分類:抗がん剤による脱毛
原文 :通院による抗がん剤治療が悩むというよりつらかった。病院にいれば同病の人々と話すこともできるが、全身の毛が抜けた時にはショックだったし、その後生えてくるか不安だった。この不安を誰にわかってもらえるのかと思った。
統合文:通院による抗がん剤治療がつらかった。入院していれば同病の人たちと話すこともできるが、全身の毛が抜けた時のショックやその後生えてくるのかという不安を、誰にわかってもらえるのかと思った。
(検索3位 トータルスコア:4970)
全複合語検索スコア+個別複合語検索スコア
(分類スコア:2430 原文スコア:900 統合文スコア:1640)
大分類:外来
中分類:外来受診
小分類:外来治療
細分類:外来での抗がん剤治療がつらい。
原文2 :抗がん剤治療の副作用と通院が大変だった。
統合文2:抗がん剤治療の副作用と通院が大変だった。
本発明の類似文章検索プログラムをコンピュータ上で実行するための検索システムを示すブロック図である。 文章DBへの記録手順を示すフローチャートである。 カテゴリー(各分類)を例示した図である。 統合文章を作成する処理の一例を示した図である。 形態素解析により原文を品詞に分類する一例を示した図である。 例文を係り受け解析する一例を示した図である。 検索された文章中の単語を使用頻度に応じて重み付けする一例を示した図である。 検索処理手順を示すフローチャートである。 ステップ520の処理による全複合語検索の概念を示した図である。 ステップ530の処理による個別複合語検索の概念を示した図である。 形態素解析により原文を品詞に分類する別の一例を示した図である。 例文を係り受け解析する別の一例を示した図である。
符号の説明
100…検索システム
101…プロセッサ
103…プログラム格納部
104…同義語辞書
105…文章DB部
200…利用者端末
300…サンプル文章DB部
400…ネットワーク
1031…分類化プログラム
1032…統合化プログラム
1033…形態素解析プログラム
1034…係り受け解析プログラム
1035…複合語作成プログラム
1036…スコア(重み付け)指定プログラム
1037…類似文章検索プログラム
1038…出力プログラム

Claims (6)

  1. 入力された文章に類似する文章を検索する処理を実行するコンピュータプログラムであって、
    前記入力された文章を形態素解析して文節を判定すると共に各文節毎に係り受けを解析する解析過程と、
    前記文節を出現順に並べ、動詞又は係り先のない文節が出現した場合に、当該動詞又は文節を含みそれ以前のすべての文節をグループとする複合語を作成する複合語作成過程と、
    前記入力された文章に前記複合語を関連付けて文章データベースに記録する文章データベース記録過程と、
    新たに任意の原文が入力された場合に、前記解析過程と前記複合語作成過程とを実行し、前記原文に対して得られた複合語をキーとして、前記文章データベースから前記キーとなる複合語を含む文章を検索する類似文章検索過程と、
    前記検索された文章を出力する出力過程と
    を有することを特徴とする類似文章検索プログラム。
  2. 請求項1に記載の類似文章検索プログラムにおいて、
    前記複合語作成過程において、前記複合語に含まれる品詞のうち、所定の品詞を削除し及び/又は動詞の活用形を統一することを特徴とする類似文章検索プログラム。
  3. 請求項1又は2に記載の類似文章検索プログラムにおいて
    前記原文の複合語が複数個ある場合に、前記類似文章検索過程において、前記原文の複合語のすべてを持つ第1の文章と、前記原文の複合語のうち少なくとも1つを持つ第2の文章とを前記文章データベースからそれぞれ検索し、前記第1及び第2の文章とに所定の重み付けを付与することを特徴とする類似文章検索プログラム。
  4. 請求項1から3のいずれか一項に記載の類似文章検索プログラムにおいて、
    前記入力された文章を所定のカテゴリーに分類し、同一のカテゴリー内に属する類似する前記文章を上位化した統合文章を作成する統合文章作成過程と、
    得られた統合文章に対し、前記解析過程及び前記複合語作成過程とを実行して得られた複合語を、前記統合文章に関連付けて文章データベースに記録することを特徴とする統合文章管理過程とをさらに有し、
    前記類似文章検索過程において、前記原文から得られた複合語をキーとして、前記文章データベースに記録された前記統合文章を検索することを特徴とする類似文章検索プログラム。
  5. 請求項1から4のいずれか一項に記載の類似文章検索プログラムにおいて、
    前記類似文章検索過程において、前記複合語に含まれる品詞に割当てられた重み付けに応じて検索結果に順位付けをすることを特徴とする類似文章検索プログラム。
  6. 請求項4又は5に記載の類似文章検索プログラムにおいて、
    前記類似文章検索過程において、前記カテゴリーに割当てられた重み付けに応じて検索結果に順位付けをすることを特徴とする類似文章検索プログラム。
JP2007046926A 2007-02-27 2007-02-27 類似文章検索プログラム Expired - Fee Related JP4838743B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007046926A JP4838743B2 (ja) 2007-02-27 2007-02-27 類似文章検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007046926A JP4838743B2 (ja) 2007-02-27 2007-02-27 類似文章検索プログラム

Publications (2)

Publication Number Publication Date
JP2008210206A true JP2008210206A (ja) 2008-09-11
JP4838743B2 JP4838743B2 (ja) 2011-12-14

Family

ID=39786440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007046926A Expired - Fee Related JP4838743B2 (ja) 2007-02-27 2007-02-27 類似文章検索プログラム

Country Status (1)

Country Link
JP (1) JP4838743B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010150910A1 (ja) 2009-06-26 2010-12-29 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JP2016009297A (ja) * 2014-06-24 2016-01-18 帝国商事株式会社 店舗信託システム
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
US10474758B2 (en) 2017-06-21 2019-11-12 Samsung Electronics Co., Ltd. Method and apparatus for machine translation using neural network and method of training the apparatus
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム
US11574190B2 (en) 2019-10-15 2023-02-07 Samsung Electronics Co., Ltd. Method and apparatus for determining output token
US11694677B2 (en) 2019-07-31 2023-07-04 Samsung Electronics Co., Ltd. Decoding method and apparatus in artificial neural network for speech recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732661B2 (ja) * 1989-04-28 1998-03-30 日本電信電話株式会社 テキスト型データベース装置
JP2002163291A (ja) * 2000-11-29 2002-06-07 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2732661B2 (ja) * 1989-04-28 1998-03-30 日本電信電話株式会社 テキスト型データベース装置
JP2002163291A (ja) * 2000-11-29 2002-06-07 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010150910A1 (ja) 2009-06-26 2010-12-29 楽天株式会社 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
US8296319B2 (en) 2009-06-26 2012-10-23 Rakuten, Inc. Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded
JP2016009297A (ja) * 2014-06-24 2016-01-18 帝国商事株式会社 店舗信託システム
US9436676B1 (en) 2014-11-25 2016-09-06 Truthful Speaking, Inc. Written word refinement system and method
US10474758B2 (en) 2017-06-21 2019-11-12 Samsung Electronics Co., Ltd. Method and apparatus for machine translation using neural network and method of training the apparatus
JP2021022252A (ja) * 2019-07-30 2021-02-18 株式会社ウェブサークル 類似文章検索装置およびプログラム
US11694677B2 (en) 2019-07-31 2023-07-04 Samsung Electronics Co., Ltd. Decoding method and apparatus in artificial neural network for speech recognition
US11574190B2 (en) 2019-10-15 2023-02-07 Samsung Electronics Co., Ltd. Method and apparatus for determining output token

Also Published As

Publication number Publication date
JP4838743B2 (ja) 2011-12-14

Similar Documents

Publication Publication Date Title
US9558264B2 (en) Identifying and displaying relationships between candidate answers
Demner-Fushman et al. Answering clinical questions with knowledge-based and statistical techniques
US7548910B1 (en) System and method for retrieving scenario-specific documents
Palmer et al. The proposition bank: An annotated corpus of semantic roles
Palotti et al. How users search and what they search for in the medical domain: understanding laypeople and experts through query logs
JP4838743B2 (ja) 類似文章検索プログラム
US9678941B2 (en) Domain-specific computational lexicon formation
Nakov et al. Semantic interpretation of noun compounds using verbal and other paraphrases
Sarkar A hybrid approach to extract keyphrases from medical documents
Alami et al. Arabic text summarization based on graph theory
Liu et al. A genetic algorithm enabled ensemble for unsupervised medical term extraction from clinical letters
Reeve et al. Concept frequency distribution in biomedical text summarization
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
Palotti et al. Exploiting health related features to infer user expertise in the medical domain
Soualmia et al. Combining different standards and different approaches for health information retrieval in a quality-controlled gateway
Harkema et al. Information extraction from clinical records
Zweigenbaum et al. The contribution of morphological knowledge to French MeSH mapping for information retrieval.
Morato et al. Experiments in discourse analysis impact on information classification and retrieval algorithms
Lang et al. Increasing UMLS Coverage and Reducing Ambiguity via Automated Creation of Synonymous Terms: First Steps toward Filling UMLS Synonymy Gaps
Markó et al. Interlingual Indexing across Different Languages.
Cohen Towards Understanding of Medical Hebrew
Riedl et al. Using semantics for granularities of tokenization
Santini et al. Designing an extensible domain-specific web corpus for “layfication”: A case study in ecare at home
Andrenucci Automated Question-Answering Techniques and the Medical Domain.
Rosario Extraction of semantic relations from bioscience text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees