JP2007156932A

JP2007156932A - 学習方法、学習装置、および検索方法、検索装置

Info

Publication number: JP2007156932A
Application number: JP2005352758A
Authority: JP
Inventors: Hiroki Tanioka; 広樹谷岡; Kayoko Tonoi; 加代子殿井; Daisuke Motohashi; 大輔本橋
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2005-12-06
Filing date: 2005-12-06
Publication date: 2007-06-21

Abstract

【課題】検索クエリの語句に基づいた検索を効率良く行う。
【解決手段】単語分割部５２は、検索クエリの語句を単語毎に分割する。素性取得部５４は、各単語について、注目単語の直前と直後の自立語を含む素性を抽出して素性ベクトルを得る。重要単語抽出部６０は、これらの素性ベクトルに基づいて、重要単語についてタグが付与されており、サンプルデータの語句の各単語の素性とからなる学習データを参照しながら、学習ＳＶＭ（サポート・ベクトル・マシン）手法を用いて、検索クエリの語句から重要な単語を抽出する。検索実行部６４は、抽出した重要な単語のみを用いて検索する。
【選択図】図２

Description

本発明は、機械学習手法を用いた学習技術および検索技術に関する。

機械学習は、さまざまな分野で利用されている。機械学習では、学習データを入力とし、統計処理手法を用いることによって、データの特徴を説明するための規則を出力する。機械学習において、たとえば特許文献１に記載したように、「教師あり学習」と呼ばれる手法があり、この手法により、人間が期待する解を機械に与え、その解に至るように学習のパラメータを調整する。教師あり学習の手法では、学習データ中の各データに、データの評価があらかじめ人手によって付与されている。学習データ中の各データの特徴（「素性」とも呼ぶ）とその評価の間の対応関係を学習することによって、非学習データが与えられたときにその評価をすることができる。

たとえば、文章テキストの中の語句から、所望の単語種に属する単語を目的単語として抽出する分野において、教師あり学習の手法が用いられる。具体的には、学習データとなる語句に含まれる各単語の素性を求めるとともに、これらの単語のうち、目的単語に該当する単語にあらかじめタグと呼ばれる識別子を与えることによって評価しておく。そして、各単語の素性と、その単語に対する評価（目的単語であるか否か）との対応関係について学習し、語句に含まれる目的単語の抽出規則を得る。そして、この抽出規則に基づいて、非学習データとなる語句から目的単語を抽出する。

ここで、いかなる素性を用いるかによって、抽出規則を得るための学習、ひいては学習により得られた抽出規則を用いた抽出処理の計算量および結果が異なり、工夫が要求される。

また、検索の分野において、検索クエリとして入力された語句に基づいて、この語句に含まれた単語と一致する単語を有する文章を検索することが行われている。その際、検索クエリの語句に、その検索クエリの語句の全体的な意味合いに特に関係のない一般的な単語が含まれていると、これらの単語もキーワードとして用いる場合、ユーザが所望する文書が検索結果に含まれなかったり、検索クエリの語句と関係性の低い文章がヒットしたりするなど、検索の効率が良くないという問題がある。
特開２００５−１８１９２８号公報

本発明は上記事情に鑑みてなされたものであり、その第１の目的は、機械学習手法を用いて、語句から目的単語を抽出するための抽出規則の学習方法を工夫し、この抽出規則を用いた抽出処理を効率良く行えるようにすることにあり、その第２の目的は、検索クエリの語句に基づいた検索を効率よくできるようにするところにある。

本発明のある態様は、学習装置に関する。この装置は、語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習装置であって、単語分割部と、単語素性取得部と、学習部とを備える。単語分割部は、学習対象の語句を単語ごとに分割し、各単語の素性を取得する単語素性取得部は、注目単語の直前および／または直後の自立語に関する情報を含む素性を取得し、学習部は、目的単語に該当する単語に対して識別子たとえばタグが付与された各単語と、各単語の素性とを学習データとして学習する。

ここで、「自立語」とは、単独で文節を構成できる単語を意味し、たとえば名詞、動詞などとすることができる。

本発明の別の態様は、検索装置に関する。この装置は、検索クエリの語句を単語ごとに分割する検索単語分割部と、検索において重要とされる重要単語を抽出するための素性を、検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、機械学習手法によって、学習対象の語句に含まれた各単語の素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、重要単語抽出部により抽出された重要単語について、他の単語より重みを強くして検索を実行する検索実行部とを備える。

本発明のさらなる別の態様も、検索装置に関する。この装置は、検索クエリの語句を単語ごとに分割する検索単語分割部と、検索において重要とされる重要単語を抽出するための素性を、検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、機械学習手法によって、学習対象の語句に含まれた各単語の素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、重要単語抽出部により抽出された重要単語のみを用いて検索を実行する検索実行部とを備える。

本発明の検索装置において、重要単語抽出部は、本発明の別の態様となる学習装置により、重要単語を目的単語として得られた抽出規則を用いるようにしてもよい。

なお、本発明の表現を方法、装置、システム、プログラムを記憶した記憶媒体、プログラムなどの間で変換したものも、本発明の態様としては有効である。

本発明の学習技術によれば、目的単語を抽出するための抽出規則を得るために、目的単語の特徴を表す素性として、単語の直前および／または自立語を含む素性を用いることによって、学習により得られた抽出規則を用いた抽出処理の計算量を軽減する点、または抽出の精度向上において有利である。

本発明の検索技術によれば、機械学習の手法を用いて、検索クエリの語句から重要な単語を抽出し、重要な単語のみを用いて検索を行う、または重要な単語について、他の単語より重みを強くして検索を行うことによって、効率の良い検索を実現することができる。

図１は、本発明の実施の形態となる検索装置の構成を示すブロック図である。この検索装置は、入力部１０、検索部５０、データベース７０を備える。なお、ここで、検索装置は、コンピュータなどの情報機器であり、図１では、検索処理に関わる要素のみを示し、情報機器が一般に備える要素については省略している。

入力部１０は、ユーザが検索クエリなどを入力するためのデバイスであり、たとえばキーボードやマウス、タッチパネルなどとすることができる。データベース７０は、検索部５０に供する学習データ（その詳細については後述する）を保持している。検索部５０は、データベース７０に保持された学習データを用いて、入力部１０を介してユーザが入力した検索クエリに基づいて検索を行う。

検索部５０は、図示しないインターネットなどによりネットワーク上の検索リソースに接続しており、これらの検索リソースから検索を行う。

図２は、検索部５０の構成を示すブロック図である。検索部５０は、機械学習手法を利用して、入力部１０を介してユーザが入力した検索クエリから、検索において重要な単語を抽出し、抽出した重要単語を用いて検索を行う。ここで、例として、検索部５０はサポートベクターマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ。以下ＳＶＭという）手法を用いる。

図２に示すように、検索部５０は、単語分割部５２、素性取得部５４、重要単語抽出部６０、検索実行部６４を備える。図２に示す構成は、検索を行うプログラムをコンピュータ上で実行することにより実現される。このプログラムは、ＣＤ−ＲＯＭなどの記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされる。

単語分割部５２は、入力部１０を介してユーザが入力した検索クエリとなる語句を、単語毎に分割する。ここで、単語分割部５２は、たとえば形態素解析手法によって、単語の分割を行う。

図３に示す例のように、検索クエリとなる語句「・・・の凹所にセンサ用素子を接合し、・・・を特徴とするセンサ装置。」は、単語分割部５２により、・・・、「凹」、「所」、「に」、「センサ」、「用」、「素子」、「を」、・・・などの単語に分割される。

素性取得部５４は、単語分割部５２により取得された各単語の素性を取得する。ここで、「素性」は、検索部５０の重要単語抽出部６０により、検索クエリから重要単語を抽出する際に用いる単語の特徴である。

図４は、本実施の形態において、図３に示す検索クエリを例とした場合に用いる単語の素性の一部を示す。またここで、注目単語の例として、「センサ」を用いる。

図示のように、語句「・・・の凹所にセンサ用素子・・・」における注目単語「センサ」について、その素性は、直前の単語「に」、直後の単語「用」、直前の自立語「所」、直後の自立語「用」を含む。

図４に示す素性の他に、注目単語自身、品詞、あるいは「漢字」や、「ひらがな」などのような文字種も素性として用いてもよい。

素性取得部５４は、単語分割部５２により得られた各単語に対して、図４に示す素性を取得する。

素性取得部５４は、このように得られた各素性を用いて、単語毎にこれらの要素を要素とするベクトル（以下素性ベクトルという）を、重要単語抽出部６０に出力する。

重要単語抽出部６０は、素性取得部５４により得られた各単語の素性、具体的には素性ベクトルを用いて、データベース７０に保持された学習データを学習しながら、検索クエリに含まれる各単語から、重要な単語を抽出する。ここで、重要単語抽出部６０の詳細について説明する前に、データベース７０に保持された学習データについて説明する。

データベース７０に保持された学習データは、多数のサンプルデータに対して、図５のフローチャートに示す処理を施して得たものである。

ここで、サンプルデータは、様々な語句となる。各語句に対して、図５に示す処理がそれぞれ施される（Ｓ１０）。まず、語句は、単語毎に分割される。単語の分割に用いる手法は、たとえば形態素解析である。

分割された各単語に対して、その素性が取得される（Ｓ１２）。ここで、単語の素性は、検索部５０の素性取得部５４により取得する素性と同じであり、図４に示す各々の要素を含む。また、単語毎に、各々の素性によってこの単語の素性ベクトルが構成される。

本実施の形態では、「教師あり学習」手法の一つであるＳＶＭ手法を用いるので、ここで、人手によって各語句に含まれた重要な単語が指定される。指定された単語は、識別子となるタグが付与される（Ｓ１４）。

このような処理の結果、単語の素性ベクトルが得られ、重要な単語についてはタグが付与される。すなわち、一つの単語ｔについて、ｎ次元（ｎ：素性の個数）の素性ベクトルｘ_ｔと、この単語が重要単語なのか否かを示す正・負のラベルｙ_ｔのペア（ｘ_ｔ，ｙ_ｔ）が得られ、このペアは、１つの事例となる。

サンプルデータに対して得られた各事例は、学習データとしてデータベース７０に保持される。

重要単語抽出部６０の説明に戻る。前述したように、本実施の形態において、重要単語抽出部６０は、ＳＶＭの手法を用いて重要な単語を抽出するものである。ＳＶＭは、正・負例を正しく分離する超平面ｗ・ｘ＋ｂ，（ｗ，ｘ∈Ｒ^ｎ）を求める二値線形分類器である。ここでその概要について説明する。図６において、破線は求める分離超平面に平行で等距離にある超平面で、その間の距離をマージン（ｍａｒｇｉｎ）と呼ぶ。ＳＶＭは、正・負例を正しく分離する数多くの超平面の中から、マージンが最大となる分離超平面を求めるアルゴリズである。マージンの最大化‖ｗ‖最小化であり、これは式（１）を式（２）の条件で最大化する双対問題と等価であることが知られている。

Ｋ（ａ，ｂ）＝Φ（ａ）・Φ（ｂ）（３）
ここで式（１）のＫ（ｘｉ，ｙｉ）をＫｅｒｎｅｌ関数と呼び、式（３）で示す２つのベクトルａ，ｂ∈Ｒ^ｎを関数Φ（ｘ）で写像した空間での内積を表す。最終的に未知の事例に対する正・負の分類は、超平面からの位置（式（４）の関数値が正ならば正例、負であれば負例）により決定される。

重要単語抽出部６０は、このようなＳＶＭを用いて、データベース７０に保持された各事例と、検索クエリの語句の各単語に対して、素性取得部５４により得られた素性ベクトルとを用いて、検索クエリの語句の各単語のうちの重要な単語を抽出して、検索実行部６４に供する。

検索実行部６４は、重要単語抽出部６０により得られた重要な単語のみを用いて検索を実行する。

図７は、図１に示す実施の形態の検索装置において行われる処理の過程を示すフローチャートである。検索部５０は、ユーザが入力した検索クエリの語句に基づいて検索を行うのにあたり、まず、単語分割部５２により、検索クエリの語句を単語ごとに分割する（Ｓ１００）。素性取得部５４は、各単語に対してその素性を取得し、素性ベクトルを得る（Ｓ１０２）。重要単語抽出部６０は、ステップＳ１０２において得られた各々の素性ベクトルに基づいて、データベース７０に保持された学習データを参照しながら、ＳＶＭの手法で検索クエリの各単語から重要な単語を抽出する（Ｓ１０４）。検索実行部６４は、ステップＳ１０４において得られた重要な単語のみを用いて検索を行い、検索の結果を図示しないモニタなどの表示装置に表示してユーザに供する（Ｓ１０６）。

このように、図１に示す実施の形態の検索装置は、注目単語の直前および直後の自立語も、重要な単語を抽出する際の素性として用いる。こうすることによって、助詞や、助動詞など、自立語以外の非自立語が多い語句から重要な単語を抽出する際において、注目単語の前後の単語を素性として使ったとしても、注目単語の前後の単語がすべて非自立語となってしまう可能性があるため、抽出の精度が欠けてしまうという問題を解決することができる。

また、図１に示す実施の形態の検索装置は、検索クエリの語句に含まれるすべての単語ではなく、その中の重要な単語を抽出して、重要な単語のみを用いて検索を行っているので、不必要な文書を検索結果から減らし、本来検索結果として必要とされる文章のヒット率を相対的に向上させることができる。

さらに、重要な単語のみを用いて検索しているので、処理する単語の数が減り、処理速度が向上する効果も得ることができる。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

たとえば、本実施例は、検索装置であるが、本発明における重要単語の抽出手法ならびにそのための学習手法は、検索の分野に限らず、語句から目的とされる単語を抽出する際に用いられるいかなる機械学習にも適用することができる。

また、機械学習の手法としても、ＳＶＭに限らず、ニューラル・ネットワークなどのいかなる手法を用いてもよい。

また、本発明にかかる検索装置は、機械学習の手法により抽出した重要単語について、他の単語より強い重みをつけて検索を行うものであり、本実施例においては、重要単語抽出部６０は、検索クエリの語句から抽出された重要な単語のみを用いて検索を実行するようにしている。これは、たとえば検索における単語の重みが「０」と「１」の範囲内とした場合に、重要な単語に対して「１」の重み、他のすべての単語に対して「０」の重みをつけて検索を実行することに相当する。機械学習の手法によって重要単語を抽出し、抽出された重要な単語について「０．８」の重み、他の単語についてこれより小さいたとえば「０．２」の重みをつけて検索を行うようにしてもよい。さらに、機械学習の手法により得られた単語を最も重要な単語とし、他の手法たとえば名詞、動詞などの品詞を抽出する手法により得られた単語を次に重要な単語とするようにして、最も重要な単語については最も強い重み、次に重要な単語についてはこの重みより弱い重みをつけて検索するようにしてもよい。この場合、いかなる手法によっても抽出されなかった単語については、その重みを最も弱くすればよい。なお、この「最も弱い重み」は、「０」を含み、すなわち、これらの単語を、検索に使用しないようにしてもよい。

本発明の実施の形態にかかる検索装置の構成を示すブロック図である。図１に示す検索装置における検索部の構成を示すブロック図である。単語の分割の例を示す図である。単語の素性の一部を例示する図である。図１に示す検索装置におけるデータベースに保持された学習データを得るための処理を説明するためのフローチャートである。ＳＶＭを説明するための図である。図１に示す検索装置による検索処理の過程を示すフローチャートである。

符号の説明

１０入力部、５０検索部、５２単語分割部、５４素性取得部、６０重要単語抽出部、６４検索実行部、７０データベース。

Claims

語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習装置であって、
学習対象の語句を単語ごとに分割する単語分割部と、
該単語分割部により得られた各単語の素性を取得する単語素性取得部と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する学習部とを備え、
前記単語素性取得部は、注目単語の直前および／または直後の自立語に関する情報を含む前記素性を取得することを特徴とする学習装置。
検索クエリの語句を単語ごとに分割する検索単語分割部と、
検索において重要とされる重要単語を抽出するための素性を、前記検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、
重要単語抽出部により抽出された重要単語について、他の単語より重みを強くして検索を実行する検索実行部とを備えることを特徴とする検索装置。
検索クエリの語句を単語ごとに分割する検索単語分割部と、
検索において重要とされる重要単語を抽出するための素性を、前記検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、
重要単語抽出部により抽出された重要単語のみを用いて検索を実行する検索実行部とを備えることを特徴とする検索装置。
前記重要単語抽出部は、請求項１に記載の学習装置により、前記重要単語を目的単語として得られた抽出規則を用いることを特徴とする請求項２または３に記載の検索装置。
語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習方法において、
学習対象の語句を単語ごとに分割する手順と、
該分割により得られた各単語に対して、注目単語の直前および／または直後の自立語に関する情報を含む素性を取得する手順と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する手順とを有することを特徴とする学習方法。
検索クエリの語句を単語ごとに分割する手順と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する手順と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する手順と、
抽出された重要単語について、他の単語より重みを強くして検索を実行する手順とを有することを特徴とする検索方法。
検索クエリの語句を単語ごとに分割する手順と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する手順と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する手順と、
抽出された重要単語のみを用いて検索を実行する手順とを有することを特徴とする検索方法。
請求項５に記載の学習方法により、前記重要単語を目的単語として得られた抽出規則を用いて重要単語を抽出することを特徴とする請求項６または７に記載の検索方法。
語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する処理をコンピュータに実行せしめるプログラムであって、
該プログラムは、学習対象の語句を単語ごとに分割する処理と、
該分割により得られた各単語に対して、注目単語の直前および／または直後の自立語に関する情報を含む素性を取得する処理と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する処理とをコンピュータに実行せしめることを特徴とするプログラム。
検索クエリの語句を単語ごとに分割する処理と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する処理と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する処理と、
抽出された重要単語について、他の単語より重みを強くして検索を実行する処理とをコンピュータに実行せしめることを特徴とするプログラム。
検索クエリの語句を単語ごとに分割する処理と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する処理と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する処理と、
抽出された重要単語のみを用いて検索を実行する処理とをコンピュータに実行せしめることを特徴とするプログラム。
前記重要単語を抽出する処理は、請求項９に記載のプログラムにより実行せしめられる処理において、前記重要単語を目的単語として得られた抽出規則を用いることを特徴とする請求項１０または１１に記載のプログラム。