JP5295818B2

JP5295818B2 - 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Info

Publication number: JP5295818B2
Application number: JP2009039999A
Authority: JP
Inventors: 理紀夫尾内; 貴宏林; ファムタンタオグェン; 正弥森; 孝真竹中; 悠平西岡
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2009-02-23
Filing date: 2009-02-23
Publication date: 2013-09-18
Anticipated expiration: 2029-02-23
Also published as: JP2010198141A

Description

本発明は、文書中からの有用な情報の抽出に使用されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラムの技術分野に関する。

近年、インターネット上で取り扱われる製品又はサービスが増加しつつあり、これら商品等に対して消費者がどのように評価をしているかを推測等するため、インターネット上におけるユーザレビューサイトやお客様アンケートや個人ブログ（Blog）内の意見等の文書から、商品等に対する評価情報を抽出する必要性が増加してきている。

一般に、文書から必要な情報を抽出する際、文書中の文を解析する必要があり、文を解析する上で、文書中に共に出現する共起データを格納した共起辞書を使用して解析することが行われている。例えば、特許文献１には、共起関係にある係り側文節と受け側文節とから、係り側文節の自立語の品詞情報と、係り側文節の付属語情報と、受け側文節の自立語の品詞情報と、受け側文節の付属語情報と、係り側文節と上記受け側文節との係り受け関係の情報と、係り側文節と受け側文節との連続性の情報と、係り側文節と受け側文節との組み合せの統計的な出現頻度の情報とを１つのレコードに収容すると共に、複数種類の係り側文節と受け側文節間の共起関係の情報を複数のレコードに収容し、これらの複数のレコードを記憶回路に記憶する構成である共起辞書装置が開示されている。

特開平８−３２９０９０号公報

しかしながら、上記従来技術では、ブログ内の意見等における評価情報の抽出等に適用した場合、自立語そのものを辞書に記憶するのではなく、その自立語の品詞に置き替えて情報を縮約しているため、例えば、“おいしい”“うれしい”といった評価の情報が失われてしまう。

また、文書中の評価情報を利用する場合、抽出した評価情報や評価対象（評価された対象）を整理して分類することにより、評価情報を活用しやすい形にしておくことも重要である。さらに評価情報を活用上、分類精度を向上させる必要がある。

本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、文書中の情報を的確に分類するように、文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラムを提供することを目的とする。

上記課題を解決するために、請求項１に記載の発明は、語句を分類するためのカテゴリを設定するカテゴリ設定手段と、前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段と、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段と、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段と、前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段とを備えたこと特徴とする。

よって、共起語句に関連した語句を成長や拡張させ、当該語句を同一カテゴリに的確に集めることができ、カテゴリ分類された語句の集合を説明する評価情報として共起語句を活用できるため、文書中の情報を評価情報として活用できるカテゴリに的確に分類できる。

例えば、基準語句が名詞句で、共起語句が形容詞や動詞の場合、基準語句の名詞句がどのように形容がされているか、どのような動詞と関連しているかを把握しやすいため、評価が判断しやすく、評価情報として活用しやすい。

また、分類された語句を配属スコアの順にランク付けもすることができ、分類された語句の集合の中で、どのような語句が特に評価対象になっているかが分かる。

また、カテゴリ分類は、学習が不要であるため、取り扱いが容易である。また、少ない初期基準語句から順次基準語句を増やすことにより、少ない初期基準語句を予め設定するだけで、語句を精度よくカテゴリに分類できる。

また上記の課題を解決するために、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定するカテゴリ設定手段と、前記目的カテゴリまたは前記非目的カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、前記初期基準語句と前記共起語句を前記目的カテゴリまたは前記非目的カテゴリに関連付けてデータベースに記憶する第一記憶手段と、前記文書から前記目的カテゴリまたは前記非目的カテゴリへの配属候補となる語句を抽出する語句抽出手段と、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、前記配属スコアに基づき前記配属候補語句を前記目的カテゴリまたは前記非目的カテゴリに配属を決定する配属決定手段と、前記配属決定手段によって前記目的カテゴリまたは前記非目的カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段と、を備えたこと特徴とする。

この場合、さらに、分類の目的と異なる非目的カテゴリがあるため、非目的カテゴリとの関連性が高い語句は非目的カテゴリに的確に配属されるため、誤って目的カテゴリに配属されることを防止できる。すなわち、ノイズに対して頑健であり、分類精度がさらに向上する。

請求項２に記載の発明は請求項１に記載のデータベースの作成装置において、前記カテゴリ設定手段が、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定することを特徴とする。

請求項３に記載の発明は、請求項１または請求項２に記載のデータベースの作成装置において、外部から前記基準語句の入力を受け付ける入力手段を更に備えたことを特徴とする。この場合、ユーザが基準語句を入力するだけで、容易にカテゴリ分類ができる。

請求項４に記載の発明は、請求項１から請求項３のいずれか１項に記載のデータベースの作成装置において、前記基準語句と前記共起語句との関連の強さを示す重み係数を算出する重み係数算出手段を更に有し、前記重み係数に基づき前記配属スコアを算出することを特徴とする。

この場合、各カテゴリの語句の集合と関連性が高い共起語句に重きを置いて分類するため、さらに分類精度が向上する。

請求項５に記載の発明は、請求項４に記載のデータベースの作成装置において、前記配属候補語句を前記カテゴリの前記基準語句に加えた際に、前記重み係数を更新する重み係数更新手段を更に有することを特徴とする。

この場合、基準語句が増加した新たな基準語句の集合の下で新たに重み係数を計算し直し、配属スコアを算出するので、分類精度がさらに向上する。

請求項６に記載の発明は、請求項５に記載のデータベースの作成装置において、前記共起語句が、複数の前記カテゴリの基準語句に対する共起語句となる場合、前記重み係数の値を減少させることを特徴とする。

この場合、各カテゴリに共通して出現する共起語句に対する重み係数を減少させているため、各カテゴリを代表する共起語句に対する重み係数が相対的に高くなり、分類精度がさらに向上する。

請求項７に記載の発明は、請求項１から請求項６のいずれか１項に記載のデータベースの作成装置において、前記配属候補語句について、前記共起語句との前記共起関連性を、共起頻度に基づき算出することを特徴とする。この場合、共起関連性を統計的に求め、さらに分類精度が向上する。

請求項８に記載の発明は、請求項１から請求項７のいずれか１項に記載のデータベースの作成装置において、前記共起語句が、前記基準語句と係り受け関係を持つ語句であることを特徴とする。

この場合、評価対象の語句と同一文で係り受けの関係にある共起語句であるので、語句と共起語句とは直接的に関連があり、語句に対する評価がしやすくなる。

請求項９に記載の発明は、請求項１から請求項８のいずれか１項に記載のデータベースの作成装置において、前記文書から語句を抽出する際、前記語句の品詞の組み合せパターンに基づき、前記文書中で隣接する複数の前記語句から複合語句を作成する複合語句作成手段を更に有することを特徴とする。

この場合、評価対象としての語句を、的確に複合語句として抽出できるため、文書中の情報を評価情報としてさらに活用しやすく、かつ、さらに分類精度が向上する。

請求項１０に記載の発明は、コンピュータにより実行させるデータベースを作成するデータベースの作成方法であって、語句を分類するためのカテゴリを設定するカテゴリ設定ステップと、前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定ステップと、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出ステップと、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶ステップと、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出ステップと、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出ステップと、前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定ステップと、前記配属決定ステップによって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶ステップと、を有すること特徴とする。

請求項１１に記載の発明は、コンピュータを、語句を分類するためのカテゴリを設定するカテゴリ設定手段、前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段、前記配属スコアに基づき前記基準語句候補または前記共起語句候補を前記カテゴリに配属を決定する配属決定手段、前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段として機能させることを特徴とする。

本発明によれば、文書から語句を抽出し、語句を分類するためのカテゴリを設定し、語句の中からカテゴリに関連した初期基準語句を設定し、初期基準語句と共に出現する共起語句を文書から抽出し、カテゴリへの配属候補となる語句と共起語句との共起関連性に基づき、カテゴリへの配属スコアを算出し、この配属スコアに基づき配属候補語句をカテゴリに配属させることにより、共起語句に関連した語句を成長・拡張して同一カテゴリに的確に集めることができ、カテゴリ分類された語句集合を説明する評価情報として共起語句を活用できるため、文書の情報を評価情報として活用できるカテゴリに的確に分類できる。

本発明に係る実施形態に係るデータベース作成装置の概要構成例を示す模式図である。図１のデータベース作成装置が実行するプログラムの機能ごとのモジュールを示す模式図である。図１のデータベース作成装置におけるカテゴリ、種語句および特徴語句の関連の一例を示す模式図である。図１のデータベース作成装置が作成する複合語句のパターンの一例を示す説明図である。図１のデータベース作成装置において設定されたカテゴリごとの種語句の一例を示す説明図である。図１のデータベース作成装置における配属候補語句に対する配属スコアの一例を示す模式図である。図１のデータベース作成装置におけるデータベース作成の動作例を示すフローチャートである。図１のデータベース作成装置における配属候補語句の配属および重み係数の更新の一例を示す模式図である。図１のデータベース作成装置による各カテゴリの単語数の結果の一例を示す説明図である。図１のデータベース作成装置により分類された語句および語句の出現頻度の一例を示す説明図である。図１のデータベース作成装置により得られたカテゴリの特徴語句の一例を示す説明図である。図１のデータベース作成装置により得られた、各カテゴリにおける配属候補語句の適合率の一例を示す線図である。図１のデータベース作成装置により得られた、各カテゴリにおける配属候補語句の適合率の一例を示す線図である。

以下、図面を参照して本発明を実施するための形態について説明する。

まず、本発明の実施形態に係るデータベース作成装置の概要構成および機能について、図に基づき説明する。

図１は、本発明の実施形態に係るデータベース作成装置の概要構成例を示す模式図である。

図１に示すように、データベース作成装置１は、インターネット上に存在するブログ等の文書における語句の分類等を行う制御部５と、制御部５の分類結果を記憶するデータベース３０と、を備える。

データベース作成装置１は、インターネット等のネットワーク２を介してＷｅｂサーバ３に接続され、インターネット上のブログやＬＡＮ内のクチコミ等の文書を収集する。なお、データベース作成装置１をネットワーク等に接続せず、分析を行う文書をメディアから入力してスタンドアローンでデータベース作成装置１を作動させてもよい。

図１に示すように、制御部５は、コンピュータのプログラムの実行を行うＣＰＵ（Central Processing Unit）１０と、実行するプログラム等を記憶するＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等のメモリ２０等を有する。

制御部５は、データベース作成装置１全体を制御したり、語句の分類のための演算等の処理を行ったり、データベース３０に演算結果等の書き込みや、データベース３０の管理を行ったりする。

メモリ２０には、語句の分類を実行するためのプログラムが展開されたり、分類に必要なカテゴリのメモリ空間が形成されたり、一時的に演算結果が記憶されたりする。

データベース３０は、ハードディスクドライブ等を有し、ネットワーク２を介して収集した文書や制御部５における分類結果等を記憶する。

次に、データベース作成のためのプログラムの各モジュールについて図に基づき説明をする。

図２は、メモリ２０において展開される、データベース作成装置１が実行するプログラムの機能ごとのモジュールを示す模式図である。

図２に示すように、メモリ２０は、制御部５により実行される実行プログラムとして、分析する文書を入力したり、分類結果を出力したりする入出力モジュール２１と、文書からカテゴリ分類対象となる語句（カテゴリへの配属候補となる語句として、以下、配属候補語句と称する）やある語句と共に出現する共起語句等を抽出する抽出関連モジュール２２と、カテゴリや初期基準語句としての種語句を設定するカテゴリ等設定モジュール２３と、配属候補語句のカテゴリへの配属スコアを算出等、カテゴリ分類に必要な各種の演算を行うスコア等演算モジュール２４と、配属スコアに基づき語句をあるカテゴリに配属させる配属関連モジュール２５等とを有する。

入出力モジュール２１は、分析する文書の入力を受け付けたり、カテゴリの入力を受け付けたり、場合により外部から基準語句の入力を受け付けたりする入力手段や、配属候補語句をカテゴリに関連付けてデータベース３０に記憶する記憶手段等を有する。

ここで、基準語句とは、カテゴリに関連した語句であり、例えば、食事に関するカテゴリを設定した場合、カテゴリの基準語句は“食事”の他に、“ごはん”、“コーヒー”等の下位概念や同義語や関連語でもよい。なお、初期基準語句である種語句については後述する。

抽出関連モジュール２２は、文書から語句を抽出する語句抽出手段と、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する複合語句作成手段と、基準語句の語句と共に出現する共起語句を文書から抽出する共起語句抽出手段等と、を有する。

カテゴリ等設定モジュール２３は、語句を分類するための目的カテゴリや分類の目的外の非目的カテゴリといったカテゴリを自動的に設定したり、ユーザからの入力を受け付けて設定したりするカテゴリ設定手段と、語句の中からカテゴリごとに関連した基準語句を設定する基準語句設定手段等と、を有する。基準語句設定手段は、既に設定されている基準語句および共起語句を参照して自動的に基準語句を設定するが、当該基準語句設定手段は、ユーザからの入力を受け付けて初期基準語句を設定するための初期基準語句設定手段を含む。ここで、目的カテゴリとは、分類の目的として、“食事”や“部屋”や“サービス”等に関する語句を分類したい場合のカテゴリであり、非目的カテゴリとは、これら目的カテゴリとは関連が薄いゴミのような語句を集めるためのカテゴリ（ゴミカテゴリ）である。

スコア等演算モジュール２４は、語句のうち配属候補語句と、共起語句との共起関連性に基づき、配属候補語句に対してカテゴリへの配属スコアを算出する配属スコア算出手段と、基準語句と共起語句との関連の強さを示す重み係数を算出する重み係数算出手段と、重み係数を更新する重み係数更新手段等と、を有する。

配属関連モジュール２５は、配属スコアに基づき配属候補語句をカテゴリに配属させる配属決定手段と、配属候補語句を配属されたカテゴリの基準語句に加える基準語句追加手段等と、を有する。

ここで、本実施形態の分類手法の概略を述べる。まず、データベース作成装置１は、入出力モジュール２１の入力手段により解析する文書を取り込み、前処理として、抽出関連モジュール２２の語句抽出手段および複合語句作成手段により、語句や複合語句を抽出し、共起語句抽出手段により、複合語句を含む語句と係り受け関係がある共起語句を抽出する。そして、データベース作成装置１は、カテゴリ初期設定として、カテゴリ等設定モジュール２３のカテゴリ設定手段により、カテゴリを設定し、基準語句設定手段によりカテゴリに関連した種語句を設定する。初期設定後、データベース作成装置１は、自動分類プロセスとして、スコア等演算モジュール２４の重み係数算出手段や配属スコア算出手段により、少数の種語句から自動的に各カテゴリの種語句の集合と共起語句の集合とを同時に拡張しながら、未分類の配属候補語句を分類していく。

具体的には、配属候補語句として、ある名詞句のカテゴリ分類を考える場合、名詞句の各カテゴリに対する配属スコアが計算され、一番高いスコアが出るカテゴリに、名詞句が分類される。名詞句とカテゴリとの間の配属スコアは名詞句がカテゴリの要素となる相応しさを表し、このスコアが名詞句とカテゴリの特徴語句集合との相互情報量等の統計量により算出される。なお、特徴語句集合と、相互情報量については後述する。

次に、カテゴリと、種語句と、共起語句の一例である特徴語句とについて、図に基づき説明する。

図３は、データベース作成装置１におけるカテゴリ、種語句、および、特徴語句の関連の一例を示す模式図である。

図３に示すように、カテゴリＣは、目的カテゴリである、食事に関するカテゴリＣ１や、部屋に関するカテゴリＣ２等や、非目的カテゴリであるゴミカテゴリＣ０とを有する。

各カテゴリＣは、種語句が“食事”、“コーヒー”のような名詞句の場合である名詞句の集合Ｎと、種語句と係り受けの関係にある“おいしい”のような特徴語句（ここでは、種語句と共起関係にある係り句）の集合Ｆとから形成される。

ここで、種語句とは、カテゴリに関連した基準語句の一例であって、特に初期設定される初期基準語句であり、またカテゴリのメンバー語句でもある。本実施形態の分類手法により、基準語句は成長する。すなわち、この種語句を基に、カテゴリのメンバー語句を成長させて、語句の分類を行うので、このような基準語句を特に種語句と称する。

また、特徴語句とは、カテゴリに属する語句に対して、主語・述語の関係や修飾・被修飾の関係や並立の関係等の係り受け関係にある語句であり、特徴語句集合Ｆは、カテゴリに対して特徴的な語句群であってカテゴリを特徴づけている。例えば、“食べる”、“おいしい”、“飲む”等と係り受けの関係にあり、共起する名詞句はカテゴリ食事Ｃ１のメンバー語句である可能性が高いと考えられる。本実施形態の分類手法の基本的な考え方として、同じ特徴的な語句群と共起する名詞句を同じカテゴリに分類することにある。なお、本実施形態では、評価対象のほとんどが名詞句であることを想定し、各名詞句と係り受け関係を持つ語句（名詞句、動詞句、形容詞）を特徴語句として扱う。また、特徴語句を生成するために、語句同士の係り受け関係を利用し、係り受け関係の抽出は文単位で行われ、名詞句とその名詞句に係る前文脈、又は、後文脈の特徴語句をペアとして抽出する。

次に、抽出関連モジュール２２における複合語句の作成について、図に基づき説明する。図４は、データベース作成装置１が作成する複合語句のパターンの一例を示す説明図である。

本実施形態では、一般的な形態素解析ツールにより抽出された語句に対して、予め設定した複合語句のパターンに基づき、複合語句を作成する。特に、名詞句と動詞句に対して、複合語句を作成する。

具体的には、図４に示すように、複合語句のパターンとして、名詞句の場合、３つの品詞「名詞一般」、「名詞サ変接続」、および、「名詞接尾一般」の組み合せにより、複合語句のパターンが抽出される。また、動詞句の場合、「名詞サ変接続」に続き、「自立動詞」が出現するパターンを抽出する。例えば、「更新できる」、「利用する」である。なお、これらの品詞は、ＩＰＡ（International Phonetic Alphabet）の品詞体系に基づいている。また、英語の場合は、複合語句として、ハイフンにより接続された単語に限らず、名詞句の場合、英語の名詞句として“heated pools”のような意味の一かたまりの語句を含み、また、動詞句の場合、英語の動詞句として、英語の動詞と前置詞や副詞等との組み合せの熟語が対応する。

このように、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句が作成される。そして、このような複合語句に対して係り受けの関係にある語句（複合語句を含む）が抽出される。

次に、カテゴリ等設定モジュール２３におけるカテゴリの設定および種語句の設定について図に基づき説明する。図５は、データベース作成装置１において設定されたカテゴリごとの種語句の一例を示す説明図である。

図５に示すように、分類の目的に応じて食事カテゴリＣ１や部屋カテゴリＣ２等のような目的カテゴリと、ゴミカテゴリＣ０のような非目的カテゴリと、を予め設定する。なお、種語句の設定については後述する。

次に、スコア等演算モジュール２４における特徴語句の重み係数について図３に基づき説明する。

図３に示したように、特徴語句集合Ｆの各特徴語句に対して、重み係数Ｗを算出する。特徴語句の重み係数は、特徴語句と名詞句集合Ｎの各語句との関連の強さを示し、例えば、カテゴリＣｋに属する特徴語句の重み係数Ｗの値coefｋは、カテゴリＣｋの名詞句集合Ｎｋの多くの名詞句と共起し、しかも共起頻度が高いほど、値が大きくなる。

ここで、カテゴリＣｋを考え、Ｃｋの特徴語句集合をＦｋ＝{ｆ１、ｆ２、ｆ３,・・・,ｆｈ}とし、Ｃｋの名詞句集合をＮｋ＝{ｎ１、ｎ２、ｎ３、・・・ｎｌ}とする。この時、特徴語句ｆｉ∈ＦｋのカテゴリＣｋに対するの重み係数の値coefｋ（ｆｉ）は基本的に特徴語句ｆｉと集合Ｎｋの間の相互情報量で計算される。しかも、図３に示したように、例えば、特徴語句“うれしい”が、食事カテゴリＣ１や部屋カテゴリＣ２等の複数のカテゴリの特徴語句になることもあり、他のカテゴリの特徴語句ともなっている場合の影響力を減らすために、上記の相互情報量をＦ^ｃａｔｉにより更に割り、重み係数の値coefｋ（ｆｉ）が、次の式（１）のように算出される。

但し、

である。

ここで、Ｆ^ｃａｔｉは特徴語句ｆｉが特徴語句として含まれているカテゴリの数、Ｆ_ｗｏｒｄは語句の出現頻度の総数、Ｆ_ｐａｉｒは、特徴語句−名詞句ペアの出現頻度の総数、ｆｒｅｑ（ｆｉ）、ｆｒｅｑ（ｎｊ）はそれぞれｆｉとｎｊの出現頻度、ｆｒｅｑ（ｆｉ，ｎｊ）は、ｎｊに係ったｆｉの出現頻度（共起頻度）である。

このように、共起語句の一例である特徴語句が、複数のカテゴリの基準語句に対する特徴語句となる場合、重み係数の値を減少させて、カテゴリ固有の特徴語句に重きが置かれるようになっている。

次に、スコア等演算モジュール２４における各カテゴリに対する配属スコアについて図６に基づき説明する。

図６は、データベース作成装置１における配属候補語句に対する配属スコアの一例を示す模式図である。

図６に示すように、配属候補語句、例えば、名詞句“パン”について、各カテゴリＣｋに対する配属スコアＡｓを算出する。カテゴリに対する配属スコアＡｓは、抽出した語句のうち配属候補語句ｎｉと、カテゴリＣの特徴語句との共起関連性に基づき算出され、ある名詞句ｎｉがカテゴリＣに分類されるに相応しい度合いを表す数値である。

実際に、未分類の名詞句ｎｉを分類する際、名詞句ｎｉの各カテゴリに対する配属スコアを計算し、一番高い配属スコアが算出されたカテゴリＣに名詞句ｎｉが分類される。本実施形態では、配属スコアの計算は特徴語句の重み係数Ｗを考慮した相互情報量を用いる。

本実施形態では、分類過程中、カテゴリの特徴語句が拡張されていく。カテゴリＣｋのある時点における特徴語句集合をＦｋとすると、評価対象の名詞句ｎｉのカテゴリＣｋに対する配属スコアは次の式（２）で計算される。

配属スコアＡｓは、名詞句ｎｉと、カテゴリＣｋの特徴語句集合Ｆｋとの間の相互情報量を基礎にして、特徴語句集合Ｆｋの特徴語句ｆｊの重み係数の値coefｋ（ｆｊ）を組み込んだ形になっている。このように、配属スコアＡｓは、配属候補語句の名詞句ｎｉと特徴語句ｆｊとの共起頻度ｆｒｅｑ（ｆｉ，ｎｊ）および重み係数Ｗに基づき算出される。

次に、本実施形態の動作について図に基づき説明する。

図７は、データベース作成装置１におけるデータベース作成の動作例を示すフローチャートである。

まず、制御部５のＣＰＵ１０は、入出力モジュール２１を用いて、ネットワーク２を介してＷｅｂサーバ３等から、ユーザレビューサイトやお客様アンケートや個人ブログ等の分類対象の文書を収集し、データベース３０に記憶させる。

次に、図７に示すように、制御部５のＣＰＵ１０は、カテゴリ分類のための前処理を行う（ステップＳ１）。前処理では、ＣＰＵ１０は、抽出関連モジュール２２を用いて、配属候補語句としての語句を抽出し、抽出した語句と共起する共起語句を抽出し、語句とその共起語句とのペアを作成しておく。具体的には、ＣＰＵ１０は、複合語句を含む名詞句を文書から抽出し、抽出した名詞句と係り受け関係にある特徴語句を抽出し、名詞句と特徴語句とのペアを作成しておく。そして、ＣＰＵ１０は、作成した名詞句と特徴語句とのペアを、メモリ２０やデータベース３０に記憶しておく。また、ＣＰＵ１０は、式（１）で使用する単語の出現頻度の総数Ｆ_ｗｏｒｄや、特徴語句−名詞句ペアの出現頻度の総数Ｆ_ｐａｉｒを集計しておく。このように制御部５のＣＰＵ１０が、文書からカテゴリへの配属候補となる語句を抽出する語句抽出手段として機能する。

なお、本実施形態では、語句抽出手段や共起語句抽出手段として、一般的な形態素解析器や係り受け分析器を用いているが、複合語句の作成について、ＣＰＵ１０は、図４に示したように、独自に、複合語句のパターンに基づき、複合語句を作成している。このように、制御部５のＣＰＵ１０が、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する複合語句作成手段として機能する。

前処理で、名詞句―特徴語句のペアのような語句とその共起語句とのペアを作成した後、制御部５のＣＰＵ１０は、カテゴリＣの設定を行う（ステップＳ２）。ＣＰＵ１０は、図３や図５に示したように、カテゴリとして、名詞句を分類するための目的カテゴリと、分類の目的外の非目的カテゴリと、を設定する。具体的には、ＣＰＵ１０は、目的カテゴリとして、食事に関するカテゴリＣ１、部屋に関するカテゴリＣ２等と、非目的カテゴリとして、ゴミカテゴリＣ０と、を設定する。カテゴリの設定の仕方として、ＣＰＵ１０が、入出力モジュール２１を用いて、カテゴリに関するデータを読み込む。このカテゴリに関するデータは、ＣＰＵ１０が、文書中の高頻度の語句からカテゴリ候補としてカテゴリの数分以上の語句を選択し、選択した語句の中から、類義語辞書等を用いて、概念が近い語句同士をまとめて、より上位概念の語句をカテゴリの候補として、自動作成する。カテゴリの数はデフォルトでも、ユーザからの入力を受け付けるようにしてもよい。なお、カテゴリに関するデータは、分類の目的に応じて、予めキーボード等の入力手段からユーザが入力した情報や、文書中の語句の出現頻度等に基づき、ユーザが文書中の高頻度の語句からカテゴリ候補としていくつかを選択して入力してもよい。このように制御部５のＣＰＵ１０が、語句を分類するためのカテゴリを設定するカテゴリ設定手段として機能する。さらに、カテゴリの数およびカテゴリの名称について、ユーザからの入力を受け付けて、カテゴリ設定手段がカテゴリを設定する場合もある。

次に、制御部５のＣＰＵ１０は、各カテゴリに対する種語句の設定をする（ステップＳ３）。図３や図５に示したように、種語句として、例えば、食事に関するカテゴリＣ１において、“食事”、“バイキング”、“コーヒー”等を設定する。種語句の設定の仕方として、ＣＰＵ１０が、抽出した語句の中の高頻度の語句から、目的カテゴリＣ１、Ｃ２、・・・を示す用語の関連語句や下位概念や同義語を該当カテゴリの種語句とすることが好ましい。一方、出現頻度の高い語句うち、目的カテゴリに該当しなかった語句を、ゴミカテゴリＣ０の種語句として設定する。このように制御部５のＣＰＵ１０が、カテゴリごとに１または２以上の基準語句の入力を受け付け、この基準語句を初期基準語句として設定する基準語句設定手段として機能する。

種語句は、分類対象の文書から抽出した語句が望ましい。そこで、制御部５のＣＰＵ１０が、抽出した語句の出現頻度や、分類の目的等に基づいたカテゴリを表す語句や、各カテゴリの種語句を提示する等によって、ユーザの操作によりキーボード等から種語句を受け付ける。分類対象の文書から抽出した語句に関係なく、種語句を設定すると、これに対応する特徴語句がないこともあり、種語句と特徴語句とのペアを形成できず、例えば、重み係数がゼロになり、その後の計算が無駄になる可能性はあるが、分類精度の向上のためにはユーザの操作によって種語句を受け付けることが好ましい。もし、分類対象の文書から抽出した語句に該当しない語句を種語句として、キーボード等からの入力を受け付けた場合、ＣＰＵ１０が、類義語辞典等で、同義語や関連語句や下位概念の語句に広げ、その中で、抽出した語句に該当する語句を、本実施形態のカテゴリ分類手法で用いる種語句とする。

種語句の設定がされたら、制御部５のＣＰＵ１０は、各カテゴリＣに対する特徴語句集合Ｆの生成をする（ステップＳ４）。例えば、図３や図６に示したように、ＣＰＵ１０は、各目的カテゴリＣ１、Ｃ２、・・・の特徴語句集合Ｆ１、Ｆ２、・・・や、ゴミカテゴリＣ０の特徴語句集合Ｆ０を生成する。特徴語句集合Ｆの生成の仕方として、ＣＰＵ１０は、ステップＳ１の前処理で作成した語句とその共起語句とのペアを用い、種語句に対応する特徴語句を求め、特徴語句集合の生成をする。なお、種語句が設定された時点で、係り受け解析器を使用して、特徴語句を抽出してもよい。このように制御部５のＣＰＵ１０が、初期基準語句を含む基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段として機能する。

そして、制御部５のＣＰＵ１０が、初期のカテゴリ分類として、各カテゴリの種語句と特徴語句とをデータベース３０に記憶させておく。このようにＣＰＵ１０が、初期基準語句と共起語句とをデータベースに記憶する第一記憶手段として機能する。

次に、制御部５のＣＰＵ１０は、式（１）に従い、各カテゴリＣの特徴語句集合Ｆにおいて、各特徴語句の重み係数Ｗを算出する（ステップＳ５）。図３に示すように、ＣＰＵ１０は、各特徴語句集合Ｆ０、Ｆ１、Ｆ２、・・・における各特徴語句の重み係数Ｗを算出する際、例えば、食事に関するカテゴリＣ１では、特徴語句“おいしい”や特徴語句“食べる”等に対して、それぞれ重み係数の値coef１（ｆ１）、coef１（ｆ２）・・・を算出する。

具体的な計算手順として、あるカテゴリＣｋの特徴語句ｆｉに注目した場合、まず、ＣＰＵ１０は、カテゴリＣｋ以外のカテゴリＣの特徴語句集合Ｆの中に、特徴語句ｆｉが存在するかを検索して、特徴語句ｆｉが特徴語句として含まれているカテゴリの数Ｆ^ｃａｔｉを計算する。このように制御部５のＣＰＵ１０は、共起語句の一例である特徴語句ｆｉが、複数のカテゴリＣの基準語句に対する共起語句となる場合、重み係数Ｗの値を減少させている。

そして、ＣＰＵ１０は、文書おいて、特徴語句ｆｉの出現頻度ｆｒｅｑ（ｆｉ）や、カテゴリＣｋの名詞句集合Ｎｋにおける各名詞句ｎｊの出現頻度ｆｒｅｑ（ｎｊ）や、特徴語句ｆｉと名詞句ｎｊとの共起頻度ｆｒｅｑ（ｆｉ，ｎｊ）を集計し、語句の出現頻度の総数Ｆ_ｗｏｒｄや、特徴語句−名詞句ペアの出現頻度の総数Ｆ_ｐａｉｒの結果に基づき、重み係数を式（１）に従い算出する。
このように制御部５のＣＰＵ１０が、基準語句と共起語句との関連の強さを示す重み係数Ｗを算出する重み係数算出手段として機能し、重み係数Ｗに基づき前記配属スコアＡｓを算出している。

以上、ステップＳ２からステップＳ５までがカテゴリの初期設定である。

次に、ステップＳ１０からステップＳ１５における分類対象の名詞句の分類の処理について説明する。

図７に示すように、制御部５のＣＰＵ１０は、未分類の名詞句を取得する（ステップＳ１０）。ＣＰＵ１０は、種語句に設定された以外の名詞句から、メモリ２０やデータベース３０等から名詞句を取得する。そして、ＣＰＵ１０は、名詞句の各カテゴリに対する配属スコアを式（２）に従い算出する（ステップＳ１１）。例えば、図６に示すように、未分類の名詞句ｎｉを“パン”とすると、ＣＰＵ１０は、この名詞句ｎｉと、特徴語句集合Ｆ０、Ｆ１、Ｆ２・・・との配属スコアＡｓ０、Ａｓ１、Ａｓ２・・・を各々算出する。なお、具体的な計算手順は、式（１）と似ているが、総和の範囲が、式（１）の場合は名詞句集合Ｎｋであったが、式（２）では、特徴語句集合Ｆｋである。このように制御部５のＣＰＵ１０は、語句のうち配属候補語句の一例である名詞句ｎｉと、共起語句の一例である特徴語句との共起関連性に基づき、配属候補語句に対してカテゴリＣへの配属スコアを算出する配属スコア算出手段として機能する。

次に、制御部５のＣＰＵ１０は、名詞句ｎｉを配属スコアが最も高いカテゴリＣに配属させる（ステップＳ１２）。例えば、図６に示したように、食事に関するカテゴリＣ１への配属スコアＡｓ１が最も高いので、ＣＰＵ１０は、図８に示すように、名詞句ｎｉ“パン”を配属スコアが最も高い食事に関するカテゴリＣ１の名詞句集合Ｎ１に配属させる。名詞句ｎｉがカテゴリＣ１へ配属されることにより、名詞句集合Ｎ１のメンバー語句が増加し、基準語句の一例である種語句が増加することになる。このカテゴリＣ１の基準語句の増加により、ステップＳ１１での配属スコアＡｓの値や後述するステップＳ１４での重み係数Ｗの値が変化する。このように制御部５のＣＰＵ１０は、配属候補語句の一例である名詞句ｎｉを配属されたカテゴリＣの基準語句の集合Ｎに加える基準語句追加手段として機能する。また制御部５のＣＰＵ１０が、配属スコアＡｓに基づき配属候補語句をカテゴリＣに配属させる配属決定手段として機能する。

名詞句の配属が決まった後、制御部５のＣＰＵ１０は、名詞句ｎｉと関連した特徴語句のうち、名詞句ｎｉが配属されたカテゴリＣｋの特徴語句集合Ｆｋに属していない特徴語句が存在すれば、この特徴語句を特徴語句集合Ｆｋに追加する（ステップＳ１３）。例えば、図６に示したように、名詞句ｎｉ“パン”の特徴語句の“香ばしい”は、特徴語句集合Ｆ１にまだ存在しないので、ＣＰＵ１０は、図８に示すように、特徴語句“香ばしい”を、特徴語句集合Ｆ１に追加する。

次に、制御部５のＣＰＵ１０は、新たに名詞句ｎｉが配属されたカテゴリＣｋにおいて、特徴語句集合Ｆｋの各特徴語句の重み係数Ｗを更新する（ステップＳ１４）。例えば、図８に示すように、ＣＰＵ１０は、新たなメンバー語句が増加した名詞句集合Ｎ１と、特徴語句集合Ｆ１の各特徴語句との各重み係数の値coef１を計算し直す。このように制御部５のＣＰＵ１０は、配属候補語句の一例である名詞句ｎｉを配属されたカテゴリＣの基準語句の一例である種語句に加えた際に、重み係数Ｗを更新する重み係数更新手段として機能する。

次に、制御部５のＣＰＵ１０は、全ての名詞句が分類されたか判定をする（ステップＳ１５）。全ての名詞句が分類されていない場合（ステップＳ１５；ＮＯ）、制御部５のＣＰＵ１０は、ステップＳ１０に戻り、未分類の名詞句を取得して、名詞句の分類処理を行う。一方、全ての名詞句が分類された場合（ステップＳ１５；ＹＥＳ）、制御部５のＣＰＵ１０は、分類処理を終了する。

分類処理が終了したら、制御部５のＣＰＵ１０は、カテゴリに配属された名詞句や共起語句を各カテゴリＣ０、Ｃ１、Ｃ２、・・・に関連付けてデータベース３０に記憶する。このように、制御部５のＣＰＵ１０は、カテゴリ毎に配属候補語句と特徴語句とが分類され、個々の語句が配属スコアＡｓによりランク付けされ、特徴語句には重み係数Ｗが付されたデータベース３０を作成する。なお、配属候補語句の配属を決める毎に、制御部５のＣＰＵ１０は、配属候補語句の名詞句や特徴語句をデータベース３０に記憶してもよい。このように制御部５のＣＰＵ１０が、カテゴリに配属された配属候補語句をカテゴリに関連付けてデータベースに記憶する第２記憶手段として機能する。

このように本発明によれば、制御部５のＣＰＵ１０は、文書から語句を抽出し、語句を分類するためのカテゴリＣを設定し、語句の中からカテゴリＣに関連した種語句を設定し、種語句と共に出現する特徴語句を文書から抽出し、語句のうち配属候補語句ｎｉと特徴語句との共起関連性に基づき、対象語句ｎｉに対してカテゴリへの配属スコアＡｓを算出し、この配属スコアＡｓに基づき配属候補語句ｎｉをカテゴリに配属させることにより、特徴語句に関連した語句を成長・拡張して同一カテゴリＣに的確に集めることができ、カテゴリ分類された語句集合を説明する評価情報として共起語句を活用できるため、文書中の情報を評価情報として活用できるカテゴリＣに的確に分類できる。

例えば、評価対象の名詞句がどのように形容がされているか、どのような動詞と関連しているか、どのような名詞句と関連しているかを把握しやすいため、評価が判断しやすく、評価情報として活用しやすい。

また、分類された名詞句ｎｉを配属スコアＡｓの順にランク付けもすることができ、名詞句集合Ｎの中で、どのような語句が特に評価対象になっているかが分かる。

また、本実施形態のカテゴリ分類方法は、学習が不要であるため、取り扱いが容易である。

また、カテゴリの設定や種語句の設定において、制御部５のＣＰＵ１０が自動的に設定を行うとユーザの負担を減らすことができ、ユーザがカテゴリ分類の概要を容易に把握することができる。

また、語句の出現頻度や、自動設定により分類結果をユーザが見て、さらに、ユーザがカテゴリや種語句の設定をしたり、修正を行ったりすることによりさらに分類の精度を上げることができる。

また、本発明によれば、語句を分類するための目的カテゴリＣ１、Ｃ２、・・・と、分類の目的外のゴミカテゴリＣ０と、が設定されることにより、分類の目的と異なるゴミカテゴリＣ０があるため、制御部５のＣＰＵ１０が、ゴミカテゴリＣ０との関連性が高い語句をゴミカテゴリＣ０に的確に配属し、誤って目的カテゴリＣ１、Ｃ２、・・・に配属することを防止できる。すなわち、本実施形態のカテゴリ分類方法は、ノイズに対して頑健であり、分類精度がさらに向上する。また、配属スコアに対して、目的カテゴリに所属させるか否かの閾値を設定しなくても、ゴミカテゴリへの配属スコアが高い配属候補語句は、目的カテゴリに所属されないため、配属スコアに対して閾値を定める手間を省くことができる。なお、配属スコアに対して閾値を設け、閾値以下の場合は、全てゴミカテゴリに所属させてもよい。

また、制御部５のＣＰＵ１０は、配属候補語句の名詞句ｎｉを、配属されたカテゴリＣｋの種語句の集合Ｎｋに加える場合、少ない種語句から順次種語句の集合Ｎｋを成長させることにより、少ない種語句が予め設定されるだけで、語句を精度よくカテゴリに分類できる。

また、制御部５のＣＰＵ１０が、外部から種語句の入力を受け付ける場合、ユーザが、各カテゴリＣ０、Ｃ１、Ｃ２、・・・の種語句を入力するだけで、容易にカテゴリ分類ができる。

また、制御部５のＣＰＵ１０が、種語句と特徴語句との関連の強さを示す重み係数Ｗを算出し、重み係数Ｗに基づき配属スコアＡｓを算出する場合、各カテゴリの語句の集合Ｎ０、Ｎ１、Ｎ２、・・・と関連性が高い特徴語句に重きを置いて分類するため、さらに分類精度が向上する。

また、制御部５のＣＰＵ１０が、対象語句の名詞句ｎｉを配属されたカテゴリの種語句の集合に加えた際に、重み係数Ｗを更新する場合、種語句が増加した新たな種語句の集合の下で新たに重み係数Ｗを計算し直し、配属スコアＡｓを算出するので、分類精度がさらに向上する。

また、特徴語句が、複数のカテゴリの種語句に対する特徴語句となり、制御部５のＣＰＵ１０が、重み係数Ｗの値を減少させる場合、各カテゴリＣ０、Ｃ１、Ｃ２、・・・に共通して出現する特徴語句に対する重み係数Ｗを減少させているため、各カテゴリを代表する特徴語句に対する重み係数Ｗが相対的に高くなり、分類精度がさらに向上する。

また、制御部５のＣＰＵ１０が、配属候補語句の名詞句ｎｉと特徴語句との共起関連性を、名詞句ｎｉと特徴語句との共起頻度に基づき算出する場合、例えば相互情報量を使用する場合、共起関連性を統計的に求めることができ、さらに分類精度が向上する。

また、特徴語句が、種語句と係り受け関係を持つ語句である場合、評価対象の語句と同一文で係り受けの関係にある特徴語句であるので、分類された名詞句と特徴語句とは直接的に関連があり、名詞句に対する評価がしやすくなる。

また、制御部５のＣＰＵ１０が、文書から語句を抽出する際、名詞句や動詞句等の語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する場合、評価対象としての語句を、的確に複合語句として抽出できるため、文書中の情報を評価情報としてさらに活用しやすく、かつ、さらに分類精度が向上する。

次に、実際のデータに本分類手法を適用した実施例について説明する。

実験データは、楽天トラベル「お客様の声」の10,000感想文書（全部で40,007文が含まれている）であり、“部屋”、“食事”、“風呂”、“サービス”、“設備”、“立地”、“料金”、“ゴミ”の計８つのカテゴリに、評価対象を分類した。なお、本実施例では、形態素解析器Mecab（ＵＲＬは、http://mecab.sourceforge.net/）や日本語係り受け分析器Cabocha（ＵＲＬは、http://chasen.org/ taku/software/cabocha/）が使用された。

図９は、データベース作成装置１による各カテゴリの単語数の結果の一例を示す説明図である。図９に示すように、目的カテゴリの中では、語句のほとんどが部屋に関するカテゴリＣ３に分類され、ゴミカテゴリＣ０には、多くの語句が該当した。

次に、図１０は、図１のデータベース作成装置により分類された語句および語句の出現頻度の一例を示す説明図である。図１０には、食事に関するカテゴリＣ１の名詞句集合Ｎ１に配属された名詞句の一例を示している。これらの名詞句は、配属スコアＡｓの値が高い順に並んでいる。なお、括弧の中の数字が出現頻度を示している。図１０に示すように、“定食”や“ディナー”のように出現頻度が２回と少ない語句にも関わらず、配属スコア上、上位のランクに位置している。この結果は、従来の方法のように出現頻度が高い単語を分類対象とする方法では、このような結果を得ることは難しい。

次に、図１１は、データベース作成装置１により得られたカテゴリの特徴語句の一例を示す説明図である。図１１では、一例として、カテゴリＣ１、カテゴリＣ４に対し、重み係数Ｗが高い順に上位２０の特徴語句の一部が挙げられている。

図１１に示すように、食事に関するカテゴリＣ１では、カテゴリＣ１に固有の特徴語句“おいしい”等が上位に表れている。このことは、後述する適合率において、食事に関するカテゴリＣ１の高い適合率が平均で約９０％であることにも表れている。また、サービスに関するカテゴリＣ４においても、特徴語句は“丁寧”等の接客態度を表す単語が上位に表れた。また、本手法は、意味範囲が狭いカテゴリほど分類精度がよい傾向も得られた。この結果は、本実施形態の分類手法の基本的な考え方として、同じ特徴的な語句群と共起する名詞句を同じカテゴリに分類することと合致している。

次に、図１２、図１３において、分類結果の評価を示す。

図１２および図１３は、データベース作成装置により得られた、各カテゴリにおける語句の適合率の一例を示す線図である。

評価方法として、分類結果に対して３値評価（”正”、”疑”、”負”）を行った。なお、”正”、”疑”、および、”負”は、それぞれ、”語句が正しく分類された”、”場合によってこのカテゴリに語句が分類されることも考えられる”、および、”語句が他のカテゴリに分類されるべき”に対応している。

この評価により、語句が適切なカテゴリに分類されたか、また、ゴミカテゴリＣ０を設定することで、評価対象となりえない語句がフィルタリングされるかどうか確認を行った。さらに、本実施例では分類された語句のランクの適切さを評価するために、各カテゴリの上位の語句をランク分けして、上位１０位、上位２０位、上位４０位、上位６０位、上位８０位、上位１００位、上位１５０位の適合率を集計している。

ここで、横軸の評価単語数は、“正”、”疑“、“負”のように評価される語句の数であり、配属スコアが上位の名詞句から順に取り出している。例えば、評価単語数が２０個の場合、あるカテゴリＣの名詞句のうち、配属スコアが上位２０位の２０個の名詞句に対して、適合率を計算している。縦軸の適合率は、評価する語句の数に対して、適切なカテゴリに分類された単語数の割合である。例えば、上位２０位の場合は、“正”に該当する単語数、または、“正”、”疑“に該当する単語数を、２０個で割った割合である。

図１２は、正解が“正”のみの場合、図１３は、正解が“正”または”疑“の場合である。なお、図１２および図１３で各カテゴリＣ０〜Ｃ７におけて示すことができる評価単語数は、図９に示したように、各カテゴリＣ０〜Ｃ７の抽出した単語数までである。

図１２および図１３に示すように、上位に行くほど、すなわち評価単語数が少なくなるほど、適合率が高いため、上位の単語が適切に各カテゴリＣ０、Ｃ１、Ｃ２・・・に分類されていることが分かる。また、ゴミカテゴリＣ０の適合率が平均で９０%となっているので、ゴミカテゴリＣ０にも名詞句が適切に分類されたことが分かる。

なお、本実施形態では、初期の基準語句として種語句を設定し、種語句が成長していくが、基準語句を固定しておいてもカテゴリ分類はできる。

また、本実施形態では、目的カテゴリとして複数設定したが、目的カテゴリＣ１が１つで、非目的カテゴリＣ０の場合や、カテゴリＣ１のみ場合でもよい。これらの場合でも、カテゴリＣ１に属する語句のみを集め、集められた語句の配属スコアや、関連した共起語句が分かるため、ある文書においてどのような評価対象が存在するのか、その評価対象がどのように評価されているかの判断に活用できる。

また、分類対象として、本実施形態では、名詞句としたが、他の品詞の語句でもよい。ある語句群と、それに対する共起する語句の語句群とにより、語句群に対する評価等が可能である。

さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

１・・・データベース作成装置
５・・・制御部
１０・・・ＣＰＵ
２０・・・メモリ
２１・・・入出力モジュール
２２・・・抽出関連モジュール
２３・・・カテゴリ等設定モジュール
２４・・・スコア等演算モジュール
２５・・・配属関連モジュール
３０・・・データベース

Claims

語句を分類するためのカテゴリを設定するカテゴリ設定手段と、
前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、
前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、
前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段と、
前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段と、
前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、
前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段と、
前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段と、
を備えたこと特徴とするデータベースの作成装置。
請求項１に記載のデータベースの作成装置において、
前記カテゴリ設定手段が、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定することを特徴とするデータベースの作成装置。
請求項１または請求項２に記載のデータベースの作成装置において、
外部から前記基準語句の入力を受け付ける入力手段を更に備えたことを特徴とするデータベースの作成装置。
請求項１から請求項３のいずれか１項に記載のデータベースの作成装置において、
前記基準語句と前記共起語句との関連の強さを示す重み係数を算出する重み係数算出手段を更に有し、
前記重み係数に基づき前記配属スコアを算出することを特徴とするデータベースの作成装置。
請求項４に記載のデータベースの作成装置において、
前記配属候補語句を前記カテゴリの前記基準語句に加えた際に、前記重み係数を更新する重み係数更新手段を更に有することを特徴とするデータベースの作成装置。
請求項５に記載のデータベースの作成装置において、
前記共起語句が、複数の前記カテゴリの基準語句に対する共起語句となる場合、前記重み係数の値を減少させることを特徴とするデータベースの作成装置。
請求項１から請求項６のいずれか１項に記載のデータベースの作成装置において、
前記配属候補語句について、前記共起語句との前記共起関連性を、共起頻度に基づき算出することを特徴とするデータベースの作成装置。
請求項１から請求項７のいずれか１項に記載のデータベースの作成装置において、
前記共起語句が、前記基準語句と係り受け関係を持つ語句であることを特徴とするデータベースの作成装置。
請求項１から請求項８のいずれか１項に記載のデータベースの作成装置において、
前記文書から語句を抽出する際、前記語句の品詞の組み合せパターンに基づき、前記文書中で隣接する複数の前記語句から複合語句を作成する複合語句作成手段を更に有することを特徴とするデータベースの作成装置。
コンピュータにより実行させるデータベースを作成するデータベースの作成方法であって、
語句を分類するためのカテゴリを設定するカテゴリ設定ステップと、
前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定ステップと、
前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出ステップと、
前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶ステップと、
前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出ステップと、
前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出ステップと、
前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定ステップと、
前記配属決定ステップによって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶ステップと、
を有すること特徴とするデータベースの作成方法。
コンピュータを、
語句を分類するためのカテゴリを設定するカテゴリ設定手段、
前記カテゴリごとに１または２以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段、
前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段、
前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段、
前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段、
前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段、
前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段、および、
前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段として機能させることを特徴とするデータベースの作成プログラム。