JP5295818B2 - 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム - Google Patents

文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム Download PDF

Info

Publication number
JP5295818B2
JP5295818B2 JP2009039999A JP2009039999A JP5295818B2 JP 5295818 B2 JP5295818 B2 JP 5295818B2 JP 2009039999 A JP2009039999 A JP 2009039999A JP 2009039999 A JP2009039999 A JP 2009039999A JP 5295818 B2 JP5295818 B2 JP 5295818B2
Authority
JP
Japan
Prior art keywords
phrase
category
assignment
occurrence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009039999A
Other languages
English (en)
Other versions
JP2010198141A (ja
JP2010198141A5 (ja
Inventor
理紀夫 尾内
貴宏 林
ファム タン タオ グェン
正弥 森
孝真 竹中
悠平 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Priority to JP2009039999A priority Critical patent/JP5295818B2/ja
Publication of JP2010198141A publication Critical patent/JP2010198141A/ja
Publication of JP2010198141A5 publication Critical patent/JP2010198141A5/ja
Application granted granted Critical
Publication of JP5295818B2 publication Critical patent/JP5295818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書中からの有用な情報の抽出に使用されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラムの技術分野に関する。
近年、インターネット上で取り扱われる製品又はサービスが増加しつつあり、これら商品等に対して消費者がどのように評価をしているかを推測等するため、インターネット上におけるユーザレビューサイトやお客様アンケートや個人ブログ(Blog)内の意見等の文書から、商品等に対する評価情報を抽出する必要性が増加してきている。
一般に、文書から必要な情報を抽出する際、文書中の文を解析する必要があり、文を解析する上で、文書中に共に出現する共起データを格納した共起辞書を使用して解析することが行われている。例えば、特許文献1には、共起関係にある係り側文節と受け側文節とから、係り側文節の自立語の品詞情報と、係り側文節の付属語情報と、受け側文節の自立語の品詞情報と、受け側文節の付属語情報と、係り側文節と上記受け側文節との係り受け関係の情報と、係り側文節と受け側文節との連続性の情報と、係り側文節と受け側文節との組み合せの統計的な出現頻度の情報とを1つのレコードに収容すると共に、複数種類の係り側文節と受け側文節間の共起関係の情報を複数のレコードに収容し、これらの複数のレコードを記憶回路に記憶する構成である共起辞書装置が開示されている。
特開平8−329090号公報
しかしながら、上記従来技術では、ブログ内の意見等における評価情報の抽出等に適用した場合、自立語そのものを辞書に記憶するのではなく、その自立語の品詞に置き替えて情報を縮約しているため、例えば、“おいしい”“うれしい”といった評価の情報が失われてしまう。
また、文書中の評価情報を利用する場合、抽出した評価情報や評価対象(評価された対象)を整理して分類することにより、評価情報を活用しやすい形にしておくことも重要である。さらに評価情報を活用上、分類精度を向上させる必要がある。
本発明は、このような問題に鑑みてなされたものであり、その課題の一例は、文書中の情報を的確に分類するように、文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラムを提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、語句を分類するためのカテゴリを設定するカテゴリ設定手段と、前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段と、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段と、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段と、前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段とを備えたこと特徴とする。
よって、共起語句に関連した語句を成長や拡張させ、当該語句を同一カテゴリに的確に集めることができ、カテゴリ分類された語句の集合を説明する評価情報として共起語句を活用できるため、文書中の情報を評価情報として活用できるカテゴリに的確に分類できる。
例えば、基準語句が名詞句で、共起語句が形容詞や動詞の場合、基準語句の名詞句がどのように形容がされているか、どのような動詞と関連しているかを把握しやすいため、評価が判断しやすく、評価情報として活用しやすい。
また、分類された語句を配属スコアの順にランク付けもすることができ、分類された語句の集合の中で、どのような語句が特に評価対象になっているかが分かる。
また、カテゴリ分類は、学習が不要であるため、取り扱いが容易である。また、少ない初期基準語句から順次基準語句を増やすことにより、少ない初期基準語句を予め設定するだけで、語句を精度よくカテゴリに分類できる。
また上記の課題を解決するために、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定するカテゴリ設定手段と、前記目的カテゴリまたは前記非目的カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、前記初期基準語句と前記共起語句を前記目的カテゴリまたは前記非目的カテゴリに関連付けてデータベースに記憶する第一記憶手段と、前記文書から前記目的カテゴリまたは前記非目的カテゴリへの配属候補となる語句を抽出する語句抽出手段と、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、前記配属スコアに基づき前記配属候補語句を前記目的カテゴリまたは前記非目的カテゴリに配属を決定する配属決定手段と、前記配属決定手段によって前記目的カテゴリまたは前記非目的カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段と、を備えたこと特徴とする。
この場合、さらに、分類の目的と異なる非目的カテゴリがあるため、非目的カテゴリとの関連性が高い語句は非目的カテゴリに的確に配属されるため、誤って目的カテゴリに配属されることを防止できる。すなわち、ノイズに対して頑健であり、分類精度がさらに向上する。
請求項2に記載の発明は請求項1に記載のデータベースの作成装置において、前記カテゴリ設定手段が、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定することを特徴とする。
請求項3に記載の発明は、請求項1または請求項2に記載のデータベースの作成装置において、外部から前記基準語句の入力を受け付ける入力手段を更に備えたことを特徴とする。この場合、ユーザが基準語句を入力するだけで、容易にカテゴリ分類ができる。
請求項に記載の発明は、請求項1から請求項3のいずれか1項に記載のデータベースの作成装置において、前記基準語句と前記共起語句との関連の強さを示す重み係数を算出する重み係数算出手段を更に有し、前記重み係数に基づき前記配属スコアを算出することを特徴とする。
この場合、各カテゴリの語句の集合と関連性が高い共起語句に重きを置いて分類するため、さらに分類精度が向上する。
請求項に記載の発明は、請求項に記載のデータベースの作成装置において、前記配属候補語句を前記カテゴリの前記基準語句に加えた際に、前記重み係数を更新する重み係数更新手段を更に有することを特徴とする。
この場合、基準語句が増加した新たな基準語句の集合の下で新たに重み係数を計算し直し、配属スコアを算出するので、分類精度がさらに向上する。
請求項に記載の発明は、請求項に記載のデータベースの作成装置において、前記共起語句が、複数の前記カテゴリの基準語句に対する共起語句となる場合、前記重み係数の値を減少させることを特徴とする。
この場合、各カテゴリに共通して出現する共起語句に対する重み係数を減少させているため、各カテゴリを代表する共起語句に対する重み係数が相対的に高くなり、分類精度がさらに向上する。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、前記配属候補語句について、前記共起語句との前記共起関連性を、共起頻度に基づき算出することを特徴とする。この場合、共起関連性を統計的に求め、さらに分類精度が向上する。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、前記共起語句が、前記基準語句と係り受け関係を持つ語句であることを特徴とする。
この場合、評価対象の語句と同一文で係り受けの関係にある共起語句であるので、語句と共起語句とは直接的に関連があり、語句に対する評価がしやすくなる。
請求項に記載の発明は、請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、前記文書から語句を抽出する際、前記語句の品詞の組み合せパターンに基づき、前記文書中で隣接する複数の前記語句から複合語句を作成する複合語句作成手段を更に有することを特徴とする。
この場合、評価対象としての語句を、的確に複合語句として抽出できるため、文書中の情報を評価情報としてさらに活用しやすく、かつ、さらに分類精度が向上する。
請求項10に記載の発明は、コンピュータにより実行させるデータベースを作成するデータベースの作成方法であって、語句を分類するためのカテゴリを設定するカテゴリ設定ステップと、前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定ステップと、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出ステップと、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶ステップと、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出ステップと、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出ステップと、前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定ステップと、前記配属決定ステップによって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶ステップと、を有すること特徴とする。
請求項1に記載の発明は、コンピュータを、語句を分類するためのカテゴリを設定するカテゴリ設定手段、前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段、前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段、前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段、前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段、前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段、前記配属スコアに基づき前記基準語句候補または前記共起語句候補を前記カテゴリに配属を決定する配属決定手段、前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段として機能させることを特徴とする。
本発明によれば、文書から語句を抽出し、語句を分類するためのカテゴリを設定し、語句の中からカテゴリに関連した初期基準語句を設定し、初期基準語句と共に出現する共起語句を文書から抽出し、カテゴリへの配属候補となる語句と共起語句との共起関連性に基づき、カテゴリへの配属スコアを算出し、この配属スコアに基づき配属候補語句をカテゴリに配属させることにより、共起語句に関連した語句を成長・拡張して同一カテゴリに的確に集めることができ、カテゴリ分類された語句集合を説明する評価情報として共起語句を活用できるため、文書の情報を評価情報として活用できるカテゴリに的確に分類できる。
本発明に係る実施形態に係るデータベース作成装置の概要構成例を示す模式図である。 図1のデータベース作成装置が実行するプログラムの機能ごとのモジュールを示す模式図である。 図1のデータベース作成装置におけるカテゴリ、種語句および特徴語句の関連の一例を示す模式図である。 図1のデータベース作成装置が作成する複合語句のパターンの一例を示す説明図である。 図1のデータベース作成装置において設定されたカテゴリごとの種語句の一例を示す説明図である。 図1のデータベース作成装置における配属候補語句に対する配属スコアの一例を示す模式図である。 図1のデータベース作成装置におけるデータベース作成の動作例を示すフローチャートである。 図1のデータベース作成装置における配属候補語句の配属および重み係数の更新の一例を示す模式図である。 図1のデータベース作成装置による各カテゴリの単語数の結果の一例を示す説明図である。 図1のデータベース作成装置により分類された語句および語句の出現頻度の一例を示す説明図である。 図1のデータベース作成装置により得られたカテゴリの特徴語句の一例を示す説明図である。 図1のデータベース作成装置により得られた、各カテゴリにおける配属候補語句の適合率の一例を示す線図である。 図1のデータベース作成装置により得られた、各カテゴリにおける配属候補語句の適合率の一例を示す線図である。
以下、図面を参照して本発明を実施するための形態について説明する。
まず、本発明の実施形態に係るデータベース作成装置の概要構成および機能について、図に基づき説明する。
図1は、本発明の実施形態に係るデータベース作成装置の概要構成例を示す模式図である。
図1に示すように、データベース作成装置1は、インターネット上に存在するブログ等の文書における語句の分類等を行う制御部5と、制御部5の分類結果を記憶するデータベース30と、を備える。
データベース作成装置1は、インターネット等のネットワーク2を介してWebサーバ3に接続され、インターネット上のブログやLAN内のクチコミ等の文書を収集する。なお、データベース作成装置1をネットワーク等に接続せず、分析を行う文書をメディアから入力してスタンドアローンでデータベース作成装置1を作動させてもよい。
図1に示すように、制御部5は、コンピュータのプログラムの実行を行うCPU(Central Processing Unit)10と、実行するプログラム等を記憶するRAM(Random Access Memory)やROM(Read Only Memory)等のメモリ20等を有する。
制御部5は、データベース作成装置1全体を制御したり、語句の分類のための演算等の処理を行ったり、データベース30に演算結果等の書き込みや、データベース30の管理を行ったりする。
メモリ20には、語句の分類を実行するためのプログラムが展開されたり、分類に必要なカテゴリのメモリ空間が形成されたり、一時的に演算結果が記憶されたりする。
データベース30は、ハードディスクドライブ等を有し、ネットワーク2を介して収集した文書や制御部5における分類結果等を記憶する。
次に、データベース作成のためのプログラムの各モジュールについて図に基づき説明をする。
図2は、メモリ20において展開される、データベース作成装置1が実行するプログラムの機能ごとのモジュールを示す模式図である。
図2に示すように、メモリ20は、制御部5により実行される実行プログラムとして、分析する文書を入力したり、分類結果を出力したりする入出力モジュール21と、文書からカテゴリ分類対象となる語句(カテゴリへの配属候補となる語句として、以下、配属候補語句と称する)やある語句と共に出現する共起語句等を抽出する抽出関連モジュール22と、カテゴリや初期基準語句としての種語句を設定するカテゴリ等設定モジュール23と、配属候補語句のカテゴリへの配属スコアを算出等、カテゴリ分類に必要な各種の演算を行うスコア等演算モジュール24と、配属スコアに基づき語句をあるカテゴリに配属させる配属関連モジュール25等とを有する。
入出力モジュール21は、分析する文書の入力を受け付けたり、カテゴリの入力を受け付けたり、場合により外部から基準語句の入力を受け付けたりする入力手段や、配属候補語句をカテゴリに関連付けてデータベース30に記憶する記憶手段等を有する。
ここで、基準語句とは、カテゴリに関連した語句であり、例えば、食事に関するカテゴリを設定した場合、カテゴリの基準語句は“食事”の他に、“ごはん”、“コーヒー”等の下位概念や同義語や関連語でもよい。なお、初期基準語句である種語句については後述する。
抽出関連モジュール22は、文書から語句を抽出する語句抽出手段と、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する複合語句作成手段と、基準語句の語句と共に出現する共起語句を文書から抽出する共起語句抽出手段等と、を有する。
カテゴリ等設定モジュール23は、語句を分類するための目的カテゴリや分類の目的外の非目的カテゴリといったカテゴリを自動的に設定したり、ユーザからの入力を受け付けて設定したりするカテゴリ設定手段と、語句の中からカテゴリごとに関連した基準語句を設定する基準語句設定手段等と、を有する。基準語句設定手段は、既に設定されている基準語句および共起語句を参照して自動的に基準語句を設定するが、当該基準語句設定手段は、ユーザからの入力を受け付けて初期基準語句を設定するための初期基準語句設定手段を含む。ここで、目的カテゴリとは、分類の目的として、“食事”や“部屋”や“サービス”等に関する語句を分類したい場合のカテゴリであり、非目的カテゴリとは、これら目的カテゴリとは関連が薄いゴミのような語句を集めるためのカテゴリ(ゴミカテゴリ)である。
スコア等演算モジュール24は、語句のうち配属候補語句と、共起語句との共起関連性に基づき、配属候補語句に対してカテゴリへの配属スコアを算出する配属スコア算出手段と、基準語句と共起語句との関連の強さを示す重み係数を算出する重み係数算出手段と、重み係数を更新する重み係数更新手段等と、を有する。
配属関連モジュール25は、配属スコアに基づき配属候補語句をカテゴリに配属させる配属決定手段と、配属候補語句を配属されたカテゴリの基準語句に加える基準語句追加手段等と、を有する。
ここで、本実施形態の分類手法の概略を述べる。まず、データベース作成装置1は、入出力モジュール21の入力手段により解析する文書を取り込み、前処理として、抽出関連モジュール22の語句抽出手段および複合語句作成手段により、語句や複合語句を抽出し、共起語句抽出手段により、複合語句を含む語句と係り受け関係がある共起語句を抽出する。そして、データベース作成装置1は、カテゴリ初期設定として、カテゴリ等設定モジュール23のカテゴリ設定手段により、カテゴリを設定し、基準語句設定手段によりカテゴリに関連した種語句を設定する。初期設定後、データベース作成装置1は、自動分類プロセスとして、スコア等演算モジュール24の重み係数算出手段や配属スコア算出手段により、少数の種語句から自動的に各カテゴリの種語句の集合と共起語句の集合とを同時に拡張しながら、未分類の配属候補語句を分類していく。
具体的には、配属候補語句として、ある名詞句のカテゴリ分類を考える場合、名詞句の各カテゴリに対する配属スコアが計算され、一番高いスコアが出るカテゴリに、名詞句が分類される。名詞句とカテゴリとの間の配属スコアは名詞句がカテゴリの要素となる相応しさを表し、このスコアが名詞句とカテゴリの特徴語句集合との相互情報量等の統計量により算出される。なお、特徴語句集合と、相互情報量については後述する。
次に、カテゴリと、種語句と、共起語句の一例である特徴語句とについて、図に基づき説明する。
図3は、データベース作成装置1におけるカテゴリ、種語句、および、特徴語句の関連の一例を示す模式図である。
図3に示すように、カテゴリCは、目的カテゴリである、食事に関するカテゴリC1や、部屋に関するカテゴリC2等や、非目的カテゴリであるゴミカテゴリC0とを有する。
各カテゴリCは、種語句が“食事”、“コーヒー”のような名詞句の場合である名詞句の集合Nと、種語句と係り受けの関係にある“おいしい”のような特徴語句(ここでは、種語句と共起関係にある係り句)の集合Fとから形成される。
ここで、種語句とは、カテゴリに関連した基準語句の一例であって、特に初期設定される初期基準語句であり、またカテゴリのメンバー語句でもある。本実施形態の分類手法により、基準語句は成長する。すなわち、この種語句を基に、カテゴリのメンバー語句を成長させて、語句の分類を行うので、このような基準語句を特に種語句と称する。
また、特徴語句とは、カテゴリに属する語句に対して、主語・述語の関係や修飾・被修飾の関係や並立の関係等の係り受け関係にある語句であり、特徴語句集合Fは、カテゴリに対して特徴的な語句群であってカテゴリを特徴づけている。例えば、“食べる”、“おいしい”、“飲む”等と係り受けの関係にあり、共起する名詞句はカテゴリ食事C1のメンバー語句である可能性が高いと考えられる。本実施形態の分類手法の基本的な考え方として、同じ特徴的な語句群と共起する名詞句を同じカテゴリに分類することにある。なお、本実施形態では、評価対象のほとんどが名詞句であることを想定し、各名詞句と係り受け関係を持つ語句(名詞句、動詞句、形容詞)を特徴語句として扱う。また、特徴語句を生成するために、語句同士の係り受け関係を利用し、係り受け関係の抽出は文単位で行われ、名詞句とその名詞句に係る前文脈、又は、後文脈の特徴語句をペアとして抽出する。
次に、抽出関連モジュール22における複合語句の作成について、図に基づき説明する。図4は、データベース作成装置1が作成する複合語句のパターンの一例を示す説明図である。
本実施形態では、一般的な形態素解析ツールにより抽出された語句に対して、予め設定した複合語句のパターンに基づき、複合語句を作成する。特に、名詞句と動詞句に対して、複合語句を作成する。
具体的には、図4に示すように、複合語句のパターンとして、名詞句の場合、3つの品詞「名詞一般」、「名詞サ変接続」、および、「名詞接尾一般」の組み合せにより、複合語句のパターンが抽出される。また、動詞句の場合、「名詞サ変接続」に続き、「自立動詞」が出現するパターンを抽出する。例えば、「更新できる」、「利用する」である。なお、これらの品詞は、IPA(International Phonetic Alphabet)の品詞体系に基づいている。また、英語の場合は、複合語句として、ハイフンにより接続された単語に限らず、名詞句の場合、英語の名詞句として“heated pools”のような意味の一かたまりの語句を含み、また、動詞句の場合、英語の動詞句として、英語の動詞と前置詞や副詞等との組み合せの熟語が対応する。
このように、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句が作成される。そして、このような複合語句に対して係り受けの関係にある語句(複合語句を含む)が抽出される。
次に、カテゴリ等設定モジュール23におけるカテゴリの設定および種語句の設定について図に基づき説明する。図5は、データベース作成装置1において設定されたカテゴリごとの種語句の一例を示す説明図である。
図5に示すように、分類の目的に応じて食事カテゴリC1や部屋カテゴリC2等のような目的カテゴリと、ゴミカテゴリC0のような非目的カテゴリと、を予め設定する。なお、種語句の設定については後述する。
次に、スコア等演算モジュール24における特徴語句の重み係数について図3に基づき説明する。
図3に示したように、特徴語句集合Fの各特徴語句に対して、重み係数Wを算出する。特徴語句の重み係数は、特徴語句と名詞句集合Nの各語句との関連の強さを示し、例えば、カテゴリCkに属する特徴語句の重み係数Wの値coefkは、カテゴリCkの名詞句集合Nkの多くの名詞句と共起し、しかも共起頻度が高いほど、値が大きくなる。
ここで、カテゴリCkを考え、Ckの特徴語句集合をFk={f1、f2、f3,・・・,fh}とし、Ckの名詞句集合をNk={n1、n2、n3、・・・nl}とする。この時、特徴語句fi∈FkのカテゴリCkに対するの重み係数の値coefk(fi)は基本的に特徴語句fiと集合Nkの間の相互情報量で計算される。しかも、図3に示したように、例えば、特徴語句“うれしい”が、食事カテゴリC1や部屋カテゴリC2等の複数のカテゴリの特徴語句になることもあり、他のカテゴリの特徴語句ともなっている場合の影響力を減らすために、上記の相互情報量をFcatiにより更に割り、重み係数の値coefk(fi)が、次の式(1)のように算出される。
Figure 0005295818
但し、
Figure 0005295818
である。
ここで、Fcatiは特徴語句fiが特徴語句として含まれているカテゴリの数、Fwordは語句の出現頻度の総数、Fpairは、特徴語句−名詞句ペアの出現頻度の総数、freq(fi)、freq(nj)はそれぞれfiとnjの出現頻度、freq(fi,nj)は、njに係ったfiの出現頻度(共起頻度)である。
このように、共起語句の一例である特徴語句が、複数のカテゴリの基準語句に対する特徴語句となる場合、重み係数の値を減少させて、カテゴリ固有の特徴語句に重きが置かれるようになっている。
次に、スコア等演算モジュール24における各カテゴリに対する配属スコアについて図6に基づき説明する。
図6は、データベース作成装置1における配属候補語句に対する配属スコアの一例を示す模式図である。
図6に示すように、配属候補語句、例えば、名詞句“パン”について、各カテゴリCkに対する配属スコアAsを算出する。カテゴリに対する配属スコアAsは、抽出した語句のうち配属候補語句niと、カテゴリCの特徴語句との共起関連性に基づき算出され、ある名詞句niがカテゴリCに分類されるに相応しい度合いを表す数値である。
実際に、未分類の名詞句niを分類する際、名詞句niの各カテゴリに対する配属スコアを計算し、一番高い配属スコアが算出されたカテゴリCに名詞句niが分類される。本実施形態では、配属スコアの計算は特徴語句の重み係数Wを考慮した相互情報量を用いる。
本実施形態では、分類過程中、カテゴリの特徴語句が拡張されていく。カテゴリCkのある時点における特徴語句集合をFkとすると、評価対象の名詞句niのカテゴリCkに対する配属スコアは次の式(2)で計算される。
Figure 0005295818
配属スコアAsは、名詞句niと、カテゴリCkの特徴語句集合Fkとの間の相互情報量を基礎にして、特徴語句集合Fkの特徴語句fjの重み係数の値coefk(fj)を組み込んだ形になっている。このように、配属スコアAsは、配属候補語句の名詞句niと特徴語句fjとの共起頻度freq(fi,nj)および重み係数Wに基づき算出される。
次に、本実施形態の動作について図に基づき説明する。
図7は、データベース作成装置1におけるデータベース作成の動作例を示すフローチャートである。
まず、制御部5のCPU10は、入出力モジュール21を用いて、ネットワーク2を介してWebサーバ3等から、ユーザレビューサイトやお客様アンケートや個人ブログ等の分類対象の文書を収集し、データベース30に記憶させる。
次に、図7に示すように、制御部5のCPU10は、カテゴリ分類のための前処理を行う(ステップS1)。前処理では、CPU10は、抽出関連モジュール22を用いて、配属候補語句としての語句を抽出し、抽出した語句と共起する共起語句を抽出し、語句とその共起語句とのペアを作成しておく。具体的には、CPU10は、複合語句を含む名詞句を文書から抽出し、抽出した名詞句と係り受け関係にある特徴語句を抽出し、名詞句と特徴語句とのペアを作成しておく。そして、CPU10は、作成した名詞句と特徴語句とのペアを、メモリ20やデータベース30に記憶しておく。また、CPU10は、式(1)で使用する単語の出現頻度の総数Fwordや、特徴語句−名詞句ペアの出現頻度の総数Fpairを集計しておく。このように制御部5のCPU10が、文書からカテゴリへの配属候補となる語句を抽出する語句抽出手段として機能する。
なお、本実施形態では、語句抽出手段や共起語句抽出手段として、一般的な形態素解析器や係り受け分析器を用いているが、複合語句の作成について、CPU10は、図4に示したように、独自に、複合語句のパターンに基づき、複合語句を作成している。このように、制御部5のCPU10が、文書から語句を抽出する際、語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する複合語句作成手段として機能する。
前処理で、名詞句―特徴語句のペアのような語句とその共起語句とのペアを作成した後、制御部5のCPU10は、カテゴリCの設定を行う(ステップS2)。CPU10は、図3や図5に示したように、カテゴリとして、名詞句を分類するための目的カテゴリと、分類の目的外の非目的カテゴリと、を設定する。具体的には、CPU10は、目的カテゴリとして、食事に関するカテゴリC1、部屋に関するカテゴリC2等と、非目的カテゴリとして、ゴミカテゴリC0と、を設定する。カテゴリの設定の仕方として、CPU10が、入出力モジュール21を用いて、カテゴリに関するデータを読み込む。このカテゴリに関するデータは、CPU10が、文書中の高頻度の語句からカテゴリ候補としてカテゴリの数分以上の語句を選択し、選択した語句の中から、類義語辞書等を用いて、概念が近い語句同士をまとめて、より上位概念の語句をカテゴリの候補として、自動作成する。カテゴリの数はデフォルトでも、ユーザからの入力を受け付けるようにしてもよい。なお、カテゴリに関するデータは、分類の目的に応じて、予めキーボード等の入力手段からユーザが入力した情報や、文書中の語句の出現頻度等に基づき、ユーザが文書中の高頻度の語句からカテゴリ候補としていくつかを選択して入力してもよい。このように制御部5のCPU10が、語句を分類するためのカテゴリを設定するカテゴリ設定手段として機能する。さらに、カテゴリの数およびカテゴリの名称について、ユーザからの入力を受け付けて、カテゴリ設定手段がカテゴリを設定する場合もある。
次に、制御部5のCPU10は、各カテゴリに対する種語句の設定をする(ステップS3)。図3や図5に示したように、種語句として、例えば、食事に関するカテゴリC1において、“食事”、“バイキング”、“コーヒー”等を設定する。種語句の設定の仕方として、CPU10が、抽出した語句の中の高頻度の語句から、目的カテゴリC1、C2、・・・を示す用語の関連語句や下位概念や同義語を該当カテゴリの種語句とすることが好ましい。一方、出現頻度の高い語句うち、目的カテゴリに該当しなかった語句を、ゴミカテゴリC0の種語句として設定する。このように制御部5のCPU10が、カテゴリごとに1または2以上の基準語句の入力を受け付け、この基準語句を初期基準語句として設定する基準語句設定手段として機能する。
種語句は、分類対象の文書から抽出した語句が望ましい。そこで、制御部5のCPU10が、抽出した語句の出現頻度や、分類の目的等に基づいたカテゴリを表す語句や、各カテゴリの種語句を提示する等によって、ユーザの操作によりキーボード等から種語句を受け付ける。分類対象の文書から抽出した語句に関係なく、種語句を設定すると、これに対応する特徴語句がないこともあり、種語句と特徴語句とのペアを形成できず、例えば、重み係数がゼロになり、その後の計算が無駄になる可能性はあるが、分類精度の向上のためにはユーザの操作によって種語句を受け付けることが好ましい。もし、分類対象の文書から抽出した語句に該当しない語句を種語句として、キーボード等からの入力を受け付けた場合、CPU10が、類義語辞典等で、同義語や関連語句や下位概念の語句に広げ、その中で、抽出した語句に該当する語句を、本実施形態のカテゴリ分類手法で用いる種語句とする。
種語句の設定がされたら、制御部5のCPU10は、各カテゴリCに対する特徴語句集合Fの生成をする(ステップS4)。例えば、図3や図6に示したように、CPU10は、各目的カテゴリC1、C2、・・・の特徴語句集合F1、F2、・・・や、ゴミカテゴリC0の特徴語句集合F0を生成する。特徴語句集合Fの生成の仕方として、CPU10は、ステップS1の前処理で作成した語句とその共起語句とのペアを用い、種語句に対応する特徴語句を求め、特徴語句集合の生成をする。なお、種語句が設定された時点で、係り受け解析器を使用して、特徴語句を抽出してもよい。このように制御部5のCPU10が、初期基準語句を含む基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段として機能する。
そして、制御部5のCPU10が、初期のカテゴリ分類として、各カテゴリの種語句と特徴語句とをデータベース30に記憶させておく。このようにCPU10が、初期基準語句と共起語句とをデータベースに記憶する第一記憶手段として機能する。
次に、制御部5のCPU10は、式(1)に従い、各カテゴリCの特徴語句集合Fにおいて、各特徴語句の重み係数Wを算出する(ステップS5)。図3に示すように、CPU10は、各特徴語句集合F0、F1、F2、・・・における各特徴語句の重み係数Wを算出する際、例えば、食事に関するカテゴリC1では、特徴語句“おいしい”や特徴語句“食べる”等に対して、それぞれ重み係数の値coef1(f1)、coef1(f2)・・・を算出する。
具体的な計算手順として、あるカテゴリCkの特徴語句fiに注目した場合、まず、CPU10は、カテゴリCk以外のカテゴリCの特徴語句集合Fの中に、特徴語句fiが存在するかを検索して、特徴語句fiが特徴語句として含まれているカテゴリの数Fcatiを計算する。このように制御部5のCPU10は、共起語句の一例である特徴語句fiが、複数のカテゴリCの基準語句に対する共起語句となる場合、重み係数Wの値を減少させている。
そして、CPU10は、文書おいて、特徴語句fiの出現頻度freq(fi)や、カテゴリCkの名詞句集合Nkにおける各名詞句njの出現頻度freq(nj)や、特徴語句fiと名詞句njとの共起頻度freq(fi,nj)を集計し、語句の出現頻度の総数Fwordや、特徴語句−名詞句ペアの出現頻度の総数Fpairの結果に基づき、重み係数を式(1)に従い算出する。
このように制御部5のCPU10が、基準語句と共起語句との関連の強さを示す重み係数Wを算出する重み係数算出手段として機能し、重み係数Wに基づき前記配属スコアAsを算出している。
以上、ステップS2からステップS5までがカテゴリの初期設定である。
次に、ステップS10からステップS15における分類対象の名詞句の分類の処理について説明する。
図7に示すように、制御部5のCPU10は、未分類の名詞句を取得する(ステップS10)。CPU10は、種語句に設定された以外の名詞句から、メモリ20やデータベース30等から名詞句を取得する。そして、CPU10は、名詞句の各カテゴリに対する配属スコアを式(2)に従い算出する(ステップS11)。例えば、図6に示すように、未分類の名詞句niを“パン”とすると、CPU10は、この名詞句niと、特徴語句集合F0、F1、F2・・・との配属スコアAs0、As1、As2・・・を各々算出する。なお、具体的な計算手順は、式(1)と似ているが、総和の範囲が、式(1)の場合は名詞句集合Nkであったが、式(2)では、特徴語句集合Fkである。このように制御部5のCPU10は、語句のうち配属候補語句の一例である名詞句niと、共起語句の一例である特徴語句との共起関連性に基づき、配属候補語句に対してカテゴリCへの配属スコアを算出する配属スコア算出手段として機能する。
次に、制御部5のCPU10は、名詞句niを配属スコアが最も高いカテゴリCに配属させる(ステップS12)。例えば、図6に示したように、食事に関するカテゴリC1への配属スコアAs1が最も高いので、CPU10は、図8に示すように、名詞句ni“パン”を配属スコアが最も高い食事に関するカテゴリC1の名詞句集合N1に配属させる。名詞句niがカテゴリC1へ配属されることにより、名詞句集合N1のメンバー語句が増加し、基準語句の一例である種語句が増加することになる。このカテゴリC1の基準語句の増加により、ステップS11での配属スコアAsの値や後述するステップS14での重み係数Wの値が変化する。このように制御部5のCPU10は、配属候補語句の一例である名詞句niを配属されたカテゴリCの基準語句の集合Nに加える基準語句追加手段として機能する。また制御部5のCPU10が、配属スコアAsに基づき配属候補語句をカテゴリCに配属させる配属決定手段として機能する。
名詞句の配属が決まった後、制御部5のCPU10は、名詞句niと関連した特徴語句のうち、名詞句niが配属されたカテゴリCkの特徴語句集合Fkに属していない特徴語句が存在すれば、この特徴語句を特徴語句集合Fkに追加する(ステップS13)。例えば、図6に示したように、名詞句ni“パン”の特徴語句の“香ばしい”は、特徴語句集合F1にまだ存在しないので、CPU10は、図8に示すように、特徴語句“香ばしい”を、特徴語句集合F1に追加する。
次に、制御部5のCPU10は、新たに名詞句niが配属されたカテゴリCkにおいて、特徴語句集合Fkの各特徴語句の重み係数Wを更新する(ステップS14)。例えば、図8に示すように、CPU10は、新たなメンバー語句が増加した名詞句集合N1と、特徴語句集合F1の各特徴語句との各重み係数の値coef1を計算し直す。このように制御部5のCPU10は、配属候補語句の一例である名詞句niを配属されたカテゴリCの基準語句の一例である種語句に加えた際に、重み係数Wを更新する重み係数更新手段として機能する。
次に、制御部5のCPU10は、全ての名詞句が分類されたか判定をする(ステップS15)。全ての名詞句が分類されていない場合(ステップS15;NO)、制御部5のCPU10は、ステップS10に戻り、未分類の名詞句を取得して、名詞句の分類処理を行う。一方、全ての名詞句が分類された場合(ステップS15;YES)、制御部5のCPU10は、分類処理を終了する。
分類処理が終了したら、制御部5のCPU10は、カテゴリに配属された名詞句や共起語句を各カテゴリC0、C1、C2、・・・に関連付けてデータベース30に記憶する。このように、制御部5のCPU10は、カテゴリ毎に配属候補語句と特徴語句とが分類され、個々の語句が配属スコアAsによりランク付けされ、特徴語句には重み係数Wが付されたデータベース30を作成する。なお、配属候補語句の配属を決める毎に、制御部5のCPU10は、配属候補語句の名詞句や特徴語句をデータベース30に記憶してもよい。このように制御部5のCPU10が、カテゴリに配属された配属候補語句をカテゴリに関連付けてデータベースに記憶する第2記憶手段として機能する。
このように本発明によれば、制御部5のCPU10は、文書から語句を抽出し、語句を分類するためのカテゴリCを設定し、語句の中からカテゴリCに関連した種語句を設定し、種語句と共に出現する特徴語句を文書から抽出し、語句のうち配属候補語句niと特徴語句との共起関連性に基づき、対象語句niに対してカテゴリへの配属スコアAsを算出し、この配属スコアAsに基づき配属候補語句niをカテゴリに配属させることにより、特徴語句に関連した語句を成長・拡張して同一カテゴリCに的確に集めることができ、カテゴリ分類された語句集合を説明する評価情報として共起語句を活用できるため、文書中の情報を評価情報として活用できるカテゴリCに的確に分類できる。
例えば、評価対象の名詞句がどのように形容がされているか、どのような動詞と関連しているか、どのような名詞句と関連しているかを把握しやすいため、評価が判断しやすく、評価情報として活用しやすい。
また、分類された名詞句niを配属スコアAsの順にランク付けもすることができ、名詞句集合Nの中で、どのような語句が特に評価対象になっているかが分かる。
また、本実施形態のカテゴリ分類方法は、学習が不要であるため、取り扱いが容易である。
また、カテゴリの設定や種語句の設定において、制御部5のCPU10が自動的に設定を行うとユーザの負担を減らすことができ、ユーザがカテゴリ分類の概要を容易に把握することができる。
また、語句の出現頻度や、自動設定により分類結果をユーザが見て、さらに、ユーザがカテゴリや種語句の設定をしたり、修正を行ったりすることによりさらに分類の精度を上げることができる。
また、本発明によれば、語句を分類するための目的カテゴリC1、C2、・・・と、分類の目的外のゴミカテゴリC0と、が設定されることにより、分類の目的と異なるゴミカテゴリC0があるため、制御部5のCPU10が、ゴミカテゴリC0との関連性が高い語句をゴミカテゴリC0に的確に配属し、誤って目的カテゴリC1、C2、・・・に配属することを防止できる。すなわち、本実施形態のカテゴリ分類方法は、ノイズに対して頑健であり、分類精度がさらに向上する。また、配属スコアに対して、目的カテゴリに所属させるか否かの閾値を設定しなくても、ゴミカテゴリへの配属スコアが高い配属候補語句は、目的カテゴリに所属されないため、配属スコアに対して閾値を定める手間を省くことができる。なお、配属スコアに対して閾値を設け、閾値以下の場合は、全てゴミカテゴリに所属させてもよい。
また、制御部5のCPU10は、配属候補語句の名詞句niを、配属されたカテゴリCkの種語句の集合Nkに加える場合、少ない種語句から順次種語句の集合Nkを成長させることにより、少ない種語句が予め設定されるだけで、語句を精度よくカテゴリに分類できる。
また、制御部5のCPU10が、外部から種語句の入力を受け付ける場合、ユーザが、各カテゴリC0、C1、C2、・・・の種語句を入力するだけで、容易にカテゴリ分類ができる。
また、制御部5のCPU10が、種語句と特徴語句との関連の強さを示す重み係数Wを算出し、重み係数Wに基づき配属スコアAsを算出する場合、各カテゴリの語句の集合N0、N1、N2、・・・と関連性が高い特徴語句に重きを置いて分類するため、さらに分類精度が向上する。
また、制御部5のCPU10が、対象語句の名詞句niを配属されたカテゴリの種語句の集合に加えた際に、重み係数Wを更新する場合、種語句が増加した新たな種語句の集合の下で新たに重み係数Wを計算し直し、配属スコアAsを算出するので、分類精度がさらに向上する。
また、特徴語句が、複数のカテゴリの種語句に対する特徴語句となり、制御部5のCPU10が、重み係数Wの値を減少させる場合、各カテゴリC0、C1、C2、・・・に共通して出現する特徴語句に対する重み係数Wを減少させているため、各カテゴリを代表する特徴語句に対する重み係数Wが相対的に高くなり、分類精度がさらに向上する。
また、制御部5のCPU10が、配属候補語句の名詞句niと特徴語句との共起関連性を、名詞句niと特徴語句との共起頻度に基づき算出する場合、例えば相互情報量を使用する場合、共起関連性を統計的に求めることができ、さらに分類精度が向上する。
また、特徴語句が、種語句と係り受け関係を持つ語句である場合、評価対象の語句と同一文で係り受けの関係にある特徴語句であるので、分類された名詞句と特徴語句とは直接的に関連があり、名詞句に対する評価がしやすくなる。
また、制御部5のCPU10が、文書から語句を抽出する際、名詞句や動詞句等の語句の品詞の組み合せパターンに基づき、文書中で隣接する複数の語句から複合語句を作成する場合、評価対象としての語句を、的確に複合語句として抽出できるため、文書中の情報を評価情報としてさらに活用しやすく、かつ、さらに分類精度が向上する。
次に、実際のデータに本分類手法を適用した実施例について説明する。
実験データは、楽天トラベル「お客様の声」の10,000感想文書(全部で40,007文が含まれている)であり、“部屋”、“食事”、“風呂”、“サービス”、“設備”、“立地”、“料金”、“ゴミ”の計8つのカテゴリに、評価対象を分類した。なお、本実施例では、形態素解析器Mecab(URLは、http://mecab.sourceforge.net/)や日本語係り受け分析器Cabocha(URLは、http://chasen.org/ taku/software/cabocha/)が使用された。
図9は、データベース作成装置1による各カテゴリの単語数の結果の一例を示す説明図である。図9に示すように、目的カテゴリの中では、語句のほとんどが部屋に関するカテゴリC3に分類され、ゴミカテゴリC0には、多くの語句が該当した。
次に、図10は、図1のデータベース作成装置により分類された語句および語句の出現頻度の一例を示す説明図である。図10には、食事に関するカテゴリC1の名詞句集合N1に配属された名詞句の一例を示している。これらの名詞句は、配属スコアAsの値が高い順に並んでいる。なお、括弧の中の数字が出現頻度を示している。図10に示すように、“定食”や“ディナー”のように出現頻度が2回と少ない語句にも関わらず、配属スコア上、上位のランクに位置している。この結果は、従来の方法のように出現頻度が高い単語を分類対象とする方法では、このような結果を得ることは難しい。
次に、図11は、データベース作成装置1により得られたカテゴリの特徴語句の一例を示す説明図である。図11では、一例として、カテゴリC1、カテゴリC4に対し、重み係数Wが高い順に上位20の特徴語句の一部が挙げられている。
図11に示すように、食事に関するカテゴリC1では、カテゴリC1に固有の特徴語句“おいしい”等が上位に表れている。このことは、後述する適合率において、食事に関するカテゴリC1の高い適合率が平均で約90%であることにも表れている。また、サービスに関するカテゴリC4においても、特徴語句は“丁寧”等の接客態度を表す単語が上位に表れた。また、本手法は、意味範囲が狭いカテゴリほど分類精度がよい傾向も得られた。この結果は、本実施形態の分類手法の基本的な考え方として、同じ特徴的な語句群と共起する名詞句を同じカテゴリに分類することと合致している。
次に、図12、図13において、分類結果の評価を示す。
図12および図13は、データベース作成装置により得られた、各カテゴリにおける語句の適合率の一例を示す線図である。
評価方法として、分類結果に対して3値評価(”正”、”疑”、”負”)を行った。なお、”正”、”疑”、および、”負”は、それぞれ、”語句が正しく分類された”、”場合によってこのカテゴリに語句が分類されることも考えられる”、および、”語句が他のカテゴリに分類されるべき”に対応している。
この評価により、語句が適切なカテゴリに分類されたか、また、ゴミカテゴリC0を設定することで、評価対象となりえない語句がフィルタリングされるかどうか確認を行った。さらに、本実施例では分類された語句のランクの適切さを評価するために、各カテゴリの上位の語句をランク分けして、上位10位、上位20位、上位40位、上位60位、上位80位、上位100位、上位150位の適合率を集計している。
ここで、横軸の評価単語数は、“正”、”疑“、“負”のように評価される語句の数であり、配属スコアが上位の名詞句から順に取り出している。例えば、評価単語数が20個の場合、あるカテゴリCの名詞句のうち、配属スコアが上位20位の20個の名詞句に対して、適合率を計算している。縦軸の適合率は、評価する語句の数に対して、適切なカテゴリに分類された単語数の割合である。例えば、上位20位の場合は、“正”に該当する単語数、または、“正”、”疑“に該当する単語数を、20個で割った割合である。
図12は、正解が“正”のみの場合、図13は、正解が“正”または”疑“の場合である。なお、図12および図13で各カテゴリC0〜C7におけて示すことができる評価単語数は、図9に示したように、各カテゴリC0〜C7の抽出した単語数までである。
図12および図13に示すように、上位に行くほど、すなわち評価単語数が少なくなるほど、適合率が高いため、上位の単語が適切に各カテゴリC0、C1、C2・・・に分類されていることが分かる。また、ゴミカテゴリC0の適合率が平均で90%となっているので、ゴミカテゴリC0にも名詞句が適切に分類されたことが分かる。
なお、本実施形態では、初期の基準語句として種語句を設定し、種語句が成長していくが、基準語句を固定しておいてもカテゴリ分類はできる。
また、本実施形態では、目的カテゴリとして複数設定したが、目的カテゴリC1が1つで、非目的カテゴリC0の場合や、カテゴリC1のみ場合でもよい。これらの場合でも、カテゴリC1に属する語句のみを集め、集められた語句の配属スコアや、関連した共起語句が分かるため、ある文書においてどのような評価対象が存在するのか、その評価対象がどのように評価されているかの判断に活用できる。
また、分類対象として、本実施形態では、名詞句としたが、他の品詞の語句でもよい。ある語句群と、それに対する共起する語句の語句群とにより、語句群に対する評価等が可能である。
さらに、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
1・・・データベース作成装置
5・・・制御部
10・・・CPU
20・・・メモリ
21・・・入出力モジュール
22・・・抽出関連モジュール
23・・・カテゴリ等設定モジュール
24・・・スコア等演算モジュール
25・・・配属関連モジュール
30・・・データベース

Claims (11)

  1. 語句を分類するためのカテゴリを設定するカテゴリ設定手段と、
    前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段と、
    前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段と、
    前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段と、
    前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段と、
    前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段と、
    前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段と、
    前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段と、
    を備えたこと特徴とするデータベースの作成装置。
  2. 請求項1に記載のデータベースの作成装置において、
    前記カテゴリ設定手段が、語句を分類するための目的カテゴリおよび前記分類の目的外の非目的カテゴリを設定することを特徴とするデータベースの作成装置。
  3. 請求項1または請求項2に記載のデータベースの作成装置において、
    外部から前記基準語句の入力を受け付ける入力手段を更に備えたことを特徴とするデータベースの作成装置。
  4. 請求項1から請求項3のいずれか1項に記載のデータベースの作成装置において、
    前記基準語句と前記共起語句との関連の強さを示す重み係数を算出する重み係数算出手段を更に有し、
    前記重み係数に基づき前記配属スコアを算出することを特徴とするデータベースの作成装置。
  5. 請求項4に記載のデータベースの作成装置において、
    前記配属候補語句を前記カテゴリの前記基準語句に加えた際に、前記重み係数を更新する重み係数更新手段を更に有することを特徴とするデータベースの作成装置。
  6. 請求項に記載のデータベースの作成装置において、
    前記共起語句が、複数の前記カテゴリの基準語句に対する共起語句となる場合、前記重み係数の値を減少させることを特徴とするデータベースの作成装置。
  7. 請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、
    前記配属候補語句について、前記共起語句との前記共起関連性を、共起頻度に基づき算出することを特徴とするデータベースの作成装置。
  8. 請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、
    前記共起語句が、前記基準語句と係り受け関係を持つ語句であることを特徴とするデータベースの作成装置。
  9. 請求項1から請求項のいずれか1項に記載のデータベースの作成装置において、
    前記文書から語句を抽出する際、前記語句の品詞の組み合せパターンに基づき、前記文書中で隣接する複数の前記語句から複合語句を作成する複合語句作成手段を更に有することを特徴とするデータベースの作成装置。
  10. コンピュータにより実行させるデータベースを作成するデータベースの作成方法であって、
    語句を分類するためのカテゴリを設定するカテゴリ設定ステップと、
    前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定ステップと、
    前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出ステップと、
    前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶ステップと、
    前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出ステップと、
    前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出ステップと、
    前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定ステップと、
    前記配属決定ステップによって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶ステップと、
    を有すること特徴とするデータベースの作成方法。
  11. コンピュータを、
    語句を分類するためのカテゴリを設定するカテゴリ設定手段、
    前記カテゴリごとに1または2以上の基準語句の入力を受け付け、当該基準語句を初期基準語句として設定する基準語句設定手段、
    前記初期基準語句と共に出現する共起語句を文書から抽出する共起語句抽出手段、
    前記初期基準語句と前記共起語句をデータベースに記憶する第一記憶手段、
    前記文書から前記カテゴリへの配属候補となる語句を抽出する語句抽出手段、
    前記配属候補語句について、前記共起語句との共起関連性に基づき前記カテゴリへの配属スコアを算出する配属スコア算出手段、
    前記配属スコアに基づき前記配属候補語句を前記カテゴリに配属を決定する配属決定手段、および、
    前記配属決定手段によって前記カテゴリに配属された前記配属候補語句を前記カテゴリに関連付けて前記データベースに記憶する第二記憶手段として機能させることを特徴とするデータベースの作成プログラム。
JP2009039999A 2009-02-23 2009-02-23 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム Active JP5295818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009039999A JP5295818B2 (ja) 2009-02-23 2009-02-23 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009039999A JP5295818B2 (ja) 2009-02-23 2009-02-23 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Publications (3)

Publication Number Publication Date
JP2010198141A JP2010198141A (ja) 2010-09-09
JP2010198141A5 JP2010198141A5 (ja) 2012-04-05
JP5295818B2 true JP5295818B2 (ja) 2013-09-18

Family

ID=42822835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009039999A Active JP5295818B2 (ja) 2009-02-23 2009-02-23 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム

Country Status (1)

Country Link
JP (1) JP5295818B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6188222B2 (ja) * 2013-12-26 2017-08-30 日本放送協会 トピック抽出装置、及びプログラム
CN110413956B (zh) * 2018-04-28 2023-08-01 南京云问网络技术有限公司 一种基于bootstrapping的文本相似度计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3847273B2 (ja) * 2003-05-12 2006-11-22 沖電気工業株式会社 単語分類装置、単語分類方法及び単語分類プログラム
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2007264985A (ja) * 2006-03-28 2007-10-11 Oki Electric Ind Co Ltd 情報分類方法、情報分類装置及び情報分類プログラム

Also Published As

Publication number Publication date
JP2010198141A (ja) 2010-09-09

Similar Documents

Publication Publication Date Title
McCarthy et al. Unsupervised acquisition of predominant word senses
US10394830B1 (en) Sentiment detection as a ranking signal for reviewable entities
US9710457B2 (en) Computer-implemented patent portfolio analysis method and apparatus
JP5817491B2 (ja) 商品検索装置およびプログラム
US7657546B2 (en) Knowledge management system, program product and method
US8983963B2 (en) Techniques for comparing and clustering documents
US7783629B2 (en) Training a ranking component
US20090094208A1 (en) Automatically Generating A Hierarchy Of Terms
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
Qazi et al. Enhancing business intelligence by means of suggestive reviews
JP2005309853A (ja) 専門的記述と非専門的記述間の語彙変換方法・プログラム・システム
CN111080055A (zh) 酒店评分方法、酒店推荐方法、电子装置和存储介质
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2010198142A (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP5295818B2 (ja) 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Prakhash et al. Categorizing food names in restaurant reviews
Piasecki et al. Extraction of the multi-word lexical units in the perspective of the wordnet expansion
Herng Leong et al. Classification of Healthcare Service Reviews with Sentiment Analysis to Refine User Satisfaction
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
da Rocha et al. Polarity classification on web-based reviews using Support Vector Machine

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120220

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120220

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20120413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130612

R150 Certificate of patent or registration of utility model

Ref document number: 5295818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250