JP5846959B2

JP5846959B2 - 基本語彙抽出装置、及びプログラム

Info

Publication number: JP5846959B2
Application number: JP2012038206A
Authority: JP
Inventors: 秀弥美野; 田中　英輝; 英輝田中
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2016-01-20
Anticipated expiration: 2032-02-24
Also published as: JP2013174995A

Description

本発明は、基本語彙抽出装置、及びプログラムに関する。

言語教育や辞書作成などにおいて、基本語彙の作成が求められることがある。この基本語彙とは、任意の文書集合を読む上で理解した方が良い語彙である。例えば、子供や外国人などがニュースなどの文章集合を読むときには、その文章集合の基本語彙を理解しておくと、内容の理解が容易になる。基本語彙の数は目的によって変動し、例えば、文章集合の基本的な内容を理解するための基本語彙であれば少なく、より高度に理解するための基本語彙であれば多くなる。

一方、文書集合中から用語を抽出する技術として、専門用語を抽出するものがある（例えば、特許文献１参照。）。特許文献１では、医療分野など特定の分野において、頻度や用語の長さなど複数の基準を用いて用語を抽出している。

特開２００８−２９３０７０号公報

既存の基本語彙抽出法には、専門家による主観的な抽出法の他、文書集合中の単語の頻度や分布度などの基準を用いた統計的手法が提案されている。しかし、主観的な手法の場合、人手で基本語彙を抽出するために莫大なコストと時間がかかる。例えば、基本語彙の数が変更になったときなどには、抽出作業をやり直さなければならないこともある。

他方の統計的手法は頻度のみを用いるものが多く、文書全体を幅広くカバーする手法について十分な言及をしているものはない。出現頻度のみを用い、文書集合中の出現頻度の偏りについて考慮しないと、例えば、１つの文書に何度も出現するが、出現する文書が限定されている用語が抽出されてしまう。また、複数の単語（形態素）からなる複合語が基本語彙となることも十分考えられるが、複合語を考慮した手法についても提案されていない。

上述した特許文献１では、複合語を抽出することができるが、抽出対象は専門用語である。専門用語は基本語彙とは性質が異なるため、特許文献１の技術をそのまま基本語彙の抽出に利用することはできない。例えば、特許文献１では、専門用語には複合名詞が多いという特徴から、複合名詞に特化して構成要素の長い用語を優先的に抽出するような手法を用いている。しかし、基本語彙は複合名詞に限定されるものではない。また、専門用語だけを基本語彙としても、例えば、文書に使用されている言語を学習しはじめたばかりの人が、そのような基本語彙から文書の内容を理解するのは困難である。

本発明は、このような事情を考慮してなされたもので、任意の文書集合から基本語彙とすべき語を抽出することができる基本語彙抽出装置、及びプログラムを提供する。

［１］本発明の一態様は、複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部と、文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部と、基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部と、前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部と、前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部と、前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部と、を具備することを特徴とする基本語彙抽出装置である。
この態様によれば、基本語彙抽出装置の複合語認定部は、基本語彙抽出対象のコーパスである複数の文書データに含まれる文章についての形態素解析結果の入力を受ける。複合語認定部は、入力された形態素解析結果を、複合語の候補となる形態素列の表現パターンと照合して、合致する形態素列を複合語候補データとして出力し、合致しない形態素をそのまま形態素データとして出力する。頻度データ作成部は、文書データ全体の集合を参照し、複合語認定部から出力される複合語候補データと形態素データそれぞれの頻度及び文書頻度を算出して頻度データ記憶部に書き込む。基本語彙度算出部は、頻度データテーブルから読み出した複合語データと形態素データそれぞれの頻度及び文書頻度とを用い、基本語彙計算式により基本語彙度を算出する。基本語彙認定部は、算出された基本語彙度が所定基準よりも高い複合語データと形態素データを基本語彙データとして出力する。
これにより、任意の文書データの集合から基本語彙を抽出することができる。また、目的に応じて基準を変えることによって、抽出すべき基本語彙データの数を簡易に変えることができる。

［２］本発明の一態様は、上述した基本語彙抽出装置であって、前記頻度データ作成部は、さらに、前記基本語候補データそれぞれについて文書属性別の前記文書データにおける前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込み、前記基本語彙度算出部は、さらに、前記頻度データ記憶部から読み出した前記基本語候補データの前記文書属性別の頻度と前記文書頻度とに基づいて前記文書属性における重要度を算出し、前記基本語候補データそれぞれについて各文書属性別に、前記第一基本語彙度が高いほど値が大きくなり、かつ、前記文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により前記文書属性において前記基本語彙に含まれる度合いを表す第二基本語彙度を算出し、前記基本語彙認定部は、前記文書属性毎に、前記基本語彙度算出部が算出した前記第二基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する、ことを特徴とする。
この態様によれば、基本語彙度算出部は、基本語候補データそれぞれについて、第一基本語彙計算式により第一基本語彙度を算出するとともに、文書属性における重要度を算出する。さらに、基本語彙度算出部は、各文書属性別に、第一基本語彙度が高いほど値が大きくなり、かつ、文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により、各文書属性において基本語彙に含まれる度合いを表す第二基本語彙度を算出する。基本語彙認定部は、文書属性別に、第二基本語彙度が所定基準よりも高い基本語候補データを基本語彙データとして出力する。
これにより、基本語彙抽出装置は、コーパスに含まれる文書のジャンルや期間などの文書属性別に基本語彙を抽出することができる。

［３］本発明の一態様は、上述した基本語彙抽出装置であって、基本語彙から除外する表現の情報を記憶する除外リスト記憶部をさらに具備し、前記基本語彙認定部は、前記除外リスト記憶部に記憶されている前記情報が示す表現と一致する前記基本語候補データを前記基本語彙データから除外する、ことを特徴とする。
この態様によれば、基本語彙認定部は、予め基本語彙にはふさわしくないと決められた表現の形態素データまたは複合語データについては、基本語彙データから除外する。
これにより、基本語彙抽出装置は、記号や助詞、数、固有名詞など、基本語彙としてふさわしくないと予めわかっている形態素または複合語を基本語として抽出しないようにすることができる。

［４］本発明の一態様は、上述した基本語彙抽出装置であって、前記複合語認定部は、前記文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列のうちＣ−Ｖａｌｕｅ法により複合語として判定された形態素列を複合語候補データとして出力するとともに、前記表現パターンと合致しない形態素データ及びＣ−Ｖａｌｕｅ法により複合語として判断されなかった形態素列を形態素に戻した形態素データとを出力する、ことを特徴とする。
この態様によれば、複合語認定部は、文書データに含まれる文の形態素列が、複合語候補の表現パターンに合致する場合、さらにＣ−Ｖａｌｕｅ法により複合語であるかを判定する。
これにより、基本語彙抽出装置は、表現パターンに合致する形態素列が、実際に複合語であるかを簡易に判断することができる。

［５］本発明の一態様は、基本語彙抽出装置に用いられるコンピュータを、複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部、文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部、基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部、前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部、前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部、前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部、として機能させるプログラムである。

本発明によれば、任意の文書集合から基本語彙とすべき語を抽出することができる。

本発明の一実施形態による基本語彙抽出装置の構成を示すブロック図である。同実施形態による文書集合データのデータ例を示す図である。同実施形態による複合語候補規則テーブルの設定例を示す図である。同実施形態による除外リストテーブルの設定例を示す図である。同実施形態による頻度データテーブルの設定例を示す図である。同実施形態による基本語彙抽出装置の基本語彙抽出処理フローを示す図である。同実施形態による基本語彙抽出装置の複合語認定処理フローを示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

図１は、本発明の一実施形態による基本語彙抽出装置１の構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。基本語彙抽出装置１は、例えば、１台または複数台のサーバコンピュータ等のコンピュータ装置により実現することができる。同図に示すように、基本語彙抽出装置１は、文書集合記憶部１１、複合語候補規則記憶部１２、頻度データ記憶部１３、基本語彙計算式記憶部１４、除外リスト記憶部１５、形態素解析部２１、複合語認定部２２、頻度データ作成部２３、基本語彙度算出部２４、及び基本語彙認定部２５を備えて構成される。

文書集合記憶部１１、複合語候補規則記憶部１２、頻度データ記憶部１３、基本語彙計算式記憶部１４、及び除外リスト記憶部１５は、ハードディスク装置や半導体メモリなどで実現される。
文書集合記憶部１１は、基本語彙抽出装置１に入力された文書集合データを記憶する。文書集合データには、１以上の文を示す文書データが複数含まれる。各文書データは、ジャンルデータや作成日時データなどの文書属性データと対応づけられている。複合語候補規則記憶部１２は、複合語候補規則テーブルを記憶する。複合語候補規則テーブルは、複合語候補となる形態素列の表現パターンのリストを示すデータである。頻度データ記憶部１３は、頻度データテーブルを記憶する。頻度データテーブルは、形態素データ、あるいは、形態素列からなる複合語データが文書集合データに出現する頻度を示すデータである。基本語彙計算式記憶部１４は、形態素データ、あるいは、複合語データを基本語彙とすべきか否かの判断基準となる指標値である基本語彙度を算出するための基本語彙計算式を複数種類記憶する。除外リスト記憶部１５は、除外リストテーブルを記憶する。除外リストテーブルは、基本語彙から除外すべき単語や品詞などの表現のパターンを示すデータである。

形態素解析部２１は、文書データを形態素解析する。形態素解析部２１は、例えば、「ＭｅＣａｂ」などの公知の技術を用いた形態素解析器を用いて実現することができる。
複合語認定部２２は、複合語候補検出部２２１、複合語判定部２２２、及び基本語候補出力部２２３を備える。複合語候補検出部２２１は、複合語候補規則テーブルに登録されている形態素列の表現パターンと、形態素解析部２１において得られた形態素解析結果の形態素列データとをマッチングし、マッチする形態素列データを複合語候補として判定する。複合語判定部２２２は、複合語候補として判定した形態素列データが複合語であるか否かを、単語間の結合度に基づいて判定する。基本語候補出力部２２３は、複合語として判定された形態素列データを複合語データとして頻度データ作成部２３に出力し、複合語と判定されなかった形態素データをそのまま頻度データ作成部２３に出力する。基本語候補出力部２２３が頻度データ作成部２３に出力した複合語データ及び形態素データのそれぞれを基本語候補データとする。

頻度データ作成部２３は、文書集合記憶部１１に記憶されている文書集合データを参照して、複合語認定部２２から出力された基本語候補データである形態素データ、及び複合語データのそれぞれの頻度データ作成し、作成した頻度データのリストである頻度データテーブルを頻度データ記憶部１３に登録する。
基本語彙度算出部２４は、基本語彙計算式記憶部１４から読み出した基本語彙計算式に、頻度データテーブルに登録されている各基本語候補データで示される頻度を代入して基本語彙度を算出する。基本語彙度算出部２４は、算出された基本語彙度に基づいて基本語候補データの順位付けを行う。
基本語彙認定部２５は、基本語彙度に基づく順位が、基本語彙であると判断するための所定の基準よりも高い基本語候補データである形態素データ及び複合語データを基本語彙と認定する。所定の基準は、例えば、１００位以上のような所定の順位、ランキングの上位５％のような全体に対する割合などとすることができる。基準は、基本語彙を抽出する目的に応じてユーザにより可変に設定可能である。

図２は、文書集合データのデータ例を示す図である。
同図に示すように、文書集合データは、文書データと、文書属性データであるジャンルデータ及び日時データとを対応づけた複数のデータからなる。ジャンルデータは、文書データが属するジャンルを示し、日時データは、文書データが作成された日時を示す。例えば、基本語彙抽出対象のコーパスがニュースである場合、文書データは、例えば、ニュース番組などで使用された１つのニュース原稿とすることができ、１以上の文のデータが含まれる。また、ジャンルは「政治」、「経済」、「スポーツ」、「暮らし」、…などとすることができる。

図３は、複合語候補規則テーブルのデータ例を示す図である。
同図に示すように、複合語候補規則テーブルには、複合語候補と判定すべき表現パターンのリストが登録されている。１行目に登録されている表現パターンは「名詞名詞＋」であり、「＋」は直前に記述されている品詞の１以上の繰り返しを示す。つまり、「名詞名詞＋」は、２以上の名詞の結合を意味し、例えば、「記者会見」、「総理大臣」、「官房長官」などがこの表現パターンに一致する。また、２行目に登録されているパターンは「（名詞＋の）＋名詞＋」であり、「航空基地の移設問題」、「意識不明の重態」、「米国野球球団の山田太郎選手」などがこの表現パターンに一致する。

図４は、除外リストテーブルのデータ例を示す図である。
同図に示すように、除外リストテーブルは、基本語彙から除外すべきと判断する場合に判断対象とすべき項目と、その項目の条件を示す。１行目は「品詞」が「記号」であること、２行目は「品詞」が「助詞」であること、３行目は「品詞」が「数」を表す「名詞」であること、４行目は「品詞」が「人名」を表す「固有名詞」であって「名詞」であることを示している。

図５は、頻度データテーブルのデータ例を示す図である。
頻度データテーブルは、基本語候補データである複合語データ及び形態素データそれぞれの頻度データのリストであり、この頻度データは、基本語彙計算式で用いられる。そのため、選択される基本語彙計算式によって使用する頻度データは異なるが、基本的な頻度データには、例えば、文書集合データにおける出現回数である「頻度」、出現した文書データ（記事）の数である「文書頻度」、出現した文の数である「文頻度」がある。同図では、頻度データとして、文書集合データ全体の頻度、文書頻度、文頻度と、文書属性別の文書頻度とを用いている。文書属性は、例えば、ジャンルや、期間などとすることができる。期間は、ユーザが任意に設定することができ、１０年単位、３年単位、１年単位、3ヶ月単位、１ヶ月単位、１週単位などのほか、季節に対応した期間などとすることもできる。

続いて、基本語彙抽出装置１の動作について説明する。

図６は、基本語彙抽出装置１における基本語彙抽出フローを示す図である。
まず、基本語彙抽出装置１に、基本語彙抽出対象のコーパスである文書集合データが入力される。文書集合データのコーパスの例としては、ニュース、英語試験、教科書などがある。基本語彙抽出装置１の形態素解析部２１は、入力された文書集合データを文書集合記憶部１１に書き込む（ステップＳ１０）。続いて、形態素解析部２１は、入力された文書データを形態素解析して形態素に分割すると、その分割された形態素を示す形態素解析結果データを、形態素列の順序を保持したままま複合語認定部２２に出力する（ステップＳ２０）。

複合語認定部２２は、複合語候補規則記憶部１２に記憶されている複合語候補規則テーブルから表現パターンを読み出す。複合語認定部２２は、形態素解析部２１から入力された形態素解析結果データが示す形態素列と、読み出した表現パターンとがマッチするかを判断する。複合語認定部２２は、表現パターンとマッチした形態素列を複合語候補として判定すると、この複合語候補として判定した形態素列が複合語であるか否かを判断する。ここでは、複合語の判定を、単語間の結合度を算出することができるＣ-Ｖａｌｕｅ法を用いて行うが、他の既存の手法を用いてもよい。Ｃ-Ｖａｌｕｅ法を用いた複合語判定の詳細については、後述する。複合語認定部２２は、複合語と判定された形態素列を１つの複合語データとして、複合語候補と判定されなかった形態素列及び形態素はそのまま形態素データとして、頻度データ作成部２３に出力する（ステップＳ３０）。

頻度データ作成部２３は、複合語認定部２２から入力された各複合語データ及び各形態素データである基本語候補データのそれぞれについて、文書集合記憶部１１に記憶されている文書データを参照し、文書集合データ全体への出現頻度、文書頻度、文頻度、文書属性別の文書頻度をカウントする。頻度データ作成部２３は、各基本語候補データについてのカウント結果を示す頻度データから頻度データテーブルを作成し、頻度データ記憶部１３に書き込む（ステップＳ４０）。なお、頻度データの作成対象となる文書属性は、予め基本語彙抽出装置１に入力されており、ジャンルや期間などで示される。また、基本語彙抽出装置１は、文書集合記憶部１１に文書データと対応付けて記憶されているジャンルデータを読み出し、それらを文書属性として使用してもよい。

続いて、基本語彙度算出部２４は、頻度データ記憶部１３に記憶されている頻度データテーブルから、各基本語候補データの頻度データ（出現頻度、文書頻度、文頻度、文書属性別の文書頻度）を読み出す。さらに、基本語彙度算出部２４は、基本語彙計算式記憶部１４から基本語彙計算式を読み出す。なお、読み出す基本語彙計算式は、例えば、予めユーザにより基本語彙抽出装置１に入力されている。基本語彙度算出部２４は、基本語候補データである複合語データ及び形態素データのそれぞれについて、読み出した基本語彙計算式に頻度データで示される値を代入して基本語彙度を算出する。基本語彙度算出部２４は、各基本語候補データに、基本語彙度を高いものから並べたときの順位を対応づけて基本語彙認定部２５に出力する（ステップＳ５０）。ここでは、基本語彙度算出部２４は、基本語彙度が高い順に並び変えた基本語候補データを基本語彙認定部２５に出力する。つまり、基本語候補データである複合語データ及び形態素データの並び順が、基本語彙度を高いものから並べたときの順位を表している。

基本語彙認定部２５は、基本語彙度算出部２４から入力された基本語候補データである複合語データ及び形態素データのうち、所定の閾値以上の順位の複合語データ及び形態素データを抽出する。この閾値は、予めユーザにより基本語彙抽出装置１に入力されている。基本語彙認定部２５は、除外リスト記憶部１５に記憶されている除外リストテーブルから除外すべき表現のパターンを読み出し、抽出した基本語候補データがいずれかの除外リストのパターンとマッチするかを判断する（ステップＳ６０）。基本語彙認定部２５は、抽出した基本語候補データから、除外リストが示すパターンとマッチする複合語データ及び形態素データを除き、基本語彙データとして出力する（ステップＳ７０）。

次に、基本語彙抽出装置１の具体的な動作例について説明する。
ここでは、ステップＳ１０において入力されたニュースの文書集合データがニュースであり、文書集合データに「山田総理大臣は、国連総会に出席する」という文が記述された文書データが含まれている場合を例に説明する。

ステップＳ２０において、形態素解析部２１は、文書集合データから読み出した文書データが示すニュース文を形態素解析する。これにより、「山田総理大臣は、国連総会に出席する」という文は、以下の例１のように形態素ごとに分割される。なお、本実施形態では、固有名詞も名詞と分類するようにしているが、固有名詞と名詞を分類するなど、品詞を細分類した形態素解析結果を用いてもよい。形態素解析部２１は、例１を含む形態素解析結果データを複合語認定部２２に出力する。

例１：「山田（名詞）」「総理（名詞）」「大臣（名詞）」「は（助詞）」「、（記号）」「国連（名詞）」「総会（名詞）」「に（助詞）」「出席（名詞）」「する（動詞）」

ステップＳ３０において、複合語認定部２２は、形態素解析結果データの入力を受けると、複合語候補規則記憶部１２から複合語候補規則テーブルを読み出す。

図７は、ステップＳ３０の詳細な処理を示すフローチャートである。
複合語認定部２２の複合語候補検出部２２１は、形態素解析結果データの中から複合語候補規則テーブルの表現パターンと合致した形態素列を複合語候補データとし、合致しなかった形態素をそのまま形態素データとする（ステップＳ３１０）。上記の例１の場合、「山田（名詞）」「総理（名詞）」、「山田（名詞）」「総理（名詞）」「大臣（名詞）」、「総理（名詞）」「大臣（名詞）」、「国連（名詞）」「総会（名詞）」が、複合語候補規則テーブルの「名詞名詞＋」に合致する。よって、複合語候補検出部２２１は、以下の例２のように、複合語候補データ及び形態素データを複合語判定部２２２に出力する。

例２：｛「山田｜総理（複合語候補）」「大臣（名詞）」；「山田｜総理｜大臣（複合語候補）」；「山田（名詞）」「総理｜大臣（複合語候補）」｝「は（助詞）」「、（記号）」「国連｜総会（複合語候補）」「に（助詞）」「出席（名詞）」「する（動詞）」

複合語判定部２２２は、各複合語候補データについて、Ｃ−Ｖａｌｕｅ法を用いて評価値を算出し、算出した評価値が閾値以上となった複合語候補データを複合語データと判定する。

Ｃ−Ｖａｌｕｅ法は、連続した形態素データである形態素列データＷ（＝形態素データｗ１,形態素データｗ２,形態素データｗ３,・・・）の重要度を算出する式である。このＣ−Ｖａｌｕｅ法によって算出された評価値Ｃ−ｖａｌｕｅ（Ｗ）は、形態素列データＷが単独の複合語として使われやすいかどうかの判定基準としても利用することができ、式（１）のように定義される。なお、Ｃ-Ｖａｌｕｅ法の詳細は、（文献１）「Automatic Recognition of Multi-word Terms : C-value/NC-value Method” (Katerina T.Frantzi and Sophia Ananiadou , International Journal on Digital Libraries,Vol.3,No.2,pp.115-130,2000)」を参照のこと。

だたし、Ｗは形態素データが連続した形態素列データ、｜Ｗ｜は形態素データＷを構成している形態素データの数、Ｆ（Ｗ）は形態素列データＷの頻度、Ｔ（Ｗ）は形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データの頻度、Ｃ（Ｗ）は形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データの異なり数（種類の数）である。

評価値Ｃ−ｖａｌｕｅ（Ｗ）は、形態素列データＷを構成している形態素データの数が多いほど、また、形態素列データＷの頻度が高いほど高スコアとなる。また、形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データの頻度が高いほどスコアが低くなるが、形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データの種類が多いほどスコアが低くなる割合が抑えられる。つまり、形態素列データＷが単独で使われていることが多いかを加味している。上記のように、Ｃ−ｖａｌｕｅ法は、計算が簡易であるため使用しやすい。但し、複合語と判定するための他の既存の算出法を用いてもよい。

複合語判定部２２２は、複合語候補データを形態素列データＷとし、各複合語候補データの評価値を式（１）により算出する。ただし、複合語判定部２２２は、文書集合記憶部１１に記憶されている文書データを参照して形態素列データＷの頻度Ｆ（Ｗ）をカウントする。また、複合語判定部２２２は、形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データを複合語候補データから抽出してＣ（Ｗ）をカウントし、さらに、文書集合記憶部１１に記憶されている文書データを参照して、抽出した形態素列データの頻度Ｔ（Ｗ）をカウントする。つまり、形態素列データＷを含み、かつ、形態素列データＷよりも長い形態素列データは、複合語候補規則テーブルに登録されている表現パターンに従って抽出された形態素列データである。

複合語判定部２２２は、上記により求めた評価値Ｃ−ｖａｌｕｅ（Ｗ）が所定の閾値よりも大きい複合語候補データ、例えば、例２の場合は複合語候補データ「総理｜大臣」を、複合語データとして判定する。複合語判定部２２２は、複合語候補データ、及び形態素データと、複合語データとからなる判定結果データを、基本語候補出力部２２３に出力する（ステップＳ３２０）。

基本語候補出力部２２３は、判定結果データを参照し、複合語データと判定されなかった複合語候補データを形態素データに戻す。基本語候補出力部２２３は、複合語データ、と、複合語データまたは複合語候補データと判定されなかった形態素データを頻度データ作成部２３に出力する（ステップＳ３３０）。

例えば、例２における形態素列データ「山田（名詞）」「総理（名詞）」「大臣（名詞）」の部分は、（１）「山田｜総理（複合語候補）」「大臣（名詞）」、（２）「山田｜総理｜大臣（複合語候補）」、（３）「山田（名詞）」「総理｜大臣（複合語候補）」の３つの複合語の分け方がある。複合語判定部２２２により、これらの複合語候補のうち「総理｜大臣」のみが複合語と判断された場合、（３）のように、「総理｜大臣」を複合語データとし、他は形態素データとする。また、「国連｜総会（複合語候補）」は、複合語と認定されなかったため、形態素データ「国連（名詞）」「総会（名詞）」に戻す。よって、基本語候補出力部２２３からは、以下の例３を含む複合語データ、及び形態素データが基本語候補データとして出力される。

例３：「山田（名詞）」「総理｜大臣（複合語）」「は（助詞）」「、（記号）」「国連（名詞）」「総会（名詞）」「に（助詞）」「出席（名詞）」「する（動詞）」

なお、複合語判定部２２２により、「山田｜総理」と「総理｜大臣」の２つが複合語として判断された場合、基本語候補出力部２２３は、これら両方を複合語データとして出力する。

ステップＳ４０において、頻度データ作成部２３は、基本語候補データである複合語データ、及び形態素データそれぞれの頻度データを作成し、作成した頻度データをリストにした頻度データテーブル（図５）を頻度データ記憶部１３に書き込む。使用する基本語彙計算式によって用いる頻度データは異なるため、予めユーザに指定された基本語彙計算式で使用する頻度データのみを作成するようにしてもよい。

ステップＳ５０において、基本語彙度算出部２４は、頻度データ作成部２３からの指示を受け、頻度データ記憶部１３から頻度データテーブルを読み出す。さらに、ステップＳ６０において、基本語彙度算出部２４は、基本語彙計算式記憶部１４から基本語彙計算式テーブルを読み出し、ユーザにより指定された基本語彙計算式を選択する。基本語彙度算出部２４は、頻度データテーブルが示す頻度データと、選択した基本語彙計算式とを用いて、基本語彙計算式テーブルに登録されている基本語候補データである複合語データ、及び形態素データそれぞれの基本語彙度を算出し、基本語彙度の高い順に並べて基本語彙ランキングを作成する。

基本語彙計算式テーブルには、幾つかの基本語彙計算式が記憶されるが、本実施形態では、基礎となる基本語彙計算式を式（２）のように定義し、ＴＦＤＦ法と呼ぶ。

ただし、Ｗは複合語データ、あるいは形態素データである基本語候補データ、ＴＦ（Ｗ）は、基本語候補データＷの頻度、ＤＦ（Ｗ）は、基本語候補データＷの文書頻度である。ＴＦＤＦ法では、単語の頻度が高いほど、また、文書頻度が高く、多くの文書（すなわち、多くのジャンル）に幅広く出現するほど、基本語彙度を表すＴＦＤＦ（Ｗ）（第一基本語彙度）が高スコアとなる。
基本語彙度算出部２４は、各基本語候補データについて、上記の式（２）を用いてＴＦＤＦ（Ｗ）を算出する。なお、基本語彙度算出部２４は、各基本語候補データＷと、各基本語候補データＷの頻度ＴＦ（Ｗ）及び文書頻度ＤＦ（Ｗ）を頻度データテーブルから読み出す。

表１は、文書中で出現した単語を出現頻度順に並べたものと、ＴＦＤＦ法による算出結果を高スコア順に並べ変えたものとを表している。「完成」、「地方」、「朝」などの形態素データ（単語）は、頻度が高いだけでなく、多くの文書に出現しており、基本語彙としての重要度が高いことが分かる。また、形態素データ「秘書」は、頻度は高いが、限られた文書にのみ出現しており、基本語彙としての重要度は低いことが分かる。

また、本実施形態では、ＴＦＤＦ法に文書間の類似度を計測する尺度を組み込み、特定の文書集合の重要度を反映させるＭ＿ＴＦＤＦ法を、以下の式（３）のように定義する。Ｍ＿ＴＦＤＦ法に組み込む特定の文書集合の重要度の算出法としては、χ二乗値、対数尤度比、自己相互情報量、コサイン類似度値、ダイス係数値など、公知の技術が多く存在しており、目的に応じて任意のものを適用しうる。重要度の算出法は、（文献２）「英語教育のための分野特徴単語の選定尺度の比較, Journal of natural language processing,Vol.11,No.3,pp.165-197,2004-07-10」を参照のこと。

なお、Ｗは、複合語データ、或は形態素データである基本語候補データ、Ｇはジャンルや年月など、文書に割り当てられた特徴（文書属性）、Ｒ（Ｗ，Ｇ）は特徴Ｇを持つ文書集合中における、基本語候補データＷの重要度である。

上記の式（３）におけるＲ（Ｗ，Ｇ）の算出に用いることができるχ二乗値の算出式を以下の式（４）に示す。

基本語彙度算出部２４は、各基本語候補データについて、上記の式（３）及び式（４）を用いて、文書属性毎の基本語彙度を表すＭ＿ＴＦＤＦ（Ｗ，Ｇ）（第二基本語彙度）を算出する。なお、基本語彙度算出部２４は、式（４）において用いる各頻度を、頻度データテーブルから読み出す。

表２は、ＴＦＤＦ法の結果と、スポーツジャンルの文書集合のχ二乗値と、χ二乗値を用いたＭ＿ＴＦＤＦ法の結果の一部を重要度の高い順に表している。ＴＦＤＦ法では、スポーツジャンルの文書集合中に多く出現するデータの重要度は低いが、Ｍ＿ＴＦＤＦ法を用いることでスポーツジャンルの文書集合中の重要度が反映されている。また、χ二乗値のみを用いると、スポーツジャンル以外の文書集合の重要度が反映されず、不適切であるといえる。

基本語彙度算出部２４は、ユーザが予め基本語彙計算式として指定したように、ＴＦＤＦ法のみにより、あるいは、χ二乗値、対数尤度比、自己相互情報量、コサイン類似度値、またはダイス係数値を用いたＭ＿ＴＦＤＦ法により、基本語彙度を算出する。例えば、ジャンルによらず、入力された文書集合データのコーパスに共通した基本語彙を抽出したい場合、基本語彙計算式をＴＦＤＦ法のみとすると効果的である。また、例えば、コサイン類似度値、ダイス係数値などは基本語彙が重要と判断されやすい傾向がある。そのため、ジャンル毎に初級者用の基本語彙を抽出したい場合、コサイン類似度値やダイス係数値を用いたＭ＿ＴＦＤＦ法とすると効果的である。

基本語彙度算出部２４は、ＴＦＤＦ法のみを用いた場合は全複合語データ、及び形態素データについて、Ｍ＿ＴＦＤＦ法を用いた場合ジャンルや日付などの文書属性別に、算出した基本語彙度が高い順に基本語候補データである複合語データ、及び形態素データを並べて基本語彙ランキング結果データとする。これにより、基本語彙度算出部２４は、例えば、以下の例４に示すような基本語彙ランキングを作成する。

例４：「１：、記号」「２：の助詞」・・・「79：警察名詞」・・・「324：国連名詞」・・・「1078：総会名詞」・・・

基本語彙度算出部２４は、作成した基本語彙ランキング結果データを基本語彙認定部２５に出力する。

ステップＳ６０において、基本語彙認定部２５は、基本語彙ランキング結果データの入力を受けると、除外リスト記憶部１５から除外リストテーブル（図４）を読み出す。

基本語彙認定部２５は、基本語彙ランキング結果データから、除外リストデータに該当するデータを除き、コーパス（文書集合データ）全体について、あるいは、各ジャンル別に、閾値以上の順位の複合語データ、及び形態素データを基本語彙として出力する。例えば、閾値を３００位以上とした場合、例５に示すように、３００位以上の順位の複合語データ、及び形態素データを選択する（ステップＳ６０）。

例５：「１：こと名詞」・・・「３４：警察名詞」・・・「４７：総理｜大臣複合語」・・・「２２７：国連名詞」・・・「２７４：出席名詞」・・・

なお、基本語彙認定部２５は、例６に示すように、３００位を下回った複合語データ、及び形態素データは、基本語彙として選択しない。

例６：「３００：原因名詞」・・・「９４５：総会名詞」・・・「３７４６：山田名詞」・・・

基本語彙認定部２５は、ステップＳ６０において選択された基本語候補データである複合語データ、及び形態素データを基本語彙データとして出力する（ステップＳ７０）。

以上のように、本実施形態によれば、任意の文書集合における基本語彙を抽出することが可能である。また、文書に付与されているジャンルデータや時系列データなどの特徴を使用することで、特定の特徴を持った文書集合の重要度を用いた、より適切な基本語彙の抽出が可能である。
また、ステップＳ６０に用いる閾値を変えることによって、目的に応じた基本語彙の抽出が可能である。

上述した基本語彙抽出装置１は、内部にコンピュータシステムを有している。そして、基本語彙抽出装置１の形態素解析部２１、複合語認定部２２、頻度データ作成部２３、基本語彙度算出部２４、及び基本語彙認定部２５の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１基本語彙抽出装置
１１文書集合記憶部
１２複合語候補規則記憶部
１３頻度データ記憶部
１４基本語彙計算式記憶部
１５除外リスト記憶部
２１形態素解析部
２２複合語認定部
２３頻度データ作成部
２４基本語彙度算出部
２５基本語彙認定部
２２１複合語候補検出部
２２２複合語判定部
２２３基本語候補出力部

Claims

複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部と、
文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部と、
基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部と、
前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部と、
前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部と、
前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部と、
を具備することを特徴とする基本語彙抽出装置。
前記頻度データ作成部は、さらに、前記基本語候補データそれぞれについて文書属性別の前記文書データにおける前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込み、
前記基本語彙度算出部は、さらに、前記頻度データ記憶部から読み出した前記基本語候補データの前記文書属性別の頻度と前記文書頻度とに基づいて前記文書属性における重要度を算出し、前記基本語候補データそれぞれについて各文書属性別に、前記第一基本語彙度が高いほど値が大きくなり、かつ、前記文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により前記文書属性において前記基本語彙に含まれる度合いを表す第二基本語彙度を算出し、
前記基本語彙認定部は、前記文書属性毎に、前記基本語彙度算出部が算出した前記第二基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する、
ことを特徴とする請求項１に記載の基本語彙抽出装置。
基本語彙から除外する表現の情報を記憶する除外リスト記憶部をさらに具備し、
前記基本語彙認定部は、前記除外リスト記憶部に記憶されている前記情報が示す表現と一致する前記基本語候補データを前記基本語彙データから除外する、
ことを特徴とする請求項１または請求項２に記載の基本語彙抽出装置。
前記複合語認定部は、前記文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列のうちＣ−Ｖａｌｕｅ法により複合語として判定された形態素列を複合語候補データとして出力するとともに、前記表現パターンと合致しない形態素データ及びＣ−Ｖａｌｕｅ法により複合語として判断されなかった形態素列を形態素に戻した形態素データとを出力する、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の基本語彙抽出装置。
基本語彙抽出装置に用いられるコンピュータを、
複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部、
文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部、
基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部、
前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部、
前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部、
前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部、
として機能させるプログラム。