JP5846959B2 - 基本語彙抽出装置、及びプログラム - Google Patents
基本語彙抽出装置、及びプログラム Download PDFInfo
- Publication number
- JP5846959B2 JP5846959B2 JP2012038206A JP2012038206A JP5846959B2 JP 5846959 B2 JP5846959 B2 JP 5846959B2 JP 2012038206 A JP2012038206 A JP 2012038206A JP 2012038206 A JP2012038206 A JP 2012038206A JP 5846959 B2 JP5846959 B2 JP 5846959B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- basic
- frequency
- word candidate
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 44
- 150000001875 compounds Chemical class 0.000 claims description 179
- 238000004364 calculation method Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 41
- 230000014509 gene expression Effects 0.000 claims description 35
- 238000013500 data storage Methods 0.000 claims description 22
- 230000007717 exclusion Effects 0.000 claims description 20
- 230000000877 morphologic effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 239000002245 particle Substances 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この態様によれば、基本語彙抽出装置の複合語認定部は、基本語彙抽出対象のコーパスである複数の文書データに含まれる文章についての形態素解析結果の入力を受ける。複合語認定部は、入力された形態素解析結果を、複合語の候補となる形態素列の表現パターンと照合して、合致する形態素列を複合語候補データとして出力し、合致しない形態素をそのまま形態素データとして出力する。頻度データ作成部は、文書データ全体の集合を参照し、複合語認定部から出力される複合語候補データと形態素データそれぞれの頻度及び文書頻度を算出して頻度データ記憶部に書き込む。基本語彙度算出部は、頻度データテーブルから読み出した複合語データと形態素データそれぞれの頻度及び文書頻度とを用い、基本語彙計算式により基本語彙度を算出する。基本語彙認定部は、算出された基本語彙度が所定基準よりも高い複合語データと形態素データを基本語彙データとして出力する。
これにより、任意の文書データの集合から基本語彙を抽出することができる。また、目的に応じて基準を変えることによって、抽出すべき基本語彙データの数を簡易に変えることができる。
この態様によれば、基本語彙度算出部は、基本語候補データそれぞれについて、第一基本語彙計算式により第一基本語彙度を算出するとともに、文書属性における重要度を算出する。さらに、基本語彙度算出部は、各文書属性別に、第一基本語彙度が高いほど値が大きくなり、かつ、文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により、各文書属性において基本語彙に含まれる度合いを表す第二基本語彙度を算出する。基本語彙認定部は、文書属性別に、第二基本語彙度が所定基準よりも高い基本語候補データを基本語彙データとして出力する。
これにより、基本語彙抽出装置は、コーパスに含まれる文書のジャンルや期間などの文書属性別に基本語彙を抽出することができる。
この態様によれば、基本語彙認定部は、予め基本語彙にはふさわしくないと決められた表現の形態素データまたは複合語データについては、基本語彙データから除外する。
これにより、基本語彙抽出装置は、記号や助詞、数、固有名詞など、基本語彙としてふさわしくないと予めわかっている形態素または複合語を基本語として抽出しないようにすることができる。
この態様によれば、複合語認定部は、文書データに含まれる文の形態素列が、複合語候補の表現パターンに合致する場合、さらにC−Value法により複合語であるかを判定する。
これにより、基本語彙抽出装置は、表現パターンに合致する形態素列が、実際に複合語であるかを簡易に判断することができる。
文書集合記憶部11は、基本語彙抽出装置1に入力された文書集合データを記憶する。文書集合データには、1以上の文を示す文書データが複数含まれる。各文書データは、ジャンルデータや作成日時データなどの文書属性データと対応づけられている。複合語候補規則記憶部12は、複合語候補規則テーブルを記憶する。複合語候補規則テーブルは、複合語候補となる形態素列の表現パターンのリストを示すデータである。頻度データ記憶部13は、頻度データテーブルを記憶する。頻度データテーブルは、形態素データ、あるいは、形態素列からなる複合語データが文書集合データに出現する頻度を示すデータである。基本語彙計算式記憶部14は、形態素データ、あるいは、複合語データを基本語彙とすべきか否かの判断基準となる指標値である基本語彙度を算出するための基本語彙計算式を複数種類記憶する。除外リスト記憶部15は、除外リストテーブルを記憶する。除外リストテーブルは、基本語彙から除外すべき単語や品詞などの表現のパターンを示すデータである。
複合語認定部22は、複合語候補検出部221、複合語判定部222、及び基本語候補出力部223を備える。複合語候補検出部221は、複合語候補規則テーブルに登録されている形態素列の表現パターンと、形態素解析部21において得られた形態素解析結果の形態素列データとをマッチングし、マッチする形態素列データを複合語候補として判定する。複合語判定部222は、複合語候補として判定した形態素列データが複合語であるか否かを、単語間の結合度に基づいて判定する。基本語候補出力部223は、複合語として判定された形態素列データを複合語データとして頻度データ作成部23に出力し、複合語と判定されなかった形態素データをそのまま頻度データ作成部23に出力する。基本語候補出力部223が頻度データ作成部23に出力した複合語データ及び形態素データのそれぞれを基本語候補データとする。
基本語彙度算出部24は、基本語彙計算式記憶部14から読み出した基本語彙計算式に、頻度データテーブルに登録されている各基本語候補データで示される頻度を代入して基本語彙度を算出する。基本語彙度算出部24は、算出された基本語彙度に基づいて基本語候補データの順位付けを行う。
基本語彙認定部25は、基本語彙度に基づく順位が、基本語彙であると判断するための所定の基準よりも高い基本語候補データである形態素データ及び複合語データを基本語彙と認定する。所定の基準は、例えば、100位以上のような所定の順位、ランキングの上位5%のような全体に対する割合などとすることができる。基準は、基本語彙を抽出する目的に応じてユーザにより可変に設定可能である。
同図に示すように、文書集合データは、文書データと、文書属性データであるジャンルデータ及び日時データとを対応づけた複数のデータからなる。ジャンルデータは、文書データが属するジャンルを示し、日時データは、文書データが作成された日時を示す。例えば、基本語彙抽出対象のコーパスがニュースである場合、文書データは、例えば、ニュース番組などで使用された1つのニュース原稿とすることができ、1以上の文のデータが含まれる。また、ジャンルは「政治」、「経済」、「スポーツ」、「暮らし」、…などとすることができる。
同図に示すように、複合語候補規則テーブルには、複合語候補と判定すべき表現パターンのリストが登録されている。1行目に登録されている表現パターンは「名詞 名詞+」であり、「+」は直前に記述されている品詞の1以上の繰り返しを示す。つまり、「名詞 名詞+」は、2以上の名詞の結合を意味し、例えば、「記者会見」、「総理大臣」、「官房長官」などがこの表現パターンに一致する。また、2行目に登録されているパターンは「(名詞+の)+ 名詞+」であり、「航空基地の移設問題」、「意識不明の重態」、「米国野球球団の山田太郎選手」などがこの表現パターンに一致する。
同図に示すように、除外リストテーブルは、基本語彙から除外すべきと判断する場合に判断対象とすべき項目と、その項目の条件を示す。1行目は「品詞」が「記号」であること、2行目は「品詞」が「助詞」であること、3行目は「品詞」が「数」を表す「名詞」であること、4行目は「品詞」が「人名」を表す「固有名詞」であって「名詞」であることを示している。
頻度データテーブルは、基本語候補データである複合語データ及び形態素データそれぞれの頻度データのリストであり、この頻度データは、基本語彙計算式で用いられる。そのため、選択される基本語彙計算式によって使用する頻度データは異なるが、基本的な頻度データには、例えば、文書集合データにおける出現回数である「頻度」、出現した文書データ(記事)の数である「文書頻度」、出現した文の数である「文頻度」がある。同図では、頻度データとして、文書集合データ全体の頻度、文書頻度、文頻度と、文書属性別の文書頻度とを用いている。文書属性は、例えば、ジャンルや、期間などとすることができる。期間は、ユーザが任意に設定することができ、10年単位、3年単位、1年単位、3ヶ月単位、1ヶ月単位、1週単位などのほか、季節に対応した期間などとすることもできる。
まず、基本語彙抽出装置1に、基本語彙抽出対象のコーパスである文書集合データが入力される。文書集合データのコーパスの例としては、ニュース、英語試験、教科書などがある。基本語彙抽出装置1の形態素解析部21は、入力された文書集合データを文書集合記憶部11に書き込む(ステップS10)。続いて、形態素解析部21は、入力された文書データを形態素解析して形態素に分割すると、その分割された形態素を示す形態素解析結果データを、形態素列の順序を保持したままま複合語認定部22に出力する(ステップS20)。
ここでは、ステップS10において入力されたニュースの文書集合データがニュースであり、文書集合データに「山田総理大臣は、国連総会に出席する」という文が記述された文書データが含まれている場合を例に説明する。
複合語認定部22の複合語候補検出部221は、形態素解析結果データの中から複合語候補規則テーブルの表現パターンと合致した形態素列を複合語候補データとし、合致しなかった形態素をそのまま形態素データとする(ステップS310)。上記の例1の場合、「山田(名詞)」「総理(名詞)」、「山田(名詞)」「総理(名詞)」「大臣(名詞)」、「総理(名詞)」「大臣(名詞)」、「国連(名詞)」「総会(名詞)」が、複合語候補規則テーブルの「名詞 名詞+」に合致する。よって、複合語候補検出部221は、以下の例2のように、複合語候補データ及び形態素データを複合語判定部222に出力する。
基本語彙度算出部24は、各基本語候補データについて、上記の式(2)を用いてTFDF(W)を算出する。なお、基本語彙度算出部24は、各基本語候補データWと、各基本語候補データWの頻度TF(W)及び文書頻度DF(W)を頻度データテーブルから読み出す。
また、ステップS60に用いる閾値を変えることによって、目的に応じた基本語彙の抽出が可能である。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
11 文書集合記憶部
12 複合語候補規則記憶部
13 頻度データ記憶部
14 基本語彙計算式記憶部
15 除外リスト記憶部
21 形態素解析部
22 複合語認定部
23 頻度データ作成部
24 基本語彙度算出部
25 基本語彙認定部
221 複合語候補検出部
222 複合語判定部
223 基本語候補出力部
Claims (5)
- 複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部と、
文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部と、
基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部と、
前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部と、
前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部と、
前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部と、
を具備することを特徴とする基本語彙抽出装置。 - 前記頻度データ作成部は、さらに、前記基本語候補データそれぞれについて文書属性別の前記文書データにおける前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込み、
前記基本語彙度算出部は、さらに、前記頻度データ記憶部から読み出した前記基本語候補データの前記文書属性別の頻度と前記文書頻度とに基づいて前記文書属性における重要度を算出し、前記基本語候補データそれぞれについて各文書属性別に、前記第一基本語彙度が高いほど値が大きくなり、かつ、前記文書属性における重要度が高いほど値が大きくなる第二基本語彙計算式により前記文書属性において前記基本語彙に含まれる度合いを表す第二基本語彙度を算出し、
前記基本語彙認定部は、前記文書属性毎に、前記基本語彙度算出部が算出した前記第二基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する、
ことを特徴とする請求項1に記載の基本語彙抽出装置。 - 基本語彙から除外する表現の情報を記憶する除外リスト記憶部をさらに具備し、
前記基本語彙認定部は、前記除外リスト記憶部に記憶されている前記情報が示す表現と一致する前記基本語候補データを前記基本語彙データから除外する、
ことを特徴とする請求項1または請求項2に記載の基本語彙抽出装置。 - 前記複合語認定部は、前記文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列のうちC−Value法により複合語として判定された形態素列を複合語候補データとして出力するとともに、前記表現パターンと合致しない形態素データ及びC−Value法により複合語として判断されなかった形態素列を形態素に戻した形態素データとを出力する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の基本語彙抽出装置。 - 基本語彙抽出装置に用いられるコンピュータを、
複合語の候補に対応する形態素列の表現パターンを表す情報を記憶する複合語候補規則記憶部、
文書データに含まれる文の形態素列と前記複合語候補規則記憶部に記憶されている前記情報が表す前記表現パターンとを照合し、合致する前記形態素列を複合語候補データとして出力するとともに、合致しない形態素を形態素データとして出力する複合語認定部、
基本語候補データと、前記文書データ全体の集合における前記基本語候補データが出現する頻度と、前記文書データ全体の集合における前記基本語候補データが出現する文書頻度とを対応付けて記憶する頻度データ記憶部、
前記複合語認定部から出力される前記複合語候補データと前記形態素データとをそれぞれ基本語候補データとして読み込み、読み込んだ前記基本語候補データそれぞれの前記頻度及び前記文書頻度を前記文書データ全体の集合を参照して算出し、前記頻度データ記憶部に書き込む頻度データ作成部、
前記頻度データ記憶部から読み出した前記基本語候補データの前記頻度と前記文書頻度とを用いて、前記基本語候補データそれぞれについて、単語の頻度が高いほど値が大きくなり、かつ、文書頻度が高いほど値が大きくなる第一基本語彙計算式により、前記基本語彙に含まれる度合いを表す第一基本語彙度を算出する基本語彙度算出部、
前記基本語彙度算出部が算出した前記第一基本語彙度が所定基準よりも高い前記基本語候補データを基本語彙データとして出力する基本語彙認定部、
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012038206A JP5846959B2 (ja) | 2012-02-24 | 2012-02-24 | 基本語彙抽出装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012038206A JP5846959B2 (ja) | 2012-02-24 | 2012-02-24 | 基本語彙抽出装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013174995A JP2013174995A (ja) | 2013-09-05 |
JP5846959B2 true JP5846959B2 (ja) | 2016-01-20 |
Family
ID=49267852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012038206A Active JP5846959B2 (ja) | 2012-02-24 | 2012-02-24 | 基本語彙抽出装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5846959B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6190405B2 (ja) * | 2015-02-27 | 2017-08-30 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JP6303148B2 (ja) * | 2015-06-03 | 2018-04-04 | 明 潮田 | 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体 |
US20180025121A1 (en) * | 2016-07-20 | 2018-01-25 | Baidu Usa Llc | Systems and methods for finer-grained medical entity extraction |
JP2020077054A (ja) | 2018-11-05 | 2020-05-21 | 日本電信電話株式会社 | 選定装置および選定方法 |
JP7361525B2 (ja) * | 2019-08-07 | 2023-10-16 | 前田建設工業株式会社 | 用語辞書作成装置、用語辞書作成方法、及びプログラム |
JP2021051613A (ja) * | 2019-09-25 | 2021-04-01 | 株式会社日立製作所 | 自然言語処理において使用される辞書を作成する方法およびシステム |
CN112632987B (zh) * | 2020-12-25 | 2023-08-11 | 北京百度网讯科技有限公司 | 词槽的识别方法、装置及电子设备 |
US20230161977A1 (en) * | 2021-11-24 | 2023-05-25 | Beijing Youzhuju Network Technology Co. Ltd. | Vocabulary generation for neural machine translation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
-
2012
- 2012-02-24 JP JP2012038206A patent/JP5846959B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013174995A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5846959B2 (ja) | 基本語彙抽出装置、及びプログラム | |
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
Luyckx | Scalability issues in authorship attribution | |
JP5538185B2 (ja) | テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム | |
US10191975B1 (en) | Features for automatic classification of narrative point of view and diegesis | |
JP5884740B2 (ja) | 時系列文書要約装置、時系列文書要約方法および時系列文書要約プログラム | |
Castro et al. | Authorship verification, average similarity analysis | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Fragkou | Applying named entity recognition and co-reference resolution for segmenting english texts | |
Castro et al. | Authorship verification, combining linguistic features and different similarity functions | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
JP6613644B2 (ja) | 情報処理装置、情報処理システム及びプログラム | |
JP5362651B2 (ja) | 重要語句抽出装置及び方法及びプログラム | |
JP5364529B2 (ja) | 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP2009104296A (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
JP7131518B2 (ja) | 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム | |
Hoxha et al. | Albanian language identification in text documents | |
Lin et al. | Question pre-processing in a QA system on internet discussion groups | |
Berck | Memory-based text correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151124 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5846959 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |