JP2001022727A - テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 - Google Patents

テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体

Info

Publication number
JP2001022727A
JP2001022727A JP11191064A JP19106499A JP2001022727A JP 2001022727 A JP2001022727 A JP 2001022727A JP 11191064 A JP11191064 A JP 11191064A JP 19106499 A JP19106499 A JP 19106499A JP 2001022727 A JP2001022727 A JP 2001022727A
Authority
JP
Japan
Prior art keywords
word
learning
feature vector
text
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11191064A
Other languages
English (en)
Inventor
Hiroyori Taira
博順 平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11191064A priority Critical patent/JP2001022727A/ja
Publication of JP2001022727A publication Critical patent/JP2001022727A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書の特徴を表す高次元の特徴ベクトルをも
とに、高い精度の分類法を学習することが可能なテキス
ト分類学習方法及び装置及びテキスト分類学習プログラ
ムを格納した記憶媒体を提供する。 【解決手段】 本発明は、カテゴリ毎に分類されたテキ
ストの集合が与えられると、該テキストから単語の抽出
と選択及び特徴ベクトルの作成を行い、SupportVector
Machine(以下、SVM)において、特徴ベクトルを用
いて分類法を学習する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト分類学習
方法及び装置及びテキスト分類学習プログラムを格納し
た記憶媒体に係り、特に、自然言語処理システム、文書
処理システム、情報検索システム等において、テキスト
を分類するための基準や規則を学習するために用いら
れ、テキストの分類法を学習するためのテキスト分類学
習方法及び装置及びテキスト分類学習プログラムを格納
した記憶媒体に関する。
【0002】
【従来の技術】従来、文書を分類する方法を学習する場
合、次のように各文書の特徴ベクトルを作成する。対象
領域の文書に合われるすべての単語について、各テキス
トに出現するかどうかを1、0の属性値で表したベクト
ルや、各単語の出現頻度や情報量を属性とする実数ベク
トルを作成する。これらのベクトルを総称してここで
は、特徴ベクトルと呼ぶ。
【0003】一般のテキストに現れる単語数は数十万
語、特定の領域に限っても数万の単語を含む。これは、
特徴ベクトルの属性の数、つまり、ベクトルの次元が数
万から数十万になることを意味する。しかし、従来のニ
ューラルネットワークや決定木の学習手法では、数万か
ら数十万の次元の特徴ベクトルを高い精度で分類するこ
とはできない。これは、従来の学習装置では、特徴ベク
トルが高次元になると、分類法を学習するプログラムの
処理速度が全く実用に耐えないほど遅くなるし、処理の
ために膨大なメモリが必要となるためである。さらに、
従来の学習手法は、高次元の特徴ベクトルに対して、過
剰適応(過学習)した分類法を学習してしまい、分類精
度が低下する。そこで、従来の手法では、特徴ベクトル
に現れる属性を数十個から数百個選択し、特徴ベクトル
の次元を低くすることにより学習させている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
テキスト分類の学習手法では、数万から数十万次元の特
徴ベクトルを高い精度で分類する方法を学習することは
できない。また、そこで属性を数百程度選択していた
が、もともと数万から数十万の次元であった特徴ベクト
ルには、本来正しい分類に必要な属性が含まれているに
も関わらず、選択のときに、これらの属性が大幅に削除
されるため、精度の高い分類法を学習することができな
いという問題がある。
【0005】本発明は、上記の点に鑑みなされたもの
で、文書の特徴を表す高次元の特徴ベクトルをもとに、
高い精度の分類法を学習することが可能なテキスト分類
学習方法及び装置及びテキスト分類学習プログラムを格
納した記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明(請求項1)は、テキ
ストの分類法を学習するテキスト分類学習方法におい
て、カテゴリ毎に分類されたテキストの集合が与えられ
ると(ステップ1)、該テキストから単語の抽出と選択
及び特徴ベクトルの作成を行い(ステップ2)、Suppor
t Vector Machine(以下、SVM)において、特徴ベク
トルを用いて分類法を学習する(ステップ3)。
【0007】本発明(請求項2)は、抽出された単語の
品詞に基づいて特徴ベクトルを選択する。本発明(請求
項3)は、選択する単語として動詞、固有名詞、未知
語、普通名詞、サ変名詞を選択する。図2は、本発明の
原理構成図である。
【0008】本発明(請求項4)は、テキストの分類法
を学習するテキスト分類学習装置であって、カテゴリ毎
に分類されたテキストの集合が与えられると、該テキス
トから単語の抽出と選択及び特徴ベクトルの作成を行う
単語抽出手段2と、特徴ベクトルを用いて分類法を学習
するSupport Vector Machine(以下、SVM)3とを有
する。
【0009】本発明(請求項5)は、単語抽出手段2に
おいて、抽出された単語の品詞に基づいて特徴ベクトル
を選択する特徴ベクトル選択手段を有する。本発明(請
求項6)は、単語抽出手段2において、選択する単語と
して動詞、固有名詞、未知語、普通名詞、サ変名詞を選
択する単語選択手段を有する。
【0010】本発明(請求項7)は、テキストの分類法
を学習するテキスト分類学習プログラムを格納した記憶
媒体であって、カテゴリ毎に分類されたテキストの集合
が与えられると、該テキストから単語の抽出と選択及び
特徴ベクトルの作成を行う単語抽出プロセスと、単語抽
出プロセスで抽出・選択された特徴ベクトルを分類法を
学習するSupport Vector Machine(以下、SVM)に渡
す転送プロセスとを有する。
【0011】本発明(請求項8)は、単語抽出プロセス
において、抽出された単語の品詞に基づいて特徴ベクト
ルを選択する特徴ベクトル選択プロセスを有する。本発
明(請求項9)は、単語抽出プロセスにおいて、選択す
る単語として動詞、固有名詞、未知語、普通名詞、サ変
名詞を選択する単語選択プロセスを有する。
【0012】上記のように、本発明では、テキストの単
語抽出し、抽出された単語のうち選択された単語につい
て、各文書から高次元の特徴ベクトルを作成し、SVM
(数万〜数十万の次元の特徴ベクトルを扱うことができ
るSupport Vector Machine(以下、SVM:参考文献:
V.Vapnik. The Natue of Statistical Learning Theor
y. Springer Verlag. New York. 1995 を参照)により
分類法を学習することにより、カテゴリに分けられたテ
キストが与えられると、テキストを分類するための基準
が得られる。
【0013】
【発明の実施の形態】図3は、本発明のテキスト分類学
習装置の概略図である。同図に示すテキスト分類学習装
置1は、与えられたテキスト群について単語を抽出・選
択する単語抽出部2、分類法を学習するSVM3から構
成される。ここで、SVM3として、SVM(数万〜数
十万の次元の特徴ベクトルを扱うことができるSupport
Vector Machine(以下、SVM:参考文献:V.Vapnik.
The Natue of Statistical Learning Theory. Springer
Verlag. New York. 1995を参照)を用いるものとす
る。
【0014】図4は、本発明のテキスト分類学習装置の
詳細な構成を示す。同図に示すテキスト分類学習装置1
の単語抽出部2は、選択基準を記憶する選択基準記憶部
23と、入力された訓練データ(テキストと正負データ
の組)について形態素解析を行う形態素解析部21と、
形態素解析により抽出された単語列について選択基準記
憶部23に格納されている選択基準に基づいて単語を選
択する単語選択部22から構成される。
【0015】次に、図4に示すテキスト分類学習装置の
動作を説明する。図5は、本発明のテキスト分類学習装
置の動作を示すフローチャートである。 ステップ101) 単語抽出部2にテキスト群を入力す
る。 ステップ102) 単語抽出部2の形態素解析部21に
おいて、与えられたテキスト群について形態素解析によ
り単語を抽出する。
【0016】ステップ103) 単語抽出部2は、単語
が出現したときに1、出現しなかったときに0の値を持
つ要素からなる特徴ベクトルを作成するという選択基準
記憶部23に格納されている選択基準に基づいて単語属
性ベクトルを生成すると共に、対象記事が分類カテゴリ
に属せば1、属さない場合には−1となるスカラ変数を
作成する。
【0017】ステップ104) SVM3において、特
徴ベクトルとスカラ変数から学習を行い、テキストの分
類法を出力する。
【0018】
【実施例】以下、図面と共に本発明の実施例を説明す
る。本実施例における訓練データ及びテストデータに
は、RWCPテキストコース(参考文献:豊浦潤、徳永
健伸、井佐原均、岡隆一、RWCにおける分類コード付
きテキストデータベースの開発、電子情報通信学会信学
技報NLC96-13. 1996 参照)を用いて説明する。当該
コーパスは、1994年版の毎日新聞の約3万件の記事
に、国際十進分類法に基づくUDCコード(参考文献:
情報科学技術協会、国際十進分類法、丸善、1994、参
照)を付与したものである。これらの記事の中から頻度
の高い10種類の分類カテゴリ(スポーツ、刑法、政
府、教育、交通、軍事、国際関連、言語活動、演劇、作
物)が付与さえたデータ2000記事を選び、1000
記事を訓練データ、1000記事をテストデータ、分類
対象データとした。
【0019】訓練データとテストデータ数を以下の表に
示す。
【0020】
【表1】
【0021】記事の中に特定の普通名詞、固有名詞、サ
変名詞、未定義語、動詞の5品詞のいずれかに属す単語
が出現するか否かを記事の特徴とみなし、特徴ベクトル
を生成する。SVM3は、上記の10種類の分類を対象
にして、10台の分類装置(SVM)を構成する。例え
ば、スポーツに関する分類装置においては、スポーツの
分類コードが付与されたデータを正例、付与されていな
いデータを負例とし、テストデータに対して正例/負例
のいずれかのカテゴリに入るかを判定する。
【0022】単語抽出装置2に訓練データとなる記事が
入力されると、形態素解析を行い、分割された単語毎に
品詞が特定され、普通名詞、固有名詞、サ変名詞、未定
義語、動詞の5品詞のいずれかに属す単語が抽出され
る。そして、単語抽出装置2は、単語が出現したときに
1、出現しなかったときに0の値を持つ要素からなる特
徴ベクトルを作成する。同時に、単語抽出装置2は、対
象記事が分類カテゴリに属せば1、属さない場合には−
1となるスカラ変数も作成する。例えば、テキストがス
ポーツカテゴリに属すか否かの分類法を学習している時
に、「私のパソコンのメールボックスに毎週届く心温ま
るメール。」という言語活動カテゴリに属す記事が単語
抽出装置2に入力されると、「私(普通名詞)の(名詞
接続助詞)パソコン(普通名詞)の(名詞接続助詞)メ
ールボックス(普通名詞)に(格助詞)毎週(時相名
詞)届く(動詞)、(読点)心(普通名詞)温まる(動
詞)メール(サ変名詞)。(句点)」と形態素解析され
る(ここで、括弧内は前の単語の品詞名である)。そし
て、上に挙げた5品詞に当てはまる単語「私」「パソコ
ン」「メールボックス」「届く」「心」「温まる」「メ
ール」が抽出される。そして、例えば、特徴ベクトルの
要素が、第1要素(「愛」の出現有無)、第2要素
(「温まる」の出現有無)、第3要素以下、同様に「カ
ラス」「心」「サッカー」「シュート」「届く」「パソ
コン」「メール」「メールボックス」「野球」「塁」
「私」「ワイド」…の出現有無を表しているとすると、
(0,1,0,0,0,1,1,1,1,0,0,1,
0,…)というベクトルが生成される。また、記事は、
言語活動カテゴリに属し、スポーツカテゴリには属さな
いため、スカラ変数として−1が作成される。
【0023】このようにして得られた単語属性ベクトル
(特徴ベクトル)とスカラ変数がSVM3に入力され
る。SVM3は、入力された特徴ベクトルとスカラ変数
から学習を行い、テキストの分類法を出力する。分類精
度を評価するために、適合率、再現率、F値(参考文
献:B.M. Sundheim. Overview of the Fourth Message
Understanding Evaluation and conference. Proceedin
gs of Fourth message Understanding conference, pp.
3-29, 1992. 参照)を用いた。各分類毎に、分類モデル
と正解の正事例と負事例の数から、 ・a:正解が正事例で分類モデルも正事例と判断した数 ・b:正解が負事例で分類モデルも正事例と判断した数 ・c:正解が正事例で分類モデルも負事例と判断した数 を考えると、適合率(P)、再現率(R)は、次のよう
に定義される。
【0024】
【数1】
【0025】また、F値は適合率、R値は再現率より、
【0026】
【数2】
【0027】で表される。ここで、βは、重みづけパラ
メータで今回はβ=1とした。上記のようにして求めら
れたF値を分類判定基準とする。図6は、本発明の一実
施例の分類学習結果を用いたテキスト分類装置の構成を
示す。同図に示すテキスト分類装置4は、入力された分
類対象テキストを形態素解析する形態素解析部41、形
態素解析された単語列から選択基準を参照して単語を選
択する単語選択部42、単語を選択するための選択基準
を記憶する選択基準記憶部43、分類判定基準を参照し
て、入力された分類対象テキストの単語の分類を判別す
る判別部44、及びテキスト分類学習装置1から出力さ
れた分類判定基準を記憶する分類判定基準記憶部45か
ら構成される。
【0028】上記の構成において、分類対象テキストが
入力されると、形態素解析部41において、分類対象テ
キストの文字列を形態素解析し、次に、単語選択部42
において、選択基準記憶部43に格納されている選択基
準を参照して形態素解析された単語列から単語属性ベク
トルを生成し、判別部44に渡す。これにより、判別部
44は、単語属性ベクトルと分類判定基準記憶部45に
格納されている分類判定基準を用いて分類対象テキスト
の各単語に対する分類を行い、テキスト全体の分類を判
定する。
【0029】また、上記の実施例では、図3、図4に構
成に基づいてテキスト分類学習装置を説明したが、当該
テキスト分類学習装置の構成要素をプログラムとして構
築し、テキスト分類学習装置として利用されるコンピュ
ータに接続されるディスク装置や、フロッピーディス
ク、CD−ROM等の可搬記憶媒体に格納しておき、本
発明を実施する際にインストールすることにより容易に
本発明を実現できる。
【0030】なお、本発明は、上記の実施例に限定され
ることなく特許請求の範囲内で種々変更・応用が可能で
ある。
【0031】
【発明の効果】本発明において、5品詞を選択して分類
を行った場合と品詞を選択しない従来の方法を比較した
結果を以下に示す。
【0032】
【表2】
【0033】F値は、0から1までの値をとり、1に近
いほど精度が高いので、1カテゴリを除き、5品詞を予
め抽出した方が分類精度が高く、本発明がデータ分類の
精度を上げるのに有効であることが分かる。このよう
に、本発明は、テキスト群から単語を抽出・選択し、特
徴ベクトルを作成し、特徴ベクトルに基づき、SVMが
テキスト分類法を学習する。SVMは、高次元の特徴ベ
クトルを扱えるため、数万〜数十万の単語の特徴ベクト
ルを表す単語として選択することができる。
【0034】また、SVMは、高次元のベクトルに対し
て、過学習をしないという特徴があるため、非常に高い
精度の分類を行うテキスト分類法を学習できる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明のテキスト分類学習装置の概略図であ
る。
【図4】本発明のテキスト分類学習装置の詳細な構成図
である。
【図5】本発明のテキスト分類学習装置の動作を示すフ
ローチャートである。
【図6】本発明の一実施例の分類学習結果を用いたテキ
スト分類装置の構成図である。
【符号の説明】
1 テキスト分類学習装置 2 単語抽出手段、単語抽出部 3 SVM 4 テキスト分類装置 21 形態素解析部 22 単語選択部 23 選択基準記憶部 41 形態素解析部 42 単語選択部 43 選択基準記憶部 44 判別部 45 分類判定基準記憶部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 テキストの分類法を学習するテキスト分
    類学習方法において、 カテゴリ毎に分類されたテキストの集合が与えられる
    と、該テキストから単語の抽出と選択及び特徴ベクトル
    の作成を行い、 Support Vector Machine(以下、SVM)において、前
    記特徴ベクトルを用いて分類法を学習することを特徴と
    するテキスト分類学習方法。
  2. 【請求項2】 抽出された単語の品詞に基づいて特徴ベ
    クトルを選択する請求項1記載のテキスト分類学習方
    法。
  3. 【請求項3】 選択する単語として普通名詞、固有名
    詞、サ変名詞、未知語、動詞を選択する請求項1記載の
    テキスト分類学習方法。
  4. 【請求項4】 テキストの分類法を学習するテキスト分
    類学習装置であって、 カテゴリ毎に分類されたテキストの集合が与えられる
    と、該テキストから単語の抽出と選択及び特徴ベクトル
    の作成を行う単語抽出手段と、 前記特徴ベクトルを用いて分類法を学習するSupport Ve
    ctor Machine(以下、SVM)とを有することを特徴と
    するテキスト分類学習装置。
  5. 【請求項5】 前記単語抽出手段は、 抽出された単語の品詞に基づいて特徴ベクトルを選択す
    る特徴ベクトル選択手段を有する請求項4記載のテキス
    ト分類学習装置。
  6. 【請求項6】 前記単語抽出手段は、 選択する単語として普通名詞、固有名詞、サ変名詞、未
    知語、動詞を選択する単語選択手段を有する請求項4記
    載のテキスト分類学習装置。
  7. 【請求項7】 テキストの分類法を学習するテキスト分
    類学習プログラムを格納した記憶媒体であって、 カテゴリ毎に分類されたテキストの集合が与えられる
    と、該テキストから単語の抽出と選択及び特徴ベクトル
    の作成を行う単語抽出プロセスと、 前記単語抽出プロセスで抽出・選択された前記特徴ベク
    トルを、分類法を学習するSupport Vector Machine(以
    下、SVM)に渡す転送プロセスとを有することを特徴
    とするテキスト分類学習プログラムを格納した記憶媒
    体。
  8. 【請求項8】 前記単語抽出プロセスは、 抽出された単語の品詞に基づいて特徴ベクトルを選択す
    る特徴ベクトル選択プロセスを有する請求項7記載のテ
    キスト分類学習プログラムを格納した記憶媒体。
  9. 【請求項9】 前記単語抽出プロセスは、 選択する単語として普通名詞、固有名詞、サ変名詞、未
    知語、動詞を選択する単語選択プロセスを有する請求項
    7記載のテキスト分類学習プログラムを格納した記憶媒
    体。
JP11191064A 1999-07-05 1999-07-05 テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 Pending JP2001022727A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11191064A JP2001022727A (ja) 1999-07-05 1999-07-05 テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11191064A JP2001022727A (ja) 1999-07-05 1999-07-05 テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2001022727A true JP2001022727A (ja) 2001-01-26

Family

ID=16268286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11191064A Pending JP2001022727A (ja) 1999-07-05 1999-07-05 テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2001022727A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2006113746A (ja) * 2004-10-13 2006-04-27 Hewlett-Packard Development Co Lp 文書分類装置、方法、プログラム
JP2007133659A (ja) * 2005-11-10 2007-05-31 Nippon Telegr & Teleph Corp <Ntt> 文書発行者分類方法及び装置及びプログラム
JP2009116680A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology データ種類検出装置及びデータ種類検出方法
JP4783476B2 (ja) * 2007-06-13 2011-09-28 マイクロソフト コーポレーション 広告イメージまたは非広告イメージとしてのイメージの分類
KR101110336B1 (ko) 2009-05-29 2012-02-15 (주)엠더블유스토리 댓글에 대한 평판도 분석 방법
KR20180050163A (ko) * 2016-11-04 2018-05-14 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치
KR20180062998A (ko) * 2018-05-28 2018-06-11 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339020A (ja) * 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書処理装置
JP2006113746A (ja) * 2004-10-13 2006-04-27 Hewlett-Packard Development Co Lp 文書分類装置、方法、プログラム
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
JP2007133659A (ja) * 2005-11-10 2007-05-31 Nippon Telegr & Teleph Corp <Ntt> 文書発行者分類方法及び装置及びプログラム
JP4554493B2 (ja) * 2005-11-10 2010-09-29 日本電信電話株式会社 文書発行者分類装置及びプログラム
JP4783476B2 (ja) * 2007-06-13 2011-09-28 マイクロソフト コーポレーション 広告イメージまたは非広告イメージとしてのイメージの分類
JP2009116680A (ja) * 2007-11-07 2009-05-28 National Institute Of Information & Communication Technology データ種類検出装置及びデータ種類検出方法
KR101110336B1 (ko) 2009-05-29 2012-02-15 (주)엠더블유스토리 댓글에 대한 평판도 분석 방법
KR20180050163A (ko) * 2016-11-04 2018-05-14 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치
KR101863569B1 (ko) * 2016-11-04 2018-06-01 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치
KR20180062998A (ko) * 2018-05-28 2018-06-11 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치
KR101893029B1 (ko) * 2018-05-28 2018-10-04 한국인터넷진흥원 머신 러닝 기반의 취약점 정보를 분류하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US7971150B2 (en) Document categorisation system
US6424997B1 (en) Machine learning based electronic messaging system
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
US7162413B1 (en) Rule induction for summarizing documents in a classified document collection
CN111767403A (zh) 一种文本分类方法和装置
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
JP2004110200A (ja) テキスト文比較装置
CN113821605B (zh) 一种事件抽取方法
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
CN113486189A (zh) 一种开放性知识图谱挖掘方法及系统
CN108536673B (zh) 新闻事件抽取方法及装置
CN108399157A (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN116070599A (zh) 智能化题库生成及辅助管理系统
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
JP4008313B2 (ja) 質問タイプ学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習サンプルが記録されている記録媒体、質問タイプ同定装置、質問タイプ同定プログラム、同プログラムを記録した記録媒体
JP6715487B1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
Obasa et al. Hybridization of bag-of-words and forum metadata for web forum question post detection
Dawar et al. Text categorization by content using Naïve Bayes approach
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
CN111625722B (zh) 一种基于深度学习的人才推荐方法、系统及存储介质
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
Cohen et al. Learning to Understand Web Site Update Requests.