JP3787310B2 - キーワード決定方法、装置、プログラム、および記録媒体 - Google Patents

キーワード決定方法、装置、プログラム、および記録媒体 Download PDF

Info

Publication number
JP3787310B2
JP3787310B2 JP2002063867A JP2002063867A JP3787310B2 JP 3787310 B2 JP3787310 B2 JP 3787310B2 JP 2002063867 A JP2002063867 A JP 2002063867A JP 2002063867 A JP2002063867 A JP 2002063867A JP 3787310 B2 JP3787310 B2 JP 3787310B2
Authority
JP
Japan
Prior art keywords
word
importance
pattern
keyword
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002063867A
Other languages
English (en)
Other versions
JP2003263441A (ja
Inventor
伸章 廣嶋
隆明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002063867A priority Critical patent/JP3787310B2/ja
Publication of JP2003263441A publication Critical patent/JP2003263441A/ja
Application granted granted Critical
Publication of JP3787310B2 publication Critical patent/JP3787310B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキストからキーワードを決定する方法および装置に関する。
【0002】
【従来の技術】
従来、キーワード決定手法として、テキスト中の様々な言語的情報をもとにキーワードを決定する手法が提案されている。その代表として、単語が対象のテキスト中に出現するほど、また、他のテキストに出現しないほど、その単語はキーワードらしいと考え、単語の出現頻度をもとにキーワード決定を行うTF・IDF法が擧げられる。他にも、テキスト中の位置情報を利用したものや、係り受け関係を利用したもの、文脈情報を利用したものなど様々な手法が提案されている。これらの言語的情報同士には相関関係があるため、単一の言語的情報ではキーワードを特定できない。例えば、TF・IDF法によってキーワードらしいと判定された単語であっても、「例えば、」で始まる文の中にその単語が多数含まれていた場合、それほど重要なキーワードではないなどということが考えられる。そのため、複数の言語的情報を用いてキーワード抽出を行う必要がある。
【0003】
【発明が解決しようとする課題】
しかしながら、複数の言語的情報を考慮したルールを人手で記述するのは困難である。例えば、単語の頻度がある値以上で、テキストの第1文に含まれていて、他の単語から修飾されていて、文の先頭が「例えば、」で始まらない場合にはキーワードとして決定するというようなルールを個々に書いていくのは現実的には不可能である。また、複数の言語的情報を考慮したルールによってキーワード決定ができたとしても、テキストの分野によって重要な言語的情報が異なるため、異なる分野のテキストに同じルールを適用しても正しくキーワードが決定されない。例えば、新聞記事などではテキストの先頭にキーワードが多く存在するため位置情報は有効な言語的情報であるが、Webページなどでは必ずしもそうとはいえない。
【0004】
本発明の目的は、どのような分野のテキストに対してもロバストにキーワードを決定する方法および装置を提供することにある。
【0006】
【課題を解決するための手段】
本発明のキーワード決定方法は、単語分割手段と重要度算出手段と重要度付与手段とキーワード出力手段により構成されるキーワード決定装置が実施するキーワード決定方法であって、
単語分割手段が、学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
重要度算出手段が、分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付けるステップと、
重要度算出手段が、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出するステップと、
重要度算出手段が、対応付けられた単語について分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について分類面からの距離を負値にしたものを単語の重要度として算出するステップと、
重要度算出手段が、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納するステップと、
単語分割手段が、キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
重要度付与手段が、分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出するステップと、
重要度付与手段が、該ベクトルのパターンと、重要語選択モデルデータベースに格納された、該言語的情報と同一の言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンと比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定するステップと、
キーワード出力手段が、前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するステップと
を有する。
【0008】
まず、テキストを入力として、テキスト中の各文は単語に切り分けられ、それぞれの単語に品詞が付与される。この品詞付き単語に対し、特定の品詞を持つ単語のみが内容語として選択される。一方、要約付きテキストの集合を入力として、まずテキスト中および要約中の各文は品詞付きの単語に分割され、特定の品詞を持つ単語が内容語として選択され、得られたテキストと要約の内容語の間で一致または類似した単語が対応付けされ、テキスト中の内容語のうち要約中の内容語と対応付けられたものはキーワードに必要な内容語として、対応付けられなかったものは不要な内容語として分類される。さらに、2値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデルが学習される。得られた内容語に対し、得られた重要語選択モデルを用いて重要度が付与される。この重要度が付与された内容語のうち、重要度の高いものから順に指定された個数の内容語がキーワードとして決定され、出力される。
【0009】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0010】
図1を参照すると、本発明の一実施形態のキーワード抽出装置は単語分割部1と内容語選択部2と重要度算出部3と重要語選択モデルDB4と重要度付与部5とキーワード出力部6で構成されている。
【0011】
単語分割部1は、入力されたテキストまたは要約を単語に切り分け(形態素解析し)、品詞を付与する。内容語選択部2は、品詞付きの単語のうち、特定の品詞、一例として自立語(名詞、動詞、形容詞、形容動詞)を持つ単語を内容語として選択する。重要度算出部3は、得られたテキストと要約の内容語の間で一致または類似した単語を対応付けし、テキスト中の内容語のうち要約中の内容語と対応付けられたものをキーワードに必要な内容語として、対応付けられなかったものを不要な内容語として分類し、2値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデル(言語的情報の要素値からなるベクトルと重要度の組)を学習し、そのモデルを重要度選択モデルDB4に出力する。重要度付与部5は、重要度算出部3により得られた重要語選択モデルを用いて、内容語選択部2で得られた、テキスト中の内容語に対して重要度を付与する。キーワード出力部6は、重要度が付与された内容語のうち、重要度の高いものから順に指定された個数の内容語をキーワードと決定して出力する。
【0012】
図2は本実施形態のキーワード抽出装置の全体の処理の流れを示すフローチャートである。
【0013】
まず、重要語選択モデルが既に学習済みであるかをチェックし(ステップ11)、学習済みでなければ、単語分割部1と内容語選択部2と重要度算出部3で重要語選択モデルの学習を行う(ステップ12)。次に、単語分割部1でキーワード抽出対象のテキストに対して形態素解析を行い、テキスト中の各文を品詞付きの単語に分割する(ステップ13)。次に、内容語選択部2で、分割された単語に対し、それが特定の品詞の単語かどうかを判定し(ステップ14)、特定の品詞を内容語として選択する(ステップ15)という操作を各単語について繰り返す(ステップ16)。次に、重要度付与部5で重要語選択モデルDB4中の重要語選択モデルを用いて、ステップ16で得られた内容語の様々な言語的情報から重要度を算出し、内容語に重要度を付与する(ステップ17)。最後に、キーワード出力部6で、内容語を付与された重要度の高いものから順にキーワードとして決められた個数または割合で出力する(ステップ18)。
【0014】
図3は重要語選択モデル学習の流れを示すフローチャートである。
【0015】
まず、テキストとその要約の対を複数用意し、単語分割部1でテキストと要約を形態素解析し、品詞付きの単語に分割する(ステップ21)。内容語選択部2で、分割された単語に対し、それが特定の品詞の単語かどうかを判定し(ステップ22)、特定の品詞を内容語として選択する(ステップ23)という操作を各単語について繰り返す(ステップ24)。重要度算出部3で、得られたテキストと要約の内容語の間で一致または類似した単語を対応付けし(ステップ25)、テキスト中の内容語のうち要約中の内容語と対応付けられたかどうかの判定を行い(ステップ26)、対応付けられたものをキーワードに必要な内容語として分類し(ステップ27)、対応付けられなかったものを不要な内容語として分類する(ステップ28)ということを各内容語について繰り返す(ステップ29)。最後に、2値分類の機械学習手法を用いて、テキスト中の内容語に関する様々な言語的情報から、必要な内容語の場合は正の重要度を、不要な内容語の場合は負の重要度を出力する重要語選択モデル(言語的情報の要素値からなるベクトルと重要度の組)を学習し、重要語選択モデルDB4に格納する(ステップ30)。
【0016】
次に、本実施形態のキーワード抽出装置の動作を具体例により説明する。
【0017】
まず、内容語に重要度を付与するために必要な重要語選択モデルの作成方法について説明する。図4は重要語選択モデルの学習に用いるテキストの例であり、図5はそのテキストの要約の例である。
【0018】
単語分割部1によって、テキストと要約をそれぞれ品詞付きの単語に分割する。
【0019】
内容語選択部2によって、特定の品詞を持つ単語を内容語として選択する。この例では名詞・動詞・形容詞・形容動詞の4種類の品詞を持つ単語を内容語として選択することにすると、図4のテキストからは、「店内」「青竹」「ふんだん」「あしらう」「明るい」「開放的」「三浦半島」「景色」「抽象的」「描く」「油絵」「心地よい」「空間」「醸し出す」の14単語が内容語として選ばれ、図5の要約からは、「店内」「明るい」「開放的」「心地よい」「空間」「醸し出す」の6単語が内容語として選ばれる。
【0020】
重要度算出部3で、得られたテキストと要約の内容語の間で一致または類似した単語(テキストと要約の両者に現れる単語)を対応付けすると、テキスト中の14単語のうち「店内」「明るい」「開放的」「心地よい」「空間」「醸し出す」の6単語については要約中の内容語と一致するため、これらをキーワードに必要な内容語とする。残りの8単語については対応付けられなかったので、不要な内容語とする。この結果を表1の分類結果の欄に示す。表1中、分類結果の○印は必要な内容語、×印は不要な内容語であることを示す。
【0021】
【表1】
Figure 0003787310
テキスト中の14単語に関して様々な言語的情報に関する値を求める。
【0022】
表2は言語的情報の例を示しており、単語の文書内頻度、単語の文書間頻度の逆数、単語の文中での位置、単語の品詞が名詞かどうか、単語の品詞が固有名詞かどうか、単語の品詞が動詞かどうか、単語の品詞が形容詞かどうか、後続する単語の品詞が助詞かどうか、単語の属する節は被修飾節かどうか、単語の属する文の先頭が「例えば、」で始まるかどうか、を含んでいる。
【0023】
【表2】
Figure 0003787310
【0024】
ここでは、簡単のため、表2に示した10種類を言語的情報の例として話を進めるが、実際には思いつく限りの様々な言語的情報を利用することができる。言語的情報の値には、頻度のようにある値が求まる場合にはそれを0から1までの値に正規化した値を用い、特定の品詞かどうかというようにYes/Noで求まる場合にはYesを「1」、Noを「0」とした値を用いる。言語的情報の値を求めた結果を表1の言語的情報の値の欄に示す。初めの単語「店内」において、4番目の言語的情報は単語が名詞かどうかであるが、「店内」は名詞であるのでYesとなり、その値は1となる。他も同様にして求める。各単語について各言語的情報に対する値を要素とするベクトルを求め、そのベクトル値について対応付けられた単語と対応付けられなかったものとを分類するための分類面を一例としてSVM法(Support Vector Machine, 2次の凸計画問題として各ベクトル値からユークリッド距離の二乗和を最小とする面を分類面とする方法)で求める。ここで、分類面から各単語に対応するベクトルのユークリッド距離を重要度として求める。
【0025】
対応付けられた内容語の言語的情報の要素値からなるベクトルと、対応付けられなかった内容語の言語的情報の要素値からなるベクトルとを分類する分類面を、2値分類の機械学習手法の1つであるSVM法を用いて求め、各ベクトルから分類面までの距離を求める。対応付けられたベクトルについては距離の値そのものを重要度とし、対応つけられなかったベクトルについては距離の値を負値としたものを重要度とする。このようにして求めたベクトルと重要度を重要語選択モデルとして重要語選択モデルDB4に格納する。表1に学習結果の例を示す。必要かどうかの分類結果が「○」になっている内容語の言語的情報の値からは正の重要度が出力され、「×」になっている内容語の言語的情報の値からは負の重要度が出力される重要語選択モデルが学習されている。
【0026】
次に、学習した重要語選択モデルを用いてキーワードを抽出する方法について説明する。図6はキーワード抽出の対象とするテキストの例である。
【0027】
単語分割部1によって、テキストを品詞付きの単語に分割する。
【0028】
内容語選択部2によって、特定の品詞を持つ単語を内容語として選択する。重要語選択モデルの学習時と同様にして名詞・動詞・形容詞・形容動詞の4種類の品詞を持つ単語を内容語して選択することにすると、図6のテキストからは、「逗子湾」「沿う」「ゆるやか」「カーブ」「描く」「広大」「海水浴場」「ビーチ」「海の家」「立ち並ぶ」「毎年」「100万人」「超える」「海水浴客」「にぎわう」の15単語が内容語として選ばれる。
【0029】
重要度付与部5では、テキスト中の15の内容語に関して、モデル作成時と同様にして表2で示した言語的情報に関する値を求める。各内容語の言語的情報の値から、先ほど作成した重要語選択モデルを用いることで、重要度を求める。すなわち、各内容語の言語的情報に関する値のパターンを重要度選択モデル4中の言語的情報の値のパターンと比べ、値のパターンが同じであれば、重要度選択モデルDB4中の対応する重要度を当該内容語の重要度とし、同一のパターンのものがなければ、類似するパターンとの類似の度合に応じて類似するパターンの重要度を増減することで重要度を求める。内容語に重要度を付与した結果を表3に示す。表3で「逗子湾」に関するベクトルは、表1における「店内」および「三浦半島」のベクトルと類似していることから、2つのベクトルの重要度+0.42、−1.00の間をとった値−0.58が「逗子湾」の重要度となっている。残りについても同様にして重要度を付与する。
【0030】
【表3】
Figure 0003787310
【0031】
キーワード出力部6では、重要度が付与された複数の内容語の中から、決められた個数または割合をキーワードとして決定、出力する。例えば上位3個をキーワードと定めた場合には、最も重要度が高い「海水浴場」(重要度+1.00)、次いで重要度が高い「にぎわう」(重要度+0.90)、3番目に重要度が高い「海水浴客」(重要度+0.84)の3つの内容語がキーワードとして決定され、出力される。
【0032】
重要語選択モデルの学習の際、様々な分野の要約付きテキストを用いてモデルを学習させておけば、異なる分野のテキストを対象としてキーワード抽出を行う場合でもモデルを再学習させる必要はなく、先ほど作成した重要語選択モデルを用いて重要度の付与を行えばよい。
【0033】
なお、図1に示したキーワード抽出装置は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0034】
【発明の効果】
以上説明したように本発明によれば、キーワード抽出に必要な思いつく限りの言語的情報を考慮することができるため、どのような分野のテキストに対してもロバストにキーワード抽出を行うことが可能となり、また、異なる分野のテキストに対しても新たにルールを記述する必要がないため、精度維持にかかる手間やコストを大幅に削減することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態のキーワード抽出装置のブロック図である。
【図2】図1の実施形態のキーワード抽出装置の全体の処理の流れを示すフローチャートである。
【図3】重要語選択モデル学習の流れを示すフローチャートである。
【図4】学習に用いるテキストの例を示す図である。
【図5】学習に用いる要約の例を示す図である。
【図6】キーワード抽出の対象とするテキストの例を示す図である。
【符号の説明】
1 単語分割部
2 内容語選択部
3 重要度算出部
4 重要語選択モデルデータベース
5 重要度付与部
6 キーワード出力部
11〜18、21〜30 ステップ

Claims (4)

  1. 単語分割手段と重要度算出手段と重要度付与手段とキーワード出力手段により構成されるキーワード決定装置が実施するキーワード決定方法であって、
    前記単語分割手段が、学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
    前記重要度算出手段が、分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付けるステップと、
    前記重要度算出手段が、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出するステップと、
    前記重要度算出手段が、対応付けられた単語について前記分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について前記分類面からの距離を負値にしたものを単語の重要度として算出するステップと、
    前記重要度算出手段が、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納するステップと、
    前記単語分割手段が、キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析するステップと、
    前記重要度付与手段が、分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出するステップと、
    前記重要度付与手段が、該ベクトルのパターンと、前記重要語選択モデルデータベースに格納された、該言語的情報と同一の言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンと比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定するステップと、
    前記キーワード出力手段が、前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するステップと
    を有するキーワード決定方法。
  2. 学習に用いるテキストの主テキストと要約テキストを構成する文それぞれについて形態素解析して単語とその品詞、係り受けを含む言語的情報を分析する第1の単語分割手段と、
    分析された特定の品詞の単語のうち、前記主テキストと前記要約テキストの両者に存在する単語を対応付ける手段と、各単語の言語的情報の要素値からなるベクトルについて、対応付けられた単語と対応付けられなかった単語各々についてベクトル空間での座標を分類する分類面を算出する手段と、対応付けられた単語について前記分類面からの距離を単語の重要度として算出し、対応付けられなかった単語について前記分類面からの距離を負値にしたものを単語の重要度として算出する手段と、対応付けられた単語と対応付けられなかった単語のすべてについて各言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデルを作成して重要語選択モデルデータベースに格納する手段とを含む重要度算出手段と
    キーワード抽出の対象であるテキスト文書を構成する文について形態素解析して単語とその品詞、係り受けを含む言語的情報を分析する第2の単語分割手段と、
    分析された特定の品詞の各単語について各言語的情報の要素値からなるベクトルを算出する手段と、該ベクトルのパターンと、前記重要語選択モデルデータベースに格納された、該言語的情報と同一言語的情報の要素値からなるベクトルと重要度とを対応付けた重要語選択モデル中のベクトルのパターンとを比較し、前者のパターンと一致する後者のパターンがあれば、該後者のパターンに対応する重要度を当該単語の重要度と決定し、前者のパターンと一致する後者のパターンがなければ、前者のパターンと類似する後者のパターンの類似度に応じて、該後者のパターンに対応する重要度を増減することにより、当該単語の重要度を決定する手段とを含む重要度付与手段と
    前記単語のうち、重要度の高い単語から順に予め定められた数をキーワードと決定するキーワード出力手段と
    を有するキーワード決定装置。
  3. 請求項2記載のキーワード決定装置の各手段の機能をコンピュータに実行させるためのキーワード決定プログラム。
  4. 請求項3に記載のキーワード決定プログラムを記録した、コンピュータ読み取り可能な記録媒体。
JP2002063867A 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体 Expired - Lifetime JP3787310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002063867A JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002063867A JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2003263441A JP2003263441A (ja) 2003-09-19
JP3787310B2 true JP3787310B2 (ja) 2006-06-21

Family

ID=29196930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002063867A Expired - Lifetime JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP3787310B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156932A (ja) * 2005-12-06 2007-06-21 Just Syst Corp 学習方法、学習装置、および検索方法、検索装置
US20100325109A1 (en) * 2007-02-09 2010-12-23 Agency For Science, Technology And Rearch Keyword classification and determination in language modelling
JP5308918B2 (ja) * 2009-05-29 2013-10-09 日本電信電話株式会社 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
KR101140264B1 (ko) * 2010-07-14 2012-04-26 엔에이치엔(주) 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP5405507B2 (ja) * 2011-02-17 2014-02-05 日本電信電話株式会社 具体主題の有無判定装置、方法、及びプログラム
JP5486525B2 (ja) * 2011-02-17 2014-05-07 日本電信電話株式会社 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP5419906B2 (ja) * 2011-02-17 2014-02-19 日本電信電話株式会社 主題抽出装置、方法、及びプログラム
KR101262492B1 (ko) 2011-05-26 2013-05-08 두산동아 주식회사 텍스트 독해 학습이 가능한 학습 단말 장치 및 방법
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品

Also Published As

Publication number Publication date
JP2003263441A (ja) 2003-09-19

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
US11531818B2 (en) Device and method for machine reading comprehension question and answer
KR100682897B1 (ko) 사전 업데이트 방법 및 그 장치
US11210470B2 (en) Automatic text segmentation based on relevant context
CN109165380B (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN110232112B (zh) 文章中关键词提取方法及装置
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
US20050071365A1 (en) Method for keyword correlation analysis
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP6553557B2 (ja) 学習装置、映像検索装置、方法、及びプログラム
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
JP2002073644A (ja) 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3787310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090331

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120331

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130331

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term