JP2003263441A - キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 - Google Patents

キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体

Info

Publication number
JP2003263441A
JP2003263441A JP2002063867A JP2002063867A JP2003263441A JP 2003263441 A JP2003263441 A JP 2003263441A JP 2002063867 A JP2002063867 A JP 2002063867A JP 2002063867 A JP2002063867 A JP 2002063867A JP 2003263441 A JP2003263441 A JP 2003263441A
Authority
JP
Japan
Prior art keywords
word
importance
words
text
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002063867A
Other languages
English (en)
Other versions
JP3787310B2 (ja
Inventor
Nobuaki Hiroshima
伸章 廣嶋
Takaaki Hasegawa
隆明 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002063867A priority Critical patent/JP3787310B2/ja
Publication of JP2003263441A publication Critical patent/JP2003263441A/ja
Application granted granted Critical
Publication of JP3787310B2 publication Critical patent/JP3787310B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 どのような分野のテキストに対してもロバス
トにキーワードを決定する。 【解決手段】 内容語選択部2は、入力されたテキスト
の単語のうち特定の品詞を持つ単語を内容語として選択
する。重要度算出部3は、得られたテキストと要約の内
容語の間で一致または類似した単語を対応付けし、テキ
スト中の内容語のうち要約中の内容語と対応付けられた
ものをキーワードに必要な内容語として、対応付けられ
なかったものを不要な内容語として分類し、テキスト中
の内容語に関する様々な言語的情報から、必要な内容語
の場合は正の重要度を、不要な内容語の場合は負の重要
度を出力する重要語選択モデルを学習し、DB4に出力
する。重要度付与部5は、得られた重要語選択モデルを
用いてテキストの内容語に重要度を付与する。キーワー
ド出力部6は、重要度が付与された内容語を、重要度の
高いものから順に指定された個数キーワードとして出力
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストからキー
ワードを決定する方法および装置に関する。
【0002】
【従来の技術】従来、キーワード決定手法として、テキ
スト中の様々な言語的情報をもとにキーワードを決定す
る手法が提案されている。その代表として、単語が対象
のテキスト中に出現するほど、また、他のテキストに出
現しないほど、その単語はキーワードらしいと考え、単
語の出現頻度をもとにキーワード決定を行うTF・IDF法
が擧げられる。他にも、テキスト中の位置情報を利用し
たものや、係り受け関係を利用したもの、文脈情報を利
用したものなど様々な手法が提案されている。これらの
言語的情報同士には相関関係があるため、単一の言語的
情報ではキーワードを特定できない。例えば、TF・I
DF法によってキーワードらしいと判定された単語であ
っても、「例えば、」で始まる文の中にその単語が多数
含まれていた場合、それほど重要なキーワードではない
などということが考えられる。そのため、複数の言語的
情報を用いてキーワード抽出を行う必要がある。
【0003】
【発明が解決しようとする課題】しかしながら、複数の
言語的情報を考慮したルールを人手で記述するのは困難
である。例えば、単語の頻度がある値以上で、テキスト
の第1文に含まれていて、他の単語から修飾されてい
て、文の先頭が「例えば、」で始まらない場合にはキー
ワードとして決定するというようなルールを個々に書い
ていくのは現実的には不可能である。また、複数の言語
的情報を考慮したルールによってキーワード決定ができ
たとしても、テキストの分野によって重要な言語的情報
が異なるため、異なる分野のテキストに同じルールを適
用しても正しくキーワードが決定されない。例えば、新
聞記事などではテキストの先頭にキーワードが多く存在
するため位置情報は有効な言語的情報であるが、Web
ページなどでは必ずしもそうとはいえない。
【0004】本発明の目的は、どのような分野のテキス
トに対してもロバストにキーワードを決定する方法およ
び装置を提供することにある。
【0005】本発明の他の目的は、テキスト中の単語に
関する複数の言語的情報からキーワードを決定するため
のキーワード決定データベースを作成する方法および装
置を提供することにある。
【0006】
【課題を解決するための手段】本発明のキーワード決定
方法は、テキスト文書を構成する文について形態素解析
して単語とその品詞、係り受けを含む言語的情報を分析
するステップと、分析された特定の品詞の単語につい
て、各言語的情報の要素値からなるベクトルを算出する
ステップと、該ベクトルのパターンと、該言語的情報と
同一の言語的情報の要素値からなるベクトルと重要度と
を対応付けたデータベースに格納されたベクトルのパタ
ーンと比較し、前者のパターンと一致する後者のパター
ンがあれば、該後者のパターンに対応する重要度を当該
単語の重要度と決定し、前者のパターンと一致する後者
のパターンがなければ、前者のパターンと類似する後者
のパターンの類似度に応じて、該後者のパターンに対応
する重要度を増減することにより、当該単語の重要度を
決定するステップと、前記単語のうち、重要度の高い単
語から順に予め定められた数をキーワードと決定するス
テップを有する。
【0007】また、本発明のキーワード決定データベー
ス作成方法は、主テキストと要約テキストを構成する文
それぞれについて形態素解析して単語とその品詞、係り
受けを含む言語的情報を分析するステップと、分析され
た特定の品詞の単語のうち、主テキストと要約テキスト
の両者に存在する単語を対応付けるステップと、各単語
の言語的情報の要素値からなるベクトルについて、対応
付けられた単語と対応付けられなかった単語各々につい
てベクトル空間での座標を分類する分類面を算出するス
テップと、対応付けられた単語について分類面からの距
離を単語の重要度として算出するステップと、対応付け
られた単語について各言語的情報の要素値からなるベク
トルと重要度とを対応付けたデータベースを作成するス
テップを有する。
【0008】まず、テキストを入力として、テキスト中
の各文は単語に切り分けられ、それぞれの単語に品詞が
付与される。この品詞付き単語に対し、特定の品詞を持
つ単語のみが内容語として選択される。一方、要約付き
テキストの集合を入力として、まずテキスト中および要
約中の各文は品詞付きの単語に分割され、特定の品詞を
持つ単語が内容語として選択され、得られたテキストと
要約の内容語の間で一致または類似した単語が対応付け
され、テキスト中の内容語のうち要約中の内容語と対応
付けられたものはキーワードに必要な内容語として、対
応付けられなかったものは不要な内容語として分類され
る。さらに、2値分類の機械学習手法を用いて、テキス
ト中の内容語に関する様々な言語的情報から、必要な内
容語の場合は正の重要度を、不要な内容語の場合は負の
重要度を出力する重要語選択モデルが学習される。得ら
れた内容語に対し、得られた重要語選択モデルを用いて
重要度が付与される。この重要度が付与された内容語の
うち、重要度の高いものから順に指定された個数の内容
語がキーワードとして決定され、出力される。
【0009】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0010】図1を参照すると、本発明の一実施形態の
キーワード抽出装置は単語分割部1と内容語選択部2と
重要度算出部3と重要語選択モデルDB4と重要度付与
部5とキーワード出力部6で構成されている。
【0011】単語分割部1は、入力されたテキストまた
は要約を単語に切り分け(形態素解析し)、品詞を付与
する。内容語選択部2は、品詞付きの単語のうち、特定
の品詞、一例として自立語(名詞、動詞、形容詞、形容
動詞)を持つ単語を内容語として選択する。重要度算出
部3は、得られたテキストと要約の内容語の間で一致ま
たは類似した単語を対応付けし、テキスト中の内容語の
うち要約中の内容語と対応付けられたものをキーワード
に必要な内容語として、対応付けられなかったものを不
要な内容語として分類し、2値分類の機械学習手法を用
いて、テキスト中の内容語に関する様々な言語的情報か
ら、必要な内容語の場合は正の重要度を、不要な内容語
の場合は負の重要度を出力する重要語選択モデル(言語
的情報の要素値からなるベクトルと重要度の組)を学習
し、そのモデルを重要度選択モデルDB4に出力する。
重要度付与部5は、重要度算出部3により得られた重要
語選択モデルを用いて、内容語選択部2で得られた、テ
キスト中の内容語に対して重要度を付与する。キーワー
ド出力部6は、重要度が付与された内容語のうち、重要
度の高いものから順に指定された個数の内容語をキーワ
ードと決定して出力する。
【0012】図2は本実施形態のキーワード抽出装置の
全体の処理の流れを示すフローチャートである。
【0013】まず、重要語選択モデルが既に学習済みで
あるかをチェックし(ステップ11)、学習済みでなけ
れば、単語分割部1と内容語選択部2と重要度算出部3
で重要語選択モデルの学習を行う(ステップ12)。次
に、単語分割部1でキーワード抽出対象のテキストに対
して形態素解析を行い、テキスト中の各文を品詞付きの
単語に分割する(ステップ13)。次に、内容語選択部
2で、分割された単語に対し、それが特定の品詞の単語
かどうかを判定し(ステップ14)、特定の品詞を内容
語として選択する(ステップ15)という操作を各単語
について繰り返す(ステップ16)。次に、重要度付与
部5で重要語選択モデルDB4中の重要語選択モデルを
用いて、ステップ16で得られた内容語の様々な言語的
情報から重要度を算出し、内容語に重要度を付与する
(ステップ17)。最後に、キーワード出力部6で、内
容語を付与された重要度の高いものから順にキーワード
として決められた個数または割合で出力する(ステップ
18)。
【0014】図3は重要語選択モデル学習の流れを示す
フローチャートである。
【0015】まず、テキストとその要約の対を複数用意
し、単語分割部1でテキストと要約を形態素解析し、品
詞付きの単語に分割する(ステップ21)。内容語選択
部2で、分割された単語に対し、それが特定の品詞の単
語かどうかを判定し(ステップ22)、特定の品詞を内
容語として選択する(ステップ23)という操作を各単
語について繰り返す(ステップ24)。重要度算出部3
で、得られたテキストと要約の内容語の間で一致または
類似した単語を対応付けし(ステップ25)、テキスト
中の内容語のうち要約中の内容語と対応付けられたかど
うかの判定を行い(ステップ26)、対応付けられたも
のをキーワードに必要な内容語として分類し(ステップ
27)、対応付けられなかったものを不要な内容語とし
て分類する(ステップ28)ということを各内容語につ
いて繰り返す(ステップ29)。最後に、2値分類の機
械学習手法を用いて、テキスト中の内容語に関する様々
な言語的情報から、必要な内容語の場合は正の重要度
を、不要な内容語の場合は負の重要度を出力する重要語
選択モデル(言語的情報の要素値からなるベクトルと重
要度の組)を学習し、重要語選択モデルDB4に格納す
る(ステップ30)。
【0016】次に、本実施形態のキーワード抽出装置の
動作を具体例により説明する。
【0017】まず、内容語に重要度を付与するために必
要な重要語選択モデルの作成方法について説明する。図
4は重要語選択モデルの学習に用いるテキストの例であ
り、図5はそのテキストの要約の例である。
【0018】単語分割部1によって、テキストと要約を
それぞれ品詞付きの単語に分割する。
【0019】内容語選択部2によって、特定の品詞を持
つ単語を内容語として選択する。この例では名詞・動詞
・形容詞・形容動詞の4種類の品詞を持つ単語を内容語
として選択することにすると、図4のテキストからは、
「店内」「青竹」「ふんだん」「あしらう」「明るい」
「開放的」「三浦半島」「景色」「抽象的」「描く」
「油絵」「心地よい」「空間」「醸し出す」の14単語
が内容語として選ばれ、図5の要約からは、「店内」
「明るい」「開放的」「心地よい」「空間」「醸し出
す」の6単語が内容語として選ばれる。
【0020】重要度算出部3で、得られたテキストと要
約の内容語の間で一致または類似した単語(テキストと
要約の両者に現れる単語)を対応付けすると、テキスト
中の14単語のうち「店内」「明るい」「開放的」「心
地よい」「空間」「醸し出す」の6単語については要約
中の内容語と一致するため、これらをキーワードに必要
な内容語とする。残りの8単語については対応付けられ
なかったので、不要な内容語とする。この結果を表1の
分類結果の欄に示す。表1中、分類結果の○印は必要な
内容語、×印は不要な内容語であることを示す。
【0021】
【表1】 テキスト中の14単語に関して様々な言語的情報に関す
る値を求める。
【0022】表2は言語的情報の例を示しており、単語
の文書内頻度、単語の文書間頻度の逆数、単語の文中で
の位置、単語の品詞が名詞かどうか、単語の品詞が固有
名詞かどうか、単語の品詞が動詞かどうか、単語の品詞
が形容詞かどうか、後続する単語の品詞が助詞かどう
か、単語の属する節は被修飾節かどうか、単語の属する
文の先頭が「例えば、」で始まるかどうか、を含んでい
る。
【0023】
【表2】
【0024】ここでは、簡単のため、表2に示した10
種類を言語的情報の例として話を進めるが、実際には思
いつく限りの様々な言語的情報を利用することができ
る。言語的情報の値には、頻度のようにある値が求まる
場合にはそれを0から1までの値に正規化した値を用
い、特定の品詞かどうかというようにYes/Noで求まる
場合にはYesを「1」、Noを「0」とした値を用い
る。言語的情報の値を求めた結果を表1の言語的情報の
値の欄に示す。初めの単語「店内」において、4番目の
言語的情報は単語が名詞かどうかであるが、「店内」は
名詞であるのでYesとなり、その値は1となる。他も
同様にして求める。各単語について各言語的情報に対す
る値を要素とするベクトルを求め、そのベクトル値につ
いて対応付けられた単語と対応付けられなかったものと
を分類するための分類面を一例としてSVM法(Suppor
t Vector Machine, 2次の凸計画問題として各ベクトル
値からユークリッド距離の二乗和を最小とする面を分類
面とする方法)で求める。ここで、分類面から各単語に
対応するベクトルのユークリッド距離を重要度として求
める。
【0025】対応付けられた内容語の言語的情報の要素
値からなるベクトルと、対応付けられなかった内容語の
言語的情報の要素値からなるベクトルとを分類する分類
面を、2値分類の機械学習手法の1つであるSVM法を
用いて求め、各ベクトルから分類面までの距離を求め
る。対応付けられたベクトルについては距離の値そのも
のを重要度とし、対応つけられなかったベクトルについ
ては距離の値を負値としたものを重要度とする。このよ
うにして求めたベクトルと重要度を重要語選択モデルと
して重要語選択モデルDB4に格納する。表1に学習結
果の例を示す。必要かどうかの分類結果が「○」になっ
ている内容語の言語的情報の値からは正の重要度が出力
され、「×」になっている内容語の言語的情報の値から
は負の重要度が出力される重要語選択モデルが学習され
ている。
【0026】次に、学習した重要語選択モデルを用いて
キーワードを抽出する方法について説明する。図6はキ
ーワード抽出の対象とするテキストの例である。
【0027】単語分割部1によって、テキストを品詞付
きの単語に分割する。
【0028】内容語選択部2によって、特定の品詞を持
つ単語を内容語として選択する。重要語選択モデルの学
習時と同様にして名詞・動詞・形容詞・形容動詞の4種
類の品詞を持つ単語を内容語して選択することにする
と、図6のテキストからは、「逗子湾」「沿う」「ゆる
やか」「カーブ」「描く」「広大」「海水浴場」「ビー
チ」「海の家」「立ち並ぶ」「毎年」「100万人」
「超える」「海水浴客」「にぎわう」の15単語が内容
語として選ばれる。
【0029】重要度付与部5では、テキスト中の15の
内容語に関して、モデル作成時と同様にして表2で示し
た言語的情報に関する値を求める。各内容語の言語的情
報の値から、先ほど作成した重要語選択モデルを用いる
ことで、重要度を求める。すなわち、各内容語の言語的
情報に関する値のパターンを重要度選択モデル4中の言
語的情報の値のパターンと比べ、値のパターンが同じで
あれば、重要度選択モデルDB4中の対応する重要度を
当該内容語の重要度とし、同一のパターンのものがなけ
れば、類似するパターンとの類似の度合に応じて類似す
るパターンの重要度を増減することで重要度を求める。
内容語に重要度を付与した結果を表3に示す。表3で
「逗子湾」に関するベクトルは、表1における「店内」
および「三浦半島」のベクトルと類似していることか
ら、2つのベクトルの重要度+0.42、−1.00の
間をとった値−0.58が「逗子湾」の重要度となって
いる。残りについても同様にして重要度を付与する。
【0030】
【表3】
【0031】キーワード出力部6では、重要度が付与さ
れた複数の内容語の中から、決められた個数または割合
をキーワードとして決定、出力する。例えば上位3個を
キーワードと定めた場合には、最も重要度が高い「海水
浴場」(重要度+1.00)、次いで重要度が高い「に
ぎわう」(重要度+0.90)、3番目に重要度が高い
「海水浴客」(重要度+0.84)の3つの内容語がキ
ーワードとして決定され、出力される。
【0032】重要語選択モデルの学習の際、様々な分野
の要約付きテキストを用いてモデルを学習させておけ
ば、異なる分野のテキストを対象としてキーワード抽出
を行う場合でもモデルを再学習させる必要はなく、先ほ
ど作成した重要語選択モデルを用いて重要度の付与を行
えばよい。
【0033】なお、図1に示したキーワード抽出装置は
専用のハードウェアにより実現されるもの以外に、その
機能を実現するためのプログラムを、コンピュータ読み
取り可能な記録媒体に記録して、この記録媒体に記録さ
れたプログラムをコンピュータシステムに読み込ませ、
実行するものであってもよい。コンピュータ読み取り可
能な記録媒体とは、フロッピー(登録商標)ディスク、
光磁気ディスク、CD―ROM等の記録媒体、コンピュータ
システムに内蔵されるハードディスク装置等の記憶装置
を指す。さらに、コンピュータ読み取り可能な記録媒体
は、インターネットを介してプログラムを送信する場合
のように、短時間の間、動的にプログラムを保持するも
の(伝送媒体もしくは伝送波)、その場合のサーバとな
るコンピュータシステム内部の揮発性メモリのように、
一定時間プログラムを保持しているものも含む。
【0034】
【発明の効果】以上説明したように本発明によれば、キ
ーワード抽出に必要な思いつく限りの言語的情報を考慮
することができるため、どのような分野のテキストに対
してもロバストにキーワード抽出を行うことが可能とな
り、また、異なる分野のテキストに対しても新たにルー
ルを記述する必要がないため、精度維持にかかる手間や
コストを大幅に削減することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態のキーワード抽出装置のブ
ロック図である。
【図2】図1の実施形態のキーワード抽出装置の全体の
処理の流れを示すフローチャートである。
【図3】重要語選択モデル学習の流れを示すフローチャ
ートである。
【図4】学習に用いるテキストの例を示す図である。
【図5】学習に用いる要約の例を示す図である。
【図6】キーワード抽出の対象とするテキストの例を示
す図である。
【符号の説明】
1 単語分割部 2 内容語選択部 3 重要度算出部 4 重要語選択モデルデータベース 5 重要度付与部 6 キーワード出力部 11〜18、21〜30 ステップ

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 主テキストと要約テキストを構成する文
    それぞれについて形態素解析して単語とその品詞、係り
    受けを含む言語的情報を分析するステップと、 分析された特定の品詞の単語のうち、主テキストと要約
    テキストの両者に存在する単語を対応付けるステップ
    と、 各単語の言語的情報の要素値からなるベクトルについ
    て、対応付けられた単語と対応付けられなかった単語各
    々についてベクトル空間での座標を分類する分類面を算
    出するステップと、 対応付けられた単語について分類面からの距離を単語の
    重要度として算出するステップと、 対応付けられた単語について各言語的情報の要素値から
    なるベクトルと重要度とを対応付けたデータベースを作
    成するステップを有するキーワード決定データベース作
    成方法。
  2. 【請求項2】 テキスト文書を構成する文について形態
    素解析して単語とその品詞、係り受けを含む言語的情報
    を分析するステップと、 分析された特定の品詞の各単語について各言語的情報の
    要素値からなるベクトルを算出するステップと、 該ベクトルのパターンと、該言語的情報と同一の言語的
    情報の要素値からなるベクトルと重要度とを対応付けた
    データベースに格納されたベクトルのパターンと比較
    し、前者のパターンと一致する後者のパターンがあれ
    ば、該後者のパターンに対応する重要度を当該単語の重
    要度と決定し、前者のパターンと一致する後者のパター
    ンがなければ、前者のパターンと類似する後者のパター
    ンの類似度に応じて、該後者のパターンに対応する重要
    度を増減することにより、当該単語の重要度を決定する
    ステップと、 前記単語のうち、重要度の高い単語から順に予め定めら
    れた数をキーワードと決定するステップを有するキーワ
    ード決定方法。
  3. 【請求項3】 主テキストと要約テキストを構成する文
    それぞれについて形態素解析して単語とその品詞、係り
    受けを含む言語的情報を分析する手段と、 分析された特定の品詞の単語のうち、主テキストと要約
    テキストの両者に存在する単語を対応付ける手段と、 各単語の言語的情報の要素値からなるベクトルについ
    て、対応付けられた単語と対応付けられなかった単語各
    々についてベクトル空間での座標を分類する分類面を算
    出する手段と、 対応付けられた単語について分類面からの距離を単語の
    重要度として算出する手段と、 対応付けられた単語について各言語的情報の要素値から
    なるベクトルと重要度とを対応付けたデータベースを作
    成する手段を有するキーワード決定データベース作成装
    置。
  4. 【請求項4】 テキスト文書を構成する文について形態
    素解析して単語とその品詞、係り受けを含む言語的情報
    を分析する手段と、 分析された特定の品詞の各単語について各言語的情報の
    要素値からなるベクトルを算出するステップと、 該ベクトルのパターンと、該言語的情報と同一言語的情
    報の要素値からなるベクトルと重要度とを対応付けたデ
    ータベースに格納されたベクトルのパターンとを比較
    し、前者のパターンと一致する後者のパターンがあれ
    ば、該後者のパターンに対応する重要度を当該単語の重
    要度と決定し、前者のパターンと一致する後者のパター
    ンがなければ、前者のパターンと類似する後者のパター
    ンの類似度に応じて、該後者のパターンに対応する重要
    度を増減することにより、当該単語の重要度を決定する
    手段と、 前記単語のうち、重要度の高い単語から順に予め定めら
    れた数をキーワードと決定する手段を有するキーワード
    決定装置。
  5. 【請求項5】 請求項1記載のキーワード決定データベ
    ース作成方法をコンピュータに実行させるためのキーワ
    ード決定データベース作成プログラム。
  6. 【請求項6】 請求項2記載のキーワード決定方法をコ
    ンピュータに実行させるためのキーワード決定プログラ
    ム。
  7. 【請求項7】 請求項5記載のキーワード決定データベ
    ース作成プログラムを記録した記録媒体。
  8. 【請求項8】 請求項6記載のキーワード決定プログラ
    ムを記録した記録媒体。
JP2002063867A 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体 Expired - Lifetime JP3787310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002063867A JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002063867A JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2003263441A true JP2003263441A (ja) 2003-09-19
JP3787310B2 JP3787310B2 (ja) 2006-06-21

Family

ID=29196930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002063867A Expired - Lifetime JP3787310B2 (ja) 2002-03-08 2002-03-08 キーワード決定方法、装置、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP3787310B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156932A (ja) * 2005-12-06 2007-06-21 Just Syst Corp 学習方法、学習装置、および検索方法、検索装置
WO2008097194A1 (en) * 2007-02-09 2008-08-14 Agency For Science, Technology And Research Keyword classification and determination in language modelling
JP2010277415A (ja) * 2009-05-29 2010-12-09 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
KR101140264B1 (ko) * 2010-07-14 2012-04-26 엔에이치엔(주) 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
KR101262492B1 (ko) 2011-05-26 2013-05-08 두산동아 주식회사 텍스트 독해 학습이 가능한 학습 단말 장치 및 방법
JP2022153441A (ja) * 2021-10-28 2022-10-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007156932A (ja) * 2005-12-06 2007-06-21 Just Syst Corp 学習方法、学習装置、および検索方法、検索装置
WO2008097194A1 (en) * 2007-02-09 2008-08-14 Agency For Science, Technology And Research Keyword classification and determination in language modelling
JP2010277415A (ja) * 2009-05-29 2010-12-09 Nippon Telegr & Teleph Corp <Ntt> キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
KR101140264B1 (ko) * 2010-07-14 2012-04-26 엔에이치엔(주) 텍스트 패턴 추출을 이용하여 정보를 추출하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2012173809A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題の有無判定装置、方法、及びプログラム
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2012173810A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 主題抽出装置、方法、及びプログラム
KR101262492B1 (ko) 2011-05-26 2013-05-08 두산동아 주식회사 텍스트 독해 학습이 가능한 학습 단말 장치 및 방법
JP2022153441A (ja) * 2021-10-28 2022-10-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7421604B2 (ja) 2021-10-28 2024-01-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム

Also Published As

Publication number Publication date
JP3787310B2 (ja) 2006-06-21

Similar Documents

Publication Publication Date Title
US11816441B2 (en) Device and method for machine reading comprehension question and answer
US10170104B2 (en) Electronic device, method and training method for natural language processing
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
US9483460B2 (en) Automated formation of specialized dictionaries
US8185378B2 (en) Method and system for determining text coherence
CN110232112B (zh) 文章中关键词提取方法及装置
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
CN110162630A (zh) 一种文本去重的方法、装置及设备
JPWO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
JP2001331514A (ja) 文書分類装置及び文書分類方法
JP3198932B2 (ja) 文書検索装置
WO2023177723A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN115757743A (zh) 文档的检索词匹配方法及电子设备
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
Siddique et al. Bilingual word embeddings for cross-lingual personality recognition using convolutional neural nets
KR102557380B1 (ko) 지식 임베딩 모델 기반의 개체명 인식 모델 생성 장치 및 방법
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
JP2004326479A (ja) 単語間類似度計算プログラム及び装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Sajadi et al. Arabic named entity recognition using boosting method
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060324

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3787310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090331

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100331

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110331

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120331

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130331

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term