JP2002108888A - ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 - Google Patents

ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2002108888A
JP2002108888A JP2000300276A JP2000300276A JP2002108888A JP 2002108888 A JP2002108888 A JP 2002108888A JP 2000300276 A JP2000300276 A JP 2000300276A JP 2000300276 A JP2000300276 A JP 2000300276A JP 2002108888 A JP2002108888 A JP 2002108888A
Authority
JP
Japan
Prior art keywords
keyword
person
vector
importance
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000300276A
Other languages
English (en)
Inventor
Satoko Kono
聡子 河野
Noriaki Saito
典明 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone East Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Nippon Telegraph and Telephone East Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Nippon Telegraph and Telephone East Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000300276A priority Critical patent/JP2002108888A/ja
Publication of JP2002108888A publication Critical patent/JP2002108888A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 多数のディジタルコンテンツから精度の高い
キーワードを抽出して、効率よく検索を行えるようにす
る。 【解決手段】 データベース部303に蓄積された複数
のディジタルコンテンツにおけるタイトル、作者名、概
要を含む各テキストデータから人物名を抽出すると共
に、その人物名の出現頻度をコンテンツ毎に計算する。
次に、人物名を要素とし出現頻度を要素値とする人物ベ
クトルをコンテンツ毎に作成し、人物ベクトルに基づい
てコンテンツ間の類似度を求め、類似度に基づいてコン
テンツをグループ分けする。また、各テキストデータか
ら単語を抽出してキーワード候補とし、各候補の重要度
を計算する。次に、キーワード候補を要素とし重要度を
要素値とするキーワードベクトルを作成し、上記グルー
プ毎にキーワードベクトルの和を求め、その結果から重
要度の高いキーワード候補をそのグループのキーワード
として決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、それぞれタイト
ル、作者名、概要を含むテキストデータが付与された複
数のディジタルコンテンツから、そのディジタルコンテ
ンツの特徴を示すキーワードを抽出するディジタルコン
テンツのキーワード抽出装置、方法及びそれらに用いら
れるコンピュータ読み取り可能な記録媒体に関するもの
である。
【0002】
【従来の技術】データベースに格納された膨大な数のデ
ィジタルコンテンツ群から、効率良く所望するディジタ
ルコンテンツを検索するための索引源として、ディジタ
ルコンテンツに付与されたタイトル・作者名・概要等を
含むテキストデータからキーワードを抽出する手法があ
る。この手法には、自然言語処理、例えば形態素解析処
理により名詞のみをキーワードとして抽出する方法や、
抽出した単語のうちテキストデータ内の出現頻度が高い
もののみをキーワードとして抽出する方法がある。ま
た、単語の出現頻度と共に不要語辞書を用いる方法や、
出現頻度と共に各単語が出現するテキストデータ数を考
慮する方法がある。
【0003】不要語辞書を用いる方法は、キーワードに
は適さない語として予め不要語辞書に登録された不要語
を削除した後、残った単語に出現頻度による重要度を付
与して、重要度の高い順にキーワードを抽出する方法で
ある。テキスト数を考慮する方法は、あらゆるディジタ
ルコンテンツのテキストデータ内に頻繁に出現する単語
の重要度を下げ、逆に特定のテキストに集中する単語の
重要度を高く評価する手法である。
【0004】図5は、上記名詞のみをキーワードとして
抽出する方法による従来のキーワード抽出装置の一例を
示すブロック図ある。図5において、201はキーワー
ド抽出機能をもつコンピュータであり、202はそのオ
ペレーティングシステム部である。203はテキストデ
ータ(タイトル、作者名、概要等)を含むディジタルコ
ンテンツを蓄積したデータベース部であり、キーワード
抽出対象となるディジタルコンテンツを格納するキーワ
ード抽出対象コンテンツ蓄積部204と、キーワード候
補格納部207と、キーワード格納部209を有する。
【0005】205はキーワード抽出対象コンテンツ蓄
積部204からテキストデータを読み込むテキストデー
タ入力部であり、206は読み込まれたテキストデータ
に対して形態素解析処理を行って単語を抽出し、抽出し
た単語をキーワード候補とするキーワード候補抽出部で
ある。上記キーワード候補格納部207は、抽出された
キーワード候補を格納する。208は格納されたキーワ
ード候補から名詞のみを抽出し、抽出した名詞をキーワ
ードとして決定するキーワード決定部であり、209は
決定されたキーワードを格納するキーワード格納部20
9である。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
上述した手法では、テキストデータ(例えば、コンテン
ツに含まれる概要部分)の文意を踏まえていないため、
不要な単語がキーワードとして多数抽出されることがあ
った。このため、キーワード検索を実行した際、当該キ
ーワードがコンテンツの主題とは全く関係がないもの
や、当該キーワードに関する情報量が極めて低いものも
検索結果として数多く検索されししまい、所望する情報
を効率良く見つけ出すことが困難であるという問題があ
った。
【0007】本発明は上記の問題を解決するためになさ
れたもので、ディジタルコンテンツ群から検索のための
精度の高いキーワードを抽出できるようにすることを目
的としている。
【0008】
【課題を解決するための手段】上記の目的を達成するた
めに、本発明によるディジタルコンテンツのキーワード
抽出装置においては、それぞれタイトル、作者名、概要
を含むテキストデータが付与された複数のディジタルコ
ンテンツにおける各テキストデータから人物名を抽出す
る人物名抽出手段と、前記抽出された人物名の出現頻度
をディジタルコンテンツ毎に計算する頻度計算手段と、
前記人物名を要素とし、前記出現頻度を要素値とする人
物ベクトルをディジタルコンテンツ毎に作成する人物ベ
クトル作成手段と、前記人物ベクトルに基づいてディジ
タルコンテンツ間の類似度を計算し、計算された類似度
に基づいてディジタルコンテンツをグループに分類する
分類手段とを設けている。
【0009】また、本発明によるディジタルコンテンツ
のキーワード抽出方法においては、それぞれタイトル、
作者名、概要を含むテキストデータが付与された複数の
ディジタルコンテンツにおける各テキストデータから人
物名を抽出する作者名抽出手順と、前記抽出された人物
名の出現頻度をディジタルコンテンツ毎に計算する頻度
計算手順と、前記人物名を要素とし、前記出現頻度を要
素値とする人物ベクトルをディジタルコンテンツ毎に作
成する人物ベクトル作成手順と、前記人物ベクトルに基
づいてディジタルコンテンツ間の類似度を計算し、計算
された類似度に基づいてディジタルコンテンツをグルー
プに分類する分類手順と、前記複数のディジタルコンテ
ンツにおける各テキストデータから単語を抽出してキー
ワード候補とするキーワード候補抽出手順と、前記抽出
されたキーワード候補の重要度を計算する重要度計算手
順と、前記抽出されたキーワード候補を要素とし、前記
計算された重要度を要素値とるキーワードベクトルを作
成するキーワードベクトル作成手順と、前記分類された
グループ毎に前記キーワードベクトルの和を求め、その
結果から重要度の高いキーワード候補を前記グループの
キーワードとして決定するキーワード決定手順とを設け
ている。
【0010】また、本発明によるコンピュータ読み取り
可能な記録媒体においては、それぞれタイトル、作者
名、概要を含むテキストデータが付与された複数のディ
ジタルコンテンツにおける各テキストデータから人物名
を抽出する人物名抽出処理と、前記抽出された人物名の
出現頻度をディジタルコンテンツ毎に計算する頻度計算
処理と、前記人物名を要素とし、前記出現頻度を要素値
とする人物ベクトルをディジタルコンテンツ毎に作成す
る人物ベクトル作成処理と、前記人物ベクトルに基づい
てディジタルコンテンツ間の類似度を計算し、計算され
た類似度に基づいてディジタルコンテンツをグループに
分類する分類処理と、前記複数のディジタルコンテンツ
における各テキストデータから単語を抽出してキーワー
ド候補とするキーワード候補抽出処理と、前記抽出され
たキーワード候補の重要度を計算する重要度計算処理
と、前記抽出されたキーワード候補を要素とし、前記計
算された重要度を要素値とるキーワードベクトルを作成
するキーワードベクトル作成処理と、前記分類されたグ
ループ毎に前記キーワードベクトルの和を求め、その結
果から重要度の高いキーワード候補を前記グループのキ
ーワードとして決定するキーワード決定処理とをコンピ
ュータが実行するためのプログラムを記録している。
【0011】
【作用】従って、本発明においては、タイトル、作者
名、概要を含むテキストデータが付与された複数のディ
ジタルコンテンツにおいて、各テキストデータ中に現れ
る人物名に基づいてディジタルコンテンツがグループに
分類される。
【0012】また、各テキストデータから形態素解析等
により抽出された単語をキーワード候補とし、テキスト
データに現れる人物名の類似性と、公知の技術を用いて
求められる単語の重要度とによって絞り込みを行うこと
で、登場人物が類似するグループ内で重要とされる単語
のみがキーワードとして抽出され、不要な単語の抽出が
押さえられる。
【0013】また、このようにしてテキストデータから
抽出されたキーワードを索引源としてデータベースを検
索することにより、当該コンテンツと類似するコンテン
ツをデータベースから関連コンテンツとして取得するこ
とができる。
【0014】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。図2は、タイトル、作者
名、概要を含むテキストデータが付与されたディジタル
コンテンツの構成の一例を示す。図2において、101
は「タイトル」「作者名」「概要」が電子化されたテキ
ストデータであり、102は電子化された画像データで
ある。
【0015】図1は、本発明の実施の形態によるディジ
タルコンテンツのキーワード抽出装置を示すブロック図
である。図1において、301はキーワード抽出機能を
もつコンピュータであり、302はそのオペレーティン
グシステム部である。303はテキストデータ(タイト
ル、作者名、概要等)を含むディジタルコンテンツを蓄
積したデータベース部であり、キーワード抽出対象とな
るディジタルコンテンツを格納するキーワード抽出対象
コンテンツ蓄積部304と、キーワードベクトル格納部
309と、人物ベクトル格納部313と、キーワード格
納部315とを有する。
【0016】305はキーワード抽出対象コンテンツ蓄
積部304からテキストデータを読み込むテキストデー
タ入力部であり、306は読み込まれたテキストデータ
に対して形態素解析により単語を抽出し、抽出した単語
をキーワード候補とするキーワード候補抽出部である。
307は抽出されたキーワード候補の重要度を公知の技
術を用いて計算する重要度計算部である。
【0017】単語の重要度は、例えば、以下の式で求め
ることができる。 w(x,t)=TF(x,t)×IDF(x,t)……………(1) w(x,t):単語tのコンテンツxにおける重要度 TF(x,t):コンテンツxにおける単語tの出現頻
度 IDF(t)=log{(データベース中のコンテンツ
数)/(単語tが現れる数)}
【0018】308は抽出された単語(キーワード候
補)を要素とすると共に、その単語の重要度を要素値と
するキーワードベクトル(例えば、後述する図3の右側
の欄に記載)を作成して、上記キーワードベクトル格納
部309に格納するキーワードベクトル作成部である。
【0019】310はテキストデータ入力部305から
読み込まれたテキストデータから人物名を抽出する人物
名抽出部である。311は抽出された人物名の出現回数
(テキストデータ内に当該人物名が出現する回数)をコ
ンテンツ毎に数える人物名頻度計算部である。312は
人物名を要素すると共に、その人物名の出現頻度を要素
値とする人物ベクトル(図3の左側の欄に記載)をコン
テンツ毎に作成し、人物ベクトル格納部313に格納す
る人物ベクトル作成部である。
【0020】314はキーワード決定部であり、各コン
テンツを人物ベクトルにより分類して登場人物の類似す
るグループに分割し、各グループ毎にキーワードベクト
ルの和をとり、その和から重要度の高いキーワード候補
をキーワードとして決定し、キーワード格納部315に
格納する。但し、人物ベクトルによる分類は、公知の技
術を用いてコンテンツ間の類似度を計算することにより
行われる。
【0021】類似度の計算は、例えば以下の式で求める
ことができる。 類似度=(2つの人物ベクトルの共通の要素の値の和)/(2つの人物ベクト ルの要素の値の和)……………(2)+
【0022】図4(a)は、美術作品に関するコンテン
ツ(タイトル、作者名(画家名)、解説文(概要)等の
テキストデータを含む)511〜514を示す。図3及
び図4(b)は各コンテンツ511〜514について作
成したキーワードベクトルと人物ベクトルの例を示す。
右側の欄のキーワードベクトル601は、テキストデー
タから形態素解析によって抽出された単語を要素とする
と共に、その単語の重要度を要素値としたものである。
左側の欄の人物ベクトル600は、テキストデータから
予め抽出した人物名を要素とすると共に、各コンテンツ
に現れる人物名の出現回数を要素値としたものである。
尚、図4(a)の例では、登場人物名として「マネ」と
「モネ」が、複数のコンテンツのテキストデータにおけ
る作者名と概要とに出現している。
【0023】本実施の形態による手法は、図3、図4
(b)の斜線部分のようにテキストデータ中の登場人物
が類似したコンテンツのキーワードベクトルを足し合わ
せ、その結果、高い重要度を持つ単語をキーワードとし
て決定するものである。
【0024】次に、図1のキーワード抽出装置における
キーワード抽出処理の一例を、図1、図4を参照して説
明する。図1、図4において、キーワード抽出対象コン
テンツ蓄積部304には、タイトル、作者名、概要を含
むテキストデータが付与されたディジタルコンテンツ5
11〜514(a〜d)が蓄積されており、これらのテ
キストデータ部分501〜504がテキストデータ入力
部305により収集され、図4(b)のようにキーワー
ドベクトル作成部308と人物ベクトル作成部312に
おいて、各コンテンツ毎に人物ベクトル600とキーワ
ードベクトル601が生成される。
【0025】次に、各コンテンツは人物ベクトル600
の類似度に基づいてグルーピングされる。例えば、図4
(c)のようにコンテンツグループA(701)、コン
テンツグループB(702)、コンテンツグループC
(703)にグルーピングされる。
【0026】次に、図4(d)のように、コンテンツグ
ループA〜C(701〜703)毎にキーワードベクト
ルを足し合わせ、その和から重要度の高いキーワード候
補を抽出してコンテンツグループのキーワード801〜
803と決定する。最後に、図4(e)のように、各コ
ンテンツに対してそのコンテンツが所属するコンテンツ
グループのキーワード801〜803を付与し、その情
報をキーワード格納部315に格納する。
【0027】以上説明したように、本実施の形態によれ
ば、自然言語処理(例えば、形態素解析処理等)により
抽出されたキーワード候補を、テキストデータに現れる
人物名の類似性と、公知の技術を用いて求めた単語の重
要度とによって絞り込みを行うことによって、登場人物
が類似するディジタルコンテンツのグループの中で重要
とされる単語のみがキーワードとして抽出・決定される
ので、不要な単語の抽出を押さえることができる。特
に、図4のような美術作品の解説のように、人物に関わ
る記述が多いディジタルコンテンツの場合に高い精度が
期待できる。
【0028】また、本実施の形態による分類方法は、人
物名に限らず文中で意味の変化が生じにくい固有名詞
(例えば、地名やブランド名、車名など)を用いた応用
も可能であり、美術以外の多くの分野でも精度の高い情
報抽出が期待できる。さらに、このようにしてテキスト
データから抽出されたキーワードを索引源としてデータ
ベースを検索することにより、当該コンテンツと類似す
るコンテンツをデータベースから関連コンテンツとして
効率よく取得することができる。
【0029】次に、本発明の実施の形態によるコンピュ
ータ読み取り可能な記録媒体について説明する。前述し
たキーワード抽出処理を、図1のコンピュータ301の
CPUが実行するためのプログラムを格納する記録媒体
は、本発明によるコンピュータ読み取り可能な記録媒体
を構成する。
【0030】この記録媒体としては、光磁気ディスク、
光ディスク、半導体メモリ、磁気記録媒体等を用いるこ
とができ、これらをROM、RAM、CD−ROM、フ
ロッピー(登録商標)ディスク、メモリカード等に構成
して用いてよい。
【0031】またこの記録媒体は、インターネット等の
ネットワークや電話回線等の通信回線を介してプログラ
ムが送信された場合のサーバやクライアントとなるコン
ピュータシステム内部のRAM等の揮発性メモリのよう
に、一定時間プログラムを保持するものも含まれる。
【0032】また上記プログラムは、このプログラムを
記憶装置等に格納したコンピュータシステムから伝送媒
体を介して、あるいは伝送媒体中の伝送波により他のコ
ンピュータシステムに伝送されるものであってもよい。
上記伝送媒体とは、インターネット等のネットワーク
(通信網)や電話回線等の通信回線(通信線)のように
情報を伝送する機能を有する媒体をいうものとする。
【0033】また、上記プログラムは、前述した機能の
一部を実現するためであってもよい。さらに、前述した
機能をコンピュータシステムに既に記録されているプロ
グラムとの組み合わせで実現できるもの、いわゆる差分
ファイル(差分プログラム)であってもよい。
【0034】従って、この記録媒体を図1のシステム又
は装置とは異なるシステム又は装置において用い、その
システム又は装置のコンピュータがこの記録媒体に格納
されたプログラムを実行することによっても、各実施の
形態で説明した機能及び効果と同等の機能及び効果を得
ることができ、本発明の目的を達成することができる。
【0035】
【発明の効果】以上説明したように本発明によれば、登
場人物が類似するディジタルコンテンツのグループの中
で重要とされる単語のみがキーワードとして高い精度で
抽出・決定することができるので、不要な単語の抽出を
押さえることができる。また、本発明によりテキストデ
ータから抽出されたキーワードを索引源としてデータベ
ースを検索することにより、当該コンテンツと類似する
コンテンツをデータベースから関連コンテンツとして効
率よく取得することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態によるディジタルコンテ
ンツのキーワード抽出装置を示すブロック図である。
【図2】 ディジタルコンテンツの一例を示す構成図で
ある。
【図3】 本発明におけるキーワードベクトルと人物ベ
クトルの一例を示す構成図である。
【図4】 キーワード抽出処理を示す構成図である。
【図5】 従来のディジタルコンテンツキーワード抽出
装置を示すブロック図である。
【符号の説明】
101 テキストデータ 102 画像データ 301 コンピュータ 302 オペレーティングシステム部 303 データベース部 304 キーワード抽出対象コンテンツ蓄積部 305 テキストデータ入力部 306 キーワード候補抽出部 307 重要度計算部 308 キーワードベクトル作成部 309 キーワードベクトル格納部 310 人物名抽出部 311 人物名頻度計算部 312 人物ベクトル作成部 313 人物ベクトル格納部 314 キーワード決定部 315 キーワード格納部 501〜504 ディジタルコンテンツに付与されるテ
キストデータ 511〜514 ディジタルコンテンツ 601 人物ベクトルとキーワードベクトル 701〜703 コンテンツグループ 801〜803 抽出されたキーワード

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 それぞれタイトル、作者名、概要を含む
    テキストデータが付与された複数のディジタルコンテン
    ツにおける各テキストデータから人物名を抽出する人物
    名抽出手段と、 前記抽出された人物名の出現頻度をディジタルコンテン
    ツ毎に計算する頻度計算手段と、 前記人物名を要素とし、前記出現頻度を要素値とする人
    物ベクトルをディジタルコンテンツ毎に作成する人物ベ
    クトル作成手段と、 前記人物ベクトルに基づいてディジタルコンテンツ間の
    類似度を計算し、計算された類似度に基づいてディジタ
    ルコンテンツをグループに分類する分類手段とを設けた
    ことを特徴とするディジタルコンテンツのキーワード抽
    出装置。
  2. 【請求項2】 前記複数のディジタルコンテンツにおけ
    る各テキストデータから単語を抽出してキーワード候補
    とするキーワード候補抽出手段と、 前記抽出されたキーワード候補の重要度を計算する重要
    度計算手段と、 前記抽出されたキーワード候補を要素とし、前記計算さ
    れた重要度を要素値とするキーワードベクトルを作成す
    るキーワードベクトル作成手段と、 前記分類されたグループ毎に前記キーワードベクトルの
    和を求め、その結果から重要度の高いキーワード候補を
    前記グループのキーワードとして決定するキーワード決
    定手段とを設けたことを特徴とする請求項1記載のディ
    ジタルコンテンツのキーワード抽出装置。
  3. 【請求項3】 前記グループに対して決定されたキーワ
    ードを、そのグループに属する個々のディジタルコンテ
    ンツのキーワードとして扱うことを特徴とする請求項2
    記載のディジタルコンテンツのキーワード抽出装置。
  4. 【請求項4】 それぞれタイトル、作者名、概要を含む
    テキストデータが付与された複数のディジタルコンテン
    ツにおける各テキストデータから人物名を抽出する人物
    名抽出手順と、 前記抽出された人物名の出現頻度をディジタルコンテン
    ツ毎に計算する頻度計算手順と、 前記人物名を要素とし、前記出現頻度を要素値とする人
    物ベクトルをディジタルコンテンツ毎に作成する人物ベ
    クトル作成手順と、 前記人物ベクトルに基づいてディジタルコンテンツ間の
    類似度を計算し、計算された類似度に基づいてディジタ
    ルコンテンツをグループに分類する分類手順と、 前記複数のディジタルコンテンツにおける各テキストデ
    ータから単語を抽出してキーワード候補とするキーワー
    ド候補抽出手順と、 前記抽出されたキーワード候補の重要度を計算する重要
    度計算手順と、 前記抽出されたキーワード候補を要素とし、前記計算さ
    れた重要度を要素値とするキーワードベクトルを作成す
    るキーワードベクトル作成手順と、 前記分類されたグループ毎に前記キーワードベクトルの
    和を求め、その結果から重要度の高いキーワード候補を
    前記グループのキーワードとして決定するキーワード決
    定手順とを設けたことを特徴とするディジタルコンテン
    ツのキーワード抽出方法。
  5. 【請求項5】 それぞれタイトル、作者名、概要を含む
    テキストデータが付与された複数のディジタルコンテン
    ツにおける各テキストデータから人物名を抽出する作者
    名抽出処理と、 前記抽出された人物名の出現頻度をディジタルコンテン
    ツ毎に計算する頻度計算処理と、 前記人物名を要素とし、前記出現頻度を要素値とする人
    物ベクトルをディジタルコンテンツ毎に作成する人物ベ
    クトル作成処理と、 前記人物ベクトルに基づいてディジタルコンテンツ間の
    類似度を計算し、計算された類似度に基づいてディジタ
    ルコンテンツをグループに分類する分類処理と、 前記複数のディジタルコンテンツにおける各テキストデ
    ータから単語を抽出してキーワード候補とするキーワー
    ド候補抽出処理と、 前記抽出されたキーワード候補の重要度を計算する重要
    度計算処理と、 前記抽出されたキーワード候補を要素とし、前記計算さ
    れた重要度を要素値とするキーワードベクトルを作成す
    るキーワードベクトル作成処理と、 前記分類されたグループ毎に前記キーワードベクトルの
    和を求め、その結果から重要度の高いキーワード候補を
    前記グループのキーワードとして決定するキーワード決
    定処理とをコンピュータが実行するためのプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
JP2000300276A 2000-09-29 2000-09-29 ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 Pending JP2002108888A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000300276A JP2002108888A (ja) 2000-09-29 2000-09-29 ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000300276A JP2002108888A (ja) 2000-09-29 2000-09-29 ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2002108888A true JP2002108888A (ja) 2002-04-12

Family

ID=18781980

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000300276A Pending JP2002108888A (ja) 2000-09-29 2000-09-29 ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2002108888A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006100937A (ja) * 2004-09-28 2006-04-13 Sony Corp 情報配信システムおよび情報配信方法、情報処理装置および情報処理方法、受信装置および受信方法、並びにプログラム
CN100444194C (zh) * 2005-10-27 2008-12-17 富士施乐株式会社 文章标题及关联信息的自动抽取装置和抽取方法
US8549017B2 (en) 2003-05-27 2013-10-01 Sony Corporation Information processing apparatus and method, program, and recording medium
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN112131343A (zh) * 2020-09-14 2020-12-25 杭州东信北邮信息技术有限公司 一种中文小说对话人物识别方法
CN113591853A (zh) * 2021-08-10 2021-11-02 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8549017B2 (en) 2003-05-27 2013-10-01 Sony Corporation Information processing apparatus and method, program, and recording medium
JP2006100937A (ja) * 2004-09-28 2006-04-13 Sony Corp 情報配信システムおよび情報配信方法、情報処理装置および情報処理方法、受信装置および受信方法、並びにプログラム
JP4617805B2 (ja) * 2004-09-28 2011-01-26 ソニー株式会社 情報配信システムおよび情報配信方法、情報処理装置および情報処理方法、受信装置および受信方法、並びにプログラム
CN100444194C (zh) * 2005-10-27 2008-12-17 富士施乐株式会社 文章标题及关联信息的自动抽取装置和抽取方法
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN107544982B (zh) * 2016-06-24 2022-12-02 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN112131343A (zh) * 2020-09-14 2020-12-25 杭州东信北邮信息技术有限公司 一种中文小说对话人物识别方法
CN112131343B (zh) * 2020-09-14 2023-07-07 新讯数字科技(杭州)有限公司 一种中文小说对话人物识别方法
CN113591853A (zh) * 2021-08-10 2021-11-02 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备
CN113591853B (zh) * 2021-08-10 2024-04-19 北京达佳互联信息技术有限公司 关键词提取方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP3696731B2 (ja) 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2742115B2 (ja) 類似文書検索装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP2002132811A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JPH0484271A (ja) 文書内情報検索装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP4525433B2 (ja) 文書集約装置及びプログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP3249743B2 (ja) 文書検索システム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JPH09128402A (ja) 文書類似度計算装置および文書分類装置
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
JP2002132789A (ja) 文書検索方法
JP2002183195A (ja) 概念検索方式
KR20080026931A (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JP2004334699A (ja) テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体
JPH06168129A (ja) 知識抽出装置
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치
JP4253483B2 (ja) 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
CN117972025B (zh) 一种基于语义分析的海量文本检索匹配方法
JP2002108894A (ja) 文書分類装置、文書分類方法及び該方法を実行するための記録媒体