JPH06140952A - ジャンル判定装置 - Google Patents

ジャンル判定装置

Info

Publication number
JPH06140952A
JPH06140952A JP4285596A JP28559692A JPH06140952A JP H06140952 A JPH06140952 A JP H06140952A JP 4285596 A JP4285596 A JP 4285596A JP 28559692 A JP28559692 A JP 28559692A JP H06140952 A JPH06140952 A JP H06140952A
Authority
JP
Japan
Prior art keywords
genre
keyword
text data
category
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4285596A
Other languages
English (en)
Inventor
Hiroshi Senoo
宏 妹尾
Toshiro Yoshimura
俊郎 吉村
Kenjiro Kai
謙二郎 加井
Tadashi Isobe
忠 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP4285596A priority Critical patent/JPH06140952A/ja
Publication of JPH06140952A publication Critical patent/JPH06140952A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuits Of Receivers In General (AREA)

Abstract

(57)【要約】 【目的】 ニュース記事などのテキストデータを分かち
書き処理するなどにより得られたキーワード候補および
その頻度を解析することにより、番組の内容にふさわし
いジャンルを自動的に判定し、これによってジャンル割
り当てを効率的に行う。 【構成】 ジャンル候補判定部2によってニュース記事
などのテキストデータを取り込むとともに、このテキス
トデータ中からキーワードを抽出してこれらのキーワー
ドをキーとしてジャンル別キーワード辞書1をルックア
ップするとともに、このルックアップ動作によって得ら
れた各キーワードのジャンルに基づいて各ジャンル別の
キーワードの出現頻度を示すジャンル候補情報を作成
し、優先順位判定部3によって前記ジャンル候補情報に
基づいて前記テキストデータの番組内容にふさわしいジ
ャンルを判定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータチャンネルやIS
DBなどを利用してニュースなどのテキストデータを主
体とした番組を大量に提供し、受信者側でジャンル指定
により番組を選択できるような受信機能を備えるデータ
放送サービスやデータベースなどでテキストデータのジ
ャンルを自動的に判別するときなどに用いられるジャン
ル判定装置に関する。
【0002】[発明の概要]本発明はニュース記事など
のテキストデータを分かち書き処理して得られたキーワ
ード候補と、ジャンル判定用のジャンル別キーワードと
比較参照することで、そのニュース記事内容にふさわし
いジャンルを自動的に判定する装置である。
【0003】
【従来の技術】放送局等においては、将来、データチャ
ネルやISDBなどの大容量伝送路を利用して、ニュー
スなどのテキストデータによる番組を大量に放送するこ
とが考えられている。
【0004】この場合、例えば、ニュース1件あたりの
文字数を500字とすると、224kbpsの伝送容量
を持つデータチャネルを使用することにより、1時間で
1万件のニュースを放送することができる。
【0005】
【発明が解決しようとする課題】ところで、このような
放送システムでは、1時間に1万件のニュースを流す関
係上、全てのニュースを見ることは不可能であり、また
その中には受信者側で必要としないニュースも多く含ま
れるものと推定される。
【0006】そこで、このような放送システムを実現す
る場合、受信機側で番組内容を解析してジャンルを判定
し、必要なジャンルのニュースのみを選択する方法が考
えられる。
【0007】しかしながら、この方法では、受信機側で
の受信処理が複雑になってしまうともに、リアルタイム
でジャンル判別を行うことが難しいという問題がある。
【0008】また、放送局側で全番組についてジャンル
を割り当て、この割り当て内容に基づいて各ニュースに
ジャンル別コードなどを付加し、受信機側で各ニュース
に付加されているジャンル別コードを識別して必要なジ
ャンルのニュースを選択する方法も考えられる。
【0009】この方法では、受信者側において、ジャン
ルを指定するだけで、これら大量の番組の中から得たい
番組を簡単に選択できる。これによって、受信機側の処
理が簡単にすることができるとともに、リアルタイムで
必要なニュースのみを選択することができるという利点
がある。
【0010】したがって、受信機の普及という点で放送
局側でジャンルの判定を行う方法が当面の放送のシステ
ムとして適していると考えられる。
【0011】しかしながら、このような放送局側でジャ
ンルの判定を行う方法を用いる放送システムでは、放送
局側で取り扱う番組数が非常に膨大になり、それら全番
組についてジャンルの付与を人手で行うのは大変な労力
を要する。
【0012】そこで、このようなジャンル判定処理を自
動化することが考えられるが、インデックスとして、キ
ーワードを自動的に判定するための方法や装置は開発さ
れているものの、ジャンルを自動的に判定するための判
定法や装置は未だ提案されていない。
【0013】本発明は上記の事情に鑑み、ニュース記事
などのテキストデータを分かち書き処理するなどにより
得られたキーワード候補およびその頻度を解析すること
により、番組の内容にふさわしいジャンルを自動的に判
定することができ、これによってジャンル割り当てを効
率的に行うことができるジャンル判定装置を提供するこ
とを目的としている。
【0014】
【課題を解決するための手段】上記の目的を達成するた
めに本発明によるジャンル判定装置は、送信対象となる
各種の文書のジャンルとその中で使用されているキーワ
ードとを解析して各ジャンルと、各キーワードとの関係
を示す辞書が格納されるジャンル別キーワード辞書と、
ジャンル判定対象となる文書データの各キーワードを抽
出してこれらの各キーワードに基づいて前記ジャンル別
キーワード辞書をルックアップして前記各キーワードの
ジャンルを検出して各ジャンル別のキーワード出現頻度
を求めるジャンル候補判定部と、このジャンル候補判定
部によって得られた各ジャンル別のキーワード出現頻度
に基づいて各ジャンルの優先度を判定する優先順位判定
部とを備えたことを特徴としている。
【0015】
【作用】上記の構成において、予め送信対象となる各種
の文書のジャンルとその中で使用されているキーワード
とが解析されて各ジャンルと、各キーワードとの関係を
示す辞書が作成され、これがジャンル別キーワード辞書
に登録され、ジャンル判定対象となる文書データが入力
される毎に、ジャンル候補判定部によって前記文書デー
タ中に含まれている各キーワードが抽出されるととも
に、これらの各キーワードに基づいて前記ジャンル別キ
ーワード辞書がルックアップされて前記各キーワードの
ジャンルが検出され、各ジャンル別のキーワード出現頻
度が求められた後、優先順位判定部によって前記ジャン
ル候補判定部で得られた各ジャンル別のキーワード出現
頻度に基づいて各ジャンルの優先度が判定されて前記文
書データのジャンルが判定される。
【0016】
【実施例】図1は本発明によるジャンル判定装置の一実
施例を示すブロック図である。
【0017】この図に示すジャンル判定装置は、ジャン
ル別キーワード辞書1と、ジャンル候補判定部2と、優
先順位判定部3と、ジャンル割り当て部4とを備えてお
り、ニュース記事などのテキストデータを取り込むとと
もに、このテキストデータ中からキーワードを抽出して
これらのキーワードをキーとしてジャンル別キーワード
辞書1をルックアップしながら、このルックアップ動作
によって得られた各キーワードのジャンルと、各キーワ
ードの出現頻度とに基づいて番組の内容にふさわしいジ
ャンルを自動的に判定する。
【0018】ジャンル別キーワード辞書1は、各種のニ
ュースのジャンルと、その中で使用されているキーワー
ドとを解析して各ジャンルと、各キーワードとの関係を
示す辞書、例えば図2に示すような形式の辞書が格納さ
れており、前記ジャンル候補判定部2から検索指令が供
給されたとき、この検索指令とともに供給されるキーワ
ードをキーとしてこのキーワードに対応するジャンルが
あるときには、このジャンルをジャンル情報として前記
ジャンル候補判定部2に供給、また前記キーワードに対
応するジャンルがないときにジャンルがないことを示す
情報を前記ジャンル候補判定部2に供給する。
【0019】ジャンル候補判定部2は、ニュース記事な
どのテキストデータを取り込んで形態素解析法や文字種
判定法、他のテキストデータ解析法などを用いてこのテ
キストデータ中に含まれているキーワードを抽出し、そ
の出現頻度を検出するとともに、検出したキーワードを
キーとして前記ジャンル別キーワード辞書1を検索して
ジャンル情報を取り込んだ後、このジャンル情報と、各
キーワードの出現頻度とに基づいてジャンル候補情報を
生成し、これを優先順位判定部3に供給する。
【0020】この場合、処理対象となるテキストデータ
が図3に示す文章であるときには、図4に示すキーワー
ドが抽出され、各キーワードの出現頻度が計数される。
なお、この図4では、[=]によってキーワード候補の
同意語を表わしている。
【0021】そして、これらの各キーワードに基づいて
ジャンル別キーワード辞書1が検索されて図5に示す如
く各キーワードと、これらの各キーワードの出現頻度
と、前記各キーワードに対応するジャンル候補(図5の
例では、「政治」、「経済」、「国際」、「科学」の4
つのジャンル候補)とがまとめられてジャンル候補情報
が生成され、これが優先順位判定部3に供給される。
【0022】優先順位判定部3は、前記ジャンル候補判
定部2から出力されるジャンル候補情報を取り込むとと
もに、このジャンル候補情報に基づいて各ジャンル別の
キーワード出現頻度を加算して各ジャンル別のジャンル
候補頻度の大きいものから高い優先順位を与えることで
ジャンルの優先順位を判定し、この判定結果をジャンル
割り当て部4に供給する。
【0023】この場合、ジャンル候補情報が図5に示す
内容であれば、図6に示す如く優先順位が判定され、
「科学」>「国際」>「政治」>「経済」という形式
で、優先順位が付けられてこれが判定結果としてジャン
ル割り当て部4に供給される。
【0024】ジャンル割り当て部4は前記優先順位判定
部3から出力される優先順位の判定結果を取り込むとと
もに、この判定結果に基づいて優先順位が高い方から2
つのジャンルを選択してこれを前記テキストデータに対
するジャンル情報として出力する。
【0025】この場合、図6に示す優先順位内容であれ
ば、「科学」と「国際」とがジャンルとして割り当てら
れ、この2つのジャンルを示す番号やフラグがジャンル
情報としてが出力される。
【0026】このようにこの実施例においては、ニュー
ス記事などのテキストデータを取り込むとともに、この
テキストデータ中からキーワードを抽出してこれらのキ
ーワードをキーとしてジャンル別キーワード辞書1をル
ックアップしながら、このルックアップ動作によって得
られた各キーワードのジャンルと、各キーワードの出現
頻度とに基づいて番組の内容にふさわしいジャンルを自
動的に判定するようにしたので、ニュース番組の内容に
ふさわしいジャンルを自動的に決定することができ、こ
れよってジャンル割り当てを効率的に行うことができ
る。
【0027】この結果、このジャンル判定装置を放送局
側で使用することにより、データチャンネルやISDB
などの大容量伝送路を利用して大量のテキストデータを
主体とした番組を提供するような放送サービスを行うと
き、受信者側でジャンルを指定するだけで、該当する番
組だけを選択することができる。
【0028】そして、受信機側では、受信した番組が、
受信者によって指定されたジャンルかどうかを、例えば
番号やジャンルコードをチェックするだけの処理で良い
ため、受信側での受信処理を非常に容易にすることがで
きる。
【0029】
【発明の効果】以上説明したように本発明によれば、ニ
ュース記事などのテキストデータを分かち書き処理する
などにより得られたキーワード候補およびその頻度を解
析することにより、番組の内容にふさわしいジャンルを
自動的に判定することができ、これによってジャンル割
り当てを効率的に行うことができる。
【図面の簡単な説明】
【図1】本発明よるジャンル判定装置の一実施例を示す
ブロック図である。
【図2】図1に示すジャンル別キーワード辞書の内容例
を示す模式図である。
【図3】図1に示すジャンル候補判定部に入力されるテ
キストデータの文書例を示す模式図である。
【図4】図1に示すジャンル候補判定部によって抽出さ
れたキーワードおよびその出現頻度の一例を示す模式図
である。
【図5】図1に示すジャンル候補判定部によって作成さ
れたジャンル候補情報の一例を示す模式図である。
【図6】図1に示す優先順位判定部によって得られた各
ジャンルの優先順位の一例を示す模式図である。
【符号の説明】
1 ジャンル別キーワード辞書 2 ジャンル候補判定部 3 優先順位判定部 4 ジャンル割り当て部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 磯部 忠 東京都世田谷区砧一丁目10番11号 日本放 送協会放送技術研究所内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 送信対象となる各種の文書のジャンルと
    その中で使用されているキーワードとを解析して各ジャ
    ンルと、各キーワードとの関係を示す辞書が格納される
    ジャンル別キーワード辞書と、 ジャンル判定対象となる文書データの各キーワードを抽
    出してこれらの各キーワードに基づいて前記ジャンル別
    キーワード辞書をルックアップして前記各キーワードの
    ジャンルを検出し、各ジャンル別のキーワード出現頻度
    を求めるジャンル候補判定部と、 このジャンル候補判定部によって得られた各ジャンル別
    のキーワード出現頻度に基づいて各ジャンルの優先度を
    判定する優先順位判定部と、 を備えたことを特徴とするジャンル判定装置。
JP4285596A 1992-10-23 1992-10-23 ジャンル判定装置 Pending JPH06140952A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4285596A JPH06140952A (ja) 1992-10-23 1992-10-23 ジャンル判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4285596A JPH06140952A (ja) 1992-10-23 1992-10-23 ジャンル判定装置

Publications (1)

Publication Number Publication Date
JPH06140952A true JPH06140952A (ja) 1994-05-20

Family

ID=17693598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4285596A Pending JPH06140952A (ja) 1992-10-23 1992-10-23 ジャンル判定装置

Country Status (1)

Country Link
JP (1) JPH06140952A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421725B2 (en) 2001-04-23 2008-09-02 Nec Corporation Method of and system for recommending programs
JP2010039600A (ja) * 2008-08-01 2010-02-18 Yahoo Japan Corp 広告配信装置、広告配信方法、及び広告配信制御プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH02105973A (ja) * 1988-10-14 1990-04-18 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01188934A (ja) * 1988-01-22 1989-07-28 Nec Corp 文書自動分類装置
JPH02105973A (ja) * 1988-10-14 1990-04-18 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421725B2 (en) 2001-04-23 2008-09-02 Nec Corporation Method of and system for recommending programs
JP2010039600A (ja) * 2008-08-01 2010-02-18 Yahoo Japan Corp 広告配信装置、広告配信方法、及び広告配信制御プログラム

Similar Documents

Publication Publication Date Title
JPH06350546A (ja) 関連番組判定装置
US20050138018A1 (en) Information retrieval system, search result processing system, information retrieval method, and computer program product therefor
EP2234024A1 (en) Context based video finder
WO2009061420A1 (en) Object recognition and database population
US20020076112A1 (en) Apparatus and method of program classification based on syntax of transcript information
EP1124189A1 (en) Document sorting method, document sorter, and recorded medium on which document sorting program is recorded
KR970066841A (ko) 대화형 디스플레이 시스템 및 대화형 디스플레이 인식 방법
KR20070013867A (ko) 카테고리별 검색 로직을 이용한 상품 검색 시스템 및 방법
US10235427B2 (en) Entity-driven logic for improved name-searching in mixed-entity lists
CN109271509B (zh) 直播间话题的生成方法、装置、计算机设备和存储介质
KR890012210A (ko) 문서정형장치와 그 정형방법
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
US8756218B1 (en) Query classification based on search engine results
US20130086036A1 (en) Dynamic Search Service
JPH06140952A (ja) ジャンル判定装置
JP2000172691A (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH05233719A (ja) 複合的な情報間の関連性識別方法
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
KR102245942B1 (ko) 비전문가를 위한 뉴스 데이터 분석 시스템 및 그 방법
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
CN110704617B (zh) 新闻文本的分类方法、装置、电子设备和存储介质
JPH11134410A (ja) 証券情報の表示方法とその端末装置
CN109446330B (zh) 网络服务平台情感倾向识别方法、装置、设备和存储介质
CN113779250A (zh) 一种标准化文本数据处理系统

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees