JP2000132560A

JP2000132560A - 中国語テレテキスト処理方法及び装置

Info

Publication number: JP2000132560A
Application number: JP10302066A
Authority: JP
Inventors: Keiken Rin; 啓軒林
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1998-10-23
Filing date: 1998-10-23
Publication date: 2000-05-12
Also published as: CN1152337C; TW558681B; US6620207B1; CN1252577A; SG73679A1

Abstract

(57)【要約】【課題】ユーザがテレテキストの内容を素早く把握
し、有益なインフォメーションの処理を促進する。【解決手段】統計によれば、中国語テキストのおよそ
８８％はフレーズであり、これらのフレーズのうち、あ
るテキストにおける出現頻度のより高いものは、その内
容に深く関わっている。他の１２％の文字の大部分
は、”的”や”和”のような接続詞である。もしこれら
の文字を、文を分割するための分離基準として用いれ
ば、テキストはそれぞれの文字列に分割される。これら
の文字は、以下、第一参照文字と呼ばれる。もう一つ別
の文字のカテゴリがある。それは、”当”や”時”のよ
うな文字で、テキストにおいて、あるときには独立して
存在し、あるときには”時鐘”のようなフレーズを形成
する。このカテゴリーの少数の文字が一緒になって、”
当時’のように、一つのフレーズを形成する場合には、
これらの文字は、キーフレーズというより、接続詞と考
えられる。このカテゴリの文字は第二参照文字と呼ばれ
る。本発明は、フレーズ、それらの頻度、及びフレーズ
の長さに基づいて、キーフレーズを抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はコンピュータ技術を
用いる、中国語テレテキスト処理方法及び装置に関する
もので、ユーザがテレテキストの本質的な意味を把握す
ることを補助するため、テレビジョンまたはコンピュー
タに存在するテレテキストから、キーフレーズを抽出す
るためのものである。

【０００２】

【従来の技術】最近、インターネットのようなコンピュ
ータネットワークが非常に普及し、数多くのテレテキス
トがネットワーク中に存在するので、ネットワークを通
じて、所望のデータを素早くかつ正確に検索する方法を
考えることが重要な問題となっている。現今のテキスト
検索技術は、ユーザが、キーワードまたはフレーズに基
づいて、所望のデータまたは情報を検索することが出来
るようにしている。このようなテキスト検索技術は、ユ
ーザがデータの順序番号、要約、または完全な情報を記
憶しておくことを必要としないため、ユーザは、不完全
な情報、ワード、またはフレーズを知っているだけで、
所望のデータを獲得することが出来る。

【０００３】一般に現今のテキスト検索技術は、ユーザ
によって指定されたキーワードまたはフレーズを用いて
データベースを探索し、このキーワードまたはフレーズ
に結びつくすべてのデータを検索する。従来の中国語テ
キスト検索技術は、外国語のシンタックスの論理という
より中国語テキストのシンタックスの論理に基づき、商
業市場で手に入る、よく知られているワードプロセッサ
技術である。このようなテキスト検索技術は、ユーザに
よって問い合わされるキーワードに結びつくデータを、
自動的に検索することを特徴とする。このような技術
は、ユーザによって入力されるキーワードまたはフレー
ズを用いて、有限のデータベース内のデータを検索する
ためにのみ効果的であり、キーフレーズが、所望のテキ
ストにおいて本質的な意味を持っているのかどうかを、
ユーザが知らない状況においては、効果的でない。もし
ユーザによって入力されるキーワードまたはフレーズが
不適当であれば、検索されるデータは間違っているか不
完全となり、新しいキーワードまたはフレーズを考え
て、探索作用を再度行うように入力し直さなければなら
ない。

【０００４】探索作用の実行を繰り返すことを必要とす
るこのような現象は、通常のデータベースのサイズが非
常に大きいので、ユーザがこのデータベースの完全な内
容を知って、効果的なキーワードを考えることが出来な
いことから生じる。従って、もしユーザがテレテキスト
についてのいくつかのキーフレーズを知ることが出来る
ならば、このテレテキストの本質的な意味を理解するこ
とができる。処理中のテレテキストにおけるキーフレー
ズを抽出するための、本発明による方法が、テキスト検
索システムに織り込まれれば、ユーザは実際にテレテキ
ストを読む前に、このテレテキストの本質的な内容をほ
とんど知ることが出来る。もし抽出されたフレーズを、
このテレテキストの詳細な記述を得るために使えば、こ
のテレテキスト中の重要な内容部分を素早く表示するこ
とが出来る。

【０００５】従来のテキスト検索技術において、正確な
キーフレーズをユーザが知らないときは、想定されるキ
ーフレーズ使って探索作用を行うために、かなりの時間
が消費される。もしユーザが所望のテキストに関する実
際のキーフレーズを前もって得ることが出来れば、ユー
ザはこのテキストの本質的な内容を容易に把握すること
が出来る。

【０００６】このように、従来のテキスト検索システム
を使うための要件は次のようになっている。（１）検索されるデータはある特定された分野に制限さ
れる。すなわち、閉じた環境にある。（２）ユーザは、探索作用を行う前に、ある程度所望の
データについて前もって知っていなければ、探索作用を
実行するための特定のフレーズまたはワードを入力する
ことが出来ない。

【０００７】

【発明が解決しようとする課題】周知のテキスト検索シ
ステム、ＡＣＡＤＥＭＩＡＳｉｎｉｃａによって提案
された”ＣｈｉｎｅｓｅＴｅｘｔＲｅｔｒｉｅｖａ
ｌＳｙｓｔｅｍ、”は、例えば、中国文学と歴史分野
に関するデータを調査するためにのみ採用され、所望の
データを検索するための対応するインデックスフレーズ
を必要とする。それに加えて、この中国語テキスト検索
システムは、人名または引喩についてのフレーズを入力
することによって、聖書中のデータを調査するために適
用される。しかし、このようなテキスト検索方法は、無
制限のデータフィールドを持つネットワークにおいて
は、厳しい時間消費の原因となる。テキストのコンテキ
ストをユーザが知らなければ、所望のデータを検索する
のが難しいので、通常は想定されるフレーズがタイトル
を調査するために使われる。しかし、所望のデータをこ
の想定されるフレーズに基づいて検索できなければ、次
の探索のため、別の可能なインデックスフレーズを考慮
する。

【０００８】

【課題を解決するための手段】上記の問題に照らして、
本発明はテレテキストの処理方法を提供する。本発明に
よる処理方法は次のステップからなる。中国語テキスト
中の隣接文字と結合して極めて希にしか一つのフレーズ
を形成しない複数個の中国語文字を、メモリに格納し、
第一の参照リストを生成するステップ。ときには接続詞
として使われ、またときには中国語テキスト中の一つの
隣接文字と結合して一つのフレーズを形成する、複数個
の中国語文字を、上記メモリに格納し、第二の参照リス
トを生成するステップ。テレテキストを入力するステッ
プ。上記テレテキスト中の文を分割するため、特殊記号
及び前記第一の参照リストに含まれる文字を分離基準と
して使用し、上記入力テレテキストをそれぞれの文字列
に分割するステップ。統計的方法に従って上記文字列に
計算を行って、２個以上の中国語文字を含む文字列を中
国語フレーズとして抽出し、この中国語フレーズを中国
語フレーズデータ領域に格納するステップ。前記第二参
照リスト中の文字によって、前記中国語フレーズデータ
領域に格納されている中国語フレーズをチェックし、前
記中国語フレーズデータ領域から、意味を持つフレーズ
としては不適当なフレーズを取り除くステップ。中国語
フレーズの頻度を計算する統計式、及び前記中国語フレ
ーズ領域に格納されている、各フレーズの文字数と第二
の参照文字数を用いて、このフレーズの密度値、すなわ
ちこのフレーズが上記テレテキストに出現している回数
を示す頻度を求めるステップ。相対的により高い密度値
を持つ複数個のフレーズをキーフレーズとして選択し、
この選択したキーフレーズを表示するため出力するステ
ップ。

【０００９】さらに、本発明はテレテキストの処理装置
を提供する。本発明によるこの装置は下記のものから構
成される。第一の参照リスト及び第二の参照リストを格
納するメモリ。この第一の参照リストは、中国語テキス
ト中の一つの隣接文字と結合して極めて希にしか一つの
フレーズを形成しない複数個の中国語文字から成り、第
二の参照リストは、ときには接続詞として使われ、また
ときには中国語テキスト中の一つの隣接文字と結合して
一つのフレーズを形成する複数個の中国語文字から成
る。テレテキストを入力するための入力手段。次の処理
作用を実行するためのプロセッサ。上記入力手段からテ
レテキストを入力する。上記テレテキスト中の文を分割
するため、特殊記号及び上記第一の参照リストに含まれ
る文字を分離基準として使用し、上記入力テレテキスト
をそれぞれの文字列に分割する。統計的方法に従って上
記文字列に計算を行って、２個以上の中国語文字を含む
文字列を中国語フレーズとして抽出し、この中国語フレ
ーズを中国語フレーズデータ領域に格納する。上記第二
参照リスト中の文字によって、上記中国語フレーズデー
タ領域に格納されている中国語フレーズをチェックし、
上記中国語フレーズデータ領域から、意味を持つフレー
ズとしては不適当なフレーズを取り除く。中国語フレー
ズの頻度を計算する統計式、及び上記中国語フレーズ領
域に格納されている各フレーズの文字数と第二の参照文
字数を用いて、中国語フレーズ領域に格納されている各
フレーズの密度値、すなわちこのフレーズが上記テレテ
キストに出現している回数を示す頻度を求める相対的に
より高い密度値を持つ複数個のフレーズをキーフレーズ
として選択し、この選択したキーフレーズを表示するた
め出力する。上記プロセッサから出力されたキーフレー
ズを受け取り表示するための表示手段。

【００１０】

【発明の作用効果】本発明によるテレテキスト処理方法
及び装置には以下の改善効果と利点がある。（１）本発明によって、ユーザは、無限の情報源を提供
するインターネットから、中国語テレテキストの意味を
迅速に把握する事が可能になり、大量の中国語テレテキ
ストの処理が高速化される。（２）本発明はデジタルテレビにとって特に有利であ
る。本発明によって、ユーザは、デジタルテレビによっ
て提供される中国語情報の大量の山から、簡単な方法で
中国語のキーフレーズを取り出すことが可能になり、情
報を得るために必要な時間が少なくなり、ユーザは情報
に含まれている必要外の詳細な内容を読まなくてもすむ
ようになる。

【００１１】

【発明の実施の形態】本発明に関わる実施例を以下に説
明する。

【００１２】＜第一の実施例＞図１は本発明に関わる第
一の実施例による、中国語テレテキスト処理作用を示す
ブロックダイアグラムである。図１に示されているよう
に、本プロセスはテレテキストを入力するプロシージャ
１００、文を分割するプロシージャ２００、プロシージ
ャ２００において得られる文字列に関する計算を行うプ
ロシージャ３００、中国語フレーズをチェックするプロ
シージャ４００、中国語フレーズの密度値を所望のプロ
シージャ５００、キーフレーズを選択するプロシージャ
６００から成る。さらに、第一の参照リストＴ１００及
び第二の参照リストＴ２００の各々は、文を分割するた
めの分割基準として用いられる中国語文字を含んでい
る。第一の参照リストＴ１００は図６に示されているよ
うな第一参照文字を含む。一般に、第一の参照リストＴ
１００はハードデイスク、フロッピデイスク，ＲＯＭ
（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）のようなメモリ
に格納される。統計的に言って、第一の参照リストに含
まれている第一参照文字は、中国語テキストにもっとも
頻繁に現れ、それに隣接する文字と結合して極めて希に
しか意味のあるフレーズを形成しない。本実施例によれ
ば、第一参照文字は文を分割するための分離基準として
使われる。第二の参照リストＴ２００は図７に示されて
いるような第二参照文字を含む。第二の参照リストＴ２
００もまた、ハードデイスク、フロッピデイスク，ＲＯ
Ｍ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）のようなメモ
リに格納される。第二の参照リストに含まれる第二参照
文字は、ときには文を分割するための分離基準として使
われ、ときには隣接中国語文字と結合して意味のあるフ
レーズを構成する。例えば、文字”自”は、単文”自去
年開始”においては、隣接文字と結合して何ら意味のあ
るフレーズを形成しないので、分離基準として使われ
る。しかしこの文字”自”は、単文”打開自来水開関”
においては、意味のあるフレーズ”自来水”を形成す
る。

【００１３】さらに、中国語テレテキストのプロセスに
おいて、中国語文字データ領域Ｄ１００は中国語フレー
ズ、中国語フレーズの出現頻度と長さ、および密度値を
得るために使われる、テレテキスト中に存在する第二参
照文字を、一時的に格納する。プロシージャ１００はイ
ンターネットのようなネットワークあるいはローカルコ
ンピュータのハードデイスクからテレテキストを入力
し、入力テレテキストをシステムのメモリに格納する。
その後、プロシージャ２００は入力テレテキストを、第
一の参照リストＴ１００に含まれる参照文字と特殊記号
を分離基準として用いて、それぞれの文字列に分割す
る。

【００１４】図２は本発明に関わる第一の実施例による
プロシージャ２００を説明するフローチャートを表示す
る。このプロシージャは入力テレテキストをそれぞれの
単文に分割する。図２に示されているように、ステップ
Ｓ２０１において、フルフォウントおよびハーフフォウ
ン文字が入力テレテキストから持ちこまれる。フルフォ
ウント文字は２バイトから成る中国語文字または特殊記
号であり、第一のバイトの値は１２８より大きい。これ
に対して、ハーフフォウント文字は１バイトから成る英
語の文字または特殊記号であり、その値は１２７より小
さい。次に、このプロシージャはステップＳ２０２に引
き継がれ、持ちこまれた文字が、ラインフィード記号ま
たはスペース記号であるかどうか判定される。もしこの
文字がこれら二つの何れかであれば、この文字は無視さ
れ、先行する文字と後続する文字が連結される。なぜな
ら、これら二つの記号はともに、通常テキストの編集に
おいて文字揃えのために使われ、本発明に関わる第一の
実施例による分離基準としては使われないからである。
次に、本処理２００はステップＳ２０１に戻り、次の文
字を処理する。もしラインフィードまたはスペース記号
でないならば、本処理２００は次のステップＳ２０３に
進み、持ちこまれた文字がハーフフォウント文字または
フルフォウント特殊記号かどうか判定される。もしそう
であれば、本処理２００はステップＳ２０４に進みこれ
までに処理された文字達から成る中国語文字列に対して
分割を行う。もしそうでなければ、次のステップＳ２０
５が実行され、第一参照文字に関する作用を行う。ステ
ップＳ２０５において、持ち込まれた文字が第一参照リ
ストに含まれる第一参照文字の一つと同じかどうかが判
定される。もし持ち込まれた文字が第一参照文字であれ
ば、プロシージャ２００はステップＳ２０４に戻り、分
割を行う。もし持ち込まれた文字が第一参照文字でなけ
れば、この文字は通常文字と考えられ、文字列に加えら
れ、文字列の長さが一つ増やされる。次に、本処理はス
テップＳ２０１の戻り、次の文字を処理する。ステップ
Ｓ２０４において、文分割が行われる。もしこのステッ
プＳ２０４において得られた文字列がただ一つの文字を
含むならば、この文字列はキーフレーズを形成しないの
で放棄される。もしこの文字列が一つより多くの文字を
含むならば、この文字列は、後のフレーズ比較プロシー
ジャのため、中国語フレーズデータ領域に格納される。

【００１５】次にプロシージャ３００を詳細に説明す
る。プロシージャ３００はプロシージャ３００で得られ
たそれぞれの文字列を比較し、中国語フレーズと考えら
れる、二つ以上の連続文字を含む文字列を探し出す。

【００１６】図３はプロシージャ３００の動作を示すフ
ローチャートである。図３に示されているように、それ
ぞれの文字列の内容が比較されて同一の文字列を見つ
け、同一の文字列の文字数を計算し、出現頻度を更新す
るためその回数を一つ増やす。先ず最初に、ステップＳ
３０１において、第一の再帰ポインタＩｄｘ１が、最初
の文字列の始まり位置を指すようにに設定される。続い
て、動作はステップＳ３０２に進み、ポインタＩｄｘ１
がある文字列の位置を指しているとき、第二の再帰ポイ
ンタＩｄｘ２が、Ｉｄｘ１が指す文字の、次の文字を指
すように設定される。Ｉｄｘ２を使った再帰動作はすべ
ての文字列に対して行われ、Ｉｄｘ１によって指された
文字列と同一の中国語文字列、及びこの同一の中国語文
字列の出現頻度が得られる。ステップＳ３０３におい
て、Ｉｄｘ１によって指された中国語文字列は、Ｉｄｘ
２によって指された文字列と比較され、それらが同一で
あるかどうかが判定される。ステップＳ３０４におい
て、Ｉｄｘ１とＩｄｘ２によって指された同一フレーズ
の数を得るための計算が行われる。ステップＳ３０５に
おいて、Ｉｄｘ２ポインタは次の中国語文字を指すよう
に設定される。ステップＳ３０６において、ポインタＩ
ｄｘ２が最後の文字列の最終位置を指しているかどうか
が判定される。もしそうなら、ポインタＩｄｘ２の再帰
動作は終了される。そうでなければ、動作はステップＳ
３０３に戻り、次の文字列の比較が行われる。ステップ
Ｓ３０７において、中国語文字とその出現頻度が中国語
フレーズデータ領域Ｄ１００に登録される。ステップＳ
３０８において、ポインタＩｄｘ１は次の中国語文字を
指すように設定される。ステップＳ３０９において、こ
のポインタが最後の文字列の最終位置を指しているかど
うかが判定される。もしそうなら、再帰動作は終了さ
れ、すべての中国語文字を探索する作用が完了される。
もしそうでないなら、動作はステップＳ３０２に戻り、
ポインタＩｄｘ２による次の再帰動作が行われる。

【００１７】プロシージャ４００は、プロシージャ３０
０において以上のようにして抽出された文字列を、第二
の参照リストＴ２００に基づいてチェックする。もし抽
出された文字列に含まれるすべての文字が第二参照文字
であれば、この文字列は、キーフレーズに採用されない
ので除外される。

【００１８】図４はプロシージャ４００を示すフローチ
ャートである。プロシージャ３００において抽出され、
中国語フレーズデータ領域Ｄ１００に格納されたすべて
の中国語フレーズは、キーフレーズとは考えられない接
続詞を除くためにチェックされる。例えば、中国語文
字”将”と”能”は第二参照文字である。そこで、文
字”将”はフレーズ”将軍”中に存在し、文字”能”は
フレーズ”熱能”中に存在する。しかしこれら二つの文
字が一緒になって接続詞”将能”を形成すれば、このよ
うな接続詞はキーフレーズとは考えられない。ステップ
Ｓ４０１において、中国語フレーズが中国語フレーズデ
ータ領域Ｄ１００から一つずつ持ち込まれる。ステップ
４０２において、中国語文字ポインタが、持ち込まれた
中国語フレーズの頭を指すように設定される。第二の参
照リストに基づいて、持ち込まれた中国語フレーズ中の
各文字は、Ｓ４０３からＳ４０７において、第二参照文
字かどうか判定するためチェックされる。ステップＳ４
０３において、上記中国語フレーズ中の、指された中国
語文字が、第二参照文字かどうかチェックされる。もし
チェックされた中国語文字が第二参照文字であれば、ス
テップＳ４０４において、この文字の参照フラッグが１
に設定される。もしそうでなければ、ステップＳ４０５
において、この文字の参照フラッグは０に設定される。
ステップＳ４０６において、中国語文字ポインタが、上
記中国語フレーズ中の次の文字に設定される。ステップ
Ｓ４０７において、上記中国語フレーズが完了していな
ければ、次の中国語文字のためステップＳ４０３に戻
る。もし完了していれば、チェックのためステップＳ４
０８に行く。ステップＳ４０８において、上記中国語フ
レーズのすべての参照フラッグがチェックされる。もし
すべての参照フラッグが１であれば、ステップ４０９に
おいて、上記中国語フレーズは、接続詞と判定され、中
国語フレーズデータ領域Ｄ１００から取り除かれる。続
いて、ステップＳ４１０において、次の中国語フレーズ
が中国語フレーズデータ領域Ｄ１００に存在すれば、本
プロシージャはステップＳ４０１に戻り、次の中国語フ
レーズに対して同じ作用が行われる。もしそうでなけれ
ば、プロシージャ４００は終了される。

【００１９】プロシージャ５００はプロシージャ４００
においてチェックされた各中国語フレーズの長さ、出現
頻度（テキストにおける）、及び第二参照文字の数に基
づいて、中国語フレーズの密度値を統計的に導く。この
導出作用によって、テキスト中の各フレーズの重要度が
得られ、テキストのキーワードが決定される。図５はプ
ロシージャ５００のフローチャートである。図５に示さ
れているように、ステップＳ５０１において、中国語フ
レーズが中国語フレーズデータ格納領域Ｄ１００から一
つずつ持ち込まれる。ステップＳ５０２において、中国
語フレーズの密度値が次の計算法に従って導かれる。ｄｅｎｓｅ＝ｔｉｍｅｓ＊ｗｏｒｄ＿ｌｅｎ＊ｗｏｒｄ＿ｌｅｎ＊ｗｏｒｄ＿ｌｅｎ／ｓｅｃｏｎｄ＿ｒｅｆｅｒｅｎｃｅ＿ｎｕｍ；ｉｆｗｏｒｄ＿ｌｅｎ＞８、ｔｈｅｎｓｅｔｗｏｒｄ＿ｌｅｎ＝８；ただし、ｄｅｓｎｓｅ：密度値；ｔｉｍｅｓ：テキスト中の中国語フレーズの出現頻度；ｗｏｒｄ＿ｌｅｎ：２バイトの中国語文字の長さ；ｓｅｃｏｎｄ＿ｒｅｆｅｒｅｎｃｅ＿ｎｕｍ：中国語フ
レーズ中に含まれる第二参照文字の数。

【００２０】中国語フレーズの出現頻度はこの中国語フ
レーズの密度値に比例する。すなわち、中国語フレーズ
の出現頻度が高いほど、この中国語フレーズはこのテキ
スト中でいっそう重要である。中国語フレーズの長さの
３乗は、密度値に比例する。すなわち、中国語のフレー
ズ中の文字が多いほど、この中国語フレーズはテキスト
中において、いっそう重要である。しかし、もし中国語
フレーズが４つより多くの文字を含めば、フレーズの長
さは意味がない。従って、８バイトより多くのフレーズ
は８バイトとして処理される。さらに、中国語フレーズ
が第二参照文字を含めば、密度値はそれに応じて減る。
これは第二参照文字がときには形容詞または接続詞とし
て使われるからである。ステップＳ５０３において、未
だ処理されていない他の中国語フレーズがあるかどうか
が判定される。もしＹＥＳならば、本処理はＳ５０１に
戻り、次の中国語フレーズのため同じ計算を続ける。も
しＮＯならば、本処理は終了される。

【００２１】処理６００においては、ユーザによって指
定されたキーフレーズの数Ｎに基づいて、密度値の高い
順にＮ個の密度値を持ったフレーズが、キーワードとし
て設定される。処理６００は中国語フレーズの密度値を
小さくなる順にソートするための作用を行う。高い密度
値を持ったフレーズほど、テキストにおいてより重要で
あることを表し、コンテキストの本質的な意味を示すに
足る重要性を持っている。さらに、重複したキーフレー
ズを阻止するため、重複したフレーズは除かれる。例え
ば、フレーズ”弁公室”の密度値が別のフレーズ”弁
公”の密度値より大きいならば、フレーズ”弁公室”と
フレーズ”弁公”がともにキーフレーズとして考慮され
ることを阻止するために、フレーズ”弁公”は除かれ
る。このようにして、高い密度値を持った順に、いくつ
かのフレーズがキーフレーズとして、選択され、スクリ
ーン上に表示される。これによって、ユーザはコンテキ
ストの本質的な意味を知ることが出来る。

【００２２】次に、本発明の第一の実施例による作用を
さらに説明するため、処理作用の一例を述べる。テキス
トの一例が図８に示されている。このテキストはプロシ
ージャ２００によって、システムメモリに読み込まれ
る。それから、図６に示されている第一参照文字と、フ
ルフォウント記号とハーフフォウント記号のような特殊
記号を用いて、処理２００によって、全テキストがそれ
ぞれの文字列に分割される。上記処理によって抽出され
た文字列が図９に示されている。例えば、サンプルテキ
ストの最初、”我読了張教授写的海底世界以後、知道他
是一位研究魚類的専家”を分割するために本発明におけ
る分割作用は、第一参照文字、”我”、”了”、”
写”、”的”、”以”、”後”、”他”、”是”と特殊
フルフォウント記号”、”及び分割されたフレーズ、”
読”、”張教授”、”海底世界”，”知道”、”一位研
究魚類”、”専家”を抽出する。文字列”読”はただ一
つの文字を含んでいるだけなので、この文字列は除外さ
れる。その結果、文字列、”張教授”、”海底世
界”、”知道”、”一位研究魚類”、”専家”が得られ
る。続いて、結果として得られたこれらすべての文字列
が、再帰的方法によって互いに比較され、二つ以上の文
字を含む文字列が抽出される。これら抽出された文字列
は中国語フレーズと呼ばれ、図１０に示されている中国
語フレーズデータ領域に格納される。この領域にはま
た、格納されている中国語フレーズに関する出現頻度、
フレーズの長さ、第二参照文字が記録されている。これ
らフレーズの密度値は密度値の上記計算規則に基づいて
導かれる。これらの値は図１０の右端の列に示されてい
る。文字”張”と”小”は図７に示されている第二参照
文字であるので、これらの文字のどれか一つを含むフレ
ーズの密度値は２で割られる。フレーズ”小丑魚”と”
小丑”、および”灯籠”と”灯籠魚”はそれぞれ重複し
ているので、低い密度値を持った方のフレーズが除かれ
る。それから、残ったフレーズが密度値の小さくなる順
にソートされ、ソートされた結果は図１１に示されてい
る。最後に、結果として得られたフレーズが表示装置に
示される。

【００２３】＜第二の実施例＞図１２は本発明に関わる
第二の実施例による中国語テレテキストの処理装置を示
すブロックダイアグラムである。図１２に示されている
ように、テレテキストはデータラインを経て入出力手段
１２１に入力される。入力されたテレテキストはＲＡＭ
１２２（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に
格納される。ＲＯＭ１２３（ＲｅａｄＯｎｌｙＭｅ
ｍｏｒｙ）は、第一の実施例で説明された処理演算を行
うためのプログラムを格納する。ＣＰＵ（Ｃｅｎｔｒａ
ｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１２４はこのプ
ログラムを実行し、入力されたテレテキストを処理し、
プログラムの実行によって得られたキーフレーズを表示
手段１２５に出力する。

【００２４】図面および対応する実施例は本発明を例示
するためにのみ用いられている。本発明は、添付された
請求項の範囲と精神の以内において、その詳細点は変化
しうるものである。例えば、第一の参照リストおよび第
二の参照リストに含まれている文字、そして密度値の計
算規則はテキストの特徴に応じて適当に変化しうるもの
である。

【図面の簡単な説明】

【図１】本発明に関わる第一の実施例による中国語テ
レテキストの処理作用を示すブロックダイアグラムであ
る。

【図２】本発明に関わる第一の実施例による、文分割
のための分割プロシージャを示すフローチャートであ
る。

【図３】本発明に関わる第一の実施例による、文字列
計算プロシージャを示すフローチャートである。

【図４】本発明に関わる第一の実施例による、中国語
フレーズのチェックプロシージャを示すフローチャート
である。

【図５】本発明に関わる第一の実施例による、中国語
フレーズの密度値を求めるプロシージャを示すフローチ
ャートである。

【図６】本発明に関わる第一の実施例において用いら
れる、第一参照リストに含まれる参照文字の例を示す。

【図７】本発明に関わる第一の実施例において用いら
れる、第二参照リストに含まれる参照文字の例を示す。

【図８】本発明に関わる第一の実施例において処理さ
れる、中国語テキストの一例を示す。

【図９】図８に示されている中国語テキストを処理す
ることによって得られる文字列を示す。

【図１０】図８に示されている中国語テキストに関す
る、統計的データを示す。

【図１１】本発明に関わる第一の実施例によって図８
に示されている、中国語テキストから得られるキーフレ
ーズを示す。

【図１２】本発明に関わる第二の実施例による、中国
語テレテキストの処理装置を示すブロックダイアグラム
である。

【符号の説明】

１００テレテキスト入力Ｔ１００第一の参照リスト２００文を各文字列に分割するステップ３００文字列を計算を行うステップ４００中国語フレーズをチェックするステップＴ２００第二の参照リストＤ１００中国語フレーズデータ領域５００中国語フレーズの密度値を導くステップ６００キーフレーズを選択するステップ

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/28 Ｇ０６Ｆ 15/20 ５９６Ｃ 15/38 ＱＦターム(参考） 5B009 QA05 QA12 RB02 VA02 VA09 VB11 VC04 5B020 AA20 BB02 GG22 5B075 KK07 KK33 ND03 ND23 NK02 NK13 NK24 NK32 PP30 PQ02 PR04 QM08 UU05 UU34 5B091 AA04 BA02 BA12 CA02 CB27 CD03 DA04 DA11

Claims

【特許請求の範囲】

【請求項１】ユーザがテレテキストの本質的な意味を
把握することを援助するためにテレテキスト中のキーフ
レーズを自動的に抽出する中国語テレテキスト処理方法
であって、中国語テキスト中の隣接文字と結合して極めて希にしか
一つのフレーズを形成しない複数個の中国語文字をメモ
リに格納し第一の参照リストを生成するステップ、ときには接続詞として使われ、またときには中国語テキ
スト中の一つの隣接文字と結合して一つのフレーズを形
成する、複数個の中国語文字を、前記メモリに格納
し、第二の参照リストを生成するステップ、テレテキストを入力するステップ前記テレテキスト中の文を分割するため、特殊記号及び
前記第一の参照リストに含まれる文字を分離基準として
使用し、前記入力テレテキストをそれぞれの文字列に分
割するステップ、統計的方法に従って前記文字列に計算を行って、２個以
上の中国語文字を含む文字列を中国語フレーズとして抽
出し、この中国語フレーズを中国語フレーズデータ領域
に格納するステップ、前記第二参照リスト中の文字によって、前記中国語フレ
ーズデータ領域に格納されている中国語フレーズをチェ
ックし、前記中国語フレーズデータ領域から、意味を持
つフレーズとしては不適当なフレーズを取り除くステッ
プ、中国語フレーズの頻度を計算する統計式、及び前記中国
語フレーズ領域に格納されている各フレーズの文字数と
第二の参照文字数を用いて、このフレーズの密度値、す
なわちこのフレーズが前記テレテキストに出現している
回数を示す頻度を求めるステップ、相対的により高い密度値を持つ複数個のフレーズを、キ
ーフレーズとして選択し、この選択したキーフレーズを
表示するため出力するステップから成る方法。
【請求項２】前記分割ステップにおいて用いられる特
殊記号は句読点、外国語文字、テーブル記号、グラフ記
号、矢印、及び中国語以外の任意の記号であることを特
徴とする、請求項１記載の処理方法。
【請求項３】前記文字列計算ステップが前記それぞれ
の文字列を文字ごとに比較し、二つ以上の文字を含む、
同一の文字列を、この比較結果として、前記中国語デー
タ領域に格納することを特徴とする、請求項１記載の処
理方法。
【請求項４】前記中国語フレーズデータ領域が、さら
に、前記文字列計算ステップにおいて得られる、前記そ
れぞれの中国語フレーズの、出現頻度及び長さを含むこ
とを特徴とする、請求項３記載の処理方法。
【請求項５】前記キーフレーズ選択ステップが、前記
中国語フレーズの密度値を、密度値の減少する順序にソ
ートし、他の中国語フレーズと重複したフレーズを取り
除くことを特徴とする、請求項１記載の処理方法。
【請求項６】第一の参照リスト及び第二の参照リスト
を格納するメモリであって、前記の第一の参照リスト
は、中国語テキスト中の一つの隣接文字と結合して極め
て希にしか一つのフレーズを形成しない複数個の中国語
文字から成り、前記第二の参照リストは、ときには接続
詞として使われ、またときには中国語テキスト中の一つ
の隣接文字と結合して一つのフレーズを形成する複数個
の中国語文字から成る、メモリ、テレテキストを入力するための入力手段、入力手段からテレテキストを入力し、前記テレテキスト中の文を分割するため、特殊記号及び
第一の参照リストに含まれる文字を分離基準として使用
し、前記入力テレテキストをそれぞれの文字列に分割
し、統計的方法に従って前記文字列に計算を行って２個以上
の中国語文字を含む文字列を中国語フレーズとして抽出
し、この中国語フレーズを中国語フレーズデータ領域に
格納し、前記第二参照リスト中の文字によって、前記中国語フレ
ーズデータ領域に格納されている中国語フレーズをチェ
ックし、前記中国語フレーズデータ領域から、意味を持
つフレーズとしては不適当なフレーズを取り除き、中国語フレーズの頻度を計算する統計式、及び前記中国
語フレーズ領域に格納されている各フレーズの文字数と
第二の参照文字数を用いて、このフレーズの密度値、す
なわちこのフレーズが前記テレテキストに出現している
回数を示す頻度を求め、相対的により高い密度値を持つ複数個のフレーズをキー
フレーズとして選択し、この選択したキーフレーズを表
示するため出力する、処理を実行するためのプロセッサ、及び前記プロセッサ
から出力されたキーフレーズを受け取り表示するための
表示手段を備えたテレテキストの処理装置。
【請求項７】前記分割ステップにおいて用いられる特
殊記号は句読点、外国語文字、テーブル記号、グラフ記
号、矢印、及び中国語以外の任意の記号であることを特
徴とする、請求項６記載の処理装置。
【請求項８】前記文字列計算ステップが前記それぞれ
の文字列を文字ごとに比較し、二つ以上の文字を含む、
同一の文字列を、この比較結果として、前記中国語デー
タ領域に格納することを特徴とする、請求項６記載の処
理装置。
【請求項９】前記中国語フレーズデータ領域が、さら
に、前記文字列計算ステップにおいて得られる、前記そ
れぞれの中国語フレーズの、出現頻度及び長さを含むこ
とを特徴とする請求項８記載の処理装置。
【請求項１０】前記キーフレーズ選択ステップが、前
記中国語フレーズの密度値を、密度値の減少する順序に
ソートし、他の中国語フレーズと重複したフレーズを取
り除くことを特徴とする、請求項６記載の処理装置。