JP2000132560A - 中国語テレテキスト処理方法及び装置 - Google Patents

中国語テレテキスト処理方法及び装置

Info

Publication number
JP2000132560A
JP2000132560A JP10302066A JP30206698A JP2000132560A JP 2000132560 A JP2000132560 A JP 2000132560A JP 10302066 A JP10302066 A JP 10302066A JP 30206698 A JP30206698 A JP 30206698A JP 2000132560 A JP2000132560 A JP 2000132560A
Authority
JP
Japan
Prior art keywords
chinese
phrase
characters
character
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10302066A
Other languages
English (en)
Inventor
Keiken Rin
啓軒 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP10302066A priority Critical patent/JP2000132560A/ja
Priority to SG1999005323A priority patent/SG73679A1/en
Priority to TW088118326A priority patent/TW558681B/zh
Priority to US09/422,743 priority patent/US6620207B1/en
Priority to CNB991218906A priority patent/CN1152337C/zh
Publication of JP2000132560A publication Critical patent/JP2000132560A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 ユーザがテレテキストの内容を素早く把握
し、有益なインフォメーションの処理を促進する。 【解決手段】 統計によれば、中国語テキストのおよそ
88%はフレーズであり、これらのフレーズのうち、あ
るテキストにおける出現頻度のより高いものは、その内
容に深く関わっている。他の12%の文字の大部分
は、”的”や”和”のような接続詞である。もしこれら
の文字を、文を分割するための分離基準として用いれ
ば、テキストはそれぞれの文字列に分割される。これら
の文字は、以下、第一参照文字と呼ばれる。もう一つ別
の文字のカテゴリがある。それは、”当”や”時”のよ
うな文字で、テキストにおいて、あるときには独立して
存在し、あるときには”時鐘”のようなフレーズを形成
する。このカテゴリーの少数の文字が一緒になって、”
当時’のように、一つのフレーズを形成する場合には、
これらの文字は、キーフレーズというより、接続詞と考
えられる。このカテゴリの文字は第二参照文字と呼ばれ
る。本発明は、フレーズ、それらの頻度、及びフレーズ
の長さに基づいて、キーフレーズを抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はコンピュータ技術を
用いる、中国語テレテキスト処理方法及び装置に関する
もので、ユーザがテレテキストの本質的な意味を把握す
ることを補助するため、テレビジョンまたはコンピュー
タに存在するテレテキストから、キーフレーズを抽出す
るためのものである。
【0002】
【従来の技術】最近、インターネットのようなコンピュ
ータネットワークが非常に普及し、数多くのテレテキス
トがネットワーク中に存在するので、ネットワークを通
じて、所望のデータを素早くかつ正確に検索する方法を
考えることが重要な問題となっている。現今のテキスト
検索技術は、ユーザが、キーワードまたはフレーズに基
づいて、所望のデータまたは情報を検索することが出来
るようにしている。このようなテキスト検索技術は、ユ
ーザがデータの順序番号、要約、または完全な情報を記
憶しておくことを必要としないため、ユーザは、不完全
な情報、ワード、またはフレーズを知っているだけで、
所望のデータを獲得することが出来る。
【0003】一般に現今のテキスト検索技術は、ユーザ
によって指定されたキーワードまたはフレーズを用いて
データベースを探索し、このキーワードまたはフレーズ
に結びつくすべてのデータを検索する。従来の中国語テ
キスト検索技術は、外国語のシンタックスの論理という
より中国語テキストのシンタックスの論理に基づき、商
業市場で手に入る、よく知られているワードプロセッサ
技術である。このようなテキスト検索技術は、ユーザに
よって問い合わされるキーワードに結びつくデータを、
自動的に検索することを特徴とする。このような技術
は、ユーザによって入力されるキーワードまたはフレー
ズを用いて、有限のデータベース内のデータを検索する
ためにのみ効果的であり、キーフレーズが、所望のテキ
ストにおいて本質的な意味を持っているのかどうかを、
ユーザが知らない状況においては、効果的でない。もし
ユーザによって入力されるキーワードまたはフレーズが
不適当であれば、検索されるデータは間違っているか不
完全となり、新しいキーワードまたはフレーズを考え
て、探索作用を再度行うように入力し直さなければなら
ない。
【0004】探索作用の実行を繰り返すことを必要とす
るこのような現象は、通常のデータベースのサイズが非
常に大きいので、ユーザがこのデータベースの完全な内
容を知って、効果的なキーワードを考えることが出来な
いことから生じる。従って、もしユーザがテレテキスト
についてのいくつかのキーフレーズを知ることが出来る
ならば、このテレテキストの本質的な意味を理解するこ
とができる。処理中のテレテキストにおけるキーフレー
ズを抽出するための、本発明による方法が、テキスト検
索システムに織り込まれれば、ユーザは実際にテレテキ
ストを読む前に、このテレテキストの本質的な内容をほ
とんど知ることが出来る。もし抽出されたフレーズを、
このテレテキストの詳細な記述を得るために使えば、こ
のテレテキスト中の重要な内容部分を素早く表示するこ
とが出来る。
【0005】従来のテキスト検索技術において、正確な
キーフレーズをユーザが知らないときは、想定されるキ
ーフレーズ使って探索作用を行うために、かなりの時間
が消費される。もしユーザが所望のテキストに関する実
際のキーフレーズを前もって得ることが出来れば、ユー
ザはこのテキストの本質的な内容を容易に把握すること
が出来る。
【0006】このように、従来のテキスト検索システム
を使うための要件は次のようになっている。 (1)検索されるデータはある特定された分野に制限さ
れる。すなわち、閉じた環境にある。 (2)ユーザは、探索作用を行う前に、ある程度所望の
データについて前もって知っていなければ、探索作用を
実行するための特定のフレーズまたはワードを入力する
ことが出来ない。
【0007】
【発明が解決しようとする課題】周知のテキスト検索シ
ステム、ACADEMIA Sinicaによって提案
された”Chinese Text Retrieva
l System、”は、例えば、中国文学と歴史分野
に関するデータを調査するためにのみ採用され、所望の
データを検索するための対応するインデックスフレーズ
を必要とする。それに加えて、この中国語テキスト検索
システムは、人名または引喩についてのフレーズを入力
することによって、聖書中のデータを調査するために適
用される。しかし、このようなテキスト検索方法は、無
制限のデータフィールドを持つネットワークにおいて
は、厳しい時間消費の原因となる。テキストのコンテキ
ストをユーザが知らなければ、所望のデータを検索する
のが難しいので、通常は想定されるフレーズがタイトル
を調査するために使われる。しかし、所望のデータをこ
の想定されるフレーズに基づいて検索できなければ、次
の探索のため、別の可能なインデックスフレーズを考慮
する。
【0008】
【課題を解決するための手段】上記の問題に照らして、
本発明はテレテキストの処理方法を提供する。本発明に
よる処理方法は次のステップからなる。中国語テキスト
中の隣接文字と結合して極めて希にしか一つのフレーズ
を形成しない複数個の中国語文字を、メモリに格納し、
第一の参照リストを生成するステップ。ときには接続詞
として使われ、またときには中国語テキスト中の一つの
隣接文字と結合して一つのフレーズを形成する、複数個
の中国語文字を、上記メモリに格納し、第二の参照リス
トを生成するステップ。テレテキストを入力するステッ
プ。上記テレテキスト中の文を分割するため、特殊記号
及び前記第一の参照リストに含まれる文字を分離基準と
して使用し、上記入力テレテキストをそれぞれの文字列
に分割するステップ。統計的方法に従って上記文字列に
計算を行って、2個以上の中国語文字を含む文字列を中
国語フレーズとして抽出し、この中国語フレーズを中国
語フレーズデータ領域に格納するステップ。前記第二参
照リスト中の文字によって、前記中国語フレーズデータ
領域に格納されている中国語フレーズをチェックし、前
記中国語フレーズデータ領域から、意味を持つフレーズ
としては不適当なフレーズを取り除くステップ。中国語
フレーズの頻度を計算する統計式、及び前記中国語フレ
ーズ領域に格納されている、各フレーズの文字数と第二
の参照文字数を用いて、このフレーズの密度値、すなわ
ちこのフレーズが上記テレテキストに出現している回数
を示す頻度を求めるステップ。相対的により高い密度値
を持つ複数個のフレーズをキーフレーズとして選択し、
この選択したキーフレーズを表示するため出力するステ
ップ。
【0009】さらに、本発明はテレテキストの処理装置
を提供する。本発明によるこの装置は下記のものから構
成される。第一の参照リスト及び第二の参照リストを格
納するメモリ。この第一の参照リストは、中国語テキス
ト中の一つの隣接文字と結合して極めて希にしか一つの
フレーズを形成しない複数個の中国語文字から成り、第
二の参照リストは、ときには接続詞として使われ、また
ときには中国語テキスト中の一つの隣接文字と結合して
一つのフレーズを形成する複数個の中国語文字から成
る。テレテキストを入力するための入力手段。次の処理
作用を実行するためのプロセッサ。上記入力手段からテ
レテキストを入力する。上記テレテキスト中の文を分割
するため、特殊記号及び上記第一の参照リストに含まれ
る文字を分離基準として使用し、上記入力テレテキスト
をそれぞれの文字列に分割する。統計的方法に従って上
記文字列に計算を行って、2個以上の中国語文字を含む
文字列を中国語フレーズとして抽出し、この中国語フレ
ーズを中国語フレーズデータ領域に格納する。上記第二
参照リスト中の文字によって、上記中国語フレーズデー
タ領域に格納されている中国語フレーズをチェックし、
上記中国語フレーズデータ領域から、意味を持つフレー
ズとしては不適当なフレーズを取り除く。中国語フレー
ズの頻度を計算する統計式、及び上記中国語フレーズ領
域に格納されている各フレーズの文字数と第二の参照文
字数を用いて、中国語フレーズ領域に格納されている各
フレーズの密度値、すなわちこのフレーズが上記テレテ
キストに出現している回数を示す頻度を求める相対的に
より高い密度値を持つ複数個のフレーズをキーフレーズ
として選択し、この選択したキーフレーズを表示するた
め出力する。上記プロセッサから出力されたキーフレー
ズを受け取り表示するための表示手段。
【0010】
【発明の作用効果】本発明によるテレテキスト処理方法
及び装置には 以下の改善効果と利点がある。 (1)本発明によって、ユーザは、無限の情報源を提供
するインターネットから、中国語テレテキストの意味を
迅速に把握する事が可能になり、大量の中国語テレテキ
ストの処理が高速化される。 (2)本発明はデジタルテレビにとって特に有利であ
る。本発明によって、ユーザは、デジタルテレビによっ
て提供される中国語情報の大量の山から、簡単な方法で
中国語のキーフレーズを取り出すことが可能になり、情
報を得るために必要な時間が少なくなり、ユーザは情報
に含まれている必要外の詳細な内容を読まなくてもすむ
ようになる。
【0011】
【発明の実施の形態】本発明に関わる実施例を以下に説
明する。
【0012】<第一の実施例>図1は本発明に関わる第
一の実施例による、中国語テレテキスト処理作用を示す
ブロックダイアグラムである。図1に示されているよう
に、本プロセスはテレテキストを入力するプロシージャ
100、文を分割するプロシージャ200、プロシージ
ャ200において得られる文字列に関する計算を行うプ
ロシージャ300、中国語フレーズをチェックするプロ
シージャ400、中国語フレーズの密度値を所望のプロ
シージャ500、キーフレーズを選択するプロシージャ
600から成る。さらに、第一の参照リストT100及
び第二の参照リストT200の各々は、文を分割するた
めの分割基準として用いられる中国語文字を含んでい
る。第一の参照リストT100は図6に示されているよ
うな第一参照文字を含む。一般に、第一の参照リストT
100は ハードデイスク、フロッピデイスク,ROM
(read only memory)のようなメモリ
に格納される。統計的に言って、第一の参照リストに含
まれている第一参照文字は、中国語テキストにもっとも
頻繁に現れ、それに隣接する文字と結合して極めて希に
しか意味のあるフレーズを形成しない。本実施例によれ
ば、第一参照文字は文を分割するための分離基準として
使われる。第二の参照リストT200は図7に示されて
いるような第二参照文字を含む。第二の参照リストT2
00もまた、ハードデイスク、フロッピデイスク,RO
M(read only memory)のようなメモ
リに格納される。第二の参照リストに含まれる第二参照
文字は、ときには文を分割するための分離基準として使
われ、ときには隣接中国語文字と結合して意味のあるフ
レーズを構成する。例えば、文字”自”は、単文”自去
年開始”においては、隣接文字と結合して何ら意味のあ
るフレーズを形成しないので、分離基準として使われ
る。しかしこの文字”自”は、単文”打開自来水開関”
においては、意味のあるフレーズ”自来水”を形成す
る。
【0013】さらに、中国語テレテキストのプロセスに
おいて、中国語文字データ領域D100は中国語フレー
ズ、中国語フレーズの出現頻度と長さ、および密度値を
得るために使われる、テレテキスト中に存在する第二参
照文字を、一時的に格納する。プロシージャ100はイ
ンターネットのようなネットワークあるいはローカルコ
ンピュータのハードデイスクからテレテキストを入力
し、入力テレテキストをシステムのメモリに格納する。
その後、プロシージャ200は入力テレテキストを、第
一の参照リストT100に含まれる参照文字と特殊記号
を分離基準として用いて、それぞれの文字列に分割す
る。
【0014】図2は本発明に関わる第一の実施例による
プロシージャ200を説明するフローチャートを表示す
る。このプロシージャは入力テレテキストをそれぞれの
単文に分割する。図2に示されているように、ステップ
S201において、フルフォウントおよびハーフフォウ
ン文字が入力テレテキストから持ちこまれる。フルフォ
ウント文字は2バイトから成る中国語文字または特殊記
号であり、第一のバイトの値は128より大きい。これ
に対して、ハーフフォウント文字は1バイトから成る英
語の文字または特殊記号であり、その値は127より小
さい。次に、このプロシージャはステップS202に引
き継がれ、持ちこまれた文字が、ラインフィード記号ま
たはスペース記号であるかどうか判定される。もしこの
文字がこれら二つの何れかであれば、この文字は無視さ
れ、先行する文字と後続する文字が連結される。なぜな
ら、これら二つの記号はともに、通常テキストの編集に
おいて文字揃えのために使われ、本発明に関わる第一の
実施例による分離基準としては使われないからである。
次に、本処理200はステップS201に戻り、次の文
字を処理する。もしラインフィードまたはスペース記号
でないならば、本処理200は次のステップS203に
進み、持ちこまれた文字がハーフフォウント文字または
フルフォウント特殊記号かどうか判定される。もしそう
であれば、本処理200はステップS204に進みこれ
までに処理された文字達から成る中国語文字列に対して
分割を行う。もしそうでなければ、次のステップS20
5が実行され、第一参照文字に関する作用を行う。ステ
ップS205において、持ち込まれた文字が第一参照リ
ストに含まれる第一参照文字の一つと同じかどうかが判
定される。もし持ち込まれた文字が第一参照文字であれ
ば、プロシージャ200はステップS204に戻り、分
割を行う。もし持ち込まれた文字が第一参照文字でなけ
れば、この文字は通常文字と考えられ、文字列に加えら
れ、文字列の長さが一つ増やされる。次に、本処理はス
テップS201の戻り、次の文字を処理する。ステップ
S204において、文分割が行われる。もしこのステッ
プS204において得られた文字列がただ一つの文字を
含むならば、この文字列はキーフレーズを形成しないの
で放棄される。もしこの文字列が一つより多くの文字を
含むならば、この文字列は、後のフレーズ比較プロシー
ジャのため、中国語フレーズデータ領域に格納される。
【0015】次にプロシージャ300を詳細に説明す
る。プロシージャ300はプロシージャ300で得られ
たそれぞれの文字列を比較し、中国語フレーズと考えら
れる、二つ以上の連続文字を含む文字列を探し出す。
【0016】図3はプロシージャ300の動作を示すフ
ローチャートである。図3に示されているように、それ
ぞれの文字列の内容が比較されて同一の文字列を見つ
け、同一の文字列の文字数を計算し、出現頻度を更新す
るためその回数を一つ増やす。先ず最初に、ステップS
301において、第一の再帰ポインタIdx1が、最初
の文字列の始まり位置を指すようにに設定される。続い
て、動作はステップS302に進み、ポインタIdx1
がある文字列の位置を指しているとき、第二の再帰ポイ
ンタIdx2が、Idx1が指す文字の、次の文字を指
すように設定される。Idx2を使った再帰動作はすべ
ての文字列に対して行われ、Idx1によって指された
文字列と同一の中国語文字列、及びこの同一の中国語文
字列の出現頻度が得られる。ステップS303におい
て、Idx1によって指された中国語文字列は、Idx
2によって指された文字列と比較され、それらが同一で
あるかどうかが判定される。ステップS304におい
て、Idx1とIdx2によって指された同一フレーズ
の数を得るための計算が行われる。ステップS305に
おいて、Idx2ポインタは次の中国語文字を指すよう
に設定される。ステップS306において、ポインタI
dx2が最後の文字列の最終位置を指しているかどうか
が判定される。もしそうなら、ポインタIdx2の再帰
動作は終了される。そうでなければ、動作はステップS
303に戻り、次の文字列の比較が行われる。ステップ
S307において、中国語文字とその出現頻度が中国語
フレーズデータ領域D100に登録される。ステップS
308において、ポインタIdx1は次の中国語文字を
指すように設定される。ステップS309において、こ
のポインタが最後の文字列の最終位置を指しているかど
うかが判定される。もしそうなら、再帰動作は終了さ
れ、すべての中国語文字を探索する作用が完了される。
もしそうでないなら、動作はステップS302に戻り、
ポインタIdx2による次の再帰動作が行われる。
【0017】プロシージャ400は、プロシージャ30
0において以上のようにして抽出された文字列を、第二
の参照リストT200に基づいてチェックする。もし抽
出された文字列に含まれるすべての文字が第二参照文字
であれば、この文字列は、キーフレーズに採用されない
ので除外される。
【0018】図4はプロシージャ400を示すフローチ
ャートである。プロシージャ300において抽出され、
中国語フレーズデータ領域D100に格納されたすべて
の中国語フレーズは、キーフレーズとは考えられない接
続詞を除くためにチェックされる。例えば、中国語文
字”将”と”能”は第二参照文字である。そこで、文
字”将”はフレーズ”将軍”中に存在し、文字”能”は
フレーズ”熱能”中に存在する。しかしこれら二つの文
字が一緒になって接続詞”将能”を形成すれば、このよ
うな接続詞はキーフレーズとは考えられない。ステップ
S401において、中国語フレーズが中国語フレーズデ
ータ領域D100から一つずつ持ち込まれる。ステップ
402において、中国語文字ポインタが、持ち込まれた
中国語フレーズの頭を指すように設定される。第二の参
照リストに基づいて、持ち込まれた中国語フレーズ中の
各文字は、S403からS407において、第二参照文
字かどうか判定するためチェックされる。ステップS4
03において、上記中国語フレーズ中の、指された中国
語文字が、第二参照文字かどうかチェックされる。もし
チェックされた中国語文字が第二参照文字であれば、ス
テップS404において、この文字の参照フラッグが1
に設定される。もしそうでなければ、ステップS405
において、この文字の参照フラッグは0に設定される。
ステップS406において、中国語文字ポインタが、上
記中国語フレーズ中の次の文字に設定される。ステップ
S407において、上記中国語フレーズが完了していな
ければ、次の中国語文字のためステップS403に戻
る。もし完了していれば、チェックのためステップS4
08に行く。ステップS408において、上記中国語フ
レーズのすべての参照フラッグがチェックされる。もし
すべての参照フラッグが1であれば、ステップ409に
おいて、上記中国語フレーズは、接続詞と判定され、中
国語フレーズデータ領域D100から取り除かれる。続
いて、ステップS410において、次の中国語フレーズ
が中国語フレーズデータ領域D100に存在すれば、本
プロシージャはステップS401に戻り、次の中国語フ
レーズに対して同じ作用が行われる。もしそうでなけれ
ば、プロシージャ400は終了される。
【0019】プロシージャ500はプロシージャ400
においてチェックされた各中国語フレーズの長さ、出現
頻度(テキストにおける)、及び第二参照文字の数に基
づいて、中国語フレーズの密度値を統計的に導く。この
導出作用によって、テキスト中の各フレーズの重要度が
得られ、テキストのキーワードが決定される。図5はプ
ロシージャ500のフローチャートである。図5に示さ
れているように、ステップS501において、中国語フ
レーズが中国語フレーズデータ格納領域D100から一
つずつ持ち込まれる。ステップS502において、中国
語フレーズの密度値が次の計算法に従って導かれる。 dense=times*word_len*word_len* word_len/second_reference_num; if word_len>8、 then set word_len=8; ただし、 desnse:密度値; times:テキスト中の中国語フレーズの出現頻度; word_len:2バイトの中国語文字の長さ; second_reference_num:中国語フ
レーズ中に含まれる第二参照文字の数。
【0020】中国語フレーズの出現頻度はこの中国語フ
レーズの密度値に比例する。すなわち、中国語フレーズ
の出現頻度が高いほど、この中国語フレーズはこのテキ
スト中でいっそう重要である。中国語フレーズの長さの
3乗は、密度値に比例する。すなわち、中国語のフレー
ズ中の文字が多いほど、この中国語フレーズはテキスト
中において、いっそう重要である。しかし、もし中国語
フレーズが4つより多くの文字を含めば、フレーズの長
さは意味がない。従って、8バイトより多くのフレーズ
は8バイトとして処理される。さらに、中国語フレーズ
が第二参照文字を含めば、密度値はそれに応じて減る。
これは第二参照文字がときには形容詞または接続詞とし
て使われるからである。ステップS503において、未
だ処理されていない他の中国語フレーズがあるかどうか
が判定される。もしYESならば、本処理はS501に
戻り、次の中国語フレーズのため同じ計算を続ける。も
しNOならば、本処理は終了される。
【0021】処理600においては、ユーザによって指
定されたキーフレーズの数Nに基づいて、密度値の高い
順にN個の密度値を持ったフレーズが、キーワードとし
て設定される。処理600は中国語フレーズの密度値を
小さくなる順にソートするための作用を行う。高い密度
値を持ったフレーズほど、テキストにおいてより重要で
あることを表し、コンテキストの本質的な意味を示すに
足る重要性を持っている。さらに、重複したキーフレー
ズを阻止するため、重複したフレーズは除かれる。例え
ば、フレーズ”弁公室”の密度値が別のフレーズ”弁
公”の密度値より大きいならば、フレーズ”弁公室”と
フレーズ”弁公”がともにキーフレーズとして考慮され
ることを阻止するために、フレーズ”弁公”は除かれ
る。このようにして、高い密度値を持った順に、いくつ
かのフレーズがキーフレーズとして、選択され、スクリ
ーン上に表示される。これによって、ユーザはコンテキ
ストの本質的な意味を知ることが出来る。
【0022】次に、本発明の第一の実施例による作用を
さらに説明するため、処理作用の一例を述べる。テキス
トの一例が図8に示されている。このテキストはプロシ
ージャ200によって、システムメモリに読み込まれ
る。それから、図6に示されている第一参照文字と、フ
ルフォウント記号とハーフフォウント記号のような特殊
記号を用いて、処理200によって、全テキストがそれ
ぞれの文字列に分割される。上記処理によって抽出され
た文字列が図9に示されている。例えば、サンプルテキ
ストの最初、”我読了張教授写的海底世界以後、知道他
是一位研究魚類的専家”を分割するために本発明におけ
る分割作用は、第一参照文字、”我”、”了”、”
写”、”的”、”以”、”後”、”他”、”是”と特殊
フルフォウント記号”、”及び分割されたフレーズ、”
読”、”張教授”、”海底世界”,”知道”、”一位研
究魚類”、”専家”を抽出する。文字列”読”はただ一
つの文字を含んでいるだけなので、この文字列は除外さ
れる。その結果、文字列、”張教授”、”海底世
界”、”知道”、”一位研究魚類”、”専家”が得られ
る。続いて、結果として得られたこれらすべての文字列
が、再帰的方法によって互いに比較され、二つ以上の文
字を含む文字列が抽出される。これら抽出された文字列
は中国語フレーズと呼ばれ、図10に示されている中国
語フレーズデータ領域に格納される。この領域にはま
た、格納されている中国語フレーズに関する出現頻度、
フレーズの長さ、第二参照文字が記録されている。これ
らフレーズの密度値は密度値の上記計算規則に基づいて
導かれる。これらの値は図10の右端の列に示されてい
る。文字”張”と”小”は図7に示されている第二参照
文字であるので、これらの文字のどれか一つを含むフレ
ーズの密度値は2で割られる。フレーズ”小丑魚”と”
小丑”、および”灯籠”と”灯籠魚”はそれぞれ重複し
ているので、低い密度値を持った方のフレーズが除かれ
る。それから、残ったフレーズが密度値の小さくなる順
にソートされ、ソートされた結果は図11に示されてい
る。最後に、結果として得られたフレーズが表示装置に
示される。
【0023】<第二の実施例>図12は本発明に関わる
第二の実施例による中国語テレテキストの処理装置を示
すブロックダイアグラムである。図12に示されている
ように、テレテキストはデータラインを経て入出力手段
121に入力される。入力されたテレテキストはRAM
122(RandomAccess Memory)に
格納される。ROM123(Read Only Me
mory)は、第一の実施例で説明された処理演算を行
うためのプログラムを格納する。CPU(Centra
l Processing Unit)124はこのプ
ログラムを実行し、入力されたテレテキストを処理し、
プログラムの実行によって得られたキーフレーズを表示
手段125に出力する。
【0024】図面および対応する実施例は本発明を例示
するためにのみ用いられている。本発明は、添付された
請求項の範囲と精神の以内において、その詳細点は変化
しうるものである。例えば、第一の参照リストおよび第
二の参照リストに含まれている文字、そして密度値の計
算規則はテキストの特徴に応じて適当に変化しうるもの
である。
【図面の簡単な説明】
【図1】 本発明に関わる第一の実施例による中国語テ
レテキストの処理作用を示すブロックダイアグラムであ
る。
【図2】 本発明に関わる第一の実施例による、文分割
のための分割プロシージャを示すフローチャートであ
る。
【図3】 本発明に関わる第一の実施例による、文字列
計算プロシージャを示すフローチャートである。
【図4】 本発明に関わる第一の実施例による、中国語
フレーズのチェックプロシージャを示すフローチャート
である。
【図5】 本発明に関わる第一の実施例による、中国語
フレーズの密度値を求めるプロシージャを示すフローチ
ャートである。
【図6】 本発明に関わる第一の実施例において用いら
れる、第一参照リストに含まれる参照文字の例を示す。
【図7】 本発明に関わる第一の実施例において用いら
れる、第二参照リストに含まれる参照文字の例を示す。
【図8】 本発明に関わる第一の実施例において処理さ
れる、中国語テキストの一例を示す。
【図9】 図8に示されている中国語テキストを処理す
ることによって得られる文字列を示す。
【図10】 図8に示されている中国語テキストに関す
る、統計的データを示す。
【図11】 本発明に関わる第一の実施例によって図8
に示されている、中国語テキストから得られるキーフレ
ーズを示す。
【図12】 本発明に関わる第二の実施例による、中国
語テレテキストの処理装置を示すブロックダイアグラム
である。
【符号の説明】
100 テレテキスト入力 T100 第一の参照リスト 200 文を各文字列に分割するステップ 300 文字列を計算を行うステップ 400 中国語フレーズをチェックするステップ T200 第二の参照リスト D100 中国語フレーズデータ領域 500 中国語フレーズの密度値を導くステップ 600 キーフレーズを選択するステップ
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/28 G06F 15/20 596C 15/38 Q Fターム(参考) 5B009 QA05 QA12 RB02 VA02 VA09 VB11 VC04 5B020 AA20 BB02 GG22 5B075 KK07 KK33 ND03 ND23 NK02 NK13 NK24 NK32 PP30 PQ02 PR04 QM08 UU05 UU34 5B091 AA04 BA02 BA12 CA02 CB27 CD03 DA04 DA11

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ユーザがテレテキストの本質的な意味を
    把握することを援助するためにテレテキスト中のキーフ
    レーズを自動的に抽出する中国語テレテキスト処理方法
    であって、 中国語テキスト中の隣接文字と結合して極めて希にしか
    一つのフレーズを形成しない複数個の中国語文字をメモ
    リに格納し第一の参照リストを生成するステップ、 ときには接続詞として使われ、またときには中国語テキ
    スト中の一つの隣接文字と結合して一つのフレーズを形
    成する、複数個の中国語文字を、前記 メモリに格納
    し、第二の参照リストを生成するステップ、 テレテキストを入力するステップ 前記テレテキスト中の文を分割するため、特殊記号及び
    前記第一の参照リストに含まれる文字を分離基準として
    使用し、前記入力テレテキストをそれぞれの文字列に分
    割するステップ、 統計的方法に従って前記文字列に計算を行って、2個以
    上の中国語文字を含む文字列を中国語フレーズとして抽
    出し、この中国語フレーズを中国語フレーズデータ領域
    に格納するステップ、 前記第二参照リスト中の文字によって、前記中国語フレ
    ーズデータ領域に格納されている中国語フレーズをチェ
    ックし、前記中国語フレーズデータ領域から、意味を持
    つフレーズとしては不適当なフレーズを取り除くステッ
    プ、 中国語フレーズの頻度を計算する統計式、及び前記中国
    語フレーズ領域に格納されている各フレーズの文字数と
    第二の参照文字数を用いて、このフレーズの密度値、す
    なわちこのフレーズが前記テレテキストに出現している
    回数を示す頻度を求めるステップ、 相対的により高い密度値を持つ複数個のフレーズを、キ
    ーフレーズとして選択し、この選択したキーフレーズを
    表示するため出力するステップから成る方法。
  2. 【請求項2】 前記分割ステップにおいて用いられる特
    殊記号は句読点、外国語文字、テーブル記号、グラフ記
    号、矢印、及び中国語以外の任意の記号であることを特
    徴とする、請求項1記載の処理方法。
  3. 【請求項3】 前記文字列計算ステップが前記それぞれ
    の文字列を文字ごとに比較し、二つ以上の文字を含む、
    同一の文字列を、この比較結果として、前記中国語デー
    タ領域に格納することを特徴とする、請求項1記載の処
    理方法。
  4. 【請求項4】 前記中国語フレーズデータ領域が、さら
    に、前記文字列計算ステップにおいて得られる、前記そ
    れぞれの中国語フレーズの、出現頻度及び長さを含むこ
    とを特徴とする、請求項3記載の処理方法。
  5. 【請求項5】 前記キーフレーズ選択ステップが、前記
    中国語フレーズの密度値を、密度値の減少する順序にソ
    ートし、他の中国語フレーズと重複したフレーズを取り
    除くことを特徴とする、請求項1記載の処理方法。
  6. 【請求項6】 第一の参照リスト及び第二の参照リスト
    を格納するメモリであって、前記の第一の参照リスト
    は、中国語テキスト中の一つの隣接文字と結合して極め
    て希にしか一つのフレーズを形成しない複数個の中国語
    文字から成り、前記第二の参照リストは、ときには接続
    詞として使われ、またときには中国語テキスト中の一つ
    の隣接文字と結合して一つのフレーズを形成する複数個
    の中国語文字から成る、メモリ、 テレテキストを入力するための入力手段、 入力手段からテレテキストを入力し、 前記テレテキスト中の文を分割するため、特殊記号及び
    第一の参照リストに含まれる文字を分離基準として使用
    し、前記入力テレテキストをそれぞれの文字列に分割
    し、 統計的方法に従って前記文字列に計算を行って2個以上
    の中国語文字を含む文字列を中国語フレーズとして抽出
    し、この中国語フレーズを中国語フレーズデータ領域に
    格納し、 前記第二参照リスト中の文字によって、前記中国語フレ
    ーズデータ領域に格納されている中国語フレーズをチェ
    ックし、前記中国語フレーズデータ領域から、意味を持
    つフレーズとしては不適当なフレーズを取り除き、 中国語フレーズの頻度を計算する統計式、及び前記中国
    語フレーズ領域に格納されている各フレーズの文字数と
    第二の参照文字数を用いて、このフレーズの密度値、す
    なわちこのフレーズが前記テレテキストに出現している
    回数を示す頻度を求め、 相対的により高い密度値を持つ複数個のフレーズをキー
    フレーズとして選択し、この選択したキーフレーズを表
    示するため出力する、 処理を実行するためのプロセッサ、及び前記プロセッサ
    から出力されたキーフレーズを受け取り表示するための
    表示手段を備えたテレテキストの処理装置。
  7. 【請求項7】 前記分割ステップにおいて用いられる特
    殊記号は句読点、外国語文字、テーブル記号、グラフ記
    号、矢印、及び中国語以外の任意の記号であることを特
    徴とする、請求項6記載の処理装置。
  8. 【請求項8】 前記文字列計算ステップが前記それぞれ
    の文字列を文字ごとに比較し、二つ以上の文字を含む、
    同一の文字列を、この比較結果として、前記中国語デー
    タ領域に格納することを特徴とする、請求項6記載の処
    理装置。
  9. 【請求項9】 前記中国語フレーズデータ領域が、さら
    に、前記文字列計算ステップにおいて得られる、前記そ
    れぞれの中国語フレーズの、出現頻度及び長さを含むこ
    とを特徴とする請求項8記載の処理装置。
  10. 【請求項10】 前記キーフレーズ選択ステップが、前
    記中国語フレーズの密度値を、密度値の減少する順序に
    ソートし、他の中国語フレーズと重複したフレーズを取
    り除くことを特徴とする、請求項6記載の処理装置。
JP10302066A 1998-10-23 1998-10-23 中国語テレテキスト処理方法及び装置 Pending JP2000132560A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP10302066A JP2000132560A (ja) 1998-10-23 1998-10-23 中国語テレテキスト処理方法及び装置
SG1999005323A SG73679A1 (en) 1998-10-23 1999-10-21 Method and apparatus for processing chinese teletext
TW088118326A TW558681B (en) 1998-10-23 1999-10-22 Method and apparatus for processing Chinese teletext
US09/422,743 US6620207B1 (en) 1998-10-23 1999-10-22 Method and apparatus for processing chinese teletext
CNB991218906A CN1152337C (zh) 1998-10-23 1999-10-22 用于处理中文电传文件的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10302066A JP2000132560A (ja) 1998-10-23 1998-10-23 中国語テレテキスト処理方法及び装置

Publications (1)

Publication Number Publication Date
JP2000132560A true JP2000132560A (ja) 2000-05-12

Family

ID=17904511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10302066A Pending JP2000132560A (ja) 1998-10-23 1998-10-23 中国語テレテキスト処理方法及び装置

Country Status (5)

Country Link
US (1) US6620207B1 (ja)
JP (1) JP2000132560A (ja)
CN (1) CN1152337C (ja)
SG (1) SG73679A1 (ja)
TW (1) TW558681B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132547A (ja) * 2000-10-27 2002-05-10 Fuji Xerox Co Ltd 電子情報管理サーバ、電子情報管理クライアントおよび電子情報管理方法ならびに電子情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2003005233A1 (en) * 2001-07-02 2003-01-16 Intel Corporation Method and system for lexical acquisition and identifying word boundaries
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
TWI247276B (en) * 2004-03-23 2006-01-11 Delta Electronics Inc Method and system for inputting Chinese character
US7421385B2 (en) * 2004-04-16 2008-09-02 Taiwan Semiconductor Manufacturing Company, Ltd. Method and system of processing data that contain asian language characters
CN101207179B (zh) * 2006-12-19 2012-05-23 国际商业机器公司 存储器单元及其制造方法
US20100316498A1 (en) * 2008-02-22 2010-12-16 Horton, Inc. Fan manufacturing and assembly
CN101359330B (zh) * 2008-05-04 2015-05-06 索意互动(北京)信息技术有限公司 内容扩展的方法和系统
CN101315638B (zh) * 2008-05-28 2016-01-13 索意互动(北京)信息技术有限公司 添加专属扩展词的方法和系统
US9020807B2 (en) * 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
CN117312624B (zh) * 2023-11-30 2024-02-20 北京睿企信息科技有限公司 一种获取目标数据列表的数据处理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0724055B2 (ja) 1984-07-31 1995-03-15 株式会社日立製作所 単語分割処理方法
JPH04137167A (ja) 1990-09-28 1992-05-12 Nec Corp 連文節かな漢字変換方式
US5448474A (en) 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text
WO1998008169A1 (en) * 1996-08-22 1998-02-26 Lernout & Hauspie Speech Products N.V. Method and apparatus for breaking words in a stream of text
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JPH11136644A (ja) 1997-10-30 1999-05-21 Matsushita Electric Ind Co Ltd 中国語によるテレテキスト情報のアクセス装置および方法

Also Published As

Publication number Publication date
CN1152337C (zh) 2004-06-02
TW558681B (en) 2003-10-21
US6620207B1 (en) 2003-09-16
CN1252577A (zh) 2000-05-10
SG73679A1 (en) 2000-06-20

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JPH11203311A (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP4502114B2 (ja) データベース検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JPH0844771A (ja) 情報検索装置
JPH0773197A (ja) 異表記語辞書作成支援装置
JP4888677B2 (ja) 文書検索システム
JP3380034B2 (ja) 辞書編集装置
JPH06215035A (ja) テキスト検索装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP3531222B2 (ja) 類似文字列検索装置
JPH10124524A (ja) 文書検索装置及び文書検索方法
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH04262460A (ja) 情報検索装置
JP3161660B2 (ja) キーワード検索方法
JPH0954781A (ja) 文書検索システム
KR20000018924A (ko) 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치
JP2003263458A (ja) テキスト分析方法及び装置
JPH0721212A (ja) 文書処理装置