JP2002334071A - 言語的にインテリジェントなテキスト圧縮 - Google Patents
言語的にインテリジェントなテキスト圧縮Info
- Publication number
- JP2002334071A JP2002334071A JP2002019244A JP2002019244A JP2002334071A JP 2002334071 A JP2002334071 A JP 2002334071A JP 2002019244 A JP2002019244 A JP 2002019244A JP 2002019244 A JP2002019244 A JP 2002019244A JP 2002334071 A JP2002334071 A JP 2002334071A
- Authority
- JP
- Japan
- Prior art keywords
- compression
- attribute
- text
- text body
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Transfer Between Computers (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
圧縮を提供する。 【解決手段】 テキストプロセッサが、メッセージ中の
テキストを処理する。テキストプロセッサは、メッセー
ジ構成要素の複数の圧縮形を生成する。プロセッサは、
テキスト本文に対して言語分析を行って、テキスト本文
の言語構成要素を示す言語出力を得る。次いでプロセッ
サは、テキスト本文を圧縮するのに使用できる複数の圧
縮形を生成する。複数の圧縮形は、言語出力に基づいて
生成する。
Description
を有するデバイス上でのメッセージングに関する。より
詳細には、本発明は、テキストをより容易に小さな画面
上に表示できるように、言語的にインテリジェントな方
式でテキストを圧縮することに関する。
システム上で広く利用可能である。メッセージは、音声
メール、電子メール(eメール)、ページングを介し
て、また、その他のソースまたは手段から送信すること
ができる。さらに、様々なソースからのメッセージを統
合して、単一のデバイスに転送することもできる。例え
ば、コンピュータまたはコンピュータネットワークにお
いて、目下、音声メールおよび電子メールを介してメッ
セージを受信しているユーザが、このようなメッセージ
を受信する能力を備えたセルラーホンにこれらのメッセ
ージを転送することもできる。しかし、セルラーホンの
画面は、著しく限られた表示空間である。このことは、
メッセージを表示しようとする際に非常に大きな問題を
提示する可能性がある。
メールメッセージまたは文字化された音声メールメッセ
ージであっても、セルラーホンの単一画面上で見るには
大きすぎるテキストを提示する可能性がある。これによ
り、ユーザはしばしば、メッセージの最初のわずかな単
語から(それが表示できるすべてなので)メッセージ全
体を解読するか、メッセージ全体を見るためにテキスト
の多くの行を下にスクロールする必要がある。これらの
手法は双方とも煩わしく、エラーを引き起こす可能性が
ある。
テキストで用いられてきたが、このような圧縮の目的
は、主にテキストを効率的にデータ記憶できるようにす
ることであった。このような圧縮技法は、圧縮テキスト
を人間が解読しなければならないコンテキストには全く
適用不可能である。
メッセージ中のテキストを処理する。このテキストプロ
セッサは、メッセージ構成要素の複数の圧縮形を生成す
る。プロセッサは、テキスト本文に対して言語分析を行
って、テキスト本文の言語構成要素を示す言語出力を得
る。次いでプロセッサは、テキスト本文を圧縮するのに
使用できる複数の圧縮形を生成する。複数の圧縮形は、
言語出力に基づいて生成する。本発明は、圧縮形を生成
する方法および装置として実施することができる。
に基づくデータ構造を含む。このデータ構造は、テキス
ト本文の各部分の複数の圧縮形を示す属性を含む複数の
フィールドを備える。データ構造はまた、データ構造の
フィールドに含まれる属性のうちの少なくとも1つを生
成するのに使用される圧縮のタイプを示す圧縮タイプフ
ィールドを備えることもできる。
したコンピューティングシステム環境100の例を示
す。コンピューティングシステム環境100は、適した
コンピューティング環境の一例でしかなく、本発明の使
用または機能の範囲に関していかなる限定も示すもので
はない。コンピューティング環境100はまた、例示的
な動作環境100中に示したコンポーネントのいずれか
1つまたはそれらの組合せに関してどんな依存も要件も
有しないと解釈すべきである。
コンピューティングシステム環境または構成でも動作す
る。本発明と共に使用するのに適した、知られているコ
ンピューティングシステム、環境、および/または構成
としては、パーソナルコンピュータ、サーバコンピュー
タ、ハンドヘルドデバイスまたはラップトップデバイ
ス、マルチプロセッサシステム、マイクロプロセッサベ
ースのシステム、セットトップボックス、プログラム可
能な民生電子機器、ネットワークPC、ミニコンピュー
タ、メインフレームコンピュータ、以上のシステムまた
はデバイスのいずれかを含む分散コンピューティング環
境などが挙げられるが、これらに限定しない。
るプログラムモジュールなどのコンピュータ実行可能命
令の一般的なコンテキストで述べることができる。一般
にプログラムモジュールは、特定のタスクを実施するか
特定の抽象データ型を実装するルーチン、プログラム、
オブジェクト、コンポーネント、データ構造などを含
む。本発明はまた、通信ネットワークを介してリンクさ
れたリモート処理デバイスによってタスクが実行される
分散コンピューティング環境で実施することもできる。
分散コンピューティング環境では、プログラムモジュー
ルは、メモリ記憶デバイスを含めたローカルとリモート
の双方のコンピュータ記憶媒体中に位置することができ
る。
の例示的なシステムが、コンピュータ110の形をとる
汎用コンピューティングデバイスを含んでいる。コンピ
ュータ110のコンポーネントとしては、プロセッシン
グユニット120と、システムメモリ130と、システ
ムメモリを含めた様々なシステムコンポーネントをプロ
セッシングユニット120に結合するシステムバス12
1とを挙げることができるが、これらに限定しない。シ
ステムバス121は、様々なバスアーキテクチャのいず
れかを用いたメモリバスまたはメモリコントローラ、周
辺バス、およびローカルバスを含めた、いくつかのタイ
プのバス構造のいずれでもよい。限定ではなく例とし
て、このようなアーキテクチャには、ISA(Indu
stryStandard Architectur
e)バス、MCA(Micro Channel Ar
chitecture)バス、EISA(Enhanc
edISA)バス、VESA(Video Elect
ronics Standards Associat
ion)ローカルバス、およびメザニンバスとも呼ばれ
るPCI(Peripheral Component
Interconnect)バスが含まれる。
ータ可読媒体を備える。コンピュータ可読媒体は、コン
ピュータ110がアクセスできる任意の利用可能な媒体
とすることができ、揮発性媒体と不揮発性媒体、取り外
し可能媒体と取り外し不可能媒体の双方が含まれる。限
定ではなく、例として、コンピュータ可読媒体には、コ
ンピュータ記憶媒体および通信媒体を含めることができ
る。コンピュータ記憶媒体には、コンピュータ可読命
令、データ構造、プログラムモジュール、またはその他
データを含めた情報を記憶するための任意の方法または
技術で実装された揮発性媒体と不揮発性媒体、取り外し
可能媒体と取り外し不可能媒体の双方が含まれる。コン
ピュータ記憶媒体には、RAM、ROM、EEPRO
M、フラッシュメモリまたはその他のメモリ技術、CD
−ROM、ディジタル多用途ディスク(DVD)または
その他の光学ディスク記憶装置、磁気カセット、磁気テ
ープ、磁気ディスク記憶装置またはその他の磁気記憶デ
バイス、あるいは所望の情報を記憶するのに使用できコ
ンピュータ100がアクセスできるその他の媒体が含ま
れるが、これらに限定しない。通信媒体は通常、コンピ
ュータ可読命令、データ構造、プログラムモジュール、
またはその他のデータを、搬送WAVまたはその他のト
ランスポートメカニズムなどの変調されたデータ信号中
に組み入れており、任意の情報送達媒体が含まれる。
「変調されたデータ信号」という用語は、情報を信号に
エンコードするようにその1つまたは複数の特性が設定
または変更された信号を意味する。限定ではなく例とし
て、通信媒体には、ワイヤードネットワークまたは直接
ワイヤードネットワーク接続などのワイヤード媒体と、
音響、FR、赤外線などのワイヤレス媒体およびその他
のワイヤレス媒体が含まれる。以上のいずれかの組合せ
もまた、コンピュータ可読媒体の範囲内に含めるべきで
ある。
リ(ROM)131およびランダムアクセスメモリ(R
AM)132などの揮発性および/または不揮発性メモ
リの形をとるコンピュータ記憶媒体を含む。ROM13
1には通常、起動時などにコンピュータ110内の要素
間で情報を転送することを支援するBIOS(basi
c input/output system)133
が記憶されている。RAM132は通常、プロセッシン
グユニット120からすぐにアクセス可能であってプロ
セッシングユニット120が現在作用しているデータお
よび/またはプログラムモジュールを含む。限定ではな
く例として、図1には、オペレーティングシステム13
4、アプリケーションプログラム135、その他のプロ
グラムモジュール136、およびプログラムデータ13
7が示されている。
し可能/取外し不可能、かつ揮発性/不揮発性のコンピ
ュータ記憶媒体を備えることもできる。例示にすぎない
が、図1には、取外し不可能かつ不揮発性の磁気媒体に
対して読取りまたは書込みを行うハードディスクドライ
ブ141と、取外し可能かつ不揮発性の磁気ディスク1
52に対して読取りまたは書込みを行う磁気ディスクド
ライブ151と、CDROMやその他の光学媒体など取
外し可能かつ不揮発性の光学ディスク156に対して読
取りまたは書込みを行う光学ディスクドライブ155が
示されている。この例示的な動作環境で使用できるその
他の取外し可能/取外し不可能、かつ揮発性/不揮発性
のコンピュータ記憶媒体には、磁気テープカセット、フ
ラッシュメモリカード、ディジタル多用途ディスク、デ
ィジタルビデオテープ、固体RAM、固体ROMなどが
含まれるが、これらに限定しない。ハードディスクドラ
イブ141は通常、インタフェース140などの取外し
不可能メモリインタフェースを介してシステムバス12
1に接続され、磁気ディスクドライブ151および光学
ディスクドライブ155は通常、インタフェース150
などの取外し可能メモリインタフェースによってシステ
ムバス121に接続される。
それらに関連するコンピュータ記憶媒体は、コンピュー
タ可読命令、データ構造、プログラムモジュール、およ
びその他のデータの記憶域をコンピュータ110に提供
する。例えば図1では、ハードディスクドライブ141
は、オペレーティングシステム144、アプリケーショ
ンプログラム145、その他のプログラムモジュール1
46、およびプログラムデータ147を記憶しているも
のとして示されている。これらのコンポーネントは、オ
ペレーティングシステム134、アプリケーションプロ
グラム135、その他のプログラムモジュール136、
およびプログラムデータ137と同じものとすることも
異なるものとすることもできることに留意されたい。オ
ペレーティングシステム144、アプリケーションプロ
グラム145、その他のプログラムモジュール146、
およびプログラムデータ147は、これらが少なくとも
異なるコピーであることを示すために、ここでは異なる
番号を付けてある。
ン163、およびマウスやトラックボールやタッチパッ
ドなどのポインティングデバイス161など、入力デバ
イスを介してコンピュータ110にコマンドおよび情報
を入力することができる。他の入力デバイス(図示せ
ず)には、ジョイスティック、ゲームパッド、衛星受信
アンテナ、スキャナなどを含めることができる。これら
およびその他の入力デバイスは、システムバスに結合さ
れたユーザ入力インタフェース160を介してプロセッ
シングユニット120に接続されることが多いが、パラ
レルポート、ゲームポート、ユニバーサルシリアルバス
(USB)など他のインタフェースおよびバス構造によ
って接続することもできる。モニタ191または他のタ
イプの表示デバイスもまた、ビデオインタフェース19
0などのインタフェースを介してシステムバス121に
接続される。モニタに加えて、コンピュータはまた、ス
ピーカ197やプリンタ196など他の周辺出力デバイ
スを備えることもでき、これらは出力周辺インタフェー
ス195を介して接続することができる。
ータ180など1つまたは複数のリモートコンピュータ
への論理接続を用いてネットワーク化された環境で動作
することもできる。リモートコンピュータ180は、パ
ーソナルコンピュータ、ハンドヘルドデバイス、サー
バ、ルータ、ネットワークPC、ピアデバイス、または
他の一般的なネットワークノードとすることができ、通
常、コンピュータ110に関して上述した要素の多くま
たはすべてを備える。図1に示す論理接続はローカルエ
リアネットワーク(LAN)171およびワイドエリア
ネットワーク(WAN)173を含むが、他のネットワ
ークを含むこともできる。このようなネットワーク化環
境は、オフィス、企業全体のコンピュータネットワー
ク、イントラネット、およびインターネットでよくみら
れるものである。
ときは、コンピュータ110はネットワークインタフェ
ースまたはアダプタ170を介してLAN171に接続
される。WANネットワーキング環境で使用されるとき
は、コンピュータ110は通常、インターネットなどの
WAN173を介して通信を確立するためのモデム17
2またはその他の手段を備える。モデム172は、内蔵
でも外付けでもよく、ユーザ入力インタフェース160
または他の適切なメカニズムを介してシステムバス12
1に接続することができる。ネットワーク化された環境
では、コンピュータ110に関して示すプログラムモジ
ュールまたはその一部をリモートメモリ記憶デバイスに
記憶することができる。限定ではなく例として、図1に
は、リモートアプリケーションプログラム185がリモ
ートコンピュータ180上にあるものとして示してあ
る。図示のネットワーク接続は例示的なものであり、コ
ンピュータ間の通信リンクを確立するための他の手段を
使用することもできることを理解されたい。
ステム上で本発明を実施できることに留意されたい。た
だし、本発明は、サーバメッセージ処理専用のコンピュ
ータ、または分散システム上で実施することもでき、分
散システムの場合は、本発明の異なる各部分を分散処理
システムの異なる各部分で実施する。
いくつかのコンポーネントの例示的な一実施形態のブロ
ック図である。図2は、メッセージハンドラ200、コ
ンプレッサ202、およびターゲットデバイス205を
含む。メッセージハンドラ200は、例示的にメッセー
ジパーサ204、言語アナライザ206、およびテキス
ト圧縮コンポーネント208を含む。例示的な一実施形
態では、ターゲットデバイス205はセルラーホンまた
は画面の小さい他のデバイスであり、リンク210を介
してコンプレッサ202に接続される。リンク210
は、無線伝送部分を含んでも含んでいなくてもよいグロ
ーバルコンピュータネットワーク、または、ターゲット
デバイス205にメッセージを送信するのに適した他の
任意のリンクとすることができる。
ッセージ212を受け取る。メッセージ212は、ペー
ジングシステム、電子メール、音声メールなどを含めた
種々のソースのうちの1つからくるものとすることがで
きる。したがって、メッセージ212は例示的に、ヘッ
ダ、テキスト本文、および電子メールの場合は電子メー
ルスレッド中の以前のメッセージを含めた、種々の部分
を含む。パーサ204は、メッセージ212をその種々
の部分に解析する。パーサ204の動作は本発明に関係
しない。関係するのは、圧縮すべきメッセージ本文21
4またはその他のテキスト本文を識別してアナライザ2
06に提供することだけである。これは周知のどんな方
法で行ってもよく、本発明の一部を形成しない。したが
って、パーサ204については詳述しない。パーサ20
4はヘッダ情報および場合によっては以前のメールメッ
セージを除去し、メッセージ本文214を言語アナライ
ザ206に提供することができると言えば十分であろ
う。
14以外にも、他の任意の自然言語テキスト本文をアナ
ライザ206に提供することができることに留意された
い。例えば、テキスト本文は、サブジェクトヘッダ、タ
スク記述ヘッダ、ウェブページなどとすることもでき
る。ここでは、分析すべきテキストのほんの一例とし
て、メッセージ本文214に関して考察を進める。
ナライザ、形態アナライザ、および構文アナライザを含
む。語彙アナライザは、メッセージ本文214を受け取
り、それを単語(またはその他のトークン)に分割す
る。これは周知の方式で行う。形態アナライザは、形態
データベース(辞書など)にアクセスし、意味や品詞な
ど、各ワード(またはトークン)に関連する様々な情報
を得る。構文アナライザは、メッセージ本文214の構
文分析を行って、メッセージ本文中の各文ごとに構文解
析ツリー(または構文分析構造)を獲得し、この構造を
言語アナライザ206の出力として出力する。これもま
た周知の方式で行い、図3に関して簡単に示されてい
る。
語アナライザ206からの言語分析出力にアクセスし、
メッセージ本文214の構成要素について異なる複数の
任意選択の圧縮を生成する。例示的な一実施形態では、
テキスト圧縮コンポーネント208は、メッセージ本文
214中の各単語または句ごとに5つの属性を提供す
る。一般に、各属性は、分析中の各単語をより大胆に圧
縮したものを表す。例示的な一実施形態では、テキスト
圧縮コンポーネント208から出力されるデータ構造
は、以下の属性を含む。
のタイプの1つを示す。LongForm メッセージ
本文214に書かれている単語の形である。Short
Form ShortType属性によって識別される
圧縮規則または技法を適用した後の単語の形である。C
aseNormalizedForm ShortFo
rmの第1文字を大文字にして、残りの文字を小文字に
する。CompressedForm CaseNor
malizedFormの圧縮形であり、単語をさらに
圧縮するためにCaseNormalizedForm
に追加の圧縮規則を施す。
含むデータ構造が、圧縮XML出力216として出力さ
れ、コンプレッサコンポーネント202に提供される。
コンプレッサコンポーネント202は、例示的に、圧縮
出力216中の圧縮形のうちの1つを選択し、それをタ
ーゲットデバイス205に提供する。コンプレッサコン
ポーネント202は、例示的に、ターゲットデバイス2
05上で利用可能な画面空間または他の基準に基づいて
圧縮形を選択することができる。コンプレッサコンポー
ネント202は本発明の一部を形成しないことに留意さ
れたい。
ことのできる文の例示的な一実施形態である。この文
は、「You have a meeting wit
h Dr.John Epstein next Tu
esday at ten a.m.(あなたは次の火
曜日の午前10時にJohn Epstein先生と面
会する)」と書いてある。当然、メッセージ本文214
は語彙アナライザに提供され、語彙アナライザは、メッ
セージ本文を文および個々の単語(またはトークン)に
分割する。次いで形態アナライザが、各単語(またはト
ークン)のルックアップを行い、分析のために望まれる
品詞(会話部分)およびその他の可能な情報を識別す
る。したがって、以下の品詞によって単語が識別される
ことがわかる。
的な一実施形態では図3に示すような構文解析ツリーに
分析する。構文解析ツリー中の末端ノード(または葉ノ
ード)は、文中の単語を表し、末端以外のノードは、文
の各部分を識別する句またはその他の上位レベルの構文
単位を表す。図3に示す構文解析ツリー中では、指標
「S」は文ノードを表し、指標「NP」は名詞句を表
し、「VP」は動詞句を表し、「PP」は前置詞句を表
す。「next Tuesday」および「atten
a.m.」の上にある三角形は、単に、これらの句を
さらにノードに分析できるが簡単にするために省略され
ていることを示す。この構文解析ツリーは、この文が、
名詞句およびそれに続く動詞句、およびそれに続く他の
2つの構文構成要素(ここでは具体的に分析されていな
い)で形成されていることを示す。
示的に図3に示す文を、人間に解読できるように言語的
にインテリジェントな方式で圧縮する。このような圧縮
を行う際、いくつかの問題が生じる。例えば、テキスト
中のあるタイプの単語をすべて削除することが直感的な
こともある。例えば、テキスト中のすべての冠詞を削除
することが直感的なこともる。しかしこれは、英語では
うまくいく場合もあるが、他の言語ではうまくいかな
い。実際、これはすべてのロマンス諸語でさえ機能しな
い。例えば、「I made him eat it
(私は彼がそれを食べるようにした)」と翻訳されるフ
ランス語の句Je le lui aifait ma
ngerを考えてみる。接語代名詞「le」は、ちょう
ど男性不定冠詞「le」(「the」と翻訳される)の
ように見えることに留意されたい。したがって、すべて
の「冠詞」または単語「the」、および異なる言語に
おけるそれらの等価物が除去された場合、それにより、
異なる言語のいくつかの句の意味が劇的に変化すること
になる。
除去することが直感的に妥当と思われることもある。し
かし、メッセージ中に電子メールエイリアスまたはユニ
フォームリソースロケータ(URL)が設けられている
場合、スペースを除去すると、電子メールエイリアスま
たはURLがテキスト中のどこにあるか判別するのが非
常に困難になる。今日、記号に影響されやすいこのよう
な多くのテキストフラグメントが、メッセージ中で使用
されている。フラグメント中の記号が変更される場合、
フラグメント全体の意味は回復できないほどに失われ
る。例えば、句「Visit http://micr
osoft.com for informatio
n」を考えてみる。これが「visithttp://
microsoft.comforinfo」に短縮さ
れると、テキストフラグメント中のどこでURLが終わ
るのかを決定するのが非常に困難である。
ジェントでない一様な手法をとらない。本発明の圧縮
は、そうではなく、アナライザ206によって行われる
言語分析に基づいている。
をもう少し詳細に示したフローチャートである。最初
に、メッセージハンドラ200はメッセージ212を受
け取る。これをブロック218で示す。パーサ204
が、メッセージ212中のメッセージ本文を突き止め、
メッセージ本文214をアナライザ206に渡す。これ
をブロック220で示す。アナライザ226は、メッセ
ージ214を文に分割する。これをブロック222で示
す。次いで、アナライザ206の語彙アナライザコンポ
ーネントが、テキスト本文の語彙分析を行い、文を単
語、数字、および句読記号などのトークンに分割する。
トークンはまた、「along with」や「by
means of」のような複数単語の表現など、2つ
以上の単語からなるものとすることもできる。これをブ
ロック224で示す。次いで、言語アナライザ206中
の形態アナライザが形態分析を行い、したがって、各ト
ークンに対応する品詞およびその他の関連情報を突き止
める。これをブロック226で示す。次いで、構文アナ
ライザが構文分析を行い、例示的な一実施形態では構文
解析ツリーを提供する。これをブロック228で示す。
8が、アナライザ206から提供された分析の中の各ノ
ードを再帰的に調べ、可能性ある圧縮オプションが利用
可能かどうかを判定する。これをブロック230で示
す。分析の中のノードを調べ終わり、様々な圧縮オプシ
ョンを識別すると、例えばXML出力216として圧縮
オプションを出力する。これをブロック232で示す。
次いで、コンプレッサ202が、単純に各単語(または
トークン)ごとにオプションのうちの1つを選択し、メ
ッセージを圧縮形でターゲットデバイス205に提供す
る。
本文214の各部分に対して可能性ある圧縮オプション
を生成する際のテキスト圧縮オプション208の動作を
より詳細に示す。図5および図6は、アナライザ206
からの分析出力の中の末端ノード(または葉ノード)に
対する可能性ある圧縮オプションを生成する際のテキス
ト圧縮コンポーネント208の動作を具体的に示してい
る。言い換えれば、図5および図6には、メッセージ本
文の句またはより大きなフラグメントを表す場合のある
末端以外のノードとは対照的に、可能性ある圧縮のため
のテキストメッセージ中の各ワード(またはトークン)
の処理が示してある。
長い形は、テキスト本文に書かれたトークンの形である
ことを想起されたい。これを図5のブロック234で示
す。この長い形を、圧縮出力216として提供されたデ
ータ構造中に出力される属性として保存する。これをブ
ロック236で示す。
保存する。ShortType属性は、長い形のトーク
ンに適用される圧縮規則の具体的なタイプを示す属性で
あることを想起されたい。これをブロック238で示
す。以下に、本発明の一実施形態による様々なShor
tType属性をより広く論じる。
識別される圧縮規則を用いて分析中のノード全体を削除
すべきかどうかを決定する。例えば、いくつかのノード
は、あらゆる状況で削除することになる。英語の冠詞
(ShortType属性「Articles」を有す
る)は、常に省略することができる。このような冠詞に
は、例えばa、the、those、およびthese
が含まれる。挨拶は、ShortType属性「Gre
eting」を有し、これらもまたブロック240で特
別処理する。挨拶(Dear Bob、Hi、Hi B
obなど)は、すべて削除することができる。ノードを
あらゆる状況で削除すべきかどうか決定することを、ブ
ロック240で示す。そうである場合は、ブロック23
8に示すように、ShortType属性を「Arti
cles」(または適切な属性なら何でも)に設定し、
ShortForm、CaseNormalizedF
orm、およびCompressedFormの属性を
すべてヌルの値に設定する。これをブロック242に示
す。
べきではないと決定した場合は、その他の特別処理をこ
のノードに対して行うべきかどうかを決定する。これを
ブロック244で示す。このような特別処理は、様々な
形で行われる可能性がある。次に、これらの形のいくつ
かについて論じる。
「Adjective」を有する)は、特別処理され
る。これらには、which、who、whatなど、
「wh」で始まる単語が含まれる。これらの形容詞につ
いて、以下により詳細に論じる。
関して先に論じた。英語の冠詞は、あらゆる状況で省略
することができる。しかし、他の言語の冠詞は特別処理
が必要な場合がある。例えば、ドイツ語の定冠詞は、あ
らゆる状況で省略することができる。しかし、不定冠詞
は、あいまいなので保留される(同じ形が「a」または
「one」の意味になり得るため)。スペイン語および
フランス語の定冠詞は削除されるが、同じ綴りの接語代
名詞は削除されない。スペイン語およびフランス語の不
定冠詞は、あいまいなので保留される(同じ形が「a」
または「one」の意味になり得るため)。
erbs」を有し、「wh」単語として分類されるもの
(why、how、whenなど)は、どんな仕方でも
圧縮されない。これらについては後で論じる。その他の
副詞は、文字削減(母音削除、子音削除、またはその双
方)がなされるが、これもまた後でより詳細に論じる。
ny」を有し、これらもまた特別処理される。社名タイ
プは削除される。例えば、「Microsoft Co
rporation」は、単に「Microsoft」
に変換することができる。短縮された形は、後で論じる
ように文字削減および大文字/小文字標準化を受ける。
nj」を有し、これらもまた特別処理される。例えば、
英語の接続詞「and」、フランス語の「et」、およ
びドイツ語の「und」には、アンパサンド符号が取っ
て代わる。スペイン語の「y/e」は、すでに1語なの
で短縮されない。その他の接続詞はすべてそのままであ
り、後の処理ステップを受ける。
別処理される。絶対的な日付および時間は、Short
Type「Dates」で指定され、以下のようにして
処理される。あらゆる言語において、単独で月がある場
合、長い月名は短い形(short form)に変換
される。最後にピリオドの付いた短い月名では、ピリオ
ドは除去される。得られる短い形には、母音圧縮や大文
字/小文字標準化などは行われない。例えば、「let
s meet in November(11月に会い
ましょう)」という句では、Novemberは「No
v」に短縮される。同様に、「lets meet i
n Nov.」という句では、Novemberの省略
形が「Nov」に変換される(すなわち後に付くピリオ
ドが取り去られる)。
(および年)は、短い月名だけとする。例えば、「20
01」が現在の年である場合に、語「November
2001」は単に「Nov」に短縮される。
合は、数字の月および分離符号および数字の年に変換さ
れる。例えば、「Nov 2002」は、「11/20
02」(英語およびフランス語の場合)、または「1
1.2002」(他のヨーロッパ言語の場合)に変換さ
れる。
な日付は、月/日/年の数字フォーマットに標準化され
る。他の言語の日付は、それらのフォーマットに標準化
される(例えば日本語では常に、年−月−日のフォーマ
ットが使用される)。英語およびフランス語ではフォワ
ードスラッシュマークが分離符号として使用されるが、
スペイン語およびドイツ語ではピリオドが分離符号とし
て使用される。
年に2000を足した数が「今日」の年と等しい場合は
省略される。例えば、23 July,2001は7/
23に変換される。さらに、Monday 23 Ju
lyも7/23に変換される。
た特別処理を受ける。midnightもまた、Sho
rtType「Dates」で指定され、この短い形は
「12am」である。よくある連語「12 midni
ght」もまた、短い形「12am」を有するが、これ
は出力「12 12am」を回避するための特別な場合
である。
る。例えば、語「December5th−9th」
は、「12/5−9」に変換される。また、日付範囲
「December 5th−9th,2002」は
「12/5−9/2002」に変換される。
らにはShortType「OffsetDate」が
与えられる。「next Wednesday」などの
語がテキスト中で識別された場合は、そのメッセージが
送信された(または書かれた)日付が取得され、オフセ
ット日付「next Wednesday」が変形され
る。したがって、メッセージが12月1日の金曜日に送
信された場合、「next Wednesday」が言
及するのは12月6日ということになる。したがって、
語「next Wednesday」は「12/6」に
変換される。
s」が与えられる。あらゆる言語で、絶対的な日付に確
実に変換できない独立した曜日は、それらの曜日の短い
形に変形される。最後にピリオドの付いた短い曜日名
は、ピリオドが取り去られる。得られる短い形には、母
音圧縮や大文字/小文字標準化などは行われない。例え
ば、「lets meet on Monday(月曜
日に会いましょう)」という句では、語「Monda
y」は「Mon」に変換される。
た、特別処理を受ける。電子メールエイリアスおよびU
RLは、大文字/小文字標準化も母音除去もされずにそ
のまま維持される。電子メールには、ShortTyp
e「Email」が与えられ、URLにはShortT
ype「URL」が与えられる。
one」が与えられ、これらの中から句読点が除去され
る。例えば、語「call me at(425)70
3−7371((425)703−7371にかけて私
に電話をください)」の中の電話番号は、単に「425
7037371」に変換される。
eo」が与えられ、これらには従来の省略形が取って代
わる。例えば、「Washington」には「WA」
が取って代わり、「Alabama」には「AL」が取
って代わり、その他同様となる。
「NotLanguage」が与えられ、言語圧縮は行
われない。このようなものの例には、以下のものが挙げ
られる。
らにはShortType「Number」が与えられ
る。綴り字の数字には、アラビア数字が取って代わる。
例えば、英語の句「one thousand fou
r hundred twenty−five」には、
「1425」が取って代わる。例示的に、千の位の間に
分離符号は使用されていない。
らにはShortType「Dollars」が与えら
れる。千は語「K」で置換される。100万は語「M」
で置換され、10億は「B」で置換される。例えば、$
100000は$100Kに、$123000000は
$123Mに、$2000000000は$2Bに変換
される。また、これらの短い形は、後で述べる大文字/
小文字標準化を受けない。
される。例えば、$2250000000は$2.25
Bに変換される。また、通貨指示詞が後に続く数量は、
数と共に、その通貨に対する一般的な記号に標準化され
る。例えば、「one hundred dollar
s」は「$100」に変換される。語「57pound
s」は「#57」に変換される。「500Franc
s」は「500Fr」に変換され、その他同様となる。
hortType「PrprN」が与えられる。ドイツ
語以外の言語では、複数の部分からなる固有名詞は、可
能なら単に第1の姓に凝縮される。例えば、「Dr.M
ary Smith」は「Smith」に変換される。
1の部分に凝縮されることに留意されたい(例えば「C
ardoso de Campos」は「Cardos
o」に短縮される)。例示的な一実施形態では、固有名
詞にも母音除去は行われない。
あるかどうか辞書ルックアップを受ける。例えば、固有
名詞「Patrick」には「Pat」が取って代わる
ことができる。名前「William」には「Wil
l」が取って代わることができ、その他同様である。さ
らに、名前および最後の頭文字がある場合は、単に名前
だけに短縮される。
多くの単語が大文字になるので、この言語では固有名詞
はより厄介である。したがってドイツ語では、固有名詞
は、限定詞が前にある場合は圧縮されない。
hortType「Possessive」が与えられ
る。英語では、「′s」および「s′」の接語が付いた
所有格は、アポストロフィなしで書き直すことができ
る。例えば、語「John′shouse」は「Joh
ns house」と書くことができる。同様に、「d
og′s tails」は「dogs tails」と
書くことができる。
これらにはShortType「Preps」が与えら
れる。例えば英語では、いくつかの前置詞がルックアッ
プテーブルを通して要約される。例えば、「throu
gh」は「thru」に要約することができる。単語
「at」は「@」に要約することができる。ある状況で
は、語「to」および「for」もまた、「2」および
「4」に要約することができる。これらは、略さずに綴
られた数詞または数字であって、可能性ある数字置換形
を有する数詞または数字に隣接していない場合に限り、
このような形で要約される。例えば、「I want
to leave(私は出発したい)」という句では、
語「to」に数字「2」が取って代わる。しかし、「I
havebeen to two good mov
ies lately(私は最近よい映画を2本観に行
った)」という句では、語「to」は数字「2」に変化
しない。そうすると、話者がよい映画を22本観たとい
う誤解が生じる可能性があるからである。
これらにはShortType「Pronouns」が
与えられる。英語では、代名詞「you」には「U」が
取って代わる。他のすべての代名詞は同じままであり、
母音除去されない。スペイン語では、代名詞「Uste
d」には「Ud」が取って代わり、「Ustedes」
には「Uds」が取って代わる。ドイツ語では、「ei
n」(および屈折)を含む代名詞は、数字「1」を使用
して要約される。
tType「Punctuation」が与えられる。
文の分離符号でもなく、電子メールエイリアスまたはU
RLの中に現れたのでもない句読点は、削除される。不
可欠な句読点には、ShortType「Essent
ialPunct」が与えられる。あらゆる言語で、以
下の文字は削除されない。すなわち、
のみ使用される特別な小円記号もまた削除されない。セ
ミコロンおよびピリオドは、文の最後の句読点でない場
合に限って削除される。他のすべての文字は、None
ssentialPunctuation(後述する)
とマークされる。
なりは、最初の文字に短縮される。したがって、「Ar
e these things removed?!?
(除去されたものがあるか?!?)」のような句では、
最後の句読点は単に「?」に短縮される。
てディジットになる場合のあるものの間に現れる句読点
は維持される。例えば、「I bought 3 in
1976 and in 1977,100(私は1
976年に3個買い、1977年に100個買った)」
という句では、1977の後のコンマは維持される(ま
たは任意選択でスペースが維持される)。これは、19
77100に圧縮されるのを避け、そうではなく「19
77,100」または「1977 100」に圧縮され
るようにするためである。
チ)およびfoot/feet(フィート)の測定値の
句は、適切なら″または′に変換される。
理を受け、これらにはShortType「Nones
sentialPunct」が与えられる。類事実(電
子メールアドレス、URL、数字範囲など)の中の句読
点は、そのまま残る。このような類事実の中にあるので
はない句読点は、EssentialPunctと、接
続詞として現れた句読点(例えば節を分離するためのセ
ミコロン)とを除いては、削除することができる。
れらにはShortType「Verbs」が与えられ
る。このような動詞は、辞書ルックアップの対象であ
る。例えば、単語「are」には文字「R」が取って代
わり、単語「be」には「B」が取って代わることがで
きる。そうでない場合は、動詞は単に、後で述べる文字
削減および大文字/小文字標準化を受ける。
一方は、ShortType「WordSubstit
ution」が与えられ、単語置換を含むものであり、
他方は、先に論じた「wh」単語の処理である。これら
のタイプの特別処理については、後で説明の中でより詳
細に考察する。
進める。図5のブロック244で、これらの特別処理ケ
ースをどれも行わない場合は、分析中の単語に関連する
ShortForm属性を、単にLongForm属性
(テキスト中に書かれた単語の形)に設定する。これを
ブロック246で示す。
と判定した場合は、次に、特別処理が単語置換かどうか
を判定する。単語置換は、しばしば辞書ルックアップに
基づいて単純に行う。単語置換は、例えば別の単語また
は句にあたる頭字語を得るために行うことができる。例
えば英語では、「as soon as possib
le」という句は「ASAP」で置換することができ
る。
単語置換をテキスト中の単語に対して行って、Shor
tForm属性を得る。これをブロック250で示す。
単語置換が成功した場合は、CaseNormaliz
edForm(CNF)属性とCompressedF
orm(Comp)属性の双方を、このときにShor
tForm属性にみられるのと同じ形に設定する。これ
により、文字削減や大文字/小文字標準化などの後続処
理からその単語が除かれる。これをブロック252で示
す。したがって、単語置換プロセスを用いて、他の厄介
な状況も回避することができる。例えばドイツ語では、
代名詞「sich」は、よくある卑猥な言葉の省略形を
もたらす後続の母音削除を回避するために、(単語置換
により)「sich」のままにしておく必要がある可能
性がある。特別処理が単語置換であるかどうか判定する
ことを、ブロック248に示す。
別処理が単語置換ではないと判定した場合は、ブロック
254で、行う特別処理が前述の「wh」単語に関連す
る処理かどうか判定する。そうである場合は、「wh」
単語は短縮されないことを想起されたい。この場合、残
りのすべての属性(ShortForm、CaseNo
rmalizedForm、およびCompresse
dForm)は、LongFormに設定する。これを
ブロック256で示す。
「wh」単語に関連する処理ではないと判定された場合
は、前述の特別処理操作のうちの他の1つでなければな
らない。この場合、その特定の特別処理ステップを行っ
てShortForm属性を獲得し、それを保存する。
これをブロック258で示す。
を得た後で、ShortForm属性をスペース除去に
かける。最初に、スペース除去を行うべきかどうかを決
定する。これをブロック260で示す。行うべきである
場合は、短い形を以下のプロシージャ中に述べるような
スペース除去アルゴリズムにかける。
ドレスなどの前にあるスペースは除去されず、これらの
後に続くスペースも除去されないことを示している。し
かし、叙述がなされる可能性のあるその他の場合では、
スペースはShortForm属性から除去されること
になる。これをブロック262で示す。
かを判定する。これをブロック264で示す。例えば、
URLおよび電子メール、ならびに大文字/小文字の影
響を受けやすいその他のものの中では、大文字/小文字
標準化は望ましくない場合があることを理解されたい。
このような場合は、ブロック266で示すように、Ca
seNormalizedForm属性をShortF
orm属性に設定する。しかし、大文字/小文字標準化
が行われる場合は、ShortForm属性の各単語の
第1文字(トークンは複数の単語からなる可能性がある
ことを想起されたい)を大文字にし、これをCaseN
ormalizedForm属性として保存する。これ
をブロック268で示す。
る。これをブロック270で示す。例えば、上述したい
くつかの特別処理の場合では、母音除去は行わない(英
語の代名詞、「wh」単語、固有名詞や、Mon、Tu
esなどの日付のShortFormなど)。同様に、
頭文字、電子メールアドレス、URLなどからも、母音
または子音は除去しない。
ク272で示すように、CompressedForm
属性をCaseNormalizedFormに設定す
る。しかし、さらに圧縮を行う場合は、CaseNor
malizedFormに文字削減を施す(母音および
子音の除去など)。
語の最初にあるのでも最後にあるのでもない単一母音ま
たは一連の母音を意味する。英語では、すべての語中母
音は除去される。
まず子音群の簡略化規則が適用される。例えば、子音群
「sch」は、指小接尾辞−schenの中以外では
「sh」に簡略化される。子音群「ck」もまた、
「k」に簡略化される。
音の−1で置換される。ドイツ語には、−einで終わ
るが数字の1と同じ発音ではない単語がいくつかある。
このような単語のいくつかの例を以下に挙げる。
in、Fluoreszein、Hussein、Ka
ffein、Kasein、Kleberprotei
n、Kodein、Lutein、Movein、Nu
klein、Nuclein、Olein、Pheno
lphtalein、Phtalein、Protei
n、Pygmaein、Talein、Tein、Th
ein、Zein、Zygstein また、後続の単語が数字、日付、時間など(ディジット
で始まる場合のある何らかのもの)である場合も、「e
in」置換は行われないことに留意されたい。
単語の中では、母音は削除されない。2つ以上の語中母
音を含む単語の場合は、2番目の語中母音ごとに削除さ
れる。子音と語尾「ng」との間の文字「u」は削除さ
れる。まだ残っている「ie」がある場合は、「i」に
変換される。最後に、文字「e」は、子音に続き、かつ
語尾「l、m、n、またはr」の前にある場合は、削除
される。母音は、文字sに続き、かつ群chの前にある
場合は、削除されないことに留意されたい。削除される
と、schという連続になり、ドイツ語の読み手はこれ
を1つの子音の始めと解釈する傾向が非常に強いからで
ある。この考察では、母音には通常、aeiouが含ま
れ、いくつかの言語ではyも含まれ、またアクセント、
ウムラウト、およびその他の発音区別符号が付いたすべ
ての形が含まれる。英語、ドイツ語、フランス語、およ
びスペイン語に対する十分なリストを以下に挙げる。
イン語では、子音には以下のものが含まれる。
することができる。
音除去や子音除去など)が行われると、Compres
sedForm属性が得られ、保存される。これをブロ
ック276で示す。最後に、可能性ある圧縮オプション
として5つの属性すべてを出力することができる。これ
をブロック278で示す。
ードレベルでも圧縮を行うことができることにも留意さ
れたい。一実施形態では、構文分析に基づいて句全体を
削除する。例えば、「While I was stu
ck on the freeway,I remem
bered to ask you to sendm
e the contact information
for Dr.Mary Smith.(フリーウェ
イで立ち往生している間に、Mary Smith先生
に関するコンタクト情報を送ってくれるようにあなたに
頼むことを思い出した。)という文を考えてみる。この
例では、文頭の従属節全体を削除することができる。言
い換えれば、構文分析によってこれが従属節であること
が示され、従属接続詞「while」によってこれが時
を表す副詞節であることが示される。したがって、この
フレーズ全体を単純に削除して、「I remembe
red to ask you to send me
the contact information
for Dr.Mary Smith.」という文を得
ることができる。1998年12月24日に出願された
SYSTEM FOR IMPROVING THE
PERFORMANCE OF INFORMATIO
N IDENTIFYING CLAUSES HAV
ING PREDETERMINED CHARACT
ERISTICSという名称の特許出願第_09/22
0836号に、従属節の識別、およびそれらの節が比較
的重要な題材を含んでいるかどうかの識別に関する追加
情報が提供されている。
別の例は、発話行為動詞に関するものである。発話行為
動詞は、言語学で「補語をとる述語」と呼ばれるサブク
ラスである。英語では、以下の文にあいまいさが示され
る。
was arriving next Wednesd
ay.」ある読み方では、単語「he」は「John」
と同一指示的である。別の読み方では、「he」は他の
誰かである可能性がある。以下のように、出力を入力よ
りいくらかでもあいまいにすることなく、この文のいく
つかの要素を削除することができる。
「said」の主語である「John」)が従属節の代
名詞主語(he)と同一指示的であるかもしれない場合
に、形態ルックアップからわかるようにこれらが双方と
も男性であることに注意することによって、または同一
指示性を決定するためのより複雑な意味論分析を用いる
ことによって、同一指示的であることが決定できる場合
は、従属節中の代名詞は削除することができる。従属接
続詞「that」もまた削除でき、以下のようになるこ
とに留意されたい。
ving next Wednesday」従属節の主
語は、それが代名詞であって、かつ主節の主語と同一指
示的であるときだけ削除するように注意しなければなら
ないことに留意されたい。例えば、以下の場合は削除す
べきではない。
was arriving... John said that Bill was a
rriving... John sain that they were
arriving...
を続けるのが有用であろう。先に述べたように、分析に
おける各ノードを再帰的に調べて、圧縮が達成できるか
どうかを判定する。したがって、最初に文ノード(S)
を調べる。この時点では圧縮を行うことはできず、した
がって処理はより深い分析に進み、名詞句ノード300
を調べる。このレベルでは圧縮を行うことはできず、し
たがって、処理はより深く代名詞ノード302に進む。
代名詞は「you」であることがわかる。したがって、
特別処理の規定により、これを「U」に変換することが
できる。この結果、以下の属性が得られる。
継続する。このレベルでは圧縮を行うことはできないこ
とがわかり、したがって動詞ノード306を調べる。語
「have」を、単純に図5および図6に示すフローチ
ャート中を通し、大文字/小文字標準化および母音除去
を施して、語「Hve」が得られる。これにより、以下
の属性が得られる(下線は前にあるスペースを表す)。
ベルでは圧縮を行うことはできないことがわかる。した
がって、検査はノード310に進み、図5のブロック2
40で冠詞「a」を削除する。これにより以下のように
なる。
施し、これにより以下の5つの属性が得られる。
itution LongForm=_meeting ShortForm=Mtg CNF=Mtg Comp.=Mtg
が、このレベルでは圧縮を行うことはできないと判定さ
れる。したがって、前置詞ノード316を調べる。処理
は図5および図6のフローチャート中を移動し、大文字
/小文字標準化および母音除去を行って、以下の5つの
属性が得られる。
このノードでは、PrprNのShortTypeを用
いて3つの単語「Dr.John Epstein」を
圧縮できることがわかる。これにより、以下の5つの属
性が得られる。
n ShortForm=_Epstein CNF=Epstein Comp.=Epstein
オフセット日付を表していることがわかる。図5および
図6に示すフローチャートを通してこれを分析し、以下
の5つの属性が得られる。
ドでは圧縮を行うことはできないと判定される。したが
って、前置詞ノード324を調べる。図5および図6に
示す処理を通して、語「at」が「@」に対する単語置
換の対象であることに気付く。これにより、以下の5つ
の属性が得られる。
itution LongForm=_at ShortForm=@ CNF=@ Comp.=@
圧縮は、綴り字の語「ten」に数字「10」が取って
代わることだけであり、これにより5つの属性が得られ
る。
ータ構造中に示した様々な圧縮オプションの中から自由
に選りすぐって、最終的な出力であるテキスト圧縮バー
ジョンを提供する。これは、ターゲットデバイス205
上の表示画面のサイズが著しく限られている場合は非常
に大胆に行うことができ、例えば表示空間のより大きい
パームトップコンピュータの場合は、より低い大胆さで
行うことができる。したがって、最も大胆な圧縮は以下
のようになる。
/3@10am
ことが可能かつ解読可能なテキストメッセージであり、
それでもなお、図3に述べた原形に勝って多くの空間を
節約する。
をもたらすことができ、それでもなお、圧縮は、人間が
容易に解読できるような言語的に非常にインテリジェン
トな方式で行われることがわかる。本発明はまた、個々
の単語および句ごとに異なる複数の圧縮オプションを提
供し、これらは多くの場合、大胆さの様々な度合いを反
映する。このことは、最終的にターゲットデバイス中で
最良の圧縮シーケンスを選択しなければならないダウン
ストリームコンポーネントにとって非常に有用である。
が、本発明の趣旨および範囲を逸脱することなく形式お
よび詳細に変更を加えることができることを当業者なら
理解するであろう。
ロック図である。
のメッセージハンドラのブロック図である。
である。
チャートである。
句読点)に対する圧縮オプションを生成する際の、図2
に示したシステムの動作を示すより詳細なフローチャー
トである。
句読点)に対する圧縮オプションを生成する際の、図2
に示したシステムの動作を示すより詳細なフローチャー
トである。
ス 141 ハードディスクドライブ 144 オペレーティングシステム 145 アプリケーションプログラム 146 その他のプログラムモジュール 147 プログラムデータ 150 取外し可能かつ不揮発性メモリインタフェース 151 磁気ディスクドライブ 152 磁気ディスク 155 光学ディスクドライブ 156 光学ディスク 160 ユーザ入力インタフェース 161 ポインティングデバイス 162 キーボード 163 マイクロホン 170 ネットワークインタフェース 171 ローカルエリアネットワーク 172 モデム 173 ワイドエリアネットワーク 180 リモートコンピュータ 185 リモートアプリケーションプログラム 190 ビデオインタフェース 191 モニタ 195 出力周辺インタフェース 196 プリンタ 197 スピーカ 200 メッセージハンドラ 202 コンプレッサ 204 メッセージパーサ 205 ターゲットデバイス 206 言語アナライザ 208 テキスト圧縮コンポーネント 210 リンク 212 メッセージ 214 メッセージ本文 216 圧縮済みXML出力 300、302、304、306、308、310、3
12、314、316、318、320、322、32
4、326 ノード
Claims (20)
- 【請求項1】 テキスト本文を処理して圧縮オプション
を生成する方法であって、 テキスト本文に対して言語分析を行って、テキスト本文
の言語構成要素を示す言語出力を取得し、 前記言語出力に基づいて、テキスト本文を圧縮するため
の複数の圧縮オプションを生成することを含むことを特
徴とする方法。 - 【請求項2】 前記複数の圧縮オプションを生成する処
理では、テキスト本文の一部に様々な圧縮規則セットを
当てはめて、複数の圧縮オプションを取得することを特
徴とする請求項1に記載の方法。 - 【請求項3】 前記テキスト本文に様々な圧縮規則セッ
トを当てはめる処理では、圧縮オプションがテキスト本
文の同じ部分の様々な圧縮程度を反映するように、テキ
スト本文の一部に所定の順序で異なる圧縮規則セットを
当てはめることを特徴とする請求項2に記載の方法。 - 【請求項4】 前記複数の圧縮オプションを生成する処
理では、テキスト本文の一部に当てはめられる圧縮規則
セットのうちの少なくとも1つを示す圧縮識別子属性を
生成することを特徴とする請求項4に記載の方法。 - 【請求項5】 前記複数の圧縮オプションを生成する処
理では、圧縮規則セット適用後のテキスト本文の一部の
圧縮形を示すShortForm属性を生成することを
特徴とする請求項4に記載の方法。 - 【請求項6】 前記複数の圧縮オプションを生成する処
理では、ShortForm属性に基づいて、Shor
tForm属性のCaseNormalizedFor
mを示す大文字/小文字標準化済み属性を生成すること
を特徴とする請求項5に記載の方法。 - 【請求項7】 前記複数の圧縮オプションを生成する処
理では、大文字/小文字標準化済み属性をさらに圧縮し
た形を示す圧縮属性を生成することを特徴とする請求項
6に記載の方法。 - 【請求項8】 前記圧縮属性を生成する処理では、大文
字/小文字標準化済み属性に文字除去規則を適用して、
CaseNormalizedForm中の文字の所定
位置に基づいて文字を除去することを特徴とする請求項
7に記載の方法。 - 【請求項9】 前記複数の圧縮オプションを生成する処
理では、テキスト本文の一部のほとんど圧縮されない形
を反映するLongForm属性を生成することを特徴
とする請求項8に記載の方法。 - 【請求項10】 前記ShortForm属性が、辞書
ルックアップに基づく単語置換形を含み、複数の圧縮オ
プションを生成する処理では、大文字/小文字標準化済
み属性および圧縮属性をShortForm属性に設定
することを特徴とする請求項9に記載の方法。 - 【請求項11】 前記言語分析を行う処理では、テキス
ト本文の一部に対して構文分析を行い、前記Short
Form属性を生成する処理では、構文分析に基づいて
圧縮規則セットを適用することを特徴とする請求項5に
記載の方法。 - 【請求項12】 前記言語分析では、さらに、構文分析
を行う前に、テキスト本文に対して語彙分析を行い、お
よびテキスト本文に対して形態分析を行うことを特徴と
する請求項11に記載の方法。 - 【請求項13】 前記ShortForm属性を生成す
る処理では、日付を数字の形に標準化することを特徴と
する請求項5に記載の方法。 - 【請求項14】 前記ShortForm属性を生成す
る処理では、テキスト本文が書かれた日付に基づいてオ
フセット日付を数字の形に標準化することを特徴とする
請求項5に記載の方法。 - 【請求項15】 前記ShortForm属性を生成す
る処理では、記号の影響を受けやすいテキストフラグメ
ントを未圧縮の形で維持することを特徴とする請求項5
に記載の方法。 - 【請求項16】 前記記号の影響を受けやすいテキスト
フラグメントを維持する処理では、完全にそのままにし
ておかない限り正確に理解できないテキストフラグメン
トを未圧縮の形で維持することを特徴とする請求項15
に記載の方法。 - 【請求項17】 前記テキストフラグメントを維持する
処理では、ユニフォームリソースロケータおよび電子メ
ールアドレスを未圧縮の形で維持することを特徴とする
請求項16に記載の方法。 - 【請求項18】 前記構文分析は、テキスト本文の複数
単語からなる部分を表す末端以外のノードと、テキスト
本文中の単語を示す末端ノードとを有するツリーを含
み、末端以外のノードと末端ノードが双方とも、圧縮規
則が適用されるかどうか検査されることを特徴とする請
求項11に記載の方法。 - 【請求項19】 テキスト本文の一部の分析から形成さ
れ、テキスト本文の一部についての複数の圧縮形を示す
データ構造であって、 テキスト本文の一部についての複数の圧縮形を表す複数
のデータフィールドを備えることを特徴とするデータ構
造。 - 【請求項20】 メッセージを受け取り、メッセージ中
のテキスト本文の一部の様々な形を示す圧縮オプション
を生成するメッセージハンドラであって、 テキスト本文を分析し、言語分析を提供するように言語
的に構成された言語アナライザと、 言語分析に基づいてテキスト本文の一部についての複数
の圧縮形を生成するように構成された圧縮形ジェネレー
タとを備えることを特徴とするメッセージハンドラ。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/770,779 US7069207B2 (en) | 2001-01-26 | 2001-01-26 | Linguistically intelligent text compression |
US09/770,779 | 2001-01-26 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007191482A Division JP2007265458A (ja) | 2001-01-26 | 2007-07-23 | 複数の圧縮オプションを生成する方法およびコンピュータ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002334071A true JP2002334071A (ja) | 2002-11-22 |
Family
ID=25089649
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002019244A Pending JP2002334071A (ja) | 2001-01-26 | 2002-01-28 | 言語的にインテリジェントなテキスト圧縮 |
JP2007191482A Pending JP2007265458A (ja) | 2001-01-26 | 2007-07-23 | 複数の圧縮オプションを生成する方法およびコンピュータ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007191482A Pending JP2007265458A (ja) | 2001-01-26 | 2007-07-23 | 複数の圧縮オプションを生成する方法およびコンピュータ |
Country Status (4)
Country | Link |
---|---|
US (2) | US7069207B2 (ja) |
EP (1) | EP1227408A3 (ja) |
JP (2) | JP2002334071A (ja) |
KR (1) | KR100890691B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016151884A (ja) * | 2015-02-17 | 2016-08-22 | 京セラドキュメントソリューションズ株式会社 | 表示装置、情報処理装置、メッセージ表示方法 |
Families Citing this family (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050234727A1 (en) * | 2001-07-03 | 2005-10-20 | Leo Chiu | Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response |
US20030149562A1 (en) * | 2002-02-07 | 2003-08-07 | Markus Walther | Context-aware linear time tokenizer |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
FR2841355B1 (fr) * | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
EP1532790B1 (en) | 2002-07-22 | 2007-11-14 | Nokia Corporation | Method and arrangement for obtaining an electronic mail service |
US7548848B1 (en) * | 2003-01-08 | 2009-06-16 | Xambala, Inc. | Method and apparatus for semantic processing engine |
JP2006276918A (ja) * | 2005-03-25 | 2006-10-12 | Fuji Xerox Co Ltd | 翻訳装置、翻訳方法およびプログラム |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US8225231B2 (en) | 2005-08-30 | 2012-07-17 | Microsoft Corporation | Aggregation of PC settings |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US7567586B2 (en) | 2005-10-31 | 2009-07-28 | Microsoft Corporation | Above-transport layer message partial compression |
CN100401724C (zh) * | 2005-12-15 | 2008-07-09 | 华为技术有限公司 | 发送即时消息的方法和设备 |
US7786979B2 (en) | 2006-01-13 | 2010-08-31 | Research In Motion Limited | Handheld electronic device and method for disambiguation of text input and providing spelling substitution |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US7966173B2 (en) * | 2006-03-22 | 2011-06-21 | Nuance Communications, Inc. | System and method for diacritization of text |
US8392183B2 (en) * | 2006-04-25 | 2013-03-05 | Frank Elmo Weber | Character-based automated media summarization |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8204738B2 (en) * | 2006-11-03 | 2012-06-19 | Nuance Communications, Inc. | Removing bias from features containing overlapping embedded grammars in a natural language understanding system |
US20080133365A1 (en) * | 2006-11-21 | 2008-06-05 | Benjamin Sprecher | Targeted Marketing System |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7970616B2 (en) * | 2007-07-23 | 2011-06-28 | Dapkunas Ronald M | Efficient review of data |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8219385B2 (en) * | 2008-04-08 | 2012-07-10 | Incentive Targeting, Inc. | Computer-implemented method and system for conducting a search of electronically stored information |
US8666729B1 (en) * | 2010-02-10 | 2014-03-04 | West Corporation | Processing natural language grammar |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US20100087169A1 (en) * | 2008-10-02 | 2010-04-08 | Microsoft Corporation | Threading together messages with multiple common participants |
US20100107100A1 (en) | 2008-10-23 | 2010-04-29 | Schneekloth Jason S | Mobile Device Style Abstraction |
US8385952B2 (en) | 2008-10-23 | 2013-02-26 | Microsoft Corporation | Mobile communications device user interface |
US8411046B2 (en) | 2008-10-23 | 2013-04-02 | Microsoft Corporation | Column organization of content |
US8812311B2 (en) * | 2008-10-27 | 2014-08-19 | Frank Elmo Weber | Character-based automated shot summarization |
JP5412096B2 (ja) * | 2008-12-03 | 2014-02-12 | 株式会社やまびこ | 携帯式チェンソーの動力ユニット構造 |
US20100145676A1 (en) * | 2008-12-09 | 2010-06-10 | Qualcomm Incorporated | Method and apparatus for adjusting the length of text strings to fit display sizes |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8175653B2 (en) | 2009-03-30 | 2012-05-08 | Microsoft Corporation | Chromeless user interface |
US8355698B2 (en) | 2009-03-30 | 2013-01-15 | Microsoft Corporation | Unlock screen |
US8238876B2 (en) | 2009-03-30 | 2012-08-07 | Microsoft Corporation | Notifications |
US8836648B2 (en) | 2009-05-27 | 2014-09-16 | Microsoft Corporation | Touch pull-in gesture |
US9424444B2 (en) | 2009-10-14 | 2016-08-23 | At&T Mobility Ii Llc | Systems, apparatus, methods and computer-readable storage media for facilitating integrated messaging, contacts and social media for a selected entity |
US8924893B2 (en) * | 2009-10-14 | 2014-12-30 | At&T Mobility Ii Llc | Locking and unlocking of an electronic device using a sloped lock track |
US20130262486A1 (en) * | 2009-11-07 | 2013-10-03 | Robert B. O'Dell | Encoding and Decoding of Small Amounts of Text |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US20120010870A1 (en) * | 2010-07-09 | 2012-01-12 | Vladimir Selegey | Electronic dictionary and dictionary writing system |
US20120159383A1 (en) | 2010-12-20 | 2012-06-21 | Microsoft Corporation | Customization of an immersive environment |
US20120159395A1 (en) | 2010-12-20 | 2012-06-21 | Microsoft Corporation | Application-launching interface for multiple modes |
US8612874B2 (en) | 2010-12-23 | 2013-12-17 | Microsoft Corporation | Presenting an application change through a tile |
US8689123B2 (en) | 2010-12-23 | 2014-04-01 | Microsoft Corporation | Application reporting in an application-selectable user interface |
US9423951B2 (en) | 2010-12-31 | 2016-08-23 | Microsoft Technology Licensing, Llc | Content-based snap point |
US20120197630A1 (en) * | 2011-01-28 | 2012-08-02 | Lyons Kenton M | Methods and systems to summarize a source text as a function of contextual information |
US9383917B2 (en) | 2011-03-28 | 2016-07-05 | Microsoft Technology Licensing, Llc | Predictive tiling |
US8893033B2 (en) | 2011-05-27 | 2014-11-18 | Microsoft Corporation | Application notifications |
US9658766B2 (en) | 2011-05-27 | 2017-05-23 | Microsoft Technology Licensing, Llc | Edge gesture |
US9104307B2 (en) | 2011-05-27 | 2015-08-11 | Microsoft Technology Licensing, Llc | Multi-application environment |
US9158445B2 (en) | 2011-05-27 | 2015-10-13 | Microsoft Technology Licensing, Llc | Managing an immersive interface in a multi-application immersive environment |
US9104440B2 (en) | 2011-05-27 | 2015-08-11 | Microsoft Technology Licensing, Llc | Multi-application environment |
US20120304132A1 (en) | 2011-05-27 | 2012-11-29 | Chaitanya Dev Sareen | Switching back to a previously-interacted-with application |
US8687023B2 (en) | 2011-08-02 | 2014-04-01 | Microsoft Corporation | Cross-slide gesture to select and rearrange |
US20130057587A1 (en) | 2011-09-01 | 2013-03-07 | Microsoft Corporation | Arranging tiles |
US9557909B2 (en) | 2011-09-09 | 2017-01-31 | Microsoft Technology Licensing, Llc | Semantic zoom linguistic helpers |
US10353566B2 (en) | 2011-09-09 | 2019-07-16 | Microsoft Technology Licensing, Llc | Semantic zoom animations |
US8922575B2 (en) | 2011-09-09 | 2014-12-30 | Microsoft Corporation | Tile cache |
US8933952B2 (en) | 2011-09-10 | 2015-01-13 | Microsoft Corporation | Pre-rendering new content for an application-selectable user interface |
US9146670B2 (en) | 2011-09-10 | 2015-09-29 | Microsoft Technology Licensing, Llc | Progressively indicating new content in an application-selectable user interface |
US9244802B2 (en) | 2011-09-10 | 2016-01-26 | Microsoft Technology Licensing, Llc | Resource user interface |
US8965752B2 (en) | 2011-10-06 | 2015-02-24 | International Business Machines Corporation | Filtering prohibited language formed inadvertently via a user-interface |
US9223472B2 (en) | 2011-12-22 | 2015-12-29 | Microsoft Technology Licensing, Llc | Closing applications |
US9128605B2 (en) | 2012-02-16 | 2015-09-08 | Microsoft Technology Licensing, Llc | Thumbnail-image selection of applications |
US9280520B2 (en) * | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
GB2509889A (en) * | 2012-10-15 | 2014-07-23 | Kieran Hayes | Compressing text for software input |
US10303746B1 (en) | 2012-12-21 | 2019-05-28 | CRLK, Inc. | Method for coding a vanity message for display |
US11010535B1 (en) | 2012-12-21 | 2021-05-18 | Crkl, Inc. | Method for coding a vanity message for display |
US9450952B2 (en) | 2013-05-29 | 2016-09-20 | Microsoft Technology Licensing, Llc | Live tiles without application-code execution |
EP3126969A4 (en) | 2014-04-04 | 2017-04-12 | Microsoft Technology Licensing, LLC | Expandable application representation |
WO2015154273A1 (en) | 2014-04-10 | 2015-10-15 | Microsoft Technology Licensing, Llc | Collapsible shell cover for computing device |
EP3129847A4 (en) | 2014-04-10 | 2017-04-19 | Microsoft Technology Licensing, LLC | Slider cover for computing device |
US10678412B2 (en) | 2014-07-31 | 2020-06-09 | Microsoft Technology Licensing, Llc | Dynamic joint dividers for application windows |
US10592080B2 (en) | 2014-07-31 | 2020-03-17 | Microsoft Technology Licensing, Llc | Assisted presentation of application windows |
US10254942B2 (en) | 2014-07-31 | 2019-04-09 | Microsoft Technology Licensing, Llc | Adaptive sizing and positioning of application windows |
US10642365B2 (en) | 2014-09-09 | 2020-05-05 | Microsoft Technology Licensing, Llc | Parametric inertia and APIs |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
WO2016065568A1 (en) | 2014-10-30 | 2016-05-06 | Microsoft Technology Licensing, Llc | Multi-configuration input device |
JP6507579B2 (ja) * | 2014-11-10 | 2019-05-08 | ヤマハ株式会社 | 音声合成方法 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US9767193B2 (en) * | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
US10484493B2 (en) | 2015-11-17 | 2019-11-19 | At&T Intellectual Property I, L.P. | Method and apparatus for communicating messages |
US9639528B1 (en) | 2016-01-29 | 2017-05-02 | Sap Se | Translation-based visual design |
US10275450B2 (en) * | 2016-02-15 | 2019-04-30 | Tata Consultancy Services Limited | Method and system for managing data quality for Spanish names and addresses in a database |
US10581456B2 (en) * | 2016-06-22 | 2020-03-03 | Fujitsu Limited | Data compression device and data decompression device |
US10261990B2 (en) * | 2016-06-28 | 2019-04-16 | International Business Machines Corporation | Hybrid approach for short form detection and expansion to long forms |
US10083170B2 (en) | 2016-06-28 | 2018-09-25 | International Business Machines Corporation | Hybrid approach for short form detection and expansion to long forms |
US10140260B2 (en) * | 2016-07-15 | 2018-11-27 | Sap Se | Intelligent text reduction for graphical interface elements |
US10503808B2 (en) | 2016-07-15 | 2019-12-10 | Sap Se | Time user interface with intelligent text reduction |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10210147B2 (en) * | 2016-09-07 | 2019-02-19 | International Business Machines Corporation | System and method to minimally reduce characters in character limiting scenarios |
EP3605316A4 (en) * | 2017-03-30 | 2020-04-01 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM |
CN109388794A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 一种时间解析方法、装置、设备和计算机存储介质 |
US20190065446A1 (en) * | 2017-08-22 | 2019-02-28 | Microsoft Technology Licensing, Llc | Reducing text length while preserving meaning |
US10839135B1 (en) * | 2018-01-03 | 2020-11-17 | Amazon Technologies, Inc. | Detection of access to text-based transmissions |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4333152A (en) * | 1979-02-05 | 1982-06-01 | Best Robert M | TV Movies that talk back |
JP3192415B2 (ja) * | 1990-08-01 | 2001-07-30 | キヤノン株式会社 | 文生成方式 |
DE69432575T2 (de) * | 1993-01-28 | 2004-03-18 | Kabushiki Kaisha Toshiba, Kawasaki | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung |
US5410475A (en) * | 1993-04-19 | 1995-04-25 | Mead Data Central, Inc. | Short case name generating method and apparatus |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
US5708822A (en) * | 1995-05-31 | 1998-01-13 | Oracle Corporation | Methods and apparatus for thematic parsing of discourse |
JPH1063666A (ja) * | 1996-08-27 | 1998-03-06 | Toshiba Corp | 短縮文字列置き換え装置及び短縮文字列置き換え方法、及び短縮文字列置き換え方法のプログラムを格納した記憶媒体 |
US6026410A (en) * | 1997-02-10 | 2000-02-15 | Actioneer, Inc. | Information organization and collaboration tool for processing notes and action requests in computer systems |
JPH10240206A (ja) * | 1997-02-28 | 1998-09-11 | Sony Corp | 表示装置 |
US6112168A (en) * | 1997-10-20 | 2000-08-29 | Microsoft Corporation | Automatically recognizing the discourse structure of a body of text |
GB9806085D0 (en) | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
JP4214598B2 (ja) * | 1998-04-02 | 2009-01-28 | ソニー株式会社 | 文書処理方法および装置ならびに記録媒体 |
JP3879321B2 (ja) * | 1998-12-17 | 2007-02-14 | 富士ゼロックス株式会社 | 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体 |
US6279018B1 (en) * | 1998-12-21 | 2001-08-21 | Kudrollis Software Inventions Pvt. Ltd. | Abbreviating and compacting text to cope with display space constraint in computer software |
US6535886B1 (en) * | 1999-10-18 | 2003-03-18 | Sony Corporation | Method to compress linguistic structures |
US6766287B1 (en) * | 1999-12-15 | 2004-07-20 | Xerox Corporation | System for genre-specific summarization of documents |
AU2001261505A1 (en) * | 2000-05-11 | 2001-11-20 | University Of Southern California | Machine translation techniques |
-
2001
- 2001-01-26 US US09/770,779 patent/US7069207B2/en not_active Expired - Fee Related
-
2002
- 2002-01-22 KR KR1020020003560A patent/KR100890691B1/ko not_active IP Right Cessation
- 2002-01-25 EP EP02001811A patent/EP1227408A3/en not_active Ceased
- 2002-01-28 JP JP2002019244A patent/JP2002334071A/ja active Pending
-
2006
- 2006-04-04 US US11/397,503 patent/US7398203B2/en not_active Expired - Fee Related
-
2007
- 2007-07-23 JP JP2007191482A patent/JP2007265458A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016151884A (ja) * | 2015-02-17 | 2016-08-22 | 京セラドキュメントソリューションズ株式会社 | 表示装置、情報処理装置、メッセージ表示方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1227408A2 (en) | 2002-07-31 |
US20020138248A1 (en) | 2002-09-26 |
KR100890691B1 (ko) | 2009-03-26 |
JP2007265458A (ja) | 2007-10-11 |
US7069207B2 (en) | 2006-06-27 |
US20060184351A1 (en) | 2006-08-17 |
US7398203B2 (en) | 2008-07-08 |
KR20020063118A (ko) | 2002-08-01 |
EP1227408A3 (en) | 2005-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002334071A (ja) | 言語的にインテリジェントなテキスト圧縮 | |
US6965857B1 (en) | Method and apparatus for deriving information from written text | |
US6922809B2 (en) | Method and apparatus providing capitalization recovery for text | |
US5634084A (en) | Abbreviation and acronym/initialism expansion procedures for a text to speech reader | |
Mikheev | Periods, capitalized words, etc. | |
US6694055B2 (en) | Proper name identification in chinese | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
Miller et al. | BBN: Description of the SIFT system as used for MUC-7 | |
US7421386B2 (en) | Full-form lexicon with tagged data and methods of constructing and using the same | |
US6658377B1 (en) | Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text | |
Daelemans et al. | Automatic Sentence Simplification for Subtitling in Dutch and English. | |
EP2354967A1 (en) | Semantic textual analysis | |
US6424982B1 (en) | System and method for parsing a document using one or more break characters | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
US20030061031A1 (en) | Japanese virtual dictionary | |
US7328404B2 (en) | Method for predicting the readings of japanese ideographs | |
US8041556B2 (en) | Chinese to english translation tool | |
TW548600B (en) | Method and system for identifying attributes of new words in non-segmented text | |
Khoo et al. | Using statistical and contextual information to identify two‐and three‐character words in Chinese text | |
Jenkins et al. | Conservative stemming for search and indexing | |
CN109960806A (zh) | 一种自然语言处理方法 | |
JP3518340B2 (ja) | 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体 | |
O’Rourke et al. | Word variant identification in old french | |
Nongmeikapam et al. | Improvement of CRF based Manipuri POS tagger by using Reduplicated MWE (RMWE) | |
JP4071657B2 (ja) | テキスト処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050107 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070323 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20070622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070723 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070820 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20070907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100125 |