JP2002334071A - 言語的にインテリジェントなテキスト圧縮 - Google Patents

言語的にインテリジェントなテキスト圧縮

Info

Publication number
JP2002334071A
JP2002334071A JP2002019244A JP2002019244A JP2002334071A JP 2002334071 A JP2002334071 A JP 2002334071A JP 2002019244 A JP2002019244 A JP 2002019244A JP 2002019244 A JP2002019244 A JP 2002019244A JP 2002334071 A JP2002334071 A JP 2002334071A
Authority
JP
Japan
Prior art keywords
compression
attribute
text
text body
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002019244A
Other languages
English (en)
Inventor
Simon H Corston-Oliver
エイチ.コーストン−オリバー サイモン
Sharad Mathur
マシュア シャラド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002334071A publication Critical patent/JP2002334071A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 言語的にインテリジェントな方式のテキスト
圧縮を提供する。 【解決手段】 テキストプロセッサが、メッセージ中の
テキストを処理する。テキストプロセッサは、メッセー
ジ構成要素の複数の圧縮形を生成する。プロセッサは、
テキスト本文に対して言語分析を行って、テキスト本文
の言語構成要素を示す言語出力を得る。次いでプロセッ
サは、テキスト本文を圧縮するのに使用できる複数の圧
縮形を生成する。複数の圧縮形は、言語出力に基づいて
生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、限られた表示空間
を有するデバイス上でのメッセージングに関する。より
詳細には、本発明は、テキストをより容易に小さな画面
上に表示できるように、言語的にインテリジェントな方
式でテキストを圧縮することに関する。
【0002】
【従来の技術】メッセージングは、現在のコンピュータ
システム上で広く利用可能である。メッセージは、音声
メール、電子メール(eメール)、ページングを介し
て、また、その他のソースまたは手段から送信すること
ができる。さらに、様々なソースからのメッセージを統
合して、単一のデバイスに転送することもできる。例え
ば、コンピュータまたはコンピュータネットワークにお
いて、目下、音声メールおよび電子メールを介してメッ
セージを受信しているユーザが、このようなメッセージ
を受信する能力を備えたセルラーホンにこれらのメッセ
ージを転送することもできる。しかし、セルラーホンの
画面は、著しく限られた表示空間である。このことは、
メッセージを表示しようとする際に非常に大きな問題を
提示する可能性がある。
【0003】
【発明が解決しようとする課題】例えば、ごく短い電子
メールメッセージまたは文字化された音声メールメッセ
ージであっても、セルラーホンの単一画面上で見るには
大きすぎるテキストを提示する可能性がある。これによ
り、ユーザはしばしば、メッセージの最初のわずかな単
語から(それが表示できるすべてなので)メッセージ全
体を解読するか、メッセージ全体を見るためにテキスト
の多くの行を下にスクロールする必要がある。これらの
手法は双方とも煩わしく、エラーを引き起こす可能性が
ある。
【0004】テキスト圧縮は、従来、様々な多くのコン
テキストで用いられてきたが、このような圧縮の目的
は、主にテキストを効率的にデータ記憶できるようにす
ることであった。このような圧縮技法は、圧縮テキスト
を人間が解読しなければならないコンテキストには全く
適用不可能である。
【0005】
【課題を解決するための手段】テキストプロセッサが、
メッセージ中のテキストを処理する。このテキストプロ
セッサは、メッセージ構成要素の複数の圧縮形を生成す
る。プロセッサは、テキスト本文に対して言語分析を行
って、テキスト本文の言語構成要素を示す言語出力を得
る。次いでプロセッサは、テキスト本文を圧縮するのに
使用できる複数の圧縮形を生成する。複数の圧縮形は、
言語出力に基づいて生成する。本発明は、圧縮形を生成
する方法および装置として実施することができる。
【0006】本発明の別の態様は、テキストの言語分析
に基づくデータ構造を含む。このデータ構造は、テキス
ト本文の各部分の複数の圧縮形を示す属性を含む複数の
フィールドを備える。データ構造はまた、データ構造の
フィールドに含まれる属性のうちの少なくとも1つを生
成するのに使用される圧縮のタイプを示す圧縮タイプフ
ィールドを備えることもできる。
【0007】
【発明の実施の形態】図1に、本発明を実施できる、適
したコンピューティングシステム環境100の例を示
す。コンピューティングシステム環境100は、適した
コンピューティング環境の一例でしかなく、本発明の使
用または機能の範囲に関していかなる限定も示すもので
はない。コンピューティング環境100はまた、例示的
な動作環境100中に示したコンポーネントのいずれか
1つまたはそれらの組合せに関してどんな依存も要件も
有しないと解釈すべきである。
【0008】本発明は、その他の様々な汎用または専用
コンピューティングシステム環境または構成でも動作す
る。本発明と共に使用するのに適した、知られているコ
ンピューティングシステム、環境、および/または構成
としては、パーソナルコンピュータ、サーバコンピュー
タ、ハンドヘルドデバイスまたはラップトップデバイ
ス、マルチプロセッサシステム、マイクロプロセッサベ
ースのシステム、セットトップボックス、プログラム可
能な民生電子機器、ネットワークPC、ミニコンピュー
タ、メインフレームコンピュータ、以上のシステムまた
はデバイスのいずれかを含む分散コンピューティング環
境などが挙げられるが、これらに限定しない。
【0009】本発明は、コンピュータによって実行され
るプログラムモジュールなどのコンピュータ実行可能命
令の一般的なコンテキストで述べることができる。一般
にプログラムモジュールは、特定のタスクを実施するか
特定の抽象データ型を実装するルーチン、プログラム、
オブジェクト、コンポーネント、データ構造などを含
む。本発明はまた、通信ネットワークを介してリンクさ
れたリモート処理デバイスによってタスクが実行される
分散コンピューティング環境で実施することもできる。
分散コンピューティング環境では、プログラムモジュー
ルは、メモリ記憶デバイスを含めたローカルとリモート
の双方のコンピュータ記憶媒体中に位置することができ
る。
【0010】図1を参照すると、本発明を実施するため
の例示的なシステムが、コンピュータ110の形をとる
汎用コンピューティングデバイスを含んでいる。コンピ
ュータ110のコンポーネントとしては、プロセッシン
グユニット120と、システムメモリ130と、システ
ムメモリを含めた様々なシステムコンポーネントをプロ
セッシングユニット120に結合するシステムバス12
1とを挙げることができるが、これらに限定しない。シ
ステムバス121は、様々なバスアーキテクチャのいず
れかを用いたメモリバスまたはメモリコントローラ、周
辺バス、およびローカルバスを含めた、いくつかのタイ
プのバス構造のいずれでもよい。限定ではなく例とし
て、このようなアーキテクチャには、ISA(Indu
stryStandard Architectur
e)バス、MCA(Micro Channel Ar
chitecture)バス、EISA(Enhanc
edISA)バス、VESA(Video Elect
ronics Standards Associat
ion)ローカルバス、およびメザニンバスとも呼ばれ
るPCI(Peripheral Component
Interconnect)バスが含まれる。
【0011】コンピュータ11は通常、様々なコンピュ
ータ可読媒体を備える。コンピュータ可読媒体は、コン
ピュータ110がアクセスできる任意の利用可能な媒体
とすることができ、揮発性媒体と不揮発性媒体、取り外
し可能媒体と取り外し不可能媒体の双方が含まれる。限
定ではなく、例として、コンピュータ可読媒体には、コ
ンピュータ記憶媒体および通信媒体を含めることができ
る。コンピュータ記憶媒体には、コンピュータ可読命
令、データ構造、プログラムモジュール、またはその他
データを含めた情報を記憶するための任意の方法または
技術で実装された揮発性媒体と不揮発性媒体、取り外し
可能媒体と取り外し不可能媒体の双方が含まれる。コン
ピュータ記憶媒体には、RAM、ROM、EEPRO
M、フラッシュメモリまたはその他のメモリ技術、CD
−ROM、ディジタル多用途ディスク(DVD)または
その他の光学ディスク記憶装置、磁気カセット、磁気テ
ープ、磁気ディスク記憶装置またはその他の磁気記憶デ
バイス、あるいは所望の情報を記憶するのに使用できコ
ンピュータ100がアクセスできるその他の媒体が含ま
れるが、これらに限定しない。通信媒体は通常、コンピ
ュータ可読命令、データ構造、プログラムモジュール、
またはその他のデータを、搬送WAVまたはその他のト
ランスポートメカニズムなどの変調されたデータ信号中
に組み入れており、任意の情報送達媒体が含まれる。
「変調されたデータ信号」という用語は、情報を信号に
エンコードするようにその1つまたは複数の特性が設定
または変更された信号を意味する。限定ではなく例とし
て、通信媒体には、ワイヤードネットワークまたは直接
ワイヤードネットワーク接続などのワイヤード媒体と、
音響、FR、赤外線などのワイヤレス媒体およびその他
のワイヤレス媒体が含まれる。以上のいずれかの組合せ
もまた、コンピュータ可読媒体の範囲内に含めるべきで
ある。
【0012】システムメモリ130は、読出し専用メモ
リ(ROM)131およびランダムアクセスメモリ(R
AM)132などの揮発性および/または不揮発性メモ
リの形をとるコンピュータ記憶媒体を含む。ROM13
1には通常、起動時などにコンピュータ110内の要素
間で情報を転送することを支援するBIOS(basi
c input/output system)133
が記憶されている。RAM132は通常、プロセッシン
グユニット120からすぐにアクセス可能であってプロ
セッシングユニット120が現在作用しているデータお
よび/またはプログラムモジュールを含む。限定ではな
く例として、図1には、オペレーティングシステム13
4、アプリケーションプログラム135、その他のプロ
グラムモジュール136、およびプログラムデータ13
7が示されている。
【0013】コンピュータ110はまた、その他の取外
し可能/取外し不可能、かつ揮発性/不揮発性のコンピ
ュータ記憶媒体を備えることもできる。例示にすぎない
が、図1には、取外し不可能かつ不揮発性の磁気媒体に
対して読取りまたは書込みを行うハードディスクドライ
ブ141と、取外し可能かつ不揮発性の磁気ディスク1
52に対して読取りまたは書込みを行う磁気ディスクド
ライブ151と、CDROMやその他の光学媒体など取
外し可能かつ不揮発性の光学ディスク156に対して読
取りまたは書込みを行う光学ディスクドライブ155が
示されている。この例示的な動作環境で使用できるその
他の取外し可能/取外し不可能、かつ揮発性/不揮発性
のコンピュータ記憶媒体には、磁気テープカセット、フ
ラッシュメモリカード、ディジタル多用途ディスク、デ
ィジタルビデオテープ、固体RAM、固体ROMなどが
含まれるが、これらに限定しない。ハードディスクドラ
イブ141は通常、インタフェース140などの取外し
不可能メモリインタフェースを介してシステムバス12
1に接続され、磁気ディスクドライブ151および光学
ディスクドライブ155は通常、インタフェース150
などの取外し可能メモリインタフェースによってシステ
ムバス121に接続される。
【0014】以上に論じ、図1に示したドライブおよび
それらに関連するコンピュータ記憶媒体は、コンピュー
タ可読命令、データ構造、プログラムモジュール、およ
びその他のデータの記憶域をコンピュータ110に提供
する。例えば図1では、ハードディスクドライブ141
は、オペレーティングシステム144、アプリケーショ
ンプログラム145、その他のプログラムモジュール1
46、およびプログラムデータ147を記憶しているも
のとして示されている。これらのコンポーネントは、オ
ペレーティングシステム134、アプリケーションプロ
グラム135、その他のプログラムモジュール136、
およびプログラムデータ137と同じものとすることも
異なるものとすることもできることに留意されたい。オ
ペレーティングシステム144、アプリケーションプロ
グラム145、その他のプログラムモジュール146、
およびプログラムデータ147は、これらが少なくとも
異なるコピーであることを示すために、ここでは異なる
番号を付けてある。
【0015】ユーザは、キーボード162、マイクロホ
ン163、およびマウスやトラックボールやタッチパッ
ドなどのポインティングデバイス161など、入力デバ
イスを介してコンピュータ110にコマンドおよび情報
を入力することができる。他の入力デバイス(図示せ
ず)には、ジョイスティック、ゲームパッド、衛星受信
アンテナ、スキャナなどを含めることができる。これら
およびその他の入力デバイスは、システムバスに結合さ
れたユーザ入力インタフェース160を介してプロセッ
シングユニット120に接続されることが多いが、パラ
レルポート、ゲームポート、ユニバーサルシリアルバス
(USB)など他のインタフェースおよびバス構造によ
って接続することもできる。モニタ191または他のタ
イプの表示デバイスもまた、ビデオインタフェース19
0などのインタフェースを介してシステムバス121に
接続される。モニタに加えて、コンピュータはまた、ス
ピーカ197やプリンタ196など他の周辺出力デバイ
スを備えることもでき、これらは出力周辺インタフェー
ス195を介して接続することができる。
【0016】コンピュータ110は、リモートコンピュ
ータ180など1つまたは複数のリモートコンピュータ
への論理接続を用いてネットワーク化された環境で動作
することもできる。リモートコンピュータ180は、パ
ーソナルコンピュータ、ハンドヘルドデバイス、サー
バ、ルータ、ネットワークPC、ピアデバイス、または
他の一般的なネットワークノードとすることができ、通
常、コンピュータ110に関して上述した要素の多くま
たはすべてを備える。図1に示す論理接続はローカルエ
リアネットワーク(LAN)171およびワイドエリア
ネットワーク(WAN)173を含むが、他のネットワ
ークを含むこともできる。このようなネットワーク化環
境は、オフィス、企業全体のコンピュータネットワー
ク、イントラネット、およびインターネットでよくみら
れるものである。
【0017】LANネットワーキング環境で使用される
ときは、コンピュータ110はネットワークインタフェ
ースまたはアダプタ170を介してLAN171に接続
される。WANネットワーキング環境で使用されるとき
は、コンピュータ110は通常、インターネットなどの
WAN173を介して通信を確立するためのモデム17
2またはその他の手段を備える。モデム172は、内蔵
でも外付けでもよく、ユーザ入力インタフェース160
または他の適切なメカニズムを介してシステムバス12
1に接続することができる。ネットワーク化された環境
では、コンピュータ110に関して示すプログラムモジ
ュールまたはその一部をリモートメモリ記憶デバイスに
記憶することができる。限定ではなく例として、図1に
は、リモートアプリケーションプログラム185がリモ
ートコンピュータ180上にあるものとして示してあ
る。図示のネットワーク接続は例示的なものであり、コ
ンピュータ間の通信リンクを確立するための他の手段を
使用することもできることを理解されたい。
【0018】図1に関して述べたようなコンピュータシ
ステム上で本発明を実施できることに留意されたい。た
だし、本発明は、サーバメッセージ処理専用のコンピュ
ータ、または分散システム上で実施することもでき、分
散システムの場合は、本発明の異なる各部分を分散処理
システムの異なる各部分で実施する。
【0019】図2は、本発明を実施するのに使用できる
いくつかのコンポーネントの例示的な一実施形態のブロ
ック図である。図2は、メッセージハンドラ200、コ
ンプレッサ202、およびターゲットデバイス205を
含む。メッセージハンドラ200は、例示的にメッセー
ジパーサ204、言語アナライザ206、およびテキス
ト圧縮コンポーネント208を含む。例示的な一実施形
態では、ターゲットデバイス205はセルラーホンまた
は画面の小さい他のデバイスであり、リンク210を介
してコンプレッサ202に接続される。リンク210
は、無線伝送部分を含んでも含んでいなくてもよいグロ
ーバルコンピュータネットワーク、または、ターゲット
デバイス205にメッセージを送信するのに適した他の
任意のリンクとすることができる。
【0020】メッセージハンドラ200は、例示的にメ
ッセージ212を受け取る。メッセージ212は、ペー
ジングシステム、電子メール、音声メールなどを含めた
種々のソースのうちの1つからくるものとすることがで
きる。したがって、メッセージ212は例示的に、ヘッ
ダ、テキスト本文、および電子メールの場合は電子メー
ルスレッド中の以前のメッセージを含めた、種々の部分
を含む。パーサ204は、メッセージ212をその種々
の部分に解析する。パーサ204の動作は本発明に関係
しない。関係するのは、圧縮すべきメッセージ本文21
4またはその他のテキスト本文を識別してアナライザ2
06に提供することだけである。これは周知のどんな方
法で行ってもよく、本発明の一部を形成しない。したが
って、パーサ204については詳述しない。パーサ20
4はヘッダ情報および場合によっては以前のメールメッ
セージを除去し、メッセージ本文214を言語アナライ
ザ206に提供することができると言えば十分であろ
う。
【0021】当然、パーサ204は、メッセージ本文2
14以外にも、他の任意の自然言語テキスト本文をアナ
ライザ206に提供することができることに留意された
い。例えば、テキスト本文は、サブジェクトヘッダ、タ
スク記述ヘッダ、ウェブページなどとすることもでき
る。ここでは、分析すべきテキストのほんの一例とし
て、メッセージ本文214に関して考察を進める。
【0022】言語アナライザ206は例示的に、語彙ア
ナライザ、形態アナライザ、および構文アナライザを含
む。語彙アナライザは、メッセージ本文214を受け取
り、それを単語(またはその他のトークン)に分割す
る。これは周知の方式で行う。形態アナライザは、形態
データベース(辞書など)にアクセスし、意味や品詞な
ど、各ワード(またはトークン)に関連する様々な情報
を得る。構文アナライザは、メッセージ本文214の構
文分析を行って、メッセージ本文中の各文ごとに構文解
析ツリー(または構文分析構造)を獲得し、この構造を
言語アナライザ206の出力として出力する。これもま
た周知の方式で行い、図3に関して簡単に示されてい
る。
【0023】テキスト圧縮コンポーネント208は、言
語アナライザ206からの言語分析出力にアクセスし、
メッセージ本文214の構成要素について異なる複数の
任意選択の圧縮を生成する。例示的な一実施形態では、
テキスト圧縮コンポーネント208は、メッセージ本文
214中の各単語または句ごとに5つの属性を提供す
る。一般に、各属性は、分析中の各単語をより大胆に圧
縮したものを表す。例示的な一実施形態では、テキスト
圧縮コンポーネント208から出力されるデータ構造
は、以下の属性を含む。
【0024】ShortType 適用される圧縮規則
のタイプの1つを示す。LongForm メッセージ
本文214に書かれている単語の形である。Short
Form ShortType属性によって識別される
圧縮規則または技法を適用した後の単語の形である。C
aseNormalizedForm ShortFo
rmの第1文字を大文字にして、残りの文字を小文字に
する。CompressedForm CaseNor
malizedFormの圧縮形であり、単語をさらに
圧縮するためにCaseNormalizedForm
に追加の圧縮規則を施す。
【0025】例示的な一実施形態では、これらの属性を
含むデータ構造が、圧縮XML出力216として出力さ
れ、コンプレッサコンポーネント202に提供される。
コンプレッサコンポーネント202は、例示的に、圧縮
出力216中の圧縮形のうちの1つを選択し、それをタ
ーゲットデバイス205に提供する。コンプレッサコン
ポーネント202は、例示的に、ターゲットデバイス2
05上で利用可能な画面空間または他の基準に基づいて
圧縮形を選択することができる。コンプレッサコンポー
ネント202は本発明の一部を形成しないことに留意さ
れたい。
【0026】図3は、メッセージ本文214中に入れる
ことのできる文の例示的な一実施形態である。この文
は、「You have a meeting wit
h Dr.John Epstein next Tu
esday at ten a.m.(あなたは次の火
曜日の午前10時にJohn Epstein先生と面
会する)」と書いてある。当然、メッセージ本文214
は語彙アナライザに提供され、語彙アナライザは、メッ
セージ本文を文および個々の単語(またはトークン)に
分割する。次いで形態アナライザが、各単語(またはト
ークン)のルックアップを行い、分析のために望まれる
品詞(会話部分)およびその他の可能な情報を識別す
る。したがって、以下の品詞によって単語が識別される
ことがわかる。
【0027】you=代名詞 have=動詞 a=冠詞 meeting=名詞 with=前置詞 Dr.John Epstein=固有名詞 next=形容詞 Tuesday=名詞 at=前置詞 ten a.m.=名詞
【0028】構文アナライザは、文および品詞を、例示
的な一実施形態では図3に示すような構文解析ツリーに
分析する。構文解析ツリー中の末端ノード(または葉ノ
ード)は、文中の単語を表し、末端以外のノードは、文
の各部分を識別する句またはその他の上位レベルの構文
単位を表す。図3に示す構文解析ツリー中では、指標
「S」は文ノードを表し、指標「NP」は名詞句を表
し、「VP」は動詞句を表し、「PP」は前置詞句を表
す。「next Tuesday」および「atten
a.m.」の上にある三角形は、単に、これらの句を
さらにノードに分析できるが簡単にするために省略され
ていることを示す。この構文解析ツリーは、この文が、
名詞句およびそれに続く動詞句、およびそれに続く他の
2つの構文構成要素(ここでは具体的に分析されていな
い)で形成されていることを示す。
【0029】テキスト圧縮コンポーネント208は、例
示的に図3に示す文を、人間に解読できるように言語的
にインテリジェントな方式で圧縮する。このような圧縮
を行う際、いくつかの問題が生じる。例えば、テキスト
中のあるタイプの単語をすべて削除することが直感的な
こともある。例えば、テキスト中のすべての冠詞を削除
することが直感的なこともる。しかしこれは、英語では
うまくいく場合もあるが、他の言語ではうまくいかな
い。実際、これはすべてのロマンス諸語でさえ機能しな
い。例えば、「I made him eat it
(私は彼がそれを食べるようにした)」と翻訳されるフ
ランス語の句Je le lui aifait ma
ngerを考えてみる。接語代名詞「le」は、ちょう
ど男性不定冠詞「le」(「the」と翻訳される)の
ように見えることに留意されたい。したがって、すべて
の「冠詞」または単語「the」、および異なる言語に
おけるそれらの等価物が除去された場合、それにより、
異なる言語のいくつかの句の意味が劇的に変化すること
になる。
【0030】同様に、テキスト中のすべてのスペースを
除去することが直感的に妥当と思われることもある。し
かし、メッセージ中に電子メールエイリアスまたはユニ
フォームリソースロケータ(URL)が設けられている
場合、スペースを除去すると、電子メールエイリアスま
たはURLがテキスト中のどこにあるか判別するのが非
常に困難になる。今日、記号に影響されやすいこのよう
な多くのテキストフラグメントが、メッセージ中で使用
されている。フラグメント中の記号が変更される場合、
フラグメント全体の意味は回復できないほどに失われ
る。例えば、句「Visit http://micr
osoft.com for informatio
n」を考えてみる。これが「visithttp://
microsoft.comforinfo」に短縮さ
れると、テキストフラグメント中のどこでURLが終わ
るのかを決定するのが非常に困難である。
【0031】したがって本発明は、このようなインテリ
ジェントでない一様な手法をとらない。本発明の圧縮
は、そうではなく、アナライザ206によって行われる
言語分析に基づいている。
【0032】図4は、メッセージハンドラ200の動作
をもう少し詳細に示したフローチャートである。最初
に、メッセージハンドラ200はメッセージ212を受
け取る。これをブロック218で示す。パーサ204
が、メッセージ212中のメッセージ本文を突き止め、
メッセージ本文214をアナライザ206に渡す。これ
をブロック220で示す。アナライザ226は、メッセ
ージ214を文に分割する。これをブロック222で示
す。次いで、アナライザ206の語彙アナライザコンポ
ーネントが、テキスト本文の語彙分析を行い、文を単
語、数字、および句読記号などのトークンに分割する。
トークンはまた、「along with」や「by
means of」のような複数単語の表現など、2つ
以上の単語からなるものとすることもできる。これをブ
ロック224で示す。次いで、言語アナライザ206中
の形態アナライザが形態分析を行い、したがって、各ト
ークンに対応する品詞およびその他の関連情報を突き止
める。これをブロック226で示す。次いで、構文アナ
ライザが構文分析を行い、例示的な一実施形態では構文
解析ツリーを提供する。これをブロック228で示す。
【0033】次いで、テキスト圧縮コンポーネント20
8が、アナライザ206から提供された分析の中の各ノ
ードを再帰的に調べ、可能性ある圧縮オプションが利用
可能かどうかを判定する。これをブロック230で示
す。分析の中のノードを調べ終わり、様々な圧縮オプシ
ョンを識別すると、例えばXML出力216として圧縮
オプションを出力する。これをブロック232で示す。
次いで、コンプレッサ202が、単純に各単語(または
トークン)ごとにオプションのうちの1つを選択し、メ
ッセージを圧縮形でターゲットデバイス205に提供す
る。
【0034】図5および図6に、分析されたメッセージ
本文214の各部分に対して可能性ある圧縮オプション
を生成する際のテキスト圧縮オプション208の動作を
より詳細に示す。図5および図6は、アナライザ206
からの分析出力の中の末端ノード(または葉ノード)に
対する可能性ある圧縮オプションを生成する際のテキス
ト圧縮コンポーネント208の動作を具体的に示してい
る。言い換えれば、図5および図6には、メッセージ本
文の句またはより大きなフラグメントを表す場合のある
末端以外のノードとは対照的に、可能性ある圧縮のため
のテキストメッセージ中の各ワード(またはトークン)
の処理が示してある。
【0035】最初に、長い形の各トークンを受け取る。
長い形は、テキスト本文に書かれたトークンの形である
ことを想起されたい。これを図5のブロック234で示
す。この長い形を、圧縮出力216として提供されたデ
ータ構造中に出力される属性として保存する。これをブ
ロック236で示す。
【0036】次に、ShortType属性を決定して
保存する。ShortType属性は、長い形のトーク
ンに適用される圧縮規則の具体的なタイプを示す属性で
あることを想起されたい。これをブロック238で示
す。以下に、本発明の一実施形態による様々なShor
tType属性をより広く論じる。
【0037】次いで、ShortType属性によって
識別される圧縮規則を用いて分析中のノード全体を削除
すべきかどうかを決定する。例えば、いくつかのノード
は、あらゆる状況で削除することになる。英語の冠詞
(ShortType属性「Articles」を有す
る)は、常に省略することができる。このような冠詞に
は、例えばa、the、those、およびthese
が含まれる。挨拶は、ShortType属性「Gre
eting」を有し、これらもまたブロック240で特
別処理する。挨拶(Dear Bob、Hi、Hi B
obなど)は、すべて削除することができる。ノードを
あらゆる状況で削除すべきかどうか決定することを、ブ
ロック240で示す。そうである場合は、ブロック23
8に示すように、ShortType属性を「Arti
cles」(または適切な属性なら何でも)に設定し、
ShortForm、CaseNormalizedF
orm、およびCompressedFormの属性を
すべてヌルの値に設定する。これをブロック242に示
す。
【0038】ブロック240で、ノードを完全に削除す
べきではないと決定した場合は、その他の特別処理をこ
のノードに対して行うべきかどうかを決定する。これを
ブロック244で示す。このような特別処理は、様々な
形で行われる可能性がある。次に、これらの形のいくつ
かについて論じる。
【0039】形容詞のグループ(ShortType
「Adjective」を有する)は、特別処理され
る。これらには、which、who、whatなど、
「wh」で始まる単語が含まれる。これらの形容詞につ
いて、以下により詳細に論じる。
【0040】英語の冠詞については、ブロック240に
関して先に論じた。英語の冠詞は、あらゆる状況で省略
することができる。しかし、他の言語の冠詞は特別処理
が必要な場合がある。例えば、ドイツ語の定冠詞は、あ
らゆる状況で省略することができる。しかし、不定冠詞
は、あいまいなので保留される(同じ形が「a」または
「one」の意味になり得るため)。スペイン語および
フランス語の定冠詞は削除されるが、同じ綴りの接語代
名詞は削除されない。スペイン語およびフランス語の不
定冠詞は、あいまいなので保留される(同じ形が「a」
または「one」の意味になり得るため)。
【0041】副詞は、ShortType属性「Adv
erbs」を有し、「wh」単語として分類されるもの
(why、how、whenなど)は、どんな仕方でも
圧縮されない。これらについては後で論じる。その他の
副詞は、文字削減(母音削除、子音削除、またはその双
方)がなされるが、これもまた後でより詳細に論じる。
【0042】社名は、ShortType「Compa
ny」を有し、これらもまた特別処理される。社名タイ
プは削除される。例えば、「Microsoft Co
rporation」は、単に「Microsoft」
に変換することができる。短縮された形は、後で論じる
ように文字削減および大文字/小文字標準化を受ける。
【0043】接続詞は、ShortType属性「Co
nj」を有し、これらもまた特別処理される。例えば、
英語の接続詞「and」、フランス語の「et」、およ
びドイツ語の「und」には、アンパサンド符号が取っ
て代わる。スペイン語の「y/e」は、すでに1語なの
で短縮されない。その他の接続詞はすべてそのままであ
り、後の処理ステップを受ける。
【0044】いくつかの様々なタイプの名詞もまた、特
別処理される。絶対的な日付および時間は、Short
Type「Dates」で指定され、以下のようにして
処理される。あらゆる言語において、単独で月がある場
合、長い月名は短い形(short form)に変換
される。最後にピリオドの付いた短い月名では、ピリオ
ドは除去される。得られる短い形には、母音圧縮や大文
字/小文字標準化などは行われない。例えば、「let
s meet in November(11月に会い
ましょう)」という句では、Novemberは「No
v」に短縮される。同様に、「lets meet i
n Nov.」という句では、Novemberの省略
形が「Nov」に変換される(すなわち後に付くピリオ
ドが取り去られる)。
【0045】あらゆる言語において、日の指定がない月
(および年)は、短い月名だけとする。例えば、「20
01」が現在の年である場合に、語「November
2001」は単に「Nov」に短縮される。
【0046】日付が、月と現在の年でない年とである場
合は、数字の月および分離符号および数字の年に変換さ
れる。例えば、「Nov 2002」は、「11/20
02」(英語およびフランス語の場合)、または「1
1.2002」(他のヨーロッパ言語の場合)に変換さ
れる。
【0047】同様に、アメリカ英語では、単一の絶対的
な日付は、月/日/年の数字フォーマットに標準化され
る。他の言語の日付は、それらのフォーマットに標準化
される(例えば日本語では常に、年−月−日のフォーマ
ットが使用される)。英語およびフランス語ではフォワ
ードスラッシュマークが分離符号として使用されるが、
スペイン語およびドイツ語ではピリオドが分離符号とし
て使用される。
【0048】年は、「今日」の年と等しい場合、または
年に2000を足した数が「今日」の年と等しい場合は
省略される。例えば、23 July,2001は7/
23に変換される。さらに、Monday 23 Ju
lyも7/23に変換される。
【0049】同様に、midnight(真夜中)もま
た特別処理を受ける。midnightもまた、Sho
rtType「Dates」で指定され、この短い形は
「12am」である。よくある連語「12 midni
ght」もまた、短い形「12am」を有するが、これ
は出力「12 12am」を回避するための特別な場合
である。
【0050】英語の日付範囲もまた、特別処理を受け
る。例えば、語「December5th−9th」
は、「12/5−9」に変換される。また、日付範囲
「December 5th−9th,2002」は
「12/5−9/2002」に変換される。
【0051】オフセット日付もまた特別処理され、これ
らにはShortType「OffsetDate」が
与えられる。「next Wednesday」などの
語がテキスト中で識別された場合は、そのメッセージが
送信された(または書かれた)日付が取得され、オフセ
ット日付「next Wednesday」が変形され
る。したがって、メッセージが12月1日の金曜日に送
信された場合、「next Wednesday」が言
及するのは12月6日ということになる。したがって、
語「next Wednesday」は「12/6」に
変換される。
【0052】曜日には、ShortType「Day
s」が与えられる。あらゆる言語で、絶対的な日付に確
実に変換できない独立した曜日は、それらの曜日の短い
形に変形される。最後にピリオドの付いた短い曜日名
は、ピリオドが取り去られる。得られる短い形には、母
音圧縮や大文字/小文字標準化などは行われない。例え
ば、「lets meet on Monday(月曜
日に会いましょう)」という句では、語「Monda
y」は「Mon」に変換される。
【0053】電子メールエイリアスおよびURLもま
た、特別処理を受ける。電子メールエイリアスおよびU
RLは、大文字/小文字標準化も母音除去もされずにそ
のまま維持される。電子メールには、ShortTyp
e「Email」が与えられ、URLにはShortT
ype「URL」が与えられる。
【0054】電話番号には、ShortType「Ph
one」が与えられ、これらの中から句読点が除去され
る。例えば、語「call me at(425)70
3−7371((425)703−7371にかけて私
に電話をください)」の中の電話番号は、単に「425
7037371」に変換される。
【0055】州および国には、ShortType「G
eo」が与えられ、これらには従来の省略形が取って代
わる。例えば、「Washington」には「WA」
が取って代わり、「Alabama」には「AL」が取
って代わり、その他同様となる。
【0056】言語でないものには、ShortType
「NotLanguage」が与えられ、言語圧縮は行
われない。このようなものの例には、以下のものが挙げ
られる。
【0057】 x=x+y; If(x=1){ <Some XML>Content</Some XML><Foo/>.
【0058】綴り字の数字もまた特別処理を受け、これ
らにはShortType「Number」が与えられ
る。綴り字の数字には、アラビア数字が取って代わる。
例えば、英語の句「one thousand fou
r hundred twenty−five」には、
「1425」が取って代わる。例示的に、千の位の間に
分離符号は使用されていない。
【0059】貨幣の単位名もまた特別処理を受け、これ
らにはShortType「Dollars」が与えら
れる。千は語「K」で置換される。100万は語「M」
で置換され、10億は「B」で置換される。例えば、$
100000は$100Kに、$123000000は
$123Mに、$2000000000は$2Bに変換
される。また、これらの短い形は、後で述べる大文字/
小文字標準化を受けない。
【0060】同様に、例示的な一実施形態では少数も示
される。例えば、$2250000000は$2.25
Bに変換される。また、通貨指示詞が後に続く数量は、
数と共に、その通貨に対する一般的な記号に標準化され
る。例えば、「one hundred dollar
s」は「$100」に変換される。語「57pound
s」は「#57」に変換される。「500Franc
s」は「500Fr」に変換され、その他同様となる。
【0061】固有名詞は特別処理を受け、これらにはS
hortType「PrprN」が与えられる。ドイツ
語以外の言語では、複数の部分からなる固有名詞は、可
能なら単に第1の姓に凝縮される。例えば、「Dr.M
ary Smith」は「Smith」に変換される。
【0062】スペイン語の、句からなる姓の場合は、第
1の部分に凝縮されることに留意されたい(例えば「C
ardoso de Campos」は「Cardos
o」に短縮される)。例示的な一実施形態では、固有名
詞にも母音除去は行われない。
【0063】同様に、固有名詞は、より一般的な名前が
あるかどうか辞書ルックアップを受ける。例えば、固有
名詞「Patrick」には「Pat」が取って代わる
ことができる。名前「William」には「Wil
l」が取って代わることができ、その他同様である。さ
らに、名前および最後の頭文字がある場合は、単に名前
だけに短縮される。
【0064】ドイツ語では、テキストフラグメント中の
多くの単語が大文字になるので、この言語では固有名詞
はより厄介である。したがってドイツ語では、固有名詞
は、限定詞が前にある場合は圧縮されない。
【0065】所有格もまた特別処理され、これらにはS
hortType「Possessive」が与えられ
る。英語では、「′s」および「s′」の接語が付いた
所有格は、アポストロフィなしで書き直すことができ
る。例えば、語「John′shouse」は「Joh
ns house」と書くことができる。同様に、「d
og′s tails」は「dogs tails」と
書くことができる。
【0066】いくつかの前置詞もまた特別処理を受け、
これらにはShortType「Preps」が与えら
れる。例えば英語では、いくつかの前置詞がルックアッ
プテーブルを通して要約される。例えば、「throu
gh」は「thru」に要約することができる。単語
「at」は「@」に要約することができる。ある状況で
は、語「to」および「for」もまた、「2」および
「4」に要約することができる。これらは、略さずに綴
られた数詞または数字であって、可能性ある数字置換形
を有する数詞または数字に隣接していない場合に限り、
このような形で要約される。例えば、「I want
to leave(私は出発したい)」という句では、
語「to」に数字「2」が取って代わる。しかし、「I
havebeen to two good mov
ies lately(私は最近よい映画を2本観に行
った)」という句では、語「to」は数字「2」に変化
しない。そうすると、話者がよい映画を22本観たとい
う誤解が生じる可能性があるからである。
【0067】いくつかの代名詞もまた特別処理を受け、
これらにはShortType「Pronouns」が
与えられる。英語では、代名詞「you」には「U」が
取って代わる。他のすべての代名詞は同じままであり、
母音除去されない。スペイン語では、代名詞「Uste
d」には「Ud」が取って代わり、「Ustedes」
には「Uds」が取って代わる。ドイツ語では、「ei
n」(および屈折)を含む代名詞は、数字「1」を使用
して要約される。
【0068】句読点は特別処理され、これにはShor
tType「Punctuation」が与えられる。
文の分離符号でもなく、電子メールエイリアスまたはU
RLの中に現れたのでもない句読点は、削除される。不
可欠な句読点には、ShortType「Essent
ialPunct」が与えられる。あらゆる言語で、以
下の文字は削除されない。すなわち、
【0069】
【外1】
【0070】である。日本語では、文の分離符号として
のみ使用される特別な小円記号もまた削除されない。セ
ミコロンおよびピリオドは、文の最後の句読点でない場
合に限って削除される。他のすべての文字は、None
ssentialPunctuation(後述する)
とマークされる。
【0071】ただし一実施形態では、最後の句読点の連
なりは、最初の文字に短縮される。したがって、「Ar
e these things removed?!?
(除去されたものがあるか?!?)」のような句では、
最後の句読点は単に「?」に短縮される。
【0072】またあらゆる言語で、他の圧縮規則に従っ
てディジットになる場合のあるものの間に現れる句読点
は維持される。例えば、「I bought 3 in
1976 and in 1977,100(私は1
976年に3個買い、1977年に100個買った)」
という句では、1977の後のコンマは維持される(ま
たは任意選択でスペースが維持される)。これは、19
77100に圧縮されるのを避け、そうではなく「19
77,100」または「1977 100」に圧縮され
るようにするためである。
【0073】同様に、英語では、inches(イン
チ)およびfoot/feet(フィート)の測定値の
句は、適切なら″または′に変換される。
【0074】その他の重要でない句読点マークは特別処
理を受け、これらにはShortType「Nones
sentialPunct」が与えられる。類事実(電
子メールアドレス、URL、数字範囲など)の中の句読
点は、そのまま残る。このような類事実の中にあるので
はない句読点は、EssentialPunctと、接
続詞として現れた句読点(例えば節を分離するためのセ
ミコロン)とを除いては、削除することができる。
【0075】いくつかの動詞もまた特別処理を受け、こ
れらにはShortType「Verbs」が与えられ
る。このような動詞は、辞書ルックアップの対象であ
る。例えば、単語「are」には文字「R」が取って代
わり、単語「be」には「B」が取って代わることがで
きる。そうでない場合は、動詞は単に、後で述べる文字
削減および大文字/小文字標準化を受ける。
【0076】他にあと2つの形の特別処理も行われる。
一方は、ShortType「WordSubstit
ution」が与えられ、単語置換を含むものであり、
他方は、先に論じた「wh」単語の処理である。これら
のタイプの特別処理については、後で説明の中でより詳
細に考察する。
【0077】次に、再び図5および図6に関して考察を
進める。図5のブロック244で、これらの特別処理ケ
ースをどれも行わない場合は、分析中の単語に関連する
ShortForm属性を、単にLongForm属性
(テキスト中に書かれた単語の形)に設定する。これを
ブロック246で示す。
【0078】しかし、ブロック244で特別処理を行う
と判定した場合は、次に、特別処理が単語置換かどうか
を判定する。単語置換は、しばしば辞書ルックアップに
基づいて単純に行う。単語置換は、例えば別の単語また
は句にあたる頭字語を得るために行うことができる。例
えば英語では、「as soon as possib
le」という句は「ASAP」で置換することができ
る。
【0079】特別処理が単語置換である場合は、必要な
単語置換をテキスト中の単語に対して行って、Shor
tForm属性を得る。これをブロック250で示す。
単語置換が成功した場合は、CaseNormaliz
edForm(CNF)属性とCompressedF
orm(Comp)属性の双方を、このときにShor
tForm属性にみられるのと同じ形に設定する。これ
により、文字削減や大文字/小文字標準化などの後続処
理からその単語が除かれる。これをブロック252で示
す。したがって、単語置換プロセスを用いて、他の厄介
な状況も回避することができる。例えばドイツ語では、
代名詞「sich」は、よくある卑猥な言葉の省略形を
もたらす後続の母音削除を回避するために、(単語置換
により)「sich」のままにしておく必要がある可能
性がある。特別処理が単語置換であるかどうか判定する
ことを、ブロック248に示す。
【0080】ブロック248で、行う特定のタイプの特
別処理が単語置換ではないと判定した場合は、ブロック
254で、行う特別処理が前述の「wh」単語に関連す
る処理かどうか判定する。そうである場合は、「wh」
単語は短縮されないことを想起されたい。この場合、残
りのすべての属性(ShortForm、CaseNo
rmalizedForm、およびCompresse
dForm)は、LongFormに設定する。これを
ブロック256で示す。
【0081】ブロック254で、行われる特別処理が
「wh」単語に関連する処理ではないと判定された場合
は、前述の特別処理操作のうちの他の1つでなければな
らない。この場合、その特定の特別処理ステップを行っ
てShortForm属性を獲得し、それを保存する。
これをブロック258で示す。
【0082】特別処理を行い、ShortForm属性
を得た後で、ShortForm属性をスペース除去に
かける。最初に、スペース除去を行うべきかどうかを決
定する。これをブロック260で示す。行うべきである
場合は、短い形を以下のプロシージャ中に述べるような
スペース除去アルゴリズムにかける。
【0083】各トークンを以下のとおり分類する <EssentialPunct>:これらは叙述を必要とせず、すべてのトークンを叙述する 働きをすると仮定する <CaseDelineable>:大文字/小文字を標準化できる場合の、すべての通常の単 語/句などを含む <Number>:数字(これらには「2」に変換された「two」のようなトークン が含まれることに留意されたい) <SpaceDelineable>:URLや電子メールアドレスのように、周りにスペースが なければならないトークン アルゴリズムの一実施形態 //前にスペースのない短い形で始める Result = RemoveLeadingSpaces (<short form>) //トークンがNULLでない場合にのみこれを行う if (Result) { FrontSpaceNeeded = FALSE; //現在のトークンのタイプをオンにする switch <curtype> { case <EssentialPunct>: //すべて行うべきである。叙述は必要でない break; case <CaseDelineable>: //前のタイプがspace delineableであった場合はスペースを配置する if (prevtype == <SpaceDelineable>) FrontSpaceNeeded = TRUE; break; case <Number>: //前のタイプがnumberまたはspace delineableであった場合はスペースを 配置する if (prevtype == <SpaceDelineable> || prevtype == <Number> || Previ ousTokenがディジットで終わる) FrontSpaceNeeded = True; break; case <SpaceDelineable>: //前のトークンがessential punctuationでない限りスペースを配置する if (prevtype! = <EssentialPunct> && !lsFirstTokenInSentence) Front SpaceNeeded = TRUE; break; } //前のタイプを現在のタイプに設定する prevtype = curtype; if (FrontSpaceNeeded) Result = AddLeadingSpace (<Result>) }
【0084】この擬似コードは、URLや電子メールア
ドレスなどの前にあるスペースは除去されず、これらの
後に続くスペースも除去されないことを示している。し
かし、叙述がなされる可能性のあるその他の場合では、
スペースはShortForm属性から除去されること
になる。これをブロック262で示す。
【0085】次に、大文字/小文字標準化を行うかどう
かを判定する。これをブロック264で示す。例えば、
URLおよび電子メール、ならびに大文字/小文字の影
響を受けやすいその他のものの中では、大文字/小文字
標準化は望ましくない場合があることを理解されたい。
このような場合は、ブロック266で示すように、Ca
seNormalizedForm属性をShortF
orm属性に設定する。しかし、大文字/小文字標準化
が行われる場合は、ShortForm属性の各単語の
第1文字(トークンは複数の単語からなる可能性がある
ことを想起されたい)を大文字にし、これをCaseN
ormalizedForm属性として保存する。これ
をブロック268で示す。
【0086】次に、さらに圧縮を行うかどうかを判定す
る。これをブロック270で示す。例えば、上述したい
くつかの特別処理の場合では、母音除去は行わない(英
語の代名詞、「wh」単語、固有名詞や、Mon、Tu
esなどの日付のShortFormなど)。同様に、
頭文字、電子メールアドレス、URLなどからも、母音
または子音は除去しない。
【0087】これ以上の圧縮を行わない場合は、ブロッ
ク272で示すように、CompressedForm
属性をCaseNormalizedFormに設定す
る。しかし、さらに圧縮を行う場合は、CaseNor
malizedFormに文字削減を施す(母音および
子音の除去など)。
【0088】この考察では、用語「語中母音」とは、単
語の最初にあるのでも最後にあるのでもない単一母音ま
たは一連の母音を意味する。英語では、すべての語中母
音は除去される。
【0089】ドイツ語において文字を除去する場合は、
まず子音群の簡略化規則が適用される。例えば、子音群
「sch」は、指小接尾辞−schenの中以外では
「sh」に簡略化される。子音群「ck」もまた、
「k」に簡略化される。
【0090】次に、語尾に随伴する−einは、同じ発
音の−1で置換される。ドイツ語には、−einで終わ
るが数字の1と同じ発音ではない単語がいくつかある。
このような単語のいくつかの例を以下に挙げる。
【0091】Codein、Coffein、Case
in、Fluoreszein、Hussein、Ka
ffein、Kasein、Kleberprotei
n、Kodein、Lutein、Movein、Nu
klein、Nuclein、Olein、Pheno
lphtalein、Phtalein、Protei
n、Pygmaein、Talein、Tein、Th
ein、Zein、Zygstein また、後続の単語が数字、日付、時間など(ディジット
で始まる場合のある何らかのもの)である場合も、「e
in」置換は行われないことに留意されたい。
【0092】ドイツ語で、語中母音を1つしか含まない
単語の中では、母音は削除されない。2つ以上の語中母
音を含む単語の場合は、2番目の語中母音ごとに削除さ
れる。子音と語尾「ng」との間の文字「u」は削除さ
れる。まだ残っている「ie」がある場合は、「i」に
変換される。最後に、文字「e」は、子音に続き、かつ
語尾「l、m、n、またはr」の前にある場合は、削除
される。母音は、文字sに続き、かつ群chの前にある
場合は、削除されないことに留意されたい。削除される
と、schという連続になり、ドイツ語の読み手はこれ
を1つの子音の始めと解釈する傾向が非常に強いからで
ある。この考察では、母音には通常、aeiouが含ま
れ、いくつかの言語ではyも含まれ、またアクセント、
ウムラウト、およびその他の発音区別符号が付いたすべ
ての形が含まれる。英語、ドイツ語、フランス語、およ
びスペイン語に対する十分なリストを以下に挙げる。
【0093】
【外2】
【0094】英語、ドイツ語、フランス語、およびスペ
イン語では、子音には以下のものが含まれる。
【0095】
【外3】
【0096】他の言語の場合は、追加の子音記号を追加
することができる。
【0097】ブロック274で示すように文字削減(母
音除去や子音除去など)が行われると、Compres
sedForm属性が得られ、保存される。これをブロ
ック276で示す。最後に、可能性ある圧縮オプション
として5つの属性すべてを出力することができる。これ
をブロック278で示す。
【0098】構文解析ツリーの走査中に、末端以外のノ
ードレベルでも圧縮を行うことができることにも留意さ
れたい。一実施形態では、構文分析に基づいて句全体を
削除する。例えば、「While I was stu
ck on the freeway,I remem
bered to ask you to sendm
e the contact information
for Dr.Mary Smith.(フリーウェ
イで立ち往生している間に、Mary Smith先生
に関するコンタクト情報を送ってくれるようにあなたに
頼むことを思い出した。)という文を考えてみる。この
例では、文頭の従属節全体を削除することができる。言
い換えれば、構文分析によってこれが従属節であること
が示され、従属接続詞「while」によってこれが時
を表す副詞節であることが示される。したがって、この
フレーズ全体を単純に削除して、「I remembe
red to ask you to send me
the contact information
for Dr.Mary Smith.」という文を得
ることができる。1998年12月24日に出願された
SYSTEM FOR IMPROVING THE
PERFORMANCE OF INFORMATIO
N IDENTIFYING CLAUSES HAV
ING PREDETERMINED CHARACT
ERISTICSという名称の特許出願第_09/22
0836号に、従属節の識別、およびそれらの節が比較
的重要な題材を含んでいるかどうかの識別に関する追加
情報が提供されている。
【0099】末端以外のノードレベルでの圧縮に関する
別の例は、発話行為動詞に関するものである。発話行為
動詞は、言語学で「補語をとる述語」と呼ばれるサブク
ラスである。英語では、以下の文にあいまいさが示され
る。
【0100】「John said that he
was arriving next Wednesd
ay.」ある読み方では、単語「he」は「John」
と同一指示的である。別の読み方では、「he」は他の
誰かである可能性がある。以下のように、出力を入力よ
りいくらかでもあいまいにすることなく、この文のいく
つかの要素を削除することができる。
【0101】母型節の発話行為動詞の主語(この場合は
「said」の主語である「John」)が従属節の代
名詞主語(he)と同一指示的であるかもしれない場合
に、形態ルックアップからわかるようにこれらが双方と
も男性であることに注意することによって、または同一
指示性を決定するためのより複雑な意味論分析を用いる
ことによって、同一指示的であることが決定できる場合
は、従属節中の代名詞は削除することができる。従属接
続詞「that」もまた削除でき、以下のようになるこ
とに留意されたい。
【0102】「John said was arri
ving next Wednesday」従属節の主
語は、それが代名詞であって、かつ主節の主語と同一指
示的であるときだけ削除するように注意しなければなら
ないことに留意されたい。例えば、以下の場合は削除す
べきではない。
【0103】John said that she
was arriving... John said that Bill was a
rriving... John sain that they were
arriving...
【0104】この時点で、図3に示した文を例にして話
を続けるのが有用であろう。先に述べたように、分析に
おける各ノードを再帰的に調べて、圧縮が達成できるか
どうかを判定する。したがって、最初に文ノード(S)
を調べる。この時点では圧縮を行うことはできず、した
がって処理はより深い分析に進み、名詞句ノード300
を調べる。このレベルでは圧縮を行うことはできず、し
たがって、処理はより深く代名詞ノード302に進む。
代名詞は「you」であることがわかる。したがって、
特別処理の規定により、これを「U」に変換することが
できる。この結果、以下の属性が得られる。
【0105】ShortType=Pronouns LongForm=You ShortForm=U CNF=U Comp.=U
【0106】次の処理は、動詞句ノード304に関して
継続する。このレベルでは圧縮を行うことはできないこ
とがわかり、したがって動詞ノード306を調べる。語
「have」を、単純に図5および図6に示すフローチ
ャート中を通し、大文字/小文字標準化および母音除去
を施して、語「Hve」が得られる。これにより、以下
の属性が得られる(下線は前にあるスペースを表す)。
【0107】 ShortType=VerbsDefault LongForm=_have ShortForm=_have CNF=Have Comp.=Hve
【0108】この場合も、ノード308を調べ、このレ
ベルでは圧縮を行うことはできないことがわかる。した
がって、検査はノード310に進み、図5のブロック2
40で冠詞「a」を削除する。これにより以下のように
なる。
【0109】ShortType=Articles LongForm=_a ShortForm=Null CNF=Null Comp.=Null
【0110】次いで、ノード312を調べて単語置換を
施し、これにより以下の5つの属性が得られる。
【0111】ShortType=WordSubst
itution LongForm=_meeting ShortForm=Mtg CNF=Mtg Comp.=Mtg
【0112】次いで、前置詞句ノード314を調べる
が、このレベルでは圧縮を行うことはできないと判定さ
れる。したがって、前置詞ノード316を調べる。処理
は図5および図6のフローチャート中を移動し、大文字
/小文字標準化および母音除去を行って、以下の5つの
属性が得られる。
【0113】 ShortType=PrepsDefault LongForm=_with ShortForm=_with CNF=With Comp.=Wth
【0114】次いで、固有名詞ノード318を調べる。
このノードでは、PrprNのShortTypeを用
いて3つの単語「Dr.John Epstein」を
圧縮できることがわかる。これにより、以下の5つの属
性が得られる。
【0115】ShortType=PrprN LongForm=_Dr._John_Epstei
n ShortForm=_Epstein CNF=Epstein Comp.=Epstein
【0116】次に、ノード320を調べるが、この句が
オフセット日付を表していることがわかる。図5および
図6に示すフローチャートを通してこれを分析し、以下
の5つの属性が得られる。
【0117】 ShortType=OffsetDate LongForm=_next_Tuesday ShortForm=_12/3 CNF=12/3 Comp.=12/3
【0118】次に、ノード322を調べるが、このノー
ドでは圧縮を行うことはできないと判定される。したが
って、前置詞ノード324を調べる。図5および図6に
示す処理を通して、語「at」が「@」に対する単語置
換の対象であることに気付く。これにより、以下の5つ
の属性が得られる。
【0119】ShortType=WordSubst
itution LongForm=_at ShortForm=@ CNF=@ Comp.=@
【0120】最後にノード326を調べるが、見つかる
圧縮は、綴り字の語「ten」に数字「10」が取って
代わることだけであり、これにより5つの属性が得られ
る。
【0121】ShortType=Numbers LongForm=_ten_am ShortForm=_10am CNF=10am Comp.=10am
【0122】次いでコンプレッサ202が、これらのデ
ータ構造中に示した様々な圧縮オプションの中から自由
に選りすぐって、最終的な出力であるテキスト圧縮バー
ジョンを提供する。これは、ターゲットデバイス205
上の表示画面のサイズが著しく限られている場合は非常
に大胆に行うことができ、例えば表示空間のより大きい
パームトップコンピュータの場合は、より低い大胆さで
行うことができる。したがって、最も大胆な圧縮は以下
のようになる。
【0123】UHVeMtgWthEpstein12
/3@10am
【0124】非常に大胆な圧縮でも、これは大いに読む
ことが可能かつ解読可能なテキストメッセージであり、
それでもなお、図3に述べた原形に勝って多くの空間を
節約する。
【0125】したがって、本発明を使用して大きな圧縮
をもたらすことができ、それでもなお、圧縮は、人間が
容易に解読できるような言語的に非常にインテリジェン
トな方式で行われることがわかる。本発明はまた、個々
の単語および句ごとに異なる複数の圧縮オプションを提
供し、これらは多くの場合、大胆さの様々な度合いを反
映する。このことは、最終的にターゲットデバイス中で
最良の圧縮シーケンスを選択しなければならないダウン
ストリームコンポーネントにとって非常に有用である。
【0126】本発明を特定の実施形態に関して述べた
が、本発明の趣旨および範囲を逸脱することなく形式お
よび詳細に変更を加えることができることを当業者なら
理解するであろう。
【図面の簡単な説明】
【図1】本発明を使用することのできる一実施形態のブ
ロック図である。
【図2】本発明の一実施形態により言語分析を行うため
のメッセージハンドラのブロック図である。
【図3】例示的な文に関する構文解析ツリーの一部の図
である。
【図4】図2に示したシステムの全体的な動作のフロー
チャートである。
【図5】構文分析の中の末端ノード(または単語および
句読点)に対する圧縮オプションを生成する際の、図2
に示したシステムの動作を示すより詳細なフローチャー
トである。
【図6】構文分析の中の末端ノード(または単語および
句読点)に対する圧縮オプションを生成する際の、図2
に示したシステムの動作を示すより詳細なフローチャー
トである。
【符号の説明】
110 コンピュータ 120 プロセッシングユニット 121 システムバス 130 システムメモリ 131 ROM 132 RAM 133 BIOS 134 オペレーティングシステム 135 アプリケーションプログラム 136 その他のプログラムモジュール 137 プログラムデータ 140 取外し不可能かつ不揮発性メモリインタフェー
ス 141 ハードディスクドライブ 144 オペレーティングシステム 145 アプリケーションプログラム 146 その他のプログラムモジュール 147 プログラムデータ 150 取外し可能かつ不揮発性メモリインタフェース 151 磁気ディスクドライブ 152 磁気ディスク 155 光学ディスクドライブ 156 光学ディスク 160 ユーザ入力インタフェース 161 ポインティングデバイス 162 キーボード 163 マイクロホン 170 ネットワークインタフェース 171 ローカルエリアネットワーク 172 モデム 173 ワイドエリアネットワーク 180 リモートコンピュータ 185 リモートアプリケーションプログラム 190 ビデオインタフェース 191 モニタ 195 出力周辺インタフェース 196 プリンタ 197 スピーカ 200 メッセージハンドラ 202 コンプレッサ 204 メッセージパーサ 205 ターゲットデバイス 206 言語アナライザ 208 テキスト圧縮コンポーネント 210 リンク 212 メッセージ 214 メッセージ本文 216 圧縮済みXML出力 300、302、304、306、308、310、3
12、314、316、318、320、322、32
4、326 ノード
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04B 7/26 H04M 1/725 5K101 H04M 1/725 11/00 302 11/00 302 H04B 7/26 M (72)発明者 シャラド マシュア アメリカ合衆国 98052 ワシントン州 レッドモンド ノースイースト 76 コー ト 14924 Fターム(参考) 5B009 ME21 QA02 RB01 VB02 5B075 KK23 ND03 ND18 NR16 UU24 5B091 AA13 CA02 CA05 CC02 5K027 AA11 BB01 FF01 FF22 5K067 AA21 BB04 BB21 DD51 EE02 EE10 EE16 FF02 FF23 HH22 5K101 KK02 LL12 NN18 NN21 UU19

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 テキスト本文を処理して圧縮オプション
    を生成する方法であって、 テキスト本文に対して言語分析を行って、テキスト本文
    の言語構成要素を示す言語出力を取得し、 前記言語出力に基づいて、テキスト本文を圧縮するため
    の複数の圧縮オプションを生成することを含むことを特
    徴とする方法。
  2. 【請求項2】 前記複数の圧縮オプションを生成する処
    理では、テキスト本文の一部に様々な圧縮規則セットを
    当てはめて、複数の圧縮オプションを取得することを特
    徴とする請求項1に記載の方法。
  3. 【請求項3】 前記テキスト本文に様々な圧縮規則セッ
    トを当てはめる処理では、圧縮オプションがテキスト本
    文の同じ部分の様々な圧縮程度を反映するように、テキ
    スト本文の一部に所定の順序で異なる圧縮規則セットを
    当てはめることを特徴とする請求項2に記載の方法。
  4. 【請求項4】 前記複数の圧縮オプションを生成する処
    理では、テキスト本文の一部に当てはめられる圧縮規則
    セットのうちの少なくとも1つを示す圧縮識別子属性を
    生成することを特徴とする請求項4に記載の方法。
  5. 【請求項5】 前記複数の圧縮オプションを生成する処
    理では、圧縮規則セット適用後のテキスト本文の一部の
    圧縮形を示すShortForm属性を生成することを
    特徴とする請求項4に記載の方法。
  6. 【請求項6】 前記複数の圧縮オプションを生成する処
    理では、ShortForm属性に基づいて、Shor
    tForm属性のCaseNormalizedFor
    mを示す大文字/小文字標準化済み属性を生成すること
    を特徴とする請求項5に記載の方法。
  7. 【請求項7】 前記複数の圧縮オプションを生成する処
    理では、大文字/小文字標準化済み属性をさらに圧縮し
    た形を示す圧縮属性を生成することを特徴とする請求項
    6に記載の方法。
  8. 【請求項8】 前記圧縮属性を生成する処理では、大文
    字/小文字標準化済み属性に文字除去規則を適用して、
    CaseNormalizedForm中の文字の所定
    位置に基づいて文字を除去することを特徴とする請求項
    7に記載の方法。
  9. 【請求項9】 前記複数の圧縮オプションを生成する処
    理では、テキスト本文の一部のほとんど圧縮されない形
    を反映するLongForm属性を生成することを特徴
    とする請求項8に記載の方法。
  10. 【請求項10】 前記ShortForm属性が、辞書
    ルックアップに基づく単語置換形を含み、複数の圧縮オ
    プションを生成する処理では、大文字/小文字標準化済
    み属性および圧縮属性をShortForm属性に設定
    することを特徴とする請求項9に記載の方法。
  11. 【請求項11】 前記言語分析を行う処理では、テキス
    ト本文の一部に対して構文分析を行い、前記Short
    Form属性を生成する処理では、構文分析に基づいて
    圧縮規則セットを適用することを特徴とする請求項5に
    記載の方法。
  12. 【請求項12】 前記言語分析では、さらに、構文分析
    を行う前に、テキスト本文に対して語彙分析を行い、お
    よびテキスト本文に対して形態分析を行うことを特徴と
    する請求項11に記載の方法。
  13. 【請求項13】 前記ShortForm属性を生成す
    る処理では、日付を数字の形に標準化することを特徴と
    する請求項5に記載の方法。
  14. 【請求項14】 前記ShortForm属性を生成す
    る処理では、テキスト本文が書かれた日付に基づいてオ
    フセット日付を数字の形に標準化することを特徴とする
    請求項5に記載の方法。
  15. 【請求項15】 前記ShortForm属性を生成す
    る処理では、記号の影響を受けやすいテキストフラグメ
    ントを未圧縮の形で維持することを特徴とする請求項5
    に記載の方法。
  16. 【請求項16】 前記記号の影響を受けやすいテキスト
    フラグメントを維持する処理では、完全にそのままにし
    ておかない限り正確に理解できないテキストフラグメン
    トを未圧縮の形で維持することを特徴とする請求項15
    に記載の方法。
  17. 【請求項17】 前記テキストフラグメントを維持する
    処理では、ユニフォームリソースロケータおよび電子メ
    ールアドレスを未圧縮の形で維持することを特徴とする
    請求項16に記載の方法。
  18. 【請求項18】 前記構文分析は、テキスト本文の複数
    単語からなる部分を表す末端以外のノードと、テキスト
    本文中の単語を示す末端ノードとを有するツリーを含
    み、末端以外のノードと末端ノードが双方とも、圧縮規
    則が適用されるかどうか検査されることを特徴とする請
    求項11に記載の方法。
  19. 【請求項19】 テキスト本文の一部の分析から形成さ
    れ、テキスト本文の一部についての複数の圧縮形を示す
    データ構造であって、 テキスト本文の一部についての複数の圧縮形を表す複数
    のデータフィールドを備えることを特徴とするデータ構
    造。
  20. 【請求項20】 メッセージを受け取り、メッセージ中
    のテキスト本文の一部の様々な形を示す圧縮オプション
    を生成するメッセージハンドラであって、 テキスト本文を分析し、言語分析を提供するように言語
    的に構成された言語アナライザと、 言語分析に基づいてテキスト本文の一部についての複数
    の圧縮形を生成するように構成された圧縮形ジェネレー
    タとを備えることを特徴とするメッセージハンドラ。
JP2002019244A 2001-01-26 2002-01-28 言語的にインテリジェントなテキスト圧縮 Pending JP2002334071A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/770,779 US7069207B2 (en) 2001-01-26 2001-01-26 Linguistically intelligent text compression
US09/770,779 2001-01-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007191482A Division JP2007265458A (ja) 2001-01-26 2007-07-23 複数の圧縮オプションを生成する方法およびコンピュータ

Publications (1)

Publication Number Publication Date
JP2002334071A true JP2002334071A (ja) 2002-11-22

Family

ID=25089649

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002019244A Pending JP2002334071A (ja) 2001-01-26 2002-01-28 言語的にインテリジェントなテキスト圧縮
JP2007191482A Pending JP2007265458A (ja) 2001-01-26 2007-07-23 複数の圧縮オプションを生成する方法およびコンピュータ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007191482A Pending JP2007265458A (ja) 2001-01-26 2007-07-23 複数の圧縮オプションを生成する方法およびコンピュータ

Country Status (4)

Country Link
US (2) US7069207B2 (ja)
EP (1) EP1227408A3 (ja)
JP (2) JP2002334071A (ja)
KR (1) KR100890691B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016151884A (ja) * 2015-02-17 2016-08-22 京セラドキュメントソリューションズ株式会社 表示装置、情報処理装置、メッセージ表示方法

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234727A1 (en) * 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
FR2841355B1 (fr) * 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
EP1532790B1 (en) 2002-07-22 2007-11-14 Nokia Corporation Method and arrangement for obtaining an electronic mail service
US7548848B1 (en) * 2003-01-08 2009-06-16 Xambala, Inc. Method and apparatus for semantic processing engine
JP2006276918A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳装置、翻訳方法およびプログラム
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8225231B2 (en) 2005-08-30 2012-07-17 Microsoft Corporation Aggregation of PC settings
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7567586B2 (en) 2005-10-31 2009-07-28 Microsoft Corporation Above-transport layer message partial compression
CN100401724C (zh) * 2005-12-15 2008-07-09 华为技术有限公司 发送即时消息的方法和设备
US7786979B2 (en) 2006-01-13 2010-08-31 Research In Motion Limited Handheld electronic device and method for disambiguation of text input and providing spelling substitution
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
US8392183B2 (en) * 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US20080133365A1 (en) * 2006-11-21 2008-06-05 Benjamin Sprecher Targeted Marketing System
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7970616B2 (en) * 2007-07-23 2011-06-28 Dapkunas Ronald M Efficient review of data
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8219385B2 (en) * 2008-04-08 2012-07-10 Incentive Targeting, Inc. Computer-implemented method and system for conducting a search of electronically stored information
US8666729B1 (en) * 2010-02-10 2014-03-04 West Corporation Processing natural language grammar
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100087169A1 (en) * 2008-10-02 2010-04-08 Microsoft Corporation Threading together messages with multiple common participants
US20100107100A1 (en) 2008-10-23 2010-04-29 Schneekloth Jason S Mobile Device Style Abstraction
US8385952B2 (en) 2008-10-23 2013-02-26 Microsoft Corporation Mobile communications device user interface
US8411046B2 (en) 2008-10-23 2013-04-02 Microsoft Corporation Column organization of content
US8812311B2 (en) * 2008-10-27 2014-08-19 Frank Elmo Weber Character-based automated shot summarization
JP5412096B2 (ja) * 2008-12-03 2014-02-12 株式会社やまびこ 携帯式チェンソーの動力ユニット構造
US20100145676A1 (en) * 2008-12-09 2010-06-10 Qualcomm Incorporated Method and apparatus for adjusting the length of text strings to fit display sizes
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8175653B2 (en) 2009-03-30 2012-05-08 Microsoft Corporation Chromeless user interface
US8355698B2 (en) 2009-03-30 2013-01-15 Microsoft Corporation Unlock screen
US8238876B2 (en) 2009-03-30 2012-08-07 Microsoft Corporation Notifications
US8836648B2 (en) 2009-05-27 2014-09-16 Microsoft Corporation Touch pull-in gesture
US9424444B2 (en) 2009-10-14 2016-08-23 At&T Mobility Ii Llc Systems, apparatus, methods and computer-readable storage media for facilitating integrated messaging, contacts and social media for a selected entity
US8924893B2 (en) * 2009-10-14 2014-12-30 At&T Mobility Ii Llc Locking and unlocking of an electronic device using a sloped lock track
US20130262486A1 (en) * 2009-11-07 2013-10-03 Robert B. O'Dell Encoding and Decoding of Small Amounts of Text
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US20120159383A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Customization of an immersive environment
US20120159395A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Application-launching interface for multiple modes
US8612874B2 (en) 2010-12-23 2013-12-17 Microsoft Corporation Presenting an application change through a tile
US8689123B2 (en) 2010-12-23 2014-04-01 Microsoft Corporation Application reporting in an application-selectable user interface
US9423951B2 (en) 2010-12-31 2016-08-23 Microsoft Technology Licensing, Llc Content-based snap point
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US9383917B2 (en) 2011-03-28 2016-07-05 Microsoft Technology Licensing, Llc Predictive tiling
US8893033B2 (en) 2011-05-27 2014-11-18 Microsoft Corporation Application notifications
US9658766B2 (en) 2011-05-27 2017-05-23 Microsoft Technology Licensing, Llc Edge gesture
US9104307B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US9158445B2 (en) 2011-05-27 2015-10-13 Microsoft Technology Licensing, Llc Managing an immersive interface in a multi-application immersive environment
US9104440B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US20120304132A1 (en) 2011-05-27 2012-11-29 Chaitanya Dev Sareen Switching back to a previously-interacted-with application
US8687023B2 (en) 2011-08-02 2014-04-01 Microsoft Corporation Cross-slide gesture to select and rearrange
US20130057587A1 (en) 2011-09-01 2013-03-07 Microsoft Corporation Arranging tiles
US9557909B2 (en) 2011-09-09 2017-01-31 Microsoft Technology Licensing, Llc Semantic zoom linguistic helpers
US10353566B2 (en) 2011-09-09 2019-07-16 Microsoft Technology Licensing, Llc Semantic zoom animations
US8922575B2 (en) 2011-09-09 2014-12-30 Microsoft Corporation Tile cache
US8933952B2 (en) 2011-09-10 2015-01-13 Microsoft Corporation Pre-rendering new content for an application-selectable user interface
US9146670B2 (en) 2011-09-10 2015-09-29 Microsoft Technology Licensing, Llc Progressively indicating new content in an application-selectable user interface
US9244802B2 (en) 2011-09-10 2016-01-26 Microsoft Technology Licensing, Llc Resource user interface
US8965752B2 (en) 2011-10-06 2015-02-24 International Business Machines Corporation Filtering prohibited language formed inadvertently via a user-interface
US9223472B2 (en) 2011-12-22 2015-12-29 Microsoft Technology Licensing, Llc Closing applications
US9128605B2 (en) 2012-02-16 2015-09-08 Microsoft Technology Licensing, Llc Thumbnail-image selection of applications
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
GB2509889A (en) * 2012-10-15 2014-07-23 Kieran Hayes Compressing text for software input
US10303746B1 (en) 2012-12-21 2019-05-28 CRLK, Inc. Method for coding a vanity message for display
US11010535B1 (en) 2012-12-21 2021-05-18 Crkl, Inc. Method for coding a vanity message for display
US9450952B2 (en) 2013-05-29 2016-09-20 Microsoft Technology Licensing, Llc Live tiles without application-code execution
EP3126969A4 (en) 2014-04-04 2017-04-12 Microsoft Technology Licensing, LLC Expandable application representation
WO2015154273A1 (en) 2014-04-10 2015-10-15 Microsoft Technology Licensing, Llc Collapsible shell cover for computing device
EP3129847A4 (en) 2014-04-10 2017-04-19 Microsoft Technology Licensing, LLC Slider cover for computing device
US10678412B2 (en) 2014-07-31 2020-06-09 Microsoft Technology Licensing, Llc Dynamic joint dividers for application windows
US10592080B2 (en) 2014-07-31 2020-03-17 Microsoft Technology Licensing, Llc Assisted presentation of application windows
US10254942B2 (en) 2014-07-31 2019-04-09 Microsoft Technology Licensing, Llc Adaptive sizing and positioning of application windows
US10642365B2 (en) 2014-09-09 2020-05-05 Microsoft Technology Licensing, Llc Parametric inertia and APIs
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
WO2016065568A1 (en) 2014-10-30 2016-05-06 Microsoft Technology Licensing, Llc Multi-configuration input device
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
US10484493B2 (en) 2015-11-17 2019-11-19 At&T Intellectual Property I, L.P. Method and apparatus for communicating messages
US9639528B1 (en) 2016-01-29 2017-05-02 Sap Se Translation-based visual design
US10275450B2 (en) * 2016-02-15 2019-04-30 Tata Consultancy Services Limited Method and system for managing data quality for Spanish names and addresses in a database
US10581456B2 (en) * 2016-06-22 2020-03-03 Fujitsu Limited Data compression device and data decompression device
US10261990B2 (en) * 2016-06-28 2019-04-16 International Business Machines Corporation Hybrid approach for short form detection and expansion to long forms
US10083170B2 (en) 2016-06-28 2018-09-25 International Business Machines Corporation Hybrid approach for short form detection and expansion to long forms
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10210147B2 (en) * 2016-09-07 2019-02-19 International Business Machines Corporation System and method to minimally reduce characters in character limiting scenarios
EP3605316A4 (en) * 2017-03-30 2020-04-01 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN109388794A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 一种时间解析方法、装置、设备和计算机存储介质
US20190065446A1 (en) * 2017-08-22 2019-02-28 Microsoft Technology Licensing, Llc Reducing text length while preserving meaning
US10839135B1 (en) * 2018-01-03 2020-11-17 Amazon Technologies, Inc. Detection of access to text-based transmissions

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4333152A (en) * 1979-02-05 1982-06-01 Best Robert M TV Movies that talk back
JP3192415B2 (ja) * 1990-08-01 2001-07-30 キヤノン株式会社 文生成方式
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
US5410475A (en) * 1993-04-19 1995-04-25 Mead Data Central, Inc. Short case name generating method and apparatus
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
JPH1063666A (ja) * 1996-08-27 1998-03-06 Toshiba Corp 短縮文字列置き換え装置及び短縮文字列置き換え方法、及び短縮文字列置き換え方法のプログラムを格納した記憶媒体
US6026410A (en) * 1997-02-10 2000-02-15 Actioneer, Inc. Information organization and collaboration tool for processing notes and action requests in computer systems
JPH10240206A (ja) * 1997-02-28 1998-09-11 Sony Corp 表示装置
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
GB9806085D0 (en) 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
JP4214598B2 (ja) * 1998-04-02 2009-01-28 ソニー株式会社 文書処理方法および装置ならびに記録媒体
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
US6279018B1 (en) * 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
US6535886B1 (en) * 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
AU2001261505A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Machine translation techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016151884A (ja) * 2015-02-17 2016-08-22 京セラドキュメントソリューションズ株式会社 表示装置、情報処理装置、メッセージ表示方法

Also Published As

Publication number Publication date
EP1227408A2 (en) 2002-07-31
US20020138248A1 (en) 2002-09-26
KR100890691B1 (ko) 2009-03-26
JP2007265458A (ja) 2007-10-11
US7069207B2 (en) 2006-06-27
US20060184351A1 (en) 2006-08-17
US7398203B2 (en) 2008-07-08
KR20020063118A (ko) 2002-08-01
EP1227408A3 (en) 2005-07-20

Similar Documents

Publication Publication Date Title
JP2002334071A (ja) 言語的にインテリジェントなテキスト圧縮
US6965857B1 (en) Method and apparatus for deriving information from written text
US6922809B2 (en) Method and apparatus providing capitalization recovery for text
US5634084A (en) Abbreviation and acronym/initialism expansion procedures for a text to speech reader
Mikheev Periods, capitalized words, etc.
US6694055B2 (en) Proper name identification in chinese
US5890103A (en) Method and apparatus for improved tokenization of natural language text
Miller et al. BBN: Description of the SIFT system as used for MUC-7
US7421386B2 (en) Full-form lexicon with tagged data and methods of constructing and using the same
US6658377B1 (en) Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
Daelemans et al. Automatic Sentence Simplification for Subtitling in Dutch and English.
EP2354967A1 (en) Semantic textual analysis
US6424982B1 (en) System and method for parsing a document using one or more break characters
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
US20030061031A1 (en) Japanese virtual dictionary
US7328404B2 (en) Method for predicting the readings of japanese ideographs
US8041556B2 (en) Chinese to english translation tool
TW548600B (en) Method and system for identifying attributes of new words in non-segmented text
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
Jenkins et al. Conservative stemming for search and indexing
CN109960806A (zh) 一种自然语言处理方法
JP3518340B2 (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
O’Rourke et al. Word variant identification in old french
Nongmeikapam et al. Improvement of CRF based Manipuri POS tagger by using Reduplicated MWE (RMWE)
JP4071657B2 (ja) テキスト処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050107

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070323

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20070622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070723

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070820

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100125