JP2007265458A - 複数の圧縮オプションを生成する方法およびコンピュータ - Google Patents

複数の圧縮オプションを生成する方法およびコンピュータ Download PDF

Info

Publication number
JP2007265458A
JP2007265458A JP2007191482A JP2007191482A JP2007265458A JP 2007265458 A JP2007265458 A JP 2007265458A JP 2007191482 A JP2007191482 A JP 2007191482A JP 2007191482 A JP2007191482 A JP 2007191482A JP 2007265458 A JP2007265458 A JP 2007265458A
Authority
JP
Japan
Prior art keywords
word
compression
text body
computer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007191482A
Other languages
English (en)
Inventor
Simon H Corston-Oliver
エイチ.コーストン−オリバー サイモン
Sharad Mathur
マシュア シャラド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2007265458A publication Critical patent/JP2007265458A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

【課題】小さな表示画面にテキストを表示可能にする。
【解決手段】表示すべきテキスト中の各単語を言語解析し、言語解析に応じて、各単語について複数の圧縮オプションを割り当てる(230)。複数の圧縮オプションの1つを選択して(232)、選択の圧縮オプションに対応の圧縮形(圧縮の単語)を取得する。
【選択図】図4

Description

本発明は、限られた表示空間を有するデバイス上でのメッセージングに関する。より詳細には、本発明は、テキストをより容易に小さな画面上に表示できるように、言語的にインテリジェントな方式でテキストを圧縮することに関する。
メッセージングは、現在のコンピュータシステム上で広く利用可能である。メッセージは、音声メール、電子メール(eメール)、ページングを介して、また、その他のソースまたは手段から送信することができる。さらに、様々なソースからのメッセージを統合して、単一のデバイスに転送することもできる。例えば、コンピュータまたはコンピュータネットワークにおいて、目下、音声メールおよび電子メールを介してメッセージを受信しているユーザが、このようなメッセージを受信する能力を備えたセルラーホンにこれらのメッセージを転送することもできる。しかし、セルラーホンの画面は、著しく限られた表示空間である。このことは、メッセージを表示しようとする際に非常に大きな問題を提示する可能性がある。
例えば、ごく短い電子メールメッセージまたは文字化された音声メールメッセージであっても、セルラーホンの単一画面上で見るには大きすぎるテキストを提示する可能性がある。これにより、ユーザはしばしば、メッセージの最初のわずかな単語から(それが表示できるすべてなので)メッセージ全体を解読するか、メッセージ全体を見るためにテキストの多くの行を下にスクロールする必要がある。これらの手法は双方とも煩わしく、エラーを引き起こす可能性がある。
テキスト圧縮は、従来、様々な多くのコンテキストで用いられてきたが、このような圧縮の目的は、主にテキストを効率的にデータ記憶できるようにすることであった。このような圧縮技法は、圧縮テキストを人間が解読しなければならないコンテキストには全く適用不可能である。
このような目的を達成するために、請求項1の発明は、コンピュータにおいて、テキスト本文を処理して複数の圧縮オプションを生成する方法において、前記コンピュータは、
前記テキスト本文について言語解析を実行し、前記テキスト本文の中の、単語および数字の1つを有する複数のトークンを取得する手段と、前記言語解析の実行の後、前記テキスト本文を圧縮するために、前記テキスト本文の中の複数の対応の異なるトークンの各々について複数の正しい圧縮オプションを自動的に生成して前記テキスト本文を圧縮するための手段であって、そこでは、前記正しい複数の圧縮オプションの各々は、異なる、前記テキスト本分の中の対応のトークンの正しい圧縮形を有し、前記対応のトークンの中の文字列または数字列の個数を少なくとも減らし、前記圧縮形には前記対応の複数のトークンの中のいくつかの、すべてではない文字列を含む手段と、前記テキスト本文の中の異なる複数のトークンの各々についての複数の圧縮オプションの1つを選択し、各トークンについて選択の圧縮のオプションに従って前記テキスト本文の圧縮形を出力する手段として動作することを特徴とする。
請求項2の発明は、メッセージを受け取り、メッセージの中のテキスト本文の一部分の異なる形態を示す複数の圧縮オプションを生成するコンピュータにおいて、言語学的に前記テキスト本文を解析して、前記テキスト本文の中の個々のトークンを葉ノードで示す言語学的解析を提供する手段と、少なくとも前記言語学的解析の中の葉ノードで表される複数のトークンについての複数の異なる圧縮形を提供する手段であって、前記複数の異なる圧縮形は、各々が対応の個々のトークンの正しい圧縮形を示す圧縮形生成手段と、前記テキスト本文の中の個々のトークンについての異なる複数の圧縮形の中の選択を示す出力を生成する圧縮手段とを備えたことを特徴とする。
請求項3の発明は、テキスト本文を圧縮するためのコンピュータにおいて、圧縮のタイプとして、単語の消去する、単語を置換するおよび単語そのものを使用するタイプが単語の言語学的特徴に対応して予め定められており、前記テキスト本文中の各単語の特徴を言語学的に解析する解析手段であって、前記言語学的の解析により得られる言語学的特徴は、単語に付加される属性の形態で表される解析手段と、前記属性に従って前記テキスト本文中の各単語を圧縮する圧縮手段とを備えたことを特徴とする。
請求項4の発明は、前記テキスト本文は、複数の単語を複数のノードとして表される1つのツリーの形態で表され、前記解析手段は前記ツリー上の各単語を検索して単語を言語学的に解析することを特徴とする。
図1に、本発明を実施できる、適したコンピューティングシステム環境100の例を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例でしかなく、本発明の使用または機能の範囲に関していかなる限定も示すものではない。コンピューティング環境100はまた、例示的な動作環境100中に示したコンポーネントのいずれか1つまたはそれらの組合せに関してどんな依存も要件も有しないと解釈すべきである。
本発明は、その他の様々な汎用または専用コンピューティングシステム環境または構成でも動作する。本発明と共に使用するのに適した、知られているコンピューティングシステム、環境、および/または構成としては、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが挙げられるが、これらに限定しない。
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで述べることができる。一般にプログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの双方のコンピュータ記憶媒体中に位置することができる。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形をとる汎用コンピューティングデバイスを含んでいる。コンピュータ110のコンポーネントとしては、プロセッシングユニット120と、システムメモリ130と、システムメモリを含めた様々なシステムコンポーネントをプロセッシングユニット120に結合するシステムバス121とを挙げることができるが、これらに限定しない。システムバス121は、様々なバスアーキテクチャのいずれかを用いたメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含めた、いくつかのタイプのバス構造のいずれでもよい。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ11は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ110がアクセスできる任意の利用可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取り外し可能媒体と取り外し不可能媒体の双方が含まれる。限定ではなく、例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他データを含めた情報を記憶するための任意の方法または技術で実装された揮発性媒体と不揮発性媒体、取り外し可能媒体と取り外し不可能媒体の双方が含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、ディジタル多用途ディスク(DVD)またはその他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、あるいは所望の情報を記憶するのに使用できコンピュータ100がアクセスできるその他の媒体が含まれるが、これらに限定しない。通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送WAVまたはその他のトランスポートメカニズムなどの変調されたデータ信号中に組み入れており、任意の情報送達媒体が含まれる。「変調されたデータ信号」という用語は、情報を信号にエンコードするようにその1つまたは複数の特性が設定または変更された信号を意味する。限定ではなく例として、通信媒体には、ワイヤードネットワークまたは直接ワイヤードネットワーク接続などのワイヤード媒体と、音響、FR、赤外線などのワイヤレス媒体およびその他のワイヤレス媒体が含まれる。以上のいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含めるべきである。
システムメモリ130は、読出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形をとるコンピュータ記憶媒体を含む。ROM131には通常、起動時などにコンピュータ110内の要素間で情報を転送することを支援するBIOS(basic input/output system)133が記憶されている。RAM132は通常、プロセッシングユニット120からすぐにアクセス可能であってプロセッシングユニット120が現在作用しているデータおよび/またはプログラムモジュールを含む。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137が示されている。
コンピュータ110はまた、その他の取外し可能/取外し不可能、かつ揮発性/不揮発性のコンピュータ記憶媒体を備えることもできる。例示にすぎないが、図1には、取外し不可能かつ不揮発性の磁気媒体に対して読取りまたは書込みを行うハードディスクドライブ141と、取外し可能かつ不揮発性の磁気ディスク152に対して読取りまたは書込みを行う磁気ディスクドライブ151と、CD ROMやその他の光学媒体など取外し可能かつ不揮発性の光学ディスク156に対して読取りまたは書込みを行う光学ディスクドライブ155が示されている。この例示的な動作環境で使用できるその他の取外し可能/取外し不可能、かつ揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、固体RAM、固体ROMなどが含まれるが、これらに限定しない。ハードディスクドライブ141は通常、インタフェース140などの取外し不可能メモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光学ディスクドライブ155は通常、インタフェース150などの取外し可能メモリインタフェースによってシステムバス121に接続される。
以上に論じ、図1に示したドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの記憶域をコンピュータ110に提供する。例えば図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を記憶しているものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じものとすることも異なるものとすることもできることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147は、これらが少なくとも異なるコピーであることを示すために、ここでは異なる番号を付けてある。
ユーザは、キーボード162、マイクロホン163、およびマウスやトラックボールやタッチパッドなどのポインティングデバイス161など、入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどを含めることができる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース160を介してプロセッシングユニット120に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインタフェースおよびバス構造によって接続することもできる。モニタ191または他のタイプの表示デバイスもまた、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータはまた、スピーカ197やプリンタ196など他の周辺出力デバイスを備えることもでき、これらは出力周辺インタフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を用いてネットワーク化された環境で動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードとすることができ、通常、コンピュータ110に関して上述した要素の多くまたはすべてを備える。図1に示す論理接続はローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーク化環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットでよくみられるものである。
LANネットワーキング環境で使用されるときは、コンピュータ110はネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるときは、コンピュータ110は通常、インターネットなどのWAN173を介して通信を確立するためのモデム172またはその他の手段を備える。モデム172は、内蔵でも外付けでもよく、ユーザ入力インタフェース160または他の適切なメカニズムを介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示すプログラムモジュールまたはその一部をリモートメモリ記憶デバイスに記憶することができる。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるものとして示してある。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立するための他の手段を使用することもできることを理解されたい。
図1に関して述べたようなコンピュータシステム上で本発明を実施できることに留意されたい。ただし、本発明は、サーバメッセージ処理専用のコンピュータ、または分散システム上で実施することもでき、分散システムの場合は、本発明の異なる各部分を分散処理システムの異なる各部分で実施する。
図2は、本発明を実施するのに使用できるいくつかのコンポーネントの例示的な一実施形態のブロック図である。図2は、メッセージハンドラ200、コンプレッサ202、およびターゲットデバイス205を含む。メッセージハンドラ200は、例示的にメッセージパーサ204、言語アナライザ206、およびテキスト圧縮コンポーネント208を含む。例示的な一実施形態では、ターゲットデバイス205はセルラーホンまたは画面の小さい他のデバイスであり、リンク210を介してコンプレッサ202に接続される。リンク210は、無線伝送部分を含んでも含んでいなくてもよいグローバルコンピュータネットワーク、または、ターゲットデバイス205にメッセージを送信するのに適した他の任意のリンクとすることができる。
メッセージハンドラ200は、例示的にメッセージ212を受け取る。メッセージ212は、ページングシステム、電子メール、音声メールなどを含めた種々のソースのうちの1つからくるものとすることができる。したがって、メッセージ212は例示的に、ヘッダ、テキスト本文、および電子メールの場合は電子メールスレッド中の以前のメッセージを含めた、種々の部分を含む。パーサ204は、メッセージ212をその種々の部分に解析する。パーサ204の動作は本発明に関係しない。関係するのは、圧縮すべきメッセージ本文214またはその他のテキスト本文を識別してアナライザ206に提供することだけである。これは周知のどんな方法で行ってもよく、本発明の一部を形成しない。したがって、パーサ204については詳述しない。パーサ204はヘッダ情報および場合によっては以前のメールメッセージを除去し、メッセージ本文214を言語アナライザ206に提供することができると言えば十分であろう。
当然、パーサ204は、メッセージ本文214以外にも、他の任意の自然言語テキスト本文をアナライザ206に提供することができることに留意されたい。例えば、テキスト本文は、サブジェクトヘッダ、タスク記述ヘッダ、ウェブページなどとすることもできる。ここでは、分析すべきテキストのほんの一例として、メッセージ本文214に関して考察を進める。
言語アナライザ206は例示的に、語彙アナライザ、形態アナライザ、および構文アナライザを含む。語彙アナライザは、メッセージ本文214を受け取り、それを単語(またはその他のトークン)に分割する。これは周知の方式で行う。形態アナライザは、形態データベース(辞書など)にアクセスし、意味や品詞など、各ワード(またはトークン)に関連する様々な情報を得る。構文アナライザは、メッセージ本文214の構文分析を行って、メッセージ本文中の各文ごとに構文解析ツリー(または構文分析構造)を獲得し、この構造を言語アナライザ206の出力として出力する。これもまた周知の方式で行い、図3に関して簡単に示されている。
テキスト圧縮コンポーネント208は、言語アナライザ206からの言語分析出力にアクセスし、メッセージ本文214の構成要素について異なる複数の任意選択の圧縮を生成する。例示的な一実施形態では、テキスト圧縮コンポーネント208は、メッセージ本文214中の各単語または句ごとに5つの属性を提供する。一般に、各属性は、分析中の各単語をより大胆に圧縮したものを表す。例示的な一実施形態では、テキスト圧縮コンポーネント208から出力されるデータ構造は、以下の属性を含む。
ShortType 適用される圧縮規則のタイプの1つを示す。
LongForm メッセージ本文214に書かれている単語の形である。
ShortForm ShortType属性によって識別される圧縮規則または技法を適用した後の単語の形である。
CaseNormalizedForm ShortFormの第1文字を大文字にして、残りの文字を小文字にする。
CompressedForm CaseNormalizedFormの圧縮形であり、単語をさらに圧縮するためにCaseNormalizedFormに追加の圧縮規則を施す。
例示的な一実施形態では、これらの属性を含むデータ構造が、圧縮XML出力216として出力され、コンプレッサコンポーネント202に提供される。コンプレッサコンポーネント202は、例示的に、圧縮出力216中の圧縮形のうちの1つを選択し、それをターゲットデバイス205に提供する。コンプレッサコンポーネント202は、例示的に、ターゲットデバイス205上で利用可能な画面空間または他の基準に基づいて圧縮形を選択することができる。コンプレッサコンポーネント202は本発明の一部を形成しないことに留意されたい。
図3は、メッセージ本文214中に入れることのできる文の例示的な一実施形態である。この文は、「You have a meeting with Dr.John Epstein next Tuesday at ten a.m.(あなたは次の火曜日の午前10時にJohn Epstein先生と面会する)」と書いてある。当然、メッセージ本文214は語彙アナライザに提供され、語彙アナライザは、メッセージ本文を文および個々の単語(またはトークン)に分割する。次いで形態アナライザが、各単語(またはトークン)のルックアップを行い、分析のために望まれる品詞(会話部分)およびその他の可能な情報を識別する。したがって、以下の品詞によって単語が識別されることがわかる。
you=代名詞
have=動詞
a=冠詞
meeting=名詞
with=前置詞
Dr.John Epstein=固有名詞
next=形容詞
Tuesday=名詞
at=前置詞
ten a.m.=名詞
構文アナライザは、文および品詞を、例示的な一実施形態では図3に示すような構文解析ツリーに分析する。構文解析ツリー中の末端ノード(または葉ノード)は、文中の単語を表し、末端以外のノードは、文の各部分を識別する句またはその他の上位レベルの構文単位を表す。図3に示す構文解析ツリー中では、指標「S」は文ノードを表し、指標「NP」は名詞句を表し、「VP」は動詞句を表し、「PP」は前置詞句を表す。「next Tuesday」および「at ten a.m.」の上にある三角形は、単に、これらの句をさらにノードに分析できるが簡単にするために省略されていることを示す。この構文解析ツリーは、この文が、名詞句およびそれに続く動詞句、およびそれに続く他の2つの構文構成要素(ここでは具体的に分析されていない)で形成されていることを示す。
テキスト圧縮コンポーネント208は、例示的に図3に示す文を、人間に解読できるように言語的にインテリジェントな方式で圧縮する。このような圧縮を行う際、いくつかの問題が生じる。例えば、テキスト中のあるタイプの単語をすべて削除することが直感的なこともある。例えば、テキスト中のすべての冠詞を削除することが直感的なこともる。しかしこれは、英語ではうまくいく場合もあるが、他の言語ではうまくいかない。実際、これはすべてのロマンス諸語でさえ機能しない。例えば、「I made him eat it(私は彼がそれを食べるようにした)」と翻訳されるフランス語の句Je le lui aifait mangerを考えてみる。接語代名詞「le」は、ちょうど男性不定冠詞「le」(「the」と翻訳される)のように見えることに留意されたい。したがって、すべての「冠詞」または単語「the」、および異なる言語におけるそれらの等価物が除去された場合、それにより、異なる言語のいくつかの句の意味が劇的に変化することになる。
同様に、テキスト中のすべてのスペースを除去することが直感的に妥当と思われることもある。しかし、メッセージ中に電子メールエイリアスまたはユニフォームリソースロケータ(URL)が設けられている場合、スペースを除去すると、電子メールエイリアスまたはURLがテキスト中のどこにあるか判別するのが非常に困難になる。今日、記号に影響されやすいこのような多くのテキストフラグメントが、メッセージ中で使用されている。フラグメント中の記号が変更される場合、フラグメント全体の意味は回復できないほどに失われる。例えば、句「Visit http://microsoft.com for information」を考えてみる。これが「visithttp://microsoft.comforinfo」に短縮されると、テキストフラグメント中のどこでURLが終わるのかを決定するのが非常に困難である。
したがって本発明は、このようなインテリジェントでない一様な手法をとらない。本発明の圧縮は、そうではなく、アナライザ206によって行われる言語分析に基づいている。
図4は、メッセージハンドラ200の動作をもう少し詳細に示したフローチャートである。最初に、メッセージハンドラ200はメッセージ212を受け取る。これをブロック218で示す。パーサ204が、メッセージ212中のメッセージ本文を突き止め、メッセージ本文214をアナライザ206に渡す。これをブロック220で示す。アナライザ226は、メッセージ214を文に分割する。これをブロック222で示す。次いで、アナライザ206の語彙アナライザコンポーネントが、テキスト本文の語彙分析を行い、文を単語、数字、および句読記号などのトークンに分割する。トークンはまた、「along with」や「by means of」のような複数単語の表現など、2つ以上の単語からなるものとすることもできる。これをブロック224で示す。次いで、言語アナライザ206中の形態アナライザが形態分析を行い、したがって、各トークンに対応する品詞およびその他の関連情報を突き止める。これをブロック226で示す。次いで、構文アナライザが構文分析を行い、例示的な一実施形態では構文解析ツリーを提供する。これをブロック228で示す。
次いで、テキスト圧縮コンポーネント208が、アナライザ206から提供された分析の中の各ノードを再帰的に調べ、可能性ある圧縮オプションが利用可能かどうかを判定する。これをブロック230で示す。分析の中のノードを調べ終わり、様々な圧縮オプションを識別すると、例えばXML出力216として圧縮オプションを出力する。これをブロック232で示す。次いで、コンプレッサ202が、単純に各単語(またはトークン)ごとにオプションのうちの1つを選択し、メッセージを圧縮形でターゲットデバイス205に提供する。
図5および図6に、分析されたメッセージ本文214の各部分に対して可能性ある圧縮オプションを生成する際のテキスト圧縮オプション208の動作をより詳細に示す。図5および図6は、アナライザ206からの分析出力の中の末端ノード(または葉ノード)に対する可能性ある圧縮オプションを生成する際のテキスト圧縮コンポーネント208の動作を具体的に示している。言い換えれば、図5および図6には、メッセージ本文の句またはより大きなフラグメントを表す場合のある末端以外のノードとは対照的に、可能性ある圧縮のためのテキストメッセージ中の各ワード(またはトークン)の処理が示してある。
最初に、長い形の各トークンを受け取る。長い形は、テキスト本文に書かれたトークンの形であることを想起されたい。これを図5のブロック234で示す。この長い形を、圧縮出力216として提供されたデータ構造中に出力される属性として保存する。これをブロック236で示す。
次に、ShortType属性を決定して保存する。ShortType属性は、長い形のトークンに適用される圧縮規則の具体的なタイプを示す属性であることを想起されたい。これをブロック238で示す。以下に、本発明の一実施形態による様々なShortType属性をより広く論じる。
次いで、ShortType属性によって識別される圧縮規則を用いて分析中のノード全体を削除すべきかどうかを決定する。例えば、いくつかのノードは、あらゆる状況で削除することになる。英語の冠詞(ShortType属性「Articles」を有する)は、常に省略することができる。このような冠詞には、例えばa、the、those、およびtheseが含まれる。挨拶は、ShortType属性「Greeting」を有し、これらもまたブロック240で特別処理する。挨拶(Dear Bob、Hi、Hi Bobなど)は、すべて削除することができる。ノードをあらゆる状況で削除すべきかどうか決定することを、ブロック240で示す。そうである場合は、ブロック238に示すように、ShortType属性を「Articles」(または適切な属性なら何でも)に設定し、ShortForm、CaseNormalizedForm、およびCompressedFormの属性をすべてヌルの値に設定する。これをブロック242に示す。
ブロック240で、ノードを完全に削除すべきではないと決定した場合は、その他の特別処理をこのノードに対して行うべきかどうかを決定する。これをブロック244で示す。このような特別処理は、様々な形で行われる可能性がある。次に、これらの形のいくつかについて論じる。
形容詞のグループ(ShortType「Adjective」を有する)は、特別処理される。これらには、which、who、whatなど、「wh」で始まる単語が含まれる。これらの形容詞について、以下により詳細に論じる。
英語の冠詞については、ブロック240に関して先に論じた。英語の冠詞は、あらゆる状況で省略することができる。しかし、他の言語の冠詞は特別処理が必要な場合がある。例えば、ドイツ語の定冠詞は、あらゆる状況で省略することができる。しかし、不定冠詞は、あいまいなので保留される(同じ形が「a」または「one」の意味になり得るため)。スペイン語およびフランス語の定冠詞は削除されるが、同じ綴りの接語代名詞は削除されない。スペイン語およびフランス語の不定冠詞は、あいまいなので保留される(同じ形が「a」または「one」の意味になり得るため)。
副詞は、ShortType属性「Adverbs」を有し、「wh」単語として分類されるもの(why、how、whenなど)は、どんな仕方でも圧縮されない。これらについては後で論じる。その他の副詞は、文字削減(母音削除、子音削除、またはその双方)がなされるが、これもまた後でより詳細に論じる。
社名は、ShortType「Company」を有し、これらもまた特別処理される。社名タイプは削除される。例えば、「Microsoft Corporation」は、単に「Microsoft」に変換することができる。短縮された形は、後で論じるように文字削減および大文字/小文字標準化を受ける。
接続詞は、ShortType属性「Conj」を有し、これらもまた特別処理される。例えば、英語の接続詞「and」、フランス語の「et」、およびドイツ語の「und」には、アンパサンド符号が取って代わる。スペイン語の「y/e」は、すでに1語なので短縮されない。その他の接続詞はすべてそのままであり、後の処理ステップを受ける。
いくつかの様々なタイプの名詞もまた、特別処理される。絶対的な日付および時間は、ShortType「Dates」で指定され、以下のようにして処理される。あらゆる言語において、単独で月がある場合、長い月名は短い形(short form)に変換される。最後にピリオドの付いた短い月名では、ピリオドは除去される。得られる短い形には、母音圧縮や大文字/小文字標準化などは行われない。例えば、「lets meet in November(11月に会いましょう)」という句では、Novemberは「Nov」に短縮される。同様に、「lets meet in Nov.」という句では、Novemberの省略形が「Nov」に変換される(すなわち後に付くピリオドが取り去られる)。
あらゆる言語において、日の指定がない月(および年)は、短い月名だけとする。例えば、「2001」が現在の年である場合に、語「November 2001」は単に「Nov」に短縮される。
日付が、月と現在の年でない年とである場合は、数字の月および分離符号および数字の年に変換される。例えば、「Nov 2002」は、「11/2002」(英語およびフランス語の場合)、または「11.2002」(他のヨーロッパ言語の場合)に変換される。
同様に、アメリカ英語では、単一の絶対的な日付は、月/日/年の数字フォーマットに標準化される。他の言語の日付は、それらのフォーマットに標準化される(例えば日本語では常に、年−月−日のフォーマットが使用される)。英語およびフランス語ではフォワードスラッシュマークが分離符号として使用されるが、スペイン語およびドイツ語ではピリオドが分離符号として使用される。
年は、「今日」の年と等しい場合、または年に2000を足した数が「今日」の年と等しい場合は省略される。例えば、23 July,2001は7/23に変換される。さらに、Monday 23 Julyも7/23に変換される。
同様に、midnight(真夜中)もまた特別処理を受ける。midnightもまた、ShortType「Dates」で指定され、この短い形は「12am」である。よくある連語「12 midnight」もまた、短い形「12am」を有するが、これは出力「12 12am」を回避するための特別な場合である。
英語の日付範囲もまた、特別処理を受ける。例えば、語「December 5th−9th」は、「12/5−9」に変換される。また、日付範囲「December 5th−9th,2002」は「12/5−9/2002」に変換される。
オフセット日付もまた特別処理され、これらにはShortType「OffsetDate」が与えられる。「next Wednesday」などの語がテキスト中で識別された場合は、そのメッセージが送信された(または書かれた)日付が取得され、オフセット日付「next Wednesday」が変形される。したがって、メッセージが12月1日の金曜日に送信された場合、「next Wednesday」が言及するのは12月6日ということになる。したがって、語「next Wednesday」は「12/6」に変換される。
曜日には、ShortType「Days」が与えられる。あらゆる言語で、絶対的な日付に確実に変換できない独立した曜日は、それらの曜日の短い形に変形される。最後にピリオドの付いた短い曜日名は、ピリオドが取り去られる。得られる短い形には、母音圧縮や大文字/小文字標準化などは行われない。例えば、「lets meet on Monday(月曜日に会いましょう)」という句では、語「Monday」は「Mon」に変換される。
電子メールエイリアスおよびURLもまた、特別処理を受ける。電子メールエイリアスおよびURLは、大文字/小文字標準化も母音除去もされずにそのまま維持される。電子メールには、ShortType「Email」が与えられ、URLにはShortType「URL」が与えられる。
電話番号には、ShortType「Phone」が与えられ、これらの中から句読点が除去される。例えば、語「call me at(425)703−7371((425)703−7371にかけて私に電話をください)」の中の電話番号は、単に「4257037371」に変換される。
州および国には、ShortType「Geo」が与えられ、これらには従来の省略形が取って代わる。例えば、「Washington」には「WA」が取って代わり、「Alabama」には「AL」が取って代わり、その他同様となる。
言語でないものには、ShortType「NotLanguage」が与えられ、言語圧縮は行われない。このようなものの例には、以下のものが挙げられる。
x=x+y;
If(x=1){
<Some XML>Content</Some XML><Foo/>.
綴り字の数字もまた特別処理を受け、これらにはShortType「Number」が与えられる。綴り字の数字には、アラビア数字が取って代わる。例えば、英語の句「one thousand four hundred twenty−five」には、「1425」が取って代わる。例示的に、千の位の間に分離符号は使用されていない。
貨幣の単位名もまた特別処理を受け、これらにはShortType「Dollars」が与えられる。千は語「K」で置換される。100万は語「M」で置換され、10億は「B」で置換される。例えば、$100000は$100Kに、$123000000は$123Mに、$2000000000は$2Bに変換される。また、これらの短い形は、後で述べる大文字/小文字標準化を受けない。
同様に、例示的な一実施形態では少数も示される。例えば、$2250000000は$2.25Bに変換される。また、通貨指示詞が後に続く数量は、数と共に、その通貨に対する一般的な記号に標準化される。例えば、「one hundred dollars」は「$100」に変換される。語「57pounds」は「#57」に変換される。「500Francs」は「500Fr」に変換され、その他同様となる。
固有名詞は特別処理を受け、これらにはShortType「PrprN」が与えられる。ドイツ語以外の言語では、複数の部分からなる固有名詞は、可能なら単に第1の姓に凝縮される。例えば、「Dr.Mary Smith」は「Smith」に変換される。
スペイン語の、句からなる姓の場合は、第1の部分に凝縮されることに留意されたい(例えば「Cardoso de Campos」は「Cardoso」に短縮される)。例示的な一実施形態では、固有名詞にも母音除去は行われない。
同様に、固有名詞は、より一般的な名前があるかどうか辞書ルックアップを受ける。例えば、固有名詞「Patrick」には「Pat」が取って代わることができる。名前「William」には「Will」が取って代わることができ、その他同様である。さらに、名前および最後の頭文字がある場合は、単に名前だけに短縮される。
ドイツ語では、テキストフラグメント中の多くの単語が大文字になるので、この言語では固有名詞はより厄介である。したがってドイツ語では、固有名詞は、限定詞が前にある場合は圧縮されない。
所有格もまた特別処理され、これらにはShortType「Possessive」が与えられる。英語では、「′s」および「s′」の接語が付いた所有格は、アポストロフィなしで書き直すことができる。例えば、語「John′s house」は「Johns house」と書くことができる。同様に、「dog′s tails」は「dogs tails」と書くことができる。
いくつかの前置詞もまた特別処理を受け、これらにはShortType「Preps」が与えられる。例えば英語では、いくつかの前置詞がルックアップテーブルを通して要約される。例えば、「through」は「thru」に要約することができる。単語「at」は「@」に要約することができる。ある状況では、語「to」および「for」もまた、「2」および「4」に要約することができる。これらは、略さずに綴られた数詞または数字であって、可能性ある数字置換形を有する数詞または数字に隣接していない場合に限り、このような形で要約される。例えば、「I want to leave(私は出発したい)」という句では、語「to」に数字「2」が取って代わる。しかし、「I have been to two good movies lately(私は最近よい映画を2本観に行った)」という句では、語「to」は数字「2」に変化しない。そうすると、話者がよい映画を22本観たという誤解が生じる可能性があるからである。
いくつかの代名詞もまた特別処理を受け、これらにはShortType「Pronouns」が与えられる。英語では、代名詞「you」には「U」が取って代わる。他のすべての代名詞は同じままであり、母音除去されない。スペイン語では、代名詞「Usted」には「Ud」が取って代わり、「Ustedes」には「Uds」が取って代わる。ドイツ語では、「ein」(および屈折)を含む代名詞は、数字「1」を使用して要約される。
句読点は特別処理され、これにはShortType「Punctuation」が与えられる。文の分離符号でもなく、電子メールエイリアスまたはURLの中に現れたのでもない句読点は、削除される。不可欠な句読点には、ShortType「EssentialPunct」が与えられる。あらゆる言語で、以下の文字は削除されない。すなわち、
(外1)
Figure 2007265458
である。日本語では、文の分離符号としてのみ使用される特別な小円記号もまた削除されない。セミコロンおよびピリオドは、文の最後の句読点でない場合に限って削除される。他のすべての文字は、NonessentialPunctuation(後述する)とマークされる。
ただし一実施形態では、最後の句読点の連なりは、最初の文字に短縮される。したがって、「Are these things removed?!?(除去されたものがあるか?!?)」のような句では、最後の句読点は単に「?」に短縮される。
またあらゆる言語で、他の圧縮規則に従ってディジットになる場合のあるものの間に現れる句読点は維持される。例えば、「I bought 3 in 1976 and in 1977,100(私は1976年に3個買い、1977年に100個買った)」という句では、1977の後のコンマは維持される(または任意選択でスペースが維持される)。これは、1977100に圧縮されるのを避け、そうではなく「1977,100」または「1977 100」に圧縮されるようにするためである。
同様に、英語では、inches(インチ)およびfoot/feet(フィート)の測定値の句は、適切なら″または′に変換される。
その他の重要でない句読点マークは特別処理を受け、これらにはShortType「NonessentialPunct」が与えられる。類事実(電子メールアドレス、URL、数字範囲など)の中の句読点は、そのまま残る。このような類事実の中にあるのではない句読点は、EssentialPunctと、接続詞として現れた句読点(例えば節を分離するためのセミコロン)とを除いては、削除することができる。
いくつかの動詞もまた特別処理を受け、これらにはShortType「Verbs」が与えられる。このような動詞は、辞書ルックアップの対象である。例えば、単語「are」には文字「R」が取って代わり、単語「be」には「B」が取って代わることができる。そうでない場合は、動詞は単に、後で述べる文字削減および大文字/小文字標準化を受ける。
他にあと2つの形の特別処理も行われる。一方は、ShortType「WordSubstitution」が与えられ、単語置換を含むものであり、他方は、先に論じた「wh」単語の処理である。これらのタイプの特別処理については、後で説明の中でより詳細に考察する。
次に、再び図5および図6に関して考察を進める。図5のブロック244で、これらの特別処理ケースをどれも行わない場合は、分析中の単語に関連するShortForm属性を、単にLongForm属性(テキスト中に書かれた単語の形)に設定する。これをブロック246で示す。
しかし、ブロック244で特別処理を行うと判定した場合は、次に、特別処理が単語置換かどうかを判定する。単語置換は、しばしば辞書ルックアップに基づいて単純に行う。単語置換は、例えば別の単語または句にあたる頭字語を得るために行うことができる。例えば英語では、「as soon as possible」という句は「ASAP」で置換することができる。
特別処理が単語置換である場合は、必要な単語置換をテキスト中の単語に対して行って、ShortForm属性を得る。これをブロック250で示す。単語置換が成功した場合は、CaseNormalizedForm(CNF)属性とCompressedForm(Comp)属性の双方を、このときにShortForm属性にみられるのと同じ形に設定する。これにより、文字削減や大文字/小文字標準化などの後続処理からその単語が除かれる。これをブロック252で示す。したがって、単語置換プロセスを用いて、他の厄介な状況も回避することができる。例えばドイツ語では、代名詞「sich」は、よくある卑猥な言葉の省略形をもたらす後続の母音削除を回避するために、(単語置換により)「sich」のままにしておく必要がある可能性がある。特別処理が単語置換であるかどうか判定することを、ブロック248に示す。
ブロック248で、行う特定のタイプの特別処理が単語置換ではないと判定した場合は、ブロック254で、行う特別処理が前述の「wh」単語に関連する処理かどうか判定する。そうである場合は、「wh」単語は短縮されないことを想起されたい。この場合、残りのすべての属性(ShortForm、CaseNormalizedForm、およびCompressedForm)は、LongFormに設定する。これをブロック256で示す。
ブロック254で、行われる特別処理が「wh」単語に関連する処理ではないと判定された場合は、前述の特別処理操作のうちの他の1つでなければならない。この場合、その特定の特別処理ステップを行ってShortForm属性を獲得し、それを保存する。これをブロック258で示す。
特別処理を行い、ShortForm属性を得た後で、ShortForm属性をスペース除去にかける。最初に、スペース除去を行うべきかどうかを決定する。これをブロック260で示す。行うべきである場合は、短い形を以下のプロシージャ中に述べるようなスペース除去アルゴリズムにかける。
各トークンを以下のとおり分類する
<EssentialPunct>:これらは叙述を必要とせず、すべてのトークンを叙述する働きをすると仮定する
<CaseDelineable>:大文字/小文字を標準化できる場合の、すべての通常の単語/句などを含む
<Number>:数字(これらには「2」に変換された「two」のようなトークンが含まれることに留意されたい)
<SpaceDelineable>:URLや電子メールアドレスのように、周りにスペースがなければならないトークン
アルゴリズムの一実施形態
//前にスペースのない短い形で始める
Result = RemoveLeadingSpaces (<short form>)
//トークンがNULLでない場合にのみこれを行う
if (Result) {
FrontSpaceNeeded = FALSE;
//現在のトークンのタイプをオンにする
switch <curtype> {
case <EssentialPunct>:
//すべて行うべきである。叙述は必要でない
break;
case <CaseDelineable>:
//前のタイプがspace delineableであった場合はスペースを配置する
if (prevtype == <SpaceDelineable>) FrontSpaceNeeded = TRUE;
break;
case <Number>:
//前のタイプがnumberまたはspace delineableであった場合はスペースを配置する
if (prevtype == <SpaceDelineable> || prevtype == <Number> || PreviousTokenがディジットで終わる) FrontSpaceNeeded = True;
break;
case <SpaceDelineable>:
//前のトークンがessential punctuationでない限りスペースを配置する
if (prevtype! = <EssentialPunct> && !lsFirstTokenInSentence) FrontSpaceNeeded = TRUE;
break;
}
//前のタイプを現在のタイプに設定する
prevtype = curtype;
if (FrontSpaceNeeded) Result = AddLeadingSpace (<Result>)
}
この擬似コードは、URLや電子メールアドレスなどの前にあるスペースは除去されず、これらの後に続くスペースも除去されないことを示している。しかし、叙述がなされる可能性のあるその他の場合では、スペースはShortForm属性から除去されることになる。これをブロック262で示す。
次に、大文字/小文字標準化を行うかどうかを判定する。これをブロック264で示す。例えば、URLおよび電子メール、ならびに大文字/小文字の影響を受けやすいその他のものの中では、大文字/小文字標準化は望ましくない場合があることを理解されたい。このような場合は、ブロック266で示すように、CaseNormalizedForm属性をShortForm属性に設定する。しかし、大文字/小文字標準化が行われる場合は、ShortForm属性の各単語の第1文字(トークンは複数の単語からなる可能性があることを想起されたい)を大文字にし、これをCaseNormalizedForm属性として保存する。これをブロック268で示す。
次に、さらに圧縮を行うかどうかを判定する。これをブロック270で示す。例えば、上述したいくつかの特別処理の場合では、母音除去は行わない(英語の代名詞、「wh」単語、固有名詞や、Mon、Tuesなどの日付のShortFormなど)。同様に、頭文字、電子メールアドレス、URLなどからも、母音または子音は除去しない。
これ以上の圧縮を行わない場合は、ブロック272で示すように、CompressedForm属性をCaseNormalizedFormに設定する。しかし、さらに圧縮を行う場合は、CaseNormalizedFormに文字削減を施す(母音および子音の除去など)。
この考察では、用語「語中母音」とは、単語の最初にあるのでも最後にあるのでもない単一母音または一連の母音を意味する。英語では、すべての語中母音は除去される。
ドイツ語において文字を除去する場合は、まず子音群の簡略化規則が適用される。例えば、子音群「sch」は、指小接尾辞−schenの中以外では「sh」に簡略化される。子音群「ck」もまた、「k」に簡略化される。
次に、語尾に随伴する−einは、同じ発音の−1で置換される。ドイツ語には、−einで終わるが数字の1と同じ発音ではない単語がいくつかある。このような単語のいくつかの例を以下に挙げる。
Codein、Coffein、Casein、Fluoreszein、Hussein、Kaffein、Kasein、Kleberprotein、Kodein、Lutein、Movein、Nuklein、Nuclein、Olein、Phenolphtalein、Phtalein、Protein、Pygmaein、Talein、Tein、Thein、Zein、Zygstein
また、後続の単語が数字、日付、時間など(ディジットで始まる場合のある何らかのもの)である場合も、「ein」置換は行われないことに留意されたい。
ドイツ語で、語中母音を1つしか含まない単語の中では、母音は削除されない。2つ以上の語中母音を含む単語の場合は、2番目の語中母音ごとに削除される。子音と語尾「ng」との間の文字「u」は削除される。まだ残っている「ie」がある場合は、「i」に変換される。最後に、文字「e」は、子音に続き、かつ語尾「l、m、n、またはr」の前にある場合は、削除される。母音は、文字sに続き、かつ群chの前にある場合は、削除されないことに留意されたい。削除されると、schという連続になり、ドイツ語の読み手はこれを1つの子音の始めと解釈する傾向が非常に強いからである。この考察では、母音には通常、aeiouが含まれ、いくつかの言語ではyも含まれ、またアクセント、ウムラウト、およびその他の発音区別符号が付いたすべての形が含まれる。英語、ドイツ語、フランス語、およびスペイン語に対する十分なリストを以下に挙げる。
(外2)
Figure 2007265458
英語、ドイツ語、フランス語、およびスペイン語では、子音には以下のものが含まれる。
(外3)
Figure 2007265458
他の言語の場合は、追加の子音記号を追加することができる。
ブロック274で示すように文字削減(母音除去や子音除去など)が行われると、CompressedForm属性が得られ、保存される。これをブロック276で示す。最後に、可能性ある圧縮オプションとして5つの属性すべてを出力することができる。これをブロック278で示す。
構文解析ツリーの走査中に、末端以外のノードレベルでも圧縮を行うことができることにも留意されたい。一実施形態では、構文分析に基づいて句全体を削除する。例えば、「While I was stuck on the freeway,I remembered to ask you to send me the contact information for Dr.Mary Smith.(フリーウェイで立ち往生している間に、Mary Smith先生に関するコンタクト情報を送ってくれるようにあなたに頼むことを思い出した。)という文を考えてみる。この例では、文頭の従属節全体を削除することができる。言い換えれば、構文分析によってこれが従属節であることが示され、従属接続詞「while」によってこれが時を表す副詞節であることが示される。したがって、このフレーズ全体を単純に削除して、「I remembered to ask you to send me the contact information for Dr.Mary Smith.」という文を得ることができる。1998年12月24日に出願されたSYSTEM FOR IMPROVING THE PERFORMANCE OF INFORMATION IDENTIFYING CLAUSES HAVING PREDETERMINED CHARACTERISTICSという名称の特許出願第_09/220836号に、従属節の識別、およびそれらの節が比較的重要な題材を含んでいるかどうかの識別に関する追加情報が提供されている。
末端以外のノードレベルでの圧縮に関する別の例は、発話行為動詞に関するものである。発話行為動詞は、言語学で「補語をとる述語」と呼ばれるサブクラスである。英語では、以下の文にあいまいさが示される。
「John said that he was arriving next Wednesday.」
ある読み方では、単語「he」は「John」と同一指示的である。別の読み方では、「he」は他の誰かである可能性がある。以下のように、出力を入力よりいくらかでもあいまいにすることなく、この文のいくつかの要素を削除することができる。
母型節の発話行為動詞の主語(この場合は「said」の主語である「John」)が従属節の代名詞主語(he)と同一指示的であるかもしれない場合に、形態ルックアップからわかるようにこれらが双方とも男性であることに注意することによって、または同一指示性を決定するためのより複雑な意味論分析を用いることによって、同一指示的であることが決定できる場合は、従属節中の代名詞は削除することができる。従属接続詞「that」もまた削除でき、以下のようになることに留意されたい。
「John said was arriving next Wednesday」
従属節の主語は、それが代名詞であって、かつ主節の主語と同一指示的であるときだけ削除するように注意しなければならないことに留意されたい。例えば、以下の場合は削除すべきではない。
John said that she was arriving...
John said that Bill was arriving...
John sain that they were arriving...
この時点で、図3に示した文を例にして話を続けるのが有用であろう。先に述べたように、分析における各ノードを再帰的に調べて、圧縮が達成できるかどうかを判定する。したがって、最初に文ノード(S)を調べる。この時点では圧縮を行うことはできず、したがって処理はより深い分析に進み、名詞句ノード300を調べる。このレベルでは圧縮を行うことはできず、したがって、処理はより深く代名詞ノード302に進む。代名詞は「you」であることがわかる。したがって、特別処理の規定により、これを「U」に変換することができる。この結果、以下の属性が得られる。
ShortType=Pronouns
LongForm=You
ShortForm=U
CNF=U
Comp.=U
次の処理は、動詞句ノード304に関して継続する。このレベルでは圧縮を行うことはできないことがわかり、したがって動詞ノード306を調べる。語「have」を、単純に図5および図6に示すフローチャート中を通し、大文字/小文字標準化および母音除去を施して、語「Hve」が得られる。これにより、以下の属性が得られる(下線は前にあるスペースを表す)。
ShortType=VerbsDefault
LongForm=_have
ShortForm=_have
CNF=Have
Comp.=Hve
この場合も、ノード308を調べ、このレベルでは圧縮を行うことはできないことがわかる。したがって、検査はノード310に進み、図5のブロック240で冠詞「a」を削除する。これにより以下のようになる。
ShortType=Articles
LongForm=_a
ShortForm=Null
CNF=Null
Comp.=Null
次いで、ノード312を調べて単語置換を施し、これにより以下の5つの属性が得られる。
ShortType=WordSubstitution
LongForm=_meeting
ShortForm=Mtg
CNF=Mtg
Comp.=Mtg
次いで、前置詞句ノード314を調べるが、このレベルでは圧縮を行うことはできないと判定される。したがって、前置詞ノード316を調べる。処理は図5および図6のフローチャート中を移動し、大文字/小文字標準化および母音除去を行って、以下の5つの属性が得られる。
ShortType=PrepsDefault
LongForm=_with
ShortForm=_with
CNF=With
Comp.=Wth
次いで、固有名詞ノード318を調べる。このノードでは、PrprNのShortTypeを用いて3つの単語「Dr.John Epstein」を圧縮できることがわかる。これにより、以下の5つの属性が得られる。
ShortType=PrprN
LongForm=_Dr._John_Epstein
ShortForm=_Epstein
CNF=Epstein
Comp.=Epstein
次に、ノード320を調べるが、この句がオフセット日付を表していることがわかる。図5および図6に示すフローチャートを通してこれを分析し、以下の5つの属性が得られる。
ShortType=OffsetDate
LongForm=_next_Tuesday
ShortForm=_12/3
CNF=12/3
Comp.=12/3
次に、ノード322を調べるが、このノードでは圧縮を行うことはできないと判定される。したがって、前置詞ノード324を調べる。図5および図6に示す処理を通して、語「at」が「@」に対する単語置換の対象であることに気付く。これにより、以下の5つの属性が得られる。
ShortType=WordSubstitution
LongForm=_at
ShortForm=@
CNF=@
Comp.=@
最後にノード326を調べるが、見つかる圧縮は、綴り字の語「ten」に数字「10」が取って代わることだけであり、これにより5つの属性が得られる。
ShortType=Numbers
LongForm=_ten_am
ShortForm=_10am
CNF=10am
Comp.=10am
次いでコンプレッサ202が、これらのデータ構造中に示した様々な圧縮オプションの中から自由に選りすぐって、最終的な出力であるテキスト圧縮バージョンを提供する。これは、ターゲットデバイス205上の表示画面のサイズが著しく限られている場合は非常に大胆に行うことができ、例えば表示空間のより大きいパームトップコンピュータの場合は、より低い大胆さで行うことができる。したがって、最も大胆な圧縮は以下のようになる。
UHVeMtgWthEpstein12/3@10am
非常に大胆な圧縮でも、これは大いに読むことが可能かつ解読可能なテキストメッセージであり、それでもなお、図3に述べた原形に勝って多くの空間を節約する。
したがって、本発明を使用して大きな圧縮をもたらすことができ、それでもなお、圧縮は、人間が容易に解読できるような言語的に非常にインテリジェントな方式で行われることがわかる。本発明はまた、個々の単語および句ごとに異なる複数の圧縮オプションを提供し、これらは多くの場合、大胆さの様々な度合いを反映する。このことは、最終的にターゲットデバイス中で最良の圧縮シーケンスを選択しなければならないダウンストリームコンポーネントにとって非常に有用である。
本発明を特定の実施形態に関して述べたが、本発明の趣旨および範囲を逸脱することなく形式および詳細に変更を加えることができることを当業者なら理解するであろう。
本発明を使用することのできる一実施形態のブロック図である。 本発明の一実施形態により言語分析を行うためのメッセージハンドラのブロック図である。 例示的な文に関する構文解析ツリーの一部の図である。 図2に示したシステムの全体的な動作のフローチャートである。 構文分析の中の末端ノード(または単語および句読点)に対する圧縮オプションを生成する際の、図2に示したシステムの動作を示すより詳細なフローチャートである。 構文分析の中の末端ノード(または単語および句読点)に対する圧縮オプションを生成する際の、図2に示したシステムの動作を示すより詳細なフローチャートである。
符号の説明
110 コンピュータ
120 プロセッシングユニット
121 システムバス
130 システムメモリ
131 ROM
132 RAM
133 BIOS
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 取外し不可能かつ不揮発性メモリインタフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 取外し可能かつ不揮発性メモリインタフェース
151 磁気ディスクドライブ
152 磁気ディスク
155 光学ディスクドライブ
156 光学ディスク
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインタフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ
200 メッセージハンドラ
202 コンプレッサ
204 メッセージパーサ
205 ターゲットデバイス
206 言語アナライザ
208 テキスト圧縮コンポーネント
210 リンク
212 メッセージ
214 メッセージ本文
216 圧縮済みXML出力
300、302、304、306、308、310、312、314、316、318、320、322、324、326 ノード

Claims (4)

  1. コンピュータにおいて、テキスト本文を処理して複数の圧縮オプションを生成する方法において、前記コンピュータは、
    前記テキスト本文について言語解析を実行し、前記テキスト本文の中の、単語および数字の1つを有する複数のトークンを取得する手段と、
    前記言語解析の実行の後、前記テキスト本文を圧縮するために、前記テキスト本文の中の複数の対応の異なるトークンの各々について複数の正しい圧縮オプションを自動的に生成して前記テキスト本文を圧縮するための手段であって、そこでは、前記正しい複数の圧縮オプションの各々は、異なる、前記テキスト本分の中の対応のトークンの正しい圧縮形を有し、前記対応のトークンの中の文字列または数字列の個数を少なくとも減らし、前記圧縮形には前記対応の複数のトークンの中のいくつかの、すべてではない文字列を含む手段と、
    前記テキスト本文の中の異なる複数のトークンの各々についての複数の圧縮オプションの1つを選択し、各トークンについて選択の圧縮のオプションに従って前記テキスト本文の圧縮形を出力する手段
    として動作することを特徴とする方法。
  2. メッセージを受け取り、メッセージの中のテキスト本文の一部分の異なる形態を示す複数の圧縮オプションを生成するコンピュータにおいて、
    言語学的に前記テキスト本文を解析して、前記テキスト本文の中の個々のトークンを葉ノードで示す言語学的解析を提供する手段と、
    少なくとも前記言語学的解析の中の葉ノードで表される複数のトークンについての複数の異なる圧縮形を提供する手段であって、前記複数の異なる圧縮形は、各々が対応の個々のトークンの正しい圧縮形を示す圧縮形生成手段と、
    前記テキスト本文の中の個々のトークンについての異なる複数の圧縮形の中の選択を示す出力を生成する圧縮手段と
    を備えたことを特徴とするコンピュータ。
  3. テキスト本文を圧縮するためのコンピュータにおいて、
    圧縮のタイプとして、単語の消去する、単語を置換するおよび単語そのものを使用するタイプが単語の言語学的特徴に対応して予め定められており、
    前記テキスト本文中の各単語の特徴を言語学的に解析する解析手段であって、前記言語学的の解析により得られる言語学的特徴は、単語に付加される属性の形態で表される解析手段と、
    前記属性に従って前記テキスト本文中の各単語を圧縮する圧縮手段と
    を備えたことを特徴とするコンピュータ。
  4. 前記テキスト本文は、複数の単語を複数のノードとして表される1つのツリーの形態で表され、前記解析手段は前記ツリー上の各単語を検索して単語を言語学的に解析することを特徴とする請求項3に記載のコンピュータ。
JP2007191482A 2001-01-26 2007-07-23 複数の圧縮オプションを生成する方法およびコンピュータ Pending JP2007265458A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/770,779 US7069207B2 (en) 2001-01-26 2001-01-26 Linguistically intelligent text compression

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2002019244A Division JP2002334071A (ja) 2001-01-26 2002-01-28 言語的にインテリジェントなテキスト圧縮

Publications (1)

Publication Number Publication Date
JP2007265458A true JP2007265458A (ja) 2007-10-11

Family

ID=25089649

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002019244A Pending JP2002334071A (ja) 2001-01-26 2002-01-28 言語的にインテリジェントなテキスト圧縮
JP2007191482A Pending JP2007265458A (ja) 2001-01-26 2007-07-23 複数の圧縮オプションを生成する方法およびコンピュータ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002019244A Pending JP2002334071A (ja) 2001-01-26 2002-01-28 言語的にインテリジェントなテキスト圧縮

Country Status (4)

Country Link
US (2) US7069207B2 (ja)
EP (1) EP1227408A3 (ja)
JP (2) JP2002334071A (ja)
KR (1) KR100890691B1 (ja)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234727A1 (en) * 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
FR2841355B1 (fr) * 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US9135236B2 (en) 2002-07-22 2015-09-15 Nokia Technologies Oy Method and arrangement for obtaining an electronic mail service
US7546234B1 (en) * 2003-01-08 2009-06-09 Xambala, Inc. Semantic processing engine
JP2006276918A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳装置、翻訳方法およびプログラム
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8225231B2 (en) 2005-08-30 2012-07-17 Microsoft Corporation Aggregation of PC settings
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7567586B2 (en) 2005-10-31 2009-07-28 Microsoft Corporation Above-transport layer message partial compression
CN100401724C (zh) * 2005-12-15 2008-07-09 华为技术有限公司 发送即时消息的方法和设备
US7786979B2 (en) 2006-01-13 2010-08-31 Research In Motion Limited Handheld electronic device and method for disambiguation of text input and providing spelling substitution
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
WO2007127695A2 (en) * 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US20080133365A1 (en) * 2006-11-21 2008-06-05 Benjamin Sprecher Targeted Marketing System
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7970616B2 (en) * 2007-07-23 2011-06-28 Dapkunas Ronald M Efficient review of data
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8219385B2 (en) * 2008-04-08 2012-07-10 Incentive Targeting, Inc. Computer-implemented method and system for conducting a search of electronically stored information
US8666729B1 (en) 2010-02-10 2014-03-04 West Corporation Processing natural language grammar
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100087169A1 (en) * 2008-10-02 2010-04-08 Microsoft Corporation Threading together messages with multiple common participants
US8086275B2 (en) 2008-10-23 2011-12-27 Microsoft Corporation Alternative inputs of a mobile communications device
US8411046B2 (en) 2008-10-23 2013-04-02 Microsoft Corporation Column organization of content
US8385952B2 (en) 2008-10-23 2013-02-26 Microsoft Corporation Mobile communications device user interface
US8818803B2 (en) * 2008-10-27 2014-08-26 Frank Elmo Weber Character-based automated text summarization
JP5412096B2 (ja) * 2008-12-03 2014-02-12 株式会社やまびこ 携帯式チェンソーの動力ユニット構造
US20100145676A1 (en) * 2008-12-09 2010-06-10 Qualcomm Incorporated Method and apparatus for adjusting the length of text strings to fit display sizes
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8355698B2 (en) 2009-03-30 2013-01-15 Microsoft Corporation Unlock screen
US8175653B2 (en) 2009-03-30 2012-05-08 Microsoft Corporation Chromeless user interface
US8238876B2 (en) 2009-03-30 2012-08-07 Microsoft Corporation Notifications
US8836648B2 (en) 2009-05-27 2014-09-16 Microsoft Corporation Touch pull-in gesture
US8924893B2 (en) * 2009-10-14 2014-12-30 At&T Mobility Ii Llc Locking and unlocking of an electronic device using a sloped lock track
US9424444B2 (en) 2009-10-14 2016-08-23 At&T Mobility Ii Llc Systems, apparatus, methods and computer-readable storage media for facilitating integrated messaging, contacts and social media for a selected entity
US20130262486A1 (en) * 2009-11-07 2013-10-03 Robert B. O'Dell Encoding and Decoding of Small Amounts of Text
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US20120159395A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Application-launching interface for multiple modes
US20120159383A1 (en) 2010-12-20 2012-06-21 Microsoft Corporation Customization of an immersive environment
US8612874B2 (en) 2010-12-23 2013-12-17 Microsoft Corporation Presenting an application change through a tile
US8689123B2 (en) 2010-12-23 2014-04-01 Microsoft Corporation Application reporting in an application-selectable user interface
US9423951B2 (en) 2010-12-31 2016-08-23 Microsoft Technology Licensing, Llc Content-based snap point
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US9383917B2 (en) 2011-03-28 2016-07-05 Microsoft Technology Licensing, Llc Predictive tiling
US9158445B2 (en) 2011-05-27 2015-10-13 Microsoft Technology Licensing, Llc Managing an immersive interface in a multi-application immersive environment
US20120304132A1 (en) 2011-05-27 2012-11-29 Chaitanya Dev Sareen Switching back to a previously-interacted-with application
US9104440B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US9104307B2 (en) 2011-05-27 2015-08-11 Microsoft Technology Licensing, Llc Multi-application environment
US8893033B2 (en) 2011-05-27 2014-11-18 Microsoft Corporation Application notifications
US9658766B2 (en) 2011-05-27 2017-05-23 Microsoft Technology Licensing, Llc Edge gesture
US8687023B2 (en) 2011-08-02 2014-04-01 Microsoft Corporation Cross-slide gesture to select and rearrange
US20130057587A1 (en) 2011-09-01 2013-03-07 Microsoft Corporation Arranging tiles
US10353566B2 (en) 2011-09-09 2019-07-16 Microsoft Technology Licensing, Llc Semantic zoom animations
US8922575B2 (en) 2011-09-09 2014-12-30 Microsoft Corporation Tile cache
US9557909B2 (en) 2011-09-09 2017-01-31 Microsoft Technology Licensing, Llc Semantic zoom linguistic helpers
US9244802B2 (en) 2011-09-10 2016-01-26 Microsoft Technology Licensing, Llc Resource user interface
US8933952B2 (en) 2011-09-10 2015-01-13 Microsoft Corporation Pre-rendering new content for an application-selectable user interface
US9146670B2 (en) 2011-09-10 2015-09-29 Microsoft Technology Licensing, Llc Progressively indicating new content in an application-selectable user interface
US8965752B2 (en) 2011-10-06 2015-02-24 International Business Machines Corporation Filtering prohibited language formed inadvertently via a user-interface
US9223472B2 (en) 2011-12-22 2015-12-29 Microsoft Technology Licensing, Llc Closing applications
US9128605B2 (en) 2012-02-16 2015-09-08 Microsoft Technology Licensing, Llc Thumbnail-image selection of applications
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
GB2509889A (en) * 2012-10-15 2014-07-23 Kieran Hayes Compressing text for software input
US10303746B1 (en) 2012-12-21 2019-05-28 CRLK, Inc. Method for coding a vanity message for display
US12079563B1 (en) 2012-12-21 2024-09-03 Crkl, Inc. Method for coding a vanity message for display
US11010535B1 (en) 2012-12-21 2021-05-18 Crkl, Inc. Method for coding a vanity message for display
US9450952B2 (en) 2013-05-29 2016-09-20 Microsoft Technology Licensing, Llc Live tiles without application-code execution
CN105359094A (zh) 2014-04-04 2016-02-24 微软技术许可有限责任公司 可扩展应用表示
WO2015154273A1 (en) 2014-04-10 2015-10-15 Microsoft Technology Licensing, Llc Collapsible shell cover for computing device
KR20160143784A (ko) 2014-04-10 2016-12-14 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 컴퓨팅 디바이스용 슬라이더 커버
US10678412B2 (en) 2014-07-31 2020-06-09 Microsoft Technology Licensing, Llc Dynamic joint dividers for application windows
US10592080B2 (en) 2014-07-31 2020-03-17 Microsoft Technology Licensing, Llc Assisted presentation of application windows
US10254942B2 (en) 2014-07-31 2019-04-09 Microsoft Technology Licensing, Llc Adaptive sizing and positioning of application windows
US10642365B2 (en) 2014-09-09 2020-05-05 Microsoft Technology Licensing, Llc Parametric inertia and APIs
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN106662891B (zh) 2014-10-30 2019-10-11 微软技术许可有限责任公司 多配置输入设备
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
JP6295977B2 (ja) * 2015-02-17 2018-03-20 京セラドキュメントソリューションズ株式会社 表示装置、情報処理装置、メッセージ表示方法
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
US10484493B2 (en) 2015-11-17 2019-11-19 At&T Intellectual Property I, L.P. Method and apparatus for communicating messages
US9639528B1 (en) 2016-01-29 2017-05-02 Sap Se Translation-based visual design
US10275450B2 (en) * 2016-02-15 2019-04-30 Tata Consultancy Services Limited Method and system for managing data quality for Spanish names and addresses in a database
US10581456B2 (en) * 2016-06-22 2020-03-03 Fujitsu Limited Data compression device and data decompression device
US10261990B2 (en) * 2016-06-28 2019-04-16 International Business Machines Corporation Hybrid approach for short form detection and expansion to long forms
US10083170B2 (en) 2016-06-28 2018-09-25 International Business Machines Corporation Hybrid approach for short form detection and expansion to long forms
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10210147B2 (en) * 2016-09-07 2019-02-19 International Business Machines Corporation System and method to minimally reduce characters in character limiting scenarios
JP7095684B2 (ja) * 2017-03-30 2022-07-05 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム
CN109388794A (zh) * 2017-08-03 2019-02-26 阿里巴巴集团控股有限公司 一种时间解析方法、装置、设备和计算机存储介质
US20190065446A1 (en) * 2017-08-22 2019-02-28 Microsoft Technology Licensing, Llc Reducing text length while preserving meaning
US10839135B1 (en) * 2018-01-03 2020-11-17 Amazon Technologies, Inc. Detection of access to text-based transmissions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0490047A (ja) * 1990-08-01 1992-03-24 Canon Inc 文生成方式
JPH1063666A (ja) * 1996-08-27 1998-03-06 Toshiba Corp 短縮文字列置き換え装置及び短縮文字列置き換え方法、及び短縮文字列置き換え方法のプログラムを格納した記憶媒体
JPH10240206A (ja) * 1997-02-28 1998-09-11 Sony Corp 表示装置
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4333152A (en) * 1979-02-05 1982-06-01 Best Robert M TV Movies that talk back
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
US5410475A (en) * 1993-04-19 1995-04-25 Mead Data Central, Inc. Short case name generating method and apparatus
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US6026410A (en) * 1997-02-10 2000-02-15 Actioneer, Inc. Information organization and collaboration tool for processing notes and action requests in computer systems
US6112168A (en) * 1997-10-20 2000-08-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
GB9806085D0 (en) 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
JP3879321B2 (ja) * 1998-12-17 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体
US6279018B1 (en) * 1998-12-21 2001-08-21 Kudrollis Software Inventions Pvt. Ltd. Abbreviating and compacting text to cope with display space constraint in computer software
US6535886B1 (en) * 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0490047A (ja) * 1990-08-01 1992-03-24 Canon Inc 文生成方式
JPH1063666A (ja) * 1996-08-27 1998-03-06 Toshiba Corp 短縮文字列置き換え装置及び短縮文字列置き換え方法、及び短縮文字列置き換え方法のプログラムを格納した記憶媒体
JPH10240206A (ja) * 1997-02-28 1998-09-11 Sony Corp 表示装置
JPH11345233A (ja) * 1998-04-02 1999-12-14 Sony Corp 文書処理方法および装置ならびに記録媒体

Also Published As

Publication number Publication date
US7069207B2 (en) 2006-06-27
US7398203B2 (en) 2008-07-08
JP2002334071A (ja) 2002-11-22
KR100890691B1 (ko) 2009-03-26
KR20020063118A (ko) 2002-08-01
US20060184351A1 (en) 2006-08-17
US20020138248A1 (en) 2002-09-26
EP1227408A3 (en) 2005-07-20
EP1227408A2 (en) 2002-07-31

Similar Documents

Publication Publication Date Title
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JP5362353B2 (ja) 文書中のコロケーション誤りを処理すること
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US6694055B2 (en) Proper name identification in chinese
EP1367501B1 (en) Lexicon with sectionalized data and method of using the same
US7092871B2 (en) Tokenizer for a natural language processing system
JP5113750B2 (ja) 定義の抽出
US20020123877A1 (en) Method and apparatus for performing machine translation using a unified language model and translation model
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US20060095250A1 (en) Parser for natural language processing
JPH0689304A (ja) テキスト処理システムにより使用されるテキストを準備する方法及び装置
US7328404B2 (en) Method for predicting the readings of japanese ideographs
US6125377A (en) Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style
TW548600B (en) Method and system for identifying attributes of new words in non-segmented text
US7620541B2 (en) Critiquing clitic pronoun ordering in french
US7389220B2 (en) Correcting incomplete negation errors in French language text
KR101052004B1 (ko) 번역서비스 제공방법 및 그 시스템
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Vasuki et al. English to Tamil machine translation system using parallel corpus
Elwert et al. Toiling with the Pāli Canon
JP2009009583A (ja) 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
Alfter et al. Toiling with the Pāli Canon
Alhonen Automatic Morphological Parsing of Chinese
JPH0744566A (ja) 抄録作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101220

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20101221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20101221

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318