JPH11250105A - 多言語情報検索方法およびシステム - Google Patents

多言語情報検索方法およびシステム

Info

Publication number
JPH11250105A
JPH11250105A JP10357349A JP35734998A JPH11250105A JP H11250105 A JPH11250105 A JP H11250105A JP 10357349 A JP10357349 A JP 10357349A JP 35734998 A JP35734998 A JP 35734998A JP H11250105 A JPH11250105 A JP H11250105A
Authority
JP
Japan
Prior art keywords
text
word
language
text part
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10357349A
Other languages
English (en)
Inventor
Gregory Grefenstette
グレフェンステット グレゴリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11250105A publication Critical patent/JPH11250105A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00236Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server using an image reading or reproducing device, e.g. a facsimile reader or printer, as a local input to or local output from a computer
    • H04N1/00241Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server using an image reading or reproducing device, e.g. a facsimile reader or printer, as a local input to or local output from a computer using an image reading device as a local input to a computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 目標言語L2で書かれ、テキストデータベー
スに格納された関連ドキュメントを別の言語L1でアク
セスできるようにする。 【解決手段】 プロセッサ234 とメモリ236 と通信装置
221 を備えた情報処理システム222 において実施する方
法であって、(a)第1言語のユーザーが定義したテキ
スト部分を取り出し、(b)テキスト部分をトークン化
して、トークン化したテキスト部分を生成し、(c)ト
ークン化したテキスト部分を品詞明確化して、少なくと
も1つの品詞インジケータがワードに付加された明確化
テキスト部分を生成し、(d)明確化したテキスト部分
をレマタイズして、明確化したテキスト部分の各ワード
ごとに、そのワードか若しくはレマ(見出し語)が得ら
れればそのレマのどちらかを生成し、(e)レマが決定
されたテキスト部分を翻訳して、各ワードごとに、少な
くとも1つの訳語(各訳語はそのワードの第2言語L2
への可能な翻訳である)を生成し、(f)第2言語L2
の情報を検索するのに適した問合せを定義するため訳語
をフォーマットする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、コンピュータベースの
情報検索、より詳細には多言語情報検索に関するもので
ある。
【0002】
【従来の技術】多数の言語を話せるほとんどの人達は、
いくつかの言語で正しく話すことができるよりもそれら
の言語で容易に読み取ることができる。情報を探索する
とき、既存の情報検索システムは、ユーザーがドキュメ
ントの言語(目標の言語すなわちL2)で問合せを系統
的に表現する(formulate)こと、および一般に問合せを
実際にタイプインすることを要求している。従って、問
合せの系統的表現(formulate)ステップを含んでいるば
かりでなく、既存の情報探索システムはユーザーが彼ら
のネイティブ言語(L1)で探索対象を指示することを
許さない。
【0003】ヨーロッパ特許出願公開EP−A−72
5,353号は通信ネットワークでリンクされたサーバ
から異なる言語のソースドキュメントを検索し、検索し
たソースドキュメントを必要なとき翻訳し、翻訳したド
キュメントを格納し、それらのソースドキュメントと翻
訳したドキュメントを通信ネットワークに接続されたク
ライアント装置で表示するドキュメント検索表示システ
ムを開示している。
【0004】
【発明が解決しようとする課題】目標言語(L2)で書
かれ、テキストデータベースに格納された関連ドキュメ
ントを、ユーザーが別の言語(L1)のテキストの一部
分を使用してアクセスできるようにする手法が必要であ
ることは明らかであろう。
【0005】
【課題を解決するための手段】本発明は、ネットワーク
との間で通信を行うように、プロセッサとメモリと通信
装置とを有する情報処理システムにおいて実施される方
法であって、(a)第1テキスト部分を取り出すステッ
プであって、該第1テキスト部分は第1言語L1内に複
数のワードを有する、第1テキスト取り出しステップ
と、(b)前記第1テキスト部分をトークン化して、ト
ークン化したフォーム内に第2テキスト部分を生成する
ステップと、(c)前記第2テキスト部分を品詞明確化
して、第3テキスト部分を生成するステップであって、
該第3テキスト部分は、前記第2テキスト部分の各ワー
ドごとに、少なくとも1つの品詞インジケータが付加さ
れているワードを有する、第3テキスト生成ステップ
と、(d)前記第3テキスト部分をレマタイズ(lemmati
ze)して、第4テキスト部分を生成するステップであっ
て、該第4テキスト部分は、前記第3テキスト部分の各
ワードごとに、当該ワード若しくは当該ワードに対応す
る見出し語(レマ)を得られる場合はその見出し語を有
する、第4テキスト生成ステップと、(e)前記第4テ
キスト部分を翻訳して、第5テキスト部分を生成するス
テップであって、該第5テキスト部分は、前記第4テキ
スト部分の各ワードごとに、少なくとも1つの翻訳ワー
ドを有しており、各翻訳ワードは当該ワードの第2言語
L2への可能な翻訳である、第5テキスト生成ステップ
と、(f)前記第5テキスト部分をフォーマッティング
して、第6テキスト部分を生成するステップであって、
該第6テキスト部分は、前記翻訳ワードを組み入れて且
つ前記第2言語L2の情報を検索するのに適した問合せ
を定義している、第6テキスト生成ステップとから成る
ことを特徴とする方法を提供する。
【0006】ステップ(a)は、(a1)テキスト内容
を含む画像を支持するポータブル媒体を走査して、テキ
スト内容を表す第1イメージデータを生成するステップ
と、(a2)前記第1イメージデータからイメージデー
タの一部分を取り出して、第2イメージデータを生成す
るステップであって、該第2イメージデータはテキスト
内容のユーザーが分離した部分を表す、ステップと、
(a3)光学的文字認識を用いて、前記第2イメージデ
ータを機械読取り可能なテキストデータへ変換するステ
ップであって、該テキストデータはユーザーが分離した
テキスト部分の表現であり、ユーザが分離したテキスト
部分は前記第1テキスト部分として使用される、ステッ
プとを含んでいることが好ましい。
【0007】ステップ(a)は、更に、(a4)候補言
語(ユーザーが分離したテキスト部分の言語L1につい
て最もありそうな推定である言語)を決定するステップ
と、(a5)前記ステップ(a4)において決定した候
補言語に特有の光学的文字認識を用いて、第2イメージ
データを機械読取り可能な第2テキストデータへ変換す
るステップであって、第2テキストデータはユーザーが
分離したテキスト部分の代替表現であり、得られたユー
ザー分離テキスト部分は前記第1テキスト部分として使
用される、ステップとを含んでいることが好ましい。
【0008】代替の実施例として、本システムは、ユー
ザーがユーザー入力を与えられるように構成されたキー
ボードすなわちユーザーインタフェースを備えており、
本方法は、(a1′)複数の第1ユーザー入力を受け取
るステップであって、第1ユーザー入力は少なくとも1
つのワードを定義している、ステップと、(a2′)ユ
ーザー入力の終了を指示する第2ユーザー入力を受け取
るステップと、および(a3′)前記第2ユーザー入力
に応じて、ステップ(a1′)で得たワードをコンパイ
ルして、前記第1テキスト部分を生成するステップとを
含んでいる。
【0009】本システムは、二国語オンライン翻訳辞書
ににアクセスするように構成されており、前記ステップ
(e)は前記翻訳辞書の中で各ワード又は見出し語(レ
マ)を探索し、それぞれの対応する訳語を得ることを含
んでいることが好ましい。
【0010】本システムは、第2言語L2で操作可能な
所定の情報検索エンジンと通信するように構成されてお
り、前記ステップ(f)は、前記情報検索エンジンに適
した所定のフォーマットで前記問合せを作ることを含ん
でおり、本方法は、さらに、(g)前記問合せを情報検
索エンジンへ送ることを含んでいるのが好ましい。
【0011】本方法は、さらに(h)情報検索エンジン
から1つまたはそれ以上のドキュメント項目のリストを
受け取るステップと、および(i)前記ドキュメント項
目のリストを表示するステップと、またはそれぞれのド
キュメントを印刷することを含んでいることが好まし
い。本方法は、さらに(j)表示するため前記リスト内
のドキュメント項目の1つを選択することを定義してい
る第3ユーザー入力に応じて、前記選択したドキュメン
ト項目に対応するドキュメントを表示することを含んで
いることが好ましい。
【0012】本方法は、さらに(k)印刷するため前記
リスト内のドキュメント項目の1つを選択することを定
義している第4ユーザー入力に応じて、前記選択したド
キュメント項目に対応するドキュメントを印刷すること
を含んでいることが好ましい。
【0013】本発明は、さらに、上記のどれかの方法を
実施するように適当にプログラムされた場合の(すなわ
ち、ここに記載した特定の実施例のどれかに係る)プロ
グラム可能な情報処理システムを提供する。本システム
は、プロセッサとメモリと通信装置とを包含し、該シス
テムとネットワークの間で通信するように構成されてお
り、前記プロセッサは、使用時において、前記方法の諸
ステップに相当する命令を実行するため、メモリおよび
通信装置と共同して動作できる。
【0014】本発明は、更に、プロセッサが実行する命
令を定義し、請求項1の方法のステップに対応するディ
ジタルデータが記録されている(すなわちここに記載し
た特定の実施例のどれかに係る)記録可能な媒体を提供
する。媒体は、磁気的に(たとえば、フロッピィディス
ク)、光学的に(たとえば、CD−ROM)、または電
子的に、または電子磁気的に、記録可能な媒体または同
種のものであってもよい。
【0015】本発明の利点は、情報(または問合せ)を
どのように目標言語で系統的に表現しなければならない
かを知っている必要性がないばかりでなく、問合せを像
形成し、タイプインする必要性がないことである。本発
明の或る実施例においては、ユーザーは興味のある既存
のドキュメント、たとえばハードコピー・ドキュメント
の一部分を指示する必要があるだけである。
【0016】
【発明の実施の形態】次に、添付図面を参照して、例と
して本発明の実施例を説明する。図1は、本発明の実施
例を実施するための基礎として適当なコンピュータシス
テム110の例を示す。このシステムは米国特許出願第
08/668,704号に詳しく論じられている。シス
テム110は、ファクシミリ120、「スマート」多機
能装置(すなわちプロセッサ(CPU)とメモリを組み
入れた多機能装置)130、パーソナル/オフィス・コ
ンピュータ100、1つまたはそれ以上のローカル・サ
ーバ・コンピュータ140、および1つまたはそれ以上
のWWWサーバ・コンピュータ150から成っている。
それらは、電話接続111、ローカルエリアネットワー
ク141、およびインターネット151を含む種々の通
信パスウェイによって連絡されている。コンピュータ1
00はモデム108とオプションとしてのCD−ROM
大量記憶装置109を備えており、また光学的スキャナ
103とプリンタ104を含む搭載周辺機器を有する。
【0017】この分野の専門家は、システム110の計
画が例示することを意図したものであって、限定するこ
とを意図していないことを理解されるであろう。詳しく
述べると、システム110内の装置120、130、1
40、150、および100の代わりに、またはそれら
の装置に加えて、多種多様なコンピュータ装置、通信装
置、情報処理装置、ドキュメント処理装置を使用できる
ことは理解されるであろう。実際には、インターネット
151による接続は、一般に中間ルータ・コンピュータ
(図示せず)によるパケット・スイッチングが必要であ
り、またコンピュータ100は典型的なウェブ・ブラウ
ジング・セッション中に多くのウェブ・サーバ150に
アクセスしそうである。また、システム110の諸装置
はさまざまのやり方で接続することができる。たとえ
ば、プリンタ104はコンピュータ100の搭載周辺機
器として示したが、ローカル・サーバ140の1つであ
るプリントサーバによってローカル・エリア・ネットワ
ーク141を通してアクセスされるネットワーク接続の
プリンタでもよいであろう。
【0018】システム110内の種々の通信パスウェィ
111,141,151は、装置120,130,14
0,150,100が互いに通信することを許す。電話
接続111はファクシミリ120が多機能装置130と
通信することを許すほか、モデム108を通してコンピ
ュータ100と通信することを許す。ローカル・エリア
・ネットワーク141はコンピュータ100がローカル
・サーバ140と通信することを許す。インターネット
151は多機能装置130とコンピュータ100がウェ
ブ・サーバ150と通信することを許す。
【0019】システム110内の装置の相対的な物理的
配置についてはさまざまな可能性がある。たとえば、フ
ァクシミリ120と多機能装置130は、互いに同じ建
物の中に、あるいは互いに離れた地球上のあちこちにあ
ってもよいし、また両方またはどちらか一方はコンピュ
ータ100と同じ建物の中に、あるいはコンピュータ1
00から離れた地球上のあちこちにあってもよい。ウェ
ブ・サーバ150も同様にローカルにあってもよいし
(イントラネットと呼ばれる)、あるいはコンピュータ
100や多機能装置130から遠隔の場所にあってもよ
い。コンピュータ100とローカル・サーバ140間の
距離は当然にローカル・エリア・ネットワーク141の
技術によって制限される。
【0020】1ユーザーまたは複数のユーザーは、いろ
いろな場所で、いろいろなやり方でシステム110にア
クセスすることができる。たとえば、ユーザーは、ファ
クシミリ120、多機能装置130、またはコンピュー
タ100のスキャナ103とプリンタ104によって、
システム110に入力を与え、そしてシステム110か
ら出力を受け取ることができる。詳しく述べると、ファ
クシミリ120の近くにいるユーザーはファクシミリ1
20からコンピュータ100へファックスを送ることが
でき、そしてコンピュータ100( Formless Forms PU
I ソフトウェアで適当にプログラムすることができる)
はファクシミリ120のユーザーへファックスを自動的
に送り返すことができる。同様に、ユーザーはファクシ
ミリ120から多機能装置130へファックスを送るこ
とができ、そして多機能装置130(同様に適当にプロ
グラムされていると想定して)はファクシミリ120の
ユーザーへファックスを自動的に送り返すことができ
る。コンピュータ100の近くにいるユーザーはスキャ
ナ103とプリンタ104と共にそのPUIによってコ
ンピュータ100と対話することができる。多機能装置
130の近くにいるユーザーはその走査および印刷能力
を通じて多機能装置130と対話することができるの
で、多機能装置130を一種のパーソナルコンピュー
タ、すなわち主としてまたはもっぱらペーパーをベース
とするユーザーインタフェースを備えたコンピュータと
して、使用することができる。最後にユーザーはウェブ
をブラウズすることによってウェブ・サーバ150と対
話することができる。これは、コンピュータ100また
は多機能装置130から直接に、あるいはコンピュータ
100または多機能装置130のどちらかを使用してフ
ァクシミリ120から間接に行うことができる。
【0021】図2は、本発明の実施の際に使用すること
ができる多機能装置のブロック図である。多機能装置は
ヨーロッパ特許出願公開EP−A−741,487号に
詳しく述べられている。図2のブロック図は、パーソナ
ル・コンピュータ220のユーザーがドキュメントのペ
ーパー表現と電子的表現の間で容易に行動できるように
する多機能装置222を示す。多機能装置222はファ
クシミリのドキュメントを送信し、受信するほかに、ド
キュメントを印刷し、複写する。多機能装置222はこ
れらの仕事を多機能コントローラ224、ファックスモ
デム226、スキャナ230、およびプリンタ228に
よって実行する。図示してないが、多機能装置222は
さらに表示装置たとえばCRTディスプレイまたはLC
Dディスプレイを装備することができる。多機能コント
ローラ224は多機能オペレーティングシステム232
を用いて入力/出力装置226,228,230の動作
および連係動作を制御する。多機能オペレーティングシ
ステム232は適当なコマンド順序を選択し、プロセッ
サ234に渡して実行させる。多機能オペレーティング
システム232は記憶装置に格納したソフトウェアとし
て実現してもよく、たとえば Microsoft at Work (商
標) であってもよい。
【0022】ファクスモデム226、スキャナ230、
プリンタ228、ネットワークポート221、および多
機能コントローラ224は、走査線信号を使用してそれ
らが扱うドキュメントを表現する。スキャナ230はハ
ードコピー・ドキュメント上の画像から走査線信号を発
生し、プリンタ228は走査線信号を使用してマーキン
グ媒体に画像を印刷する。ファックスモデム226と多
機能コントローラ224はパーソナル・コントローラ2
20、ネットワークポート221、電話回線、プリンタ
228、またはスキャナ230から受け取った走査線信
号を使用して、電子媒体とペーパーの間で情報の移動が
できるようにする。多機能オペレーティングシステム2
32の機能は、本発明の実施例に係るプロセスを含め
て、追加のプロセスを呼出すことによって強化される。
これらのプロセスは、オブジェクトコード形でメモリ2
36に格納され、プロセッサ234によって実行される
命令を使用して実現されることが好ましい。メモリ23
6は固体記憶装置たとえばROM,RAM,DRAM,
PROM,EPROM,EPRAMを使用して実現する
ことができる。
【0023】ここでキャラクタ、ワード、テキストの
節、等に関係のあるステップ、操作、または処理に言及
する場合には、それらは、そのようなキャラクタ、ワー
ド、およびテキストの機械読取り可能な(たとえばAS
CIIコード)表現に関するソフトウェア制御プロセッ
サ操作によって適切な場所で実施されることは、この分
野の専門家には明らかであろう。
【0024】図3〜図5は、本発明の一実施例に係る方
法を実施する際の処理ステップを示すフローチャートで
ある。図3(a)に示すように、最初に、ユーザーは多
言語検索の基礎として使用したいと思っているテキスト
の一部分を手動で分離しなければならない(ステップs
2)。図6は、ユーザーがそこからテキストの一部分を
分離したいと思っているドキュメント(新聞の第一面の
一部)を示す。この場合、選択した部分は新聞の記事で
あるテキスト部分2であり、言語L1はフランス語であ
り、図7に示すように、ユーザーは新聞からその記事を
切り抜くことによってテキスト部分2を分離する。従っ
て、ステップs2はテキスト部分2を走査することだけ
である。次に、ユーザーは分離したテキスト部分2を走
査するため、本発明の実施例に係る多機能装置のプラテ
ンの上に置く。
【0025】代わりに、ユーザーはテキスト部分2の周
囲にマーキング4を描くことによってテキスト部分2を
分離することができる。この場合は、このマーキング4
に基づいて、ステップs2とステップs4は、ユーザー
がマーキング4を付け、図6のドキュメントを多機能装
置で走査し、そのあとマーキングが付けられたテキスト
部分2を多機能装置が抽出することによって置き換えら
れる。好ましい実施例の場合、ユーザーは代わりに多機
能装置で走査する前に適当なインクを使用してテキスト
部分をハイライトし、次にハイライトされたテキストを
多機能装置が抽出する。これは米国特許第5,272,
764号に詳しく述べられている。
【0026】〔ペーパーまたはドキュメントまたは媒体
上の分離したテキストの部分だけを走査する代わりに、
ペーパーまたはドキュメントまたは媒体の全体を走査し
てテキスト部分を得ることができることは理解されるで
あろう。〕
【0027】分離したテキスト部分2を走査しまたは抽
出し、またはその両方を行った後、多機能装置は走査操
作によって生成されたイメージファイルの変換を行う
(ステップs6)。〔代わりに、ネットワーク接続を通
してイメージファィルを多機能装置へ供給してもよ
い。〕 変換は既知の光学的文字認識(OCR)技術た
とえばゼロックス コーポレーションから入手できる S
canworX または TextBridgeを使用して適当に実施する
ことができる。図8は、図7のテキスト部分2に対する
図3〜図5のOCRの結果を示す。これは光学的文字認
識されたテキスト6であり、これに関して、多機能装置
はファイルをASCIIフォーマットで受け取る。〔こ
の段階で、ユーザーは、もし多機能装置がキーボードお
よび/またはユーザーインタフェースを備えていれば、
光学的文字認識されたテキスト6内の明白なエラーを訂
正することができる。〕
【0028】図3に戻って、光学的文字認識されたテキ
スト6は次に言語推定操作(ステップs8)を受けるこ
とができる。もしテキスト部分2の言語L1が事前に知
られていなければ、ステップs6のOCR操作は次善で
あってもよい。言語推定手法は、たとえば、 Beesley
K. T., “Language Identifier: a program for automa
tic language identification of on-line texts ”, i
n Languages at the Crossroads: Proc. 29th Ann. Con
f. Am. Translators Assoc. (12-16 October 1988),pp.
47-54 に論じられている。言語推定操作s8の結果
は、L1すなわち言語候補−L1として、適当であると
思われる言語を決定することである。次に、ステップs
10において、言語(L1)特定OCRツールを使用し
て、テキスト部分2の走査したイメージに対し光学的文
字認識がもう一度実施される。〔同様に、この段階で、
ユーザーは、多機能装置がキーボードおよび/またはユ
ーザーインタフェースを備えていれば、言語特定OCR
操作によって生成された光学的文字認識されたテキスト
内の明白なエラーを訂正することができる。〕
【0029】別の代替実施例においては、光学的文字認
識されたテキスト6は、この分野で知られた手法を使用
してトークン化される( McEnery T. and Wilson A., C
orpus Linguistics (1996), Edinvurgh Press 、米国特
許第5,523,946号、および米国特許第5,32
5,091号を参照されたい)。その結果はトークン化
されたテキスト、すなわちその後の処理のためにトーク
ンに分かれたテキスト部分である。図4を参照すると、
ステップs14において、トークンは言語(L1)特定
アナライザーを使用してモルフォロジー的に分析され
る。有限状態トランスジューサ手法を使用するモルフォ
ロジー分析は、ヨーロッパ特許出願公開EP−A−58
3,083号に詳しく論じられている。次に、モルフォ
ロジー的分析の結果として得られたワードは、 de Marc
ken C. G. “Parsing the LOB Corpus”, 28th Ann. Me
eting of the ACL, Pittsbugh, 6-9 June 1990. に詳し
く説明されているように、品詞明確化(part-of-speech
disambiguation) すなわちタグ付けを受ける。詳細は、
同様に、McEnery T. Wilson A., Corpus Linguistics,
Chapter 3 and Appendix B を参照されたい。
【0030】図9は、テキストを処理する時の図3〜図
5のトークン化ステップ、モルフォロジー的分析ステッ
プ、および品詞タグ付け(明確化: disambiguation) ス
テップの結果を示す。これは、それぞれ光学的文字認識
されたテキスト6から得られたトークン、FSTモルフ
ォロジー的分析によって得られたモルフォロジー要素
(morphs) およびワードに適用できる品詞タグを含む、
3つの欄8,10,12によって示される。従って、た
とえば、横列14において、ワード(トークン)“Plu
s”は第1縦列にあり、モルフォロジー要素“Plus”は
第2縦列にあり、タグ“+ADV”(副詞を指す)は第
3縦列にある。
【0031】図10は、図9の明確化されたテキスト7
に対する図3〜図5のレマ(lemma:見出し語)決定のた
めのレマタイズ(lemmatize:分類整理)ステップ(s1
8)の結果である。従って、テキスト7内のワード・モ
ルフォロジー要素・タグの各三つ組ごとに、レマ(見出
し語(または辞書の見出し語形))が抽出される。詳細
は上記ヨーロッパ特許出願公開EP−A−583,08
3号を参照されたい。このワードのセット(図10に参
照番号18で示す)は、その後の処理に使用される。
【0032】図11は、図10のテキスト18内のそれ
ぞれのレマ(見出し語)について実行された図3〜図5
の二国語オンライン辞書探索ステップ(s20)の結果
を示す。ここで、第2言語L2すなわち目標言語は英語
である。従って、各レマ(見出し語)ごとに、この分野
で知られたやり方で、1つまたはそれ以上の対応する英
語の翻訳を得るために、オンライン英仏辞書が探索され
る。図11では、例示のために、情報は、L1のレマ
(見出し語)/L2の訳語として、提供される。従っ
て、例として、6番目のレマ(見出し語)“infecter”
の場合、訳語“infected”, “septic”, “infect”,
“poison”が戻される。L2の訳語のセット(図11に
参照番号20で示す)は、その後の処理のための基礎と
して使用される。〔同様に、この段階で、もし多機能装
置がキーボードおよび/または適当なユーザーインタフ
ェースを備えていれば、ユーザーが介入して訳語のセッ
ト20の中から望ましくない訳語を除去する。〕
【0033】図5に戻って、処理はステップs22へ進
み、レマ(見出し語)から得られた訳語のセット20が
フォーマットされて、言語L2の古典的な情報検索問合
せになる。図12は、図3〜図5のフォーマット操作s
22から得られたテキストの問合せ22を示す。問合せ
のフォーマットは、使用している単一言語情報検索エン
ジンの言語によって決まる。問合せ22は、SMART
( Salton G., “TheSMART retrieval system: Experim
ents in Automatic Document processing”,Prentice-H
all, Englewood Cliffs, NJ, 1971 を参照されたい)な
どの任意の適当な情報検索システムについてフォーマッ
トすることができる。フォーマットされた後、問合せ2
2は単一言語(L2)情報検索エンジン(ネットワーク
上の適当なサイトにある)へ送られ、問合せ22に対応
する情報が検索される(ステップs24)。問合せに関
係のあるドキュメントの題名のリストは情報検索エンジ
ンから通常のやり方でレシーブバックされ、もしリスト
がまだ関連性の順序でランク付けされていなければ、ド
キュメントがそのようにランク付けされるようにリスト
が修正される(ステップs26)(上記 Salton G. の
文献参照) 。
【0034】図13は、情報検索エンジンによって戻さ
れた図12の問合せと一致するドキュメントの題名のリ
スト24を示す。当業者は理解されるであろうが、本発
明はインターネットをベースとする探索手法を使用して
適当に実施され、関連ドキュメント(すなわちヒット)
のリスト24が通常のウェブ・ブラウザーによってHT
MLフォーマットで適当に表示される。題名(14の題
名が示されている)はドキュメント自身へのリンクを適
切に与えるので、従来どおり、ユーザーがリスト24内
の題名すなわちリンクの1つを選択することによって
(たとえばマウスのカーソルを使用して、またはキーボ
ード入力、プルダウンメニュー、またはタッチ画面によ
る選択によって同等に)ドキュメント自身を検索し、調
べることができる。ここで、ユーザーは2番目にリスト
したドキュメント“Technology Brief....”に興味があ
り、それを表示するためマウスのカーソルをリンク26
の上でクリックすることによって、あるいは上記の選択
方法のどれかを用いて上記ドキュメントを選択すると仮
定する。
【0035】図14は、ユーザーによるドキュメントの
選択の後に、図13のリスト24内のドキュメント28
(の第1頁)の表示を示す。この結果、ドキュメントを
調べることができる。従来どおり、ユーザーはマウスを
プリントボタン30上でクリックすることによってドキ
ュメント28をプリントアウトすることができる。
【0036】しかし、多機能装置または上記のリスト2
4を得ることができる装置を適当にプログラムして、リ
スト24、リスト上のすべてのドキュメント、あるいは
リスト24上の所定の数のドキュメントを自動的にプリ
ントアウトすることができることは理解されるであろ
う。
【0037】多機能装置のプラットフォームで実施する
代わりに、単一または複数の固定された、ネットワーク
で結ばれた、分布配置された、および/または携帯コン
ピュータ装置によって、本発明に係る方法の一部まは全
部を実施することができる。たとえば、問合せは、携帯
コンピュータ装置(たとえばハンドヘルド型コンピュー
タまたは携帯情報端末)において生成し、または入力
し、テキストデータベース又はコーパスへ問い合わせる
ためワイヤレス方式(例えば、IR(赤外線)または無
線リンク)でローカル・ホストコンピュータへ送信する
ことができる。
【図面の簡単な説明】
【図1】本発明を実施する際に使用できる典型的なコン
ピュータシステムを示すブロック図である。
【図2】図1のシステム内の多機能装置のブロック図で
ある。
【図3】本発明の一実施例に係る方法を実施する際の処
理ステップを示すフローチャートの第1部分を示す図で
ある。
【図4】本発明の一実施例に係る方法を実施する際の処
理ステップを示すフローチャートの第2部分を示す図で
ある。
【図5】本発明の一実施例に係る方法を実施する際の処
理ステップを示すフローチャートの第3部分を示す図で
ある。
【図6】ユーザーがそこからテキストの一部分を分離し
たいと思っているドキュメントの図である。
【図7】ユーザーが分離したテキスト部分の図である。
【図8】図7のテキスト部分に対する図3〜図5の光学
的文字認識の結果を示す図である。
【図9】図3〜図5のトークン化ステップ、モルフォロ
ジー的分析ステップ、および品詞タグ付け(明確化)ス
テップの結果を示す図である。
【図10】図9の明確化されたテキストに対する図3〜
図5のレマ(見出し語)決定のためのレマタイズ処理
(分類整理)ステップの結果を示す図である。
【図11】図10のレマ(見出し語)について実施され
た図3〜図5の二国語オンライン辞書探索ステップの結
果を示す図である。
【図12】図11の結果から導かれた言語L2のテキス
トに対するフォーマット操作から得られたテキスト問合
せを示す図である。
【図13】情報検索エンジンによってランク付けされた
順序で戻された、図12の問合せと一致するドキュメン
トの題名のリストを示す図である。
【図14】ユーザーによるドキュメント選択後の図13
のリスト内のドキュメント(の第1頁)の表示を示す図
である。
【符号の説明】
2 テキスト部分 4 マーキング 6 光学的文字認識されたテキスト 7 明確化されたテキスト 8 トークン欄 10 モルフォロジー要素欄 12 品詞タグ欄 14 横列 18 ワードのセット 20 訳語のセット 22 テキストの問合せ 24 問合せと一致するドキュメントの題名のリスト 26 リンク 28 ユーザーが選択し、表示されたリスト24内のド
キュメント 100 ハーソナルまたはオフィス・コンピュータ 103 光学式スキャナ 104 プリンタ 108 モデム 109 CD−ROM大量記憶装置 110 コンピュータシステム 111 電話接続 120 ファクシミリ 130 多機能装置 140 ローカル・サーバ・コンピュータ 141 ローカル・エリア・ネットワーク 150 WWWサーバ・コンピュータ 151 インタネット接続 220 パーソナルコンピュータ 221 ネットワークポート 222 多機能装置 224 多機能コントローラ 226 ファックスモデム 228 プリンタ 230 スキャナ 232 多機能オペレーティングシステム 234 プロセッサ 236 メモリ

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークとの間で通信を行うよう
    に、プロセッサとメモリと通信装置とを有する情報処理
    システムにおいて実施される方法であって、 (a)第1テキスト部分を取り出すステップであって、
    該第1テキスト部分は第1言語L1内に複数のワードを
    有する、第1テキスト取り出しステップと、 (b)前記第1テキスト部分をトークン化して、トーク
    ン化したフォーム内に第2テキスト部分を生成するステ
    ップと、 (c)前記第2テキスト部分を品詞明確化して、第3テ
    キスト部分を生成するステップであって、該第3テキス
    ト部分は、前記第2テキスト部分の各ワードごとに、少
    なくとも1つの品詞インジケータが付加されているワー
    ドを有する、第3テキスト生成ステップと、 (d)前記第3テキスト部分をレマタイズして、第4テ
    キスト部分を生成するステップであって、該第4テキス
    ト部分は、前記第3テキスト部分の各ワードごとに、当
    該ワード若しくは当該ワードに対応する見出し語(レ
    マ)を得られる場合はその見出し語を有する、第4テキ
    スト生成ステップと、 (e)前記第4テキスト部分を翻訳して、第5テキスト
    部分を生成するステップであって、該第5テキスト部分
    は、前記第4テキスト部分の各ワードごとに、少なくと
    も1つの翻訳ワードを有しており、各翻訳ワードは当該
    ワードの第2言語L2への可能な翻訳である、第5テキ
    スト生成ステップと、 (f)前記第5テキスト部分をフォーマッティングし
    て、第6テキスト部分を生成するステップであって、該
    第6テキスト部分は、前記翻訳ワードを組み入れて且つ
    前記第2言語L2の情報を検索するのに適した問合せを
    定義している、第6テキスト生成ステップとから成るこ
    とを特徴とする方法。
  2. 【請求項2】 請求項1の方法を実施するように適当に
    プログラムされたプログラム可能な情報処理システムで
    あって、 前記情報処理システムは、プロセッサとメモリと通信装
    置とを包含し、該システムとネットワークの間で通信す
    るように構成されており、 前記プロセッサは、使用時において、前記方法の諸ステ
    ップに相当する命令を実行するため、メモリおよび通信
    装置と共同して動作できることを特徴とする情報処理シ
    ステム。
JP10357349A 1997-12-29 1998-12-16 多言語情報検索方法およびシステム Pending JPH11250105A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9727322:1 1997-12-29
GBGB9727322.1A GB9727322D0 (en) 1997-12-29 1997-12-29 Multilingual information retrieval

Publications (1)

Publication Number Publication Date
JPH11250105A true JPH11250105A (ja) 1999-09-17

Family

ID=10824215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10357349A Pending JPH11250105A (ja) 1997-12-29 1998-12-16 多言語情報検索方法およびシステム

Country Status (4)

Country Link
US (1) US6396951B1 (ja)
EP (1) EP0927939A1 (ja)
JP (1) JPH11250105A (ja)
GB (1) GB9727322D0 (ja)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
JP2001167092A (ja) * 1999-12-13 2001-06-22 Nec Corp 翻訳サーバシステム
JP2001175683A (ja) * 1999-12-21 2001-06-29 Nec Corp 翻訳サーバシステム
AU2001259514A1 (en) * 2000-05-04 2001-11-12 Sightcode, Inc. Modeling system
US7099809B2 (en) 2000-05-04 2006-08-29 Dov Dori Modeling system
US6647156B1 (en) * 2000-06-14 2003-11-11 Chipdata, Inc. Data retrieval method and apparatus
US6704699B2 (en) * 2000-09-05 2004-03-09 Einat H. Nir Language acquisition aide
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
ES2201871B1 (es) * 2001-08-30 2005-05-16 Cultura Y Solidaridad, S.L. Sistema de busquedas bibliograficas mediante consultas de indices.
US7321902B2 (en) * 2002-08-15 2008-01-22 Hewlett-Packard Development Company, L.P. Mechanism for sharing web-based imaging information from a multi-function peripheral
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US20060136629A1 (en) * 2004-08-18 2006-06-22 King Martin T Scanner having connected and unconnected operational behaviors
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20050216251A1 (en) * 2004-03-24 2005-09-29 Dorius Kirk D Bi-lingual language display and method
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US7379595B2 (en) * 2004-05-24 2008-05-27 Xerox Corporation Manual windowing with auto-segmentation assistance in a scanning system
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US20060062453A1 (en) * 2004-09-23 2006-03-23 Sharp Laboratories Of America, Inc. Color highlighting document image processing
US20110075228A1 (en) * 2004-12-03 2011-03-31 King Martin T Scanner having connected and unconnected operational behaviors
US7483179B2 (en) * 2005-04-28 2009-01-27 Xerox Corporation Method and system for sending material
US20060245005A1 (en) * 2005-04-29 2006-11-02 Hall John M System for language translation of documents, and methods
US20070073651A1 (en) * 2005-09-23 2007-03-29 Tomasz Imielinski System and method for responding to a user query
US20070078842A1 (en) * 2005-09-30 2007-04-05 Zola Scot G System and method for responding to a user reference query
FR2896603B1 (fr) * 2006-01-20 2008-05-02 Thales Sa Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel
US7689620B2 (en) * 2006-05-24 2010-03-30 Sizhe Tan Efficiently and systematically searching stock, image, and other non-word-based documents
US7973954B2 (en) * 2006-08-28 2011-07-05 Sharp Laboratories Of America, Inc. Method and apparatus for automatic language switching for an imaging device
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US10176827B2 (en) * 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8457448B2 (en) * 2008-02-04 2013-06-04 Hewlett-Packard Development Company, L.P. Removing inserted text from an image using extrapolation for replacement pixels after optical character recognition
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US20090287471A1 (en) * 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8990235B2 (en) 2009-03-12 2015-03-24 Google Inc. Automatically providing content associated with captured information, such as information captured in real-time
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8694332B2 (en) 2010-08-31 2014-04-08 Xerox Corporation System and method for processing a prescription
JP5012981B2 (ja) * 2010-09-09 2012-08-29 カシオ計算機株式会社 電子辞書装置およびプログラム
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
RU2560816C2 (ru) * 2011-04-18 2015-08-20 Кэнон Кабусики Кайся Устройство обработки данных, способ управления устройством обработки данных и программа
JP2013015967A (ja) * 2011-07-01 2013-01-24 Internatl Business Mach Corp <Ibm> 検索システム、索引作成装置、検索装置、索引作成方法、検索方法およびプログラム
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
CN103324608B (zh) * 2012-03-21 2016-03-30 北京百度网讯科技有限公司 一种词形还原方法及装置
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US10088972B2 (en) 2013-12-31 2018-10-02 Verint Americas Inc. Virtual assistant conversations
US9785627B2 (en) 2014-01-23 2017-10-10 Xerox Corporation Automated form fill-in via form retrieval
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US9842102B2 (en) * 2014-11-10 2017-12-12 Oracle International Corporation Automatic ontology generation for natural-language processing applications
US9558158B2 (en) 2015-03-06 2017-01-31 Translation Management Systems, Ltd Automated document translation
US10262061B2 (en) 2015-05-19 2019-04-16 Oracle International Corporation Hierarchical data classification using frequency analysis
CN104966084A (zh) * 2015-07-07 2015-10-07 北京奥美达科技有限公司 一种基于ocr和tts的低视力阅读助视系统
US9582230B1 (en) 2015-10-09 2017-02-28 Xerox Corporation Method and system for automated form document fill-in via image processing
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5272764A (en) 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5301109A (en) 1990-06-11 1994-04-05 Bell Communications Research, Inc. Computerized cross-language document retrieval using latent semantic indexing
JPH0546659A (ja) * 1991-08-19 1993-02-26 Ricoh Co Ltd デジタル翻訳複写装置
CA2078423C (en) 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US5523946A (en) 1992-02-11 1996-06-04 Xerox Corporation Compact encoding of multi-lingual translation dictionaries
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5325091A (en) 1992-08-13 1994-06-28 Xerox Corporation Text-compression technique using frequency-ordered array of word-number mappers
JP3270783B2 (ja) 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
JPH0744564A (ja) 1993-01-25 1995-02-14 Saetto Group Inc 統合文書翻訳機
JPH07160715A (ja) 1993-12-07 1995-06-23 Sharp Corp 多言語翻訳装置
US5812818A (en) * 1994-11-17 1998-09-22 Transfax Inc. Apparatus and method for translating facsimile text transmission
US5987402A (en) 1995-01-31 1999-11-16 Oki Electric Industry Co., Ltd. System and method for efficiently retrieving and translating source documents in different languages, and other displaying the translated documents at a client device
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US5745596A (en) 1995-05-01 1998-04-28 Xerox Corporation Method and apparatus for performing text/image segmentation
JPH08305728A (ja) 1995-05-10 1996-11-22 Oki Electric Ind Co Ltd 多言語間検索システム
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
JPH09101991A (ja) 1995-07-31 1997-04-15 Toshiba Corp 情報フィルタリング装置
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
JPH0981566A (ja) * 1995-09-08 1997-03-28 Toshiba Corp 翻訳装置及び翻訳方法
US6993471B1 (en) 1995-11-13 2006-01-31 America Online, Inc. Integrated multilingual browser
JPH09251462A (ja) * 1996-03-18 1997-09-22 Sharp Corp 機械翻訳装置
US5692073A (en) 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique

Also Published As

Publication number Publication date
GB9727322D0 (en) 1998-02-25
EP0927939A1 (en) 1999-07-07
US6396951B1 (en) 2002-05-28

Similar Documents

Publication Publication Date Title
JPH11250105A (ja) 多言語情報検索方法およびシステム
EP0519049B1 (en) Machine translation and telecommunications system
US5497319A (en) Machine translation and telecommunications system
JP3666004B2 (ja) 多言語対応文書検索システム
US7516154B2 (en) Cross language advertising
US5999939A (en) System and method for displaying and entering interactively modified stream data into a structured form
US6353840B2 (en) User-defined search template for extracting information from documents
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20060184546A1 (en) Document information management system
US20020161569A1 (en) Machine translation system, method and program
US20010021934A1 (en) Processing device for searching information in one language using search query in another language, and recording medium and method thereof
CN101137983A (zh) 嵌入式翻译增强的搜索
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
US20120296632A1 (en) Technology for selecting texts suitable as processing objects
JPH11219368A (ja) 情報検索装置及び情報検索方法
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
CN1492354A (zh) 多国文字信息搜索方法和多国文字信息搜索引擎系统
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
KR20000039748A (ko) 다국어 웹 문서 번역 서비스 장치 및 이를 이용한번역 서비스 방법
US20020007382A1 (en) Computer having character input function,method of carrying out process depending on input characters, and storage medium
JP2000163441A (ja) 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP2003296327A (ja) 翻訳サーバ、ジャンル別オンライン機械翻訳方法、およびそのプログラム
JPH08212216A (ja) 自然言語処理装置および自然言語処理方法
JP5148583B2 (ja) 機械翻訳装置、方法及びプログラム
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090721