JPH0756957A - ユーザへの情報提供方法 - Google Patents

ユーザへの情報提供方法

Info

Publication number
JPH0756957A
JPH0756957A JP6174497A JP17449794A JPH0756957A JP H0756957 A JPH0756957 A JP H0756957A JP 6174497 A JP6174497 A JP 6174497A JP 17449794 A JP17449794 A JP 17449794A JP H0756957 A JPH0756957 A JP H0756957A
Authority
JP
Japan
Prior art keywords
word
information
user
dictionary
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6174497A
Other languages
English (en)
Inventor
Annie E Zaenen
イー.ザイネン アニー
Lauri J Karttunen
ジェイ.カートゥーネン ローリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0756957A publication Critical patent/JPH0756957A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

(57)【要約】 【目的】 電子的に符号化されたテキスト本体と関連す
る電子辞書を用いる技術。 【構成】 選択された語を入力する( ステップ60) 。選
択語を含む文を選ぶ(S65) 。各語を解析し、各語をその
屈折形態から可能な引用形態へ写像する(S70) 。語毎の
情報は、確率的な曖昧性除去装置へ伝達され、最もあり
そうな引用形態を文構造に基づいた文中の語毎に決定す
る(S75) 。複数ワードの組合せ及びありそうな意味につ
いて辞書にアクセスする(S80) 。各複数の語の組合せは
最もありそうな文解析と比較される(S85) 。1つが発見
されればユーザへ通信される(S90)。なければ、語の最
もありそうな意味に関する情報はユーザに示される(S9
5) 。追加の情報が必要であれば(S100)、表示される(10
5) 。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は一般的にコンピュータ化
情報検索装置又はシステムに関し、更に詳細には電子的
に符号化されたテキスト本体と関連する電子辞書を用い
る技術に関する。
【0002】
【従来の技術】電子的に符号化された辞書等は、ありふ
れたものとなり、ワード処理プログラムと共に、及び独
立型の基準ワークとの両方に適用性がある。一方、現在
の電子辞書は、印刷された辞書から得られ、且つ同一フ
ォーマットに情報を表示する。例えば、テキスト中の語
を選択することによって、辞書からの情報が要求される
と、その語に関する全情報が提供される。その語が、1
つよりも多い構文範疇(syntactic category)を有した
り、そうでなく曖昧である場合、ユーザは表示された情
報のどれが適切であるかを決定できる。従って、印刷さ
れた辞書の使用に対して電子辞書の使用の唯一の利点
は、ルックアップがより早いことと、結果がテキストを
表示する同一スクリーン上に表示できることである。
【0003】
【発明が解決しようとする課題】本発明は、電子的に符
号化される実行テキスト(running text)と共に、電子辞
書を使用するが、ある意味では、選択された語について
あり得る全情報を用いてユーザに詳しく説明するという
よりも、最も適切な部分をユーザに与える技術を提供す
る。
【0004】
【課題を解決するための手段と作用】簡潔に言えば、本
発明は選択される語をその屈折形態( 表層形態とも称さ
れる) から引用形態(辞書形態又は字句形態と称される
こともある)を含む1組の情報へ写像し、曖昧性を除く
ために隣接した及び周囲の語の文脈に選択された語を解
析し、おそらく最も適切だろうと決定される情報を表示
する。ユーザは、追加情報を自由に要求することがで
き、その場合、選択された語についての次に最も適切な
情報、又は全情報をのいづれかが提供される。辞書は、
好ましくは選択された語を含む複数の語の組合せに関す
る情報を有し、前後関係(文脈)の決定は一般的に、選
択語が予め定義された複数の語の組合せの部分であるか
否かの検査を伴う。
【0005】特定の実施例において、選択語(及び好ま
しくは同一文中の他の語)は形態素解析器(morphologic
al analyzer)へ伝達され、引用形態及び、例えば音声
(スピーチ)の部分等の形態素範疇又はタグを提供す
る。形態素解析器は好ましくは有限状態変換器(FST;fi
nite state transducer)として実施する。更に、最も適
切そうな情報の決定は、好ましくは、隠れマルコフモデ
ル(HMM; hidden Markov model)等の統計的手法を用いて
決定される。
【0006】本発明は、現在の文脈において意味を成す
ことを使用するユーザの能力(ability) を利用する。完
全な構文解析をテキストに使用する等の他の可能なアプ
ローチと対照的に、本発明による辞書情報の文脈依存フ
ィルタリングは、計算的に特別に要求をしない。同時
に、最初の情報が意味を成さない場合に、ユーザが追加
情報を要求できることによって、技術が非常に正確であ
るべきであるという抑制条件を緩和する。このことは、
1、2%のエラー率でさえ許容できない機械翻訳等の文
脈と対照的である。
【0007】請求項1に記載の本発明は、文中に語を備
える電子的に符号化されたテキストの本体、及びテキス
ト中の語の少なくとも幾つかについての情報を有する電
子的に符号化された辞書と共に用いるために、テキスト
中のユーザが選択する語に応答して、ユーザに辞書から
の情報を提供するための方法であって、語の集合のそれ
ぞれに対して、その集合中の各語と関連する少なくとも
1つの引用形態を含む解析を生成する形態素解析器を提
供するステップと、選択語と関連する全ての解析を得る
ために選択語を形態素解析器へ伝達するステップと、選
択語及びテキスト中の少なくとも幾つかの隣接する語を
基準として、選択語と関連する最も可能性がある解析を
決定するステップと、選択語と関連する最も可能性があ
る解析についての情報を表示するステップと、を備え
る。
【0008】請求項2に記載のユーザへの情報提供方法
は、請求項1のユーザへの情報提供方法において、請求
項1の方法であって、更に同じ引用形態の複数事例があ
り、それぞれが音声の異なる部分を備える時に実行され
る、音声の最も可能性のある部分の確認ステップ、を備
える。
【0009】請求項3に記載のユーザへの情報提供方法
は、請求項1のユーザへの情報提供方法において、形態
素解析器が有限状態変換器として実行される。
【0010】請求項4に記載のユーザへの情報提供方法
は、請求項1のユーザへの情報提供方法において、最も
可能性のある解析を決定する前記ステップが、隠れマル
コフモデルを使用して実行される。
【0011】請求項5に記載のユーザへの情報提供方法
は、請求項1のユーザへの情報提供方法において、辞書
が複数の語の組合せについての情報を有し、更に、選択
された語が複数の語の組合せの1つの中の部分であるか
否かを決定し、もしそうであれば、複数の語の組合せに
ついての情報を表示するステップと、を備える。
【0012】
【実施例】以下の明細書及び図面を参照することによっ
て、本発明の特徴及び利点が更に理解される。
【0013】システムの概要 図1は、その中に本発明を組み込めるコンピュータシス
テム10のブロック図である。この高レベルで図示され
たコンピュータシステム構成は、標準型であり、そのよ
うなものとして、図1は”従来技術”としてラベル付け
される。しかしながら、本発明を具体化するように適切
にプログラムされる、例えばシステム10等のコンピュ
ータシステムは、従来技術ではない。周知の実施によ
り、コンピュータシステムは、バスサブシステム15を
介して多数の周辺装置(デバイス)と通信を行うプロセ
ッサ12を含む。これらの周辺装置は一般的に、メモリ
17、キーボード又は他の入力装置20、ディスプレイ
(表示装置)又は他の出力装置22、及び例えば1つ以
上のハードディスクドライブやフロッピーディスクドラ
イブ等のファイル記憶(ストレージ)システム25を含
む。
【0014】一般的なテキスト適用業務( アプリケーシ
ョン) では、ユーザは電子的に符号化されたテキスト本
体をディスプレイで見る。テキストは、既存のマテリア
ル(材料)、又はユーザが作成、若しくは修正処理中で
あるマテリアルでありうる。テキストは通常、ディスク
に記憶され、選択された部分は表示及び操作のためにメ
モリに読み込まれる。これへの一般的な付属物が次第に
増えると、ユーザは例えば、辞書やシソーラス(類語辞
典)などのオンライン基準ワークにアクセスする。一般
的なワード処理プログラムでは、ユーザは語を強調表示
すること又はカーソルを語の上に配置することによって
語を選択でき、シソーラス又は辞書をアクセスする。シ
ソーラスの場合、ユーザは選択語の多数のシノウム(同
義語)を呈される。辞書の場合、ユーザは、辞書が選択
語に関して含有するあらゆる情報、通常、選択語の多数
の定義を、呈される。
【0015】別の可能性は翻訳のための辞書の使用であ
る。例えば、ユーザはフランス語のテキスト本体を有
し、テキストを読み、理解する目的のために、又はテキ
ストを英語に翻訳する目的のためにフランス語−英語辞
書を用いることができる。特に次の説明の例は、この内
容によくある。
【0016】周知であるように、一般的な語は多くの定
義を有すると共に、多数ある複数の語からなる複合形又
はイディオムの部分に成り得る。例えば、American Her
itage Dictionary, Second College edition (Houghton
Mifflin Company 1985)の語”table(テーブル) ”に関
する見出し語は、16個の名詞の定義、3個の動詞の定
義、及びそれ自体が2つの定義を有する" under the ta
ble"を含む3個のイディオムを有する。見出し語は"tab
le cloth (テーブルクロス)"や"water table (地下水
面)"を示すものは全く含まず、こられは別の見出し語に
ある。
【0017】この例によって2つの問題が説明される。
先ず最初に、文 "The table is white (そのテーブルは
白い)"の中の語 "table" を選ぶユーザは、"under the
table" が "こっそりと" 又は "泥酔状態で" を意味す
ること、更にその語 "table"は多数の動詞の意味を有す
ること、という興味深いが、的外れの事実に直面するで
あろう。2番目に、文 "The water table has dropped
fifteen feet (地下水面は15フィート下がった)"の中
の語 "table" を選ぶユーザは、"table" について全て
の意味を調べるが、"water table" の望ましい意味を見
つけないであろう。
【0018】辞書が電子フォームに利用できれたと仮定
すれば、ユーザは更に、ルックアップがより速いこと、
及び情報がテキストと同じスクリーン上に呈されること
の利益を得るだろうが、ユーザはコンピュータが提供で
きる全ての利益を必ずしも有しているとは限らない。
【0019】図2はコンピュータシステム10で実現さ
れる本発明の動作部分を示すブロック図である。キーボ
ード又は他の入力装置、及びディスプレイ又は他の出力
装置はユーザインタフェース40として一まとめにして
に示される。ユーザインタフェースは、例えば、音響ベ
ースの装置や触覚ベースの装置等の少ししかない装置と
同様に、より多くの従来の装置を含むコンピュータと、
ユーザが通信できるあらゆる装置を含むことができる。
記憶されたテキスト及び辞書は、別個のブロック42及
び45として示され、プログラムされたプロセッサの関
連部分は語解析器(アナライザ)50及びフィルタ52
を含むものとして示される。システムは、テキスト42
及び辞書45が電子フォームであるので、語解析器50
で言語学的に解析できるという事実の重要な利点を使用
する。語解析器50は、生の辞書データよりも標準的
に、より有用である情報をユーザに提供するようにフィ
ルタ52を制御する。本発明の態様はユーザに最初に呈
する情報をフィルタリングするように100%の精度で
ある必要がないということである。その理由は、ユーザ
は追加情報又は全情報を要求するオプション(任意選
択)を常に有しているからである。
【0020】図3は、電子的に符号化されたテキスト本
体中のユーザの選択する語に応答して、電子辞書からの
有用な情報をユーザに提供するための本発明による手順
を説明するフロー図である。ユーザは先ず、テキスト中
の語を選択し、語解析器によって受け取られる(ステッ
プ60)。そして、選択語を含む文を選択するように、
選択語周辺のテキスト本体が解析される(ステップ6
5)。文中の全語は形態素解析器へ伝達され、各語(ワ
ード)を解析し、各語をその屈折形態(inflectedform)
から可能な引用形態(citation form) へ写像する(ステ
ップ70)。形態素解析器も各引用形態を追加の情報
(形態素タグ)へ提供する。語毎の情報は、確率的な曖
昧性除去装置(disambiguator)へ伝達され、最もありそ
うな引用形態を文構造に基づいた文中の語毎に決定す
る。(ステップ75)
【0021】次に辞書はアクセスされ、選択語を含む全
ての複数語の組合せ(イディオム及び複合形態)は、最
もありそうな意味の単一語と同様に調べられる(ステッ
プ80)。各複数の語の組合せは最もありそうな文解析
と比較され(ステップ85)、1つが発見されればユー
ザへ通信される(ステップ90)。文が複数の語の組合
せの1つを含んでいなければ、語の最もありそうな意味
に関する情報は(視覚的に又は他の方法で)ユーザに示
される(ステップ95)。この段階で、ユーザは表示さ
れた情報が意味を成しているか否かを確認でき、意味を
成していなければ、ユーザは更に情報を要求できる。シ
ステムはユーザが更に情報を必要としているか否かを確
認し(ステップ100)、もし必要としていれば追加の
情報を通信する(ステップ105)。この追加情報は、
次に最もありそうな定義又は選択語と関連する全ての辞
書情報の形を取ることができる。
【0022】文中の語の形態素解析 選択語を含む文の選択は、少なくとも第1の順序(オー
ダー)に対してほぼ直接的である。一般的に、文は多数
ある終止符の内の1つで終了する。引用符を無視すれ
ば、疑問符及び感嘆符は比較的明瞭な終端物である。ピ
リオドは一般的に終端物であるが、敬称(例えばMr., M
s., Dr. 等) や省略形 (例えば、e.g., i.e., etc.等)
等の一定の周知の文脈に見られる。ピリオドのこれらの
存在は無視可能であり、他の文の終端物(terminator)に
なりうるものはフラグを立てられる。
【0023】1つの文の終端物と次の文の終端物(タブ
及び行間を無視する)の間のテキストは、本発明の目的
のために文であると考えられる。これにより、文選択を
向上できるかもしれないが、全体処理の動作の速度を著
しく落とす場合、回避されるべきである。時々生じる文
の識別誤りによって、選択語が誤って解釈されることが
あるが、最初に表示された情報が適切でないと判断され
れば、ユーザは更に多くの情報を容易に要求できる。
【0024】形態素解析器は、語の屈折形態(表層形態
も称されることもある)を1つ以上の引用形態(辞書形
態、字句形態、ベース(基本)形態、又は標準形態と称
されることもある)へ写像(マッピング)する。従っ
て、引用形態"swim"を有する関連語は、例えば "swims"
や"swam"等、多数の屈折形態がある。形態素解析器は、
与えられた屈折形態を使用し、引用形態を提供すると共
に両者の関係を示す。
【0025】形態素解析器はまた、多数の形態素タグを
提供し、例えば音声部分等の情報を提供する。特定のタ
グは言語によって決まる。フランス語は非常に屈折言語
であり、音声部分に関するタグは、多数の追加のタグを
有する傾向にある。例えば、動詞は一般的に関連する人
称、時制、叙法、及び数を有し、形容詞は性称及び数を
有し、名詞は関連する人称、数、性称、及び格を有す
る。一方、英語は、フランス語ほど多く屈折しないの
で、形容詞は普通、更には限定されない。
【0026】従って、例えば形態素解析器は語"swam"を
受け取ると、動詞"to swim" の過去時制であることを示
すだろう。一方、形態素解析器は語"swim"自体を受け取
ると、それは動詞"to swim" 又は名詞"swim"であること
示すただろう。同様に、形態素解析器は語"left"を受け
取ると、それは動詞"to leave"の過去時制、若しくは過
去分詞である、又は名詞"left"若しくは形容詞"left"で
あるということを示すだろう。
【0027】特定の実施例の形態素解析器は字句変換器
(LT;lexical transducer )である。LTは、有限状
態変換器(FST;finite state transducer)の特定の
フォームである。更に、FSTは、それ自体、有限状態
機械(FSM;fintie statemachine )の特定のフォー
ムであり、有限状態オートマトン(FSA;finite stat
e automaton )としても周知である。
【0028】FSAは要約すると、入力として記号スト
リング(列)を受取り、左から右へ進みながらストリン
グを1度に1記号読み、列の最後の記号を読むと、停止
する演算装置(computing device)である。いつでも、F
SAは、指定された初期状態で開始された有限数状態の
1つにある。多数の状態は最終状態を指定され、FSA
が最終状態の1つで停止する場合、ストリングを受理さ
れたと見なされる。FSAが最終状態の1つでない状態
で停止する場合、列を拒絶されたと見なされる。制御プ
ログラムは、どの遷移(transition)が読み込まれる記
号に基づいて生じるかを特定する。FSAはしばしば、
円で描かれる状態、及び矢印(又はアーク)で描かれる
状態遷移を備える状態図として、図的に示され、ある状
態から別の状態へ(又は同じ状態へ)遷移可能であるこ
とを示す。与えられた遷移は、そのパス(経路)と一致
する遷移をもたらす記号によってラベル付けされる。指
定された最終状態は二重円で描かれる。
【0029】FSTはデータの順序対の集合を符号化す
るために用いられるFSAである。一般的に、FSTは
例えば、連接(concatenation) 、和(union) 、反復(ite
ration) 等のブール演算によって順序対の有限リストか
ら生成されるあらゆる”正則関係”を表すために使用可
能である。ひとたび順序対がFSTデータ構造として符
号化されると、その構造はコンピュータで対のメンバー
(要素)にアクセスするように用いられ、これによって
他の関連する要素も容易にアクセスされる。FSTの状
態遷移は1対の記号によってラベル付けされるが、単純
なFSAにおけるように単一記号によってはラベル付け
されない。
【0030】LTは(タグを備える)引用形態を屈折形
態に写像し、逆に屈折形態を引用形態に写像する特殊F
STである。このような項(term)は、語表示が2レベル
FSAを介するデータベースを参照する。各語は、状態
遷移アークによって結合される順序付状態を含むパスに
よって表される。パスは、表された語を産するために、
横移動(traversing)ルーチンによって横に移動される。
各パスは、語の引用形態及び語の関連する屈折形態を表
すために用いられる。周知の語の認知及び生成が、あら
ゆる形態素規則の適用を必要としないという点でLTは
効率的である。即ち、語の全ての屈折形態がその引用形
態及び関連するタグを備える順序対として記憶されれ
ば、語の全ての屈折形態は引用形態をアクセスすること
によってアクセスできる。これにより、語形態の双方向
アクセス、即ち引用形態から屈折形態へ(生成)、又は
屈折形態から引用形態(語幹)へのアクセスが可能とな
る。
【0031】図4(A)は、字句変換器中のパス120
の一例を示す。パス120は、初期状態121、複数の
中間状態122から127、及び最終状態128を含む
8状態を含む。隣接する状態はアークによって接続さ
れ、各アークは、各々と関連する2つまでの記号を備え
ることができる。上部記号はパスの上側に示され、下部
記号はパスの下側に示される。記号は、以下に説明よう
に文字(キャラクタ)又は形態素タグでもよい。従っ
て、状態121及び122の間のアークは、文字”m”
である上部記号と、さらに文字”m”である下部記号と
を有する。状態122及び123の間のアークは、上部
記号”o”及び、下部記号”i”を有する。パスを構成
する状態及びアークの集まりは、パスが上部及び下部の
記号の順序シーケンスを定義するように整列される。
【0032】ソフトウェアのルーチンは語の屈折形態を
パスの引用形態から検索するために用いられる。ここで
なされる説明では、引用形態を与えられた屈折形態の検
索を示すが、明白であるように、屈折形態の与えられた
引用形態の検索もまた可能である。特定の例において、
パス120は上部語”mouse”及び下部語”mic
e”を有する。上部語は引用形態であり、下部語は屈折
形態である。
【0033】このような表示は、例えば屈折形態の引用
形態を生成するのに有用である。これにより語サーチプ
ログラムは効率的な”知的”サーチを実行でき、引用形
態の屈折形態を形成するための規則が変化し多種多様で
ある語の形態を検出(ロケート)できる。語の屈折形態
をその引用形態から導き出す問題は、例えば、共通の基
準引用表現の多くの屈折形態を含むフランス語等の言語
において拡大される。
【0034】パス120を含むLTが与えられるとすれ
ば、屈折形態”mice”を引用形態”mouse”へ
写像する方法はコンピュータで実行するソフトウェアル
ーチンを使用する。語をパスから生成するためにLTに
アクセスするルーチンは、横移動(traversing)ルーチン
と称される。横移動ルーチンは、語の屈折形態を与えら
れ、その語の考えられる引用形態にリターンする。例え
ば、語”mice”の単数の名詞を捜すことが所望され
る場合、横移動ルーチンは記号”m”で開始する字句変
換器内のパスを識別する。一般的に、1つの状態はそれ
と接続されるあらゆる数のアークを有することができ
る。これらの追加のアークは図4(A)に示されていな
いが、その存在の趣旨は、横移動ルーチンが、1状態に
おいて、そこから発する2つ以上のアークに対してどの
アークが次に来るかに関して決断をしなくてはならない
ということである。以下に詳細に説明されるように、1
状態に結合されるアークが1つよりも多い可能性のめ
に、アークは1つを超えるパスにおいて使用可能であ
る。
【0035】引用形態への屈折形態の写像を行うため
に、横移動ルーチンは初期状態121で開始する。この
例において、他のパスは示されていないが状態121は
他の全パスと共通する。初期状態からアークは、屈折形
態中の最初の文字に整合する下部記号でシーク(検索)
される。この場合、その文字は”m”であるので、ルー
チンはその下部記号を有するアークに従う。
【0036】また、”m”にもなる上部記号は検索さ
れ、リストに記憶される。追加の上部記号は横方向移動
が進むにつれ得られ、語の引用形態を作成するためにリ
ストに記憶される。字句変換器(LT)内に上部及び下
部の記号を記憶すること、及び記号のアークとの関連
は、従来技術において周知のあらゆる手段によって成さ
れ得る。既存のプロトタイプ(原型)のCプログラミン
グ言語が用いられる。
【0037】状態123と124の間の状態は、上部記
号に”u”を有するが、下部記号に何も有さない(実際
に下部記号は空白(null)である)。このアークを横方向
移動することにより、記号”u”はリストに加えられ
る。パスを横方向に更に進むと、文字”s”及び”e”
がリストに加えられる。状態126と127の間のアー
クにおいて、記号”+NPL”は上部記号にある。これ
は、このパスと関連する屈折形態が語”mouse”の
複数の名詞形であるという情報を示す形態タグである。
状態128は最終状態として示される(マーク)される
ので、横移動ルーチンは終了し、アセンブル引用形態は
その形態素タグと共に出力としてリターンされる。
【0038】図4(B)は、語 "spy" の3つの異な
る屈折フォームをその引用形態及び形態素タグへ写像す
る3つのパスを有するLT140の一部分を示す。第1
のパスは、初期状態142で開始し、第1の最終状態1
45で終了する。この第1パスは語の3人称単数の屈折
形態、即ち "spies" を引用形態に写像すると共
に、タグ "+" 及び "3SG" も提供する。第2のパス
もまた初期状態142で開始するが、第1パスから分岐
し、第2の最終状態150で終了する。この第2パスは
語の過去時制の屈折形態、即ち "spied" を引用形
態に写像すると共に、タグ "+" 及び "PAST" も提
供する。第3パスは初期状態140で開始し、第3の最
終状態155で終了し、複数形の進行形の屈折形態、即
ち "spying" を引用形態に写像すると共にタグ "
+" "PL" "PROG" を提供する。
【0039】実施において、LTは大型のデータ構造で
ある。数字で表す例として、英語の場合、LTは、約5
0、000の状態、100、000のアーク、及び22
5、000の識別(離散)パスを有する。フランス語の
場合LTは、英語と同等数の状態及びアークを有するほ
ぼ同じ全体サイズであるが、言語の特性により約5、7
00、000の識別パスを有する。
【0040】複数の引用形態の曖昧性除去 詳細に上述されたように、形態素解析器からの出力は、
選択語を含む文中の語毎に、それぞれが問題の語を描写
する形態素コード(タグ)でタグ付けされた、全ての引
用形態からなる。文献は共通の屈折形態から写像される
複数の異なる引用形態(及びタグ)を識別するために部
分スピーチ(part-of-speech) 解析を実行する多くの技
術を説明する。現在、好ましい技術は、隠れマルコフモ
デル(hidden Markov model) に基づく統計的方法であ
る。本発明の重要な態様は、曖昧性の取り除きにおいて
完全な正確さを要求しないことである。その理由は、最
初に表示される情報が不正確に思われれば、ユーザは常
により多い情報を要求できるからである。統計的方法は
本質的に100%よりも少ない精度なので、その方法の
多くは幾つかの使用法に適さないが、本発明の使用法に
は適す。
【0041】隠れマルコフモデル化は、認識される音声
の変動性をモデル化するために音声認識において一般的
に用いられる統計的手法である。このような変動性は、
異なる話者から生じるだけでなく、異なる会話速度から
も結果として生じる。本発明において隠れマルコフモデ
ル化は、音声の部分認識に使用される。ここで、変動性
によって、与えられた屈折形態が多数の様々な引用形態
へ写像できるという事実が得られる。
【0042】隠れマルコフモデル(HMM)は、状態間
での確率的遷移と、各状態と関連する観測される特徴ベ
クトルの確率分布と、を有する1組の状態からなる。音
声認識において、これらの特徴ベクトルは与えられた時
間での音声のスペクトル内容を表す。語解析システムの
特徴ベクトルは、文中の語の構文情報からなる。状態同
士の間の遷移は観測シーケンスを指定する。確率を各状
態の観測結果と同様に、状態同士間での遷移と関連づけ
ることによって、HMMは音声又は語法の変動性を統計
的にモデル化するために用いられる。
【0043】より詳細には、HMMは、1組のN個の状
態S1 ...SN と、1組の遷移確率aij(i=
1...N、j=1...Nで、この場合、aijが状態
iから状態jへの遷移の確率である)と、1組の確率分
布bi(x)(i=1...Nで、この場合、bi(x)は状態
iにあり、特徴ベクトルxを観測する確率である)と、
からなる。
【0044】HMMを用いる認識は以下のようになされ
る。認識される各オブジェクトは、HMMによってモデ
ル化される。長さTの与えられた観測シーケンスx(X
=x 1 ...x)は、シーケンスXを最も生成しそうで
あったと決定されるHMMと対応するオブジェクトとし
て認識される。これを行う1つの方法は、フォワード
(前向き)アルゴリズム(Rabiner 参照) を用いて、各
HMMに与えられるXの可能性(確度)を計算すること
によって行われる。より効率的な方法はビタービ(Viter
bi) アルゴリズムであり、これは以下のように成され
る。認識されるオブジェクト毎のHMMは、ネットワー
クを形成するように並列に接続される。観測シーケンス
X=x1 ...xT が与えられると、ビタービアルゴリ
ズム(Rabiner 参照) は、シーケンスXを最も生成しそ
うだったネットワークを介して状態シーケンスを見つけ
るために使用可能である。各状態シーケンスは認識され
るオブジェクトの1つのHMMに特有なものであるの
で、最適な状態シーケンスは認識されるオブジェクトを
特定する。
【0045】HMMに関するパラメータは、遷移確率a
ij及び観測確率bi(x)である。これらのパラメータは、
HMMによってモデル化されたオブジェクトによって生
成されたことが分かっている1組の観測シーケンスXで
HMMを訓練することによって学習させることができ
る。バーム−ウェルチ手順(Baum-Welch procedure:Rab
iner参照) として周知であるアルゴリズムは一般的に使
用される。
【0046】曖昧さ取り除き手順は、主として語と関連
する音声部分に基づき、確率によって識別された選択語
の1組の可能な文脈をもたらす。文中の他の語の最も可
能性のある引用形態と同様に選択語の最も可能性のある
解析の引用形態は、以下に説明される初期辞書ルックア
ップのために用いられる。文解析が選択語に対して不正
確な解析へ導きそうになったことは少なくとも幾分ある
ので、ユーザが追加の情報を要求する場合に、他の少な
い可能性の文解析の少なくともいくつかをセーブするこ
とは一般的に好ましい。
【0047】音声の部分タッグ付けについてHMMに基
づく特定のシステムに関する詳細は、1992年、「Co
mputer Speech and Language」の6巻の225頁から2
42頁、Julian Kupiec による"Robust part-of-speech
tagging using a hidden Markov model" にあり、その
技術に関しては参照によってここに組み込まれる。その
刊行物に説明されているシステムは、テキストの約96
%に正確にタグ付けをし、英語以外のフランス語を含む
他の言語に適用可能である。
【0048】文中の語の音声の部分によって主に決まる
曖昧性除去と比べて、形態素解析は、比較的細かなレゾ
リューション(導出法、resolution)によって特徴付け
られることは留意されるべきである。より高いレゾリュ
ーションを有する処理の部分に生じる重要な計算ペナル
ティーが存在する程度まで、処理のその部分の荒い解釈
(バージョン)を使用できる。別の方法では、著しい浪
費無しに、処理のより微細部分のレゾリューションをよ
り荒い部分のレゾリューションに整合できる。
【0049】辞書ルックアップ及び情報のディスプレイ 語の屈折形態をその引用形態に写像するLTは、好まし
くは、各引用形態を固有の番号にも写像し、データ圧縮
や辞書ルックアップを容易にする。与えられた語に関す
る辞書情報は、好ましくはその語を含む全ての複数語の
組合せに対するポインタ(pointers)も含む。一例であ
るが上述された"table" と"water table" の場合のよう
に、たいていの辞書は複数語の組合せをシステム的に連
結(link)しない。英語言語を熟知しているユーザは、お
そらく”water table"は"table"に関する見出し語の項
目下で見つけられないかもしれないと認識するだろう
が、その言語について一般的な知識だけを有するユーザ
は、その事実を認識できないかもしれない。
【0050】全ての複数語の組合せを連結することは、
ユーザに正しい意味を得る機会を与えるために必要であ
るが、ユーザが多すぎる情報を得ないようにするために
は不十分である。フランス語による例は、この点を示し
ている。文脈に語"provenance"又は"en provenance de"
を呈されたユーザは、語"provenance"が一般的に" 起
源" を意味すること、又は"pays de provenance"は "産
出物が必ずしも生産される場所ではないが、そこから輸
入される国" を意味しているということを知る必要はな
い。むしろ、ユーザの要求は、"en provenance de"が "
〜から" を意味することを知ることのみが必要である。
【0051】従って、情報をフィルタリングするための
迅速かつ正確な方法は、選択された語が、選択語に索引
をつけられた知られている複数の語の組合せ部分である
か否かをチェックし、もしそうである場合は、その複数
語の組合せの意味を表示することである。もし選択され
た語が周知の複数の語の組合せの文脈にない場合、単一
の語の引用形態の1つ以上の意味に関する情報が表示さ
れる。一般的に、曖昧性取り除き装置が、特定の引用形
態の様々な定義を識別するということはないだろう。例
えば、名詞"table" は、水平平面を有する家具の1個以
外の何かを意味することがある。従って、語"table" の
全ての名詞定義は表示されるだろうが、文中に存在しな
い周知の複数語の形態は表示されないだろうし、語の動
詞形に関する情報も表示されないだろう。
【0052】ユーザが表示された情報に満足しなけれ
ば、より多くの情報を要求できる。ユーザが特定のレベ
ルの追加情報を要求できることを含む追加情報の表示に
関する多数の可能性がある。複数の意味の幾らかだけが
最初に表示されたとすれば、最少量の追加情報は、同じ
引用形態(即ち、曖昧性除去装置によって、最もありそ
うであると決定された引用形態)の追加の意味になるだ
ろう。最大量の追加情報は選択された語の全ての引用形
態に関する全情報である。その極端な2つの中間は、他
(より可能性の少ない)の文解析の多くの内の1つの結
果を表すべきであり、他の複数の語の組合せについての
可能な情報はそのような他の文脈に対応する。
【0053】複数語の組合せの符号化 図5は、正則表現として特定のイディオムを符号化する
FSA180の一部分を示す。特定のイディオムは
【0054】
【外1】
【0055】であり、そのもともとの意味は、" 午後2
時に正午を捜す (to look for noon at 2 o'cklock) ”
である。Collins French/English辞典はこのイディオム
を" tocomplicate the issue, to look for complicati
ons.(問題を複雑化すること、複雑なことを期待するこ
と)"と訳している。
【0056】このイディオムは不変部分
【0057】
【外2】
【0058】例えば、"toujours"(always)( 常に) 等の
副詞的な語が挿入可能であるフリースロット(・・・;
自由位置)と、イディオム的な意味を失うことなく同じ
動詞
【0059】
【外3】
【0060】のあらゆる他の形態に置換できる可変部
分"chercher"(to look for) と、を有する。
【0061】イディオムの多数の可能なバリエーション
(変体)を簡単な方法で表すために、それを正則表現と
して符号化することは有益である。周知のアルゴリズム
によって、正則表現をFSAへ変換可能であり、イディ
オムがあらゆる与えられた文中に存在するか否かを決定
するのに効率的な方法を提供する。
【0062】イディオムのコード化において、LTがテ
キストの2レベル表現を提供する、即ち片側はテキスト
中の実際の語であり、他側は基準の引用形態及び形態素
タグであるという事実を利用する。識別は、イディオム
をパターンとして指定するためにコロンでマークされ
る。イディオムをパターンとして指定するのにコロンで
マークすることによって、識別がなされる。要素の後の
コロン(chercher:) は、あらゆる数の表面認識を備える
ことができる字句形態であることを示し、要素の前のコ
ロン(:midi) は、表面要素であり、且つテキストと正確
に整合しなければならないことを指示する。
【0063】2レベル正則関係としてイディオムの概略
的な表現は、以下のようにあたえられる:
【0064】
【外4】
【0065】ここで、"Infl:" は時制及び叙法、並びに
数及び人称の全ての組合せに関する省略形である。"Sub
jClitic"は"cherchez-vous" として、倒置型疑問のクリ
ティサイズ(cliticized;前の語の一部分を形成する音
声ユニットとして発音すること) 主語を表す。"<word>:
+Adv:" はあらゆる副詞の字句形態と整合するパターン
である。丸括弧は、任意選択を示す。
【0066】FSA180の図示された部分は初期状態
181、複数の中間状態182から189、及び最終状
態190を含む。状態183と185の間、並びに状態
185と188の間のスキップアークは、クリティサイ
ズ主語と副詞の任意特性によって求められる。
【0067】結果として、本発明によってユーザは電子
辞書と相互作用でき、その十分な恩恵を得ることができ
る。本発明は、ユーザに最も有用な情報を合理的に提供
しようとするが、ユーザは追加の情報を要求することが
できる。
【0068】上記記載は、本発明の好適な実施例の十分
な記載であるが、様々な態様、変更構造、及び本発明に
相当するものが使用可能である。従って、上記説明及び
図は、請求項で定義される発明の範囲を限定する物とし
て扱われるべきではない。
【0069】〔参考文献〕1989年2月の「Proc. IE
EE」の第2号、77巻の L.R. Rabiner による "A Tuto
rial on Hidden Markov Models and Selected Applicat
ions in Speech Recognition" 。
【0070】1992年「Computer Speech and Langua
ge」の6巻の頁252〜242のJulian Kupiec による
"Robust part-of-speech tagging using a hidden Mar
kov model"。
【0071】
【発明の効果】本発明によって、電子的に符号化された
テキスト本体と関連する電子辞書を用いる技術が提供さ
れる。
【図面の簡単な説明】
【図1】本発明が内蔵されうる従来技術のコンピュータ
システムのブロック図。
【図2】図1のコンピュータシステムで実現される本発
明の動作部分のブロック図。
【図3】本発明による手順のフロー図。
【図4】(A)は字句変換器(LT)中のパスの一例を
示し、(B)は語の3つの異なる屈折形態をその引用形
態又はタグに写像する3つのパスを有するLTの一部分
を示す。
【図5】複数の語のイディオムを符号化するための初期
状態オートマトン(FSA)の一部分を示す。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8125−5L G06F 15/38 D 9194−5L 15/40 370 E (72)発明者 ローリ ジェイ.カートゥーネン アメリカ合衆国 94062 カリフォルニア 州 レッドウッド シティ ジェファソン アヴェニュー 3950

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文中に語を備える電子的に符号化された
    テキストの本体、及びテキスト中の語の少なくとも幾つ
    かについての情報を有する電子的に符号化された辞書と
    共に用いるために、テキスト中のユーザが選択する語に
    応答して、ユーザに辞書からの情報を提供するための方
    法であって、 語の集合のそれぞれに対して、その集合中の各語と関連
    する少なくとも1つの引用形態を含む解析を生成する形
    態素解析器を提供するステップと、 選択語と関連する全ての解析を得るために選択語を形態
    素解析器へ伝達するステップと、 選択語及びテキスト中の少なくとも幾つかの隣接する語
    を基準として、選択語と関連する最も可能性がある解析
    を決定するステップと、 選択語と関連する最も可能性がある解析についての情報
    を表示するステップと、 を備えるユーザへの情報提供方法。
  2. 【請求項2】請求項1の方法であって、更に同じ引用形
    態の複数事例があり、それぞれが音声の異なる部分を備
    える時に実行される、音声の最も可能性のある部分の確
    認ステップ、 を備えるユーザへの情報提供方法。
  3. 【請求項3】形態素解析器が有限状態変換器として実行
    される請求項1に記載のユーザへの情報提供方法。
  4. 【請求項4】最も可能性のある解析を決定する前記ステ
    ップが、隠れマルコフモデルを使用して実行される請求
    項1に記載のユーザへの情報提供方法。
  5. 【請求項5】辞書が複数の語の組合せについての情報を
    有し、更に、 選択された語が複数の語の組合せの1つの中の部分であ
    るか否かを決定し、もしそうであれば、複数の語の組合
    せについての情報を表示するステップと、 を備える請求項1に記載のユーザへの情報提供方法。
JP6174497A 1993-08-03 1994-07-26 ユーザへの情報提供方法 Pending JPH0756957A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10096093A 1993-08-03 1993-08-03
US100960 2002-03-18

Publications (1)

Publication Number Publication Date
JPH0756957A true JPH0756957A (ja) 1995-03-03

Family

ID=22282420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6174497A Pending JPH0756957A (ja) 1993-08-03 1994-07-26 ユーザへの情報提供方法

Country Status (4)

Country Link
US (1) US5642522A (ja)
EP (1) EP0637805B1 (ja)
JP (1) JPH0756957A (ja)
DE (1) DE69424350T2 (ja)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
GB9524136D0 (en) * 1995-11-23 1996-01-24 Xerox Corp Indexing a database by finite-state transducer
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
US6516296B1 (en) * 1995-11-27 2003-02-04 Fujitsu Limited Translating apparatus, dictionary search apparatus, and translating method
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5909680A (en) * 1996-09-09 1999-06-01 Ricoh Company Limited Document categorization by word length distribution analysis
US6470362B1 (en) * 1997-05-16 2002-10-22 Compaq Computer Corporation Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6377937B1 (en) 1998-05-28 2002-04-23 Paskowitz Associates Method and system for more effective communication of characteristics data for products and services
CN1102271C (zh) * 1998-10-07 2003-02-26 国际商业机器公司 具有习惯用语处理功能的电子词典
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) * 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US8938688B2 (en) * 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US6885317B1 (en) 1998-12-10 2005-04-26 Eatoni Ergonomics, Inc. Touch-typable devices based on ambiguous codes and methods to design such devices
KR100776275B1 (ko) * 1998-12-10 2007-11-13 이토니 어거나믹스, 인코포레이티드 모호부호에 기초한 터치 방식 타자 장치
US6434546B1 (en) * 1998-12-22 2002-08-13 Xerox Corporation System and method for transferring attribute values between search queries in an information retrieval system
US6381598B1 (en) * 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
JP4718687B2 (ja) 1999-03-19 2011-07-06 トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング ワークフロー管理システム
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6393389B1 (en) 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6405162B1 (en) 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
US6513033B1 (en) 1999-12-08 2003-01-28 Philip Trauring Collaborative updating of collection of reference materials
GB0004578D0 (en) * 2000-02-25 2000-04-19 Xrefer Com Limited Automated data cross-referencing method
US6981028B1 (en) * 2000-04-28 2005-12-27 Obongo, Inc. Method and system of implementing recorded data for automating internet interactions
GB2364482B (en) * 2000-06-30 2002-10-09 Motorola Inc Server-based electronic wallet system
US7010476B2 (en) 2000-12-18 2006-03-07 Xerox Corporation Method and apparatus for constructing finite-state networks modeling non-concatenative processes
US20020129066A1 (en) * 2000-12-28 2002-09-12 Milward David R. Computer implemented method for reformatting logically complex clauses in an electronic text-based document
US7039700B2 (en) * 2001-04-04 2006-05-02 Chatguard.Com System and method for monitoring and analyzing communications
US7188064B2 (en) * 2001-04-13 2007-03-06 University Of Texas System Board Of Regents System and method for automatic semantic coding of free response data using Hidden Markov Model methodology
US6961722B1 (en) 2001-09-28 2005-11-01 America Online, Inc. Automated electronic dictionary
US7083342B2 (en) 2001-12-21 2006-08-01 Griffin Jason T Keyboard arrangement
GB0200352D0 (en) * 2002-01-09 2002-02-20 Ibm Finite state dictionary and method of production thereof
US7100123B1 (en) * 2002-01-25 2006-08-29 Microsoft Corporation Electronic content search and delivery based on cursor location
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US7490034B2 (en) * 2002-04-30 2009-02-10 Microsoft Corporation Lexicon with sectionalized data and method of using the same
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US20040030540A1 (en) * 2002-08-07 2004-02-12 Joel Ovil Method and apparatus for language processing
US7072880B2 (en) * 2002-08-13 2006-07-04 Xerox Corporation Information retrieval and encoding via substring-number mapping
US7346511B2 (en) * 2002-12-13 2008-03-18 Xerox Corporation Method and apparatus for recognizing multiword expressions
US7552051B2 (en) * 2002-12-13 2009-06-23 Xerox Corporation Method and apparatus for mapping multiword expressions to identifiers using finite-state networks
US20040143644A1 (en) * 2003-01-21 2004-07-22 Nec Laboratories America, Inc. Meta-search engine architecture
US20040193557A1 (en) * 2003-03-25 2004-09-30 Olsen Jesse Dale Systems and methods for reducing ambiguity of communications
US8200477B2 (en) * 2003-10-22 2012-06-12 International Business Machines Corporation Method and system for extracting opinions from text documents
US7398210B2 (en) * 2003-10-23 2008-07-08 Microsoft Corporation System and method for performing analysis on word variants
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7617091B2 (en) * 2003-11-14 2009-11-10 Xerox Corporation Method and apparatus for processing natural language using tape-intersection
US7386441B2 (en) * 2003-11-14 2008-06-10 Xerox Corporation Method and apparatus for processing natural language using auto-intersection
EP1747505A1 (en) 2003-12-31 2007-01-31 Research In Motion Limited Keyboard arrangement
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
US8838562B1 (en) * 2004-10-22 2014-09-16 Google Inc. Methods and apparatus for providing query parameters to a search engine
US7788085B2 (en) * 2004-12-17 2010-08-31 Xerox Corporation Smart string replacement
US7822597B2 (en) * 2004-12-21 2010-10-26 Xerox Corporation Bi-dimensional rewriting rules for natural language processing
US7680646B2 (en) * 2004-12-21 2010-03-16 Xerox Corporation Retrieval method for translation memories containing highly structured documents
US7827026B2 (en) 2004-12-21 2010-11-02 Xerox Corporation Bilingual authoring assistant for the “tip of the tongue” problem
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US7987087B2 (en) * 2005-06-15 2011-07-26 Xerox Corporation Method and system for improved software localization
US9886478B2 (en) 2005-10-07 2018-02-06 Honeywell International Inc. Aviation field service report natural language processing
US7949444B2 (en) * 2005-10-07 2011-05-24 Honeywell International Inc. Aviation field service report natural language processing
KR100808991B1 (ko) * 2006-05-04 2008-03-07 삼성전자주식회사 이동통신 단말기에서 전자사전을 이용한 단어검색 방법 및장치
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
US7970616B2 (en) * 2007-07-23 2011-06-28 Dapkunas Ronald M Efficient review of data
US9183323B1 (en) 2008-06-27 2015-11-10 Google Inc. Suggesting alternative query phrases in query results
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
JP5398311B2 (ja) * 2009-03-09 2014-01-29 三菱重工業株式会社 筐体の密封構造及び流体機械
US20110161073A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of disambiguating and selecting dictionary definitions for one or more target words
US20110161067A1 (en) * 2009-12-29 2011-06-30 Dynavox Systems, Llc System and method of using pos tagging for symbol assignment
JP4940325B2 (ja) * 2010-03-29 2012-05-30 株式会社東芝 文書校正支援装置、方法およびプログラム
US8396882B2 (en) 2010-08-26 2013-03-12 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating issue libraries within a document corpus
US8396889B2 (en) 2010-08-26 2013-03-12 Lexisnexis, A Division Of Reed Elsevier Inc. Methods for semantics-based citation-pairing information
US9710429B1 (en) * 2010-11-12 2017-07-18 Google Inc. Providing text resources updated with translation input from multiple users
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8924363B2 (en) * 2012-11-07 2014-12-30 GM Global Technology Operations LLC Semantics mismatch in service information
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US10249321B2 (en) * 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US9336305B2 (en) 2013-05-09 2016-05-10 Lexis Nexis, A Division Of Reed Elsevier Inc. Systems and methods for generating issue networks
WO2016099422A2 (en) 2014-12-17 2016-06-23 Bogazici Universitesi Content sensitive document ranking method by analyzing the citation contexts
TWI639927B (zh) * 2016-05-27 2018-11-01 雲拓科技有限公司 將一申請專利範圍中的申請專利範圍元件名詞所屬元件名詞對應標號予以對應之對應方法
US10628522B2 (en) * 2016-06-27 2020-04-21 International Business Machines Corporation Creating rules and dictionaries in a cyclical pattern matching process
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
JP6907948B2 (ja) * 2018-01-04 2021-07-21 富士通株式会社 ファイル生成プログラム、ファイル生成方法及びファイル生成装置
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US20220335090A1 (en) * 2021-04-14 2022-10-20 International Business Machines Corporation Identifying equivalent technical terms in different documents

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JPH02159674A (ja) * 1988-12-13 1990-06-19 Matsushita Electric Ind Co Ltd 意味解析装置と構文解析装置
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
JPH03161727A (ja) * 1989-11-20 1991-07-11 Fuji Photo Film Co Ltd カメラの主要被写体検出装置
US5243520A (en) * 1990-08-21 1993-09-07 General Electric Company Sense discrimination system and method
US5295070A (en) * 1991-05-31 1994-03-15 Franklin Electronic Publishers Incorporated Electronic dual language dictionary
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation

Also Published As

Publication number Publication date
EP0637805A2 (en) 1995-02-08
DE69424350D1 (de) 2000-06-15
EP0637805B1 (en) 2000-05-10
US5642522A (en) 1997-06-24
DE69424350T2 (de) 2000-08-24
EP0637805A3 (en) 1995-04-12

Similar Documents

Publication Publication Date Title
JPH0756957A (ja) ユーザへの情報提供方法
US10552533B2 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US5930746A (en) Parsing and translating natural language sentences automatically
US7383172B1 (en) Process and system for semantically recognizing, correcting, and suggesting domain specific speech
EP0953192B1 (en) Natural language parser with dictionary-based part-of-speech probabilities
Saad et al. Arabic morphological tools for text mining
US7228269B2 (en) Computer-aided reading system and method with cross-language reading wizard
US7136802B2 (en) Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
JP2002215617A (ja) 品詞タグ付けをする方法
Imamura Application of translation knowledge acquired by hierarchical phrase alignment for pattern-based MT
Fitzpatrick et al. Phonology and phonetics in psycholinguistic models of speech perception
Briscoe Prospects for practical parsing of unrestricted text: Robust statistical parsing techniques
Foster Text prediction for translators
JP4278090B2 (ja) 単語の使用を訂正または改善させる装置および方法、コンピュータプログラム、並びに格納媒体
Ellison The iterative learning of phonological constraints
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
KR950013129B1 (ko) 기계번역장치 및 방법
Raman et al. A complexity measure for diachronic Chinese phonology
Potisuk Prosodic disambiguation in automatic speech understanding of Thai
JP2655711B2 (ja) 同形語読み分け方式
Ligeti-Nagy The Right Edge of the Hungarian NP: A Computational Approach
JP3253311B2 (ja) 言語処理装置および言語処理方法
LV et al. Dealing With Polyphone in Text-to-Speech System Using How-Net
Carlberger Nparse-a shallow n-gram-based grammatical-phrase parser
JPH096780A (ja) 自然言語解析方法及びその装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040608