JP4658420B2 - 文字列の正規化表示を生成するシステム - Google Patents

文字列の正規化表示を生成するシステム Download PDF

Info

Publication number
JP4658420B2
JP4658420B2 JP2001383062A JP2001383062A JP4658420B2 JP 4658420 B2 JP4658420 B2 JP 4658420B2 JP 2001383062 A JP2001383062 A JP 2001383062A JP 2001383062 A JP2001383062 A JP 2001383062A JP 4658420 B2 JP4658420 B2 JP 4658420B2
Authority
JP
Japan
Prior art keywords
analysis
information
query
character string
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001383062A
Other languages
English (en)
Other versions
JP2002229981A (ja
Inventor
アイト−モクター サラー
シャノ ジャン−ピエール
ゴシエ エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2002229981A publication Critical patent/JP2002229981A/ja
Application granted granted Critical
Publication of JP4658420B2 publication Critical patent/JP4658420B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は概して、例えば文章のような文字列の正規化表示を生成するシステムに関し、特に、文字列を第1言語から第2言語へ翻訳するための翻訳情報を提供するシステムに関するものである。
【0002】
【従来の技術及び発明が解決しようとする課題】
大多数のアプリケーション、特に、翻訳メモリ、オーサリングメモリ、2ヶ国語オーサリングメモリ、インデックス付け等の範囲に含まれるアプリケーションは、文章のような文字列の正規化表示を使用するものである。重要な正規化表示のアプリケーションの1つは、翻訳システムにおける翻訳メモリである。これらの翻訳メモリは、テキストの言語ベースの正規化表示を記憶する。翻訳メモリレポジトリは、目標言語への翻訳に関連した文章または技術用語のようなテキストのセグメントを収集する。このようなレポジトリを利用すれば、翻訳者は、事前に記録されている翻訳に迅速にアクセスすることができる。これによって、翻訳に費やす労力、時間、費用を削減できる一方で、一貫性を向上させることが可能である。
【0003】
翻訳メモリの機能はあいまいな整合を介して拡張することができる。このあいまいな整合とは、まだ翻訳処理していない入力セグメントと翻訳メモリに記憶されているセグメントとを、たとえ翻訳メモリ内のセグメントが入力セグメントと同一でなくても整合する技術である。整合処理中にあいまい整合を実行する一般的な方法は、事前定義した冠詞、接続詞等のような単語のセットを無視し、あるいは、事前定義した記号、特に句読点のセットを無視するものである。さらに、大文字および小文字、あるいは、数字のような特定の表現を正規化することができる。検索処理の整合ステップにおいて、その言語構造に関係なく、文字列セグメントを(命令された文字順序で)使用することが可能であり、また、特定数までの文字のミスマッチを許容できる。
【0004】
検索システムは、ユーザが必要としている情報に関連したテキストまたはテキスト部分を検索するためのものである。一般に、テキストに含まれる関連情報は、正規化表示に従って構成および抽出される。このような表示は、その本来の言語形式からかけ離れて抽象化される。ユーザのデータベースクエリは一般的に、クエリ(問い合わせ文字列)の範囲を拡張するため、および/または、クエリシンタクスを解釈するため処理される。次に、テキスト中に含まれている特定の情報を検索するために、抽出したクエリ情報と記憶されている表示とが整合される。クエリに最も類似した様々なテキストユニットが、検索したテキストユニットとして出力される。
【0005】
情報検索システムの検索パフォーマンスを評価するために、2つの基準、すなわち「コーリングレート(calling rate)」と「精度(precision)」を使用する。これらの基準は、検索する情報の関連性における主観的観点に基づいている。「コーリングレート(calling rate)」または「リコール(recall)」および精度(precision)は、以下のように定義される。
【0006】
リコール(recall)は、データベースに記憶されている関連するテキストユニットの合計数に対する、検索した関連テキストユニットの数の比率であり、精度は、検索したテキストユニット数に対する、関連テキストユニットの数の比率である。通常、これら2つの基準の間にはトレードオフが存在する。情報検索では、これら2つの基準が最大値1に近似していることが望ましい。
【0007】
本発明は上述の状況を考慮したものであり、また、本発明の第1の目的は、文字列の正規化表示を生成する方法および装置を提供することである。
【0008】
本発明の別の目的は、データベースから検索した関連するテキストユニットの比率を増加させる方法および装置を提供することである。
【0009】
本発明のまた別の目的は、高い精度で、データベースから情報を検索する方法および装置を提供することである。
【0010】
本発明のさらに別の目的は、データベース内に記憶することができる正規化表示を生成する方法および装置を提供することであり、この正規化表示によって、情報検索システムの検索パフォーマンスが向上する。
【0011】
本発明のさらにまた別の目的は、翻訳情報の検索パフォーマンスを向上させた翻訳システム用の翻訳メモリを提供することである。
【0012】
本発明のさらに別の目的は、事前に翻訳したテキストユニットからの検索パフォーマンスを向上させた、翻訳情報の提供方法を提供することである。
【0013】
【課題を解決するための手段】
本発明によるこれら、およびこれら以外の目的は、以降の説明から明らかになる。
【0014】
これらの目的を達成するために、本発明は、テキスト分析機能を実現するためのプログラムコードを記憶するための記憶装置と、入力文字列を受信する手段と、前記記憶装置に記憶されたテキスト分析機能を実現するためのプログラムコードを用いて、入力文字列に対し、単語の基本形を分析する形態分析単語間の従属関係を分析する構文分析単語の意味を分析する意味分析と、を含む言語分析を実行することで、前記形態分析により生成した形態情報前記構文分析により生成した構文情報前記意味分析により生成した意味情報と、を含む言語情報を入力文字列から抽出し、さらに、当該言語情報を抽出した入力文字列のうち選択した部分を、少なくとも目的語、固有名詞を含む当該部分を抽象的に表示した抽象変数で置換する骨格化を実行するプロセッサと、を有し、前記プロセッサは、前記置換する処理を実行した入力文字列をータベースに記憶する。例えば、形態分析、構文分析、意味分析を含む言語分析のために入力文字列を受信し、各入力文字列の第1表示を生成する。この第1表示の各々は、その意味に関連した例えば音声や単語のような符号といった言語情報を含んでおり、逆もまた同様である。第1表示の各々が骨格化され、その結果、各入力文字列について、関連する第2表示が生成される。骨格化は、言語情報を各第2表示内の抽象変数で置換する。次に、第2表示が、入力文字列の正規化表示として記憶される。
【0015】
本発明の別の形態によれば、データベースから文字列を検索するための検索方法が得られる。データベースは、複数の文字列の正規化表示を備えている。この検索方法は、クエリを受信し、クエリの正規化表示を生成し、クエリの正規化表示を、データベースに記憶されている正規化表示と整合し、データベースから検出した最も類似した文字列を出力するステップを備えている。
【0016】
さらに別の形態によれば、第1言語の文字列を第2言語に翻訳するための翻訳情報を提供する方法が得られる。翻訳情報は、第1言語における文字列と、事前に第2言語に翻訳された関連する文字列の複数の正規化表示に基づいている。翻訳情報を提供する方法は、第1言語における入力文字列を受信し、複数の正規化表示から第1言語における類似した文字列を検索し、検索した第1言語における文字列に関連した、第2言語における文字列に基づいた翻訳情報を出力するステップを備えている。
【0017】
好ましい実施例では、言語情報を抽出する複数のオペレーティング機能から少なくとも1つのオペレーションを提供することにより、あるいは、抽出言語情報を概念化する機能を動作することにより、処理シーケンスに追加の処理ステップを適用することで、さらなる向上が達成される。
【0018】
本発明の主要な用途は、インデックス付け、情報検索、翻訳メモリ、オーサリングメモリ、そして、人間が行い、機械編集した翻訳である。
【0019】
添付の図面は、本発明の数例を例証するために、本願明細書中に組み込まれ、その1部を形成している。これらの図面と説明により、本発明の原理を説明する。図面は、本発明の製造および使用方法を示す好ましい例および代替例を例証することのみを目的とし、本発明を例証および説明した実施例のみに限定するものとして考慮されるものではない。以下の、添付の図面に示すとおりの本発明の様々な実施例のさらに特定的な説明から、さらなる特徴と利点が明らかになる。
【0020】
【発明の実施の形態】
次に、図面を参照しながら、図面に示した本発明の実施例について説明する。
【0021】
ここで図面、特に、情報検索システム100の好ましい実施例を示した図1を参照する。このような情報検索システムは、翻訳情報を提供する1つの方法であろう。この検索システムには、テキスト処理ユニット101と、処理ユニット101から受信したテキストユニットの正規化表示を記憶するユニット102を含む「記憶ライン」が設けられている。このようなユニット102は、テキストユニットデータベース、特に、外国語補助としての翻訳システム内の翻訳メモリであってよい。
【0022】
多くのデータベースが、データベース内で最も頻繁に要求される情報にインデックスを使用している。換言すれば、データベース内の各記録についての各分野の情報がインデックス付けされている。インデックスは、ポインタに関連した明確な属性レコード値のリストとして説明することができる。データベースの個々の分野をインデックス付けすることにより、インデックスフィールドへのクエリに対する応答時間が短くなる。好ましい実施例において、処理ユニット101は、複数のテキストユニットの正規化表示を、これらテキストユニットのインデックスとして作成する。
【0023】
ユニット101における入力文字列またはテキストユニットの処理は、複数のテキスト分析機能に基づいている。本発明は、記憶、整合、検索テキストユニットのための表示スキームを提案する。一連の処理を使用して、様々な表示が生成される。本発明は、パートオブスピーチタグ付け、分類整理、構文的表記法または意味的表記法、骨格化(skeletisation)、そしてこれらの手法のあらゆる組み合せのような自然言語処理機能を使用する。正規化は、このような表示を生成するために使用される任意の処理である。
【0024】
このような正規化を、以下のような文章を例にとって説明する。
【0025】
When you are working with the HomeCenter you may need to use the buttons to do one or more tasks.
【0026】
この例文を、以下に説明する処理の1つを用いて得た複数の異なるレベルの正規化によって正規化および表示することができる。
【0027】
この例文に第1正規化処理を適用すると、個々の単語の形態可変性がその基本形に従って正規化される。単語をその基本形に従って正規化する1例を以下に示す。
【0028】
"working"が"work"に正規化され、
"buttons"が"button"に正規化される。
【0029】
さらに、各単語に対して好ましく一義化された構文カテゴリが当てはめられる。構文カテゴリはコンテキスト分析に基づいて決定される。上述の例文の各単語に以下に示す例を当てはめることもできる。
【0030】
"use"は「動詞」として認識され、
"HomeCenter"は「固有名詞」として認識され、
"bottons"は「複数名詞」として認識される。
【0031】
上述の正規化オペレーションに基づいて、特定の言語ユニット、いわゆるタグが各単語に割り当てられる。このような「パートオブスピーチ」タグは、構文カテゴリ「動詞」を示す+VBであってよい。例えば、"use"を+VBで、"HomeCenter"を固有名詞を表す+PNで、"buttons"を複数名詞を示す+NNSでタグ付けすることができる。
【0032】
【表1】
Figure 0004658420
【0033】
上の表1は、例文に関連したPOS(パートオブスピーチ)タグ付けの結果を示している。単語間の整合技術は、この正規化情報を用いて、各単語の実際の形式に関係なくテキストユニットの単語を整合することができる。このアプローチに基づけば、副詞または形容詞を無視することができ、また、両シーケンスに特定の文字列部分の相違があるとしても、テキストシーケンス間の整合を成功させることができる。このような相違は、"use the buttons"および"use only the relevant button"であろう。上述のアプローチを用いれば、両方の文字列を整合できる。
【0034】
パーシング(parsing)はさらなる正規化オペレーションである。パーサが、サブ文字列(例えばフレーズ、チャンク)に分割された文字列の構成と、サブ構造間の関係を示す構文情報を抽出する。
【0035】
上述した所与の例文をパーシングすることで、以下に示すような正規化表示が得られる。
【0036】
結果として、サブ文字列"when you are working with the HomeCenter"が従属節として認識されることを示している。従属節は"when"によって導入されている。"When"従属節の始めと終わりは、例えば"SC_WHEN"のようなマーカで示されている。不定詞節は、マーカ"IV"で囲まれている。さらに、上述の例は従属関係をいくつか示しており、これについて以下に詳細に説明する。
【0037】
構文分析も、選択した事前定義された関係について抽出したサブ文字列間の明確な従属関係を示している。上述の第1例文を表す構文情報にあるように、"you"は動詞"work"の主語として示されている。さらに、用語"button"は単語"use"の目的語として示されている。表現"task"は単語"do"の目的語として示されている。表現"HomeCenter"は、動詞"work"を修飾するものとして示されている。このような従属関係は以下のようにも示すことができる。
【0038】
SUBJ(you,work)
SUBJ(you,need)
OBJ(use,button)
OBJ(do,task)
VMODOBJ(work,with,HomeCenter)
【0039】
このような関係は、実際の表面的な実現に関係なく、文章の共通の構文構造間の整合を見つけるために使用することができる。別の文章の整合処理の成功例を次に示す。
【0040】
(a) The parts must be replaced by a qualified technician.
(b) Only qualified technicians may replace the parts.
【0041】
上述した両例文において、"technician(s)"は、動詞"replace"の主語であり、用語"parts"は動詞"replace"の目的語である。
【0042】
文字列、例えば文章の正規化についても、分類的関連および意味的関連を用いることができる。このような意味的関連は、1つの単語から、より一般的な意味を持つ上位語との接続、同義語との接続から、あるいは、同じ上位語についてのさらに専門的な別の用語との接続からも作成することができる。このような意味的関連は、"jet plane"と"civil aircraft"の間、または"cattle"、"breeder"及び"farmer"の間に存在する。
【0043】
意味的正規化は、前から存在している言語リソース、例えばオントロジー、類語辞典、術語データベースや、意味的一義化処理に依存している。意味的関連を生成するオペレーションを採用することにより、上述した第1例文を、次に示す意味タグで注釈することができる。
【0044】
When you are working[WORK_PROCESS]with the HomeCenter[MACHINE] you may need to use the buttons[PARTS] do one or more tasks.
【0045】
上述の言語処理は、レベルの異なる抽象名辞に関連し、増加する複雑性の情報を提供する。さらに、本発明の表示スキームは、別のタイプのオペレーション、つまり「骨格化」を利用する。骨格化は上述のような言語処理の出力上で動作し、別レベルの抽象名辞を提供する。より正確には、骨格化は、選択した言語ユニットを、抽象変数によって置換する。
【0046】
例えば、表面的なパーサ(shallow parser)の出力上で動作し、直接目的語、固有名詞、技術用語にかけて抽象化する骨格化は、以下に示す第1例文の正規化表示を生成する。
【0047】
When you are working with<PROPER1>,you may need to use <OBJ1> to do <OBJ2>.
【0048】
上述の例において、2つの直接目的語"the buttons"および"one or more tasks"は、インデックス変数OBJ1、OBJ2によって置換される。さらに、表現"HomeCenter"は、変数PROPER1によって置換される。
【0049】
また、様々な言語パラメータに基づいた異なる骨格化スキームを使用することもできる。別の例では、副詞節を抽象化することができる。このような節は、第1例文中の"when−clause"である。このような骨格化処理により、次に示す複文の表示が得られる。
【0050】
<WHEN_CLAUSE> you may need to use the buttons to do one or more tasks.
【0051】
使用可能な別タイプの骨格化オペレーションに加えて、オペレーションを複合オペレーションに組み込むことが可能である。上述において提案した骨格化オペレーションの両方を組み合わせて、次に示す表示を生成することができる。
【0052】
<WHEN_CLAUSE> you may need to use <OBJ1> to do <OBJ2>.
【0053】
骨格化は、関数Skel(x、Abstr、Filter(x))としてより一般的に見ることができる。この関数において、"x"は入力文字列に接続した言語表示であり、"Abstr"は"x"内で抽象化される言語ユニットのセットであり、また、出力内での表示形態であり、"Filter(x)"は、xの非抽象要素が再度書込みされる形態(例えば翻訳)を指定するものである。デフォルトにより、"Filter(x)"が、両骨格化関数の表示例に示したような非抽象表面形式のシーケンスを生成する。
【0054】
上述の骨格化処理は、このような骨格化関数によって定義することができる。最初に説明した骨格化オペレーションは、直接目的語、固有名詞、技術用語を抽象化することを目的としたものである。この骨格化関数は、関数Skel(x、[OBJ、PN]、)によって説明することができる。この関数は、OBJまたはPNでマーキングした文のいくつかの部分を抽象化する一方で、同文の別の要素を不変のまま残すことを示している。
【0055】
2番目に説明した骨格化処理は、次に示す骨格化関数Skel(x、[WHEN_CLAUSE]、)で説明することができる。最後に説明した、最初の2つを組み合せた骨格化手順は、Skel(x、[OBJ、PN、WHEN_CLAUSE]、)と説明できる。
【0056】
選択した特定タイプの単語のみを抽象化するために、抽象化する言語ユニットをより詳細に指定することができる。例えば、女性目的語(female object)のみを抽象化することが可能である。このような骨格化関数は、抽象パラメータをOBJ&Femとして指定するパラメータを備えている。パラメータ"Abstr"は、文中の用語を置換するために、変数のタイプを直接指定する。このような変数の各々は、その文字列または文中での発生位置に従ってインデックス付けされる。従って、第1直接目的語は、この変数を独自に識別するために、OBJ1とマーキングされる。
【0057】
この骨格化処理は、使用する言語表示に大きく依存する。上に挙げた例は、本発明の範囲を示すことのみを目的としている。当業者には、上述の所与例に基づいて複数の異なる骨格化関数が理解できるであろう。
【0058】
複数の正規化機能を実行する場合、その各々から、入力文についての異なる表示が得られる。正規化手順は、様々な形で組み合せることができる。各入力文は採用した正規化手順によって提供された1つの表示セットとして保存できる。第1例文を、次に示す3つの表示のシーケンスで保存することができる。
【0059】
基本形とパートオブスピーチタグ付け:
1. When+WRB you+PPSS be+BER work+VBG with+IN the+AT Homecenter+NP you+PPSSmay+MD need+VB to+TO use+VB the+AT button+NNS to+TO do+DO one+CD or+CC more+AP task+NNS .+SENT
【0060】
2. When_clausesにかかる抽象名辞
<WHEN_CLAUSE> you may need to use the buttons to do one or more tasks.
【0061】
3. When_clausesおよび目的語にかかる抽象名辞
<WHEN_CLAUSE> you may need to use <OBJ1> to do <OBJ2>.
【0062】
既に述べたように、所与の文は、異なる言語処理と使用の骨格化関数に従い、多くの異なる表示のシーケンスから得られたものである。次に、適切な骨格化関数、または骨格化関数のシーケンスの選択について説明する。
【0063】
Skel(x、Abstr、Filter(x))の形式において、"Abstr"は、文字列つまり文章x内の、抽象化される要素、すなわち変数で置換される要素を定義する。変数で置換する要素は、語彙ユニット、フレーズ、節、または、抽象化されるべきあらゆるテキスト要素であってよい。
【0064】
以下の説明では、骨格化関数の結果として用語「骨格(skeleton)」が使用される。
【0065】
骨格を、その概念化の度合いによってランク付けすることができる。Skel1=Skel(x1、Abstr1、Filter(x))、Skel2=Skel(x2、Abstr2,Filter(x))と仮定すると、Skel1はSkel2よりも概念化の度合いが低い。Skel2によって生成されたこれらの表示は、Skel1に従って置換される要素を含んでいる。このような異なる概念化度合いの1例を、次の例で示す。この例では、骨格(b)は骨格(a)から生成することができるために、骨格(a)が骨格(b)よりも概念化の度合いが高い。
【0066】
(a) WHEN_CLAUSE you may need INF_CLAUSE1 INF_CLAUSE2
(b) WHEN_CLAUSE you may need to useNP1 to do NP2
【0067】
骨格化関数は、以下のオーダリング属性に基づくその概念化の度合いに従ってランク付けすることができる。Abstr1⊆Abstr2である場合、抽象化する要素のエンプティでない"Abstr1"と"Abstr2"の任意のセットについて、Skel1で得た全ての骨格は、Skel2で得た骨格よりも概念化の度合いが低い。そのため、骨格化関数Skel1は、骨格化Skel2よりも概念化の度合いが低い。
【0068】
異なるスキームを使用して、正規化表示のシーケンスを効率的に示す、また、選択することが可能である。以下に示す2進ツリー形式による表示の提案は、本発明の特定の1実施例である。しかし、当業者には、この他にも所与の例に基づいた複数の表示が可能であることが明らかであろう。
【0069】
上述のオーダリング属性を使用する場合、骨格化関数のシーケンスを、2進ツリーを用いて示すことができる。このような2進ツリーの各ノードは、骨格化関数を示している。2進ツリー中の非端末ノードの各々は、2つの降順、すなわち左の枝と右の枝に分岐する。左の枝は、エンプティでない骨格化関数の適用を表し、その一方で、右の枝は、識別関数"idty"を表す。この識別関数"idty"により、入力が不変のまま残る。そのため、識別関数をエンプティ骨格化関数(すなわち、Abstrがエンプティである骨格化)とみなすことができる。
【0070】
次に実行される骨格化関数のシーケンスは、2進ツリー内のパスによって示される。このようなパスは、ツリーの頂部から始まり、複数のノード(骨格化オペレーション)を介して端末モードへとつながっている。
【0071】
次に、図5に関連した例について説明する。次の2つの文は、骨格化オペレーションのシーケンスに従うものであると仮定する。
【0072】
(1) When you are working with the HomeCenter you may need to use the buttons to do one or more tasks.
(2) When you are working with the HomeCenter you may need the manual todo one or more tasks.
【0073】
次に示す要素は変数によって置換される。
【0074】
WHEN_CLAUSE
INF_CLAUSE(不定詞節)
NP(非複数)
VINF(動詞、不定詞)
【0075】
上に列挙した2つの例文についての骨格化オペレーションに基づき、図5の2進ツリーは骨格化関数のシーケンスを示すことができる。明確性のために、図5ではこのツリーの1部分のみを示している。
【0076】
両文章、つまり文章1、2は、上述の骨格化機能の全セットを用いて抽象化されるため、ツリーの最も左のノード上に現れる。これらの表示を、所与の骨格化関数のセットに基づいてこれ以上抽象化することが不可能である旨を示すべく、このようなノードをマーキングすることができる。
【0077】
これらのノードは、2進ツリー内にある任意の所与のノードNについて、所与のノードNの上または右に配置されており、また、深さがNの1つよりも浅いか、あるいはこれと等しく、Nと等値であるノードのセットを定義する。
【0078】
より特定の実施例では、抽象化するテキスト要素のセットを、文中に正確な順番で表されなくてはならない要素から成る第1部分と、文中のあらゆる箇所に表すことができる要素から成る第2部分との2つの部分に分割することが可能である。
【0079】
上述の2進ツリー表示は、説明したオーダリング属性から引き出すことができる多数の内の1つに過ぎない。
【0080】
文章への骨格の選択は、正規化手順の適用目的によって異なる。翻訳メモリに適した骨格が、検索または単一言語オーサリングに適しているとは限らない。検索用途では、保存された骨格化関数が文章のセットを効率的に区分することで、類似の文章の検索に要するステップをごく少数にすることが重要である。そのため、最良入力文章を識別し、また、関連する骨格化関数が少数の文章のみに該当する際に、文章の骨格化を停止する骨格化関数を選択するべきである。別タイプの用途に対しても、これと類似した考察を用いなければならない。オペレーション関数、特に骨格化関数の選択とその順序は、機械学習によって実行される。
【0081】
再び図1を参照すると、情報検索システム100の構造はさらに、クエリを初期化し、そのクエリについて正規化表示を生成するためのクエリ初期化ユニット104を具備した「サーチライン」を備えている。初期化ステップにおいて、クエリは、ユニット104により、テキストユニットについて説明した方法と同じ方法103を用いて、正規化表示に変換される。整合ユニット106が実行した検索オペレーションの結果は、検索された文字列として出力される。
【0082】
図2に示すように、本発明によるコンピュータシステム200は、プロセッサ201と、プロセッサ201に接続したメイン記憶装置202とを備えている。プロセッサはさらに、ユーザがデータベースクエリを入力するための入力ユニット203と接続している。クエリの結果は、ディスプレイユニット204に表示されるか、あるいはプリンタ205を介して印刷される。情報は、コンピュータシステム200に記憶されているデータベース206から検索される。このデータベースは、コンピュータシステムのハードディスク、またはCD、DVDのような特定の記憶媒体、もしくはテープレコーディング媒体上に提供される。あるいは、データベース206を、データ送信ネットワークを介してコンピュータシステムと接続した遠隔地に記憶することも可能である。さらに別の代替例では、データベース206は、ネットワークで高速接続した複数のコンピュータに記憶されたテキストを備えることができる。
【0083】
プロセッサ201は、クエリの処理の他に、文章の処理に使用することもできる。プロセッサ201はさらに、シソーラスメモリ207を使用してもよい。シソーラスメモリは、用語、または複数の用語間の意味関係を提供する。全ての当業者は、本発明による方法および装置の用途が特定のメモリに限定されるものでないことを理解するであろう。メモリ206、207の全部品は、1つのメモリ内の明確な範囲として実現することができる。当業者はさらに、コンピュータシステム200が、動作およびアプリケーションプログラム101、104、106、データ102、103、105のようなプログラムコードを記憶するためのメイン記憶装置202を備えることが好ましいということを理解するであろう。さらに、文字列またはクエリを処理するために、プロセッサ201がプログラムコードを実行することも当業者は理解するであろう。コンピュータ200は、プロブレムコードおよびデータメモリを永久に記憶するために、ハードディスクドライブ、フレキシブルディスクドライブのような外部メモリを備えることが好ましい。
【0084】
コンピュータシステム200はさらに、文章中にある用語間の意味関係を抽出するために、パーシングユニット208を備えることができる。あるいは、パーシングユニット208を、プロセッサ201によって実行されるアプリケーションプログラムとして設けてもよい。
【0085】
次に、図3、図4に示すフローチャートを参照しながら、情報検索処理についてより詳細に説明する。
【0086】
図3は、情報検索システムの一般的なステップを示している。まず、文字列処理ステップ301で、データベース内の全ての文字列またはテキストユニットについて正規化表示が生成される。文字列処理の詳細を図4に示す。
【0087】
データベースから文字列検索を行うには、ユーザは、所与の入力情報に関連したこれらの文字列を見つけるために、データベースクエリを入力する必要がある。ステップ302において、受信されたクエリが、データベースに記憶されているデータと比較可能な形式にするために、コンピュータシステム200内で処理される。
【0088】
検索を行うには、クエリを、記憶されているデータと比較する必要がある。ステップ303における文字列の検索は、データベースクエリに関連した各文字列の類似性に基づいて行われる。ステップ304において、翻訳バージョンを含んでいてよい検索情報が、データベースクエリに関連した各文字列の関連性に基づいて、ユーザに提示される。
【0089】
図4は、本発明によるデータベースを得るための、文字列、つまりテキストユニットまたは文章の処理をより詳細に示す。ナレッジ表示方法、すなわちデータベースのアーキテクチャは、本発明の必須形態である。全ての当業者は、特定のナレッジ表示、およびこのようなナレッジ表示の生成方法が文書検索アプリケーションに限定されるものではなく、むしろ、これらはナレッジ抽出、翻訳情報装置等の基本であることを理解するであろう。
【0090】
まず、ステップ401において、上述のように入力文章から言語情報が抽出される。言語情報は形態情報、構文情報、意味情報と、これらを一義化する方法を含んでいる。抽出した情報に基づいて、正規化表示が生成される。
【0091】
このような正規化手順は、異なる形態に関連して複数回実行することができる。オペレーションのシーケンスを実行した結果、概念化の度合いの異なる、関連した複数の正規化表示が得られる。
【0092】
さらに、ステップ402に示すように、単数または複数の正規化表示に対して、骨格化オペレーションが適用される。骨格化オペレーションは、情報検索処理中により優れた整合を得るべく、文字列または文章の特定の要素を変数で置換する。このような変数は、整合させるテキストユニットまたは文章中で元々使用されている特定のテキスト要素に関係なく、別の文章の関連する変数と整合する。
【0093】
言語抽出ステップと骨格化ステップから得られた正規化表示の各々(または選択したもののみ)は、特定の文章、例えば文字列102と共に記憶される。
【0094】
このようなデータベースを用いれば、記憶されている関連情報への向上したアクセスに基づいて、情報検索および翻訳情報の提供を向上することができる。
【図面の簡単な説明】
【図1】 情報検索システムの構成を示すブロック図である。
【図2】 コンピュータシステムのブロック図である。
【図3】 情報検索方法を示すフローチャートである。
【図4】 図3に示した処理のテキストユニット処理ステップをより詳細に示すフローチャートである。
【図5】 異なる骨格化関数を示すために使用した2進ツリーの例である。
【符号の説明】
100 情報検索システム、101 テキスト処理ユニット、102 入力文字列の正規化表示、103 テキスト分析機能、104 クエリ初期化ユニット、105 クエリの正規化表示、106 整合ユニット、200 コンピュータシステム、201 プロセッサ、202 メイン記憶装置、203 入力ユニット、204 ディスプレイユニット、205 プリンタ、206 データベース、207 シソーラスメモリ、208 パージングユニット、301 文字列処理、302 クエリ処理、303 文字列の検索、304 検索した文字列の表示。

Claims (2)

  1. テキスト分析機能を実現するためのプログラムコードを記憶するための記憶装置と、
    入力文字列を受信する手段と、
    前記記憶装置に記憶されたテキスト分析機能を実現するためのプログラムコードを用いて、入力文字列に対し、単語の基本形を分析する形態分析単語間の従属関係を分析する構文分析単語の意味を分析する意味分析と、を含む言語分析を実行することで、前記形態分析により生成した形態情報前記構文分析により生成した構文情報前記意味分析により生成した意味情報と、を含む言語情報を入力文字列から抽出し、さらに、当該言語情報を抽出した入力文字列のうち選択した部分を、少なくとも目的語、固有名詞を含む当該部分を抽象的に表示した抽象変数で置換する骨格化を実行するプロセッサと、
    を有し、
    前記プロセッサは、前記置換する処理を実行した入力文字列をータベースに記憶することを特徴とするシステム。
  2. クエリを受信する手段をさらに有し、
    前記プロセッサは、前記記憶装置に記憶されたテキスト分析機能を実現するためのプログラムコードを用いて、クエリに対し、前記形態分析前記構文分析前記意味分析と、を含む言語分析を実行することで、前記形態情報前記構文情報前記意味情報と、を含む言語情報をクエリから抽出し、さらに、当該言語情報を抽出したクエリのうち選択した部分を、少なくとも目的語、固有名詞を含む当該部分を抽象的に表示した抽象変数で置換する骨格化を実行し、
    さらに、前記プロセッサは、前記置換する処理を実行したクエリを、前記ータベースに記憶された文字列と比較することで、前記ータベースからクエリに関連する文字列を検索することを特徴とする請求項1に記載のシステム。
JP2001383062A 2000-12-18 2001-12-17 文字列の正規化表示を生成するシステム Expired - Fee Related JP4658420B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/738,319 US6983240B2 (en) 2000-12-18 2000-12-18 Method and apparatus for generating normalized representations of strings
US09/738,319 2000-12-18

Publications (2)

Publication Number Publication Date
JP2002229981A JP2002229981A (ja) 2002-08-16
JP4658420B2 true JP4658420B2 (ja) 2011-03-23

Family

ID=24967492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001383062A Expired - Fee Related JP4658420B2 (ja) 2000-12-18 2001-12-17 文字列の正規化表示を生成するシステム

Country Status (3)

Country Link
US (1) US6983240B2 (ja)
EP (1) EP1217535A3 (ja)
JP (1) JP4658420B2 (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169893A1 (en) * 2001-05-09 2002-11-14 Li-Han Chen System and method for computer data synchronization
US20030074188A1 (en) * 2001-10-12 2003-04-17 Tohgo Murata Method and apparatus for language instruction
US7493253B1 (en) 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7685118B2 (en) 2004-08-12 2010-03-23 Iwint International Holdings Inc. Method using ontology and user query processing to solve inventor problems and user problems
US7630892B2 (en) * 2004-09-10 2009-12-08 Microsoft Corporation Method and apparatus for transducer-based text normalization and inverse text normalization
US8244730B2 (en) * 2006-05-30 2012-08-14 Honda Motor Co., Ltd. Learning syntactic patterns for automatic discovery of causal relations from text
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8725059B2 (en) * 2007-05-16 2014-05-13 Xerox Corporation System and method for recommending educational resources
US8699939B2 (en) * 2008-12-19 2014-04-15 Xerox Corporation System and method for recommending educational resources
US8457544B2 (en) * 2008-12-19 2013-06-04 Xerox Corporation System and method for recommending educational resources
US20100159437A1 (en) * 2008-12-19 2010-06-24 Xerox Corporation System and method for recommending educational resources
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20100075291A1 (en) * 2008-09-25 2010-03-25 Deyoung Dennis C Automatic educational assessment service
US20100075290A1 (en) * 2008-09-25 2010-03-25 Xerox Corporation Automatic Educational Assessment Service
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US20100157345A1 (en) * 2008-12-22 2010-06-24 Xerox Corporation System for authoring educational assessments
US20110099052A1 (en) * 2009-10-28 2011-04-28 Xerox Corporation Automatic checking of expectation-fulfillment schemes
US20110123967A1 (en) * 2009-11-24 2011-05-26 Xerox Corporation Dialog system for comprehension evaluation
US8768241B2 (en) * 2009-12-17 2014-07-01 Xerox Corporation System and method for representing digital assessments
US20110195389A1 (en) * 2010-02-08 2011-08-11 Xerox Corporation System and method for tracking progression through an educational curriculum
US9672204B2 (en) * 2010-05-28 2017-06-06 Palo Alto Research Center Incorporated System and method to acquire paraphrases
US8521077B2 (en) 2010-07-21 2013-08-27 Xerox Corporation System and method for detecting unauthorized collaboration on educational assessments
RU2460154C1 (ru) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
JP6206865B2 (ja) 2012-05-31 2017-10-04 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 入力文字列の集合から当該入力文字列の集合を文字列で表現する少なくとも1つのパターン表現に変換する方法、並びに、当該変換パターンを近似パターン表現式として取り出す方法、並びにそのコンピュータ及びコンピュータ・プログラム
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5796926A (en) * 1995-06-06 1998-08-18 Price Waterhouse Llp Method and apparatus for learning information extraction patterns from examples
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
GB9713019D0 (en) * 1997-06-20 1997-08-27 Xerox Corp Linguistic search system
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6473729B1 (en) 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index

Also Published As

Publication number Publication date
US6983240B2 (en) 2006-01-03
US20020116169A1 (en) 2002-08-22
EP1217535A3 (en) 2005-11-02
JP2002229981A (ja) 2002-08-16
EP1217535A2 (en) 2002-06-26

Similar Documents

Publication Publication Date Title
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
US5850561A (en) Glossary construction tool
US6405162B1 (en) Type-based selection of rules for semantically disambiguating words
Wang et al. A system for approximate tree matching
CN1815477B (zh) 用于提供基于标记语言的限定词的方法和系统
US6182062B1 (en) Knowledge based information retrieval system
US7774198B2 (en) Navigation system for text
US7228269B2 (en) Computer-aided reading system and method with cross-language reading wizard
US5555408A (en) Knowledge based information retrieval system
Aitchison et al. The thesaurus: a historical viewpoint, with a look to the future
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
US20100228538A1 (en) Computational linguistic systems and methods
WO2008094970A9 (en) Method and apparatus for creating a tool for generating an index for a document
Li et al. A methodology of engineering ontology development for information retrieval
US8229970B2 (en) Efficient storage and retrieval of posting lists
Furth et al. Semantification of large corpora of technical documentation
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
Feldman et al. Text mining via information extraction
Rehm et al. Ontology-based XQuery’ing of XML-encoded language resources on multiple annotation layers
Will Thesaurus consultancy
JP3856388B2 (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09190453A (ja) データベース装置
Dimitriadis et al. How to integrate databases without starting a typology war: The Typological Database System
Kolthoff et al. GUI2WiRe: rapid wireframing with a mined and large-scale GUI repository using natural language requirements

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041215

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070626

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070820

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees