JP2009519534A - テキスト編集装置及び方法 - Google Patents
テキスト編集装置及び方法 Download PDFInfo
- Publication number
- JP2009519534A JP2009519534A JP2008545101A JP2008545101A JP2009519534A JP 2009519534 A JP2009519534 A JP 2009519534A JP 2008545101 A JP2008545101 A JP 2008545101A JP 2008545101 A JP2008545101 A JP 2008545101A JP 2009519534 A JP2009519534 A JP 2009519534A
- Authority
- JP
- Japan
- Prior art keywords
- text
- language
- editing
- translated
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 198
- 238000013519 translation Methods 0.000 claims abstract description 127
- 238000003860 storage Methods 0.000 claims abstract description 10
- 230000014616 translation Effects 0.000 claims description 124
- 230000006870 function Effects 0.000 claims description 87
- 230000008569 process Effects 0.000 claims description 71
- 238000012545 processing Methods 0.000 claims description 25
- 238000012015 optical character recognition Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 19
- 238000006467 substitution reaction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000003909 pattern recognition Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000001323 posttranslational effect Effects 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims 2
- 230000014759 maintenance of location Effects 0.000 claims 1
- 230000004660 morphological change Effects 0.000 claims 1
- 230000001581 pretranslational effect Effects 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000008901 benefit Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 11
- 230000008707 rearrangement Effects 0.000 description 10
- 238000013459 approach Methods 0.000 description 7
- 230000007547 defect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 4
- 230000003936 working memory Effects 0.000 description 4
- 206010012411 Derailment Diseases 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009931 harmful effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010058314 Dysplasia Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理するコンピュータ装置であって、前記装置は、第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットを格納する情報格納手段と、前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、受け取ったユーザ指示に基づき前記第1のセットを編集するテキストデータ制御手段と、表示データを生成するように作用する表示データ生成手段とを備え、前記表示データは、表示媒体上で第1及び第2の表示エリアを規定するように作用し、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記第1の言語からの翻訳より前の前記テキストを備えるか、又は前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、ここで前記表示データ生成手段はさらに、前記表示データに区別情報を含めるように作用し、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する。
Description
本発明は、テキスト編集装置及び方法に、具体的にはある言語から別の言語への翻訳の後に続くテキスト後編集(post−editing)のための、又は機械生成テキストの後編集のための、装置及び方法に、関する。
翻訳サービスに対する需要の高まりは世界貿易の成長率を上回っており、さらには世界経済の成長率を上回っている。現在、全インターネットトラフィックの半分以上は英語以外の言語であり、商業活動における英語優勢の傾向が全般的に下火になっていることは明らかである。翻訳業への人員補充は拡大こそしているが、需要を満たすに至っていない。その一方で、新しい自然言語処理技術にともない翻訳処理に占めるコンピュータの割合がより一層拡大することが見込まれる。
従来、自然言語翻訳におけるソフトウェアの使用には主に2通りのアプローチがある。最初のアプローチにあたる機械翻訳(MT)は1950年代から存在するが、これまでのところ翻訳の主流として頼りになる基盤を確立するには至っていない。確率統計学的手法の拡大にともないこの状況が今後数年間にある程度変わる見込みはあるが、MTはインターネットで広く利用されているにもかかわらず、幅広い支持を得るには至っていない。MTソリューションが非実用的とみなされる主な理由は、機械翻訳の品質が多くの用途にとって不十分だからである。MTシステムには、技術的な翻訳に比べて推論的な翻訳の場合に性能が落ちる傾向がある。これにはいくつかの理由がある。すなわち、認識されない語は翻訳されず、そのまま翻訳済みテキストの中にコピーされる。複数の意味を持つ語は翻訳されても文脈にそぐわない意味を与えることがある。また、MTシステムの効果は原文の構文の複雑化にともない低下する。同様に、2つの言語で文の構造が大幅に異なる場合にもMTシステムの効果は低下する。
結果的に、機械翻訳されたテキストの品質を許容水準まで向上させるための後編集が必要となる。現在の機械翻訳システムでその出力を人間並みの翻訳に転換するには多大な時間と労力を要することがある。
通例、機械翻訳ソフトウェアに用意されたユーザインターフェイスには、ユーザがコンピュータ画面上で翻訳するテキストを入力したり貼り付けたりするための第1のエリアと、機械翻訳出力を表示する第2の画面エリアがある。現在最も普及している(且つ最も古い)MTシステムの1つに、多数の言語間の翻訳に対応する「Systran」と呼ばれるソフトウェアパッケージがある。
もう1つの主要技術は翻訳メモリ(TM)システムのそれである。翻訳メモリシステムは、実際の翻訳はすべて人間に任せ、専ら翻訳済み資料(大量のテキストになることがある)を再利用するための効率的システムを提供し、機械支援ヒト翻訳(MAHT)と呼ばれるものを達成することにより、MTの従来の問題を回避する。現在利用できるTMシステムは、まず初めに大量の資料を人手で翻訳する点が非効率的であるが、こうして翻訳された資料はソフトウェアによって自動的に効率よく処理できる。
現在様々なTMシステムが市販されている。例えば「Trados」TMシステムは、最も普及したTMシステムの1つである。「Trados」は、該当する原文を自動的に提示し、それを以前の一致する文に照合する「ワークベンチ」ウィンドウによって翻訳済みの文を再利用し、ユーザによる入力の繰り返しを回避する。Tradosのようなシステムでは、ユーザが所望の「曖昧一致」レベルを単独の数値で設定でき、100%は完全一致だけを意味する。曖昧レベルを100%未満に設定すると、システムは、ユーザによって設定された閾値より上で原文に部分的にか完全に一致する訳文を表示する。有用な曖昧一致レベルは90%以上である。この閾値を下回ると曖昧一致の編集作業が手に負えないほど膨らむ。ただしシステムは、例えば終止符で区切られたテキスト区画として識別される文全体だけを照合し、語単位や句単位では翻訳を提供しない。
本発明の一態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集方法又は装置を提供する。この装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段を含む。装置は、表示媒体上に表示される表示データを生成する表示データ生成手段を含む。装置はまた、ユーザによる編集が可能な翻訳済みテキストを第1の表示エリアに提示するため、そして翻訳前テキストかユーザ編集前翻訳済みテキストのいずれか一方を第2の表示エリアに表示するため、ディスプレイを制御するように作用するコントローラを含む。コントローラは、第1の表示エリアでテキストの選択部分を強調表示し、第2の表示エリアでテキストの対応する部分を強調表示し、且つユーザ入力手段を通じて新たなテキスト選択を得る場合には前記強調表示を更新するように構成される。強調表示されたテキストを、好ましくは原文の書式を乱すことなく、周囲のテキストから区別するため、強調表示は、太字、斜体、下線、テキスト色、背景色、フォントタイプ、フォントサイズ、その他の使用を含んでよい。
コントローラは、前記翻訳前テキスト及びユーザ編集前翻訳済みテキストの他方を第3の表示エリアに表示し、さらに第1の表示エリアにおけるテキストの選択部分に対応する前記テキストの部分を第3の表示エリアで強調表示するように構成できる。コントローラは、最初の翻訳前テキストと誤りが訂正された翻訳前テキストのいずれか一方又は両方を、それぞれ前記第2又は第3の表示エリアに、又は追加の表示エリアに、表示するように構成できる。コントローラは、テキストの個々の部分をサブセンテンスレベルで強調表示するように構成できる。コントローラは、第1のウィンドウで第1の句を強調表示し、第2のウィンドウで対応する第2の句を強調表示し、さらに前記強調表示された語の翻訳に相当する追加の語を強調表示するように構成でき、ここで前記追加の語は、第1又は第2の強調表示された句に対し異なる句内に位置する。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置はユーザ入力手段とコントローラとを備え、同コントローラは、翻訳前テキスト及び/又は翻訳後テキストの言語を識別し、且つ翻訳済みテキストの後編集にあたって後編集プロセスを自動的に選択するため、及び/又は後編集プロセスの選択を検証するため、前記言語識別を使用するように適応される。
コントローラは、少なくとも第1の言語から、第2の言語、第3の言語にかけて前記テキストを翻訳するのに使われる翻訳言語の順序を識別し、さらに後編集プロセスの選択にあたって、又は後編集プロセスの選択の検証にあたって、前記順序順序を使用するように構成できる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置はユーザ入力手段とコントローラとを備え、同コントローラは、テキストの入力元タイプを識別することにより、そして前記入力元タイプに従って訂正プロセスを選択することにより、翻訳前テキストの誤りを訂正するように適応される。
コントローラは、翻訳前テキストの入力元タイプに従って翻訳前訂正を実施するように構成できる。加えて、又は代わりに、コントローラは、翻訳済みテキストの入力元タイプに従って翻訳後訂正を実施するように構成できる。コントローラは、光学式文字認識(OCR)、音声ディクテーション、又はキーボードのいずれか1つとしての入力元タイプ識別をもとに1つ以上の処理ルールを選択するように構成できる。コントローラは、統計解析を用いて前記テキストの入力元タイプを識別するように構成できる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、前記テキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、前記句を、その構文及び/又は語彙プロパティの点で再構成又は修正するため、又は所定のユーザ指示を受けてテキストの別の部分へ、例えば同じ文の中で、移動するため、個々の句を自動的に選択する手段とを、備える。かかる句識別及び/又はかかる変更は記録でき、後で再利用できる。このパターン検出機能は構文解析で支援できる。例えば、句識別のときには文法上の所定の語配置を検出し、使用できる。ユーザはいくつかの実施形態において、構文単位を選択するためのパラメータを、又は構文単位に優先順位を付けるためのパラメータを、選択することにより、構文解析プロセスを構成できる。任意に、ユーザは配列基準を選択することもできる。ユーザはまた、個人的設定を、例えば前もって設定された語彙的に決定する句の主辞/補語関係の強調表示を、指定できる。句の主辞とは句が文法上依存する語であり、至極簡単な例を挙げると、「bank of investment」では語bankが主辞であり、構成子of investmentは補語である。主辞「certificate」を含む全ての句で、補語の前置詞(通常は「of」、ただし単に分類の観点で識別されることもある)を削除し、補語の名詞又は名詞句(専ら文法上の分類によって識別される)を句の最初の語又は構成子となるよう移動する設定を指定できる。無論、補語そのものの中にかかる標識語があってもよく、この場合は主辞の語彙的内容にかかわりなく変更が施される。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、句及び/又は句境界を識別する手段と、指定言語に固有の自動句配列ルールを実施する手段とを備える。いくつかの実施形態においてはユーザが句配列ルールの適用順序を指定又は変更できる。例えば特定の句配列ルールの配備にあたって標識語基準を使用し、文脈固有調整を行うこともできる。標識語又は表現を含む句は、その句における語又は表現の存在と位置からマクロの対象としてマークされ、その句の文法的構造は語彙的内容にかかわりなく並べ替えられる。かくして標識によって識別された文脈で効果的な並べ替え手順を使用し、自動化された構造変更の過剰概括を防ぐことができる。
コントローラは、識別された前記句の句タイプによる分類により構文モデルを構築するように構成できる。コントローラは、前記句タイプを指示するため識別された前記句にフラグを付すように構成できる。コントローラは、句タイプに従い前記ディスプレイ上で句の強調表示を提示するように構成できる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、前記翻訳前及び翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、翻訳前テキストの第1の句に出現する語と翻訳済みテキストの対応しない第2の句に出現する対応する語とを識別する手段とを備える。コントローラは、出現した句のパターンをテンプレート句パターンスキーマに照合することにより、そして食い違いにフラグを付すことにより、これを果たすことができ、その結果、人手による訂正介入を円滑にする。ユーザは、局所句又はテンプレート句の変更を行うことができる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、ユーザ指導ドラッグ・アンド・ドロップ編集を可能にするように、そして文における前記テキストの新規位置に応じて編集済みテキストの大文字・小文字及び/又は句読点を自動的に修正するように、構成され、これは空白の適切な処置を含む。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、句を識別するように、そして個々の句の中の語について数、大文字・小文字、及び/又は性の一致を検証するように、構成される。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ここで前記コントローラは、選択された句又は語の置換にあたって複数のオプションをユーザに提供するためオートテキスト機能を実施する手段を備える。
オートテキスト機能は、複数の代替訳がある語の場合に提供されうる。オートテキスト機能は、ユーザがユーザインターフェイスを使って選択された語の前記オプションを巡回することを可能にするように構成できる。オートテキスト機能は、ユーザが前記オプションを事前に定義することを可能にするためユーザによるカスタマイズが可能である。オートテキスト機能は、前記オプションを外部から入手するように構成される。オートテキスト機能はオンライン辞書アクセスと完全に一体化でき、この場合、オンライン辞書項目は全域置換に使用でき、格納されたプロファイルに登録でき、あるいはオートテキストマーカーに割り当てることにより必要に応じて簡単に利用できる。オートテキスト項目は任意に選択される検索基準で完全に検索できる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、複数の意味を持つ訳語を識別する手段と、代替意味の置換をユーザに選択させるため提供することとをさらに備える。ユーザ選択はローカルドロップダウンリストを通じて果たすことができ、個々の語/句ごとに禁止することができる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、第1の言語ではなく第2の言語に固有の文法構造を翻訳済みテキストに自動的に挿入する手段を備える。これは、従来のスタイルチェッカーの原理に概ね従って作用するが、スタイルパラメータは機械テキスト出力の特定の問題に関連して明示的に設定される。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、第2の言語ではなく第1の言語に固有の文法構造を翻訳済みテキストから自動的に除去する手段を備える。この処理アプローチは、前の段落で述べたそれの正反対であってよい。
コントローラは、文字列置換機能を曖昧一致とともに実施するように構成できる。コントローラは、構文解析パターン認識・置換機能を実施するように構成できる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、ユーザ編集の完了を指示するため入力の受け取り後に実施される文法及びスタイル調整のための自動手段を備える。このプロセスをユーザに開放し、ユーザによる監視と介入を許すこともできる。文法、スタイル、及び可読性ツールは既存の「オーサリングソフトウェア」に類似するが、最初の起点言語に由来するスタイル問題により密着する。これはまた、ユーザが、例えば顧客の要望に照らして、より幅広くカスタマイズできる。一実施形態においてはスタイルプロファイルがユーザに提供され、同じように翻訳されるテキストを受け取る相手に応じて異なるスタイルで提示できる。これは、単なる了解度ではなく多様性と読みやすさを促進する点が前述した構造的再配置と異なる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、コントローラは、複数のテキスト編集手順を格納し、且つ前記手順のリストを編纂し、且つ別の入力テキストに使用するため保存する手段を備える。これらの手順は「プロファイル」と呼ぶこともできる。
本発明のさらなる態様は、少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置を提供し、同装置は、テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するよう適応されたコントローラとを備え、コントローラは、テキスト編集手順を規定する情報を格納、蓄積、編集、及び併合する手段と、テキスト編集手順を規定する格納された前記情報を複数のユーザで共用する手段とを備える。複数のユーザはその場で、又は1つ以上のネットワークを介して、情報にアクセスできる。
本発明の態様のいずれかで、コントローラは、選択された正字法を翻訳済みテキストに適用するため自動編集プロセスを選択し且つ実施するように構成できる。コントローラはまた、数字及び/又は日付の書式設定のため選択された自動編集プロセスを実施するように構成できる。コントローラはまた、選択された自動編集プロセスを複数の文書に適用するように構成できる。本発明の態様のいずれかで、テキスト編集装置はコンピュータ装置であってよい。コントローラは、説明する本発明の態様のいずれかの機能を遂行するように構成されたコンピュータプロセッサであってよい。
本発明のさらなる態様は、翻訳済みテキストの後編集のためのルール一式を備えるプロファイルを管理するプロファイル管理システム又は方法を提供する。リストは、ある種のテキスト又は言語にとっての適切性に従って各々分類できる。ソフトウェア使用の好適な特色として、プロファイルを編集し、組み合わせることにより新しいプロファイルが形成され、これまで対処がなされなかった後編集領域の改善をもたらす。場合によっては、巧みに組み合わされたプロファイルがヒトによる後編集に徐々に取って代わり、ヒトによる後編集がまったく必要でなくなることが予想される。また、これらのプロファイルは独立した知的財産になり得るものである。
プロファイルは多数のユーザによる並行使用を通じて統合と精査を伴いながら進化できる。プロファイル管理システムは、プロファイル間の差異を簡単に登録できる手段を提供でき、プロファイルの内容に対し体系的な編集変更を施すように構成できる。プロファイルを構成するマクロをグループ分けし、任意の組み合わせで配備することもまた可能である。
本発明のさらなる態様は、コンピュータ生成テキストを表す情報を管理する方法及び装置を提供する。この装置は、前記コンピュータ生成テキストを表す第1の情報セットを格納する情報格納手段と、前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、受け取ったユーザ指示に基づき前記第1のセットを編集するテキストデータ制御手段と、表示データを生成するように作用する表示データ生成手段とを備え、前記表示データは、表示媒体上で第1及び第2の表示エリアを規定するように作用し、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記テキストデータ制御手段による編集より前の前記第1のセットに一致する。表示データ生成手段はさらに、前記表示データに区別情報を含めるように作用し、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する。翻訳済みテキストがかかわる本発明の態様との関係で説明する特徴はいずれも、コンピュータ生成テキスト管理の実施形態にも応用でき、あるいはコンピュータ生成テキスト管理の実施形態で使用するように適応できる。
本発明のいずれかの態様において、句読点は終止符、カンマ、コロン、セミコロン、ハイフン、ダッシュ、空白、アポストロフィ、大文字使用、その他を含むことがある。
編集プロセスはいくつかの実施形態において機械翻訳プロセスを前提とする。ただしこれ以外の出所から入手した翻訳で後編集を行う場合でも、本発明の多大な利益を得ることができる。例えば、翻訳者が翻訳言語に完全には堪能でない場合のヒト翻訳にも本発明の実施形態を役立てることができる。非ネイティブスピーカーによって作られた原文にも同様に役立てることができ、この場合は、繰り返し起こる言語上の異常を体系的に抑制できる。一連の重要な実施形態は、現在利用できるか先々開発される様々なテキスト処理ソフトウェアによって1つの言語の中で機械的に、又はコンピュータによって、生成されるテキストに関係する。(ことによると多量の)文書から所定の情報を入手する「テキストマイニング」は、かかるソフトウェアの一例である。例えば「テキストマイニング」ソフトウェアは、文書の要約をユーザが指定する長さで自動的に生成しうる。このようにして生成されるテキストはえてして機械言語合成の結果であり、機械翻訳の場合と同様の後編集を必要とするか、又は機械翻訳の場合と同様の後編集を役立てることができる。
ユーザ入力手段は、ポインティングデバイス(例えばマウス、トラックパッド、トラックボール、ペン、トラックポイントデバイス)、タッチパッド、ゲームパッド、ゲームコントローラ、ジョイスティック、リモコン、タッチスクリーン、キーボード、キーパッドをはじめとする(場合によってはカスタマイズ可能なボタンを有する)、ユーザ入力装置であってよい。ディスプレイはモニタ、TV画面、ボタンを備えるタッチスクリーン、ディクテーション入力、タイプの異なる他の何らかのディスプレイ、又は将来の何らかの装置であってよい。
本発明は、適切にプログラムされたプログラム可能デジタルコントローラを使用し、又はハードウェアとソフトウェアの組み合わせを使用し、専用ハードウェアで実装できる。
代わりに本発明は、ソフトウェア又はプログラム可能演算装置によって実装できる。これはデスクトップコンピュータ、ラップトップコンピュータ、手持ち型コンピュータ、PDA(個人用デジタル補助装置)、携帯電話機をはじめとする何らかのコンピュータを、又は将来の何らかの装置を、含む。本発明による方法の各プロセスのためのコードはモジュール形式であってよく、あるいは別のやり方で構成され同じ機能を遂行するものであってよい。本発明による方法及び装置は、ネットワーク接続を伴うコンピュータに適用できる。
したがって本発明は、本発明の装置としてのプログラム可能コントローラ、コンピュータ、又は複数のコンピュータを制御する機械可読命令又はコンピュータコードを保持する保持媒体を包含する。保持媒体は、フロッピー(登録商標)ディスク、CD−ROM、DVD−ROM、ハードディスク、磁気テープ、プログラム可能記憶装置、将来の何らかの装置をはじめとする何らかの格納媒体を、あるいは電気信号、光信号、マイクロ波信号、RF信号、電磁信号、磁気信号、音響信号をはじめとする過渡的媒体を、含みうる。通信ネットワーク上でコンピュータコードを搬送する符号化信号、例えばインターネット、イントラネット、ローカルエリアネットワーク等のIPネットワーク上でコンピュータコードを搬送するTCP/IP信号は、かかる信号の一例である。
本発明の実施形態は、翻訳者がMT出力を人間並みの水準まで後編集するのにかかる労力を最小限に抑えることができる環境を提供する。本発明の実施形態はTMシステムの手法を部分的に使用するが、本発明によって提供される適応によってこれらの手法はより総合的で効果的なものとなる。
これより添付の図面を参照しながら本発明の実施形態を単なる例証として説明する。
図1は、本発明の一実施形態を実装する装置を示すブロック図である。装置は、ディスプレイ101、キーボード102、及びポインティングデバイス103の各々へ接続されたコンピュータ100を含む。コンピュータ100は、中央演算処理装置(CPU)104と、作業メモリ105と、ストレージアプリケーション106と、ディスプレイドライバ107とを含む。コンピュータ100はまた、CPU104、作業メモリ105、ストレージアプリケーション106、及びディスプレイドライバ107間でデータを転送する内部バス108を含む。コンピュータ100は、キーボード102とポインティングデバイス103とからユーザ入力信号を受け付けるよう構成される。コンピュータはCPU104を使用しながら作業メモリ105及び/又はストレージアプリケーション106に格納されたソフトウェアを実行でき、さらにディスプレイドライバ107を使用しながらディスプレイを操作する制御信号を生成できる。
コンピュータ100は一実施形態において、強調表示された翻訳前テキストの選択と対応する強調表示された翻訳済みテキストの選択をディスプレイ101に表示するため、ディスプレイドライバに対し制御信号を生成するよう構成される。コンピュータ100はさらなる実施形態において、ヒト翻訳者に求められる作業負荷を軽減するため、自動又は半自動編集プロセスの選択の内少なくとも一方を実施するよう構成される。コンピュータ100はさらなる実施形態において、これらの編集プロセスの集合を、先々新たな入力テキストで再利用するため、格納し、整理するよう構成される。コンピュータは、作業メモリに格納されたコンピュータソフトウェアコードと、ストレージアプリケーション106に格納されうる語の語彙目録と対応する翻訳とによって実施されうる機械翻訳エンジンを実行するように構成できる。
本発明の実施形態は、後編集機能の特定部分を処理するよう各々設計された1組のプログラムを、又は複数の異なる機能を持つ単独のプログラムを、備えてよい。
好ましくは、以下の機能の一部又は全部が提供される。
・テキスト整合、予備翻訳、正則化
・局所的編集
・文字列処理
・語彙解析、パターン処理
・プロファイル管理
・後−後編集
これよりこれらの機能を1つずつ説明しながら、それらがいかに作用し、総合処理フローに一体化されるかを明らかにする。
・局所的編集
・文字列処理
・語彙解析、パターン処理
・プロファイル管理
・後−後編集
これよりこれらの機能を1つずつ説明しながら、それらがいかに作用し、総合処理フローに一体化されるかを明らかにする。
MTシステムで入力される外国語テキストの準備は一般的に予備翻訳と呼ばれており、MT出力の品質を大きく左右する可能性がある。
本発明の好適な実施形態においては、後編集処理にあたってテキストを最適な状態で提示するためテキスト整合機能が提供される。2つの並行するテキストの提示は可能な限り人間工学的に調整でき、かくして翻訳者は2つの文書の中で自身の位置を至極簡便にたどることができる。たとえ翻訳者が本発明のいくつかの実施形態で提供される追加的機能を利用しない場合でもこの機能が極めて有用であることに留意されたい。どんな翻訳でも原資料と目的資料を相関させる必要はある。
翻訳で重要となる人間工学上の要因は2つのテキストを同時にたどる必要性である。それには目による相互参照作業が多分に要求され、これによってヒト翻訳者の能率は大いに落ちることがある。Trados TMシステムでは、該当する原文を自動的に提示し、それを以前の一致する文に照合する「ワークベンチ」ウィンドウを提供することによってこの問題にダイレクトに対処している。これは、翻訳者が原文の翻訳にかかる前に原文を見つける必要がないことを意味する。Systran MTシステムもまた整合モードを提供することによってこの問題に対処しており、整合モードでは両方のテキストが分割画面に現れ、一方の画面部分で文が選択されると自動的に他方の画面部分で対応する訳文が強調表示される。
既存のシステムにはいずれも欠点がある。Tradosタイプのシステムでは、文にアクセスするたびにワークベンチを更新する必要があり、それにはある程度の時間がかかるから、文から文への移動の点ではどちらかというと融通がきかない。Systranタイプの方法はこの問題を回避するが、その代償としてこのモードでは、Microsoft Word文書やその他のユーザ編集可能文書ではなくhtmlファイルを扱う必要がある。本発明の一実施形態は、MT出力と原文の両方に編集後出力を相関させるシステムを提供する。これにより翻訳者は、テキストにおける自身の介入を原書における位置に随時相関させることができるほか、MTの実行後に施された後編集変更を監視することができる。加えて、翻訳済みテキストと後編集済みテキストとの違いは、例えばそれらをテキストの残りの部分とは別の色で表示することにより、強調表示できる。これにより、精密に的を絞ったマクロ編集が可能となり、その結果は様々な文脈の中で強調表示される。概して、文字列及びパターンマクロの文脈感知性は、あらゆる実施形態において大きなシステム利点となる。
図2は、本発明の一実施形態におけるテキスト整合ウィンドウ構成のコンピュータスクリーンショットを示している。アプリケーションウィンドウの中には2つのテキストウィンドウが見られ、アプリケーションウィンドウの上部にはコントロールボタンがあって、テキストを保存するにあたって、及び/又は様々な編集及び/又は表示機能を実施するにあたって、ユーザ指示を受け付けるユーザインターフェイスを提供する。2つのテキストウィンドウのいずれか一方は翻訳前のテキストを表示するよう構成でき、さもなくば翻訳者によって何らかの後編集変更が施される前の翻訳済みテキストを表示するよう構成できる。他方のテキストウィンドウは編集可能な翻訳済みテキストを表示するよう構成でき、かくして翻訳者はこのウィンドウに表示されるテキストにダイレクトに編集を施すことができる。
図示された例で、第1のウィンドウは英語の機械翻訳出力を表示し、第2のウィンドウは編集後の機械翻訳出力を表示している。第1のウィンドウでは、第2段落の最初の2文がユーザによって強調表示されている。機械翻訳された出力テキストの第1の強調表示された文には、「the foretold principles and criteria」等、いくつかの欠陥が見られる。第2のウィンドウに表示された編集後のテキストでは、この欠陥が翻訳者によって訂正されている。第1のウィンドウで強調表示された部分に対応するテキストは第2のウィンドウの中で自動的に強調表示されているから、翻訳者にとって2つのテキストを相関させることは容易い。
ユーザはテキストの特定部分を、例えばマウス等のユーザ入力装置を使って、選択することにより、人手で強調表示できる。代わりに、テキスト区分を一度に1つずつ自動的に強調表示できる。ある特定の区分に施した編集に満足したユーザは、次の区分の選択を選ぶことができる。ユーザはいくつかの実施形態において、以前の区分をさらなる編集のため再度選択することを選べる。ユーザはいくつかの実施形態において、自動的に強調表示される区分の長さ又は特性を決定するためパラメータを選択できる。これらの選択方法のいずれかによってユーザが第1のウィンドウで別の文を選択すると、新たに選択されたテキストに合わせて第2のウィンドウにおける強調表示は更新される。
好適な実施形態において、後編集機能にはどんなタイプの入力及び出力テキストファイルでも、例えばrtf(リッチテキスト形式)ファイル、Microsoft Word文書、その他一般的なワープロ文書形式、html(ハイパーテキストマークアップ言語)、pdf(ポータブル文書形式)、その他を、使用できる。編集機能と保存機能を利用でき、翻訳者は、「ワークベンチ」システムの場合と違って、現在の文のみならず前後の文脈を容易く参照できる。翻訳者は、暫定的なMT出力テキストとの相関を望まない場合に(代わりに、検分を簡単にするため編集後出力テキストだけを原文と相関する場合に)、オプション設定を通じてこの機能を無効にできる。この整合方法には、Deja Vu等の他のTMシステムやReverso/Promt等の他のMTシステムで採用されている並行列テキスト表示システムより人間工学的であるというさらなる利点がある。かかるシステムでは、翻訳ファイルを最終的な出力文書に再び統合する必要もある。
本発明のいくつかの実施形態で提供されるさらなる有益な準備機能は、MT出力の元となる言語を識別できることである。これは1つのプロパティとしてプロファイルに割り当て、使用することができる。プロファイルは、1組の自動編集プロセスを、例えばマクロを、定義するものである。このように言語をプロファイルに割り当てれば、関連するプロファイルの中にある全てのマクロ(文字列一致マクロとパターン一致マクロを含む)がそれぞれの究極起源言語に対応していることを確認でき、誤って別の言語に関係するプロファイルに混入したマクロは直ちに見つけることができる。この危険は、プロファイルが拡大し、個々の翻訳者や組織の間で利用されるにつれて現実味を増す。従来のTM翻訳メモリは2つの異なる自然言語で文を照合するだけだが、究極起点言語の識別によってプロファイルをこの脅威から守ることができる。プロファイルは起点言語と翻訳言語の両方を指摘するように構成できる。テキストの翻訳が何度か行われた場合は、一連の翻訳にかかわる各言語の詳細をプロファイルに収容できる。プロファイルは言語のタイプを、例えば東洋語、ゲルマン語、コンピュータプログラミング言語等を、指摘することもできる。MT用の設定をプロファイルに盛り込むこともできる。
原文そのものにも様々な形の欠陥があり、MTシステムを困らせる大きな原因となっている。これらは、「ソフト」電子文書に本質的に備わるものと、例えばOCRプロセスによる、又は音声認識プロセスによる、編集可能文書の製作に具体的に起因するものとに大別することができる。
ソフトテキストの特徴的問題は大抵、数多くの従来システムで既に取り上げられている綴りの誤りと文法違反の2つに該当する。MT入力に向けて外国語文書を準備するにあたって、標準的なワープロパッケージで利用できるような対話型のスペル・文法チェックプロセスは必要ない。このプロセスは大部分自動化できる。スペルチェックは簡単で(疑わしいケースは後ほどヒト翻訳者にピックアップさせる)、非常に単純な文法上の誤り(散在する空白、又は、特に表の列に見られる所謂ブロークンテキスト等)を集めた所定のリストに従って行われる文法訂正とともに多かれ少なかれ自動的に処理することもできる。「完璧」な原文を用意するには容認し難いほど多大な介入が要求されることがある。ただし、後続の処理を遅滞させる相当数の低レベルの誤りを取り除くことは可能である。
OCRからの出力テキストの使用はさらなる困難を投げかける。OCR技術は急速に向上しており、MT利用を大幅に拡大する余地を提供しているが、極めて有利な状況でない限り、少なからぬ期間中に様々な問題を多発する可能性がある。ここで2つの例を述べると、OCRの場合はソフトテキストよりも大掛かりなスペルチェック機能で異なる特徴的な誤りパターンを処理する必要があり、さらにOCRではしばしば文の流れを中断する改行の形でブロークンテキストが発生する。これは特に、甚だしい語順の並べ替えをともなう言語からの翻訳で深刻な問題となる。本発明の実施形態は、例えば句読点に相反する改行を排除する機能を提供できる。これは場合によっては過剰概括を招くが、例外として封じ込めるか後処理で取り除くことができる。
音声認識を使用するとタイプの異なる誤りが生じ、例えば発音が類似する語が誤って識別されることがある。本発明のいくつかの実施形態では、これらの誤りのいくつかをシンプルな文法チェックで自動的に排除できる。音声認識を使えば原文を作成できるほか、ヒト翻訳者は音声認識ソフトウェアを使って原文の翻訳を入力できる。いずれにせよ、ある種の誤りを発生させるものとして音声認識プロセスを識別すれば、自動訂正を施すことによって全体的な成果を高めることができる。
図3は、本発明の一実施形態に従い翻訳対象テキストの入力元タイプに応じた編集・翻訳プロセスを示すフローチャートである。プロセスはステップS300で始まり、ここでコンピュータ100は翻訳対象テキストの起点言語を識別する。コンピュータ100は、例えば原文の語彙解析によって、あるいは統計又はパターン解析によって、あるいはテキストに関連する言語識別情報を読み取ることによって、あるいは言語を識別するためのユーザ入力を受け付けることによって、これを果たすことができる。
次に、コンピュータ100はステップS301で入力元タイプを識別する。例えば原文は、キーボードでのタイピングによって、光学式文字認識(OCS)によって、又は音声認識によって、コンピュータへ入力された可能性がある(あるいは別のコンピュータへ入力されてこのコンピュータへ移された可能性がある)。コンピュータ100は、ある特定の形式の入力に見込まれる誤りのタイプの検出を試みるため、例えば原文の統計及び/又はパターン解析によって、原文のタイプを識別できる。代わりに、ユーザ入力によって、又はテキストファイルに関連する入力元タイプ情報をコンピュータが読み取ることによって、入力元タイプを識別できる。
例えば、OCR入力の場合はテキストに余分な空白が数多く見られることがあり、及び/又は特有の読み取りエラーが発生することがあり、例えばOCR装置が誤って特定の文字を他の文字より安易に検出することによって、特定の文字が検出される割合が予想以上に高くなることがある。音声認識入力ではタイプの異なる誤りが生じることがあり、例えば発音が類似する語が誤って数多く識別されることがある。また、背景の音によって実際には存在していなかった語が余分に「認識」されることがあるので、いくつかの実施形態においては、テキストの文法解析によって音声認識を入力タイプとして認識する。
図3の実施形態で、OCR入力やディクテーション入力として識別されないテキストはタイピングによる入力と仮定する。これはテキストが、コンピュータ100でキーボード102を使って打ち込まれることを意味し、あるいは代わりに、別のコンピュータで打ち込まれ、例えばネットワークやディスクを使って、コンピュータ100へ移されることを意味する。ただし、隣接する文字がたまたま置き換わる等、打ち込みテキストにも固有の誤りが生じることがある。本発明のさらなる実施形態においては、打ち込みテキストをはっきりと識別でき、特徴的な誤りを持たないテキストには、又は入力元タイプが不明のテキストには、第4の入力元タイプ範疇として「その他」を使用する。言語を把握できれば入力元タイプの識別に役立つので、コンピュータ100にとっては、入力元タイプを識別する前に言語を識別すると有利である。
図3の実施形態で、もしもステップS301で入力元が打ち込みテキストと識別されるなら、コンピュータ100で実行するソフトウェアはステップS302で打ち込みテキストを受け取り、ステップS305でタイピングの誤りを訂正し、プロセスはステップS308へ進み、そこでコンピュータ100は言語に固有の訂正を行う。もしもステップS301で入力元タイプがOCRと識別されるなら、コンピュータ100で実行するソフトウェアはステップS303でOCRデータを受け取る。次にコンピュータ100はステップS306でOCRに固有の訂正を行い、その後にステップS308の言語固有誤り訂正が続く。もしもステップS301で入力元タイプが音声認識と識別されるなら、コンピュータ100で実行するソフトウェアはステップS304で音声認識データを受け取る。次にコンピュータ100はステップS307で音声認識に固有の訂正を行い、その後にステップS308の言語固有誤り訂正が続く。ソフトウェアはいくつかの実施形態において、1つのOCR入力から根強い欠陥を除去する、例えばある特定のファックス装置の印刷特性が原因で生じる誤りを除去する、専用のOCRプロファイルを作成できる。これは、例えばOCRの供給業者が変わる場合や数通りのOCRソフトウェアを使用する組織で、外部OCRエンジンの編集機能を使用するより便利である。コンピュータ100はステップS308の言語固有誤り訂正の後に、ステップS309でテキストの機械翻訳を実行する。次にコンピュータ100は、ステップS310で自動後編集プロセスを実行する。そしてコンピュータ100はステップS311で、テキストの後編集のため後編集ツールの使用をヒト翻訳者に提供する。最後にコンピュータ100はステップS312で後−後編集を実行し、例えば、近傍の重複する語やその他の誤りをチェックする。
代替の実施形態で、図3のステップのいくつかは省略でき、あるいは別の順序で遂行できる。例えばいくつかの実施形態において、機械翻訳プロセスが終わるまでは言語固有誤り訂正を行わない。
本発明のさらなる実施形態においては、機械翻訳プロセスに先立つ予備翻訳プロセスとは別の供給元から翻訳済みテキストを入手できる。例えば、本発明による後編集システムは、他の供給元から入手した翻訳済みテキストの、例えばヒト翻訳の、後編集に役立てることもできる。例えば、翻訳者がある程度の知識を持ち、ただし完全には精通していない言語で、ヒト翻訳が行われたなら、本発明によるシステムを使って別のヒト翻訳者がその翻訳をチェックし、編集すると、又は最初のヒト翻訳者が自身の翻訳で誤りチェック作業を行うと、有利である。
いくつかの実施形態においては、MTエンジンへの起点言語入力へ適用されるプロセスに加え、ヒト翻訳者による後編集が始まる前のMT出力に対し編集プロセスを自動的に行うことができる。これらのプロセスでは、MT出力の、ヒトが介入せずとも自動的に正則化できる部分を、扱う。例えばこれは、正字法の選択と数字や日付の処理に役立つ可能性がある。
正字法の分野で最も分かりやすい転換は、アメリカ英語からイギリス英語(又はその他の英語)への変更であろう。これは所定の仕様に従って遂行できる。これは、英語以外のより局地的な綴り習慣にも対応する。無論、ノルウェー語とギリシア語の2形式や欧州ポルトガル語と南米ポルトガル語との違い等、他の言語間の類似性にも同様のルールを使用できる。
番号や日付の表記にも正則化を役立てることができる。数字の句読点や日付の構成子順序については本発明の実施形態から「既製」プロファイルを提供できる。末端顧客の要求に合わせて所望の形式を文書ごとに設定できるほか、MT出力によって生成される日付/数字で意味論上取るに足りないばらつきを許容するため、ある程度の曖昧さを入力仕様に盛り込むことも可能である。
いくつかの実施形態において、この正則化工程の後に続く次のMT出力処理段階では通例、不定数の文字列・パターンマクロを収容する1つ以上のプロファイルをテキストに適用する。これらのプロファイルは手動で選択されるか、又は翻訳のエンドユーザによるテキスト入力に関係するパラメータに基づき自動的に決定されるか、又はある特定の顧客のデフォルトとして設定される。これにより、リアルタイムで遠隔的に決定するパラメータにプロファイル工程を完全に一致させることが可能となる。ユーザは、例えばウェブポータルを通じてテキストを提出でき、さらにプロファイルの選択プロセスを指導するためパラメータ及び/又はオプション仕様を提供できる。いくつかの実施形態において、有利な状況ではこのテキスト固有プロファイルの選択によって全後編集作業の大部分を果たすことができる。プロファイルの実行が完了した後に、必要とあらば改善されたテキストでさらなる後編集を行うことができ、かかる後編集の結果も既存のプロファイルか新規のプロファイルに格納できる。
本発明の好適な実施形態においては、3つのテキストが明確に、同時に提示されたこの段階で後編集を簡便に効率よく行うための一連のツールを翻訳者に与えることができる。これらのツールには、その場で使用し同じテキストや先々のテキストには影響しないツールのほかに、文書全体に通用する専用ツールや、(TMのように)将来的に再利用される資料を作るための専用ツールがある。
MT出力にともなう重大問題として、たとえある文の個々の句が正しく再現されるとしても、句の全体的な配置と順序が翻訳言語にそぐわないことがある。この問題に対処するには、かなりのテキスト区画を、まずは選択し、次にドラッグしながら、移動する必要がある。該当する句が識別され強調表示される本発明の実施形態では、このプロセスが容易く果たされる。この場合は、該当部分を1回クリックして「ピックアップ」し、所望の位置へ簡単に移することができる。別の実施形態においては、句順序選好に関するルールによって、例えばドイツ語の句順序に関するTMP(時間・様態・場所)ルールに沿って、このプロセスそのものを部分的に自動化できる。
ソフトウェアはMT出力文の句分割を遂行し、色分けに従って、例えば赤=名詞句(NP)、黄=前置詞句(PP)、青=動詞句(VP)等に従って、分割結果を強調表示する。これにより文の句構造は直ちに表示される。形容詞句(AP)と副詞句(AdvP)も識別し、色分けできる。これ以外の色分け表示形式も可能である。そして、自動的に区画として扱われる句の配置替えが可能となる。句の中の語順の誤りは文字列・パターン処理機能で可能な限り自動化でき、文の全体構造は高度な局所的介入(ことによると上述した部分的自動化の対象となる)に任せることができる。
この句再配置機能で直面する1つの問題として、原文の真の分割がMT出力の分割に反映されるとは限らない。句の中での語順の歪みの問題(文字列/パターン置換によって対処)と、句そのものの順番の問題(上述した句再配置機能によって対処)に加え、翻訳のときには個々の語が本来の句から隣接する句の中へずれこむことがある。以降のバージョンでは、(ホスト)句構造における異常な進入を標示する強調表示機能を開発できる可能性がある。この場合はヒト編集者がずれた語を正しい句脈絡に戻すであろう。脱線の検出を完全に自動化することは可能でないが、脱線が発生するリスクが高い句脈絡をマクロ認識機能を使って強調表示することは可能である。かかるパターンの基準は進行中の文書処理結果を踏まえて設定できる。ヒトの習慣から著しくかけ離れた誤謬パターンであるこれらの脱線要素は、ヒト後編集者にとって最も厄介なMT出力欠陥の1つである。本発明のいくつかの実施形態ではこの問題が透明化され、その深刻さはかなり軽減される。
局所的・単発的語順再配置はMT後編集で大きな位置を占め、今のところ完全には自動化できない。本発明の実施形態はこの問題にあたって、標準ドラッグ・アンド・ドロップ機能をインテリジェント大文字/小文字・句読点変更機能で補う。例えば、文の先頭に移される語は自動的に大文字になり、先頭から文の中へ移される語は自動的に小文字になる。終止符に隣接するカンマ等、散在する句読点や空白も自動的に整理できる。さらなる実施形態においてはこれらの機能をユーザが強化し、カスタマイズでき、ことによると数と大文字/小文字及び性(英語以外の言語)の自動一致機能を併せて使用する。
単独のテキストの中でさえ多発する同形異音異義語も後編集では重大な局所的要素となる。(少なくとも)investment、system、又はannexを意味するドイツ語のAnlageはその好例である。この場合、全域置換機能は有利でなく、個々のケースに個別に取り組む必要がある。ただし、不要な語に取って代わるテキストを見つけて配置するオートテキスト機能(通常のワープロのそれに類似)によってこのプロセスの円滑化を図ることはできる。例えばMT出力でAnlageが執拗にsystemと翻訳されるなら、例えばユーザが該当するホットキーを押した後に、代替語としてinvestmentかannexを提供するようオートテキスト機能を学習させることは容易い。同形異音異義語に対処するさらなる方法では、クロステキスト及びトランスドキュメント編集の文脈で後述する保留概括置換を使用する。
代替訳を標準で提供するシソーラスタイプの機能はこのアプローチを発展させたものである。例えばReversoはテキストそのものの中で代替訳(例えばフランス語のcomprendreに対しinclude/understand)を提供するが、それには選択と削除が伴うからやや不便である。好適な実施形態では、ヒト編集者が、例えばincludeを、クリックするだけで形態学的に対応するunderstandに置換されるから、より効率的である(置換が自動的に行われないなら、シソーラスモードで一連の選択肢を提供できる)。
右クリックによるシソーラス機能のコンセプトはさらに発展させることができる。ヒト編集者はオートテキスト置換オプションをカスタマイズできる。好ましい代替訳は自動的に提供され、好ましい候補は一連のクリックかホットキーを使って選択する。オートテキスト候補は文書単位でカスタマイズできるばかりでなく、文書内の節単位でもカスタマイズできる。ヒト編集者は代用テキストプロンプトを何度でも変更でき、プロンプトの順序も変更できる。また、一般に利用できる術語資料をシソーラス機能にプラグインできる。その範囲は原則として、専有用語集から公開のオンライン辞書や市販のソフトウェア辞書アプリケーションにまで及ぶ。後者の機能は特に、MTプロセスを生き延びる起点言語の処理に役立つ。
前置詞はこの現象の特殊なケースであり、自動翻訳にとって周知の難題である。例えば、フランス語の前置詞aの意味はtoからon、for、withにまで及ぶ(無論これ以外の意味を持つこともある)。好適な実施形態では、候補となる全ての前置詞と起点言語に近い前置詞(MTプロセスを生き延びて後編集入力まで残ることがある)を交互に提供するホットキー機能でこの問題に対処できる。ユーザの便宜を図るため、これは完全にカスタマイズ可能である。前置詞句の問題も後述する固定パターン置換で大部分対処できる。
実のところ後編集作業のかなりの部分を占める頻繁で細かな変更(例えば冠詞の挿入(スラブ語)又は削除(ロマンス語))については、自動挿入/削除機能を一連の語(例えば冠詞及び/又は前置詞)に使用できる。局所語順反転にも同様の機能を使用できる。これは名詞が後ろに続く形容詞/分詞にとって重要な機能となるが、さらに発展させ、2つの語の順序だけでなく語と句の順序や2つの句の順序を反転させることも可能である。例えば、フランス語テキストからの機械翻訳出力が「policies and strategies national and international」なら、シングルクリックかキーストロークによる順序反転機能でこれを「national and international policies and strategies」に移動することができる。つまり、この反転機能には局所分割機能が組み込まれているといえる。
反転機能をさらに発展させ、該当するセンテンスツリーの中に階層スケールを設けることができる。編集者は、トークンレベル、接続詞レベル、直接的な句レベル、より上位の句又は節レベルで構造反転を選ぶことができる。これにより反転への入力としての分割プロセスが事実上自動化され、作業の負荷は半減する。ユーザは右クリックドロップダウンユーザインターフェイスを通じて階層反転レベルを選択できる。
全体的な自動化が可能でない場合には、上述したツールを局所レベルで使用することによって翻訳者の作業は大いに楽になる。ただし本発明のさらなる実施形態は、ことによると先々の文書への投影をも含む、パワフルな全域変更機能を提供する。全域変更は、文字列置換レベルで、及び/又は構文解析パターン置換レベルで、遂行できる。後者は、標準的なTMシステムの限界を超えた、よりパワフルな技術である。前者にも従来のTMを凌ぐ大きな利点がある。
この方面で本発明の実施形態から提供される2つの大きな利点として、通常ならば文全体の再利用しか提供しないTMシステムに対し、文字列置換はサブセンテンスレベルで行われる。さらに変更は、これを再び提示するため保存するのではなく、事前に文書に投影されるから、自明の変更を再確認する必要はない。
従来のTMのもう1つの特徴として、従来のTMは「曖昧一致」を提供する。これは、完全な一致ではなく非常に近い/そこそこ近い一致(ユーザ設定次第)の場合でも置換文が提供されることを意味する。これはワープロの検索置換機能を凌ぐTMシステムの能力である。ただしこれらの機能は純粋に統計的なものであって、何ら意味論的なものではない。より精緻なツールも可能ではあるが、従来のTMの曖昧置換機能は所定のデータ等価率に基づいている。本発明の実施形態は、次節で説明する構文解析パターン置換機能のほかに、曖昧変更の妥当性を保証する形態感知型置換機能を文字列レベルで提供する。この機能は特定の要求に合わせてカスタマイズでき、翻訳者の「お役所的」仕事を削減する。
好適な実施形態では、ある特定の語に関連するパターンだけを置換する固定パターン置換も可能である。文脈によっては適切であったり適切でなかったりする不完全な一致をそのまま提供することによって、しかるべき最終結果に到達するまでに余分な仕事をどっさり増やすのではなく、置換が望まれる文脈を分類するこの機能は、ライバルにあたるTMアプローチより格段に効率的である。
本発明のいくつかの実施形態では、テキストを選択し、右クリックしたときに開く文字列置換ウィンドウで文字列置換を実行できる。図4は、本発明の一実施形態における文字列置換ウィンドウの一例を示す。
この例で、文字列の最大長はOptionsドロップダウンリストで設定できるが、この機能の利点が最も発揮されるのは約5単語までの文字列である。このウィンドウの置換入力ボックスには新規の文字列を挿入できる。既存の置換済み文字列から置換対象文字列にできるだけ近い文字列をプロンプトする機能のほかに、ユーザが適当な置換文字列をさらに探すことを望む場合には検索を簡単に行えるドロップダウンリストが提供される。これにより、作業の簡便さと一貫性の両方が向上する。ユーザは文字列が得られない場合に、任意の文字列を打ち込むかディクテーションで入力できる。文字列を入力したユーザは、その文字列を使って文書の中で全域置換を行うか、あるいは先々の文書で同じ文字列が再び出現する場合に使用するためその文字列をマクロとして記録するかを決めることができる。これは、大文字・小文字の区別や語全体の使用に関する仕様に従って行うことができる。ここでも形態認識機能を適用できる。例えば、フランス語の句formulaire de registrationをregistration formに変更するなら、複数形の場合にもこの変更を自動的に行うこともできる。図5は、本発明の一実施形態における置換マッピングウィンドウを示すコンピュータスクリーンショットである。
形態置換機能は句内整合機能を具備するという点においても、よりパワフルである。これにより、後編集者は、任意の長さの句(実際面では約10語まで)を選択し、その句の中にある任意の語、又は原則として全ての語と、置換句との間で系統的整合を果たすことができ、形態調整機能による変更の後には各々の置換語が同じ句に適用される。例えば、MT出力テキストがThe body grants permits to seekers half−yearlyなら、整合機能を使って語bodyをauthorityに、語grantsをissuesに、語permitsをlicensesに、語seekersをapplicantsに、語half−yearlyをsemi−annuallyに、それぞれ対応させることができる。これは、繰り返し出現するまったく同じ句が適切に置換されるだけでなく(MTと同じ)、形態学的に同属のものも適切に置換されることを意味する。例えば、The body granted permits to seekers half−yearlyは適切にThe authority issued licences to applicants semi−annuallyになる。
この整合機能は、既に上で述べた、概括的置換を保留する、もう1つの重要でパワフルな特徴を持つ。これは文書の中で変更が行われ、変更が不適切な場合にはキャンセルされ、さもなくば、例えば「デバッグモード」を使って、別の置換が行われることを意味する。これは後述するとおり、新規文書にプロファイルを適用するときに所定のマクロを起動するのにも使える。
変更が文書全体で行われる場合は、実際に行われた変更の数をメトリック機能で直ちに伝えることができる。ある1つの句の変更数はしばしば1つ以上の他の変更のそれの目安となり、これをもとに全域変更が有利かどうかを判断できるから、これは特に熟練ユーザにとって有利である。メトリック結果は様々な形式で提示でき、今後のマクロ計画に役立てることができる。
先々の文書に変更を投影する場合は、その変更をマクロとして登録し、ユーザによって特定の文書のために作成されるプロファイルか、一連の文書のために作成されるプロファイルに盛り込むことができる。これらのプロファイルの作成と編集と使用については後ほど説明する。
文字列処理とパターン処理では、(標準TM曖昧度マトリクスに従い、又はレギュラーフォームコンセプトの活用により)ニアミスを含めるように置換機能を拡張することができる。これは特にOCR出力テキストや、原文全般に見られる非意味論的欠陥(例えば、タイプミス、句読点の間違い、及び散在する空白)の処理に役立つ。曖昧レベルは設定でき、及び/又は曖昧次元は選択できる(例えば、特定の品詞に対する感度、句読点に対する加重拡大、文、句、又は動詞加重の選択等)。編集者が包含又は排除又は個別置換にケースバイケースで対応するための対話型ボックスを用意できる。図6は、新規マクロの作成と編集を行う編集モードのスクリーンショットを示す。
句レベル操作の弱みとして、文レベルの(曖昧)繰り返しを取りこぼすおそれがある。これは従来のTMシステムの強みである。このため、初出の文に対する局所的編集作業を繰り返しのときに再現できないおそれがある。この問題は、完成した編集済み文を対応するMT出力文に相関し、その文への文字列適用を許すTMバックアップ機能によって解決できる。TMバックアップは最終的な編集済み出力を、(局所編集ではなく)概括化処理のみの対象となるMT出力に組み合わせてペアにする。その結果、局所編集は必要に応じて自動的に再現できるから、TMシステムに残された優位はなくなる。
TMバックアップでは、単なる文字列の類似性だけでなくタグ付きパターンを記録することもできる。このためシステムは従来のTM一致を提供できるだけでなく、パターンマクロとしてまだ登録されていない初期のパターン変更に基づいてパターン置換を提供できる。ヒト編集者は、繰り返しの見込みが高く、パターンマクロを作成するだけの価値があるパターンを判断することはできないから、これは非常に便利である。この強化TM機能によって取りこぼされた重要パターンはプロンプトできるようになる。ヒト編集者は新規の局所的文脈でパターン変更を役立てることができるほか、既製マクロを新規パターンマクロに取り込んで何度でも使用できる。
このような理由から上述した文字列パターン置換は従来のTMよりパワフルだが、単なる文字列ではなく構文解析順序レベルの自動置換という大きな可能性もある。なぜなら、構文解析順序は、実際の意味的注入とは別の構文パターンをピックアップする可能性を提供するからである。これは後述する。
フランス語の句formulaire de registrationの例に戻り、これはすでに複数形の場合まで概括化できる。ただし、よりパワフルな概括化はformulaire de declaration又はformulaire d’attestation等、関連する句にまで及ぶ。これらのケースでは、本発明の実施形態が(従来のTMとは違って)句の統語構造を理解するという事実を利用し、概ね次のような働きをするルールを成立させることができる:もしもformulaire d(e)[名詞]が見つかるなら、[名詞]formに置き換える。至極基礎的な例ではあるが、パターン置換の使用は、システムを使用する翻訳者の技能とテキストの従順性しだいで無限に発展させることができる。
上の例は2つの大きな絞めつけを被る。まず第一に、この例の句は極めて短い。単なる名詞と形容詞の順序の反転は別として、実際これは最短の句である。第二に、この例ではある1つの句を(その都度変えることはできるが)検討しているに過ぎない。
これはさらに概括化できる。任意の長さの順序を選択することは可能であり、さらにそれに変更を施し、先に検討した単純なケースと同じ成果を多少なりとも得ることも可能である。ここで厄介なのは過剰概括の問題が拡大することである。例えば、前と同じルールに従って「activities of insurance and reinsurance」を「insurance and reinsurance activities」に変換することはできるが、andの後ろの語がこの句の一部でない場合には危険を背負うことになる。
この問題は、文字列やそれよりも大きいパターンの中でのパターン変更を「固定」し、接続詞の後に続く名詞が別の句に属する文脈を概括的自動変更から除外することによって回避できる。後続の実施形態では、句を強調表示するための句境界認識機能から句境界標識をパターン/構文置換マクロそのものに組み込むことが可能となる可能性がある。
原則として、句の長さに制限はない。これは、従来から節と呼ばれているものを構成することもあれば文全体にまで及ぶことすらある。これは文法上の目的から組み合わされたひとまとまりの語を意味するに過ぎず、何らかの再配置を要する。
ゲルマン語派のいずれかの言語で、MTエンジンからの典型的な出力は次のようになる。
The(i) [on the account](ii) [credited](iii) amount(iv)
この場合、これに対応する英語の翻訳はThe amount credited on the accountである。変換にあたっては2つの変更を要する。まずは(iv)を(ii)の手前に移し、次に(iii)を(iv)の後ろに置かなければならない。この場合、細かな語を追加又は削除する必要性や大文字化の問題(ならびに句読点処理の、特にカンマ処理の、問題)は無視してよい。
ここで単純なドラッグ・アンド・ドロップを活かすこともできるが、ドラッグしなければならないのは個々の語ではなく従属句であるという事実を踏まえてこの機能を修正することもできる。人間工学上の利点は(ii)を簡単に選択できるかどうかに大きく左右される。
変換された的確な句は全域マクロに登録できる。図7は、句再配置マクロの設定に用いる句再配置ウィンドウのスクリーンショットを示す。句再配置マクロは、すでに文字列置換機能のところで検討したマクロに類似するが、複雑な情報構造のため文字列置換のそれよりも多くの処理が要求される。これは新規テキストでのプロファイル工程に利用できるほか、上述した類の将来のドロップダウンで代替候補を提供するのに役立てることができる。
先に述べた形態多様性吸収機能を使うことも可能である。これは英語以外の言語でより一層重要となる問題ではあるが、英語においても少なくとも複数形と単数形とで形態変化がある。そこで、少なくとも以下に記す句は、最初の句の後に自動的に変換しなければならない。
The(i) [on the account](ii) [credited](iii) amounts(iv)
The(i) [on the accounts](ii) [credited] (iii)amount(iv)
The(i) [on the accounts] (ii)[credited] (iii)amounts(iv)
ただし、重要な利点は構造的に近似する句まで拡張することによって得られる。
以下(そして無論これの全形態学的同類)を検討する。
The(i)[from the account](ii)[debited](iii)amounts(iv)
この例も自動変換に組み入れ、まずは現在の文書の残りの部分で、さらにそれ以降の全ての文書で、処理することができれば大いに有利であることは明白である。それには、「debited」を「credited」と同じPOSとして認識し、文脈の中でまったく同じように簡単に移動できるようにしなければならない。このほかに、前置詞の変更も相応に行わなければならない。
現在利用できる統計型MTを使用し、この変更を実現するように動詞と句前置詞をリンクすることは不可能か、さもなくば人間工学的に是認されない可能性がある。ただし、もしもdebited句が後ほどこの文書の中で(又は以降の文書の中で)(ii)、(iii)、及び(iv)の正しい順序で出現し代名詞が変わらないなら、前置詞の変更を人手で入力するだけでよく、システムは変換辞書を自動的に更新するから、人間工学上のメリットはある。
その結果、時間が経つにつれプロファイル工程にかかる時間は当初のMT処理より大幅に長くなる可能性がある。多くの場合、これは合理的な分業を意味する。MTは引き続き有用な要約をほぼ瞬時に出力し、他方パターン置換マクロの適用にはそれよりも遥かに多くの時間がかかるが、それでも職業翻訳の所要時間の点で後編集プロセスの改善につながる。
これより、再構成パターンをより広くテキスト(及び言語)にわたって投影する可能性を論ずる。これらのオプションは、ユーザがシステムに馴染むにつれて提供できる。
これを果たす2つの可能性をこれより説明する。まずは純粋なPOS句再構成機能がある。これは、何らかの好適なPOSタグ付け基準に従って形成された同じ統語構造を持つ(又は同じ統語構造を持たない)句ならどんな句にでも通用し得る。これは明らかにパワフルなツールであるが、数多くのカウンタインスタンスを有用な結果として生み出す危険がある。
ある種のハイブリッド又は固定句再配置機能はより実用的な資源であり、これはプロトタイプで使われる実際の語を1つ以上含む句に適用する。これらの実際の語は、過剰概括の危険を最小限に抑えることができる文脈だけに置換を固定する。例えば、最初の最も単純な例に戻り、語formとの関係で一般的な構造変換パターンを確立することができる。
これは2通りに発展させることができる。まず、「form of employment」や「form of words」等、例外を導入する迅速で効率のよい方法を用意する必要がある。究極的には例外そのものを有効に投影できるように分類することも可能であろう。これには2通りのやり方があり、1つはブール演算子を使って概括化が適切でない文脈を指示するやり方であり、もう1つはマクロの中で顕著な例外をあらかじめ指定するやり方である。例外の数はトークンで多くタイプで少なくなることが見込まれるから、かかる例外は人間工学的に非効率的ではない。また、例外構築プロセスはシステムオプションを通じて幅広くカスタマイズできる。
2番目の発展形では変換で同様に扱われる語を導入する。例えば翻訳者は、語「form」の周辺で成立するパターンを「certificate」に、場合によっては「document」に、投影することを決めることができる。後者は、翻訳者が言語全体ではなく文書のレベルで翻訳を概括化することを指定する場合である。
本発明のいくつかの実施形態においては、ある特定の非統語論的形成異常を、実際にはそれに変更を加えたり変更を提供せずに、強調表示できる。これにより翻訳者の注意はそれらに集まり、機能の価値はテキストの全体的処理スピードに反比例して増加する。
これらの基礎的再構成装置の拡張は、例えば高度な技能を持つユーザに対し、オプションとして提供できる。ただしそれらはMT出力と後編集技術との関係の進化を実証するものであり、これは成熟した統計型MTの登場によってより顕著となるであろう。
本発明のいくつかの実施形態は、機械生成テキストやその他の翻訳テキストに固有の欠陥を取り除くさらなるツールとして後−後編集(PPE)文法・スタイルチェック機能を提供する。これは、出力テキストの最終通読として対話的に機能する。このモジュールは、ゲルマン語の主語−動詞の置き違え等、ヒト後編集者が見落とした明らかな語の配置替え及び/又は句の繰り返し、その他をピックアップする。文法チェックツールは、本発明から提供される他の機能と同様、後編集プロセス全体を条件付ける起点言語の識別にある程度従い、ヒト編集者の個々の要求に合わせて調整できる。
残された文法/構文上の誤りを除去することに加え、このエンジンはスタイル介入を提供することもできる。ここでもヒト後編集者は特定のパラメータを規定する(特に前置詞又は形容詞句の順序に関係するパラメータ)。これらのパラメータの違反にはフラグが付され、ヒト編集者にはデフォルト仕様への適合を取り戻すための一連の介入ツールが与えられる。この機能は既存のスタイルチェック技術を基礎とし、特定のMT後編集要求に合わせて改作できる。
文字列置換機能とパターン置換機能から生成されるマクロはプロファイルに格納できる。かくしてプロファイルはマクロを集めたものとなる。プロファイルはTMシステムの翻訳メモリに相当し、時間の経過にともない進化する。したがってプロファイルそのものが価値ある知的財産となる。プロファイルには2つの形が、すなわち文字列マクロのそれとパターンマクロのそれがある。いずれも基本的には同じ働きをするが、文字列マクロのほうが処理負荷が軽いから、文字列マクロのほうが格段に速い。好適な実施形態においては、これらのプロファイルを自由に組み合わせ、新規のテキストに対応するプロファイルを作ることさえできる。
本発明のいくつかの実施形態においては、言語認識モジュール(LRM)がプロファイルマネージャにとって重要な補足機能となる。これは原文(MTエンジンへ入力される前のものも含む)の言語を識別する。この場合は、言語に精通しないユーザでも最初に適当なMTエンジンを選択するか、又は機械翻訳に適用する設定を選択し、その後で適当なプロファイルを選択し出力を実行できるから便利である。これは例えば、中国語をまったく知らない人物が自身のシステムで2、3の設定を行うだけで叩き台となる文書の翻訳を作れることを意味する。
図8は、本発明の一実施形態におけるマクロプロファイルマネージャのスクリーンショットを示す。マクロプロファイルマネージャは、コントロール及び選択ボタンとマクロのリストを表示するリスト表示エリアとを含むウィンドウの中で実行される。プロファイル選択ボタンによって、ある特定のプロファイルにおけるマクロのリストが表示される。リストの中では、マクロ名とマクロの色分けを示すボックスとともに各マクロが提示される。ある特定のマクロでポインタをクリックすると、ポップアップマクロオプションメニューが現れる。この例では実行と、表示と、優先順位の変更と、名前の変更と、コピーと、移動と、削除と、閉じるためのオプションが提示されている。プロファイルの中でマクロやマクロの部分を検索する様々な検索オプションを提供することもでき、蓄積された資料を読者に向けて様々な角度から明快に表示できる。
プロファイルマネージャオプションは新規文書が開くときに、その文書に対して1つ以上のプロファイルを実行することをユーザに提案できる。これは、プロファイルの中の各マクロが大文字・小文字の区別、分割、及び形態に関する所定のパラメータに従って置換を要する状況を見つけ相応に置換することを意味する。
図9は、本発明の一実施形態におけるプロファイル実行マネージャのスクリーンショットを示す。第1のウィンドウはプロファイルのリストを提示し、この例のそれは「default profile」と、「dutch taxation」と、「firsthol」と、「tnt」と、「Germancompute」と、「germtaxleg」と、「septfrench」とを含む。この例では「Germancompute」プロファイルがあらかじめ選択され、強調表示されている。第2のウィンドウは、選択されたプロファイルの中で使用できるマクロのリストを提示する。各マクロにはカラーマーカーが対応しており、選択や選択の解除ができるようになっている。第3のウィンドウは、マクロを使って処理する文書のリストを提示する。第4のウィンドウは、選択されたプロファイルで選択したマクロのリストを提示する。プログレスバーは、選択されたマクロを実行するシステムの進捗状況を表示する。
このプロセスが完了した後にはメトリックが処理結果を提示し、選択されたプロファイルの適切性やテキストに対する残りの作業量をつかむのに役立つ。図10はプロファイル実行の詳細を示すスクリーンショットである。第1のウィンドウエリアは置換のリストをそれぞれの回数とともに提示する。これをもとに翻訳者は置換の回数が予想に反し、詳しい調査を要する状況をつかむことができるから、翻訳者にとって有益な情報である。置換を含む編集済みテキストは第2のウィンドウエリアで提示される。
そしてユーザは上述したツールを用いたテキスト編集に進むことができる。内容が類似する数通りの文書を翻訳する場合に、いくつかの類似するテキストを使って関連するプロファイルを構築したら、それ以降の後編集者の仕事は、文字列置換やパターン置換の余地が残っていない局所的変更に実質的に限定されるであろう。
プロファイルは当然、密接に関係する一連の文書でその最たる効果を発揮し、銀行/保険契約における債券発行目論見書や融資覚書はその好例である。ただしこのプロファイル管理機能では、マクロの再利用と組み換えを通じて新規の文書に最も役立つプロファイルを用意することができる。例えば、成熟したドイツ語通信セクタ用プロファイルと成熟したドイツ語銀行契約書用プロファイルがあると仮定する。そして今、ドイツ語の通信契約書を翻訳する必要があるとする。この場合は、2つのプロファイルから役に立つ見込みが高いマクロを選び、それらをドイツ語通信契約書専用の新たなプロファイルにまとめることができる。さらに重要なこととして、特定の顧客や特定のプロジェクトに合わせてプロファイルを作ることも可能である。既に用語は実行段階で自動的に指定されており、語彙の適用にあたって人的誤りの可能性はないから、用語の統一を図る上で非常に効果的である。図11は、マクロを別のプロファイルにコピーするためのユーザインターフェイスのスクリーンショットを示す。第1のウィンドウエリアはマクロのリストを提示し、この例ではあらかじめ3つのマクロが選択されている。第2のウィンドウエリアは編集後テキストを提示する。ポップアップウィンドウは、選択されたマクロのコピー先(すなわち他のマクロ)のリストを提示する。コピー手順を開始するユーザ指示を受け付けるため「copy」ボタンが用意されており、さらにコピープロセスを終了するため「close」ボタンが用意されている。これは1つの可能な実施形態に過ぎず、例えばプロファイルの管理にあたって異なるユーザインターフェイス機能及び/又はツールを使用するさらなる実施形態も可能である。
単純に両方のプロファイルを新規テキストで実行することも可能であり、多くの場合はこれが最良の方法であろう。しかし場合によっては、ある1つの文脈で役に立つマクロが別の文脈で実際に弊害をもたらすこともある。これは、文字列置換(Anlageの例)よりむしろパターン認識に広く当てはまる問題である。
プロファイルを「切り詰める」ことができればマクロのモジュール構造が活かされ、基礎的なプロファイルを自由に組み合わせながら新規テキストにとって最良の初期入力を用意できる。この機能はマクロに標識を付けるシステムによって確保できる。例えば色分けシステムを使用できる。マクロを作成するときには、ほかの場所で弊害をもたらす見込みが高いもの(赤)、弊害をもたらす可能性があるもの(黄)、無害なもの(緑)として、マクロをマークできる。以降の編集プロセスでは、この色分けをもとに弊害をもたらす可能性があるマクロ(又は容認し難いほど長い時間がかかる可能性があるマクロ)を簡単に削除できる。ユーザはプロファイルの発展にともない、後編集の仕事そのものがプロファイルを適切に選択し編集する作業に徐々に取って代わられ、生産性の点で明らかに有利であることに気づくであろう。好ましくはプロファイルの内容表示にあたって、色分けされた項目のサブグループ又はグループの一部又は全部を選択し、表示するように設定できる。
上述した言語認識機能は、既存のプロファイルにあるマクロを組み合わせて新しいプロファイルにまとめる作業に大いに役立てることができる。これにより、ある1つの外国語からのMT出力処理に由来するマクロと別の言語に由来するそれとの取り違えを保証できる。この安全レベルの向上によって、ヒト編集者はマクロの色分けに対する警戒策を緩めることができ、適切な言語の中でのマクロ利用を高めることができる。
翻訳者にとって、従来のTMシステムから本発明によるシステムへの移行にあたって、それまで蓄積された、場合によってはかなりの資産に相当する、翻訳メモリの利点を失う可能性は、1つの障壁となる可能性がある。本発明の実施形態ではこの問題を回避するため、好ましくは翻訳メモリをプロファイルへダイレクトにインポートできるようにする。翻訳メモリは、原文と訳文を(2つのテキストの書式、その他に関するある程度の量の追加情報とともに)集めたものである。本発明の実施形態において、マクロは原文と訳文の文字列ではなく、MT出力と訳文の文字列を相関させる。ただし、MT出力の文を原文に相関させることは造作ない(つまり、翻訳メモリに含まれた原文に対してMTエンジンを実行する)。新規文書の翻訳にあたって同じMTエンジンを使用するなら、繰り返し現れる文はピックアップされ、翻訳メモリシステムを使用する場合とまったく同じように置換される。よって、翻訳メモリにある異言語間文相関情報は、本発明の実施形態によるプロファイルへ自動的に容易く移すことができる。MTエンジンと後編集者とのインターオペラビリティを最適化するため、プロファイルからMTユーザ辞書にかけてダイレクトにマクロを送り込むことにより同様の利点を得ることができる。
要約すると、MTはようやく翻訳ツールの主流として確立されつつあり、統計型MTの登場により今後数年間はこの傾向が続くであろう。しかしMTとFHQT(完全に人間並みの翻訳)とのギャップはいつまで続くか分からない。これは古典的「ラストマイル」問題の一例である。MTシステムにとっては、(現在インターネットでよく利用されているように)人の手を借りずに、要旨をつかむことを目的としたテキストに近づけることのほうが容易く、完全に人間並みの品質に到達する最後の一歩というところでは今なお熟練翻訳者が必要とされる。TMや従来の直接的翻訳に比べてこのギャップはMTにとって今なお大きいため、MTの実用性は今なお支持されていない。OCR技術の着実な進歩もMTタイプの技術の改良を後押しする重要な材料である。
本発明の実施形態は、人間並みの品質を達成するためMT出力で効果的な局所介入を行う一連のツールを提供することにより、及び/又は文字列レベルと構文解析パターンレベルの両方で繰り返し出現する構造の効果的再利用を極大化することにより、このギャップの橋渡しとなる完璧な環境を提供する。
これは、MTとTMの最良の部分を組み合わせたものといえる。翻訳にあたって既に機械に備わる便利な部分は最大限利用する一方で、蓄積された繰り返しは従来のTMシステムより有効に活用できる。その結果、本発明の実施形態は密接に関連する一連のテキストの場合(TMの得意分野)でもTradosやその類似品を凌駕するほか、TMではまるで役に立たないどころか最初に文の一致を入力するという骨の折れる作業が要求される完全に「手つかずの」テキストの場合でも、(翻訳者にとってシステムが成熟した時点で)その翻訳に大きく貢献する。
本発明のいくつかの実施形態には、プロファイルを作っていくらでも再利用、再配備できるという大きな利点がある(ここでもTM翻訳メモリの限界を超越する)。プロファイルは進化し、プロファイルそのものが重要な資産となり、ソフトウェアそのものと併せて販売したり、オーダーメイド方式で委託製作できる。
本発明の好適な実施形態は、例えばMicrosoft Office形式をはじめとする既存の主要ファイルタイプの全てに適合する。本発明の実施形態は、スタンドアロンモードで単独で作動できるほか、MS Word等のテキスト編集アプリケーションでプラグインとして作動できる。後者の場合、Wordの編集機能の殆どはそのまま利用できる。本発明の実施形態はこれ以外のファイル形式でも、例えばMS Officeに含まれる他のファイル形式でも、様々なデスクトップパブリッシング環境やウェブ環境でも、利用できる。文書から文書にかけてマクロの形で保存される情報はどんな形式のファイルにでも等しく配備できる。本発明の実施形態は、MS Word以外のOffice形式文書でもMS Word形式の文書と同様の成果をもたらす。
上述した例は、例えば、英語、フランス語、ドイツ語、ロシア語、スペイン語、中国語、日本語、イタリア語等をはじめとするヒトの意志伝達言語の翻訳と後編集に関するものだが、本発明は、例えば、C++、Visual Basic、Java(登録商標)script、Java(登録商標)等をはじめとするコンピュータプログラミング言語の翻訳の後編集にも利用できる。例えば、プログラムのソースコードを第1の言語で記述したコンピュータプログラマが、例えば第1の言語より速く実行する、第1の言語より新しい、第1の言語より扱いやすいといった理由から、別の言語を使ってそのプログラムを改作することを望むことはありうる。この場合、上述した機能はどれでも使用又は改作でき、コンピュータプログラミング言語の自動翻訳に役立てることができる。かかる実施形態では、コンピュータプログラミング開発パッケージとの統合等、特別な機能を提供できる。いくつかの実施形態において、上記のタスクに専用のマクロを開発し、単独のアドオンとして提供できる。このソフトウェアは、自然言語の機械翻訳の後編集の場合とまったく同じ要領で既存又は将来の自動コンピュータ言語間翻訳システムを支援するのに役立てることもできる。
本発明の実施形態は、様々な種類の文書の形式変換に、又はバイナリファイル、符号化ファイル、その他のデータファイルからの可読テキスト抽出に、役立てることもできる。
これまで本発明を、現時点におけるこれの好適な実施形態の観点から説明してきたが、当業者にとって、特許請求の範囲によって規定される本発明の範囲から逸脱することなく様々な変更を好適な実施形態に施せることは明白であろう。
Claims (114)
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ここで前記コントローラは、前記テキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、前記句を、その構文プロパティ、又はその語彙プロパティ、又は両方の点で再構成又は修正するため、又は所定のユーザ指示を受けて前記テキストの別の部分へ移動するため、個々の句を自動的に選択する手段とを備える、
テキスト編集装置。 - 前記コントローラは、ユーザ指示又は格納済み修正手順に従って個々の単語列の語彙的内容を修正するように、且つ追加の単語列の修正にあたって前記ユーザ指示又は修正手順を再利用するように、構成され、ここで前記再利用は形態変化を含みうる、請求項1に記載のテキスト編集装置。
- 前記コントローラは、前記テキストの構文解析を遂行するように適応され、前記ユーザ入力手段は、前記構文解析に用いる構文単位の仕様についてユーザ指示を受け取るように構成される、請求項1に記載のテキスト編集装置。
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ここで前記コントローラは、句及び/又は句境界を識別する手段と、指定言語に固有の自動句配列ルールを実施する手段とを備える、
テキスト編集装置。 - 前記句配列ルールは、文脈固有ルールを備え、前記文脈固有ルールは、1つ以上の標識語又は標識表現基準に従って配備される、請求項4に記載のテキスト編集装置。
- 前記コントローラは、句タイプに従って前記ディスプレイ上に句の強調表示を提示するように構成される、先行する請求項のいずれかに記載のテキスト編集装置。
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ここで前記コントローラは、前記翻訳前及び翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、前記翻訳前テキストの第1の句に出現する語と前記翻訳済みテキストの対応しない第2の句に出現する対応する語とを識別する手段とを備える、
テキスト編集装置。 - 前記コントローラは、前記テキスト内の句パターンをテンプレート句パターンに比較するように、且つ差異にフラグを付すように、構成される、請求項7に記載のテキスト編集装置。
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ここで前記コントローラは、ユーザ指導ドラッグ・アンド・ドロップ編集を可能にするように、且つ文における前記テキストの新規位置に応じて編集済みテキストの大文字・小文字及び/又は句読点を自動的に修正するように、構成され、これは空白の適切な処置を含みうる、テキスト編集装置。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ここで前記コントローラは、句を識別するように、且つ個々の句の中の語について数、大文字・小文字、及び/又は性の一致を検証するように、構成される、
テキスト編集装置。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、前記第1の言語ではなく前記第2の言語に固有の文法構造を前記翻訳済みテキストにて自動的に生成する手段を備える、
テキスト編集装置。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、前記第2の言語ではなく前記第1の言語に固有の文法構造を前記翻訳済みテキストから自動的に除去する手段を備える、
テキスト編集装置。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、ユーザ編集の完了を指示するため入力の受け取り後に実施される文法及びスタイル調整のための自動手段を備える、
テキスト編集装置。 - 前記文法及びスタイル調整のための自動手段は、文法又はスタイルの調整にあたってスタイルプロファイルを使用するように構成され、前記スタイルプロファイルはユーザによる選択が可能である、請求項13に記載のテキスト編集装置。
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、前記コントローラは、複数のテキスト編集手順を格納し、且つ前記手順のリストを編纂し、且つ別の入力テキストに使用するため保存する手段を備える、
テキスト編集装置。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御するように適応されたコントローラとを備え、前記コントローラは、テキスト編集手順を格納、蓄積、編集、及び併合する手段と、格納された前記テキスト編集手順を複数のユーザで共用する手段とを備える、
テキスト編集装置。 - 前記コントローラは、選択された正字法を翻訳済みテキストに適用するため自動編集プロセスを選択し且つ実施するように構成される、先行する請求項のいずれかに記載のテキスト編集装置。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理するコンピュータ装置であって、前記装置は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットを格納する情報格納手段と、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
受け取ったユーザ指示に基づき前記第1のセットを編集するテキストデータ制御手段と、
表示データを生成するように作用する表示データ生成手段とを備え、前記表示データは、表示媒体上で第1及び第2の表示エリアを規定するように作用し、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記第1の言語からの翻訳より前の前記テキストを備えるか、又は前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、ここで前記表示データ生成手段はさらに、前記表示データに区別情報を含めるように作用し、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する、
装置。 - 前記表示データ生成手段は、前記翻訳前テキスト及びユーザ編集前翻訳済みテキストの他方を第3の表示エリアに表示するように、且つ前記第1の表示エリアで選択された前記テキストの前記部分に対応する前記テキストの部分を前記第3の表示エリアで強調表示するように、作用する、請求項18に記載の装置。
- 前記表示データ生成手段は、最初の翻訳前テキストと誤りが訂正された翻訳前テキストのいずれか一方又は両方を、それぞれ前記第2及び第3の表示エリアに、又は追加の表示エリアに、表示するように作用する、請求項18又は請求項19に記載の装置。
- 前記表示データ生成手段は、前記テキストの個々の部分をサブセンテンスレベルで強調表示するように作用する、先行する請求項のいずれかに記載の装置。
- 前記表示データ生成手段は、前記第1のウィンドウにて前記テキストの第1の句を強調表示し、且つ前記第2のウィンドウにて前記テキストの対応する第2の句を強調表示し、且つ強調表示された前記テキストの翻訳に相当する1つ以上の追加の語を強調表示するように作用し、ここで前記追加の語は、前記第1又は第2の強調表示された句に対し異なる句内に位置する、請求項21に記載の装置。
- 前記翻訳前テキスト及び/又は翻訳後テキストの言語を識別し、且つ前記翻訳済みテキストの後編集のため後編集プロセスを自動的に選択するにあたって、及び/又は後編集プロセスの選択を検証するにあたって、前記言語識別を使用する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 少なくとも第1の言語から、第2の言語、第3の言語へ前記テキストを翻訳するのに使用する翻訳言語の順序を識別し、且つ後編集プロセスの選択にあたって、又は後編集プロセスの選択の検証にあたって、前記順序を使用する手段をさらに備える、請求項23に記載の装置。
- 前記テキストの入力元タイプを識別することにより、そして前記入力元タイプに従って訂正プロセスを選択することにより、前記翻訳前テキストで誤りを訂正する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 誤りを訂正する前記手段は、前記翻訳前テキストの入力元タイプに従って翻訳前訂正を実施するように構成される、請求項25に記載の装置。
- 誤りを訂正する前記手段は、前記翻訳済みテキストの入力元タイプに従って翻訳後訂正を実施するように構成される、請求項25又は請求項26に記載の装置。
- 誤りを訂正する前記手段は、光学式文字認識(OCR)、音声ディクテーション、又はキーボードのいずれか1つとしての前記入力元タイプの識別をもとに1つ以上の処理ルールを選択するように構成される、請求項25から27のいずれか一項に記載の装置。
- 誤りを訂正する前記手段は、統計解析を用いて前記テキストの前記入力元タイプを識別するように構成される、請求項26から28のいずれか一項に記載の装置。
- 選択された正字法を翻訳済みテキストに適用するため自動編集プロセスを選択し且つ実施する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 数字及び/又は日付の書式設定のため選択された自動編集プロセスを実施する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 前記テキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、所定のユーザ指示を受けて前記句を前記テキストの別の部分へ移動するため、個々の句を自動的に選択する手段とをさらに備える、先行する請求項のいずれかに記載の装置。
- 句及び/又は句境界を識別する手段と、指定言語に固有の自動句配列ルールを実施する手段とをさらに備える、先行する請求項のいずれかに記載の装置。
- 識別された前記句の句タイプによる分類により構文モデルを構築する手段をさらに備える、請求項33に記載の装置。
- 前記句タイプを指示するため識別された前記句にフラグを付す手段をさらに備える、請求項34に記載の装置。
- 前記句タイプに従い前記ディスプレイ上で句の強調表示を提示することをさらに備える、請求項34又は請求項35に記載の装置。
- 前記翻訳前及び翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出手段と、前記翻訳前テキストの第1の句に出現する語と前記翻訳済みテキストの対応しない第2の句に出現する対応する語とを識別する手段とをさらに備える、先行する請求項のいずれかに記載の装置。
- ユーザ指導ドラッグ・アンド・ドロップ編集を可能にする手段と、文における前記テキストの新規位置に応じて編集済みテキストの大文字・小文字及び/又は句読点を自動的に修正する手段とをさらに備える、先行する請求項のいずれかに記載の装置。
- 句を識別し、且つ個々の句の中の語について数、大文字・小文字、及び/又は性の一致を検証する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 選択された句又は語の置換にあたって複数のオプションをユーザに提供するためオートテキスト機能を実施する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 前記オートテキスト機能は、複数の代替訳がある語の場合に提供される、請求項40に記載の装置。
- 前記オートテキスト機能は、ユーザがユーザインターフェイスを使って選択された語の前記オプションを巡回することを可能にするように構成される、請求項40又は請求項41に記載の装置。
- オートテキスト機能は、ユーザが前記オプションを事前に定義することを可能にするためユーザによるカスタマイズが可能である、請求項40から42のいずれか一項に記載の装置。
- オートテキスト機能は、前記オプションを外部から入手するように構成される、請求項40から43のいずれか一項に記載の装置。
- 選択された自動編集プロセスを複数の文書に適用する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 複数の意味を持つ訳語を識別する手段と、代替意味の置換をユーザに選択させるため提供する手段とをさらに備える、先行する請求項のいずれかに記載の装置。
- 第1の言語にはなく第2の言語にはある文法構造を前記翻訳済みテキストから自動的に挿入する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 第2の言語にはなく第1の言語にはある文法構造を前記翻訳済みテキストから自動的に削除する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 文字列置換機能を曖昧一致とともに実施する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 構文解析パターン認識・置換機能を実施する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- ユーザ編集の完了を指示するため入力の受け取り後に文法及びスタイルを自動的に調整する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 複数のテキスト編集手順を格納し、且つ前記手順のリストを編纂し、且つ別の入力テキストに使用するため保存する手段をさらに備える、先行する請求項のいずれかに記載の装置。
- 翻訳済みテキストの後編集のためのルール一式を備えるプロファイルを管理するプロファイル管理システム。
- 請求項52に従い複数のルールを備えるプロファイルに相当するコンピュータ可読コードを保持する信号又は保持媒体。
- 前記ルールは、ある種のテキスト又は言語において使用するための適切性に従って各々分類される、請求項54に記載の信号又は保持媒体。
- 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集するテキスト編集装置であって、前記装置は、
テキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力受け取り部と、
少なくとも1つのディスプレイと、
第1の表示エリアでユーザによる編集が可能な翻訳済みテキストを提示するため、そして第2の表示エリアで翻訳前テキスト又はユーザ編集前翻訳済みテキストのいずれか一方を表示するため、ディスプレイを制御するように適応されたコントローラとを備え、
ここで前記コントローラは、前記第1の表示エリアにて前記テキストの選択部分を強調表示し、前記第2の表示エリアにて前記テキストの対応する部分を強調表示し、且つ前記ユーザ入力受け取り部を通じて新たなテキスト選択を得る場合に前記強調表示を更新するように構成される、
テキスト編集装置。 - コンピュータ生成テキストを表す情報を管理するコンピュータ装置であって、前記装置は、
前記コンピュータ生成テキストを表す第1の情報セットを格納する情報格納手段と、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取るユーザ入力手段と、
受け取ったユーザ指示に基づき前記第1のセットを編集するテキストデータ制御手段と、
表示データを生成するように作用する表示データ生成手段とを備え、前記表示データは、表示媒体上で第1及び第2の表示エリアを規定するように作用し、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、ここで前記表示データ生成手段はさらに、前記表示データに区別情報を含めるように作用し、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する、
装置。 - 請求項1から53、請求項56、又は請求項57のいずれか一項に記載の前記装置としてのコンピュータを構成するコンピュータ可読コードを保持する信号又は保持媒体。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットを格納することと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
受け取ったユーザ指示に基づき前記第1のセットを編集することと、
表示媒体上で第1及び第2の表示エリアを規定する表示データを生成することとを備え、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記第1の言語からの翻訳より前の前記テキストを備えるか、又は前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、ここで表示データを前記生成することは、前記表示データに区別情報を含めることを含み、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する、
方法。 - 前記表示媒体上で第3の表示エリアを規定する表示データを生成することをさらに備え、前記第3の表示エリアは、第3の情報セットに対応する第3のテキスト情報を収容し、前記第3の情報セットは、前記第1の言語からの翻訳より前の前記テキストを備えるか、又は前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、ここで表示データを前記生成することは、前記表示データに区別情報を含めることを備え、前記区別情報は、前記第1のテキスト情報の前記部分に対応する前記第3のテキスト情報の部分を、前記第3のテキストのそれぞれの残りの部分から視覚的に区別するように作用する、請求項59に記載の方法。
- 表示データを前記生成することは、最初の翻訳前テキストと誤りが訂正された翻訳前テキストのいずれか一方又は両方を、それぞれ前記第2又は第3の表示エリアに、又は追加の表示エリアに、表示するため表示データを生成することをさらに備える、請求項59又は請求項60に記載の方法。
- 前記区別情報は、前記テキストの個々の部分をサブセンテンスレベルで区別する、請求項59から61のいずれか一項に記載の方法。
- 前記区別情報は、前記第1のウィンドウにて前記テキストの第1の句を区別し、且つ前記第2のウィンドウにて前記テキストの対応する第2の句を区別し、且つ区別された前記テキストの翻訳に相当する1つ以上の追加の語を区別し、ここで前記追加の語は、前記第1又は第2の区別された句に対し異なる句内に位置する、請求項62に記載の方法。
- 前記翻訳前テキスト及び/又は翻訳後テキストの言語を識別することと、前記翻訳済みテキストの後編集にあたって後編集プロセスを自動的に選択するため、及び/又は後編集プロセスの選択を検証するため、前記言語識別を使用することとをさらに備える、請求項59から63のいずれか一項に記載の方法。
- 少なくとも第1の言語から、第2の言語、第3の言語へ前記テキストを翻訳するのに使用する翻訳言語の順序を識別することと、後編集プロセスの選択にあたって、又は後編集プロセスの選択の検証にあたって、前記順序を使用することとをさらに備える、請求項64に記載の方法。
- 前記テキストの入力元タイプを識別することにより、そして前記入力元タイプに従って訂正プロセスを選択することにより、前記翻訳前テキストで誤りを訂正することをさらに備える、請求項59から65のいずれか一項に記載の方法。
- 前記翻訳前テキストの入力元タイプに従って翻訳前訂正を実施することをさらに備える、請求項66に記載の方法。
- 前記翻訳済みテキストの入力元タイプに従って翻訳後訂正を実施することをさらに備える、請求項66又は請求項67に記載の方法。
- 光学式文字認識(OCR)、音声ディクテーション、又はキーボードのいずれか1つとしての前記入力元タイプの識別をもとに1つ以上の処理ルールを選択することをさらに備える、請求項66から68のいずれか一項に記載の方法。
- 統計解析を用いて前記テキストの前記入力元タイプを識別することをさらに備える、請求項67から69のいずれか一項に記載の方法。
- 選択された正字法を翻訳済みテキストに適用するため自動編集プロセスを選択することと、実施することとをさらに備える、請求項59から70のいずれか一項に記載の方法。
- 数字及び/又は日付の書式設定のため選択された自動編集プロセスを実施することをさらに備える、請求項59から71のいずれか一項に記載の方法。
- 前記テキストの中で句及び/又は句境界を自動的に識別するパターン検出と、所定のユーザ指示を受けて前記句を前記テキストの別の部分へ移動するため、個々の句の自動選択とを、実施することをさらに備える、請求項59から72のいずれか一項に記載の方法。
- 句及び/又は句境界を識別することと、指定言語に固有の自動句配列ルールを実施することとをさらに備える、請求項59から73のいずれか一項に記載の方法。
- 識別された前記句の句タイプによる分類により構文モデルを構築することをさらに備える、請求項74に記載の方法。
- 前記句タイプを指示するため識別された前記句にフラグを付すことをさらに備える、請求項75に記載の方法。
- 前記句タイプに従って句を区別するため区別情報を生成することと、前記区別情報を前記表示データに含めることとをさらに備える、請求項75又は請求項76に記載の方法。
- 前記翻訳前テキスト及び翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出と、前記翻訳前テキストの第1の句に出現する語と前記翻訳済みテキストの対応しない第2の句に出現する対応する語との識別とをさらに備える、請求項59から77のいずれか一項に記載の方法。
- ユーザ指導ドラッグ・アンド・ドロップ編集を可能にすることと、文における前記テキストの新規位置に応じて編集済みテキストの大文字・小文字及び/又は句読点を自動的に修正することとをさらに備える、請求項59から78のいずれか一項に記載の方法。
- 句を識別することと、個々の句の中の語について数、大文字・小文字、及び/又は性の一致を検証することとをさらに備える、請求項59から79のいずれか一項に記載の方法。
- 選択された句又は語の置換にあたって複数のオプションをユーザに提供するためオートテキスト機能を実施することをさらに備える、請求項59から80のいずれか一項に記載の方法。
- 前記オートテキスト機能は、複数の代替訳がある語の場合に提供される、請求項81に記載の方法。
- 前記オートテキスト機能は、ユーザ指示を受けて選択された語の前記オプションのユーザ制御巡回を可能にする、請求項81又は請求項82に記載の方法。
- オートテキスト機能は、ユーザが前記オプションを事前に定義することを可能にするためユーザによるカスタマイズが可能である、請求項81から83のいずれか一項に記載の方法。
- オートテキスト機能は、前記オプションを外部から入手するように構成される、請求項81から84のいずれか一項に記載の方法。
- 選択された自動編集プロセスを複数の文書に適用することをさらに備える、請求項59から85のいずれか一項に記載の方法。
- 複数の意味を持つ訳語を識別することと、代替意味の置換をユーザに選択させるため提供することとをさらに備える、請求項59から86のいずれか一項に記載の方法。
- 第1の言語にはなく第2の言語にはある文法構造を翻訳済みテキストから自動的に挿入することをさらに備える、請求項59から87のいずれか一項に記載の方法。
- 第2の言語にはなく第1の言語にはある文法構造を翻訳済みテキストから自動的に削除することをさらに備える、請求項59から88のいずれか一項に記載の方法。
- 文字列置換機能を曖昧一致とともに実施することをさらに備える、請求項59から89のいずれか一項に記載の方法。
- 構文解析パターン認識及び置換機能を実施することをさらに備える、請求項59から90のいずれか一項に記載の方法。
- ユーザ編集の完了を指示するため入力の受け取り後に自動文法及びスタイル調整プロセスを実施することをさらに備える、請求項59から91のいずれか一項に記載の方法。
- 複数のテキスト編集手順を格納することと、且つ前記手順のリストを編纂することと、別の入力テキストに使用するため保存することとをさらに備える、請求項59から52のいずれか一項に記載の方法。
- 翻訳済みテキストの後編集のためのルール一式を備えるプロファイルを管理するプロファイル管理方法であって、前記方法は、ユーザが選択されたプロファイルに盛り込むルールを選択するためのユーザインターフェイスを提供することを備える、
方法。 - 少なくとも第1の言語から第2の言語へ翻訳されるテキストを編集する方法であって、前記方法は、
テキストの選択及び/又は編集のためユーザ指示を受け取ることと、
第1の表示エリアでユーザによる編集が可能な翻訳済みテキストを提示するため表示媒体を制御し、第2の表示エリアで翻訳前テキスト又はユーザ編集前の翻訳済みテキストを表示する、制御信号を生成することと、
前記第1の表示エリアで前記テキストの選択部分を強調表示することと、
前記第2の表示エリアで前記テキストの対応する部分を強調表示することと、
前記ユーザ入力手段を通じて新たなテキスト選択を得る場合に前記強調表示を更新することとを備える、
方法。 - コンピュータ生成テキストを表す情報を管理する方法であって、前記方法は、
前記コンピュータ生成テキストを表す第1の情報セットを格納することと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
受け取ったユーザ指示に基づき前記第1のセットを編集することと、
表示データを生成することとを備え、前記表示データは、表示媒体上で第1及び第2の表示エリアを規定するように作用し、前記第1の表示エリアは、前記テキストデータ制御手段の制御下で前記第1の情報セットに対応する第1のテキスト情報を収容し、前記第2の表示エリアは、第2の情報セットに対応する第2のテキスト情報を収容し、前記第2の情報セットは、前記テキストデータ制御手段による編集より前の前記第1のセットに一致し、
ここで前記表示データ生成手段はさらに、前記表示データに区別情報を含めるように作用し、前記区別情報は、前記第1のテキスト情報の一部分と前記第2のテキスト情報の対応する部分とを前記第1及び第2のテキストのそれぞれの残りの部分から視覚的に区別するように作用する、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
前記翻訳前及び/又は翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出と、前記句を、その構文プロパティ、又はその語彙プロパティ、又は両方の点で再構成又は修正するため、又は所定のユーザ指示を受けて前記テキストの別の部分へ移動するため、個々の句の自動選択とを遂行することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - ユーザ指示又は格納済み修正手順に従って個々の単語列の語彙的内容を修正することと、追加の単語列の修正にあたって前記ユーザ指示又は修正手順を再利用することとをさらに備え、ここで前記再利用は形態変化を含みうる、請求項97に記載の方法。
- 構文解析に用いる構文単位の仕様についてユーザ指示を受け取ることと、前記テキストの前記構文解析を遂行することとをさらに備える、請求項97に記載の方法。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
句及び/又は句境界を識別することと、指定言語に固有の自動句配列ルールを実施することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 前記句配列ルールは、文脈固有ルールを備え、前記文脈固有ルールは、1つ以上の標識語又は標識表現基準に従って配備される、請求項100に記載の方法。
- 前記句タイプに従って前記ディスプレイ上に句の強調表示を提示することをさらに備える、請求項97から101のいずれか一項に記載の方法。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
前記翻訳前及び翻訳済みテキストの中で句及び/又は句境界を自動的に識別するパターン検出と、前記翻訳前テキストの第1の句に出現する語と前記翻訳済みテキストの対応しない第2の句に出現する対応する語との識別とを遂行することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 前記テキスト内の句パターンをテンプレート句パターンに比較することと、差異にフラグを付すこととをさらに備える、請求項103に記載の方法。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
ユーザ指導ドラッグ・アンド・ドロップ編集を可能にすることと、文における前記テキストの新規位置に応じて編集済みテキストの大文字・小文字及び/又は句読点を自動的に修正することであって、空白の適切な処置を含みうることと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
句を識別することと、個々の句の中の語について数、大文字・小文字、及び/又は性の一致を検証することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
前記第1の言語ではなく前記第2の言語に固有の文法構造を前記翻訳済みテキストにて自動的に生成することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
第2の言語ではなく第1の言語に固有の文法構造を前記翻訳済みテキストから自動的に除去することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
ユーザ編集の完了を指示するため入力の受け取り後に文法及びスタイルを自動的に調整することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 文法及びスタイルを前記自動的に調整することは、文法又はスタイルの調整にあたってスタイルプロファイルを使用し、前記スタイルプロファイルはユーザによる選択が可能である、請求項109に記載の方法。
- 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
複数のテキスト編集手順を格納することと、前記手順のリストを編纂することと、別の入力テキストに使用するため保存することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 第1の言語から第2の言語へ翻訳されるテキストを表す情報を管理する方法であって、前記方法は、
第1の言語から第2の言語へ翻訳されるテキストを表す第1の情報セットにアクセスすることと、
前記第1の情報セットで表されるテキストの選択及び/又は編集のためユーザ指示を受け取ることと、
テキスト編集手順を格納、蓄積、編集、及び併合することと、格納済みの前記テキスト編集手順を複数のユーザで共用することと、
ユーザによる編集が可能な翻訳済みテキストを提示するためディスプレイを制御する表示データを生成することとを備える、
方法。 - 選択された正字法を翻訳済みテキストに適用するため自動編集プロセスを選択することと、実施することとをさらに備える、請求項97から112のいずれか一項に記載の方法。
- 請求項59から113のいずれか一項に記載の方法を遂行するためのコンピュータ可読コードを保持する信号又は保持媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0525657A GB2433403B (en) | 2005-12-16 | 2005-12-16 | A text editing apparatus and method |
PCT/GB2006/004735 WO2007068960A2 (en) | 2005-12-16 | 2006-12-18 | A text editing apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009519534A true JP2009519534A (ja) | 2009-05-14 |
Family
ID=35736280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008545101A Pending JP2009519534A (ja) | 2005-12-16 | 2006-12-18 | テキスト編集装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090076792A1 (ja) |
EP (1) | EP1969490A2 (ja) |
JP (1) | JP2009519534A (ja) |
CN (1) | CN101361064A (ja) |
GB (1) | GB2433403B (ja) |
WO (1) | WO2007068960A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130112654A (ko) * | 2012-04-04 | 2013-10-14 | 한국전자통신연구원 | 통역 장치 및 방법 |
US9189476B2 (en) | 2012-04-04 | 2015-11-17 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated |
KR20200010927A (ko) * | 2018-07-23 | 2020-01-31 | 정희정 | 배리어프리 오페라 제작시스템 및 방법 |
Families Citing this family (273)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4718687B2 (ja) | 1999-03-19 | 2011-07-06 | トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング | ワークフロー管理システム |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
AU2003269808A1 (en) * | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US8600728B2 (en) * | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US8676563B2 (en) * | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
CN101346716A (zh) | 2005-12-22 | 2009-01-14 | 国际商业机器公司 | 通过利用查找和替换输入的派生的查找和替换功能来编辑文本的方法和系统 |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US8972268B2 (en) | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US9128926B2 (en) * | 2006-10-26 | 2015-09-08 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US7877251B2 (en) * | 2007-05-07 | 2011-01-25 | Microsoft Corporation | Document translation system |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
FR2918476B1 (fr) * | 2007-07-02 | 2012-08-03 | Experts Enlargement Quality Exeq | Controle de conformite de donnees. |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8794972B2 (en) | 2008-08-07 | 2014-08-05 | Lynn M. LoPucki | System and method for enhancing comprehension and readability of legal text |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8635539B2 (en) * | 2008-10-31 | 2014-01-21 | Microsoft Corporation | Web-based language translation memory compilation and application |
US20100125446A1 (en) * | 2008-11-20 | 2010-05-20 | Wathen Dana L | Method for modifying document in data processing device |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8326637B2 (en) * | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9002700B2 (en) | 2010-05-13 | 2015-04-07 | Grammarly, Inc. | Systems and methods for advanced grammar checking |
US8560297B2 (en) * | 2010-06-07 | 2013-10-15 | Microsoft Corporation | Locating parallel word sequences in electronic documents |
KR20120048140A (ko) * | 2010-11-05 | 2012-05-15 | 한국전자통신연구원 | 자동 번역 장치 및 그 방법 |
US9710429B1 (en) * | 2010-11-12 | 2017-07-18 | Google Inc. | Providing text resources updated with translation input from multiple users |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8706472B2 (en) * | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US9245253B2 (en) * | 2011-08-19 | 2016-01-26 | Disney Enterprises, Inc. | Soft-sending chat messages |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
CN102999483B (zh) * | 2011-09-16 | 2016-04-27 | 北京百度网讯科技有限公司 | 一种文本矫正的方法和装置 |
US8886515B2 (en) * | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
JP5764039B2 (ja) * | 2011-10-25 | 2015-08-12 | 株式会社沖データ | 情報処理装置、画像形成装置、プログラム、情報処理システム、及び、情報処理方法 |
US9323746B2 (en) * | 2011-12-06 | 2016-04-26 | At&T Intellectual Property I, L.P. | System and method for collaborative language translation |
US9613026B2 (en) | 2011-12-28 | 2017-04-04 | Bloomberg Finance L.P. | System and method for interactive automatic translation |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9122673B2 (en) * | 2012-03-07 | 2015-09-01 | International Business Machines Corporation | Domain specific natural language normalization |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9898449B1 (en) * | 2012-04-06 | 2018-02-20 | Cdw Llc | System and method for automatically replacing information in a plurality electronic documents |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9183198B2 (en) * | 2013-03-19 | 2015-11-10 | International Business Machines Corporation | Customizable and low-latency interactive computer-aided translation |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9613021B2 (en) | 2013-06-13 | 2017-04-04 | Red Hat, Inc. | Style-based spellchecker tool |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10496276B2 (en) | 2013-09-24 | 2019-12-03 | Microsoft Technology Licensing, Llc | Quick tasks for on-screen keyboards |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US20150104763A1 (en) * | 2013-10-15 | 2015-04-16 | Apollo Group, Inc. | Teaching students to recognize and correct sentence fragments |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN104714933B (zh) * | 2013-12-12 | 2018-01-05 | 鸿合科技有限公司 | 一种文档编辑的处理方法和装置 |
US9507520B2 (en) * | 2013-12-16 | 2016-11-29 | Microsoft Technology Licensing, Llc | Touch-based reorganization of page element |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
CN113761848A (zh) * | 2014-07-25 | 2021-12-07 | 北京三星通信技术研究有限公司 | 文本编辑方法和装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106648345A (zh) * | 2015-11-04 | 2017-05-10 | 腾讯科技(深圳)有限公司 | 一种数据文本修改方法、终端及系统 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10303777B2 (en) * | 2016-08-08 | 2019-05-28 | Netflix, Inc. | Localization platform that leverages previously translated content |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
CN108255887B (zh) * | 2016-12-29 | 2020-07-31 | 北京国双科技有限公司 | 校验行业文本的方法和装置 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10176889B2 (en) | 2017-02-09 | 2019-01-08 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
US10169325B2 (en) | 2017-02-09 | 2019-01-01 | International Business Machines Corporation | Segmenting and interpreting a document, and relocating document fragments to corresponding sections |
CN107066455B (zh) * | 2017-03-30 | 2020-07-28 | 唐亮 | 一种多语言智能预处理实时统计机器翻译系统 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
JP6888410B2 (ja) | 2017-05-15 | 2021-06-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107526730B (zh) * | 2017-08-29 | 2022-03-25 | 惠州Tcl移动通信有限公司 | 一种翻译数据的管理方法、存储介质及电子设备 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US20190121860A1 (en) * | 2017-10-20 | 2019-04-25 | AK Innovations, LLC, a Texas corporation | Conference And Call Center Speech To Text Machine Translation Engine |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10846466B2 (en) | 2017-11-22 | 2020-11-24 | Adobe Inc. | Digital document update using static and transient tags |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
JP6885319B2 (ja) * | 2017-12-15 | 2021-06-16 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
WO2019140268A1 (en) * | 2018-01-12 | 2019-07-18 | ATeam Technologies Inc. | Assessment system and method |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10489498B2 (en) * | 2018-02-14 | 2019-11-26 | Adobe Inc. | Digital document update |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10713424B2 (en) * | 2018-04-10 | 2020-07-14 | Microsoft Technology Licensing, Llc | Automated document content modification |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US11194958B2 (en) | 2018-09-06 | 2021-12-07 | Adobe Inc. | Fact replacement and style consistency tool |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
CN109492208B (zh) * | 2018-10-12 | 2023-06-23 | 天津字节跳动科技有限公司 | 文档编辑方法及其装置、设备、存储介质 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109753644B (zh) * | 2018-12-26 | 2023-11-28 | 百度在线网络技术(北京)有限公司 | 一种富文本编辑方法、装置、移动终端及存储介质 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110162756A (zh) * | 2019-04-18 | 2019-08-23 | 宫辉 | 一种自动修正文本信息的方法和系统 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110287493B (zh) * | 2019-06-28 | 2023-04-18 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
US11295092B2 (en) * | 2019-07-15 | 2022-04-05 | Google Llc | Automatic post-editing model for neural machine translation |
AU2020326435B2 (en) | 2019-08-05 | 2023-09-28 | Ai21 Labs | Systems and methods of controllable natural language generation |
CN110633461B (zh) * | 2019-09-10 | 2024-01-16 | 北京百度网讯科技有限公司 | 文档检测处理方法、装置、电子设备和存储介质 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP7289923B2 (ja) * | 2019-09-27 | 2023-06-12 | 富士フイルム株式会社 | 診療支援装置 |
CN110795910B (zh) * | 2019-10-10 | 2023-10-17 | 北京字节跳动网络技术有限公司 | 一种文本信息处理方法、装置、服务器及存储介质 |
CN111339788B (zh) * | 2020-02-18 | 2023-09-15 | 北京字节跳动网络技术有限公司 | 交互式机器翻译方法、装置、设备和介质 |
CN111462742B (zh) * | 2020-03-05 | 2023-10-20 | 北京声智科技有限公司 | 基于语音的文本显示方法、装置、电子设备及存储介质 |
CN111666776B (zh) | 2020-06-23 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 文档翻译方法和装置、存储介质和电子设备 |
CN112100063B (zh) * | 2020-08-31 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 界面语言的显示测试方法、装置、计算机设备和存储介质 |
CN112417898A (zh) * | 2020-11-24 | 2021-02-26 | 掌阅科技股份有限公司 | 基于关键词提示的文本翻译方法、计算设备及存储介质 |
WO2022146910A1 (en) * | 2021-01-04 | 2022-07-07 | Blackboiler, Inc. | Editing parameters |
CN113377276A (zh) * | 2021-05-19 | 2021-09-10 | 深圳云译科技有限公司 | 速录转译的系统、方法、装置、电子设备以及存储介质 |
CN113761865A (zh) * | 2021-08-30 | 2021-12-07 | 北京字跳网络技术有限公司 | 声文重对齐及信息呈现方法、装置、电子设备和存储介质 |
KR102494927B1 (ko) * | 2022-02-24 | 2023-02-06 | 리서치팩토리 주식회사 | 논문 형식 자동 변환 시스템 및 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58101365A (ja) * | 1981-12-14 | 1983-06-16 | Hitachi Ltd | 機械翻訳システム |
JPH0664585B2 (ja) * | 1984-12-25 | 1994-08-22 | 株式会社東芝 | 翻訳編集装置 |
GB2208730B (en) * | 1985-05-14 | 1989-10-25 | Sharp Kk | A translating apparatus |
JPS63106866A (ja) * | 1986-10-24 | 1988-05-11 | Toshiba Corp | 機械翻訳装置 |
IT1315160B1 (it) * | 2000-12-28 | 2003-02-03 | Agostini Organizzazione Srl D | Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori. |
US20030004702A1 (en) * | 2001-06-29 | 2003-01-02 | Dan Higinbotham | Partial sentence translation memory program |
US20030236658A1 (en) * | 2002-06-24 | 2003-12-25 | Lloyd Yam | System, method and computer program product for translating information |
US7620541B2 (en) * | 2004-05-28 | 2009-11-17 | Microsoft Corporation | Critiquing clitic pronoun ordering in french |
JP2007233486A (ja) * | 2006-02-27 | 2007-09-13 | Fujitsu Ltd | 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法 |
-
2005
- 2005-12-16 GB GB0525657A patent/GB2433403B/en not_active Expired - Fee Related
-
2006
- 2006-12-18 WO PCT/GB2006/004735 patent/WO2007068960A2/en active Application Filing
- 2006-12-18 EP EP06820558A patent/EP1969490A2/en not_active Withdrawn
- 2006-12-18 JP JP2008545101A patent/JP2009519534A/ja active Pending
- 2006-12-18 CN CNA2006800512018A patent/CN101361064A/zh active Pending
-
2008
- 2008-06-16 US US12/140,057 patent/US20090076792A1/en not_active Abandoned
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130112654A (ko) * | 2012-04-04 | 2013-10-14 | 한국전자통신연구원 | 통역 장치 및 방법 |
US9189476B2 (en) | 2012-04-04 | 2015-11-17 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof for helping a user to more easily input a sentence to be translated |
KR101626109B1 (ko) * | 2012-04-04 | 2016-06-13 | 한국전자통신연구원 | 통역 장치 및 방법 |
KR20200010927A (ko) * | 2018-07-23 | 2020-01-31 | 정희정 | 배리어프리 오페라 제작시스템 및 방법 |
KR102096529B1 (ko) * | 2018-07-23 | 2020-05-27 | 정희정 | 배리어프리 오페라 제작시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20090076792A1 (en) | 2009-03-19 |
CN101361064A (zh) | 2009-02-04 |
GB0525657D0 (en) | 2006-01-25 |
EP1969490A2 (en) | 2008-09-17 |
WO2007068960A2 (en) | 2007-06-21 |
GB2433403A (en) | 2007-06-20 |
GB2433403B (en) | 2009-06-24 |
WO2007068960A3 (en) | 2008-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009519534A (ja) | テキスト編集装置及び方法 | |
US8972240B2 (en) | User-modifiable word lattice display for editing documents and search queries | |
TWI496012B (zh) | 管理電子形式之中文、日文及韓文語言資料的模組系統與方法 | |
KR100650427B1 (ko) | 자연어 인식 애플리케이션 구축을 위한 통합 개발 툴 | |
Miłkowski | Developing an open‐source, rule‐based proofreading tool | |
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
US20030101044A1 (en) | Word, expression, and sentence translation management tool | |
US20200233847A1 (en) | Incremental dynamic document index generation | |
WO2001082111A2 (en) | Computer-aided reading system and method with cross-language reading wizard | |
Ofazer et al. | Bootstrapping morphological analyzers by combining human elicitation and machine learning | |
Paumier et al. | Unitex 3.3 User Manual | |
Oflazer et al. | Practical bootstrapping of morphological analyzers | |
Alosaimy et al. | Web-based annotation tool for inflectional language resources | |
Debove et al. | A contrastive analysis of five automated QA tools (QA Distiller 6.5. 8, Xbench 2.8, ErrorSpy 5.0, SDL Trados 2007 QA Checker 2.0 and SDLX 2007 SP2 QA Check) | |
Andrews et al. | The formal definition of Modula-2 and its associated interpreter | |
Novák | A model of computational morphology and its application to Uralic languages | |
JP2838984B2 (ja) | 汎用参照装置 | |
Love | Benchmarking the performance of Two Automated Term-extraction systems: LOGOS and ATAO | |
Kotsyba et al. | UGTag: morphological analyzer and tagger for the Ukrainian language | |
Diaconescu et al. | Complex Natural Language Processing System Architecture | |
Winiwarter | WILLIE–a web interface for a language learning and instruction environment | |
Wong et al. | PCT: Portuguese-Chinese machine translation systems | |
JP3316884B2 (ja) | 言語翻訳装置 | |
Hartley et al. | Evaluation of the final prototype | |
Winiwarter | JETCAT-Japanese-English Translation using Corpus-based Acquisition of Transfer rules |