JP2001503540A - アノテートされたテキストの自動翻訳 - Google Patents
アノテートされたテキストの自動翻訳Info
- Publication number
- JP2001503540A JP2001503540A JP50176398A JP50176398A JP2001503540A JP 2001503540 A JP2001503540 A JP 2001503540A JP 50176398 A JP50176398 A JP 50176398A JP 50176398 A JP50176398 A JP 50176398A JP 2001503540 A JP2001503540 A JP 2001503540A
- Authority
- JP
- Japan
- Prior art keywords
- token
- language
- tokens
- annotation
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (1)
- 【特許請求の範囲】 1. 第1言語でのアノテートされたソース文書を第2言語でのアノテートさ れたソース文書に翻訳する方法であって、 テキストおよびアノテーションを有している複数の文章を含んでいる第1言語 でのソース文書を受け取るステップと、 複数の第1言語のトークンおよび複数のアノテーション・トークンを含んでい る第1トークン・ストリングを、ソース文書を使って生成するステップと、 ソース文書の中の文章の終りに対応している場所において、トークン・ストリ ングの中に複数の文末トークンを挿入するステップと、 前記トークン・ストリングから複数のアノテーション・トークンを取り除くス テップと、 取り除かれたアノテーション・トークンを記憶モジュールの中に格納し、前記 記憶モジュールの中で前記アノテーション・トークンを前記文末トークンに対し てリンクするステップと、 複数の第1言語のトークンを翻訳し、そして複数の第2言語のトークンおよび 文末トークンを含んでいる第2トークン・ストリングを生成するステップと、 前記文末トークンを使って、前記第2トークン・ストリングの中に複数の各ア ノテーション・トークンを挿入するための場所を決定するステップと、 前記複数のアノテーション・トークンを前記場所において前記第2トークン・ ストリングの中に挿入するステップと、 前記第2トークン・ストリングの中の前記複数の第2言語のトークンおよび前 記アノテーション・トークンを使って、第2言語での前記ソース文書の翻訳され たバージョンを作り出すステップとを含む方法。 2. 請求項1に記載の方法において、前記アノテーション・トークンが品詞 の設定、HTMLのマークアップ、SGMLのマークアップ、RTFのマークア ップ、およびNROFFのマークアップのうちの一つまたはそれ以上を表すよう になっている方法。 3. 請求項1に記載の方法において、前記第1言語のトークンは英語のテキ ストを表し、そして前記第2言語のトークンは日本語のテキストを表している方 法。 4. 請求項1に記載の方法において、前記第1言語のトークンは英語のテキ ストを表し、そして前記第2言語のトークンはスペイン語のテキストを表してい る方法。 5. 請求項1に記載の方法において、 前記ソース文書の中の文章に現れる順序に対応して、前記複数の第1言語トー クン、前記アノテーション・トークンおよび前記文末トークンを文章データベー スの中に格納するステップと、 前記文章データベースの中に格納されている前記トークンを使って、前記第2 トークン・ストリングの中に前記アノテーション・トークンを挿入するための場 所を決定するステップとをさらに含む方法。 6. 請求項1に記載の方法において、 前記第1言語のトークン・ストリングの中で前記第1言語のトークンのうちの どれが未定義の第1言語トークンであるかを判定するステップと、 前記未定義の第1言語トークンを記憶モジュールの中に格納するステップと、 ソース文書の翻訳されたバージョンのビューワに対して、未定義の第1言語の トークンのリストを提供するステップとをさらに含む方法。 7. 請求項1に記載の方法において、 前記第1言語のトークンを前記記憶モジュールの中に格納するステップと、 前記第2言語のトークンを前記記憶モジュールの中に格納するステップと、 前記文末トークンを使って、前記格納されている第1言語のトークンを前記格 納されている第2言語のトークンにリンクさせるステップとをさらに含む方法。 8. 請求項1に記載の方法において、 ソース文書の終りを判定し、ファイル末トークンを生成し、そして前記ファイ ル末トークンを前記第1トークン・ストリングの中に挿入するステップとをさら に含む方法。 9. 請求項1に記載の方法において、前記アノテーション・トークンは、H TMLの文字エンティティ参照を表しているHTMLトークンを含む方法。 10. 請求項9に記載の方法において、第1トークン・ストリングを生成す るステップが、 少なくとも一つのHTMLトークンにおいて文字エンティティ参照に対する置 き換え文字を決定するステップと、 前記文字エンティティ参照を前記置き換え文字で置き換えるステップとをさら に含む方法。 11. 請求項9に記載の方法において、HTMLトークンのうちのどれが翻 訳できないHTMLマークアップ文字を含んでいるかを判定するステップと、 前記第1トークン・ストリングから翻訳できないHTMLマークアップ文字を 含んでいる前記HTMLトークンを取り除くステップとをさらに含む方法。 12. 請求項9に記載の方法において、 複数のHTMLトークンを文書状態データベースの中に格納するステップと、 前記複数の各HTMLトークンを前記複数の第1言語トークンとリンクさせる ベクターを生成するステップとをさらに含む方法。 13. 請求項12に記載の方法において、 前記ベクターを使って前記第2トークン・ストリングの中に前記HTMLトー クンを挿入するステップをさらに含む方法。 14. 請求項1に記載の方法において、 前記ソース文書の先頭と前記ソース文書の終りとの間の前記ソース文書の中の 一つの場所を決定するステップと、 前記場所から前記第1トークン・ストリングを翻訳するステップと、 前記ソース文書の部分的に翻訳されたバージョンを作り出すステップとをさら に含む方法。 15. 請求項9に記載の方法において、前記テキストは前記ソース文書にお ける画像を代りに置き換えるテキストをさらに含む方法。 16. ソース文書からターゲット文書ヘアノテーションを保存しながら、第 1言語 でのアノテートされたソース文書を第2言語でのアノテートされたターゲット文 書へ翻訳するためのシステムであって、 テキストおよびアノテーションを含んでいる第1言語でのソース文書を受け取 るための受取りモジュールと、 複数の第1言語トークン、複数のアノテーション・トークン、および前記ソー ス文書のテキストの中の不連続点に対応している複数のエンディング・トークン を含んでいる第1トークン・ストリングを生成するための処理モジュールと、 前記複数のアノテーション・トークンを前記第1トークン・ストリングから取 り除き、前記複数の第1言語トークンを第2トークン・ストリングの中の複数の 第2言語トークンへ翻訳し、複数のエンディング・トークンを使って前記アノテ ーション・トークンを前記第2トークン・ストリングの中に挿入し、そして前記 第2トークン・ストリングを使って、前記ソース文書の翻訳されたバージョンを 含んでいるターゲット文書を生成するための翻訳エンジンと、 前記アノテーション・トークンを格納するためのアノテーション・データベー スを含んでいる記憶モジュールとを含み、前記アノテーション・トークンは前記 エンディング・トークンに対してリンクされているシステム。 17. 請求項16に記載のシステムにおいて、前記記憶モジュールが、 前記第1言語トークンおよび前記第2言語トークンを格納し、前記エンディン グ・トークンが前記第1言語と前記第2言語トークンとの間のリンクを提供して いる辞書ソース・データベースと、 未定義の第1言語トークンを格納し、その中で前記エンディング・トークンが 前記未定義の第1言語トークンに対するリンクを提供するようになっている、未 定義語句のデータベースとをさらに含むシステム。 18. 請求項16に記載のシステムにおいて、前記処理モジュールが、前記 ソース文書の中のHTMLマークアップを表しているHTMLトークンを生成す るようになっているシステム。 19. 請求項18に記載のシステムにおいて、前記アノテーション・データ ベース は前記第1トークン・ストリングの中の各第1言語トークンを、それらに対して 適用される前記HTMLトークンに対してリンクするためのマークアップ・デー タベースを含むシステム。 20. 請求項17に記載のシステムにおいて、前記翻訳エンジンが、前記マ ークアップ・データベースにアクセスし、前記第2トークン・ストリングを、前 記マークアップ・データベースの中の前記第1言語トークンに対してリンクされ ているHTMLマークアップと比較して、前記HTMLトークンが挿入されるべ き第2トークン・ストリングの中の場所を決定するようになっているシステム。 21. HTMLでアノテートされた第1言語でのソース文書を、対応してい るHTMLマークアップを備えている第2言語でのターゲット文書へ翻訳するた めの方法であって、 テキストおよびHTMLマークアップを含んでいる複数の文章を含んでいる、 第1言語でのソース文書を受け取るステップと、 複数の第1言語トークン、および前記第1言語トークンに対して適用される複 数のHTMLトークンを含んでいる第1トークン・ストリングを、前記ソース文 書を使って生成するステップと、 前記HTMLトークンを第1トークン・ストリングから取り除くステップと、 前記第1言語トークンに対して適用される前記各HTMLトークンに対して前 記第1言語トークンの一つをリンクしている、前記第1言語トークンに対する複 数のアノテーション・レコードを生成するステップと、 前記アノテーション・レコードを文書状態データベースの中に格納するステッ プと、前記複数の第1言語トークンを翻訳し、複数の第2言語トークンを含んで いる第2トークン・ストリングを生成するステップと、 前記アノテーション・レコードを使って、前記HTMLトークンが前記第2ト ークン・ストリングの中に挿入されるべき場所を決定するステップと、 前記第2トークン・ストリングを使って、前記第2言語でのターゲット文書を 作り出すステップとを含む方法。 22. 請求項21に記載の方法において、 前記第1トークン・ストリングの中の前記HTMLトークンのどれかが文字エ ンティティ参照を含んでいるかどうかを判定するステップと、 前記文字エンティティ参照を文字に置き換えるステップをさらに含む方法。 23. 請求項21に記載の方法において、 前記HTMLトークンのどれかが前記第2トークン・ストリングの中に保存さ れる必要がないかどうかを決定するステップと、 前記第1トークン・ストリングから、保存される必要のないHTMLトークン を削除するステップとをさらに含む方法。 24. 請求項21に記載の方法において、 前記第1トークン・ストリングの中の前記トークンのどれかが翻訳される必要 がないかどうかを判定するステップと、 前記第1トークン・ストリングから翻訳される必要のないトークンを取り除く ステップと、 前記取り除かれたトークンを格納するステップと、 前記第1トークン・ストリングの中で前記トークンが取り除かれた場所にマー カ・トークンを挿入するステップとをさらに含む方法。 25. 請求項21に記載の方法において、 前記HTMLトークンが前記ソース・テキストの中の不連続点を表しているか どうかを判定するステップと、 前記第1トークン・ストリングの中に、前記不連続点を表しているエンディン グ・トークンを挿入するステップと、 前記エンデイング・トークンによってインデックスされるデータベースの中に 、前記不連続性の場所まで前記第1トークン・ストリングの中のトークンを格納 するステップとをさらに含む方法。 26. 請求項21に記載のシステムにおいて、前記第1言語トークンは英語 のテキストを表し、そして前記第2言語のトークンは日本語のテキストを表して いるシステム。 27. 請求項21に記載のシステムにおいて、前記第1言語のトークンは英 語のテキストを表し、そして前記第2言語のトークンはスペイン語のテキストを 表しているシステム。 28. 自然言語の自動翻訳システムであって、 コンピュータの記憶手段と、 アノテーションを含んでいる第1言語での入力テキスト情報を受け取るため、 および前記入力のテキスト情報を前記コンピュータ記憶手段の中に格納するため の手段と、 前記コンピュータ記憶手段にアクセスするため、および前記第1言語での入力 テキスト情報を第2言語での出力テキスト情報に翻訳するための翻訳エンジンと を含み、前記翻訳エンジンは、(i)ソース文書を使って、複数の第1言語トー クンと前記第1言語トークンに対して適用される複数のアノテーション・トーク ンとを含んでいる第1トークン・ストリングを生成するためのトークナイザと、 (ii)前記アノテーション・トークンのサブセットを前記第1トークン・スト リングから取り除くためのフィルタと、(iii)前記第1言語のトークンの一 つを前記第1言語トークンに対して適用される各アノテーション・トークンに対 してリンクしている、前記第1言語に対する複数のアノテーション・レコードを 生成するための文書状態レコーダと、(iv)前記複数の第1言語トークンを翻 訳して、複数の第2言語トークンを含んでいる第2トークン・ストリングを生成 するためのトランスレータと、(v)前記アノテーション・レコードを使って、 前記アノテーション・トークンが挿入されるべき前記第2トークン・ストリング の中の場所を決定するためのアノテータと、(vi)前記第2トークン・ストリ ングを使って、前記第2言語でのターゲット文書を作り出すためのターミナル・ コンシューマとを含んでいるシステム。 29. 請求項28に記載のシステムにおいて、前記アノテーションはHTM Lのマークアツプ、SGMLのマークアップ、RTFのマークアップまたはNR OFFのマークアップを含んでいるシステム。 30. 請求項28に記載のシステムにおいて、前記第1言語のトークンは英 語のテキストを表し、そして第2言語トークンは日本語のテキストを表している システム。 31. 請求項28に記載のシステムにおいて、前記第1言語トークンは英語 のテキストを表し、そして前記第2言語トークンはスペイン語のテキストを表し ているシステム。 32. 請求項28に記載のシステムにおいて、前記翻訳エンジンは、 ユーザ入力を受け取るための手段と、 ユーザからの入力を処理し、翻訳のオプションを前記ユーザに対して提供する ための代わりのトランスレータとをさらに含むシステム。 33. 請求項32に記載のシステムにおいて、ソース文書およびユーザから の入力を受け取って、前記ソース文書と前記入力をトークナイザへ送るための代 替テキスト・プロデューサをさらに含んでいるシステム。 34. 請求項33に記載のシステムにおいて、ユーザからの前記入力は前記 ソース文書に対する編集を含んでいるシステム。 35. 請求項34に記載のシステムにおいて、前記トークナイザによって生 成される前記複数の第1言語トークンが、前記ソース文書の前記編集を表してい る第1言語トークンを含んでいるシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WO96/10283 | 1996-06-14 | ||
PCT/US1996/010283 WO1997040453A1 (en) | 1996-04-23 | 1996-06-14 | Automated natural language processing |
PCT/US1997/010005 WO1997048058A1 (en) | 1996-06-14 | 1997-06-09 | Automated translation of annotated text |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001503540A true JP2001503540A (ja) | 2001-03-13 |
Family
ID=22255324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50176398A Pending JP2001503540A (ja) | 1996-06-14 | 1997-06-09 | アノテートされたテキストの自動翻訳 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2001503540A (ja) |
WO (1) | WO1997048058A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157066A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269189B1 (en) | 1998-12-29 | 2001-07-31 | Xerox Corporation | Finding selected character strings in text and providing information relating to the selected character strings |
CN104035916B (zh) * | 2013-03-07 | 2017-05-24 | 富士通株式会社 | 标准化标注工具的方法和设备 |
US10528664B2 (en) * | 2017-11-13 | 2020-01-07 | Accenture Global Solutions Limited | Preserving and processing ambiguity in natural language |
US11281864B2 (en) | 2018-12-19 | 2022-03-22 | Accenture Global Solutions Limited | Dependency graph based natural language processing |
US10747958B2 (en) | 2018-12-19 | 2020-08-18 | Accenture Global Solutions Limited | Dependency graph based natural language processing |
CN111651813A (zh) * | 2020-05-14 | 2020-09-11 | 深圳市华阳国际工程设计股份有限公司 | 基于bim模型的注释方法、装置以及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3220560B2 (ja) * | 1992-05-26 | 2001-10-22 | シャープ株式会社 | 機械翻訳装置 |
US6993471B1 (en) * | 1995-11-13 | 2006-01-31 | America Online, Inc. | Integrated multilingual browser |
-
1997
- 1997-06-09 WO PCT/US1997/010005 patent/WO1997048058A1/en active Application Filing
- 1997-06-09 JP JP50176398A patent/JP2001503540A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157066A (ja) * | 2008-12-26 | 2010-07-15 | Rakuten Inc | 機械翻訳システム及び機械翻訳方法 |
Also Published As
Publication number | Publication date |
---|---|
WO1997048058A1 (en) | 1997-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6470306B1 (en) | Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens | |
JP4494706B2 (ja) | 2カ国語コーパスからの変換マッピングの自動抽出プログラム | |
JP4714400B2 (ja) | スケーラブル機械翻訳システム | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
US5903858A (en) | Translation machine for editing a original text by rewriting the same and translating the rewrote one | |
US6760695B1 (en) | Automated natural language processing | |
EP1351157A2 (en) | Sentence realization model for a natural language generation system | |
JP2005507525A (ja) | 機械翻訳 | |
JP2005507524A (ja) | 機械翻訳 | |
JPH0447364A (ja) | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
JP2004513458A (ja) | ユーザが変更可能な翻訳のウエイト | |
JP2001503540A (ja) | アノテートされたテキストの自動翻訳 | |
WO1997048058A9 (en) | Automated translation of annotated text | |
Alkım et al. | Machine translation infrastructure for Turkic languages (MT-Turk) | |
Ehsan et al. | Statistical Parser for Urdu | |
JP3876014B2 (ja) | 機械翻訳装置 | |
JPH0844763A (ja) | キーワード自動抽出装置 | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JP3743711B2 (ja) | 自動自然言語翻訳システム | |
Goyal et al. | SIG | |
JP3892227B2 (ja) | 機械翻訳システム | |
JP2002117028A (ja) | 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 | |
JP2003203071A (ja) | 自動自然言語翻訳システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20031106 |
|
A72 | Notification of change in name of applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A721 Effective date: 20031106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050809 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051011 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20051011 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051129 |