EA005268B1 - Способ и средства преобразования контента - Google Patents
Способ и средства преобразования контента Download PDFInfo
- Publication number
- EA005268B1 EA005268B1 EA200301188A EA200301188A EA005268B1 EA 005268 B1 EA005268 B1 EA 005268B1 EA 200301188 A EA200301188 A EA 200301188A EA 200301188 A EA200301188 A EA 200301188A EA 005268 B1 EA005268 B1 EA 005268B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- state
- segments
- segment
- content
- database
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Способ и устройство для автоматического перевода документов с одного языка на другой. Способ включает в себя сравнение образца первого и второго документов, представляющих одну и ту же или сходные идеи, написанные на первом и втором языках соответственно, и создание базы данных ассоциированных слов первого языка со словами второго языка, которые являются переводами друг друга. Способ также может включать в себя перевод документа с первого языка на второй язык. Способ включает в себя разделение документов на первом языке на слова или сегменты, нахождение слов или сегментов на втором языке, которые соответствуют выбранным словам или сегментам на первом языке, и нахождение слов или сегментов на втором языке, которые соответствуют комбинациям слов или сегментов на первом языке.
Description
Родственные патентные заявки
Данная заявка на патент требует приоритета предварительной заявки США № 60/276,107, поданной 16 марта 2001 г. и предварительной заявки на патент США № 60/299,472, поданной 21 июня 2001 г., и включенных во всей своей полноте в настоящее описание в качестве ссылки.
Область, к которой относится изобретение
Это изобретение относится к способу и устройству для преобразования контента из одного состояния в другое состояние.
Предпосылки
Известны устройства и способы автоматического перевода документов с одного языка на другой. Однако эти устройства и способы часто не в состоянии дать точный перевод документов с одного языка на другой, могут требовать затрат большого количества времени и могут быть неудобными в использовании. В дополнении к переводчикам, работающим совместно с людьми, другие известные устройства включают в себя коммерчески доступные программные средства машинного перевода. Такие известные системы обладают недостатками, которые приводят к тому, что их переводы допускают ошибки, системы имеют низкую скорость и неудобны в работе. Известные устройства и способы перевода не могут постоянно осуществлять точные переводы вводимого текста и поэтому часто требуют интенсивного вмешательства пользователя для проверочного чтения и редактирования. Точный машинный перевод является более сложным, чем создание устройств и способов, которые осуществляют переводы документов слово-в-слово. В таких системах перевода слово-в-слово, переводы часто выглядят бессмысленными для читателей переведенных документов, поскольку способ слово-в-слово дает в результате неподходящий выбор слов и неадекватные грамматические конструкции.
Для преодоления таких недостатков известные устройства перевода в течение десятилетий пытаются делать выбор перевода слова в контексте предложения, исходя из комбинации или множества лексических, морфологических, синтаксических и семантических правил. Такие системы, известные в данной области техники как основанные на правилах системы машинного перевода (МП) , не являются корректными, потому что существует так много исключений из правил, что они не всегда могут обеспечить точный перевод.
Дополнительно к МП основанным на правилах в последние десятилетия разработаны новые способы для МП, известные как основанные на примерах (ОПМП). ОПМП используют предложения (или, возможно, части предложения), хранящиеся на двух различных языках в кросс-языковых базах данных. Когда запрос на перевод соответствует предложению в базе данных, перевод предложения на заданный язык-мишень производится при помощи базы данных, предоставляющей точный перевод на другой язык. Если часть запроса на перевод соответствует части предложения в базе данных, такие устройства пытаются точно определить, какая часть предложения, отображенная на предложение на языке-источнике, является переводом запроса.
ОПМП системы не могут обеспечить точный перевод обобщенной формулировки, так как кросс-языковые базы данных предложений создаются вручную и всегда будут преимущественно неполными. Другим недостатком ОПМП систем является то, что частичные соответствия не переводятся достоверно. Были предприняты попытки автоматизировать создание кросс-языковых баз данных, используя пары переводимых документов для применения в ОПМП. Однако эти усилия не привели к успеху в создании многозначных, точных кроссязыковых баз данных, сколько-нибудь значительного размера. Ни в одной из этих попыток не использовался алгоритм, который надежно и точно извлекал переводы значительного количества слов и словосочетаний из пар переводимых документов.
Некоторые устройства перевода комбинируют как средства, основанные на правилах, так и ОПМП. Хотя такая комбинация подходов может обеспечить больший уровень точности, чем любая система по отдельности, результаты остаются неадекватными для использования без существенного вмешательства пользователя и редактирования.
Проблемы, с которыми приходится сталкиваться при попытке перевести документы с одного языка на другой, могут касаться в более широком смысле проблемы преобразования данных, представляющих идеи или информацию в одном состоянии, скажем в виде слов, в данные, представляющие идеи в другом состоянии, например, в виде математических символов. В таких случаях должны приниматься во внимание базы данных ассоциаций кросс-идей, которые ассоциируют данные одного состояния с эквивалентными данными второго состояния. Следовательно, существует необходимость в улучшенном и более эффективным способе и устройстве для создания словарей или баз данных, которые ассоциируют эквивалентные идеи на разных языках или состояниях, (например, слова, словосочетания, звуки, движение и т.п.) и в переводе или преобразовании идей, выражаемых в документах на одном языке или состоянии в такую же или похожую идею, представленную в документах на другом языке или в другом состоянии.
Данное изобретение относится к манипулированию контентом (содержимым) с использованием базы данных ассоциаций кросс-идей. В частности, настоящее изобретение предоставляет способ и устройство для создания базы данных ассоциированных идей (сопоставляемой информации) и предоставляет способ и устройство для применения такой базы данных для преобразования информации из одного состояния в другое состояние.
В одном из вариантов осуществления данного изобретения, и в качестве примера, настоящее изобретение предоставляет способ и устройство для создания базы данных языкового перевода, где два языка формируют базу данных ассоциированных идей. Данное изобретение также предоставляет способ и устройство для применения такой языковой базы данных для преобразования документов (представляющих идеи) с одного языка на другой (или в более широком смысле, из одного состояния в другое). Однако настоящее изобретение не ограничивается языковым переводом, хотя такой предпочтительный вариант осуществления будет представлен. Аспект создания базы данных согласно настоящему изобретению может быть применен к любым идеям, которые являются связанными некоторым образом, но выражены в разных состояниях, и аспект преобразования настоящего изобретения может применяться для точного перевода идей (информации) из одного состояния в другое.
Ниже описано применение данного изобретения к варианту осуществления языкового перевода. Применяемые в данном описании, термины, относящиеся к преобразованию, переводу и манипулированию используются как взаимозаменяемые и в своем самом широком значении.
Раскрытие изобретения
Одной из задач настоящего изобретения является обеспечение эффективного перевода документов с одного языка или состояния на другой язык или состояние при помощи способа и устройства для создания и пополнения базы данных ассоциаций кросс-идей. Обычно такие базы данных ассоциируют данные в первой форме или состоянии, которые представляют отдельные идеи или части информации, с данными во второй форме или состоянии, которые представляют те же самые идеи или части информации.
Другой задачей настоящего изобретения является облегчение перевода документов с одного языка или состояния на другой язык или состояние при помощи предоставленного способа и устройства для создания второго документа, содержащего данные во втором состоянии, форме или языке, из первого документа, содержащего данные в первом состоянии, форме или языке, с конечным результатом, заключающимся в том, что второй и первый документы в основном представляют одинаковые идеи или информацию.
Еще одной задачей настоящего изобретения является облегчение перевода документов с одного языка или состояния при помощи спосо ба или устройства для создания второго документа, содержащего данные во втором состоянии, форме или языке, из первого документа, содержащего данные в первом состоянии, форме или языке, с конечным результатом, заключающимся в том, что второй и первый документы, по существу, представляют одинаковые идеи или информацию, и в котором способ и устройство включают в себя применение базы данных ассоциаций кросс-идей.
Еще одной задачей настоящего изобретения является обеспечение перевода документов (в широком смысле, преобразования идей из одного состояния в другое состояние) в реальном времени.
Настоящее изобретение решает эти и другие задачи при помощи обеспечения способа и устройства для создания базы данных кроссидей. Способ и устройство для создания базы данных кросс-идей может включать в себя обеспечение одной или более парами документов на двух (или более) разных языках, представляющих в основном один и тот же текст (т.е. точные переводы текста (Параллельные тексты) или в значительной степени родственный текст (Сравнимые тексты)). Настоящее изобретение выбирает, по меньшей мере, первое и второе вхождения всех слов и словосочетаний, которые имеют множественные вхождения в первом языке, в доступных кросс-языковых документах. Затем производится выбор, по меньшей мере, области первого слова и области второго слова в документах второго языка, причем области первого и второго слов соответствуют первому и второму вхождениям выбранных слов или словосочетаний в документах на первом языке. Затем производится сравнение слов и словосочетаний, найденных в области первого слова со словами и словосочетаниями, найденными в области второго слова, локализация слов и словосочетаний, общих для двух областей слов, и сохранение этих локализованных общих слов и словосочетаний в базе данных кроссидей. Затем изобретение ассоциирует в указанной базе данных кросс-идей локализованные общие слова или словосочетания из двух областей на втором языке с выбранным словом или словосочетанием первого языка, ранжируя по их частоте ассоциаций (количество повторений), после подстройки частот ассоциаций как подробно рассмотрено в данном описании. При помощи проверки общих слов и словосочетаний языков в Параллельных и Сравнимых Текстах, база данных разрешает больше ассоциаций, если становятся доступными больше параллельных или сравнимых текстов на множестве разных языков.
Данное изобретение также решает эти и другие цели при помощи предоставления способа и устройства для преобразования документа из одного состояния в другое состояние. Настоящее изобретение предоставляет базу дан ных, содержащую сегменты данных на одном языке, ассоциированные с сегментами данных на другом языке (созданную при помощи способа, описанного выше или вручную). Данное изобретение переводит текст при помощи обращения к базе данных, которая упоминалась выше, и определения наиболее длинного словосочетания в документе для перевода (измеряемого количеством слов), начиная с первого слова документа, которое присутствует в базе данных. Затем данная система извлекает из базы данных словосочетание на втором языке, ассоциированное с локализованным словосочетанием из первого документа на первом языке. Затем данная система выбирает второе словосочетание в документе, которое находится в базе данных и содержит общее (перекрывающее) слово (или, как альтернатива, словосочетание) с предварительно идентифицированным словосочетанием в документе, и извлекает из базы данных словосочетание на втором языке, ассоциированное со вторым словосочетанием на первом языке. Если ассоциации словосочетания на втором языке содержат перекрывающееся слово (или, в качестве альтернативы, слова), ассоциации словосочетания на втором языке комбинируются (удаляя избыточную информацию в наложении) для формирования перевода; если нет, извлекаются и проверяются другие ассоциации на втором языке со словосочетанием первого языка для комбинирования через наложение слов, до получения положительного результата. Следующее словосочетание в документе первого языка выбирается путем определения наиболее длинного словосочетания в базе данных, которое имеет общее слово (или, в качестве альтернативы, слова) с предварительно определенным словосочетанием на первом языке, и процесс, описанный выше, продолжается до тех пор, пока не будет полностью переведен документ на первом языке в документ на втором языке.
Краткое описание чертежей
На фиг.1 показан вариант осуществления базы данных кросс-идей, согласно настоящему изобретению.
Подробное описание изобретения
Настоящее изобретение представляет способ и устройство для создания и пополнения базы данных кросс-идей и для перевода документов с одного языка или состояния на второй язык или состояние, используя базу данных кросс-идей. Документы, обсуждаемые в данном описании, являются коллекциями информации в качестве идей, которые представлены символами и знаками, зафиксированными на некотором носителе. Например, документы могут быть документами в электронном виде, хранящимися на магнитном или оптическом носителе, или бумажными документами, такими как книги. Символы и знаки, содержащиеся в документах, представляют идеи и информацию, выраженную при помощи применения одной или более сис тем выражения, рассчитанную на то, чтобы быть понятной пользователем документов. Настоящее изобретение манипулирует документами в первом состоянии, т.е. содержащими информацию, выраженную в одной из систем выражения, для создания документов во втором состоянии, т. е. содержащими, в основном такую же информацию, выраженную с применением второй системы выражения. Таким образом, настоящее изобретение может манипулировать или переводить документы между системами выражения, такими как, письменный или разговорный язык, такой как английский, иврит и кантонский на другие языки.
Ниже дано подробное описание настоящего изобретения, включающее в себя способ и устройство для создания базы данных, и способ и устройство для преобразования.
1. Способ и устройство для создания базы данных.
а. Обзор.
Способ по настоящему изобретению используют для манипуляции с контентом документов базу данных кросс-идей. Фиг. 1 изображает вариант осуществления базы данных кросс-идей. Такой вариант осуществления базы данных кросс-идей содержит список ассоциированных сегментов данных в колонках 1 и 2. Сегменты данных являются символами или группировками знаков, которые представляют конкретную идею или часть информации в системе выражения. Таким образом, сегменты системы А в колонке 1 являются сегментами данных, которые представляют различные идеи и комбинации идей Эа1. Эа2. Эа3 и Эа4 в гипотетической системе выражения А. Сегменты системы В в колонке 2 являются сегментами данных Эа1, Эа3, Эа4, Эа5, Эа7, Эа9, Эа10 и Эа12, которые представляют различные идеи и некоторые комбинации таких идей в гипотетической системе выражения В, которые упорядочены по частоте ассоциаций с сегментами данных в системе выражения А. Колонка 3 показывает непосредственно частоту, которая является количеством случаев, в которых сегмент или сегменты языка В были ассоциированы с сегментом (или сегментами) языка А, включенными в список. Колонка 4 показывает частоту после вычитания, которая представляет собой количество случаев, в которых сегмент данных (или сегментов) в языке В был ассоциирован с сегментом (или сегментами) в языке А после вычитания количества случаев, в которых этот сегмент (или сегменты), был ассоциирован как часть более длинного сегмента, что будет описано более детально ниже.
Как показано на фиг. 1, возможно, что единичный сегмент, скажем Эа1, является наиболее подходяще ассоциированным с множеством сегментов, ΌΜ совместно с ЭЬ3 и ЭЬ4. Чем выше частоты после вычитания (как описано в данном описании) между сегментами данных, тем выше вероятность, что сегмент системы А является эквивалентом сегмента системы В. Дополнительно к измерению скорректированных частот по общему количеству вхождений, скорректированные частоты также могут быть измерены, например, при помощи подсчета процента случаев, в которых конкретные сегменты системы А соотносились с конкретными сегментами системы В. Когда база данных используется для перевода документа, ассоциированный сегмент наиболее высокого ранга извлекается в процессе первым из базы данных. Однако, часто способ, применяемый при проверке комбинации ассоциированных сегментов для перевода (как описано ниже) определяет, что должна быть проверена другая ассоциация более низкого ранга, потому что связь более высокого ранга, проверенная первой, не может быть использована. Например, если база данных получает запрос на ассоциацию для Эа1. возможен ответ ΌΜ + ЭЬ3 + ЭЬ4; если ΌΜ + ЭЬ3 + ЭЬ4 не может быть использован, как это определяется процессом, который точно объединяет сегменты данных для перевода, база данных затем может выдать ЭЬ9 + ЭЬ10 для проверки на точную комбинацию с другим ассоциированным сегментом, для получения перевода.
В общем случае, способ для создания базы данных кросс-идей согласно настоящему изобретению включает в себя проверку и работу с параллельным или сравнимым текстом. Способ и устройство по настоящему изобретению используются таким образом, что база данных создается со связями между двумя состояниями - точное преобразование, или более конкретно, ассоциации между идеями (информацией), выраженными в одном состоянии и идеями (информацией), выраженными в другом состоянии. Перевод и другие значимые ассоциации между двумя состояниями становятся сильнее, т. е. более частыми, когда при помощи настоящего изобретения изучаются и обрабатываются больше документов, таким образом, что при работе на достаточно большой выборке документов становится очевидной наиболее общая (и, в некотором смысле, корректная), и связь и способ и устройство могут быть использованы для целей преобразования.
В одном из вариантов осуществления изобретения два состояния представляют разговорные языки (например, английский, иврит, китайский и т.д.) таким образом, что настоящее изобретение создает кросс языковую базу данных слов и словосочетаний одного языка, кореллированных с их переводами на втором языке. Словосочетания могут определяться как группы последовательно расположенных слов и часто включают в себя знаки пунктуации и любые другие знаки, используемые при выражении языка. В этом примере настоящее изобретение создает базу данных путем проверки документов на двух языках и создания базы данных пе ревода для каждого повторяющегося слова или словосочетания на обоих языках. Однако настоящее изобретение не должно ограничиваться языковым переводом. Настоящее изобретение позволяет пользователю создать базу данных идей (информации) и ассоциировать (сопоставлять) эти идеи (эту информацию) с другими(ой), отличающимися, идеями (информацией) в иерархическом виде. Таким образом, идеи ассоциируются с другими идеями и ранжируются согласно частоте встречаемости. Определенный вес, определяемый частотой встречаемости, и использование применительно к базе данных, созданной таким образом, могут меняться в зависимости от требований пользователя.
Например, в контексте преобразования текста с одного языка в другой настоящее изобретение служит для создания языковых переводов слов и словосочетаний между английским и китайским языками. Настоящее изобретение выдает ранжированные ассоциации между словами и словосочетаниями в двух языках. При достаточно большом размере выборки, слово или словосочетание, встречающееся наиболее часто, может быть одним из китайских эквивалентов английского слова или словосочетания. Однако настоящее изобретение также выдает другие ассоциации китайского языка для английских слов или словосочетаний, и пользователь может манипулировать такими связями, как пожелает. Например, слово тоиШаш, при обработке согласно настоящему изобретению может выдавать список слов и словосочетаний китайского языка на рассматриваемом языке. Эквиваленты слова «тоипГаш» на китайском языке, скорее всего, будут являться наиболее высокими по рангу; однако настоящее изобретение выдает другие слова или словосочетания иностранного языка, связанные с тоип1аш, такие как киоте, кку, а бапдегоик крой, 111е 11ф11ск1 ройИ ίη 111е теог1б или Μΐ. ЕуегекГ. Такие слова и словосочетания, которые, скорее всего, будут являться ранжированными ниже, чем переводы тоипГаш, могут использоваться по желанию пользователя. Таким образом, настоящее изобретение представляет собой автоматический создатель базы данных ассоциаций. Наиболее сильные ассоциации представляются, в некотором смысле, переводами или преобразованиями, но и другие частые (но более слабые) ассоциации представляют идеи (информацию) , которые(ая) являются тесно связанными с данной идеей. Следовательно, база данных может использоваться системами, использующими приложения искусственного интеллекта, которые хорошо известны в данной области техники. В настоящее время такие системы используют неполные, создаваемые вручную базы данных идей или антологий в качестве нейронных сетей для приложений.
Другой вариант осуществления настоящего изобретения использует компьютерное уст ройство такое, как персональный компьютер типа, легко доступного при данном уровне техники. Хотя компьютерное устройство обычно является персональным компьютером (либо одиночным, либо в сетевом окружении) также подразумеваются другие компьютерное устройства такие, как персональные цифровые ассистенты, беспроводные устройства, серверы, мэйнфреймы и подобные устройства. Однако способ и устройство настоящего изобретения не нуждается в применении такого компьютерного устройства и может быть легко реализовано другими средствами, включающими в себя создание кросс-ассоциаций ручным способом. Способ, при помощи которого последующие документы проверяются для расширения выборки документов и создания базы данных кросс-связей, могут быть разными - документы могут быть подготовлены для анализа и манипулирования вручную, путем автоматического ввода (например, автоматическая подача бумаги, хорошо известная на предшествующем уровне техники), или путем применения способов поиска в Интернете, таких как поисковый робот, для автоматического поиска родственных документов.
Необходимо заметить, что настоящее изобретение может создавать базы данных ассоциаций путем проверки сравнимых текстов в дополнение (или даже вместо) к параллельным текстам. Кроме того, способ просматривает все доступные документы вместе, когда производит поиск повторяющегося слова или словосочетания в языке.
Ь. Создание базы данных.
Согласно настоящему изобретению документы исследуются с целью создания базы данных. После ввода документа (опять же, пары документов, представляющих один и тот же текст на двух разных языках), начинается процесс создания, с применением способов и/или устройства, описанных в настоящем описании.
Для целей иллюстрации, предположим, что документы содержат один и тот же контент (содержимое) (или, в более широком смысле, идею) на двух различных языках. Документ А на языке А, документ В - на языке В. Документы содержат следующие тексты:
Документ А (язык А) | Документ В (язык В) |
ΧΥΖΧ^ΥΥΖΧΖ | АА ВВ СС АА ЕЕ ЕЕ ОО СС |
Первым этапом настоящего изобретения является вычисление области слов для определения приблизительного положения возможных ассоциаций для любого данного слова или словосочетания. Так как один кросс-языковый анализ слово-в-слово не может дать полностью продуктивных результатов (т.е., слово 1 в документе А часто не существует в виде буквального перевода слова 1 в документе В) , и структура предложения одного языка может содержать эквивалентную информацию в другом месте (или в другом порядке) предложения, чем дру гой язык, способ создания базы данных по настоящему изобретению ассоциируют (сопоставляют) каждое слово или словосочетание в первом языке со всеми словами или словосочетаниями, найденными в выбранной области в документе на втором языке. Это также является важным, потому что один язык часто выражает идею более коротким или более длинным сочетанием слов, чем другой язык. Область определяется путем исследования двух документов и используется для сравнения слов и словосочетаний во втором документе в отношении к словам и словосочетаниям в первом документе. То есть, область слов или словосочетаний во втором документе исследуется на все возможные связи для каждого слова и словосочетания в первом документе. Путем проверки по отношению к области способ создания базы данных устанавливает некоторое количество слов или словосочетаний второго языка, которые могут быть приравнены и переведены на слова и словосочетания первого языка.
Существует два атрибута, которые должны определяться для того, чтобы установить область документа второго языка, в котором происходит поиск связей для любого заданного слова или словосочетания документа на первом языке. Первым атрибутом является объем или размер области второго документа, измеряемый количеством слов в области. Вторым атрибутом является местоположение области во втором документе, определяемое положением средней точки области. Оба атрибута определяются пользователем, но ниже представлены примеры предпочтительных вариантов осуществления. При определении размера и локализации области, целью является гарантия высокой вероятности того, что будет включено слово или словосочетание второго языка, представляющее собой перевод анализируемого сегмента первого языка.
Могут быть использованы различные способы для определения размера или объема области, включая обычные статистические методы такие, как варианты кривой нормального распределения в зависимости от количества слов в документе. При статистических методах таких, как кривая нормального распределения, область в начале и в конце документа может быть меньше чем область в середине документа. Колоколообразное распределение частоты для области дает разумную вероятность экстраполяции перевода, не зависимо, определяется ли она согласно абсолютному количеству слов в документе, либо согласно определенному проценту слов в документе. Существуют другие способы вычисления области такие, как метод ступеньки, в котором область существует на одном уровне для определенного процента слов, на втором, более высоком уровне для другого процента слов и на третьем уровень равном первому уровню для оставшегося процента слов. По вторим, что все атрибуты области могут определяться пользователем или устанавливаться, согласно другим возможным параметрам с целью захвата подходящих ассоциаций для слова или словосочетания анализируемых в первом языке.
Локализация области в документе на втором языке может зависеть от сравнения между количеством слов в двух документах. То, что определяется, как документ для цели локализации области, определяется пользователем и может быть статьями новостей, главами книги и любыми другими самостоятельно идентифицируемыми единицами содержания, создавая множественные сегменты данных. Если количество слов в двух документов примерно одинаково, локализация области во втором языке приблизительно совпадает с локализацией анализируемого слова или словосочетания в первом языке. Если количество слов в двух документах неодинаковое, то для корректного определения местоположения области может использоваться пропорция. Например, если документ А имеет 50 слов, а документ В имеет 100 слов, соотношение между двумя документами равно 1:2. Средней точкой документа А является слово в позиции 25. Однако, если анализируется слово 25 документа А, использование этой средней точки (слово в позиции 25) как местоположения средней точки области документа В не эффективно, так как эта позиция (слово в позиции 25) не является средней точкой документа В. Вместо этого, средняя точка области в документе В при анализе слова 25 документа А может определяться при помощи отношения слов между двумя документами (например, 25 х 2/1 = 50), путем ручной установки в средней точке документа В или другими способами.
Исходя из позиции слова или словосочетания в документе и учитывая все слова или словосочетания, которое находится внутри области, как описано выше, способ создания базы данных, согласно настоящему изобретению, выдает возможное множество слов или словосочетаний в документе на втором языке, которые могут служить переводами каждого анализируемого слова или словосочетания в первом документе. При применении способа создания базы данных настоящего изобретения положение слов или словосочетаний, которые оцениваются как возможные переводы, будут сужаться по мере улучшения частот ассоциаций. Таким образом, после исследования пары документов настоящее изобретение определит частоты ассоциаций для слов и словосочетаний в одном языке со словами или словосочетаниями во втором языке. После проверки некоторого количества пар документов согласно настоящему изобретению (и, следовательно, создав большую выборку) способ создания базы данных кросс-языковых ассоциаций будет выдавать все больше и больше частот ассоциаций для любого слова или слово сочетания. При достаточно большой выборке наибольшие частоты ассоциаций дают возможный перевод; конечно, конечная точка, в которой считается, что частота ассоциаций является достаточной для того, чтобы быть точным переводом, определяется пользователем и подвергается другим способам интерпретационного перевода (таким как описанные в предварительной заявке на патент № 60/276,107, озаглавленной Ме1йоб аиб Аррата1и8 ίοτ Сои1еи1 Машри1а1юи, поданной 16 марта 2001 и описание которой включено в данное описание в качестве ссылки).
Как указано выше, изобретение проверяет не только слова, но также сочетания слов (множество слов). Как упоминалось, словосочетания включают в себя все знаки пунктуации и другие знаки в том виде, как они встречаются. После анализа одиночного слова в первом языке способ создания базы данных согласно настоящему изобретению анализирует словосочетания, состоящие из двух слов, затем словосочетания, состоящие из трех слов и т.д. способом последовательного увеличения. Такой способ делает возможным перевод слова или словосочетания в одном языке, которые переводятся в более короткие или длинные словосочетания (или слово) в другом языке, как это часто и происходит. Если слово или словосочетание встречается только один раз во всех доступных документах на первом языке, процесс немедленно переключается на анализ следующего слова или словосочетания, и цикл анализа совершается снова. Анализ прекращается, когда во всех параллельных и сравнимых текстах проанализированы все слова или словосочетания, которые встречаются многократно в первом языке.
В определенном смысле, любое количество документов группируется и может быть обработано как единичный документ с целью поиска повторных вхождений слов или словосочетаний. По существу для неповторяющихся слов или словосочетаний, оно может встретиться только один раз во всех параллельных и сравнимых текстах. Кроме того, в качестве другого варианта осуществления изобретения, можно изучить область, соответствующую каждому слову и словосочетанию безотносительно к тому, встречается оно или нет более одного раза во всех доступных сравнимых и параллельных текстах. В качестве другого варианта осуществления база данных может быть создана путем разрешения определенных слов или словосочетаний, которые являются частью запроса. Если слово или словосочетание вводится для перевода, настоящее изобретение может искать множественные вхождения слов или словосочетаний в кросс-языковых документах, хранимых в памяти, которые еще не проанализированы, путем нахождения кросс-языкового текста в Интернете, используя поисковые роботы или другие устройства, и, в конце концов, путем запро са пользователя предоставить недостающую ассоциацию, основанную на анализе запроса и недостатке доступного кросс-языкового материала.
Таким образом, настоящее изобретение работает, анализируя словосочетания, которые зависят от правильного позиционирования слов (в этом словосочетании) и может работать, оценивая контекст выбора слова также как и грамматические индивидуальные отличительные особенности, такие как выражения, стили, или аббревиатуры. Такие ассоциации словосочетаний также полезны для способа перевода двойным наложением, которое обеспечивает процесс перевода, как рассмотрено в данном описании.
Важно отметить, что настоящее изобретение может разрешать ситуации, при которых слово или словосочетание являющиеся подмножеством большого словосочетания постоянно выдается в качестве ассоциации для большого словосочетания. Настоящее изобретение учитывает такие случаи путем манипулирования выдаваемой частотой. Например, собственное имя иногда представлено полностью (как в 1ойи Вое), сокращенное до имени или фамилии (1о1ш или Эое). или сокращенное другим способом (Мг. Оое). Поскольку настоящее изобретение с большей вероятностью выдает более индивидуализированное слово, чем словосочетание (т.е., больше количества выдач имени или фамилии, чем словосочетания полного имени 1о1ш Оое), так как слова, которые образуют словосочетание, необходимо учитывать индивидуально, также как и часть фразы, то должен быть использован некий механизм изменения ранжирования. Например, в любом документе имя 1о1и Эое может встретиться сто раз, в то время как 1о1и само по себе или как часть 1о1и Эое может встретиться сто двадцать раз, а Эое самостоятельно или как часть 1о1ш Эое может встретиться сто десять раз. Обычный перевод (согласно настоящему изобретению) будет ранжировать 1ойп выше чем Оое, и оба эти слова выше, чем словосочетание 1о1и Эое - при попытке анализа словосочетания 1о1и Эое. Путем вычитания количества вхождений большего словосочетания из вхождений подмножества (или выдачи отдельных слов) может быть достигнуто верное упорядочение (хотя, конечно, могут использоваться другие способы для получения подобных результатов). Таким образом, вычитая сто (количество встречаемости 1о1и Эое) из ста двадцати (количество встречаемости слова 1о1и), получают скорректированное количество выдач для 1о1и, равное двадцати. Применяя этот анализ, в результате получают сто в качестве количества вхождений словосочетания 1о1и Эое (при анализе и попытке перевода этого словосочетания), двадцать для слова 1о1и и десять для словосочетания Оое, создавая, таким образом, подходящие ассоциации.
Необходимо отметить, что такие проблемы не ограничиваются именем собственным и часто встречаются в общих фразах и во многих различных контекстах. Например, каждый раз, когда словосочетание I 1оуе уои переводится его наиболее встречаемым словосочетанием в другом языке, слово для 1оуе в другом языке также может быть каждый раз ассоциированным независимо. К тому же, если словосочетание переводится по-другому в другом анализируемом тексте, слово 1оуе может снова быть ассоциированным. Это будет искажать анализ, и выдавать слово 1оуе во втором языке вместо I 1оуе уои во втором языке для перевода I 1оуе уои в первом языке. Поэтому, повторим, что система вычитает количество вхождений большего словосочетания из частоты всех ассоциаций подмножеств, если ранжируются ассоциации для большого словосочетания. Эти концепции также отражены на фиг. 1.
Дополнительно, базе данных может быть дана инструкция игнорировать общеупотребительные слова такие, как ίΐ, ап, а, о!, ак, ίη и подобные или любые общеупотребительные слова при подсчете частот ассоциаций для слов и словосочетаний. При этом более точно отражается истинное количество частот ассоциаций, которое, в противном случае, будет искажаться множеством вхождений общеупотребительных слов, как части любой заданной области. Это позволяет способу создания базы данных по настоящему изобретению предотвращать искажения анализа общеупотребительными словами без чрезмерных вычислений вычитаний. Необходимо отметить, что если эти или другие общеупотребительные слова не являются вычтенными из базы данных ассоциаций, они, в конечном счете, не проявиться как перевод, за исключением подходящих случаев, так как способ двойного наложения, рассмотренный более детально в данном описании, не воспринимает их.
Необходимо отметить, что могут быть произведены другие вычисления для корректировки частот ассоциаций для гарантии точного отражения общего количества вхождения слова или словосочетания. Например, корректировка во избежание двойного подсчета может быть подходящей, если области анализируемых слов перекрываются. Корректировка желательна в таких случаях для вычисления более точных частот ассоциаций. Ниже рассмотрен пример варианта осуществления способа и устройства для создания и пополнения базы данных кроссидей согласно настоящему изобретению, на примере двух документов, описанных выше в качестве примера - таблица вновь приводится ниже:
Документ А (язык А) | Документ В (язык В) |
ΧΥΖΧ^ΥΥΖΧΖ | АА ВВ СС АА ЕЕ ЕЕ ОО СС |
Отметим еще раз, что хотя этот вариант осуществления изобретения ориентирован на повторяющиеся слова и словосочетания только в одном документе, это сделано главным образом для целей иллюстрации. Выдаваемые слова или словосочетания могут анализироваться с использованием всех доступных параллельных и сравнимых текстов в совокупности.
Используя два документа, приведенные выше (А, первый язык, и В, второй язык), способ создания базы данных сводится к следующим этапам.
Этап 1. Сначала определяется размер и местоположение области. Как отмечалось, размер и местоположение могут определяться пользователем или могут быть уточнены различными способами. Количество слов в двух документах примерно равное (десять слов в документе А, восемь слов в документе В), поэтому, определяют местоположение средней точки области путем совмещения с местоположением слова или словосочетания документа А. (Замечание: Так как отношение между количеством слов в документах равно 80%, местоположение области, с другой стороны, может быть установлено используя дробь 4/5) . В этом примере размер области или объем, равный трем, может обеспечить наилучший результат для приближения к нормальному распределению; область может быть (+/-) 1 в начале и в конце документа, и (+/-) 2 в середине. Однако, как указано, область (или способ, применяемый для определения области) полностью определяются пользователем.
Этап 2. Затем исследуется и проверяется первое слово документа А в отношении к документу А для определения количества вхождений этого слова в документе. В этом примере первым словом документа является X: X встречается три раза в документе А, в позициях 1, 4 и 9. Номера позиций слова или словосочетания являются просто местоположением этого слова или словосочетания в документе по отношению к другим словам. Таким образом, номера позиций соответствуют количеству слов в документе, не принимая во внимание пунктуацию - например, если документ имеет десять слов и слово кшд встречается дважды, номерами позиций слова кшд являются просто места (из десяти слов), где появляются эти слова.
Так как слово X встречается более одного раза в документе, процесс переходит к следующему этапу. Если слово X встречается только один раз, то это слово будет пропущено и процесс перейдет к следующему слову и процесс создания продолжится.
Этап 3. Выдаются возможные варианты перевода во втором языке для слова в первом языке в позиции 1: используя область в документе В, в результате получаем слова в позициях 1 и 2 (1+/-1) в документе В: АА и ВВ (расположенные в позициях 1 и 2 в документе В). Вы даются все возможные комбинации в качестве потенциальных вариантов перевода или релевантные ассоциации для X: АА, ВВ и АА ВВ (как словосочетание) . Таким образом, X1 (первое вхождение слова X) выдает в качестве ассоциаций АА, ВВ и АА ВВ.
Этап 4. Анализируется следующая позиция слова X. Это слово (Х2) встречается в позиции 4. Так как позиция 4 находится около центра документа, область (как определено выше) может составлять по два слова с каждой стороны позиции 4. Выдаются возможные ассоциации путем просмотра слова 4 в документе В и использования области (+/-) 2 - то есть, выдаются два слова до слова 4 и два слова после слова 4. Таким образом, выдаются слова в позициях 2, 3, 4, 5 и 6. Эти позиции соответствуют словам ВВ, СС, АА, ЕЕ и ЕЕ в документе В. Принимаются во внимание все сочетания этих слов со словами впереди (и их комбинаций). Таким образом, Х2 возвращает ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ в качестве возможных ассоциаций.
Этап 5. Выданное первое вхождение слова X (позиция 1) сравнивается с выданным вторым вхождением слова X (позиция 4) и определяются соответствия. Необходимо отметить, что выданные результаты, которые включают в себя одно и те же слово или словосочетание, встречающиеся при наложении двух областей, должны быть уменьшены до единичного вхождения. Например, в этом примере словом в позиции 2 является ВВ; оно выдается как в первом вхождении X (когда обрабатывается при помощи этой области) так и во втором вхождении слова X (когда обрабатывается при помощи этой области). Так как эти одинаковые позиции слов выдаются и для X1 и для Х2, это слово засчитывается как одно вхождение. Однако, если это же слово выдается в перекрывающихся областях, но в двух разных позициях слова, то слово засчитывается дважды и регистрируется частота ассоциаций. В данном случае для слова X выдается АА, так как это слово (АА) встречается в выданных результатах ассоциаций для X1 и для Х2. Необходимо отметить, что другим словом, которое встречается в обоих выданных результатах ассоциаций, является слово ВВ;
однако, как описано выше, т.к. это слово имеет одну и ту же позицию (и, следовательно, является одним и тем же словом), находящуюся в тех же пределах при работе в данной области первого и второго вхождения слова X, слово может игнорироваться.
Этап 6. Анализируется следующая позиция слова X (позиция 9) (Х3) . Применение области (+/-)1 (около конца документа) выдает ассоциации в позициях 8, 9 и 10 документа В. Так как документ В имеет только 8 позиций, результаты сокращаются и возвращается только слово в позиции 8 в качестве возможного значения для
X: СС. (Необходимо отметить: в качестве альтернативы, определенные пользователем параметры могут требовать минимум две характеристики в качестве части анализа, что дает позицию 8 и следующую наиболее близкую позицию (ОС в позиции 7)).
Сравнение выданных результатов для Х3 и для XI не выявляет совпадений и, следовательно, ассоциаций.
Этап 7. Анализируется следующая позиция слова X; однако в документе А больше нет вхождений слова X. С этой точки зрения частота ассоциаций, равная единице (1), устанавливается для слова X в языке А, для слова АА в языке В.
Этап 8. Так как слово X больше не встречается, процесс расширяется за счет слова и проверяется словосочетание. В этом случае исследуемым словосочетанием является X Υ, первые два слова документа А. Для этой фразы применяется способ, описанный выше для этапов 2-7.
Этап 9. При просмотре документа А видно, что словосочетание X Υ встречается только один раз. В этом случае процесс расширения останавливается, и создание базы данных не происходит. Так как достигнута конечная точка, исследуется следующее слово (этот процесс происходит всякий раз, когда не находится соответствие для словосочетания); в этом случае словом в позиции 2 документа А является Υ.
Этап 10. Применение процесса этапов 2-7 для слова Υ дает в результате следующее.
Существует два вхождения слова Υ (позиции 2 и 7), таким образом, процесс создания базы данных продолжается (снова, если Υ встречается в документе А только один раз, то дальше Υ исследоваться не будет);
размер области в позиции 2 равен (+/-)1 слово;
Применение области к документу В (позиция 2, местоположение первого вхождения слова X) дает результаты в позициях 1, 2 и 3 в документе В;
Соответствующими словами иностранного языка в этих возвратах позиций являются: АА, ВВ и СС;
Применение сочетаний вперед дает следующие возможности для Υ1: АА, ВВ, СС, АА ВВ, АА ВВ СС и ВВ СС;
Анализируется следующая позиция Υ (позиция 7);
Размер области в позиции 7 равен (+/-) 2 слова;
Использование такой области в документе В (позиция 7) дает результаты в позициях 5, 6, 7 и 8: ЕЕ ЕЕ ОО и СС;
Все сочетания дают следующие возможности для Υ2: ЕЕ, ЕЕ, ОО, СС, ЕЕ ЕЕ, ЕЕ ЕЕ ОО, ЕЕ ЕЕ ОО СС, ЕЕ ОО, ЕЕ ОО СС и ОО СС;
Сравнение с результатами для Υ1 дает СС в качестве единственного совпадения;
Комбинирование совпадений для Υ1 и Υ2 дает СС в качестве частоты ассоциации для Υ.
Этап 11. Конец области приращения: так как единственное возможное соответствие для слова Υ (слово СС) встречается только в конце области для первого вхождения Υ (СС встречается в позиции 3 в документе В), область расширяется на 1 в первом вхождении и выдает позиции 1, 2, 3 и 4: АА, ВВ, СС и АА; или следующие сочетания вперед: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение этого результата все еще дает СС как возможный вариант перевода для Υ. Необходимо отметить, что область была увеличена, потому что выдаваемое соответствие находилось в конце области для первого вхождения (главное вхождение для слова Υ); всякий раз, когда такая ситуация встречается в конце области, будет происходить расширение как подэтап (или альтернативный этап) для гарантии завершенности.
Этап 12. Так как больше не существует вхождений Υ в документе А, анализ переходит к следующему слову из документа А и изучается словосочетание Υ Ζ (следующее слово после слова Υ). Переход к следующему словосочетанию (Υ Ζ) и повторение процесса приводит к следующему результату.
Словосочетание ΥΖ встречается дважды в документе А: позиции 2 и 7. Возможными вариантами для ΥΖ в первом вхождении (ΥΖ1) является АА, ВВ, СС, АА ВВ, АА ВВ СС, ВВ СС; (Необходимо отметить, в качестве альтернативы, параметры области могут определяться так, чтобы включать в себя расширения размера области, если анализируемое словосочетание в языке А становится длиннее).
Возможными вариантами для ΥΖ во втором вхождении (ΥΖ2) являются ЕЕ, ЕЕ, ОО, СС, ЕЕ ЕЕ, ЕЕ ЕЕ ОО, ЕЕ ЕЕ ОО СС, ЕЕ ОО, ЕЕ ОО СС и ОО СС;
Соответствия дают СС как возможную ассоциацию для словосочетания Υ Ζ;
Расширение области (конец расширения области) дает следующий результат для ΥΖ: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА.
Применение этого результата все еще дает СС как частоту ассоциации для словосочетания ΥΖ.
Этап 13. Так как в документе больше не встречается ΥΖ, анализ переходит к следующему слову из документа А и изучается словосочетание ΥΖX (следующее слово после слова Ζ в позиции 3 в документе А). Переход к следующему словосочетанию (ΥΖX) и повторение процесса (ΥΖX встречается в документе дважды) дает следующие результаты.
Выданные результаты для первого вхождения ΥΖX находятся на позициях 2, 3, 4 и 5;
Сочетаниями являются ВВ, СС, АА, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ;
Выданные результаты для второго вхождения ΥΖΧ находятся на позициях 5, 6, 7 и 8;
Сочетаниями являются ЕЕ, ЕЕ, СС, СС, ЕЕ ЕЕ, ЕЕ ЕЕ СС, ЕЕ ЕЕ СС СС, ЕЕ СС, ЕЕ СС СС и СС СС;
Сравнение двух случаев дает результат СС в качестве частоты ассоциации для словосочетания ΥΖΧ; снова необходимо отметить, что возврат ЕЕ в качестве возможной ассоциации игнорируется, потому что оно встречается в двух случаях как одно и то же слово (т.е. в одной и той же позиции).
Этап 14. При переходе к следующему словосочетанию (ΥΖΧν) находим только одно вхождение; следовательно создание базы данных словосочетаний завершается и изучается следующее слово: Ζ (позиция 3 в документе А).
Этап 15. Применяя этапы, описанные выше, для Ζ, которое встречается в документе А 3 раза, получаем следующий результат.
Выданными результатами для Ζ1 являются: АА, ВВ, СС, АА, ЕЕ, АА ВВ, АА ВВ СС, АА ВВ СС АА, АА ВВ СС АА ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ;
Выданными результатами для Ζ2 являются: ЕЕ, СС, СС, ЕЕ СС, ЕЕ СС СС и СС СС;
Сравнение Ζ1 и Ζ2 дает СС в качестве частоты ассоциации для Ζ;
Ζ3 (позиция 10) не имеет выданных результатов в области, которая была определена. Однако если мы добавим к параметрам требование, что должен быть, по меньшей мере, один выданный результат для каждого слова или словосочетания на языке А, таким результатом для Ζ будет являться СС.
Сравнение выданных результатов для Ζ3 и Ζ1 дает СС в качестве частоты ассоциации для слова Ζ. Однако эта ассоциации не засчитывается, потому что СС в позиции слова 8 было уже засчитано выше в связи Ζ2. Если перекрывающиеся области приводят процесс к двойному счету вхождений, система может уменьшить частоту ассоциации для более точного отражения количества достоверных вхождений.
Этап 16. Переход к следующему словосочетанию дает словосочетание ΖΧ, которое встречается в документе А дважды. Применяя этапы, описанные выше для ΖΧ, получаем следующий результат:
Выданными результатами для ΖΧ1 являются: ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ.
Выданными результатами для ΖΧ2 являются: ЕЕ, СС, СС, ЕЕ СС, ЕЕ СС СС и СС СС;
Сравнение результатов дает ассоциацию между словосочетанием ΖΧ и СС.
Этап 17. При переходе к следующему словосочетанию, следующей фразой является ΖΧν. Оно встречается только один раз, поэтому изучается следующее слово (Χ) в документе А.
Этап 18. Слово Χ уже изучалось в первой позиции. Однако вторая позиция слова Χ, как исходная для остального документа, не была изучена на предмет возможных выдаваемых результатов для слова X. Таким образом, слово Χ (во второй позиции) сейчас обрабатывается как при первом вхождении слова Χ, продвигаясь далее по документу.
Выдаваемые результаты для Χ в позиции 4 дают: ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ.
Выдаваемый результат для X в позиции 9 дает: СС.
Сравнение результатов позиции 9 с результатами позиции 4 дает СС как возможное соответствие для слова Χ, и это дает частоту ассоциации.
Этап 19. Переход к следующему словосочетанию (так как просматривая документ вперед, более не встречаем вхождения Χ для сравнения со вторым вхождением Χ) дает словосочетание Χν. Однако это словосочетание не встречается более одного раза в документе А, поэтому процесс переходит к изучению следующего слова (V). Слово V встречается в документе А только один раз, поэтому происходит переход - не к следующему словосочетанию, так как слово V встречается только один раз, а к следующему слову в документе А - V. Слово V встречается в документе А только один раз, поэтому изучается следующее слово (Υ) . Слово Υ не встречается в любой другой позиции выше, чем позиция 7 в документе А, поэтому изучается следующее слово Ζ. Слово Ζ встречается еще раз после позиции 8 в позиции 10.
Этап 20. Применяя процесс, описанный выше для второго вхождения слова Ζ, получаем следующий результат.
Выданные результаты для Ζ в позиции 8 дают: СС, СС и СС СС;
выданный результат для Ζ в позиции 10 дает: СС;
сравнение результатов позиции 10 с результатами позиции 8, не дает ассоциаций для слова Ζ.
Снова слово СС возвращается как возможная ассоциация; однако так как СС представляет ту же позицию слова, что и при анализе Ζ в позиции 8 и позиции 10, ассоциация не учитывается.
Этап 21. Переход к следующему слову дает словосочетание ΖΧ;
это словосочетание не встречается (далее) больше ни в какой позиции в документе А, поэтому процесс начинается снова со следующего слова в документе А - X. Слово X не встречается (далее) больше ни в какой позиции документа А, поэтому процесс начинается снова. Однако достигнут конец документа, и анализ останавливается.
Этап 22. Конечная частота ассоциаций представляется в виде таблицы, объединяя все результаты, полученные выше, и вычитая удвоения, как было объяснено.
Очевидно, что в документе А недостаточно данных для выдачи окончательных результатов для слов и словосочетаний. Чем больше изучается пар документов, содержащих слова и словосочетания с этими ассоциациями, которые изучались выше, тем более достоверными статистически будут становиться частоты ассоциаций, так что для слов или для словосочетаний будут созданы более сильные ассоциации между языками А и В для возможных переводов слов и словосочетаний.
Примером варианта осуществления способа создания базы данных, работающим совместно с компьютерной системой типа, известного в данной области техники, является следующая программа:
1ȣ<?
$ехс1и<1е__епд - атгау( 11С, * АСв’, 'а', Че’, ’шав', Чох’,’й©’,’оС1,, ‘СЬе’, ‘апб1,’Со', Чп', Ч£', 'ог* ’СЬаС', ’ЬЫа·, Чп сЬе’, 'аге·, ’о£ СЬе’, ’Ьу·, ‘Ье’, 'Со СЬе·, ’аз·, ’оп', ’аа’, ’аС’, 'шАСЬ*,' £хоп', 'Ье·, ·»1Ι1', 'Ьаа1, ’поС’, 'Ьу СЬе*, ’νονίβ·, ’вЬоиМ’, ’аа1й’, 4', ЬиС’,'во’,'Ьа<1·,’ыЬо','по·,'оп1у','Ьег', *о£ а', ’Ьеел', 'апб СЬе·,'ас СЬе');
$ехс1ис1е_£ге - аххау(
41’, ’е11е·, ’вап·, ’аа·, 'зев*, ’ип’, 'опе', 'евс·, 'еСаАс·, 'роит·, ЧаАхе’, ’арК®гег ', ’ровех,*йе',
Че’, Ча’, Чев', 'еС, ’Л ’, 'еп', 'в!', ’дие*,'ди!', ’се1иА*, ’се’, 'сев*, ' сеС ,1 сеС Сев’,'йапв 1е', 'бапв 1а', 'вопе, 'άβ 1а ,'0и',‘ргК’в йе','йе',’йархК'в',‘рах1,’ХаСге','Я
1а',’аи1,’аих*, ’септе','вА·, 'еп ауапс , 'виг', ’ип’, ’ипе', ’уегв', ’ауес·, 41’, 'дхЯ®', ’νοΙοηχΑ®’, ’άβνοίΓ1, ’Я*Сге λ оЫАдЯ®',1 дАваАС , ‘(НваАв1, ’йАвепС’, Че', ’ваАв', ' в1’ ,'ои·, ’ауаАс', ’аУаАв', ·κν аАепс* , 'φΐΐ', 'дие','поп*,’веиАешепС’,'е11е*, 'еС 1е*,'еС 1а*,*еС 1ев','Дев’,'Аапв'); $схс1ш1е_вра “ агхау(
Ίο*, 'е11а·, 'ви*, ’ип*, ’ипа*, 'ев·, Чие’, ЧиА', 'рог', ’раха', ’Ьасех’, 'Ьасеп*, *е1 1ов*, е11ав', ’ с1е ’, *е1 ’. ’1а·, Чоа', 'у', ’ЬаеЕа*, ’еп’, ’в!', 'еве·, 'чие', 'адие11о’, ’ади «11а*, *еаСе*,’евСо’, ’евСХ|’, 'ехее*, 'яоп*, 'Йе1*, ’сегса','а!
1айо*,’евСаг’,•аег·, ’а1·,'сото’, ’епсепсНйо·, ’ип*, ’аггоЬа*, 1 соп*, 'άββάβ*, *Я®1‘, *Уо1шСав*, ’ САепе*, ’Ьау, 'ОвЬех ', 'М3о', *уо*,'рего*, 'вАпо', ’авХ-1, 'Сап', Ό', 'ЬаЬЛ-а*, 'диАеп', ’ди!Я®п*, 'по', *аЯ*1о*, *· о1атепсе*, '1а1,'Ьа еАво’);
$<1Аг - аЬеЬ£геа/ $1Аг<Зопе - ЬеЬ£хе<1опе;
$1апд · а.епд·;
$О1апд - .£ге;
$СаЫе - ЬеЬ£гв;
$1апдиадесоипС а1апдсоипС;
$1апдиаде - 1апд;
$о1апдиадесоипС > о1апдсоипС·;
$о!апдиадв - *о1апд;
#$АеЬид « Сгие;
£ипсСАоа деСщАагоС1гав() ^1АаС{$ивес, $аес) еар1ове(* ·,«Αβτβε$«Λ(Η τ хеЬигп. |(С1оаЬ)$паес + (£1ОаЕ)$аес>,
5а11яС*ГС « двЕийогоЫлвО/ $£р - «ореп(’,/мг7Юс*1/вр*аЬе/1од.СХС“, ’«+·);
£рисв ($ίρ, ЧСагсАпд •*4аСж(*И4»·’’) Л«ВЖ»\п·) ί «А1а11вс - . .
£А1е(,ЬсЕр»//12В.э*1.2*4.1бв/1АяС-рЬр?аАх»₽йАгЦжад^1лпд·) ;КсЬааде > 1ιαρ1οά*(·»4£1^·11*ΐϊ Г $1Авс « всгсо1о*ег№4а(№вф)), ♦тЛпахгау - 1 в«С ((яаАмххау) / хевесСйпаАямххау);
$£А1мгх*ау - ахтауО, $са1а « б ι £0Г - 0 ; $Е < оошхъ ($шаАажггжу) / <Е++)#соипС(»»1паггжу) сЪапд* ϋ (£11« ехА8Ьа(вСх_гер1асе(41апд,?о1апд,ИаАраггау(ви)}) <
$сиф - ?п»1ттхтгу1$С] >
ЗДЬаСЗапАпахтпуКС]'*);
ипвеС ($сап^Э) £ш (<« ~ о , < сопас(4саяр1) ι
1£ (всх«№<4ъеарХ(4аСг·.«ааес($Ьмр1 [$]);
$сея^1[|и] » ехед1_сер2ас>в( [['8раое«11+**, а,аСгАр_ъаде($Ъеаф1[$в1]))) $СМр1[$тп1 уг1йвСрав(впг_г*р1аса1ввЬСаЬ,’‘,',а.$Ье«©1[£т]) ί;
А£ ($с«Ф1(4п4 1« *) «СеофЗ .« $се«р1($п];
} ♦£11оахт»у [а$Смфа] - 11С£В апеове($Св1ф2);
«т*н ~ $Сегер йБг_гер1асе($1а1>д,4о1ап0.9та1паххау[$с1);
Вс*яф1 » £11«(ег.рарХаааЙХала,$о1*пд,$и*А11*тхау($С1}) / ипяес ($сеяф2); , £ох - о ί $« « еоипс 1?сеяр1) ; $«*+>
{
1£ (вСхвСх «Саар! ((ж) 5 ипааС(£с«цр1($т]) г ^СагарН^Уа] « «пд1_хвр1асаС 1С:ар&с«:1]*, ‘.аСгАр^ЬадвСвселрНЗД) Н $Смр1($«в) » иг14есойе(вЬг_хар18ее<а<11СаЬ;а,в',*С«мр1(ЭД));
1ί (НеярА($пЗ ι. ’) $Саврз -- 9с4яр1[(а);
} $£11еаггау(а$саф*] ·» и££В_апсо<1е{$смрЗ);
СрМС» ($£ρ,Α·η·(Μ>Α:Β*) .<ΒΚ>ι1οη· 1о«ДАпд £Ц«в 1пСа аххжуЛи**);
Зайамохйв ’Сгм’;
$сСехЗо « сош>С($Оа1яапау);
¢6 0;
£сг - 0 ι < «сСосЬ ; ?С++|
1£ (£А1е_ех1вС8 (вСг_гер1асе($1апд,$о1апд1 $пшАпаххау[$С]))) $£А1ехАэС » аЬгие·;
е1ве ипвеС($£11ехАвС);
ргАпС £А1ее - $£11ех1вС * $та1пагхау[$С] \п;
1£ ($беЬид жж Ссие) $£11ех1вС ж Сгие;
1£ ($£А1ех1вЕ «» Сгие) {
А£ ($таАпагхау[$с] && $йеЬид 1« Сгие) {
вувСепСплг $та1пагхау Г$С} /ивг/1оеа1/врасЬе/$а1гйс>пе/’' .8Сх_хер1асе {а/ивг/1оса1/арасЬе/$<1Аг/, $таАпаг гау[$С])) ι вувСетСпгх . вЬг__гер1асе ($1апд,$о1апд, $таАпаггау [$С]) .'* /ияг/1оса1/арасЬе/$<1±г<1опе/ .в£х_гер1асе($1апд,$о1апд,8Пх_гер1аае (/ивх/1ос«1 /арасЪе/$дАх/, $та1пагхау [$С]))) ι }
$1пд ж $£А1еаггау [$та!пагхау[$С)) ;
$о1пд « $£11еаггау (вСг_гер1асе($1апд, $о1апд, $гаа1паггау |$С))] ;
$1пдв - ехр1ойе{ ”,$1пд);
£ог ($1 ж о ; $1 < соипС($1пдв) ; $А++) {
А£ (Iегед(·Ца-зА-г],$1пдэ [$А])) $1пда($А] ж вСгСоАомег($1пдв($А));
} $о1лде ж ехр1о4е('* ’,$о1ад)г £ог ($1 0 ; $ΐ < соипС($о1пдв) ; $А++) {
1£ ((егедС£Аа-хА-31,$о!пдв($А])) $о1пдв[$1] вСгЕо1о«ег($о1пде[$ί]>;
} $виле соипС($1пдв);
$вив>Ь соипС ($о1пдв);
1£ ($вите > $аил1Ь) { $тагдАп - гоипй($вите / {$вите - $витЬ)); $асСАоп 8(1(1; } е1веА£ ($витЬ > $вглпе) { $гаагд!п ж (гошиА($витЬ / ($вигаЬ - $випе))),· $асС1оп ж виЬ; } е1ве { $тагд1п ж 1; $аеС1оп ж ^иЬ; ) $пшпЬег ж соипС($1пдв); * £ог - $С+1 ; $3 < $сСобо ; 5ί++) # гааАп 1оор, хоСаСе ЬеСмееп СЬе £А1ев Со Ье сЬескеА.
{ ·
А£ (£11е_ех1вСз(вСг_гер1асе($1апд,$о1апд,$1паАпагхау[$Л))) # сЬеск £А1епате паСсЬ.
{ $£11е_вСагС деЕтАсгоСАте();
ипвеС($агхау);
$агхау ж ахгауО;
$1пдСр в $£А1еахгау[$паАпаггау[$Л ];
$о1пдСр а $£А1еаггау £вСг__хер1асе (51апд, $о1апд, $таАпаххау [$5)) ] ,$1пдвСр в ехр1ойе( ,$1пдСр);
£ог ($А · 0 ; $1 < соипС<$1пдвСр) ι $1++) { 1£ Оегед(11 [ла-яА-2] ,$1пдвСр ί$Α))) $1пдаСр [$А] ж вСхСо1оиех($1пдвСр £$А])ι $о1пдвСр в ехр!о<1е(“ а,$о1пдСр);
фа++) фЗлдакр [фи+фр] ы 61ад«Ср [$П+$Р1
Ы, 1еГад(’(0к сиЬ*ьх(8ъь«ы,о,а) ΐ.
Сох ($1 · 0 ; $1 < сотшЕ ($е1лдв«р) 91м·) ^1£ (1«гвд(»Гв^Л-2],9о1»в»Ч>«Л])) ЮШдвЕрШ) выса2о«ег (?о1лд«ер (81)) ζ }
фашаеср « соиаЫЦадаСр! ζ фвшмр · осшл(|й1пд»ср); г
1£ (ФгашЕр » фвшокСр) { $га»Г81аер - ххэипй (фаимкр / (ФашваБр $аияМр}); фасЫор · *М; ) е1*е1£ (фашакЪр < фгсвеер) { 9оахд1аср - (гоип4(фаивьер / ($аипкср фвияеСр))); фасСХоо · Мй>'> } а1в· { фаахдХлЛр «· 1; фжсЫсл · ·»Λ4» ) фтшрахар » вошь ($б1лдаЬр) г .
1£ (фйаЬцд ««> в«ив*) рг1йС Даке(вн-1-в“) .“<вв»\в; вот (¢1 - о } ¢1 < фвшЬех г ¢1++) *..... ’ ’ ( 1£ (ФК — $3) 8Я1 - 91 + 1« «1ве 5п1 · 0;
£ог ($п > фп! ι $п < фяииЬаткр т I шааЕ(фЕЪв«аиеЬ);
·₽ · Λ; «паеК(фЫиЬ) ;
91ааджк<з?Е - д«Еш1схпК1п>е 0 ,
И»11· ($р < 15 Ы 91пда[81+$р] I» в,)9вЬаск 1Д кЪ* $в моей· мей.
(фЕ1иЪ .- Ф1лдв [Φ14ίρ] . · *» фкЬаЫ Ех1т(?СЬеЬ); 1£ (юг<д(’,['-1а#9Ф*ь*О<»-+»-?.,;-./\]<,9КЬвЫ) «ж 5агад(в(О9)”,йи2»Сх.($еЪаЫ,0,1)) &Ь 1ехад(-л [О-9]*9а,фКЬеЫ)
М фКЫЫ 1» ’* КЬ »иЬв1г(5ЬЬвЫ,0,1) 1» 9} ’, виЬакт (8 ккаЫ, -и)
ЬЬ виЬ»Ег($ЕЬаЫ,-Д) )« ««иЬвсг(5ЕЬ*Ы,-1) и ьь фсъаы ΐ» ·· м фЕЬеЫ I- ’ (Л '
Дл^жггжу ($КЪеЫ, $еха1ийе_»пя)) $Ктцр “ фахтауТфкЪаЫ] (*ЬаЬгах_св] ,· (!$сир) *йех. иа1сове { · $лггжу[$еьеЪ1] [яЬ*Ьте* с·) *,$1.·,) «1ав1£ (1еКг<Кг($£вяр( ,|1, )) #η*ν, νβίοοηβ
ФаттвуЦКЪеИ) (ЬвЪгеш.сЧ $κ«θφ . 91, ·;
ФахЫа “ £1.оог ($1/$тагд1л); · гл (фавЫрв *4ά4·) { фахсгааа $1 + фохска - »5; фехКтаХд 91 + фехега + 4$; ] •1ае1£ (фасЫоа м аиЬ·) { фехЫмв * 91 - фахкга - <5, ФвХЕха1д - 91 - фахКса + 48; )
ЗЛ (фвхезгам < 0) фахЕтав» - О;
1£ (фвхкхаХд > фжижй) ?<хсха1д « ЗвивИ,фоХалдвЕагЕ * двЕт1сгоЫте();
£ог (фе - $ехЕгаат ; $е < $ехЕга1д; $в++) фехЕгал - £1оог($п/фтагд1пЕр) ;
1£ (фасЫол ’»άά“) { $ЬоЕ Фп + фехЕгал - 45; фЕор фа + фехЕгал +45; } βίββΐί ($асЕ1ол виЬ) { фЬоЕ $п - фехЕгал - 45; фЕор Фо - ФехЕгал +45; }
1£ ($ЬоЕ < 0) фЬоЕ - 0,1£ (фЕор > фаипЛЬр) $Εσρ фвитЬЕр; илааЕ($ЕЬс) ;
£ог (фх « фЬоЬ ; Фх < $Ьор ; $х++) # сЬеск ЕЬе еодИаЬ, 10 Ьаск авД 10 Согмагв.
( ипвеЪ(фЬепд);
ί£ (($е .. ФЗ м фх > $е] || $Ъ I- $3)« $а > фе ьь { $а > 0;
шЫ1е ($о1пда [$е+$а] — фоХпдвСр [$х+$а] && $о1пдв [$е+$а] &&
&& фЕелд ! ·* * &&
' { фкепд . · $о1пдв[$е+$а] ; феелд * ег1т($Сепд);
1£ (!егед1·#$%Λ&*()<>_+-?·,;ι/\],фЕепд) &ь 1агед(“ (0-9) ',в»1ЬвЕг (фЕепд,0,1)) 4Ь 1егед(ж [0-9] *$,$Ьевд) && фбепд I· ** &4 виЬвЕг(фсепд, 0,1) Г 1егед((0-9).виЬвЕг($Еепд,-1)) &ь виЬвЕг(фЕепд,-1) 1« && виЬвкгС && виЬвег(фЕепд,-1) I&& фЕепд 1' 11п аггау(ФЕепд,$ехс1иЛе_£ха)) { фЕепратгау “ атгау_кеув (фаггау [фЕЬеЫ]) ; 1£ (1а_аггау (фЕелд, $ьепраггау>) {
фЕеяр фаггау [$ЪЬеЫ] [фЕелд] ; 1£ (|вЕгвит(’фЪеп5·, ,$х, “) )# 4& (вСгяЕг (·$Εβιηρ1·, ,$е, )) < $аггау(фЛЬеЫ] [фЕелд] - фЕетр. *$х, ; } } е!ве ( фаггау[$ЕЬеЫ] [фЕелд] - ,$х, } } $а++;
} #еп6 о£ <Ы1е 1оор ) }# евй о£ £ог Ιοορ. }# ешЗ <з£ ваш 1оср $о1аадепй деЕш1сгоЫте (); φϋίηβΐ о $о1алдевй - $о1алдвЕагЕ;
££риСв ($£р,ггеисЬ νατά тпаЪвх фа о£ фвшйаегср Ьоок $«1м1\п”); 7* епД ф СО 5 ЪвЬг·* ЕоуеЕЬаг.
Фр++,} * авД о£ 4йЦ1е 1оор фр < 15 ф1апд«п4 - двыАсгоЫие () ;
9Ыма - Ф1аодел9 - ЦваяаклзЛ/ *£рдеа (Ф£р.*8пд11вЪ мэгв вивЬег ф! о£ 9та*«г Ъеок $иМ2\а’*);
1£ (еовах(фату) » 0) фйЗмсагЪ двЬЦсгоЫпвО ;
Фатжа - >СС5аь_ОСаОЩСТ(’127.0-0.1«,Ч«Л·);
фМцрЬаЬ » агхау_к«ув (фаггау);
£ог <91 0 ; 91 « οααπΕ(ФЪаярЬеЬ) ; ¢1++) (
$1вд « 5саор1»Ь[ф4) г
1£ (виЬаЕг о«т4:(ф»гт*у[ф1лд] [ЪсЬгем е·)»'.’) - 1 > 0) {
|1пдс » «йЬ«кг_С9Ш1Ь(9*п*У 19100) [11еЬгаХ_с] ·> 1;
фьспрр1пд аххау^кеув ($аггку{ф1вд]) ,9а - 1; · «ЬИа (фв < соом (9е«рфо1вд) и соиах ($смфо1вд) » 1)
Фо1ад - 9сацро1ад1$а);
Фо1лдс « ЮэаЪт_<соипЪ(9«хгау(ф1од1 [Фо1ад],.“) - 1;
Фдшху - ·4φ4βΕ« фЬаЫа век ЕоС«1 МС41+1 « 91аадиад«с0ШЕ ф1аадиадесо<111С+91адс , фвХшадиадвстша - Фо1апди*двсп»1ас+$о1о9а , Αχτίαΐβ соосжь(ах11с1«,\·, фва1шту(93) Xя) «Ь«т« (&г£1с1а аоЕ ИХа ·* Фкк1ааПГ<у(93] «* ахи! ф1апдиаде - ,в.жД4в1аяЪм(92ад)-а| алв фойалдиад· « ’в.аД9а1а«Ьаа(9а1лд).’·);
ЮТОЬС-ЪгаДп^'фдиаху,фангам)рг Л1а(92 Сав'К фдиаху .ютаь_8июл0);
Фаш - №,вО1иАГГБСГЕ>_КОИ8<факгеа·);
1£ (9аш ν* 0) {
9фиту - а1шегс Хдоога 1аКо фсаЫ· уа1пав<\аК0Ы>\в ,\·1\“, *в.авйа1ваЬм(ф1лд) .в.*.аАйа1авкаа (фо1пд) .«· ДвВ.а4йя1а вЪш(ф1ад).в\-Л«91лдс\вЛ’’-аАФ81*8Ьм(Фойд) -в\вЛвФФ1вдс\а,\в 8<*а1п*тхжу[ФЗ] \в)в;
т»01>(вЪха1аа,$дшгу,$аСГааа)ог Д1е(фЗ Сал'К Фдиеху .кхвэд.шояО);
)
9о++;
)
I )
ИХОД_а<08в (Факта);
ФДЬавД - д*Еа1схос1аа();
фК&я· « ФвЬааЛ - ФОЬоСаП;; £рикя (94р»“9Ь «оек фС1ак\а);
} }Ф£11«_аоа - даКп1сгоЕ£яв(};
} )
) $а11еМ м деЪт1сгоЪ1пе 0 ;
$Ъ1гев а $в11ет1 - $а118ЬагЪ;
£риСв ($£р,ЬЬе *Ьо1е аЪ1Ъ Коок $е1ше\па)/ £риКа ($ίρ, в£1па1: в.даЕв(вУ-т-<1 Н:1:в·) . - $св1с - <ВК>\п); £с1ове($£р);
?>
Как показано, этот вариант осуществления изобретения представлен способом, используемым для создания ассоциаций. Способ по настоящему изобретению не ограничивается языковым переводом. В самом широком смысле способ может применяться к любым двум выражениям одной и той же информации, которые могут ассоциированными (сопоставлены), в этом смысле перевод с иностранного языка существует просто как парная ассоциация одной и той же информации, представленной разными словами или словосочетаниями. Таким образом, настоящее изобретение может использоваться для ассоциирования данных, звуков, музыки, видео, или любого разнообразного содержимого, существующего в виде идеи, включающего в себя идеи, которые могут быть представлены любыми сенсорными (звук, образ, запах и т.д.) переживаниями. Все, что требуется, - это анализ при помощи настоящего изобретение двух реализаций (в языковом переводе реализация представляет собой документы, в случае музыки реализация может быть цифровым представлением музыкальной партитуры и звуковых частот, представляющих одну и ту же композицию и тому подобное).
В другом варианте осуществления изобретения, определенные алгоритмы, основанный на системе правил, хорошо известные в данной области техники, могут быть включены в исследование кросс-языковых ассоциаций для обработки текстов определенных классов, которые, в с точки зрения контекста и значения, являются взаимно заменяемыми (и иногда могут иметь потенциально неограниченное количество производных), такие как имена, числа и даты.
Дополнительно, если доступные кроссязыковые документы не дают статистически значимых результатов для перевода, пользователь может изучить возможные варианты переводов и других ассоциаций и утвердить и ранжировать подходящие варианты выбора.
Как было описано, частоты ассоциаций становятся между словами и словосочетаниями тем сильнее, чем больше документов в переводимых парах анализируется на частоты ассоциаций. При анализе документов на большем количестве пар языков, способ и устройство согласно настоящему изобретению начинает составлять выведенные ассоциации между парами языков, на основе языков, имеющих общие ассоциации с третьим языком, но не имеющих их непосредственно друг с другом. Кроме того, если переводимые документы существуют на множестве языков, могут анализироваться выдаваемые результаты общих ассоциаций между несколькими языками до тех пор, пока между всеми не останется только одна общая ассоциация, которая и является переводом. Ниже приведен пример компьютерной программы, которая (при работе совместно с компьютерной системой типа, известного в данной области техники) представляет способ, в котором данные на таких языках используются в варианте осуществления настоящего изобретения:
Также, если выражения в существующих состояниях искусственно снабжены атрибутами определенных ассоциаций с данными, указывающими на другое состояние, и каталогизированы в базе данных, то возможны преобразования между этими двумя состояниями. Например, если каждая идея (информация) представленная в форме, состоянии или языке, снабжена ассоциацией с электромагнитной волной (тоном), будет создано электромагнитное представление идеи. Как только данное количество идей будет закодировано в виде соответ ствующих электромагнитных представлений, данные (в форме идеи) могут быть переведены в электромагнитные волны и немедленно переданы через обычную телекоммуникационную инфраструктуру. Когда электромагнитные волны достигают устройства назначения, это устройство синтезирует волны в отдельные компоненты и, используя ассоциации (вместе с инструкциями задания, используя способ двойного наложения (перекрытия) , как это рассмотрено в данном описании, и/или другие возможные способы), представит отдельные идеи, которые были переданы при помощи электромагнитных представлений.
2. Способ и устройство для преобразования идеи.
Другой аспект настоящего изобретения относится к предоставлению способа и устройства для создания второго документа, содержащего данные во втором состоянии, форме или языке, из первого документа, содержащего данные в первом состоянии, форме или языке, с конечным результатом, заключающимся в том, что второй и первый документы в основном представляют одинаковые идеи или информацию, и в котором способ и устройство включают в себя применение базы данных ассоциаций кроссидей. Во всех вариантах осуществления способа перевода используется метод двойного наложения для обеспечения точного перевода идей из одного состояния в другое. Напротив, известные переводящие устройства в данной области техники были ориентированы на перевод отдельных слов или использование определенных, основанных на правилах, кодов, для облегчения перевода с одного языка на другой язык. Настоящее изобретение, применяющее способ двойного наложения, позволяет словам и словосочетаниям быть органично связанными, и выдавать точные переводы в их верном контексте в точном соответствии с тем, как эти слова и фразам были бы написанным на втором языке.
В варианте осуществления данного изобретения способ для создания базы данных и способ двойного наложения объединены для обеспечения точного языкового перевода. Языки могут быть любого типа преобразования и не ограничиваются разговорными/письменными языками. Например, преобразование может охватывать компьютерные языки, определенные коды данных такие, как ЛС8П и им подобные. База данных является динамической, т.е. база данных расширяется по мере поступления контента, вводимого в систему перевода, при успешных итерациях системы перевода, использующей контент, введенный в предшествующее время. В предпочтительном варианте осуществления данного изобретения используется компьютерное устройство такое, как персональная компьютерная система, легко доступного типа при настоящем уровне техники. Однако данная система не нуждается в использовании такого компьютерного устройства и может легко быть реализована при помощи других средств, включающих в себя ручные способы создания базы данных и перевода.
Настоящее изобретение может использоваться на обычных компьютерных системах, имеющих, по меньшей мере, средство отображения, средство ввода и средство вывода, и процессор. Средство отображения может быть любыми из легко доступных при настоящем уровне техники, такие как терминалы с электроннолучевой трубкой, жидкокристаллические дисплеи, индикаторные панели, и им подобные. Процессор также может быть любым из тех, которые легко доступны и используются в компьютерной среде такие, как устройства, которые позволяют компьютеру работать, выполняя настоящее изобретение. В заключение, средство ввода используется для предоставления возможности ввода документов в целях создания базы данных кросс-ассоциаций; как описано выше, конкретные способы ввода для преобразования в цифровой вид могут различаться в зависимости от потребностей пользователя.
а. Ручное создание базы данных и перевод при помощи способа двойного наложения.
Ниже описан пример варианта осуществления способа и устройства для перевода документа с первого языка во второй язык согласно настоящему изобретению, причем кроссязыковая база данных создается путем запроса пользователя для переводов слов и словосочетаний, также как и автоматическая генерация сегментов переводов с использованием способа двойного наложения.
С целью описания предпочтительного варианта осуществления изобретения, будет использован пример, в котором данные на английском языке переводятся в данные на языке иврит. Такой выбор предназначен только для целей описания и не является ограничивающим отбором первого и второго языков.
Согласно предпочтительному варианту осуществления настоящего изобретения компьютерная система действует для создания базы данных ассоциаций между переводами с английского на иврит. Способ перевода содержит, по меньшей мере, следующие этапы:
Первый, данные на английском языке вводятся в компьютерную систему.
Второй, все введенные слова английского языка сначала изучаются слово за словом. База данных будет выдавать известные переводы слова на иврите. Если перевод не включен в базу данных, тогда компьютерная система выдает запрос пользователю для ввода подходящего перевода. Таким образом, если базе данных не известен эквивалент на иврите для введенного английского слова, компьютер запросит пользователя о предоставлении подходящего эквивалента на иврите. Пользователь затем делает перевод и вводит указанный перевод в базу данных. При последующем использовании компьютерная система работает с базой данных таким образом, что перевод известен благодаря его вводу пользователем раннее. Таким образом, на втором этапе введенные данные изучаются в своем грамматически разнообразном состоянии - т.е., слово за словом - и подходящие переводы или выдаются (благодаря работе базы данных) или вводятся в базу данных.
Третий, введенные данные изучаются таким образом, чтобы расширить грамматически разобранные (разделенные) сегменты. Например, если данные были сначала грамматически разобраны (разделены) в виде слово-за-словом, способ перевода настоящего изобретения затем изучает введенные данные путем обработки двухсловных словосочетаний. Снова, способом сходным с описанным выше, база данных выдает переводы для двухсловных словосочетаний, если они известны; если неизвестны, система перевода запрашивает пользователя для ввода подходящего перевода для всех возможных двухсловных словосочетаний. Все перекрывающиеся сегмента из двух слов затем сохраняются в базе данных. Например, если словосочетание состоит из четырех слов, тогда база данных проверяют, просматривая, имеются ли следующие комбинации, уже переведенные, в памяти: 1,2 2,3 и 3,4. Если нет, она запрашивает пользователя. Необходимо отметить, что только специально кодированные переводы для двухсловных словосочетаний будут выдаваться в качестве точных переводов, даже если бы база данных содержала бы в себе определение каждого слова в силу второго этапа, описанного выше.
Четвертый, если переводы на иврит двух перекрывающихся двухсловных словосочетаний на английском языке имеют общее слово (или слова), система работает, комбинируя перекрывающиеся сегменты. Избыточные сегменты на иврите в наложении удаляются для обеспечения связанного перевода словосочетания из трех слов на английском языке, которые создаются путем комбинирования двух перекрывающихся словосочетаний на английском языке (и удаляя избыточности в наложении на английском языке). Вышеописанные этапы повторяются снова с первого до неопределенно большого количества этапов (п) для того, чтобы обеспечить подходящий перевод. Способ перевода работает автоматически путем верификации согласованных словосочетаний, которые объединяют введенные блоки в двух языках путем наложения. Такой автоматический анализ для перекрывающихся наложений, которые являются согласованными на двух языках, обеспечивает некую языковую сеть, которая выполняет переводы между двумя языками с совершенной точностью, как только база данных достигает критической массы.
В качестве примера рассмотрим фразу на английском языке I \ν;·ιηΙ ίο Ьиу а саг. При исполнении способа по настоящему изобретению эта фраза будет введена в компьютер, на котором реализована база данных. Компьютер определяет, включает ли в себя база данных эквиваленты на иврите для следующих слов: I, \ν;·ιηΙ. ίο, Ьиу, а и саг. Если такие эквиваленты известны, компьютер вернет эквиваленты на иврите. Если такие эквиваленты неизвестны, компьютер запросит пользователя для предоставления подходящих переводов на иврит и сохранит такие переводы для дальнейшего использования. Далее, компьютер грамматически разбирает (разделяет) предложение на двухсловные сегменты с наложением: I ναηί, \ν;·ιηΙ ίο, ίο Ьиу, Ьиу а и а саг. Компьютер выдает эквиваленты на иврите этих сегментов (например, эквивалент на иврите I \ν;·ιηΙ и т.д.); если такие эквиваленты неизвестны, тогда компьютер будет запрашивать пользователя для предоставления подходящих переводов на иврит и сохранит такие переводы для дальнейшего использования.
Настоящее изобретение затем будет изучать сегменты из трех слов I \ν;·ιηΙ ίο, \ν;·ιηΙ ίο Ьиу, ίο Ьиу а и Ьиу а саг. В этой точке процесса настоящее изобретение пытается комбинировать каждую пару переводов на иврит, чьи двухсловные переводы на английский имеют наложения, и комбинировать для создания запроса для каждого английского перевода из трех слов (например, I \\шИ и \ν;·ιηΙ ίο комбинируются с образованием I \ν;·ιηΙ ίο). Если сегменты на иврите имеют общее наложение, которое также их соединяет, способ перевода автоматически утверждает трехсловное словосочетание на английском как перевод на иврит, без какого-либо вмешательства пользователя. Если сегменты на иврите не перекрываются и не комбинируются, точный перевод запрашивается у пользователя. После попытки подходящего перевода для английского словосочетания из трех слов, процесс переходит к словосочетаниям из четырех слов, и так далее, пытаясь автоматически принять решение, используя кроссязыковые наложения, комбинации переводов до тех пор пока сегменты полностью не будут изучены (в данном случае, полная фраза I \ν;·ιηΙ ίο Ьиу а саг). Способ по настоящему изобретению после прохождения через все этапы анализа, далее сравнивает выданные эквиваленты перевода, удаляет излишки в перекрывающихся сегментах, и выдает переведенную фразу пользователю.
Ь. Перевод документа при помощи базы данных ассоциаций и способа двойного наложения.
В качестве другого предпочтительного варианта осуществления настоящее изобретение может переводить документ на первом языке в документ на втором языке используя кросс языковую базу данных, описанную выше, для обеспечения переводов словосочетаниями слов и словосочетаний в документе, и затем комбинируя перекрывающиеся словосочетания на втором языке для обеспечения перевода документа, применяя кросс-языковый способ двойного наложения, описанный выше. Например, рассмотрим базу данных с доступом к достаточному количеству кросс-языковых документов для разрешения компонентов следующего предложения, введенного на английском и предназначенного для перевода на иврит: 'Ίη аббйюг1 ίο ту псс6 ίο Ье Ιονβά Ьу а11 ίНс дг15 ίη ίονη, I а1\уау5 \уагиеб ίο Ье 1<ηο\νη а5 Ше Ьей р1ауег ίο есег р1ау οη Ше №\ν Υογ1< щае Ьаккей Ьа11 ίеат.
На протяжении процесса, описанного выше, способ манипулирования может определить, что фраза 'Ίη ηΗΗίίίοη ίο ту псс6 ίο Ье Есеб Ьу а11 61с диЦ является самым большим словосочетанием из документа источника, начинающееся с первого слова документа источника и существующее в базе данных. Оно ассоциируется в базе данных со словосочетанием на иврите ЬегюхаГ 1ίζοι4ι кйей 1ί1ιίοί айис а1 уебау Ш йаЬайш-οί. Затем процесс определяет следующие переводы, используя способ, описанный выше - т.е., самое большое сочетание слов из текста для перевода (и существующее в базе данных) с одним словом (или, альтернативно, с большим количеством слов), которое является общим с предварительно идентифицированным английским словосочетанием, и два перевода на иврит для этих перекрывающихся английских словосочетаний так же содержат перекрывающиеся сегменты: 1ο\ό6 Ьу а11 Ше д1г15 ίη ίονη переводится как айис а1 уебау Ш йаЬайш-οί Ьшг; Ше дп18 ίη ίονη, I айсаух \\'агиеб ίο Ье 1<ηο\νη переводится как НаЬайшШ Ьшг, ί3ΐηί6 Γηίζίίν Κΐιίοί уайиа ^ίίοΓ йахайкаи йасй1 ίον; и Ше Ьей р1ауег ίο есег р1ау οη Ше №\ν Υογ1< ^е ЬаккеШай ίеат переводится как ка^айкам йасй ίον 5й йау раат щйек Ьекνиίζаί йакабиг§а1 5йе1 тебйи-и псс \όγ1<.
С этими выданными результатами из базы данных, будет выполняться сравнение перекрывающихся слов и словосочетаний и удаляться избыточные части. Таким образом, ’Ίη аббЕши ίο ту псс6 ίο Ье Есеб Ьу а11 Ше д1г1к переводится как ЬегюхаГ 1ίζοι4ι вйей 1ίΗίοί айис а1 уебау Ш йаЬайш-οί; и 1ο\ό6 Ьу а11 Ше дп18 ίη ίο\νη переводится как айис а1 уебау Ш йаЬайш-οί Ьшг. Используя способ настоящего изобретения, система берет английские сегменты 'Ίη аббйюг1 ίο ту псс6 ίο Ье Есеб Ьу а11 Ше д1г1з и 1ο\ό6 Ьу а11 Ше д1г1к ίη ίο\νη и выдает сегменты на иврите ЬегюхаГ 1ίζοι4ι вйей 1ίΗίοί айис а1 уебау Ш йаЬайш-οί и айис а1 уебау М йаЬайш-οί Ьшг и определяет наложение (перекрытие).
На английском фразы:
Ιη аббШог1 ίο ту псс6 ίο Ье 1оус6 Ьу а11 1йс §ϊγ18 и 1оус6 Ьу а11 1йе д1г1з ίη ίονη. Удаление наложения дает: Ιη αάάίΐίοη ίο ту псс6 ίο Ье 1оус6 Ьу а11 1йе дИН ίη ίονη.
На иврите фразы:
Ьегю^аГ 11хогее11 §Не11 ΗΒίοί аНиу а1 уебау ко1 НаЬаНшШ и аНиу а1 уебау ко1 НаЬайиго! Ьшг. Удаление наложения дает: Ьегю^аГ Нхогссй ШсН 1 ίΗίοί аНиу а1 уебау ко1 НаЬакиго! Ьшг.
Затем настоящее изобретение оперирует со следующим анализируемым сегментом, продолжая процесс. В этом примере процесс манипулирования работает с фразой ННе дИН ίη ίονη, I аШауз уаШеб ίο Ье 1<ηο\νη. Система разрешает английский сегмент Ιη аббШог1 ίο ту псс6 ίο Ье 1оуеб Ьу а11 Ше дИ18 ίη ίονη и новое множество английских слов Ше дик ίη ίονη, I аШаук νаηίеб ίο Ье 1<ηο\νη. Соответствующим множеством слов на иврите является Ьегю^аГ НхогссН ШеН Ιίΐίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг и соответствующее множество слов на иврите НаЬаНшШ Ьшг, ίат^б Γηίζίίν 1 ίΗίοί уаНиа. Операция удаления наложения дает в английском варианте следующее: Ιη аббШог1 ίο ту псс6 ίο Ье 1оуеб Ьу а11 Ше дик и 1оуеб Ьу а11 Ше дик ίη ίονη и Ше дик ίη ίονη, I а1\уау5 νаηίеб ίο Ье 1<ηο\νη в Ιη аббИют! ίο ту псс6 ίο Ье 1оуеб Ьу а11 Ше дик ίη ίονη и Ше д1г1з ίη ίονη, Ι а1\уау5 νаηίеб ίο Ье 1<ηο\νη.
На иврите операция с наложением дает следующее:
Ьегю^аГ НхогссН кНс11 ΙίΗίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг и НаЬаНшШ Ьшг, ίат^б гаШНу ΙίΗίοί уаНиа дают Ьегю^аГ НхогссН кНс11 ΙίΗίοί аНпу а1 уебау ко1 НаЬаНшШ Ьшг, ίат^б πιίζίίν 11Πίοί уаНиа.
Настоящее изобретение продолжает операции такого типа с оставшимися словами и словосочетаниями в переводимом документе. Таким образом, в примере предпочтительного варианта осуществления изобретения следующими английскими словосочетаниями являются Ιη аббИют! ίο ту псс6 ίο Ье 1оуеб Ьу а11 Ше дик ίη ίονη, Ι аШауз νаηίеб ίο Ье 1<ηο\νη и Ι а1\уау5 νаηίеб ίο Ье 1<ηο\νη а§ Ше Ьей р1ауег. Переводы на иврит, выданные базой данных для этих фраз: Ьегю^аГ НхогесН ШеН ΙΠιίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг, ίат^б гаШНу ΙΠιίοί уаНиа и 'Тпгиб πιίζίίν ПНЮ уаНиа ЬсНог НахаНкаи НасН1 ίον. Удаление наложения в английском дает: Ιη аббИют! ίο ту псс6 ίο Ье 1оус6 Ьу а11 Ше дик ίη ίονη, Ι а1\\гау5 νаηίеб ίο Ье 1<ηο\νη а§ Ше Ьей р1ауег. Удаление наложения в иврите дает:
Ьегю^аГ ИхогесН ШеН ΙίΒίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг, ίат^б πιίζίίν ΙίΒίοί уаНиа ЬсНог НахаНкаг! НасН1 ίον.
Продолжая процесс, следующим словосочетанием является: Ιη н66Шоп ίο ту псс6 ίο Ье 1оус6 Ьу а11 Ше дик ίη ίονη, Ι аШауз νаηίеб ίο Ье 1<ηο\νη а§ Ше Ьей р1ауег и Ьей р1ауег ίο сусг р1ау οη Ше №ν Уогк МгПе Ьа8кеШа11 ίеат. Со ответствующими фразами на иврите являются ЬегюхаГ ИхогесН ШеН ΙίΒίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг, ίат^б гаШНу ΙίΒίοί уаНиа ЬсНог НахаНкаг! НасН1 ίον и На^аНка!! НасН1 ίον Ш Нау раат ЦНек ^^υζΗί Накабиг§а1 Ше1 тебНи-Н пс\у уогк. Удаление наложения в английском дает: Ιη аббШог1 ίο ту псс6 ίο Ье 1оус6 Ьу а11 Ше дик ίη ίονη, Ι аШаук νаηίеб ίο Ье 1<ηο\νη а§ Ше Нед р1ауег ίο сусг р1ау οη Ше №ν Уогк МгПе Ьазкек Ьа11 ίеат.. Удаление наложения на иврите дает: Ьегю^аГ ΙίζοίΐΛ ШеН ΗΒίοί аНиу а1 уебау ко1 НаЬаНшШ Ьшг, ίат^б гаШНу ΙίΒίοί уаНиа ЬсНог НахаНкаг! НасН1 ίον Ш Нау раат ЦНек ^^υζΗί Накабиг§а1 Ше1 тебНи-Н пс\у уогк, которое является переводом текста, который требовалось перевести.
После завершения этого процесса настоящее изобретение завершает перевод конечного текста и выдает текст.
Необходимо отметить, что выданные варианты являлись заключительными результатами для выданных вариантов ассоциаций наложений из базы данных в соответствии с процессом, описанным выше. Система в течение процесса в конечном счете не принимает выданный результат на втором языке, который не имеет естественных связей со смежными сегментами второго языка через наложение. Если бы какой-либо выданный результат на иврите не имел бы точного наложения со смежным словосочетаниемассоциацией на иврите, он был бы отброшен и замещен словосочетанием-ассоциацией на иврите, которое перекрывается со смежным словосочетания на иврите.
Пример предпочтительного варианта осуществления настоящего изобретения использует следующую компьютерную программу, работающую совместно с компьютерной системой типа, известного в данной области техники:
1ί «Лай — ·\\·) мсвлг .1еШГЛйг..П.еиг « '^'·ι
9ФШГУ - -8·1ΟΛ «иемг £хс» - -««о* «г ‘ · кхвоь_еккОв(Н ;
• 1« ((«ваьжомюэиг(вг«вп1Ю >
»1 а*, гасихп 8Ьг1р81Ж«Ь«*(5иЬ*Ы ί , 9ж«, Зим», г «олаеав, •ι, $1видеа Ъо1апд)
8{|о1жйд) - «оамал;
- ·»->
ία- «1 - $т ί $1 < ; $1+*» *· $»-« + соиас($м*аЬ ипевЕ (ВпехЬногбтаСсЬ) ;
1£ ($8расеаббгезз($ят+1]) $йех£когсЬпаСск - $1апд 11ке ' .вСх_гер1асе(’%я, *я,Г:г1т($8Ъг1пд.$врасеаббгавв [$вт])). %1 ог;
Вдиегух - веХесС $Хапд,$о1апд £гот 5б1сЬ1опагу_Ь ыЬехе $пехЬ4огбтаЬсЬ $1апд - 1 * .в6г_гер1асе(4я,,Сг1га($яЪхХпд.Варасеаббгеев [$βπι))) .' апб $о1апд о 11 отбег Ьу $Хапд базе, 1епдЪЬ($1апд),$оХапдбевс, 1еадеИ($о1апд) бевс?
$геви1СХ - №80Ь(ят1п1ЬивЬя, я$диехуХя) ог б1е(сап'Ь етгог #2 - ’$диегу1· . музоь_ииюн())?
о?
«ЫХе ($Ь < МУЗбЬДГОМЙ0НЗ($гвви1е1))# && $СетрааСсЬ 1- уев) {
11вС(${аЪешря.$1алд}, ${яСетр.$о1апд}) МУВ01|_ГВТСН_1ЮН($хвви1е1); $Ьетртеап « ехр!обе( л,$(Ьепф.$Хапд});
$Сепропеап - ехр1обе( ,${гетр.$о1апд}) ;
$Сд м $т;
$Сш » 0} ипвеС(ЗЬевртаЕсЬ);
«ЫХе ($Ьд < соипС ($Ъетртеап) + $т) {
1£ (($врасеаббгевв[$в+$£д) — $Сетртвал!$Ът]) Ь& ($ЪвтртаСсЬ 1« по)) $ЬетпрпаЪсЬ - уев·; * еХве ВЪетртаСсЪ - по;
$Ьд++;
$ЬП>++;
}
1£ ($ЬетртаЬсЬ -- уев £& зиЬвЪг_соипС ($1опдевкгеви1Ъ, ) <» виЬвЕг_соипе(${яеетр‘.$1апд}, *)) ВсЬескя 1£ СЬа нем ονβτίβρ 1е таСсЫпд ЬЬе СгапвХаЫоп гедиееС.
$1опдевЕгееиХЪ “ ${Сетпр.$1апд); $отеап - ехр1обе($£еп1рогзеап[0] ,${$о1апд}>; $Со » соипС($оетеап) - 1; .
$ЪсЬескЬ виЬвСх(${а£епф’,$оХапд), 0,вСг1еп[$Се<протеап[0])); 1£ ($овтеап[$Ьоз] «- $Ьегаротеал [0] Ь6 ίβββΡ($овтеап[$Ьов))) {
1£ (соипЪ ($теал) + соипЬ($Сетртеап) - 1 > $тах) * в1пдХеъюгб оуегХар {
$тах $т + соипЪ ($Ьеиртеа&);
$пв - $п;
$Ьо1апд » ${$о1апд} . виЬэЪг ($(Сетр.$оХапд), аСг1еп($сетроа*еап[0]));
$оуег1ар ’Ьгие;
} еХва } е1ве1£ $Сепр<хпеап [1] <
1£ (соипС ($я»еап) + сохшСЮСепдетеап) - 1 > $гаах) # в1пд1е«огб оуегХар { $тах - $т + соипЬ($Св1Гртеап); $пв - $т;
ВйоХаад - $($о1*ад} . «ЬЛг (в{Ьея1р·. Во1*пд}, аЬг1м(Вевирсааап (о 1 $огах1ар - Ехие;
} оХвв )
•1ва1£ ВЕвармеавГх] ££ (©аим ($мап) + оошй (Вьепртаа») - X > Влах) 9 ·1η51·*οτΰ о**х1ар *48Х · В· -* ссшл ((емфимв) 1 $08 $Ъо1*сд · 4{$о1ид} . аиЬаЕг(${аЕецра .ВоХаад} ,вЬг1вп($Ее1фомаа(0}. · .ΒΕββφΟΟβκαΙΐ]. ’. Вйаирстгад (21) ) ?
ротах1ар а •Ьеи·;
)
Хее фЬеородесЪ * по·;
•1М11 (виЬаЕт_евШЕ(9{$аХаад}(“ “) — о и ВЬсЬсбкЬ ·* СхХвЧепЬвсх С8($о1апд), 1))) ί
А£ (соиве (Сама! * ссшхс (Иепфпмп) - 1 > Вшах) * в1лд1аиогб о*сх1ар {
$тах }в + ооипс (дывфвмп) ;
9ν» · Ви;
ВоХаодпХяпв аиЪасг(В{“*еяфа..Ве1а»д},вет1еп(${$о1а11д})); ВкоХаад а ${$о1аПд] - · . ВоХидвЦхШя;
Воуегйар “Стие;
е1ва4£ <8иЬвкг_соипС(4{$о1апд], ·] — о &ь в«Ьак£_с0ШЬ«(аевара7$оХапд}.' ) 01 * епдИвЬ оуегХар ЬеЬх» ом *огб со1у.
{ . Ваах “ $а ♦ ооипй (Всмраеап);
Ва* · $а; #Ъо1авд — $(|о1апд} . ВолгегХар Сги·;
) е!«* { ВСаиртаЬсЬ по·;
)
1£ (Встуег1ар аа СпйЧ
Ввжп а ажрХоДа( *.$Свкрспеап[01,${В1«пд}}; Всо сошоЕ (Ввтап) - 1;
соопЕ (фавап) - 1? 1е (В«*ад(|Ъо1 м $Ео > о)
I $Ьетрт*СсЬ ·ηοί ($овпеап[($Ьов-1) ] $Сетротеап(0] ЬЬ $овгоеш($Ьое] ί& 1явеС($о9пеаа|($Ъов-1)В) $сеорсхве*пГ1] ;
ВЪацрааЕоЬ “ “по*?
($о*ввап[($еов-2)] — ПмртыпСо] и $мв»ажа[(«См-11] ·* и Вммаа№м] — $Ъмдома(2] м Ааяеь(8ов»е*п( ($εοβ-2)1)?
. ${*Сетч>*.9о1«пв};
$СсЬеск - виЬ8Ы(${Ъетр .$Хапд),вСгХеп{$Сеяртеап [0])+1) ,·
1£ (виЬвСг($есЬеск,0,вСг1еп(Ег1т($сгайеап[$Со]))) »= Ъг1п($1птеап[$Ьо])) * ОУегХарр1пд {
$£Хапд - $($1апд} . аиЬвСг ($ЬсЬеск, 8Сг1еп(ЪгХт($птаеап[$£о]))) ,· } 1 е1ве1£ {$теап[$ССов) ·· $Сетртеап(0] &а $теап($СЪо8]) $ЪХапд ${$1апд) . аиЬвЬг ($ (’ύβίκρ .$1апд], вСгХеп ($Репфтаап [0]));
еХве { ргХпС Βία ЕННОВ; ех1С; } )
) $е++;
} }
1£ ($ОУегХар Ι» Сгие) $оуег1ар » ’СаХве;
1£ ($сетртах — $шах && $оу«тХар 1« Сгие) $тах - 0; Ваггау · агтау (в“>$в·, тя->сош1Ь($теап), теал,->$Ъ1апд, Сов»>виЬя1:г_соил1; ($Со1апд ), *свпеап*а>$СоХапд, тах«>$тах, мсо1алд«>$со1апд( ·ονβτΧβρ··>$ανβτΧβρ, ХопдавСо1апд*в>*$1опдввСоХапд”);
теСигп $аттау;
} £ипсЫоп ЪгапяХаСе ($«огб. $1оск, $Свдв, $ЬавеХапд) {
дХоЬа! $Хб_Е, $рге£1х_С, $б1сС1опаху__Ь;
$Ьаве1апд « ЬеЬташ;
1£ (1$мотб) таСитп;
1£ (ВСтаавепд Сгие} { 1£ (етед( [а-τΑ-Ζ],$«югб)) геСитп $«огб; }
Х£ (ЗЬаваХапд ЬеЬхвк} { $врас«ХС - Сгие; $ета11епй · 4ξ>ίβ€ύ.+ί.Й1;} 1£ (ВЬавеХапд ^арапеве) { $б1сЬ1опагу_е бХсЫопагу^ар; $яраее1с £аХве; }
1£ ($Ьаве1апд ’сЫпввевХа) { $б1сЫопату_С > бХсЫопагусЪпа1л; ВврасеХС “ СаХве; )
МУ80Ь_С0КЫВСТ(21б.205.7В.138,ПоЬобуИ)аг бХеСсал'Ъ соппесЬ . МУ8аЬ_КВВОй[));
$аотб > Сг1т($иотб);
ΐί ((вСгвЬг ($ыогб,ЬвЬгву($1б_1:) ., ) || вЬтвСт ($»огб,ЬеЬгеу ($1б_С). ) |] виЬвЪт($«огб,в£г1еп($«отб) - я£г1еп($1б С)) · ЬеЬгеу{$1б С)) && 1звеЬ($Хбе)} “ ~ {
$νοτ6 - вСг_тер1асе(ЬаЬтеу($1б_е), η·,$»*οτ6);
$ву8Ьетя1Се а Сгие;
}
1£ ($»огб)
ШКШШКШШ « жпг.воееЪЫпд В вввввввввввввнвв (
ί£ (яЬгвСт($«отб, Ы:Ьр://ким.1пЬаЬтеи.со.11/п81а.ЬСтХа)) (
Ваегб жр1Хе(а,В*оп1);
$νοτύ а 8р1±Е:(а6*,В«С1Гб[1]};
хеъит Вм»М(0];
} .
ВВНВВМНН1ВВИВВМ и <8ЬМХ[$мога,>//*)) { ве«ч> - «Зф1овв(а;//аЛмохЛ), ДОЬям а ВЬшфЗДг )
Хве ВаШгма В^сггб;
ВакХсХгваз а аирХоМ^/ЛваАбгаавН
ВаббхеязаЬеск а ВаААхмвЮ];
1£ П«тед([а-8А-ЖА-й]*,$жЗйгвявс11аск)> ВаббхеаасЬвск - ВаббхеяяИ};
1£ (егад(·[в-жЛ-Я].ВаАбхеввсЬеск)) {
ВХапд - ’«пд11вЬ·;
ВоХапд « ВЬааеХаадг
1£ (яЬПоХомагСвиЬаегЮаюйгО,*») — { В^огб *иЬ»Ьх(В»Ога,7); |рга а ВМА|//а; }
1£ (яСХ&о10Ыег(Гй&8£г(Вж>хб,О,В)} ·· аЬССрв://*) { Вмогб а 8иЬвСх($мОге,8); $рг« ΒΜΜι//*; )
1£ (вСгйоХоиах(βιΛ«ϋχ(Β»οχύ,ο,β)) аа ( Виохй * иЬвСх(фмогб,в); $рх« а ββότ//**; } •1ае1£ «ЬшаХвад — аЬеЬЕмг)
51аяд ЬаЫе*·;
$о1злд - епвИвЬ;
1£ (гиЬвег(В«огб.0.е) аа ·>4ί0-.//*·) ( $νοτ6 а виЬаЕх [Таегб, 6) ? Вргв « аЬСЬр1//·; $иррах « ‘Ьаи’; } е1еа1£ [вйЬвбх(Β«οχΛ,0.7) » ВАМ://*) { Ваогб в жиЬаех($40x6,7)7 Врге
Ььср»//*; } еХяеХВ (виЬяег($ют9,0,9) — “МВ&&;//*) { а «ηΜΕζΊΒίΜΤβ,Β);
$рга а ЬСЕри//? $ирр«г « егиа*; } «ХаеИ [яиЬясг($»югв,0,В) *ВВ*М://а) { ВмсгА « виЬяСг($4ОГб. В); $рга а аЬеСр»://·; } «1ВвХ£ [гвЬз(х(вмог^,0,7) аа Мд://*} [ $ИОХв а тЬвСГ ($4ОГб, 7)} я£Ьр»//а; (иррех а яехи«я; } «Ха«1£ {зиЬэСхСВмогб.о.б) Ы6<//) ( $*огб - *иЬ8Ег($мог6г<); $рг» } еХавХС (мЬ8Ъх($МОГб#0,1) аа »«*) { Вютй а ЯиЬЯЫ($4ОГб, 1) 7 Виррег а 'ст·; }
61вв1£ (ВЬ«ав1аад “ ^арапы·*)
В1*лд а Зарамве;
}$оХ*пд а яепд118Ь» «1яе1£ (|Ъ«яе1авд сМпеамХ·) $1*ад а 01йпеваа1ая?
ВоХаад а апдИзЬ;
В· - 0;
ВомфгерХасе - всгсаХомаг($чогб);
νΚΙΙβ ($8 < вСг1еа($Ьелфгер1асе)У (
ί£ (1егед( [3-Са-аА-го-9\'\‘] а,ЗЬетргер1асе[$в])) {
$Еетргер1асе · виЬвЕг_гер1асе<$Ъепргер1асе, $Еепргер1асе(Зв] $8 а $8 «· 2 Г }
$В++;
} $Еетпргер1асе - егед1_гар1асе( [ [:арасе>]]+' Зврасеабйхеаа а ехр1ойе( ,$Ъатргер1асе); $ 0 г ипвеЕ($арасе); $со1ог гей; Зсоивсе > соипЕ($8расеаййгева); Здиегу ее1есС $1апд,$о1апд £гот $А1сС1опагу_С «Ьеге $1апд “ ’$Сегаргвр1асе‘·;
ЗгетДЪ - МУ30Ь(т±п1ЪивЬп, ·$ςυβχ7) ог <Не(,сап|Е еггог #0.1 - 1 Зфхегу' . МУбОЬ ЕКВОйО );
1£ <№5№ НЦМЙОИЗ($геви1Е) > 0) {
11вЕ(3{$1апд},$($о1апд}> - мУ301>_РЭТСЯ_Я0М($ге8и1С>,· Зврасе ${$о1апд};
$СОиЛЪв а 0;
} мЫДе (ЗсоипСв > $а) # могб ЬеЕиееп . .
{
ЗврасеаЭДгевв[$в] - Ег1п (ЗврасеаНпхева[$в]};
1£ (ЗЪадв »Ьгие) ( ·
Зореп а а<£опЕ со1ога\$со1ог\>·;
$с!ове </£опЕ>;
1£ ($со1ог » гей) $со1ог - Ыие;
е1ее 5со1ог - гейι }
1£ (егед(а [А-йа-ζΑ-Ζξ’\] *, $врасеа<МгеВ8 [$«))>
{ ипаеС(ЗгевСоСаййхеав); £ог ($1 · $в ι $1 с Зсоипсв ; $1**) $гевСо£аййге88 .$врасеасМг88в($1] г $гевСо£аййгеве а Сг1л($гевСо£ас14ге8е); Здиегу а ве1есс $1апд,$о1апд £гсхп $А1сС1.опагу_Е иЬеге $1апд · ' ЗгевЪоСаййгевв1 * *;
$геви1Ъ м М¥8ОЫт1п1ЬивЬ,Здиегу) ог й1е(*сап’С еггог #0.2 'Здиегу' . МУ80Ь_Ш®ОЯ О);
1£ (МУВ0Ь_К0МЯ0Н8<$геви1Ъ) — 1)
ИзЕ(${$1апд},${5о1апд}) - МУ30Ь_ГВТСВ_ВОИ($геви1Е)ι Зврасе И.$ореп.$($о1апд).$с1ове;
Зврасе а 1г1т($врасе)ι ЗсоипСв а о, } е2ве {
I» а ♦· ♦ 1;
ивиЪ (ЗвеяСиогАваЪоЬ)» 1£ 4$врасааЛ1хевв{Зо]) $п»жЬ*1Г0шаесЛ ' .вБг_гер1ас« ··, (врасвжДвмга 1М) ·
“.ВЕХ £8р1ков(*ка,ваг*«рас«4аД1мазС|<а1) ·*' ог;
~ (фдаху - »м1«се |1апд,3о1апд Веот #а1ас1асжгу^Е мЪагв «млМгахбвМхЬ Я«»д - ‘$врасевЛ1гео[$<1 · «М Зо1аяд «> ·· огйег Ьу $1апд 4ме, 1влдБЬ(31КР0},Зсйаад Ама, 1апдЕЬ(Зо1аад) 4мс;
ЗгамйЪ а мхздь(ав±п1Ъи*Ь*, |'$ди0ху) ог 41а(саа'Е еггог #1 Здивгу· . №80Ь_КОюаО);
1£ (ЗмКсЬ · у*·4) ипаес(Зша€сЪН
1£ ((МУЗОЬ вомюи($гми1Ъ) » о) ш [$лассЬ 1а ле).) ( “
За а 0; $вча1ж» а 0; 8тх11як а о;‘ ип8«е(3£1м1жг) ι имаС(№пд*вео1аав) г цпваб($1опдевНалд);· «Ы1е («в « ИТваГ,_»ПКИО»»8{$та*и2Е>)# ы {(таес^ I- уев·})
11вк(${(1«лд},3{3о1авд}) - НУЗОЬ_гетСЯ_КО»(Зт»ви1Е);
(аега а «φ1ο4β(· ,${31ид}); Зоаимп а «φΐοβαΐ ,3{3е1аад})ι.
Сов а Свивс (Змшмп) - 1;
Зд вавес «оаЕоЫ;вЫ1а ($3 « соилс(Зтаао))
1£ ({ЗврасеаМгеа·($в+$д] « 3«мл13д)) ьь (ЗшаЕсЬ |а по)) ЗааСаЬ а у··; «18· ЗшСаЬ > «по;
Зд-<-+;
} 1£ (ЗпаЪеЬ а. -уса->
< 1£ (асх1ао (33,0вдввее1*пд) < *Ег1еа(3(5о1аад})) 31опдевЬо1апд а 3(зо1*вд}?
1£ {вст1ев((1ап9м1:1ааа) < ВЕг11Ш(3{31апд})) 31оодев£1аад $Сепфгер1аса);
<1ап9 11кв
3{82аод);
шее ((отаг 1жр) ι шмаЪ «пах) | (ату « агхауО;
Загхау «№«(1φ($8,1,${$1*пд},(СО«,|{$о1аяв},$9,$а1сЕ1дааху Е.31апо.8о1апдг^»р«г-»»Ал>· ав*,#1епд«аЬо1адд)г ~ !мх - Звггау (“п«х·] ; $Со1*ад - 3*ххау 1“Ьо1апда); 1£ (*Со1*я9) (маеок » Ъгио;
Л11е ((аххауро^агТжр»] > «£«1*8” && оошл
ЗтаХ) (ЗерегевЛАгевв) >
Заггау .
оуег1ар($аггау [а],(аггауГагат],Ег1п<Заггау (теап]),Заггау [сов],Ьг1т($агг ау р'овтеап]), §д, $<ИсЕ1опагу_С, $1апд, $о!апд, $врасеа(1<1гебв, $1опдевСо1апд);
1£ (Заггау(ονβΓίβρ] =» Сгив) (
$тах > Заггау(тах]; $Со1апд а Заггау[СоХапд]; Зиааок а аСгие;
) )
1£ ($шх > $1шх1гаип1 &Ь $тах > 0) {
ЗтахДтит в $тах;
$£1а«1в ж $Со1апд;
}
1£ ($иавок 1« Сгие)
1£ (вСг1еа(${$1алд}) > $пах1тшпг)
ЗтахЗлпитг - 8Ег1ап(${$1апд});
$дг > $д; $£1па1вг а ${$о1апд);
} }
} Зп++;
} ££ (Звавок ·· аСгива) {
ЗтаСсЬ > Егие; '
1£ ((вЕгвСг($£1па1в>$1олде8Со1апд) ь& $тах1«шп < (8иЬаСг_соипЕ( ”,$1опде8Ъо1апд)+1)) { #РГ1ПЬ ·*; 1£ ($8 -- 0) Зврасе - $врасе . $ореп . $1олдввЬо1апд . $с1ове< е1ве Зараса в $врасе . . (орел . $1опдевСо1апд . $с1ове; $в в Зе + аиЬвЬг ооипс(31опдевС1алд, ) + 1;
е1зе {
1£ ($в -а 0) $врасе ж $арасе . Зореп . $£1па1в . $с1ове; •1эе Зераса в Зврасе . . Зореп . $£1ла1а . $с1ове; Зе « $8 + $тах11тип;
} ипаеС($гаах1тит); иаееС(Змавок);
) е1ае1£ (3£1па1ег) ### СевС1пд паи ЕЫлд, мЬаЪ Ьаррапа мЬап а рагС1а1 тасЪ мае Соипй, (1в а вотеСЫпд, ЬиС а 1э пой 1п СЬа еувСет).
<
1£ (Зе 0) $арасе а $врасе . Зореп . $£1па1вг . ЗсХоее; е1ве $врасе в $ерасе . · . Зореп . $£1па1вг . $с1ове; 5в - $8 + $дг;
ипвеЬ<Зтах1чплпг>;
$иг1 а егед__гер1асе(([А-ύ]).([/-/ 3-й/-/ ] *)·$βπ»11βηΑ, ”\\1·\\2#ε«ν14, $иг1);
)
1£ ($вувЬвгав1Се ··> аЪхиеа Ь4 1вЬгвЕг(а$Ж>гс1*, ·))
I
1£ (Зепй) геСигп ЬкЕр:// . вЬг_гер1аое(· а,аа,$еп4) . •.1пЬеЬге«.со.11/1пйех.ЬСт1?8иЬа . миЬвЕг($епй,1);
е1ва геЕит ’Ьеер://* . вЕг гер1асе( ,а,,$иг1) . ,.1пЬеЬгеи.со.11 ) ’
1£ (егед(а1пЬ«Ьга«.со.11/(1а>вА-го-9/-)*)/1п4ех.ЬЕ|&1,$*ога) &&
IвСгеЕг($шогй,ХпЬеЬтеи.со.11/ваоф1е/”>) (
$еш1 « виЬвСг($βηά,1);
1£ (вЕгвСг($епА,/)) {
геСигп агед1_гер1аса([[:враае:]]+·» ,8бг__гар1асе( И,вСг гер1асе( ··,·, ($βηά))));
) )
геЕит етед1_>гер1асе(а[[!враое:]]+, 1 · а,вСг_гер1асе(а ,еЬг_гер1асе( $иг1)));
Приведенный выше вариант осуществления изобретения, комбинирующий использование базы данных кросс-языковых ассоциаций и способ перевода путем кросс-языкового двойного наложения имеет другие потенциальные применения для усовершенствовании качества существующих способов, которые предназначены для установления соответствия информации из одного состояния в другое, такие как программное обеспечение для распознавания голоса и сканирующие устройства ОСИ, хорошо известные в данной области техники. Оба этих способа могут проверять результаты своих систем в сравнении со способами перевода настоящего изобретения. Если перевода не существует и, следовательно, возможна ошибка, пользователь может быть предупрежден, и ему может быть сделан запрос, или система может быть запрограммирована для поиска ближайших альтернатив в базе данных для неперекрываемого перевода, который может породить перекрываемый перевод. Все выданные результаты пользователю, конечно, могут быть преобразованы снова на язык оригинала.
Как очевидно специалистам в данной области техники, специалистами в данной области техники может быть сделано множество изменений в устройствах и способах, описанных выше, без отрыва от замысла и объема данного изобретения.
Claims (20)
- ФОРМУЛА ИЗОБРЕТЕНИЯ1. Способ преобразования контента, содержащий этапы получения контента, выраженного в первом состоянии;грамматического разбора указанного контента, выраженного в первом состоянии, по меньшей мере на первый сегмент и второй сегмент, причем указанный первый сегмент содержит первую часть, указанный второй сегмент содержит вторую часть, указанная первая часть и указанная вторая часть содержат перекрывающиеся части указанного контента;получения доступа к третьему сегменту указанного контента, выраженного во втором состоянии, причем указанный третий сегмент соответствует либо указанному первому, либо указанному второму сегменту;получения доступа к четвертому сегменту указанного контента, выраженного во втором состоянии, причем указанный четвертый сегмент соответствует другому, одному из указанных, первому и второму сегментам и содержит перекрывающуюся часть с указанным третьим сегментом;определения упомянутого контента, выраженного во втором состоянии, исходя из объединения указанных третьего и четвертого сегментов; и предоставления указанного контента, выраженного в указанном втором состоянии.
- 2. Способ создания базы данных преобразования контента, содержащий этапы предоставление пары документов, представляющих одну и ту же информацию в двух различных состояниях; и использование указанной пары документов для создания базы данных ассоциации сегментов между двумя разными состояниями путем грамматического разбора сегментов первого состояния и сравнения указанных грамматически разобранных сегментов в первом состоянии с грамматически разобранными сегментами во втором состоянии и путем сопоставления частоты совпадения между грамматически разобранными сегментами первого состояния и грамматически разобранными сегментами второго состояния.
- 3. Способ по п.2, в котором указанное создание базы данных включает в себя этап использования областей сегментов в указанном первом состоянии и указанном втором состоянии.
- 4. Способ по п.2, в котором способ создания базы данных преобразования контента включает в себя этап обеспечения множества пар документов, представляющих одну и ту же информацию в указанном первом состоянии и указанном втором состоянии, и использования указанного множества пар документов для создания базы данных ассоциаций сегментов между двумя различными состояниями путем грамматического разбора сегментов первого состояния и сравнения указанных грамматически разобранных сегментов первого состояния с грамматически разобранными сегментами второго состояния и путем сопоставления частоты совпадения между грамматически разобранными сегментами первого состояния и грамматически разобранными сегментами второго состояния.
- 5. Способ по п.2, в котором указанный способ создания базы данных преобразования контента включает в себя этап обеспечения множества пар документов, представляющих одну и ту же идею во множестве состояний, и использования указанного множества документов для создания базы данных ассоциаций сегментов между множеством состояний путем грамматического разбора сегментов по меньшей мере одного состояния из множества и сравнения указанных грамматически разобранных сегментов с грамматически разобранными сегментами по меньшей мере одного другого состояния и путем ассоциации частоты вхождения между грамматически разобранными сегментами разных состояний.
- 6. Способ создания базы данных, содержащий этапы обеспечения одной или более пары документов, представляющих одну и ту же информацию в двух или более состояниях;выбора по меньшей мере первого и второго вхождения выбранного сегмента в первом состоянии, причем выбранный сегмент имеет множество совпадений в документах в первом состоянии;выбора по меньшей мере первой области и второй области в документах второго состояния, причем первая и вторая области соотносятся с первым и вторым совпадениями выбранного сегмента в первом состоянии;сравнения сегментов в первой области и второй области и местоположений сегментов, общих для обеих областей;сохранения локализованных общих сегментов в указанной базе данных и ассоциирования локализованных общих сегментов в указанной базе данных с выбранным сегментом, ранжированного по частоте вхождения.
- 7. Способ по п.6, в котором указанная информация представлена в виде текста.
- 8. Способ по п.6, в котором указанные состояния представлены в виде языка.
- 9. Способ по п.6, в котором указанные сегменты представлены в виде слова или множества слов.
- 10. Способ перевода контента информации из первого состояния во второе состояние, содержащий этапы использования базы данных ассоциаций сегментов между контентом в указанном первом состоянии и указанном втором состоянии для преобразования контента документа в первом состоянии в документ во втором состоянии, причем указанное преобразование включает в себя исследование сегментов контента в указанном первом состоянии и сегментов контента в указанном втором состоянии, и удаление сходных сегментов из указанного изученного контента в первом состоянии и указанного изученного контента во втором состоянии, и сопоставления контента указанного контента в первом состоянии с указанным контентом во втором состоянии после удаления схожих сегментов.
- 11. Способ преобразования документа, содержащий этапы обеспечения контента, содержащего сегменты данных в первом состоянии, сопоставленных с сегментами данных во втором состоянии;выбора самой большой ограниченной части документа для перевода, которая начинается с первого сегмента документа и существует в базе данных;извлечения из базы данных сегмента во втором состоянии, сопоставленного с локализованным первым сегментом в первом состоянии;выбора по меньшей мере второй ограниченной части в первом состоянии, которая имеет один или более перекрывающихся сегментов с предыдущим ограниченным сегментом в первом состоянии;извлечения из базы данных сегмента во втором состоянии, сопоставленного с локализованным вторым сегментом в первом состоянии;выдачи двух сегментов данных в первом состоянии, имеющих перекрывающийся контент, в качестве единичного сегмента данных в первом состоянии;выдачи единичного сегмента данных во втором состоянии, если два сегмента данных во втором состоянии имеют перекрывающийся контент; и сопоставления указанного единичного сегмента данных в указанном первом состоянии с указанным единичным сегментом в указанном втором состоянии, выдавая, таким образом, преобразование указанного единичного сегмента данных из указанного первого состояния в указанное второе состояние.
- 12. Способ по п.11, содержащий дополнительный этап повтора выбора наибольшей ограниченной части документа для перевода, которая существует в базе данных и начинается перекрывающимся сегментом последнего проверенного сегмента документа.
- 13. Способ по п.11, в котором указанные состояния представлены в виде языка.
- 14. Способ по п.11, в котором указанные сегменты представлены в виде слова или множества слов.
- 15. Способ по п.12, в котором указанные состояния представлены в виде языка.
- 16. Способ по п.12, в котором указанные сегменты представлены в виде слова или множества слов.
- 17. Способ преобразования документа, содержащий этапы (а) обеспечения контента, содержащего сегменты данных в первом состоянии, сопоставленные с сегментами данных во втором состоянии;(б) выбора самого большого ограниченного сегмента документа для перевода, который начинается с первого слова документа и присутствует в базе данных;(в) извлечения из базы данных сегмента данных на втором языке, сопоставленного с локализованным сегментом данных на первом языке;(г) выбора по меньшей мере второго ограниченного сегмента на первом языке, который присутствует в базе данных и имеет одно или множество перекрывающихся слов с предыдущим ограниченным сегментом на первом языке;(д) извлечения из базы данных сегмента данных на втором языке, сопоставленного с локализованным сегментом данных на первом языке; и (е) объединения двух сегментов на втором языке для формирования перевода, если два сегмента данных имеют перекрывающиеся слово или множество слов, и повторения этапов (д) и (е), если два сегмента данных не имеют пере41 крывающихся слова или множества слов до тех пор, пока не будут локализованы сегменты данных с перекрывающимся словом или множеством слов.
- 18. Способ по п.17, дополнительно содержащий повторение этапов (г)-(е) до тех пор, пока документ полностью не будет преобразован во второе состояние.
- 19. Компьютерная система для преобразования контента, содержащая компьютерное устройство, которое принимает контент, выраженный в первом состоянии, и осуществляет грамматический разбор указанного контента по меньшей мере на первый сегмент и второй сегмент, указанный первый сегмент содержит первую часть, указанный второй сегмент содержит вторую часть, причем указанная первая часть и указанная вторая часть содержат перекрывающиеся части указанного контента;в которой указанное компьютерное устройство имеет доступ к третьему и четвертому сегментам указанного контента, каждый из которых выражен во втором состоянии, указанный третий сегмент соответствует одному из указанных первому и второму сегментам, указанный четвертый сегмент соответствует другому из указанных первому и второму сегментам и содержит перекрывающуюся часть с указанным третьим сегментом; и причем указанное компьютерное устройство определяет указанный контент, выраженный во втором состоянии, на основе указанных третьего и четвертого сегментов, содержащих перекрывающиеся части и обеспечивает указанный контент во втором состоянии.
- 20. Компьютерная система по п.19, дополнительно содержащая систему базы данных, которая хранит указанные третий и четвертый сегменты, причем указанное компьютерное устройство имеет доступ к третьему и четвертому сегментам из указанной системы базы данных.
база данных кросс-идей 1 2 3 4 Система А Система В Непосредственная частота частоты после вычитания Сегменты Сегменты, упорядоченные по частоте после вычистания Ва1 Ι»1·Φ»+Ι>Μ 25 25 Ца) ВЪ9-ФЪ10 19 19 Ва1 ВЫ 35 10 оы-даьз 30 5 Ва2 ВЫЯ>Ьб 20 20 Ва2 ϋΒ12 15 15 Оа2 ОЬ2 25 5 ВаЗ+Вэ4 ВЬ5+РЬ7 15 15 ВаЗ+В«4 ВЬ5 25 10 Фиг. 1
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US27610701P | 2001-03-16 | 2001-03-16 | |
US29947201P | 2001-06-21 | 2001-06-21 | |
US10/024,473 US20030083860A1 (en) | 2001-03-16 | 2001-12-21 | Content conversion method and apparatus |
PCT/US2001/050323 WO2002075586A1 (en) | 2001-03-16 | 2001-12-27 | Content conversion method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
EA200301188A1 EA200301188A1 (ru) | 2004-04-29 |
EA005268B1 true EA005268B1 (ru) | 2004-12-30 |
Family
ID=27362323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EA200301188A EA005268B1 (ru) | 2001-03-16 | 2001-12-27 | Способ и средства преобразования контента |
Country Status (10)
Country | Link |
---|---|
US (1) | US20030083860A1 (ru) |
EP (1) | EP1370975A4 (ru) |
JP (1) | JP2004535617A (ru) |
KR (1) | KR20040004558A (ru) |
CN (1) | CN1505786A (ru) |
CA (1) | CA2441122A1 (ru) |
EA (1) | EA005268B1 (ru) |
IL (1) | IL157950A0 (ru) |
TR (1) | TR200301781T2 (ru) |
WO (1) | WO2002075586A1 (ru) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040012618A1 (en) * | 2002-07-18 | 2004-01-22 | Finney Randolph L. | Legal document generating system |
US7085707B2 (en) * | 2002-04-25 | 2006-08-01 | International Business Machines Corporation | Foreign language teaching tool |
EP1535260A1 (en) * | 2002-07-09 | 2005-06-01 | Vocab AB | Learning system and method |
US8155951B2 (en) * | 2003-06-12 | 2012-04-10 | Patrick William Jamieson | Process for constructing a semantic knowledge base using a document corpus |
US20050055630A1 (en) * | 2003-09-04 | 2005-03-10 | Philip Scanlan | Seamless translation system |
US20050198212A1 (en) * | 2003-12-16 | 2005-09-08 | Alex Zilberfayn | Interactive forms processing system and method |
US7945437B2 (en) * | 2005-02-03 | 2011-05-17 | Shopping.Com | Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language |
JP4100637B2 (ja) | 2005-12-08 | 2008-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 翻訳のための装置、方法、プログラム及び翻訳支援サービス提供方法 |
US8798988B1 (en) * | 2006-10-24 | 2014-08-05 | Google Inc. | Identifying related terms in different languages |
US20090061794A1 (en) * | 2007-08-28 | 2009-03-05 | Motorola, Inc. | Hinge assemblies for electronic devices |
US20100204977A1 (en) * | 2009-02-09 | 2010-08-12 | Inventec Corporation | Real-time translation system that automatically distinguishes multiple languages and the method thereof |
WO2011029474A1 (en) * | 2009-09-09 | 2011-03-17 | Universität Bremen | Document comparison |
US8805869B2 (en) * | 2011-06-28 | 2014-08-12 | International Business Machines Corporation | Systems and methods for cross-lingual audio search |
RU2579888C2 (ru) | 2014-01-15 | 2016-04-10 | ООО "Аби ИнфоПоиск" | Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема |
CN104794110B (zh) * | 2014-01-20 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 机器翻译方法及装置 |
RU2666277C1 (ru) * | 2017-09-06 | 2018-09-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Сегментация текста |
JP6885318B2 (ja) * | 2017-12-15 | 2021-06-16 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62163173A (ja) * | 1986-01-14 | 1987-07-18 | Toshiba Corp | 機械翻訳方法 |
US4839853A (en) * | 1988-09-15 | 1989-06-13 | Bell Communications Research, Inc. | Computer information retrieval using latent semantic structure |
NL8900587A (nl) * | 1989-03-10 | 1990-10-01 | Bso Buro Voor Systeemontwikkel | Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst. |
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
EP0494573A1 (en) * | 1991-01-08 | 1992-07-15 | International Business Machines Corporation | Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5377103A (en) * | 1992-05-15 | 1994-12-27 | International Business Machines Corporation | Constrained natural language interface for a computer that employs a browse function |
US5369575A (en) * | 1992-05-15 | 1994-11-29 | International Business Machines Corporation | Constrained natural language interface for a computer system |
US5365433A (en) * | 1992-07-24 | 1994-11-15 | Steinberg Geoffrey D | System for automatically programming a functional database |
US5608622A (en) * | 1992-09-11 | 1997-03-04 | Lucent Technologies Inc. | System for analyzing translations |
US5630121A (en) * | 1993-02-02 | 1997-05-13 | International Business Machines Corporation | Archiving and retrieving multimedia objects using structured indexes |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
EP0672989A3 (en) * | 1994-03-15 | 1998-10-28 | Toppan Printing Co., Ltd. | Machine translation system |
DE4425133C2 (de) * | 1994-07-15 | 1997-03-13 | Neumag Gmbh | Aufspulmaschine |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US5991710A (en) * | 1997-05-20 | 1999-11-23 | International Business Machines Corporation | Statistical translation system with features based on phrases or groups of words |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6078878A (en) * | 1997-07-31 | 2000-06-20 | Microsoft Corporation | Bootstrapping sense characterizations of occurrences of polysemous words |
JP3114703B2 (ja) * | 1998-07-02 | 2000-12-04 | 富士ゼロックス株式会社 | 対訳文検索装置 |
US6285978B1 (en) * | 1998-09-24 | 2001-09-04 | International Business Machines Corporation | System and method for estimating accuracy of an automatic natural language translation |
US6181775B1 (en) * | 1998-11-25 | 2001-01-30 | Westell Technologies, Inc. | Dual test mode network interface unit for remote testing of transmission line and customer equipment |
US6535842B1 (en) * | 1998-12-10 | 2003-03-18 | Global Information Research And Technologies, Llc | Automatic bilingual translation memory system |
US6393389B1 (en) * | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
US6330530B1 (en) * | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
US6473729B1 (en) * | 1999-12-20 | 2002-10-29 | Xerox Corporation | Word phrase translation using a phrase index |
US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
-
2001
- 2001-12-21 US US10/024,473 patent/US20030083860A1/en not_active Abandoned
- 2001-12-27 CN CNA018231616A patent/CN1505786A/zh active Pending
- 2001-12-27 EP EP01991545A patent/EP1370975A4/en not_active Withdrawn
- 2001-12-27 TR TR2003/01781T patent/TR200301781T2/xx unknown
- 2001-12-27 EA EA200301188A patent/EA005268B1/ru not_active IP Right Cessation
- 2001-12-27 IL IL15795001A patent/IL157950A0/xx unknown
- 2001-12-27 KR KR10-2003-7012097A patent/KR20040004558A/ko not_active Application Discontinuation
- 2001-12-27 CA CA002441122A patent/CA2441122A1/en not_active Abandoned
- 2001-12-27 WO PCT/US2001/050323 patent/WO2002075586A1/en active Application Filing
- 2001-12-27 JP JP2002574522A patent/JP2004535617A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2004535617A (ja) | 2004-11-25 |
WO2002075586A1 (en) | 2002-09-26 |
CA2441122A1 (en) | 2002-09-26 |
US20030083860A1 (en) | 2003-05-01 |
EA200301188A1 (ru) | 2004-04-29 |
TR200301781T2 (tr) | 2005-05-23 |
EP1370975A4 (en) | 2006-05-10 |
KR20040004558A (ko) | 2004-01-13 |
EP1370975A1 (en) | 2003-12-17 |
IL157950A0 (en) | 2004-03-28 |
CN1505786A (zh) | 2004-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EA005268B1 (ru) | Способ и средства преобразования контента | |
US9772998B2 (en) | Indicating and correcting errors in machine translation systems | |
US8209163B2 (en) | Grammatical element generation in machine translation | |
KR101864361B1 (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
KR100530154B1 (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JPS62163173A (ja) | 機械翻訳方法 | |
US7483828B2 (en) | Multilingual database creation system and method | |
JP2017199363A (ja) | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム | |
CN109710951A (zh) | 基于翻译历史的辅助翻译方法、装置、设备及存储介质 | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
CN110678868A (zh) | 翻译支持系统等 | |
US11797781B2 (en) | Syntax-based multi-layer language translation | |
JP7511381B2 (ja) | 文生成装置、文生成方法および文生成プログラム | |
KR101916781B1 (ko) | 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템 | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
US20200026753A1 (en) | Machine based expansion of contractions in text in digital media | |
CN108766059B (zh) | 一种云服务英语教学设备及教学方法 | |
WO2001055901A1 (fr) | Systeme de traduction automatique, serveur et client de ce systeme | |
JPH09179868A (ja) | 対訳文対応付け支援システム | |
JP2008134798A (ja) | 用語辞書作成補助装置、その方法およびプログラム | |
JPH03260764A (ja) | 翻訳用辞書登録方式 | |
JP2715875B2 (ja) | 多言語要約生成装置 | |
JP3174664B2 (ja) | 機械翻訳装置 | |
JP2871300B2 (ja) | 機械翻訳装置 | |
CN115965017A (zh) | 一种基于开发平台的多语言录入和解析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s) |
Designated state(s): AM AZ BY KZ KG MD TJ TM RU |