EA007776B1

EA007776B1 - Способ и устройство для преобразования контента

Info

Publication number: EA007776B1
Application number: EA200400856A
Authority: EA
Inventors: Эли Абир
Original assignee: Эли Абир
Priority date: 2001-12-21
Filing date: 2002-09-18
Publication date: 2007-02-27
Also published as: EA200400856A1

Abstract

Способ и устройство для анализа документов и, тем самым, определения ассоциаций между словами в языке. Способ содержит этапы, заключающиеся в том, что создают фонд документов, выбирают первое слово или словосочетание и второе слово или словосочетание, появляющиеся в документах. Кроме того, способ содержит этап, заключающийся в том, что ассоциируют первое слово или словосочетание и второе слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в интервалах.

Description

Родственные заявки

Настоящая заявка является частичным продолжением заявки № 10/024473 на патент США, поданной 21 декабря 2001г., и по ней испрашивается приоритет на основе предварительной заявки № 60/276107 на патент США, поданной 16 марта 2001г., и предварительной заявки № 60/299472 на патент США, поданной 21 июня 2001г., каждая из которых включена в настоящую заявку путем ссылки.

Приложение листингов компьютерных программ

Настоящая заявка содержит в приложении листингов компьютерных программ на ДИСКЕ 1 следующие листинги компьютерных программ: Ргодгат1 в файле ргодгат 1.1x1, созданном 28 мая 2002г. и содержащем 12 кбайт; Ргодгат2 в файле ргодгат2.1х1, созданном 28 мая 2002 г. и содержащем 2 кбайт, РгодгатЗ в файле ргодгат3.1х1, созданном 28 мая 2002г. и содержащем 17 кбайт, и Ргодгат4 в файле ргодгат4.1х1, созданном 31 мая 2002г. и содержащем 8 кбайт.

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству для создания базы данных, предназначенной для использования при преобразовании языка из одного состояния в другое состояние.

Предпосылки к созданию изобретения

Известны устройства и способы для автоматического перевода документов с одного языка на другой язык. Однако данные устройства и способы часто дают неточный перевод документов с одного языка на другой язык, работают медленно и могут быть неудобными для применения. Кроме средств перевода, работающих с участием человека, другие известные устройства содержат широкодоступное программное обеспечение для машинного перевода. У указанных известных систем имеются недостатки, из-за которых данные системы чувствительны к ошибкам, имеют низкую скорость и неудобны. Известные устройства и способы перевода не способны постоянно выдавать точные переводы входных текстов и поэтому часто требуют от пользователя интенсивного участия в проверочном считывании и редактировании. Точный машинный перевод сложнее, чем выдаваемый устройствами и способами, выполняющими подстрочные переводы документов. Упомянутые системы подстрочного перевода часто дают переводы, мало понятные читателям переведенного документа, поскольку способ подстрочного перевода не обеспечивает правильный выбор слов и приводит к получению бессмысленных грамматических единиц.

Чтобы избавиться от описанных недостатков, известные устройства перевода десятилетиями нацеливали на выбор переводов слов в контексте предложения на основании сочетания или набора лексических, морфологических, синтаксических и семантических правил. Указанные системы, известные в технике как системы машинного перевода (МП, МТ), «основывающиеся на правилах», обладают существенным недостатком, поскольку существует так много исключений из правил, что данные системы не в состоянии постоянно выдавать точный перевод.

Кроме основывающихся на правилах систем МП, в последнее десятилетие разработан новый способ МП, известный под названием МП, «основывающегося на примерах» (ЕВМТ, ЕВМТ). Способ ЕВМТ основан на использовании предложений (или, может быть, частей предложений), сохраняемых на двух разных языках в межъязыковой базе данных. Если запрос перевода соответствует предложению в базе данных, то перевод предложения на язык, на который делается перевод (выходной язык), выполняется базой данных, выдающей точный перевод на другом языке. Если часть запроса перевода соответствует части предложения в базе данных, то упомянутые устройства делают попытку точно определить, какая часть предложения, преобразованного в предложение на входном языке, является переводом запроса.

Системы ЕВМТ не способны дать точный перевод с языка без ограничений, поскольку базы данных межъязыковых предложений создаются вручную и потому всегда будут, как правило, «неполными». Другой недостаток систем ЕВМТ заключается в том, что переводы вариантов частичного совпадения ненадежны. Предпринимались попытки автоматизировать создание межъязыковых баз данных по парам переведенных документов для использования в системах ЕВМТ. Однако данные усилия не привели к созданию полезных точных межъязыковых баз данных сколько-нибудь существенного размера. Ни одна из упомянутых попыток не связана с применением алгоритма, который бы надежно и точно выдавал переводы значимого числа слов или словосочетаний из пары переведенных документов.

Некоторые устройства перевода сочетают оба механизма МП, а именно МП, основывающийся на правилах, и МП, основывающийся на примерах (ЕВМТ). Хотя указанное сочетание приемов и позволяет повысить степень точности по сравнению со случаем применения любой одной системы из указанных систем, результаты остаются неполноценными без серьезной поддержки со стороны пользователя и выполнения им редактирования.

Проблемы, возникающие при переводе документов с одного языка на другой язык, можно отнести к более общей проблеме преобразования данных, выражающих понятия или информацию в одном состоянии, например текстовом, в данные, выражающих понятия в другом состоянии, например в виде математических символов. В указанных случаях следует производить поиск в межпонятийных ассоциативных базах данных, которые ассоциативно связывают данные, находящиеся в одном состоянии, с эквивалентными данными в другом состоянии. Поэтому существует потребность в усовершенствованном и более эффективном способе и устройстве для создания словарей или баз данных, которые ассоциативно связывают эквивалентные понятия на разных языках или в разных состояниях (например, в виде слов, слово

- 1 007776 сочетаний, звуков, движений и т.п.), и для перевода или преобразования понятий, передаваемых документами на одном языке или в одном состоянии, в такие же или подобные понятия, представленные документами на другом языке или в другом состоянии.

Изобретение относится к обработке контента (информационного значимого содержимого) с использованием межпонятийной ассоциативной базы данных. В частности, в соответствии с настоящим изобретением предлагаются способ и устройство для создания базы данных ассоциированных понятий, а также способ и устройство для использования упомянутой базы данных с тем, чтобы преобразовывать понятия из одного состояния в другие состояния.

В соответствии с одним из вариантов осуществления настоящего изобретения предлагаются, например, способ и устройство для создания базы данных для перевода с одного языка на другой, при этом два языка составляют базу данных ассоциированных понятий. В соответствии с настоящим изобретением предлагаются также способ и устройство для использования упомянутой языковой базы данных с тем, чтобы преобразовывать документы (отражающие понятия) из одной языковой формы в другую языковую форму (или, в более общем смысле, из одного состояния в другое состояние). Тем не менее, настоящее изобретение не ограничено переводами с одного языка на другой язык, несмотря на то, что ниже представлено описание данного предпочтительного варианта осуществления. Аспект настоящего изобретения, заключающийся в создании базы данных, можно применить к любым понятиям, которые как-либо связаны, но выражаются в разных состояниях, а аспект настоящего изобретения, заключающийся в преобразовании, можно применить к точному преобразованию понятий из одного состояния в другое состояние.

В соответствии с другим вариантом осуществления настоящего изобретения аспект настоящего изобретения, заключающийся в создании базы данных, можно применить для создания таких ассоциаций между понятиями в пределах одного языка и их отношения друг с другом, которые используются в приложениях искусственного интеллекта.

Ниже приведено описание применения настоящего изобретения в варианте осуществления перевода с одного языка на другой язык. В контексте настоящего описания, термины, относящиеся к преобразованию, переводу и обработке, применяются как равнозначные, причем в их наиболее широком смысле.

Краткая формулировка сущности изобретения

Задача настоящего изобретения заключается в обеспечении эффективного перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания и сопровождения межпонятийных ассоциативных баз данных. Упомянутые базы данных, в общем случае, ассоциативно связывают представленные в первом формате или состоянии данные, которые отражают конкретные понятия или порции информации, с представленными во втором формате или состоянии данными, которые отражают те же самые конкретные понятия или порции информации.

Другая задача настоящего изобретения заключается в обеспечении перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания второго документа, содержащего данные во втором состоянии, формате или на втором языке, из первого документа, содержащего данные в первом состоянии, формате или на первом языке, при этом первый и второй документы отражают, по существу, одни и те же понятия или информацию.

Еще одна задача настоящего изобретения заключается в обеспечении перевода документов с одного языка или из одного состояния на другой язык или в другое состояние посредством разработки способа и устройства для создания второго документа, содержащего данные во втором состоянии, формате или на втором языке, из первого документа, содержащего данные в первом состоянии, формате или на первом языке, при этом первый и второй документы отражают, по существу, одни и те же понятия или информацию, а способ и устройство включают в себя использования межпонятийной ассоциативной базы данных.

Еще одна задача настоящего изобретения заключается в создании перевода документов (в широком смысле, в преобразовании понятий из одного состояния в другое состояние) в реальном времени.

Указанные и другие задачи настоящего изобретения решаются с помощью способа и устройства для создания межпонятийной базы данных. Способ и устройство для создания межпонятийной базы данных могут включать в себя создание, по меньшей мере, двух документов, при этом каждый документ составлен на отличающемся от других языке, но отражает, по существу, одни и те же понятия. Документы могут представлять собой точные переводы одного и того же текста, т. е. являться параллельными текстовыми документами, или могут быть переводами, содержащими тексты, связанные в общем смысле, т.е. сопоставимые текстовые документы. В соответствии с настоящим изобретением выбирают, по меньшей мере, первое и второе появление всех слов и словосочетаний, которые характеризуются большим числом появлений в первом языке в имеющихся межъязыковых документах. Затем выбирают, по меньшей мере, один интервал первого слова и один интервал второго слова в документах на втором языке, при этом интервалы первого и второго слов соответствуют первому и второму появлениям выбранного слова или словосочетания в документах на первом языке. Затем сравнивают слова и словосочетания,

- 2 007776 найденные в интервале первого слова, со словами и словосочетаниями, найденными в интервале второго слова, находят слова и словосочетания, общие для интервалов обоих слов, и вводят данные найденные общие слова и словосочетания в межпонятийную базу данных. Затем в соответствии с настоящим изобретением в упомянутой межпонятийной базе данных ассоциируют общие слова или словосочетания, найденные в двух интервалах во втором языке, с выбранными словом или словосочетанием в первом языке, с упорядочиванием по частоте их ассоциации (числу повторных появлений), после корректирования исправления частот ассоциаций согласно настоящему описанию. Число ассоциаций, выделяемых базой данных по результатам анализа параллельных или сравнимых текстов на предмет общих слов или словосочетаний в разных языках, будет возрастать с увеличением числа доступных параллельных или сопоставимых текстов на многих разных языках.

Кроме того, указанные и другие задачи настоящего изобретения достигаются с помощью способа и устройства для преобразования документа из одного состояния в другое состояние. В соответствии с настоящим изобретением создается база данных, содержащая сегменты данных на первом языке, ассоциированные с сегментами данных на втором языке (созданными вышеописанными способами или вручную). В соответствии с настоящим изобретением текст переводят посредством обращения к вышеупомянутой базе данных и идентификации самого длинного по числу слов словосочетания в переводимом документе, начиная с первого слова документа, которое существует в базе данных. Затем система извлекает из базы данных словосочетание на втором языке, ассоциированное с найденным словосочетанием из документа на первом языке. Далее система выбирает второе словосочетание в документе, которое существует в базе данных и содержит перекрывающееся слово (или, по альтернативному варианту, словосочетание) с ранее идентифицированным словосочетанием в документе, и извлекает из базы данных словосочетание на втором языке, ассоциированное со вторым словосочетанием на первом языке. Если ассоциированные словосочетания на втором языке содержат перекрывающееся слово (или, по альтернативному варианту, слова), то ассоциированные словосочетания на втором языке сочетаются (с исключением избыточности по перекрытию) для создания перевода; а в противном случае, извлекают другие ассоциации на втором языке к словосочетаниям на первом языке и проверяют на возможность сочетания по перекрытию слов вплоть до положительного результата. Следующее словосочетание в документе на первом языке выбирают распознаванием самого длинного словосочетания в базе данных, которое содержит перекрывающееся слово (или, по другому варианту, слова) с ранее распознанным словосочетанием на первом языке, и продолжают вышеописанную процедуру, пока весь документ на первом языке не будет преобразован в документ на втором языке.

Кроме того, в соответствии с настоящим изобретением создают частотные таблицы для определения ассоциации, по меньшей мере, между двумя словами или словосочетаниями, чтобы можно было использовать эти частотные таблицы в других вариантах применения, включая варианты применения, связанные с преобразованием контента из одного состояния в другое состояние. Частотные таблицы создают посредством анализа документов в заданном состоянии (например, на заданном языке) и определения частоты, с которой два слова и/или словосочетания связаны на основе близости к слову или словосочетанию в тексте. Следовательно, например, по результатам анализа текстов на английском языке можно установить частотные таблицы для слов или словосочетаний, относящихся к фразе «пик Эверест» (Моии! Еуетей), например «гора» (тоип1аш), «самое высокое место в мире» (11ф11С51 р1асе ίη 111е \\όγ16). «снег» (5по\у). «восхождение» (сБтЬ), «погибшие» (реор1е б1еб) и «холод» (со1б). Упомянутые частотные таблицы можно затем использовать любыми способами в любых интеллектуальных приложениях для ответа на вопросы путем распознавания общих ассоциаций, по меньшей мере, по двум частотным таблицам. Базы данных, создаваемые для интеллектуальных приложений, можно строить по документам на одном языке (или, по другому варианту, с использованием межъязыкового текста).

Перечень фигур чертежей

Фиг. 1 - вариант осуществления межпонятийной базы данных в соответствии с настоящим изобретением.

Фиг. 2 - вариант осуществления компьютерной системы в соответствии с настоящим изобретением с целью реализации способов по настоящему изобретению.

Фиг. 3 - запоминающее устройство (ЗУ) компьютерной системы в соответствии с настоящим изобретением для хранения программ, реализующих способы по настоящему изобретению.

Подробное описание изобретения

В соответствии с настоящим изобретением предлагаются способ и устройство для создания и сопровождения межпонятийной базы данных и для перевода документов с первого языка или из первого состояния на второй язык или во второе состояние с использованием межпонятийной базы данных. Рассматриваемые в настоящем описании документы являются фондом такой информации, как понятия, представленные символами и буквами, зафиксированными на некотором носителе. Например, документы могут быть электронными документами, записанными на магнитном или оптическом носителе, или бумажными документами, например книгами. Символы и буквы, содержащиеся в документах, представляют понятия и сведения, выраженные с использованием одной или нескольких систем отображения, относительно которых предполагается, что они понятны пользователям документов. В соответствии с

- 3 007776 настоящим изобретением документы, находящиеся в первом состоянии, т.е. содержащие информацию, выраженную в одной системе отображения, обрабатывают с целью получения документов, находящихся во втором состоянии, т.е. содержащих, по существу, ту же самую информацию, выраженную с использованием второй системы отображения. Следовательно, настоящее изобретение дает возможность обрабатывать или переводить документы из одних систем отображения в другие системы отображения, например письменные документы или устную речь с таких языков, как английский, иврит и кантонский, на другие языки.

Система или устройство для осуществления преобразования контента или способ обработки контента в соответствии с настоящим изобретением могут, соответственно, представлять собой компьютерную систему 200, показанную на фиг. 2, или реализоваться на базе данной системы. Компьютерная система 200 содержит процессор 202, связанный через шину 214 с памятью 208, устройством ввода 210 и устройством вывода 212. Компьютерная система 200 может также содержать запоминающее устройство (ЗУ) 204 и сетевой интерфейс 206. Процессор 202 осуществляет доступ к данным и программам, хранящимся в памяти 208. Посредством исполнения программ в памяти 208 процессор может управлять компьютерной системой 200 и выполнять этапы обработки данных и управления устройствами, например устройством ввода 210, устройством вывода 212, ЗУ 204, сетевым интерфейсом 206 и памятью 208. Программы, хранящиеся в памяти 208, могут содержать этапы, реализующие способ в соответствии с настоящим изобретением, например преобразование контента, ассоциирование слов и словосочетаний и создание базы данных, и способы сопровождения.

ЗУ 204 записывает и хранит информацию для последующего извлечения в память 208 процессором 202 и может содержать известные ЗУ, как, например, энергонезависимые ЗУ, накопители на магнитных дисках, накопители на магнитных лентах и оптические ЗУ. ЗУ 204 может хранить программы и данные, в том числе базы данных, которые могут передаваться в память 208 для использования процессором 202. Базы данных в полном объеме или блоки баз данных могут передаваться в память 208 для доступа и обработки процессором 202. Сетевой интерфейс 206 обеспечивает обмен данными между компьютерной системой 200 и сетью 216, например сетью 1п1сгпс1. и преобразует сигналы, поступающие из компьютерной системы 200, в формат, допускающий передачу по сети 216, и наоборот. Устройство ввода 210 может содержать, например, клавиатуру и сканер для ввода данных в память 208 и в ЗУ 204. Входные данные могут содержать текст документов, подлежащих записи в документальную базу данных для анализа и преобразования контента. Устройство вывода 212 содержит устройства для представления информации пользователю компьютерной системы и может содержать, например, экран монитора и принтер.

Ниже приведено подробное описание настоящего изобретения, включая способ и устройство для создания базы данных и способ и устройство для преобразования.

Способ и устройство для создания базы данных

В соответствии со способом по настоящему изобретению для обработки контента документа используют межпонятийную базу данных. На фиг. 1 приведен вариант осуществления межпонятийной базы данных. Данный вариант осуществления содержит листинг сегментов ассоциированных данных в графах 1 и 2. Сегменты данных представляют собой символы или группировки знаков, которые представляют конкретное понятие или порцию информации в системе отображения. Если система отображения в документе является, например, естественным языком, то сегментом может быть слово или словосочетание. Следовательно, сегменты системы А в графе 1 являются сегментами данных, которые представляют различные понятия и сочетание понятий, Эа1, Эа2, Эа3 и Эа4 в гипотетической системе отображения А. Сегментами системы В в графе 2 являются ЭЫ, ЭЬ3, ЭЬ4, ЭЬ5, ЭЬ7, ЭЬ9, ΌΜ0 и ΌΜ2, которые представляют различные понятия и некоторые сочетания таких понятий в гипотетической системе отображения В, которые упорядочены по частоте ассоциаций с сегментами данных в системе отображения А. В графе 3 указана непосредственная частота ассоциаций, которая представляет собой количество случаев, когда сегмент или сегменты на языке В были ассоциированы с приведенным сегментом (или сегментами) на языке А. В графе 4 представлены частоты ассоциаций после вычитания, которые представляют собой количество случаев, когда сегмент (или сегменты) данных на языке В были ассоциированы с сегментом (или сегментами) на языке А после вычитания количества случаев, когда сегмент (или сегменты) были ассоциированы в составе более крупного сегмента, в соответствии с нижеприведенным более полным описанием.

Как видно из фиг. 1, возможна ситуация, в которой единственный сегмент, например Эа1, наиболее целесообразно ассоциировать с несколькими сегментами, ЭЬ1 вместе с ЭЬ3 и ЭЬ4. Чем выше частоты ассоциаций после вычитания (в соответствии с настоящим описанием) у сегментов данных, тем выше вероятность того, что сегмент системы А является эквивалентом сегмента системы В. Кроме измерения скорректированных частот по общему числу появлений, скорректированные частоты можно также измерять, например, посредством вычисления процентной доли количества раз, когда конкретные сегменты системы А соответствовали конкретным сегментам системы В. Если базу данных используют для перевода документа, то в соответствии с процедурой ассоциированный сегмент наиболее высокого ранга будет извлекаться из базы данных первым. Однако часто способ, применяемый с целью проверки сочетания ассоциированных сегментов для перевода (см. ниже), приводит к решению, что необходимо прове

- 4 007776 рить другую ассоциацию ниже рангом, поскольку проверенную ассоциацию более высокого ранга применить нельзя. Например, если в базу данных поступает запрос на ассоциацию для Эа1. база данных даст ответ ΌΜ+Ό63+Ό64; но если ассоциацию ΌΜ+Ό63+Ό64 применить нельзя в соответствии с решением процедуры. которая правильно сочетает сегменты данных для перевода. то тогда база данных выдаст ЭЬ9+ЭЫ0 для проверки на правильность сочетания с другим ассоциированным сегментом для перевода.

Как правило. способ создания межпонятийной базы данных в соответствии с настоящим изобретением содержит этапы анализа параллельного или сопоставимого текста и работы с ним. Способ и устройство в соответствии с настоящим изобретением используются таким образом. чтобы создавать базу данных. содержащую ассоциации по двум состояниям - точные преобразования или. конкретнее. ассоциации между понятиями. выраженными в одном состоянии. и понятиями. выраженными в другом состоянии. Ассоциации перевода и другие важные ассоциации между двумя состояниями усиливаются. т.е. становятся более частыми. с увеличением числа документов. которые подвергают анализу и обработке в соответствии с настоящим изобретением. поэтому в результате работы с достаточно большим числом «образцовых» документов выявляются наиболее общие (и. в единственном смысле. точные) ассоциации. а способ и устройство можно использовать для преобразования.

В одном из вариантов осуществления настоящего изобретения два состояния представляют собой естественные языки (например. английский. иврит. китайский и т.д.). и поэтому в соответствии с настоящим изобретением создается межъязыковая база данных. приводящая слова и словосочетания на одном языке в соответствие их переводным эквивалентам на другом языке. Словосочетания можно определить как группы последовательно расположенных смежных слов. часто со знаками препинания и любыми другими знаками. применяемыми для выражения мысли в языке. В данном варианте в соответствии с настоящим изобретением создают базу данных посредством анализа документов на двух языках и создания базы данных переводов для каждого повторяющегося слова или словосочетания на обоих языках. Однако настоящее изобретение не ограничивается переводом с одного языка на другой язык. Настоящее изобретение дает пользователю возможность создавать базу данных понятий и ассоциировать данные понятия с другими понятиями. с иерархическим различением понятий. Следовательно. понятия ассоциируют с другими понятиями и классифицируют по частоте появления. Удельный вес. придаваемый частоте появления. и область применения базы данных. созданной вышеописанным способом. могут изменяться в зависимости от потребностей пользователя.

Например. применительно к переводу текста с одного языка на другой язык действие настоящего изобретения будет заключаться в создании языковых переводов слов и словосочетаний с английского языка на китайский язык и наоборот. В соответствии с настоящим изобретением будут выдаваться оценки ранга ассоциаций между словами и словосочетаниями в двух языках. Если образец достаточно велик. то встречающееся слово или словосочетание. чаще всего. будет одним из китайских эквивалентов английского слова или словосочетания. Однако настоящее изобретение будет также выдавать другие ассоциации на китайском языке для английских слов или словосочетаний. и пользователь сможет работать с этими ассоциациями по своему усмотрению. Например. в ответ на слово «гора» (тоип(шп) при обработке в соответствии с настоящим изобретением может быть выдан список китайских слов и словосочетаний на анализируемом языке. Китайским языковым эквивалентам слова «гора» (тоип!ат). вероятнее всего. будет присвоен самый высокий ранг; однако. в соответствии с настоящим изобретением будут выданы и другие слова или словосочетания на иностранном языке. ассоциированные со словом «гора» (тоип(ат). например «снег» (кпоте). «лыжи» (кк1). «опасный спорт» (а баидетоик крой). «высочайшая точка на земле» ((Не Ыдйек! рош( щ (Не \\όγ16) или «гора Эверест» (Μΐ. Еуетей). Пользователь сможет по своему усмотрению работать с этими словами и словосочетаниями. которые. вероятно. будут классифицированы ниже рангом. чем переводы слова «гора» (тоип(аш). В соответствии с вышеизложенным настоящее изобретение представляет собой автоматизированный создатель ассоциативной базы данных. Наиболее сильные ассоциации соответствуют «переводам» или «преобразованиям» в единственном смысле. а другие частые (но менее сильные) ассоциации отражают понятия. которые тесно связаны с анализируемым понятием. Поэтому базы данных могут. например. применяться широко известными в технике системами. использующими методы искусственного интеллекта. В настоящее время указанные системы используют неполные. созданные вручную базы данных понятий или онтологии в качестве «нейронных сетей» для решения прикладных задач. Упомянутые базы данных ассоциированных понятий для использования в приложениях искусственного интеллекта можно построить с использованием любого заданного пользователем интервала в документе на одном языке.

В соответствии с другим вариантом осуществления настоящего изобретения применяется вычислительное устройство. например компьютерная система на базе широкодоступного персонального компьютера известного типа. Хотя вычислительное устройство обычно представляет собой обычный персональный компьютер (автономный или работающий в сетевой среде). предполагается также возможность применения других вычислительных устройств. например персональных цифровых информационных устройств (ΡΌΑ). беспроводных устройств. серверов. больших ЭВМ и т.п. Однако способ и устройство в соответствии с настоящим изобретением не нуждаются в применении упомянутых вычислительных устройств и допускают возможность простой реализации другими средствами. в том числе созданием вруч

- 5 007776 ную перекрестных ассоциаций. Способ, в соответствии с которым осуществляют анализ последовательных документов с целью расширения фонда «образцовых» документов и создают перекрестноассоциативную базу данных, характеризуется разнообразием, а именно, документы можно вводить для анализа и обработки вручную, с использованием автоматической подачи (например, известными в технике автоматическими загрузчиками бумаги) или с использованием поисковых «агентов» сети 1Щегпек, например ШеЬ СгаМегз, для автоматического выбора соответствующих документов.

Следует отметить, что настоящее изобретение допускает создание ассоциативной базы данных посредством анализа сопоставимого текста, помимо (или даже вместо) параллельного текста. Далее, способ предусматривает совместный просмотр всех доступных документов при поиске повторяющегося слова или словосочетания в языке.

Построение базы данных

В соответствии с настоящим изобретением анализируют документы с целью построения базы данных. После ввода документа (опять же, пары документов, представляющих один и тот же текст на двух разных языках) начинается процедура создания, использующая способы и/или устройства, указанные в настоящем описании.

Предположим для иллюстрации, что документы имеют идентичный контент (или, в общем смысле, понятия) на двух разных языках.

Документ А составлен на языке А, документ В составлен на языке В. Документы имеют следующий текст:

Документ А (язык А)	Документ В (язык В)
ΧΥΖΧΜνΥΖΧΖ	АА ВВ СС АА ЕЕ ЕЕ 6С СС

Первый этап по настоящему изобретению заключается в том, что вычисляют интервал слова, чтобы определить приближенное местоположение возможных ассоциаций к любому заданному слову или словосочетанию. Поскольку один лишь межъязыковый дословный анализ не обеспечит получение полезного результата (например, слово 1 в документе А часто не существует как буквальный перевод слова 1 в документе В), а предложение на одном языке, по своей структуре, может содержать эквивалентное понятие в другом месте (или в последовательности) предложения по отношению к предложению на другом языке, то процедура создания базы данных по настоящему изобретению состоит в том, что ассоциируют каждое слово или словосочетание на первом языке со всеми словами и словосочетаниями, найденными в выбранном интервале документа на втором языке. Указанный подход важен также по той причине, что в одном языке понятия часто выражаются с использованием более или менее длинных словосочетаний, чем в другом языке. Интервал определяют посредством анализа двух документов и используют для сравнения слов и словосочетаний второго документа со словами и словосочетаниями первого документа. А именно, интервал слов или словосочетаний во втором документе анализируют как возможные ассоциации к каждому слову или словосочетанию в первом документе. При проверке по интервалу в соответствии с процедурой создания базы данных определяют количество слов или словосочетаний второго языка, которые могут отождествляться и переводиться словами или словосочетаниями первого языка.

Существуют две характеристики, которые необходимо определить, чтобы задать в документе на втором языке интервал, в котором следует искать ассоциации к любому заданному слову или словосочетанию из документа на первом языке. Первой характеристикой является величина или размер интервала во втором документе, при этом упомянутая величина или размер измеряется числом слов в интервале. Второй характеристикой является местоположение интервала во втором документе, при этом упомянутое местоположение измеряется положением средней точки интервала. Обе характеристики задаются пользователем, однако, ниже предложены примеры предпочтительных вариантов осуществления. При определении размера и местоположения интервала необходимо добиваться высокой вероятности того, что интервал будет содержать перевод на второй язык слова или словосочетания из анализируемого сегмента на первом языке.

Для определения размера или величины интервала можно применить разные методы, включая общеизвестные статистические методы, например расчет графика нормального распределения по числу слов в документе. При использовании статистических методов, например графика нормального распределения, интервал в начале и конце документа будет меньше, чем интервал в середине документа. Колоколообразный частотный график, характеризующий интервал, позволяет выполнять допустимую экстраполяцию перевода, независимо от того, получен ли он, исходя из абсолютного числа слов в документе или из определенного процента слов в документе. Существуют другие способы вычисления интервала, например «ступенчатый» метод, в соответствии с которым существует интервал одного уровня для определенной процентной части слов, второго более высокого уровня для другой процентной части слов и третьего уровня, равного первому уровню, для последней процентной части слов. И вновь, пользователь может задавать или устанавливать все характеристики интервала в зависимости от других возможных параметров с целью выявления полезных ассоциаций к анализируемому слову или словосочетанию на

- 6 007776 первом языке.

Местоположение интервала в документе на втором языке может зависеть от результата сравнения количеств слов в двух документах. Что следует квалифицировать как документ, предназначенный для определения местоположения интервала, задается пользователем, например таким документом могут быть новые статьи, книжные главы и любые другие дискретно идентифицируемые элементы контента, состоящие из нескольких сегментов данных. Если количества слов в двух документах приблизительно равны, то местоположение интервала в документе на втором языке будет приблизительно совпадать с местоположением анализируемого слова или словосочетания в документе на первом языке. Если количества слов в двух документов не равны, то точное местоположение интервала можно определить из соотношения. Например, если документ А содержит 50 слов, а документ В содержит 100 слов, то соотношение между двумя документами равно 1:2. Серединой документа А является позиция слова 25. Если в документе А анализируют слово 25, то использование данной средней точки (позиция слова 25) в качестве местоположения середины интервала в документе В будет неэффективным решением, поскольку данная позиция (позиция слова 25) не является серединой документа В. Вместо этого, середину интервала в документе В для анализа слова 25 в документе А можно определить из отношения между количествами слов в двух документах (т.е. 25х2/1=50), размещением вручную в середине документа В или другими методами.

При рассмотрении позиций слов или словосочетаний в документе и выявлении всех слов или словосочетаний, которые попадают в вышеуказанный интервал, процедура создания базы данных в соответствии с настоящим изобретением выдает возможный набор слов или словосочетаний в документе на втором языке, которые могут переводиться каждым словом или словосочетанием в анализируемом первом документе. Когда применяют способ создания базы данных в соответствии с настоящим изобретением, набор слов и словосочетаний, которые соответствуют условиям пригодности в качестве возможных переводов, будет сужаться по мере роста частот ассоциаций. Следовательно, после анализа пары документов по настоящему изобретению будут формироваться частоты ассоциаций слов и словосочетаний на одном языке со словами или словосочетаниями на втором языке. После того как в соответствии с настоящим изобретением будет проанализировано несколько пар документов (и, следовательно, создан большой образец), процедура создания межъязыковой ассоциативной базы данных будет выдавать все более высокие частоты ассоциаций к любому слову или словосочетанию. После получения достаточно большого образца ассоциации с самыми высокими частотами дают вероятные переводы; при этом, конечно, предельное значение, при достижении которого частотой ассоциации полагают, что перевод является точным, задается пользователем и зависит от других способов перевода (например, способов, описанных в предварительной заявке № 60/276107 на патент США, поданной 16 марта 2001г., озаглавленной Ме11юб апб Аррата1и8 ίοτ Сои1еи1 Машри1а1юи и включенной в настоящее описание путем ссылки).

Согласно вышеприведенному описанию в соответствии с настоящим изобретением проверяются не только слова, но и словосочетания (множества слов). Ранее упоминалось, что словосочетания содержат все знаки пунктуации и знаки в порядке их появления. После окончания анализа одного слова в первом языке в соответствии с процедурой создания базы данных по настоящему изобретению выполняется анализ двухсловного словосочетания, затем трехсловного словосочетания и т. д. с пошаговым наращиванием. Указанная процедура дает возможность выполнять перевод слов или словосочетаний одного языка, которые переводятся в более короткие или длинные словосочетания (или слова) другого языка, что часто имеет место. Если слово или словосочетание появляется только 1 раз во всех имеющихся документах на первом языке, то процедура немедленно переходит к анализу следующего слова или словосочетания, на котором снова выполняется цикл анализа. Анализ прекращается после того, как выполняется анализ всех слов или словосочетаний, которые появляются в первом языке несколько раз во всем имеющемся параллельном и сопоставимом тексте.

В определенном смысле, можно объединить любое число документов и обрабатывать их как один документ с целью поиска повторяющихся слов или словосочетаний. По существу, чтобы слово или словосочетание не повторялось, оно должно появляться только 1 раз во всем имеющемся параллельном или сопоставимом тексте. Кроме того, возможен еще один вариант осуществления, по которому можно анализировать интервал, соответствующий каждому слову и словосочетанию, независимо от того, появляется ли оно или нет более 1 раза во всем сопоставимом и параллельном тексте. В соответствии с другим вариантом осуществления базу данных можно строить путем выделения конкретных слов и словосочетаний, которые входят в запрос. Когда для перевода вводят слова и словосочетания, то в соответствии с настоящим изобретением поиск неоднократно появляющихся слов или словосочетаний может выполняться в межъязыковых документах, хранящихся в памяти и еще не анализированных, поиском межъязыкового текста в сети 1и1етие1 с использованием «агентов» поиска в \УеЬ и других поисковых механизмов и, в конечном счете, обращением к пользователю с запросом вставить недостающую ассоциацию на основании результатов анализа запроса и из-за отсутствия достаточного межъязыкового материала.

В соответствии с вышеизложенным настоящее изобретение работает таким образом, чтобы анализировать словосочетания в зависимости от правильности размещения слов (в данном словосочетании), и может работать так, чтобы учитывать контекст выбираемого слова, а также такие грамматические осо

- 7 007776 бенности, как построение фраз, стиль или сокращения. Эти ассоциации к словосочетаниям полезны также при использовании способа перевода с двойным перекрытием, которому соответствует нижеописанная процедура перевода.

Следует отметить, что настоящее изобретение способно работать, когда поднабор слов или словосочетаний, принадлежащий более длинному словосочетанию, постоянно выдается как ассоциация к более длинному словосочетанию. В соответствии с настоящим изобретением такие конфигурации учитываются посредством обработки частот выдачи. Например, имена собственные иногда приводят полностью (например, «Джон Доу» ('ЭоНп Эое)), но с использованием в полном имени сокращения имени или фамилии («Джон» (ΙοΗη) или «Доу» (Эое)) либо с другим сокращением («г-н Доу» (Мг. Эое)). Поскольку настоящее изобретение, вероятнее всего, будет выдавать отдельные слова, а не словосочетания (т.е. будет чаще выдавать имя или фамилию, чем словосочетание «Джон Доу» (1ойп Эое) полного имени), потому что слова, которые составляют словосочетание, неизбежно будут подсчитываться отдельно, а также как часть фразы, то будет применяться механизм изменения ранга. Например, в любом документе словосочетание «Джон Доу» (1ойп Эое) может появиться 100 раз, имя «Джон» (1ойп) само по себе или в составе словосочетания «Джон Доу» (1ойп Эое) может появиться 120 раз, а фамилия «Доу» (Эое) само по себе или в составе словосочетания «Джон Доу» (1ойп Эое) может появиться 110 раз. В нормальном режиме выдачи перевода (в соответствии с настоящим изобретением) «Джон» (1ойп) будет иметь ранг выше, чем «Доу» (Эое), а оба данных слова будут иметь ранг выше, чем словосочетание «Джон Доу» (1ойп Эое), при осуществлении всех попыток анализа словосочетания «Джон Доу» (1ойп Эое). Вычитание числа появлений более длинного словосочетания из числа появлений поднабора (или отдельных выдаваемых результатов) позволяет добиться надлежащего упорядочивания (хотя для получения аналогичного результата, конечно, можно применить другие способы). Следовательно, вычитание 1 сотни (числа появлений словосочетания «Джон Доу» (1ойп Эое)) из 120 (число появлений слова «Джон» (1ойп)) дает точный результат для слова «Джон» (1ойп), равный 20. Применение данного анализа дает число появлений, равное 100, для словосочетания «Джон Доу» (1ойп Эое) (при анализе и попытке перевести данное словосочетание), 20 для слова «Джон» (1ойп) и 10 для словосочетания «Доу» (Эое), и таким образом обеспечивает создание правильных ассоциаций.

Следует также отметить, что упомянутая проблема не ограничена именами собственными и часто возникает в общих фразах и многих разных контекстах. Например, каждый раз при переводе словосочетания «Я люблю Вас» (I 1оуе уои) в качестве наиболее часто ассоциируемого с ним словосочетания на другом языке возможно независимое ассоциирование слова к слову «любить» (1оуе) в упомянутом другом языке. Кроме того, когда словосочетание переводят по другому в другом анализируемом тексте, то вновь возможно ассоциирование слова «любить» (1оуе). Это будет искажать анализ и приводить к выдаче слова «любить» (1оуе) на втором языке вместо словосочетания «Я люблю Вас» (I 1оуе уои) на втором языке в качестве перевода словосочетания I 1оуе уои с первого языка. Поэтому система вновь вычитает число появлений ассоциаций к более длинному словосочетанию из частоты ассоциаций ко всем остальным поднаборам при определении ранга ассоциаций к более длинному словосочетанию. Данные принципы отражены также на фиг. 1.

Кроме того, в базу данных можно заложить инструкцию игнорировать общие слова типа личного местоимения ίΐ, неопределенных артиклей ап и а, предлога о£, наречия аз, предлога ш и т.п. или любых общих слов при подсчете частот ассоциаций к словам или словосочетаниям. Такой подход обеспечит более точное отражение истинных численных значений частот ассоциаций, которые в другом случае будут искажаться из-за множества общих слов, появляющихся в составе любого данного интервала. Данное решение позволяет процедуре создания ассоциативной базы данных по настоящему изобретению не допускать искажения анализа из-за общих слов, причем без излишних вычислений необходимых вычитаний. Следует отметить, что, если данные или любые другие общие слова не «вычитать» из ассоциативной базы данных, они в конечном итоге, все равно, не будут приняты для перевода, если не будут уместными, потому что их отвергнет процедура с двойным перекрытием, подробное описание которой приведено ниже.

Следует отметить возможность выполнения других вычислений с целью корректировки частот ассоциаций с тем, чтобы обеспечить точное отражение числа совместных появлений слов или словосочетаний. Например, ввод поправки, исключающей двойной подсчет, возможно, был бы целесообразен в ситуации перекрытия интервалов анализируемых слов. Ввод поправок желателен в данных случаях для того, чтобы составить более точные частоты ассоциаций. Ниже рассмотрен типичный вариант осуществления способа и устройства для создания и дополнения межпонятийной базы данных в соответствии с настоящим изобретением на основе двух документов, ранее использованных в качестве примера; причем далее восстановлена таблица, содержащая упомянутые документы.

Таблица 1

Документ А (язык А)	Документ В (язык В)
ΧΥΖΧΝνΥΖΧΖ	АА ВВ СС АА ЕЕ ГЕ ОС СС

- 8 007776

Следует еще раз отметить, что, хотя в соответствии с настоящим вариантом осуществления изобретения поиск повторяющихся слов и словосочетаний осуществляется только в одном документе, данная процедура представлена лишь для иллюстрации. Анализ повторяющихся слов и словосочетаний будет выполняться с использованием всей совокупности параллельных и сопоставимых текстов.

При использовании двух вышеуказанных документов (документа А на первом языке и документа В на втором языке) процедура создания базы данных содержит следующие этапы.

Этап 1.

Во-первых, определяются размер и местоположение интервала. Выше указано, что размер и местоположение могут быть заданы пользователем или приближенно определены разными способами. Количества слов в обоих документах приблизительно равны (10 слов в документе А, 8 слов в документе В), поэтому середину интервала целесообразно поместить в позицию, совпадающую с местоположением слова или словосочетания в документе А. (Примечание: поскольку соотношение количеств слов в документах равно 80%, то в соответствии с другим вариантом местоположение интервала можно задать на основе отношения 4/5.) В данном примере размер или значение 3 для интервала может обеспечить наилучшие результаты для аппроксимации графика нормального распределения; тогда интервал в начале и конце документа будет равен (+/-)1, а в середине документа - (+/-)2. Однако в соответствии с вышеизложенным интервал (или способ, используемый для определения интервала) может быть задан только пользователем.

Этап 2.

Далее, осуществляются анализ первого слова в документе А и просмотр документа А с целью определения числа появлений данного слова в документе. В настоящем примере первым словом в документе А является X: X повторяется 3 раза в документе А, в позициях 1, 4 и 9. Номера позиций слова или словосочетания являются просто местоположением данного слова или словосочетания в документе относительно других слов. Следовательно, номера позиций соответствуют номерам слов в документе, но без учета пунктуации; например, если документ содержит 10 слов, а слово «король» (кшд) появляется дважды, то номера позиций слова «король» (кшд) являются всего лишь местами (в последовательности из 10 слов), на которых появляется данное слово.

Поскольку слово X появляется в документе больше 1 раза, процедура переходит к следующему этапу. Если бы слово X появилось только 1 раз, то данное слово было бы пропущено, продолжением процедуры был бы переход к следующему слову и процедура создания продолжалась бы.

Этап 3.

Выдаются возможные переводы на второй язык для первого слова X в позиции 1: интервальная обработка документа В дает слова в позициях 1 и 2 (1 +/-1) в документе В: АА и ВВ (расположенные в позициях 1 и 2 документа В). Выдаются все возможные комбинации как потенциальные переводы или подходящие ассоциации к X: АА, ВВ и АА ВВ (как объединение в словосочетание). Следовательно, в ответ на X1 (первое появление слова X) выдаются АА, ВВ и АА ВВ в качестве ассоциаций.

Этап 4.

Выполняется анализ следующей позиции слова X. Данное слово (Х2) появляется в позиции 4. Поскольку позиция 4 находится вблизи центра документа, интервал (установленный вышеописанным способом) будет представлен 2 словами с каждой стороны от позиции 4. Возможные ассоциации выдаются при рассмотрении слова 4 в документе В и использовании интервала (+/-)2, т. е. в результат выдаются 2 слова, находящиеся перед словом 4, и 2 слова, находящиеся после слова 4. Следовательно, в результате выдаются слова в позициях 2, 3, 4, 5 и 6. Данные позиции соответствуют словам ВВ, СС, АА, ЕЕ и ЕЕ в документе В. Учитываются все прямые перестановки из данных слов (и словосочетания, полученные их объединением). В соответствии с вышеизложенным в ответ на Х2 выдаются ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ как возможные ассоциации.

Этап 5.

Результаты, выданные в ответ на первое появление X (в позиции 1), сличаются с результатами, выданными в ответ на второе появление X (в позиции 4), и определяются совпадения. Следует указать, что выданные результаты, которые содержат одинаковое слово или словосочетание, появляющееся в месте перекрытия двух интервалов, следует сократить до одного появления. Например, в настоящем примере в позиции 2 находится слово ВВ; данное слово выдается в ответ как на первое появление X (при интервальной обработке), так и на второе появление X (при интервальной обработке). Поскольку данная неизменная позиция слова выдается в ответ как на X1, так и на Х2, то считается, что слово появляется 1 раз. Однако если одно и то же слово выдается на участке перекрытия интервала, но с двух разных позиций слова, тогда слово подсчитывается дважды и регистрируется частота ассоциации. В данном случае результатом, выданным в ответ на слово X, является АА, поскольку данное слово (АА) появляется в обеих ассоциациях, выданных в ответ на X1 и Х2. Следует отметить, что другим словом, которое появляется в обеих выданных ассоциациях, является ВВ; но согласно вышеизложенному, поскольку данное слово является одной и той же позицией (и потому является одним и тем же словом), достигаемой в процессе интервальных обработок при первом и втором появлениях X, данное слово можно отбросить.

- 9 007776

Этап 6.

Анализируется следующая позиция слова X (позиция 9) (Х3). Применение интервала (+/-)1 (вблизи конца документа) дает ассоциации в позициях 8, 9 и 10 документа В. Поскольку документ В содержит только 8 позиций, результаты усекаются и в качестве возможных значений для X выдается только слово в позиции 8: СС. (Примечание: в альтернативном варианте заданные пользователем параметры могли бы потребовать, по меньшей мере, 2 знака согласно условиям анализа, что привело бы к выдаче позиции 8 и следующей ближайшей позиции (которой является СС в позиции 7)).

Сличение выданных ассоциаций к Х3 с выданными ассоциациями к XI обнаруживает отсутствие совпадений и, следовательно, отсутствие ассоциаций.

Этап 7.

Анализируется следующее положение слова X; однако, слово X больше не появляется в документе А. С этого момента, слову X в языке А назначается частота ассоциации один (1) к слову АА в языке В.

Этап 8.

Поскольку слово X больше не появляется, то процедура предусматривает добавление 1 слова, после чего осуществляется проверка словосочетания. В данном случае анализируется словосочетание X Υ, т.е. первые 2 слова в документе А. Метод обработки данной фразы идентичен методу, описанному на этапах 2-7.

Этап 9.

При просмотре документа А очевидно, что словосочетание X Υ появляется в нем только 1 раз. С этого момента процедура добавления прекращается, и создания базы данных не происходит. Поскольку достигнута конечная точка процедуры, то выполняется анализ следующего слова (указанная процедура выполняется всякий раз, когда не появляются совпадения для словосочетания); в данном случае словом в позиции 2 документа А является Υ.

Этап 10.

Применение процедуры, состоящей из этапов 2-7, для обработки слова Υ дает следующий результат:

слово Υ появляется дважды (в позициях 2 и 7), и потому процедура создания базы данных продолжается (и здесь, если бы Υ появилось в документе А только 1 раз, то анализ для Υ не выполнялся бы);

размер интервала в позиции 2 равен (+/-)1 слову;

интервальная обработка документа В (для позиции 2, являющейся местоположением первого появления слова Υ) выдает в результат позиции 1, 2 и 3 в документе В;

соответствующими словами на иностранном языке в указанных выданных позициях оказываются АА, ВВ и СС;

применение прямых перестановок дает для Υ1 следующие возможности: АА, ВВ, СС, АА ВВ, АА ВВ СС и ВВ СС;

анализируется следующая позиция слова Υ (позиция 7);

размер интервала в позиции 7 равен (+/-)2 слова;

обработка данным интервалом документа В (в позиции 7) выдает позиции 5, 6, 7 и 8, а именно: ЕЕ ЕЕ СС и СС;

все перестановки дают следующие возможности для Υ2: ЕЕ, ЕЕ, СС, СС, ЕЕ ЕЕ, ЕЕ ЕЕ СС, ЕЕ ЕЕ СС СС, ЕЕ СС, ЕЕ СС СС и СС СС;

подбор совпадающих результатов из множества для Υ1 дает только одно совпадение: СС; объединение совпадений для Υ1 и Υ2 дает СС как частоту ассоциаций для Υ.

Этап 11.

Добавление в конце интервала: поскольку единственное возможное совпадение для слова Υ (слово СС) появляется в конце интервала, соответствующего первому появлению Υ (СС появилось в позиции 3 документа В), то интервал, соответствующий первому появлению, наращивается на 1, и в результате выдаются позиции 1, 2, 3 и 4: АА, ВВ, СС и АА; или следующие прямые перестановки: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА. Применение данного результата все также дает СС как возможный перевод для Υ. Следует отметить, что добавление к интервалу выполняется потому, что выданное совпадение находилось в конце интервала, соответствующего первому появлению (основному появлению для слова Υ); т.е. каждый раз, когда будет возникать данная картина, то, чтобы обеспечить полноту, будет выполняться подэтап (или альтернативный этап) добавления в конце интервала.

Этап 12.

Поскольку Υ больше не появляется в документе А, то в соответствии с процедурой анализа в документе А добавляется 1 слово и анализируется словосочетание Υ Ζ (добавляется следующее слово за словом Υ). Добавление следующего слова до словосочетания (Υ Ζ) и повторение процедуры дают следующий результат: словосочетание Υ Ζ дважды появляется в документе А: в позициях 2 и 7. Возможностями для Υ Ζ при первом появлении (Υ Ζ1) являются АА, ВВ, СС, АА ВВ, АА ВВ СС, ВВ СС (следует отметить, что в альтернативном варианте параметры интервала могли быть заданы таким образом, чтобы предусматривать расширение размера интервала по мере того, как словосочетания, анализируемые на

- 10 007776 языке А, становятся длиннее).

Возможностями для Υ Ζ при втором появлении (Υ Ζ2) являются ЕЕ, ЕЕ, СС, СС, ЕЕ ЕЕ, ЕЕ ЕЕ СС, ЕЕ ЕЕ СС СС, ЕЕ СС ЕЕ СС СС и СС СС.

Поиск совпадений дает СС как возможную ассоциацию к словосочетанию Υ Ζ.

Расширение интервала (добавление в конце интервала) дает для Υ Ζ следующие результаты: АА, ВВ, СС, АА ВВ, АА ВВ СС, АА ВВ СС АА, ВВ СС, ВВ СС АА и СС АА.

Применение данных результатов все также дает СС как частоту ассоциации для словосочетания Υ Ζ. Этап 13.

Поскольку Υ Ζ больше не появляется в документе А, то в соответствии с процедурой анализа в документе А добавляется 1 слово и анализируется словосочетание Υ Ζ X (добавляется следующее слово за словом Ζ в позиции 3 в документе А). Добавление следующего слова до словосочетания (Υ Ζ X) и повторение процедуры (Υ Ζ X дважды появляется в документе А) дает следующий результат:

первому появлению Υ Ζ X соответствуют выдаваемые позиции 2, 3, 4 и 5;

перестановки имеют вид: ВВ, СС, АА, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ;

второму появлению Υ Ζ X соответствуют выдаваемые позиции 5, 6, 7 и 8;

перестановки имеют вид: ЕЕ, ЕЕ, СС, СС, ЕЕ ЕЕ, ЕЕ ЕЕ СС, ЕЕ ЕЕ СС СС, ЕЕ СС, ЕЕ СС СС и СС СС. сличение двух данных результатов дает СС как частоту ассоциаций для словосочетания Υ Ζ X; и вновь следует отметить, что слово ЕЕ, выданное в качестве возможной ассоциации, отбрасывается, поскольку оно в обоих случаях появляется как одно и то же слово (т. е. на той же самой позиции).

Этап 14.

Добавление следующего слова до словосочетания (Υ Ζ X А) дает только одно появление; поэтому создание базы данных словосочетаний завершается и анализируется следующее слово: Ζ (позиция 3 в документе А).

Этап 15.

Применение вышеописанных этапов для обработки слова Ζ, которое появляется 3 раза в документе А, дает следующее:

для Ζ1 выдаются следующие результаты: АА, ВВ, СС, АА, ЕЕ, АА ВВ, АА ВВ СС, АА ВВ СС АА, АА ВВ СС АА ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, СС АА, СС АА ЕЕ и АА ЕЕ;

для Ζ2 выдаются следующие результаты: ЕЕ, СС, СС, ЕЕ СС, ЕЕ СС СС и СС СС;

сличение результатов для Ζ1 и Ζ2 дает СС как частоту ассоциаций для Ζ;

для слова Ζ3 (позиция 10) нет результатов в заданном интервале. Однако, если в параметры внести дополнение, что должно существовать, по меньшей мере, одно соответствие для каждого слова или словосочетания в языке А, то в ответ на Ζ будет выдано СС;

сличение результатов для Ζ3 с результатами для Ζ1 дает СС в качестве частоты ассоциации к слову Ζ. Однако данная ассоциация не подсчитывается, так как СС в позиции 8 слова уже учтено в вышеприведенной ассоциации к Ζ2. Если перекрытие интервала потребует от процедуры дважды подсчитать появления, система может уменьшить частоту ассоциаций, чтобы точнее отразить число истинных появлений.

Этап 16.

Добавление следующего слова до словосочетания дает словосочетание Ζ X, которое дважды появляется в документе А. Обработка словосочетания Ζ X согласно вышеописанным этапам дает следующее:

для Ζ X1 выдаются следующие результаты: ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ;

для Ζ X2 выдаются следующие результаты: ЕЕ, СС, СС, ЕЕ СС, ЕЕ СС СС и СС СС;

сличение результатов дает ассоциацию между словосочетанием Ζ X и СС.

Этап 17.

Добавление следующего слова дает фразу Ζ X А. Данная фраза появляется только 1 раз, поэтому в документе А выполняется анализ следующего слова (X).

Этап 18.

Анализ слова X уже выполнялся в первой позиции. Однако вторая позиция слова X, связанная с другим документом, еще не подвергалась анализу на предмет выдачи возможных результатов для слова X. Следовательно, в данном случае, т.е. при продвижении вперед по документу, слово X (во второй позиции) обрабатывается как при первом появлении слова X:

для X в позиции 4 выдаются следующие результаты: ВВ, СС, АА, ЕЕ, ЕЕ, ВВ СС, ВВ СС АА, ВВ СС АА ЕЕ, ВВ СС АА ЕЕ ЕЕ, СС АА, СС АА ЕЕ, СС АА ЕЕ ЕЕ, АА ЕЕ, АА ЕЕ ЕЕ и ЕЕ ЕЕ.

для X в позиции 9 выдаются следующие результаты: СС.

сличение результатов позиции 9 с результатами позиции 4 дает СС как возможное совпадение для слова X, и ему задана частота ассоциации.

Этап 19.

Добавление следующего слова до словосочетания (поскольку при просмотре документа в прямом направлении больше не обнаруживаются появления X для сравнения со вторым появлением X) дает сло

- 11 007776 восочетание X А. Однако данное словосочетание не появляется больше 1 раза в документе А, поэтому процедура переходит к анализу следующего слова (А). Слово А появляется в документе А лишь 1 раз, поэтому происходит переход на шаг, но не к следующему словосочетанию, ведь слово А появилось только однажды, а к следующему слову в документе А, слову V. Слово V появляется в документе А лишь 1 раз, поэтому выполняется анализ следующего слова (Υ). Слово Υ не появляется ни в одной другой позиции с порядковым номером больше позиции 7 в документе А, поэтому выполняется анализ следующего слова (Ζ). Слово Ζ появляется еще раз после позиции 8, а именно в позиции 10.

Этап 20.

Применение вышеописанной процедуры для обработки слова Ζ при втором появлении дает следующие результаты:

для Ζ в позиции 8 выдаются следующие результаты: ОС, СС и ОС СС;

для Ζ в позиции 10 выдаются следующие результаты: СС;

сличение результатов в позиции 10 с результатами в позиции 8 не дает ассоциаций к слову Ζ.

И вновь слово СС выдается как возможная ассоциация; но поскольку СС представляет одну и ту же позицию слова, которая достигается при анализе слова Ζ в позиции 8 и слова Ζ в позиции 10, то данная ассоциация отбрасывается.

Этап 21.

Добавление одного слова дает словосочетание Ζ X; но данное словосочетание больше не появляется ни в одной (в прямом направлении) позиции в документе А, поэтому процедура начинается заново на следующем слове в документе А, слове X. Слово X не появляется больше ни в одной другой (в прямом направлении) позиции документа А, поэтому процедура начинается заново. Однако достигнут конец документа А, поэтому анализ прекращается.

Этап 22.

Окончательная частота ассоциации вносится в таблицу, сочетающую все результаты вышеописанной процедуры и вычитающую дублированные результаты в соответствии с описанием.

Очевидно, объем данных не достаточен для того, чтобы выдать заключительные результаты для слов и словосочетаний в документе А. По мере того, как будет увеличиваться число пар анализируемых документов, содержащих слова и словосочетания вместе с вышепроанализированными ассоциациями, частоты ассоциаций будут становится статистически более надежными, так что взаимосвязанные слова или словосочетания в языках А и В построят сильные ассоциации для возможных переводов слов и словосочетаний.

Программа 1 (Ргодгат1), приведенная в прилагаемом листинге компьютерных программ, является примером программы, предназначенной для осуществления варианта способа создания базы данных. Программа 1 (Ргодгат1) может исполняться компьютерной системой известного в технике типа.

Как показано, данный вариант осуществления является характерным для способа, используемого с целью создания ассоциаций. Методики в соответствии с настоящим изобретением не обязательно ограничиваются только языковым переводом. В широком смысле, данные методики будут применимы к любым двум выражениям одного и того же понятия, которые можно ассоциировать, поскольку, по своей сути, перевод на иностранный язык или с него существует просто как парная ассоциация одного и того же понятия, представленного разными словами или словосочетаниями. В соответствии с вышеизложенным настоящее изобретение может применяться для ассоциирования данных, звуков, музыки, видеоданных или любого общего представления, которое существует в форме понятия, в том числе понятий, которые могут представлять сенсорные (слуховые, визуальные, обонятельные и т.д.) ощущения. В соответствии с настоящим изобретением требуется только выполнять два варианта реализации (в языковом переводе вариантами реализации являются документы; в музыке вариантами реализации могут быть цифровые представления музыкальных партитур и звуковых частот, обозначающих одно и то же сочинение, и т. п.).

В соответствии с другим вариантом осуществления некоторые широко известные в технике алгоритмы, основанные на правилах, можно включать в межъязыковую ассоциацию, самообучающуюся обработке определенных классов текстов, которые по контексту и смыслу являются взаимозаменяемыми (и иногда могут иметь потенциально неограниченное число производных), например имен, чисел и дат.

Кроме того, если доступные межъязыковые документы не обеспечивают статистически значимых результатов для перевода, то пользователи могут анализировать возможные альтернативы для переводов и других ассоциаций и одобрять и классифицировать по рангам соответствующие варианты выбора.

В соответствии с вышеизложенным частоты ассоциаций между словами и словосочетаниями становятся строже, по мере того, как все больше документов в форме переведенных пар подвергаются анализу с целью оценки частот ассоциаций. С увеличением числа языковых пар документов, подвергаемых анализу, способ и устройство в соответствии с настоящим изобретением начнут наполнение «выведенными ассоциациями» между языковыми парами, состоящими из таких языков, которые имеют общую ассоциацию с третьим языком, но не имеют ассоциации непосредственно между собой. Кроме того, когда переведенные документы существуют на нескольких языках, общие выданные ассоциации можно анализировать в нескольких языках, до нахождения только одной общей ассоциации между всеми языками, кото

- 12 007776 рая является переводом. Программа Ртодтат2, приведенная в приложении листинга компьютерных программ, является примером компьютерной программы, которая, при исполнении на компьютерной системе известного в технике типа, представляет способ, в соответствии с которым данные на упомянутых языках применяются в варианте осуществления настоящего изобретения.

Кроме того, если отображениям в существующих состояниях искусственно присваивать конкретные ассоциации с частными значениями в другом состоянии и включать данные отображения в каталог базы данных, то можно производить преобразования между двумя состояниями. Например, если каждому «понятию», представленному в какой-то форме, состоянии или на каком-то языке, присваивать ассоциацию с электромагнитной волной (тоном), то будет создано «электромагнитное представление» понятия. Когда заданное число понятий закодировано соответствующими электромагнитными представлениями, данные (в форме понятия) можно преобразовывать в электромагнитные волны и мгновенно передавать с использованием обычной телекоммуникационной инфраструктуры. Когда электромагнитные волны достигают устройства, для которого они предназначены, это устройство будет синтезировать из электромагнитных волн отдельные компоненты и, с учетом ассоциаций (вместе с инструкциями по упорядочиванию, использованием метода двойного перекрытия, изложенного в настоящем описании, и/или других возможных способов), будет представлять отдельные понятия, которые были представлены в виде электромагнитных волн.

Способ и устройство для преобразования понятий

Другой аспект настоящего изобретения заключается в предложении способа и устройства для создания второго документа, содержащего данные во втором состоянии, форме или на втором языке, из первого документа, содержащего данные в первом состоянии, форме или на первом языке, и получения конечного результата, состоящего в том, что первый и второй документы отражают, по существу, те же самые понятия или информацию; при этом способ и устройство содержат межпонятийную ассоциативную базу данных. Чтобы обеспечить точное преобразование понятий из одного состояния в другое состояние, все варианты осуществления способа перевода используют метод двойного перекрытия. Напротив, известные устройства перевода работают на основе перевода отдельных слов или используют специальные, основанные на правилах коды для облегчения перевода с первого языка на второй язык. В соответствии с настоящим изобретением использование метода перекрытия позволило бы органично связывать между собой слова и словосочетания на втором языке так, чтобы они становились точным переводом с обеспечением для них правильного контекста и точного стиля, в которых данные слова и фразы записывались бы на втором языке.

В соответствии с вариантом осуществления настоящего изобретения, чтобы обеспечить точный языковый перевод, сочетают способ создания базы данных и метод перекрытия. Языки могут представлять собой любой вид преобразования и не обязательно ограничиваются разговорными и письменными языками. Например, преобразование может относиться к компьютерным языкам, специальным кодовым наборам типа Л8СП и т.п. База данных является динамической; т.е. база данных расширяется по мере того, как контент вводят в систему перевода, с использованием системой перевода в процессе последовательных итераций ранее введенной информации. В соответствии с предпочтительным вариантом осуществления настоящего изобретения применяется вычислительное устройство, например компьютерная система на базе персонального компьютера известного в технике и широкодоступного типа. Однако система не нуждается в использовании упомянутого вычислительного устройства и может быть легко реализована другими средствами, включая ручное создание базы данных и способы перевода.

Настоящее изобретение можно использовать с обычной компьютерной системой, содержащей, по меньшей мере, средство отображения, способ ввода и вывода и процессор. Средство отображения может представлять собой любое из широкодоступных в технике средств, например терминалы на базе электроннолучевых трубок, жидкокристаллические дисплеи, плоские индикаторные панели и т. п. Процессорное средство также может представлять собой любое из широкодоступных устройств, используемых в составе компьютерного оборудования, с условием, чтобы примененное средство позволяло компьютеру в процессе работы реализовать настоящее изобретение. И, наконец, используемый способ ввода должен допускать ввод документов с целью построения перекрестно-ассоциативной базы данных; при этом в соответствии с вышеизложенным конкретный способ ввода, предназначенный для преобразования в цифровую форму, может изменяться в зависимости от потребностей пользователя.

Ручное создание базы данных и перевод с использованием метода двойного перекрытия

Ниже приведено описание типичного варианта осуществления таких способа и устройства для перевода документа с первого языка на второй язык в соответствии с настоящим изобретением, в которых межъязыковая база данных создается посредством обращения к пользователю с запросами на перевод слов и словосочетаний, а также автоматического формирования переводов сегментов с использованием метода двойного перекрытия.

В целях описания предпочтительного варианта осуществления изобретения ниже использован пример, в котором данные на английском языке переводят в данные на иврите. Данные условия выбраны исключительно в описательных целях и не предполагают возможность ограничения выбора первого и второго языков.

- 13 007776

В соответствии с предпочтительным вариантом осуществления настоящего изобретения компьютерная система действует так, чтобы создавать базу данных ассоциаций между переводами с английского языка на иврит. Способ перевода содержит, по меньшей мере, следующие этапы.

Во-первых, данные на английском языке вводят в компьютерную систему.

Во-вторых, все введенные слова на английском языке сначала анализируются пословно. База данных выдаст известные переводы слов на иврит. Если перевод не содержится в базе данных, то компьютерная система будет действовать таким образом, чтобы запрашивать пользователя о вводе соответствующего перевода. Следовательно, если базе данных не известен эквивалент на иврите введенному английскому слову, то компьютер запросит пользователя предоставить соответствующий эквивалент на иврите. Тогда пользователь выдаст перевод и введет упомянутый перевод в базу данных. При последующем использовании компьютерная система будет работать с базой данных таким образом, чтобы перевод был известен в силу его ввода пользователем в предыдущий момент времени. Следовательно, на втором этапе выполняется анализ входных данных в синтаксически разобранном состоянии, например пословно, и соответствующие переводы либо выдаются (благодаря работе с базой данных), либо вводятся в базу данных.

В-третьих, выполняется анализ входных данных таким образом, чтобы дополнить синтаксически разобранные сегменты. Например, если данные сначала прошли пословный синтаксический анализ, то далее способ перевода в соответствии с настоящим изобретением анализирует входные данные посредством оценки двухсловных словосочетаний. И вновь, в соответствии с вышеописанной процедурой база данных выдает переводы двухсловных словосочетаний, если они известны; если же указанные переводы не известны, то компьютерная система действует так, чтобы запрашивать пользователя о вводе соответствующего перевода для всех возможных двухсловных словосочетаний. Затем все перекрывающиеся двухсловные сегменты записываются в базу данных. Например, если словосочетание содержит 4 слова, то база данных удостоверяется в том, записаны ли в память базы следующие сочетания: 1,2, 2,3 и 3,4. Если нет, то база данных обращается с запросом к пользователю. Следует отметить, что только специально кодированные переводы двухсловных сочетаний будут выдаваться как точные переводы, даже несмотря на то, что база данных будет обязательно содержать определение для каждого слова в силу выполнения вышеописанного второго этапа.

В-четвертых, если переводы на иврит двух перекрывающихся двухсловных английских словосочетаний содержат перекрывающееся слово (или слова), то система действует таким образом, чтобы сочетать перекрывающиеся сегменты. Избыточные сегменты на иврите в области перекрытия исключаются, чтобы сформировать осмысленный перевод английских трехсловных словосочетаний, которые создаются сочетанием двух перекрывающихся словосочетаний на английском языке (и исключением избыточных слов в области перекрытия на английском языке). Вышеописанные этапы повторяются от 1 раза до бесконечного множества раз (п), чтобы обеспечить подходящий перевод. Способ перевода работает автоматически посредством проверки непротиворечивых словосочетаний, которые соединяют кодированные группы слов на обоих языках по зонам перекрытия. Указанные автоматически выполняемые одобрения связок, которые заполняют зоны перекрытия и непротиворечивы в обоих языках, обеспечивают создание языковой сети, которая преобразуется из одного языка в другой язык с идеальной точностью после того, как база данных достигает критической массы.

Рассмотрим, например, английскую фразу I \ναηΙ ίο Ьиу а саг («Я хочу купить автомобиль»). После обработки способом в соответствии с настоящим изобретением данная фраза будет введена в управляемую компьютером базу данных. Компьютер будет действовать таким образом, чтобы определить, содержит ли база данных эквиваленты на иврите к следующим словам: I, \\шИ. ίο, Ьиу, а и саг. Если данные эквиваленты известны, то компьютер выдаст эквиваленты на иврите. Если данные эквиваленты не известны, то компьютер обратится с запросом к пользователю предоставить соответствующие переводы на иврит и введет в память полученные переводы для будущего использования. Затем компьютер лексически разберет предложение на двухсловные сегменты с перекрытием: I ναηΐ, \гап1 ίο, ίο Ьиу, Ьиу а и а саг. Компьютер будет действовать так, чтобы выдать эквиваленты на иврите к приведенным сегментам (т.е. эквиваленты на иврите к I \\шИ и т.д.); если данные эквиваленты на иврите не известны, тогда компьютер запросит пользователя предоставить соответствующие переводы на иврит и введет данные переводы в память для будущего использования.

Затем в соответствии с настоящим изобретением будут проанализированы трехсловные сегменты I \\щИ ίο, \\шИ ίο Ьиу, ίο Ьиу а и Ьиу а саг. В данной точке процедуры в соответствии с настоящим изобретением делается попытка сочетать каждую из пар переводов на иврит, у которых двухсловные английские переводы перекрываются и сочетаются, чтобы запросить перевод трехсловных английских словосочетаний (например, I \\шИ и \\шИ ίο сочетаются с образованием I \\шИ ίο). Если сегменты на иврите содержат общую зону перекрытия, которая также связывает их, то способ перевода автоматически утверждает преобразование трехсловного английского словосочетания на иврит как перевод без вмешательства пользователя. Если сегменты на иврите не перекрываются и не сочетаются, то пользователю направляется запрос на точный перевод. После попыток подходящего перевода трехсловных английских словосочетаний процедура переходит к четырехсловным словосочетаниям и т.д. и делает по

- 14 007776 пытку посредством межъязыкового перекрытия автоматически выделить сочетания переводов, пока не закончится анализируемый сегмент (в рассматриваемом случае вся фраза I \ν;·ιηΙ ίο Ьиу а саг). В соответствии со способом по настоящему изобретению после выполнения описанного лексического анализа производится сличение выданных переводных эквивалентов, исключаются избыточность в местах перекрытия сегментов и переведенная фраза выводится для пользователя.

Перевод документов с использованием базы данных и метода двойного перекрытия

В соответствии с другим предпочтительным вариантом осуществления настоящего изобретения документ, составленный на первом языке, можно преобразовать в документ на втором языке с использованием вышеописанной межъязыковой базы данных, чтобы обеспечить в виде словосочетаний переводы слов и словосочетаний, содержащихся в документе, а затем сочетать перекрывающиеся словосочетания на втором языке для создания перевода документа с использованием вышеописанного метода межъязыкового двойного перекрытия. Например, рассмотрим базу данных с доступом к достаточному числу межъязыковых документов, чтобы выделить компоненты нижеследующего предложения, введенного на английском языке и предназначенного для перевода на иврит: Ιη аббйюп ίο ту оееб ίο Ье 1отсб Ьу а11 !йс дйк ίη ίονη, I а1\тау5 теаЫеб ίο Ье Κηονη а§ !йс ЬеЛ р1ауег ίο еуег р1ау οη !йс №\ν Уотк 51а1е Ьа^кеЛаП ίеат.

Посредством выполнения вышеописанной процедуры способ обработки может определить, что фраза Ιη абб^^ ίο ту оееб ίο Ье 1ο\ό6 Ьу а11 !йс дйк является самым длинным словосочетанием в исходном документе, начинающимся с первого слова исходного документа и существующим в базе данных. Данная фраза ассоциирована в базе данных со словосочетанием на иврите ЬегюхаГ 1ίζοΐΌΗι кйей 1ΐΗϊοί айиу а1 уебау М йаЬайшЫ. Затем процедура определит следующие переводы с использованием вышеописанного способа, т.е. самое большое английское словосочетание из подлежащего переводу текста (и существующее в базе данных) с одним словом (или, в соответствии с другим вариантом, несколькими словами), которое(ые) перекрывается(ются) с ранее выявленным английским словосочетанием, и два перевода на иврит для этих перекрывающихся английских словосочетаний, также с перекрывающимися сегментами: 1ο\ό6 Ьу а11 !йс дйк ίη ίονη переводится как айиу а1 уебау Ш йаЬайшЫ Ьшг; 1йе дйй ίη ίονη, I а1\тау5 \\'агИеб ίο Ье 1<ηο\νη переводится как НаЬайшЫ Ьшг, 1аннб πιίζίίν 1^й^οί уайиа; I а1\\ау5 \\'аг11еб ίο Ье 1<ηο\νη а§ 1йе ЬеЩ р1ауег переводится как (аплб πιίζίίν 1ί1ιίοί уайиа Ье1Юг йакайкал йасЫ ίον; и 1йе ЬеЩ р1ауег ίο еует р1ау οη Фе №\ν Υο6< 51а1е Ьа5ке1йа11 ίеат переводится как йакайкал йасЫ ίον §й йау раат ыйек Ьекνиίζаί йакабиг§а1 §йе1 тебта! пс\у νο6<.

При наличии приведенных результатов, выданных базой данных, обработка будет выполняться таким образом, чтобы сличить перекрывающиеся слова и словосочетания и исключить избыточные компоненты. В соответствии с этим 'Ίη аббйюп ίο ту пееб ίο Ье Ыуеб Ьу а11 1йе дик переводится как Ьегю^аГ 1ίζοΐΌΗι кйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ; а Ыуеб Ьу а11 1йе дйк ίη ίονη переводится как айиу а1 уебау М йаЬайшЫ Ьшг. При использовании способа по настоящему изобретению система примет сегменты на английском языке 'Ίη аббйюг1 ίο ту псс6 ίο Ье Ыуеб Ьу а11 !йс дик и Ыуеб Ьу а11 !йс дик ίη ίο\νη и выдаст сегменты на иврите Ьегю^аГ 1ίζοιυΗι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ и айиу а1 уебау М йаЬайшЫ Ьшг, а также определит перекрытие.

На английском языке фразы имеют вид: 'Ίη аббйюг1 ίο ту псс6 ίο Ье Ыуеб Ьу а11 !йс дик и Ыуеб Ьу а11 !йс дик ίη ίο\νη. Удаление перекрытия дает: 'Ίη аббйюг1 ίο ту псс6 ίο Ье Ыуеб Ьу а11 !йс дик ίη ίο\νη.

На иврите фразы имеют вид: Ьегю^аГ 1ίζοΐΌΗι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ и айиу а1 уебау Ш йаЬайшЫ Ьшг. Удаление перекрытия дает: Ьегю^аГ 1ίζοΐΌ^ι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ Ьшг.

Затем в соответствии с настоящим изобретением обрабатывается следующий синтаксически разобранный сегмент, и тем самым процедура продолжается. В настоящем примере процедура обработки применяется к фразе 'Чйе дик ίη ίο\νη. I а1\тау5 теаЫеб ίο Ье 1<ηο\νη. Система выделяет английский сегмент 'Ίη аббйюг1 ίο ту псс6 ίο Ье ктеб Ьу а11 !йс дик ίη ίο\νη и новый набор английских слов !йс дик ίη ίονη, I а1\тау5 \\шиеб ίο Ье 1<ηο\νη. Соответствующими наборами слов на иврите являются Ьегю^аГ 1ίζοΐΌ^ι вйей 1ίΗίοί айиу а1 уебау М йаЬайшЫ Ьшг и новый соответствующий набор слов на иврите йаЬайшЫ Ьшг, 1ат1б Γπίζίίν 1ίΗίοί уайиа. Удаление перекрытия на английском языке превращает две фразы: 'Ίη аббйюг1 ίο ту оееб ίο Ье Ыуеб Ьу а11 !йс дик ίη ίονη и !йс дик ίη ίονη, I а1^ау§ теаЫеб ίο Ье 1<ηο\νη в одну фразу 'Ίη аббйюг1 ίο ту оееб ίο Ье Ыуеб Ьу а11 !йс дик ίη ίονη, I а1^ау§ \\шиеб ίο Ье 1<ηο\νη.

На иврите процедура перекрытия работает следующим образом. Две фразы: Ьегю^аГ 1ίζοΐΌΗι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ Ьшг и йаЬайшЫ Ьшг, ίат^б ^аίζ^ίу 1ίΗίοί уайиа превращаются в Ьегю^аГ 1ίζοΐΌΗι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ Ьшг, ίат^б πιίζίίν 1ίΗίοί уайиа.

В соответствии с настоящим изобретением обработка вышеописанного типа продолжается со словами и словосочетаниями, остающимися в подлежащем переводу документе. Поэтому в данном примере предпочтительного варианта осуществления изобретения следующими английскими словосочетаниями являются 'Ίη аббйюг1 ίο ту оееб ίο Ье Ыуеб Ьу а11 !йс дик ίη ίονη, I а1\тау5 таЫеб ίο Ье 1<ηο\νη и I а1\тау5 \уа1Цеб ίο Ье 1<ηο\νη а§ !йс Ьсз! р1ауег. Переводами на иврит, выданными базой данных для приведенных фраз, являются Ьегю^аГ 1ίζοΐΌΗι вйей 1ίΗίοί айиу а1 уебау Ш йаЬайшЫ Ьшг, ίат^б πιίζίίν 1ίΗίοί уайиа и 'Йат1б πιίζίίν 1ίΗίοί уайиа ^ίίοτ йа^айкан йасЫ Щу. Удаление перекрытия на английском языке дает: 'Ίη

- 15 007776 αάάίΐίοη ΐο ту леей ΐο Ье 1оуей Ьу а11 Ше д1г1з ίη Ιο\νπ. I а1\уаук \уагИей ΐο Ье 1<ηο\νπ ак Ше Ьек1 р1ауег. Удаление перекрытия на иврите дает: ЬегюкаГ ΙιζοιόοΙι кНе11 ΙίΗίοΙ а1шу а1 уейау Ш каЬакш-οΐ Ьшг, Κιιηίά гаМку ΙίΗίοΙ уакиа Ье1Юг какаккап каск ΐον.

При продолжении процедуры следующим словосочетанием является Ιη лйййюп ΐο ту леей ΐο Ье 1ο\Όά Ьу а11 Изе д1г1з ίη ΐονη, I а1\уаук \уагИей ΐο Ье 1<ηο\\·η ак Изе Ьек1 р1ауег и Изе Ьек1 р1ауег ΐο е\^гег р1ау οη 11зе Ыеу Υογ1< 81а(е ЬаккеЛаП ΐеат. Соответствующими фразами на иврите являются ЬегюкаГ ΙΙζοιόΟι ккек ΙίΗίοΙ лНлу а1 уейау Ш каЬакш-οΐ Ьшг, (алий гаЭку ΙίΗίοΙ уакиа Ье1Юг каκаΗкаη касЫ ΐον и каκаΗкаη каск1 ΐον кк кау раат 81кек Ьекνиΐζаΐ какайигка1 кке1 тей^ηаΐ ие\у \όγ1<. Удаление перекрытия на английском языке дает: Ιη айй^ΐ^οη ΐο ту ззеей ΐο Ье ^уей Ьу а11 Не д1г1к ίη ΐονη, I а1уаук \уагИей ΐο Ье Κηονη ак Не Ьек! р1ауег ΐο еуег р1ау οη ΐке №\у Υοιί< к1а1е ЬаккеФаП ΐеат. Удаление перекрытия на иврите дает фразу: ЬегюкаГ Ιΐζοι-есН ккек ΙΠίοί аклу а1 уейау Ш каЬакш-οΐ Ьшг, 1ат1й ^аΐζ^ίу ΗΗιοΙ уакиа Ье1Юг каκаккаη каск1 ΐον кк кау раат к1кек Ьекνиΐζаΐ какайигка1 кке1 тей^ηаΐ ие\у уигк, которая является переводом текста, ранее предложенного для перевода.

По окончании данной процедуры в соответствии с настоящим изобретением переведенный окончательный текст выдается и выводится.

Следует отметить, что выдаваемые результаты представляли собой окончательный результат обработки в базе данных, выдающей перекрывающиеся ассоциации в соответствии с вышеописанной процедурой. По ходу исполнения процедуры система, в конечном счете, не примет выданный на втором языке результат, который не содержит естественно согласующейся связки по перекрытию с прилегающими сегментами на втором языке. Если бы у какого-либо выданного результата на иврите не было точного перекрытия со смежным ассоциированным словосочетанием на иврите, то данный результат был бы отвергнут и заменен таким ассоциированным словосочетанием на иврите, которое перекрывается со смежными словосочетаниями на иврите.

Программа РгодгатЗ, приведенная в приложении листингов компьютерных программ, является примером программы для реализации варианта осуществления ручного создания базы данных и перевода с использованием метода двойного перекрытия. Программы могут исполняться на компьютерных системах известного в технике типа.

Вышеописанный вариант осуществления, сочетающий использование межъязыковой ассоциативной базы данных с методом перевода на основе принципа межъязыкового двойного перекрытия, может применяться в других областях для повышения качества существующих технологий, с помощью которых пытаются отождествлять информацию, находящуюся в одном состоянии, с информацией в другом состоянии, например известных в технике программных средств распознавания речи и сканирующих устройств с оптическим распознаванием символов (ОСЯ). Обе упомянутые технологии могут проверять результаты, полученные соответствующими системами, с использованием способов перевода в соответствии с настоящим изобретением. Если перевод не существует и поэтому предполагается ошибка, то пользователь может получить предупреждение и запрос, либо система может быть запрограммирована на поиск в базе данных таких близких альтернатив неперекрывающемуся переводу, которые давали бы перекрывающийся перевод. Все результаты, выдаваемые пользователю, конечно, подвергались бы обратному преобразованию на язык оригинала.

В соответствии с другим вариантом осуществления настоящего изобретения предлагаются способ и устройство для создания ассоциативной базы данных на одном языке и способ и система для использования ассоциативной базы данных с целью представления ответов на запросы или поставленные пользователем вопросы. В соответствии с данным вариантом осуществления ассоциативная база данных может организовать и хранить информацию, которая позволяет определять и анализировать ассоциации между словами или словосочетаниями. Программа ассоциирования может реализовать некоторые способы по настоящему изобретению и может быть использована для построения базы данных по настоящему изобретению и для анализа информации, хранящейся в базах данных, с целью определения ассоциаций между словами или словосочетаниями. На фиг. 3 показана память 208 компьютерной системы 200, в которой хранится интеллектуальное приложение 302, программа 304 ассоциирования, базы данных 306 и операционная система 308 для доступа со стороны процессора 202. Программа 304 ассоциирования может быть независимой программой или неотъемлемой составной частью интеллектуального приложения 302. Программа 304 ассоциирования может анализировать базы данных 306, чтобы определять ассоциированные слова либо в ответ на запрос из интеллектуального приложения 302, либо в ответ на запрос, переданный непосредственно пользователем через устройство ввода.

Система и способ выполняют этапы, на которых синтаксически анализируют текст документа, введенного в систему, и создают частотную ассоциативную базу данных, в которой сегменты синтаксически разобранного текста ассоциируются между собой на основании, например, частоты появления и позиции конкретного фрагмента относительно других фрагментов документа. Сегменты синтаксически разобранного текста могут содержать слова и словосочетания. Документы, используемые в соответствии с настоящим изобретением, могут храниться в документальной базе данных для облегчения доступа, синтаксического разбора и анализа документов.

Слова и словосочетания, которые часто появляются в непосредственной близости друг от друга в

- 16 007776 документе, можно использовать в приложениях искусственного интеллекта или с развитой логикой, которые позволяют пользователю запрашивать систему для получения ответа на вопрос или выполнения действия. Цель использования ассоциативной базы данных по настоящему изобретению в интеллектуальных приложениях заключается в том, чтобы определять ассоциации по общему третьему слову или словосочетанию между или среди, по меньшей мере, двух слов или словосочетаний, выбранных интеллектуальным приложением.

Пользователь может определять в документальной базе данных интервалы как любое число слов и/или словосочетаний вблизи каждого появления каждого выбранного слова и/или словосочетания. Затем система производит поиск слов и/или словосочетаний, которые являются общими для интервалов, т.е. общих третьих слов или словосочетаний. Частоты появлений общих третьих слов или словосочетаний в интервалах каждого выбранного слова или словосочетания можно сохранять в частотной ассоциативной базе данных, показанной в табл. 3 и 4. В соответствии с альтернативным вариантом местоположения и частоту появления слов, повторяющихся в документальной базе данных, можно сохранять в базе данных повторяющихся слов и словосочетаний, именуемой также в настоящем описании базой данных повторных появлений, пример которой показан в табл. 5. При использовании упомянутых баз данных программа 304 ассоциирования может устанавливать для третьих слов и словосочетаний связи самого высокого ранга, в которых участвуют, по меньшей мере, 2 слова или словосочетания, выбранные интеллектуальным приложением 302 на основании заданных пользователем весовых коэффициентов или других критериев.

Построение ассоциативной базы данных в заданном пользователем интервале

Предлагается способ построения ассоциативной базы данных одного типа, именуемой в настоящем описании частотной ассоциативной базой данных, которую можно применить к обработке документов на одном языке с целью построения базы данных связанных слов и словосочетаний на основе их близости друг к другу в тексте. Пример частотной ассоциативной базы данных приведен в табл. 3. Способ содержит следующие этапы.

a. Собирают фонд текстов на одном языке в «документальной базе данных, при этом, чем больше фонд, тем лучше.

b. Производят поиск каждого слова или словосочетания с определением многократных появлений данного слова или словосочетания в документальной базе данных.

c. Устанавливают заданное пользователем количество слов или словосочетаний с каждой стороны подлежащего анализу слова или словосочетания. Данное количество будет выполнять функцию интервала. Помимо того, что интервал задается определенным числом слов, его можно задать таким широким (всеми словами в конкретном тексте, в котором появляется слово или словосочетание) или таким узким (словосочетанием ограниченного размера в непосредственной близости от анализируемого слова или словосочетания), как может задать пользователь для конкретного применения.

6. Определяют частоту, с которой каждое слово и словосочетание появляются в интервалах вблизи выбранного анализируемого слова или словосочетания, и, при необходимости, степень их близости к выбранному слову или словосочетанию. Ниже приведен пример построения ассоциации между большим числом документов на одном языке. Предложение 1 и предложение 2, показанные в табл. 2, представляют собой два предложения среди множества предложений в документальной базе данных и как весь фонд могут быть полностью проанализированы с вводом всех результатов в частотную таблицу.

Таблица 2

Предложение 1	I мепН До НИе босНог апб I маз зпеегбпд а Ιοί. апб Не Ηο16 те ННаН НИе со1б апб ННе £1и аге добпд агоипб Ике сгагу апб I зНои1б гезк, кеер какхпд Уд-Наиб-п С, апб а ΙϊΐΧΐβ сНъскеп зоир мои1бп'Н НигН.
Предложение 2	Аз а босНог, 1'т сопз£ап1:1у зееъпд зпеегбпд, геб еуеб ракхепИз азкхпд «НаН ННеу сап бо Но НгеаН ННе £1и, Но мНхсН I гербу, ННе оп1у ННхпдз ННаН геа11у могк аге гез£ апб Нхте.

Система выполнит поиск повторяющихся слов или словосочетаний. В двух данных предложениях повторяются только следующие слова и словосочетания: I, ίο, ЧНе, 6ос1ог, апб, δποβζίπβ, а, ώαΐ, Пи, аге, гезГ.

Как указано в описании заявки № 10/024473 на патент США, в некоторых случаях применения в

- 17 007776 систему можно заложить инструкцию рассматривать и игнорировать общие слова типа I, а, 1о и т.п. Однако данные общие слова будут рассматриваться и включаться в базу данных в случаях, обусловленных целью конкретного применения системы. Если общие слова игнорируются, то останутся: Эое1ог, зпее7шд, йи и гез1.

Если задано, что интервал содержит, например, до 30 слов с каждой стороны, то система зарегистрирует частоту появления каждого слова и словосочетания в пределах 30 слов от каждого из данных слов. Кроме того, система может также регистрировать близость каждого слова или словосочетания к анализируемому слову или словосочетанию. Поскольку каждое из данных слов появляется внутри интервала длиной 30 слов, начинающегося от каждого из других слов в обоих предложениях, то каждое слово имеет частоту, равную единице, совместного появления с каждым из других слов, как видно из табл. 3, в которой показан вариант осуществления частотной ассоциативной базы данных.

Таблица 3

Слово/словосочетание	Ассоциированное слово/словосочетание	Частота
йосЕог	зпеегл-пд	1
	£1и	1
	гезЕ	1

Зпеегтпд	йосЕог	1
	£1и	1
	гезЕ	1

Г1и	зпеег1пд	1
	босЕог	1
	гезЕ	1

КезЕ	зпеегтпд	1
	йосЕог	1
	£1и	1

Кроме учета частоты, с которой слова или словосочетания появляются в любом месте в пределах интервалов, относящихся к анализируемым словам и словосочетаниям, можно построить ассоциативную базу данных на основании частот появления слов или словосочетаний на расстоянии, в точности равном X словам от анализируемого слова или словосочетания. В указанных случаях пользователю для конкретного применения потребуется точно задавать интервал в виде 1 слова или 1 словосочетания конкретной длины на точном расстоянии вблизи анализируемого слова или словосочетания.

Например, система может анализировать документы, доступные в документальной базе данных, чтобы определить, содержат ли они фразу до 1о 1Ье дате 10000 раз, и может найти фразу до 1о 1Ье дате в пределах 20-словного интервала, относящегося к слову 1е18 87 раз. Кроме того, может определить, что фраза до 1о 1Ье дате появилась в точности на расстоянии 7 слов перед словом 1е18 8 раз (считая от первого слова до словосочетания).

Кроме того, можно регистрировать любое сочетание повторяющихся комбинаций слов и словосочетаний, построенное на основании общего числа слов в них. Например, в базу данных можно вводить число предложений в базе данных, в которых слово 1е1з появляется на расстоянии 3 слов перед фразой до 1о 11те дате, когда слово 11еке1з появляется на расстоянии 9 слов после фразы до 1о 1Ье дате. Указанная комбинация может появляться 3 раза, и частоту появления данной комбинации слов в тексте можно использовать в приложении, которое выводит смысл понятия, чтобы либо способствовать в выдаче ответа на вопрос, заданный пользователем, либо способствовать в выполнении запроса пользователя. На основании предложения 1 и предложения 2 в табл. 2, можно создать частотную ассоциативную базу данных, показанную в табл. 4.

- 18 007776

Таблица 4

Слово/словосочетание	Ассоциированное слово/словосочетание	Частота	Частота появления точно через 4 слова после
ОосТог	зпеегьпд	1	1
	£1и	1	0
	гезЕ	1	0

Зпеегхпд	скэсЬог	1	0
	£1и	1	0
	гез£	1	0

Пи	зпеегтпд	1	0
	босЪог	1	0
	гезЕ	1	0

Кез£	зпеегьпд	1	0
	йосЕог	1	0
	£1и	1	0

Как видно из табл. 4, из повторяющихся слов в интервале предложения 1 и предложения 2 только слово δηββζίηΰ; повторяется дважды точно на расстоянии 4 слов после одного из анализируемых слов. Данные таблицы, показывающие точные повторяющиеся комбинации слов в тексте на основании их близости друг к другу, измеряемой числом слов между ними, могут создаваться индивидуально с использованием серии узко заданных интервалов.

Если вышеописанный способ применяют для построения базы данных всех взаимосвязей по степени близости и частотности между всеми повторяющимися комбинациями слов в доступном тексте в соответствии с вышеприведенным описанием, то может потребоваться большое число вычислений. Многие взаимосвязи, которые строятся в результате выполнения данной комплексной процедуры, могут никогда не потребоваться для приложения. Нижеописанный метод предусматривает индексацию повторяющихся словосочетаний, чтобы избежать выполнения заранее обработки, которая может никогда не потребоваться.

Нижеописанную процедуру индексации можно применить как процедуру, альтернативную вышеописанному способу автоматического определения ассоциаций по частоте и степени близости, и чтобы выполнять общий интервально-частотный анализ и анализ точных комбинаций на основании местоположений конкретного слова или словосочетания в интервале в соответствии с вышеприведенным описанием. Данный вариант осуществления изобретения является способом построения такой базы данных повторяющихся слов и словосочетаний (или базы данных повторных появлений), которая содержит местоположение каждого повторяющегося слова и словосочетания в документальной базе данных, при этом способ содержит следующие этапы. 1. Поиск повторных появлений всех слов и словосочетаний в доступном тексте. 2. Ввод в базу данных «местоположений» для каждого неоднократно появляющегося слова и словосочетания посредством фиксирования его позиции в каждом документе, в котором оно появляется, например отождествлением номера слова у первого слова в словосочетании и номера документа в документальной базе данных. В соответствии с альтернативным вариантом сохранять можно только номер документа в документальной базе данных для документа, в котором находится слово или словосочетание. В данном случае позицию слова или словосочетания можно определить при ответе на запрос. Табл. 5 является примером информационных элементов в базе данных повторных появлений.

- 19 007776

Таблица 5

Слово или словосочетание	Частота и местоположение
ктбз Ιονθ а магт кид	20 раз (слово 58/ документ 1678; слово 4 5/ документ 560; слово 187/ документ 45231; слово 689/ документ 123; . ..)
кШз Ιονβ хсе сгеат кШз Ιονθ а магт кид Ье£оге дотпд Со Ьес! ктЬз Ιονε 1се сгеат Ье£оге дотпд Со ЬесТ' кхЛз Ιονε зСаутпд ир 1аСе Ье£оге дохпд Со Ьес!	873 раза (слово 765/ документ 129; слово 231/ документ 764907; слово 652/ документ 4501; ...); 12 раз (слово 58/ документ 1678; слово 45/ документ 560; слово 187/ документ 45231;...) 10 раз (слово 765/ документ 129; слово 231/ документ 764907; ...) 17 раз (слово 23/ документ 561; слово 431/ документ 76431;...)
Ье£оге доз.пд Со Ьес!	684 раз (слово 188/ документ 28; слово 50/ документ 560; слово 7 69/ документ 129; слово 436/ документ 76431;...)

Как показано, каждое появление слова или словосочетания, обнаруженного, по меньшей мере, 2 раза в документальной базе данных, будет прибавляться к подсчитанной частоте, а местоположение данного слова или словосочетания будет отмечаться обозначением позиции номером слова в документе, а также номером, присвоенным для идентификации документа, в котором слово появляется, или посредством использования любого другого идентификатора местоположения слова или словосочетания в документальной базе данных.

Если база данных повторных появлений сформирована целиком и полностью (включая нумерованные позиции слов, а также номера документов) для всех документов в документальной базе данных, то информация о местоположении позволяет системе вычислять любые общие взаимосвязи по частоте или любые взаимосвязи по частоте появления конкретной комбинации слов, создаваемые в соответствии с вышеприведенным описанием.

Кроме того, если база данных повторных появлений еще не построена, то система может на ходу анализировать частоты появления, по меньшей мере, в двух интервалах. Любое повторное появление слова или словосочетания, еще не внесенное в базу данных повторных появлений, можно включать в базу данных, пока система отвечает на запрос анализом непосредственно документов в документальной базе данных, чтобы дополнить анализ базы данных повторных появлений. После того как информацию, полученную непосредственным анализом документов в документальной базе данных, используют в конкретной задаче, для которой данная информация создавалась, информацию можно сохранить в базе данных повторных появлений для любого будущего использования. Выполняет ли система анализ частот появления (частотный анализ) с использованием базы данных повторных появлений, или на ходу строятся упомянутые взаимосвязи, в результате данных действий создается база данных ассоциаций слов и словосочетаний, которую могут применять интеллектуальные приложения.

Как видно из фиг. 3, в рамках процедуры общего частотного анализа, интеллектуальное приложение 302 может запрашивать частотную ассоциативную базу данных или базу данных повторных появлений через программу 304 ассоциирования посредством ввода, по меньшей мере, 2 слов или словосочетаний о том, чтобы установить, какие другие третьи слова или словосочетания часто ассоциируются с некоторыми или всеми представленными словосочетаниями. Система может применять два разных способа при выполнении общего частотного анализа (СТА): либо 1) независимый общий частотный анализ, либо 2) связанный общий частотный анализ. Кроме того, система может дополнительно выполнять статисти

- 20 007776 ческий анализ после выполнения любой из двух процедур посредством распространения их на дополнительное поколение или поколения данных или посредством сочетания результатов и/или сегментов любого общего частотного анализа для последующего частотного анализа.

Независимый общий частотный анализ (1СЕА)

Когда интеллектуальное приложение 302 представляет программе 304 ассоциирования, по меньшей мере, 2 слова и/или словосочетания для общего частотного анализа (СЕА), система может идентифицировать все слова и словосочетания, часто связываемые с представленными словами с использованием ассоциативной базы данных в соответствии с настоящим изобретением. Затем система может идентифицировать слова и/или словосочетания, которые часто ассоциируются с некоторыми или всеми представленными словами или словосочетаниями.

Затем система может использовать общие ассоциации между представленными словами и/или словосочетаниями множеством заданных пользователем способов. Например, система может идентифицировать общую ассоциацию самого высокого ранга суммированием (или умножением или любым другим заданным пользователем способом взвешивания) частот для общей ассоциации или ассоциации по общему третьему слову или словосочетанию к представленным словам и/или словосочетаниям в частотной ассоциативной базе данных. Другим примером задаваемого пользователем параметра, который может потребоваться, является минимальная частота (оцениваемая по общему рангу, номеру строки или другому критерию) по всем таблицам представленных слов и/или словосочетаний.

При использовании элементов данных в примере базы данных повторных появлений система может определить частоту, с которой 1се сгеат и к1бз ίονβ появляются в заданном пользователем интервале во всех доступных документах за 1 анализ, и затем система может зарегистрировать частоту, с которой 1се сгеат и Ьейэге §οίπ§ ΐο Ьеб появляются вместе. Затем частотой каждой из независимых связей сможет воспользоваться приложение, которое выдаст относительное значение для каждой связи. Значение будет получено на основе того, как оценивается (по заданию пользователя в абсолютном или относительном исчислении) частота фразы 1се сгеат в частотной таблице фразы к1бз 1ονе и в частотной таблице фразы 'Ьейэге §οίπ§ ΐο Ьеб, или на основе процентного отношения количества случаев появления ассоциации (например, 1се сгеат) со словом или словосочетанием (например, к1бз Ιο\ό) к общему количеству случаев появления словосочетания (например, к1бз 1ονе). И вновь, частотные таблицы для к1бз Ιο\ό и Ьейэге §οίπ§ ΐο Ьеб представляют собой табличные классификации по рангам появлений третьих слов или словосочетаний на основе их близости к выбранным словосочетаниям к1бз 1ονе и Ьейэге §οίπ§ ΐο Ьеб.

В соответствии с данным способом на основе заданных пользователем значений после анализа фразы 1се сгеат можно проанализировать на относительную частотность фразу а шагт йид определением ее положения в частотной таблице для к1бз 1ονе (на основании заданных пользователем требований приложения к ширине интервала или степени близости), а затем определить положение фразы а шагт йид в частотной таблице для фразы Ьейэге дο^ηд ΐο Ьеб. Все остальные частые ассоциации (заданные пользователем) в обеих частотных таблицах будут сравниваться, например фраза з!аутд ир 1а1е, и оцениваться на основании заданных пользователем значений комбинированных относительных частот из обеих таблиц. Система выдаст словосочетание самого высокого ранга на основании заданного пользователем весового коэффициента каждой ассоциации по частоте. Возможно, в результате данного анализа система определит, что, хотя к1бз Ιο\ό («дети любят») 1се сгеат («мороженое») больше, чем \\агт йидз («сердечные объятия»), однако, к1бз Ιο\Ό ^агт йидз («дети любят сердечные объятия») больше, чем к1бз Ιο\Ό 1се сгеат («дети любят мороженное») Ьейэге дο^ηд ΐο Ьеб («перед сном»).

В качестве другого примера, когда в систему введены слово каηда^οοз и слово и словосочетание ίίηά и ίη Атепса для независимого общего частотного анализа, представлена табл. 6, представляющая собой частотную таблицу, которую можно собрать по документам в документальной базе данных.

Таблица 6

АССОЦИАЦИИ
	АизкгаИа	кке Ζοο	Иею 2еа1апс1
капдагооз	21000	7000	1000
ίίηά	1000	2000	500
ίη Атегъса;	300	5000	100
Итого	22300	14000	1600

Слово АизйаНа имеет самый высокий ранг, исходя из суммы совокупных ассоциаций по строкам. Однако заданные пользователем параметры могут взвешивать относительные значения частот. Так, по

- 21 007776 одному их возможных способов, ассоциации с наименьшей частотой можно присвоить оценку один, а затем ассоциации с большими частотами можно оценить в зависимости от кратности к наименьшей частоте. В рассматриваемом случае фраза Ле /оо будет иметь самый высокий ранг.

Таблица 7

	АизГгаПа	РЬе Ζοο	Νθν 2еа1апс1
капдагооз	21 (в 21 раз выше наименьшей частоты)	7 (в 7 раз выше наименьшей частоты)	1 (наименьшая частота)
мкеге сап I ίίηά	2	4	1
ίη Атег1са	3	50	1
Итого	26	61	3

Относительные веса ассоциаций показывают, как /оо станет результатом на основании вышеупомянутого заданного пользователем параметра. Аналогичные результаты можно получить умножением количества раз, когда конкретное слово или словосочетание ассоциируется с каждым из запросов, чтобы придать значение относительному равновесию между общими ассоциациями. В нашем примере, в результате выдается Ле /оо:

1. Ле /оо 7000 х 2000 х 5000 = 70,000,000,000

2. АизЕайа 21000 х 1000 х 300 = 6,100,000,000

3. \е\\' 7еа1апб 1000 х 500 х 100 = 50,000,000

Чтобы классифицировать по рангу и выбрать ассоциации, общие, по меньшей мере, для 2 представленных слов и/или словосочетаний, можно применить другие заданные пользователем критерии. Сюда можно отнести оценивание некоторых ассоциаций в некоторых категориях выше остальных. Например, приложение может присвоить более высокое значение ассоциации «местоположения» (например, ΐη Атепса) для вопроса «где?» (например, ууНеге саη уои Гтб к^даток ΐη Атепса? («где можно обнаружить кенгуру в Америке?»).

Связанный общий частотный анализ (КСГА)

Кроме отыскания общих независимых ассоциаций, по меньшей мере, к 2 представленным словам и/или словосочетаниям, в соответствии с другим вариантом осуществления можно осуществлять поиск с целью определения частых появлений слов и/или словосочетаний, которые обнаруживаются в заданных пользователем интервалах, но только в документах, содержащих, по меньшей мере, 2 анализируемых слова или словосочетания.

Данный вариант осуществления содержит следующие этапы.

a. В базе данных находят номера всех документов, общих, по меньшей мере, для 2 представленных слов и/или словосочетаний.

b. Сравнивают каждое слово и словосочетание в заданных пользователем интервалах вблизи всех представленных слов и/или словосочетаний и регистрируют частоту для всех повторяющихся слов и словосочетаний в интервалах. И вновь, заданный пользователем интервал может быть ограничен и может содержать только повторяющиеся слова или словосочетания в непосредственной близости от представленных слов или словосочетаний.

Например, допустим, что системе предъявлены 2 словосочетания Лбз 1оуе и ЬеГоге дотд 1о Ьеб для связанного общего частотного анализа (КСГА). Если база данных уже содержит следующие элементы данных, соответствующие фразам в документах в документальной базе данных:

'к1бз 1оуе а \уагт Гид	20 раз
'к1бз 1оуе 1се сгеат	873 раза
'к1бз 1оуе а \уагт Гид ЬеГоге дотд 1о Ьеб	12 раз
'к1бз 1оуе 1се сгеат ЬеГоге дотд 1о Ьеб	10 раз
'к1бз 1оуе 81аутд ир 1а1е ЬеГоге дотд 1о Ьеб	17 раз
ЬеГоге дотд 1о Ьеб	684 раза

база данных повторных появлений может направить систему к документам, которые находятся в документальной базе данных и содержат как фразу Лбз 1оуе, так и фразу ЬеГоге дотд 1о Ьеб, потому что у них одинаковый связанный с ними номер документа. Кроме того, при необходимости, система может отыскивать только те документы, в которых расстояние между словосочетаниями не превышает заданное пользователем число слов или соответствует любой другой заданной пользователем степени близости

- 22 007776 друг к другу.

После того как система идентифицировала в документальной базе данных все документы, которые содержат фразу к1й§ 1оус в заданной близости от фразы ЬсГогс дотд ίο Ьсй, система может построить частотную таблицу всех повторяющихся слов и словосочетаний в пределах заданного пользователем интервала. Из ограниченного примера вышеописанной базы данных слов и словосочетаний известно, что фраза 1сс сгсат будет появляться с частотой не менее 10, фраза ь1ау1пд ир 1аГс - с частотой не менее 17 и фраза а теагт 1шд - с частотой не менее 12. Все указанные частоты могут быть намного выше, поскольку соответствующие фразы могут появляться в одном и том же тексте вблизи фраз к1йь 1оус и 'ЬсГогс дотд 1о Ьсй без непосредственного примыкания к ним (например, к1й§ 1оус 1сс сгсат апй оГЬсг 5\\'сс15 ЬсГогс дотд 1о Ьсй).

На запрос \ν1ιηΙ йо к1й§ 1оус ЬсГогс дотд 1о Ьсй? («что дети любят перед сном?») можно дать много «правильных» ответов. Однако, если есть критическая масса документов, отражающих различные характерные мнения, многие более высокие частоты будут отражать консенсус по вопросу, а низкие частоты существующие альтернативные мнения. Например, в интервале с фразами к1й§ 1оус и ЬсГогс дотд 1о Ьсй может 3 раза присутствовать фраза 1ю1 кЬотег, что указывает на приоритетный порядок мнения, которое далеко не так популярно, как некоторые другие мнения.

В соответствии с другими вариантами осуществления настоящего изобретения для независимого общего частотного анализа (1СЕА) или связанного общего частотного анализа (ЯСЕА) можно использовать тезаурус или любые другие известные или установленные эквиваленты словосочетаний вместо отыскиваемых слов и словосочетаний, чтобы находить повторяющиеся слова и словосочетания по интервалам данных эквивалентов слов. Например, система может также производить поиск фраз к1й§ Ькс, к1й§ геа11у 1оус, к1й§ сп)оу, сЫ1йгсп сп)оу, сЫ1йгсп 1оус, вместо фразы к1й§ 1оус. Тот же самый метод можно использовать, чтобы заменить в системе фразу ЬсГогс дотд 1о Ьсй известными эквивалентами типа фраз ЬсГогс Ьсй, ЬсГогс дотд 1о Исср, ЬсГогс Ьсййтс. Сочетание известного в технике тезауруса слов и/или общих частотных способов в соответствии с настоящим изобретением будет давать большее число семантически эквивалентных слов и словосочетаний. Ниже следует общее разъяснение того, каким образом система определяет семантически эквивалентные словосочетания с использованием ассоциативных баз данных и интеллектуального приложения 302 и посредством общего частотного анализа. Система может также исполнять независимый общий частотный анализ (1СЕА) и связанный общий частотный анализ (ЯСЕА) представленных слов и словосочетаний и сочетать результаты с использованием заданных пользователем весовых параметров.

Частотный анализ второго уровня

В соответствии с другим вариантом осуществления система может выполнять частотный анализ с использованием общей ассоциации между 1-ым или 2-ым словом или словосочетанием и выбранным 3им словом или словосочетанием в качестве общей частоты для 2 анализируемых слов или словосочетаний, что добавит новую информацию к результатам анализа для приложения. Например, если общая ассоциация, выбранная по частотам всех слов и словосочетаний в пределах общего интервала фраз ЬсГогс дотд 1о Ьсй (1-я) и к1йь 1оус (2-я), представляет собой фразу 1сс сгсат (3-я), то в соответствии с данным вариантом осуществления выполняется либо независимый, либо связанный частотный анализ для фраз либо ЬсГогс дотд 1о Ьсй (1-я) и 1сс сгсат (3-я), либо к1й§ 1оус (2-я) и 1сс сгсат (3-я) и выбираются ассоциации на основании результатов 2 данных анализов. Кроме того, любые, по меньшей мере, 2 слова или словосочетания можно анализировать с использованием таких же методов в стольких сочетаниях такого количества поколений результатов, сколько задает пользователь. Специальные приложения будут запрашивать выполнение автоматизированного анализа, выявляющего общий частотный анализ, который следует выполнить для каждого поколения результатов анализа частот ассоциаций. Более сложные приложения будут выявлять, по меньшей мере, 2 частотных анализа, которые должны быть выполнены перед тем, как использовать в сочетании, по меньшей мере, 2 независимых результата.

Использование общего частотного анализа для определения функции или значения слова

В соответствии с описанием заявки № 10/024473 на патент США получаемые с высокой частотой ассоциации между анализируемыми словом и словосочетаниями и слово, и словосочетания, которые найдены в их интервалах и не являются переводами, но являются тесно связанными понятиями, можно использовать в приложениях искусственного интеллекта.

Искусственный интеллект или интеллектуальное приложение представляет собой приложение, которое способно ответить на вопрос или выполнить задачу, которые не обязательно ставились в прошлом с требованием, соответственно, дать ответ или выполнить задачу. В соответствии с настоящим изобретением можно использовать ассоциативные базы данных, чтобы распознавать словообразования и/или комбинации слов и словосочетаний, которыми можно воспользоваться как указателями классов для определения функции или назначения других слов или словосочетаний, ассоциированных с указателями классов. Например, конкретную комбинацию слов обычно можно ассоциировать со словом, которое является именем человека, типом пищи или действием. В соответствии с настоящим изобретением с использованием общего частотного анализа можно анализировать документы, чтобы выявлять существование данных комбинаций и их ассоциацию с другими словами или словосочетаниями. На основании

- 23 007776 данной ассоциации, система может классифицировать другие слова, которые аналогичным образом ассоциированы с этими комбинациями, так как другие слова, которые ассоциированы аналогичным образом, очевидно, должны попадать в аналогичные классы. Следовательно, система может выявлять наличие указателей классов и использовать данные указатели.

Один из примеров описанного приложения состоял бы в том, чтобы помогать способу перевода в соответствии с настоящим изобретением при выполнении переводов, которые система не может сделать иначе, с использованием вышеописанных процедур. Например, допустим, система получила запрос на английском языке, I 1оуе МозНе, для перевода на язык X. Допустим, система располагает переводом словосочетания I 1оуе, но не имеет переводы для словосочетаний I 1оуе МозНе или 1оуе МозНе.

Ассоциативная база данных содержит слово МозНе в словосочетаниях типа ту пате 15 МозНе, Мг. МозНе Ееш, 1из пате 18 МозНе. Чтобы выявить взаимосвязь между данными словосочетаниями и именем МозНе, можно воспользоваться общим частотным анализом (СЕЛ). Тогда пользователь может указать системе данные фразы как фразы, обладающие высокой степенью корреляции с именами и потому являющиеся индикаторами имен, т.е. индикатором категории конкретного типа. Когда слово МозНе появится в заданном пользователем числе (или процентной части) фраз, являющихся «индикаторами имени», система определит статистическую достоверность того, что слово МозНе потенциально является именем, потому что оно появляется в тексте, который является «индикатором имени».

Хотя другие известные в технике системы также используют такие индикаторы имен и другие индикаторы категорий, например, для дат, чисел и других специальных классов, настоящее изобретение дает возможность использовать кодированные вручную индикаторы типа фраз, сообщающих об именах, чтобы выявить все остальные фразы, в которых также появляются имена наподобие МозНе и другие известные имена. Например, пользователь мог бы и не подумать о том, чтобы прибавить в качестве указателя имени фразу (Не диу'з пате 1з («имя парня»), однако, в соответствии с настоящим изобретением данная фраза будет представлена, а также многие другие, которые пользователь не включил при использовании данного варианта осуществления. Каждое слово и словосочетание обладает ограниченной совокупностью возможных альтернативных слов или словосочетаний, которые можно обнаружить среди окружающих слов и словосочетаний. Данная совокупность будет содержать слова и словосочетания, точно выражающие понятия, которые они заменяют, и будут иметь размах от исходно выраженного понятия до мыслей, которые являются прямыми противоположностями. Например, в процессе анализа фразы I 1оуе сНоео1а1е («я люблю шоколад») система может сформировать все возможные замены слова 1оуе. Система сформирует эквиваленты и почти эквиваленты типа I геа11у 1оуе сНосо1а1е («я действительно люблю шоколад»), I айоге сНосо1а1е («я обожаю шоколад»), I геа11у еп)оу сНосо1а1е («я действительно наслаждаюсь шоколадом»), а также неэквиваленты и противоположности типа I 1о1ега(е сНосо1а1е («я терпимо отношусь к шоколаду») и I На(е сНосо1а1е («я ненавижу шоколад»). Система не определит повторяющиеся частоты слов, которые не заполняют все, остающееся после слова 1оуе, с использованием независимого (или, в альтернативном варианте осуществления, связанного) общего анализа частот ассоциаций. Например, базы данных при анализе не будут выдавать фразы I ПзН сНосо1а1е («я ловлю в воде шоколад»), I уои сНосо1а1е («я вы шоколад»), I \\'Но сНосо1а1е («я кто шоколад»).

Как только система установит, что слово МозНе является именем, и если фраза I 1оуе является индикатором имени (но не единственным, в котором когда-либо появлялось имя МозНе), то, если механизм перевода располагает переводом для слова МозНе на языке В, данный механизм может присоединить его к переводу I 1оуе на языке В без перекрытия. Если перевод слова МозНе на языке В не известен, то можно воспользоваться функцией транслитерации с английского языка на язык В, чтобы образовать на языке В представление имени МозНе и присоединить его к переводу фразы I 1оуе на язык В без перекрытия.

Имена, которые явно связаны с другими словами и/или словосочетаниями как имена, являются простым примером того, как определяемые пользователем общие статистические связи между словосочетаниями, отражающими понятия, можно классифицировать по общему значению с целью использования в интеллектуальном приложении. Кроме того, все словосочетания будут обладать собственными динамическими связями со всеми остальными связанными общими представлениями и понятиями, что наглядно подтверждается одноязычными ассоциативными базами данных, которые содержат перечень связанных понятий на основе частоты их нахождения в непосредственной близости друг от друга, когда они выражены на языке. У каждого словосочетания, составляющего осмысленное понятие, будет собственное множество связанных понятий в виде часто повторяющихся комбинаций в тексте, расположенных в определенной близости друг к другу, чтобы система получала вероятности значений для упомянутых понятий в любом заданном контексте.

Если, например, запрос перевода содержит слово, которое явно не является именем, то частоту для связанных понятий можно анализировать на следующем уровне соседних слов и словосочетаний, чтобы обеспечить дополнительный контекст. Например, если запрос на английском языке, подлежащий переводу на язык В, имеет вид I 1оуе ЕаНН, то данный запрос несколько неоднозначен, так как слово ЕаНН может быть именем или «чувством веры без доказательства».

Если другими соседними словами около фразы I 1оуе ЕаНН в полном запросе перевода являются

- 24 007776

Нег («ее») и кНе («она»), а не доб («бог»), гебдюи («религия»), сНигсН («церковь») и т.д., то система применит формулы, которые взвесят частоту, степень близости, а также другие индикаторы категорий в отношении ассоциаций, существующих в базе данных системы, и будет «понимать», что следует выбрать перевод Вера (Рабй) как «имя», а не вера (Рабб) как «вера без доказательства». Остальные соседние слова и словосочетания вместе с их набором повторяющихся связей с другими понятиями будут представлять дополнительное подтверждение намерений говорящих, пока статистическая значимость не зафиксирует ответ или система не запросит пользователя дать разъяснения из-за недостатка информации. Такое случилось бы, например, если бы весь вопрос имел вид I 1оуе Рабб. Поскольку в таком виде вопрос несколько неоднозначен, даже человек-переводчик может спросить: «Вы подразумеваете, что слово Рабб относится к некоторому лицу?»

В английском языке первая буква верхнего регистра подразумевает «имя» Вера (Рабб). Данное свойство служит еще одной характеристикой, с которой может работать система для определения того, что Рабб (Вера), вероятно, является именем. Во многих языках, не использующих латиницу, не содержатся знаки верхнего/нижнего регистров, и поэтому при решении рассмотренного вопроса будут полагаться только на поуровневые отношения между словосочетаниями, связанными частой близостью друг к другу в тексте, и любым другим представлением языка (голосом, символами, знаками и т.д.).

Использование общего частотного анализа для поиска семантически аналогичных слов

Слова и словосочетания в языке, которые представляют конкретную идею, часто появляются в комбинациях. Данные комбинации могут быть обозначены частотой, с которой конкретные слова и словосочетания обнаруживаются непосредственно перед конкретным словом (в английском языке, слева от конкретного слова), а также после конкретного слова (в английском языке, справа от конкретного слова). В соответствии с этим слова и словосочетания, выражающие одинаковые понятия, будут иметь схожие тип и порядок слов и словосочетаний, которые идут впереди и отходят от них.

Другим примером использования комбинаций слов для выработки информации является создание исчерпывающего тезауруса эквивалентов слов и словосочетаний. Если систему запрашивают определить слово, у которого то же самое или почти то же самое значение, как у другого слова, т. е. слова являются семантически подобными, то система может найти частоты слов и словосочетаний, ассоциируемых с данным словом, и произвести поиск слова в таком языке, в котором частоты ассоциаций наиболее точно соответствуют ему. Обычно, чем больше конструктивно подобны образования двух слов и/или словосочетаний, тем более схожи их значения. Иногда противоположности будут характеризоваться большими частотами общих ассоциаций, но будут сильно различаться по некоторым важным качественным ассоциациям, которые создают картину «сигнатуры противоположностей», которую система также может обеспечивать приложениям.

Система будет обнаруживать характер ассоциации между любым понятием, представленным словом или словосочетанием, и любым другим понятием, представленным словом и словосочетанием, так называемую «сигнатуру ассоциации». Система использует ассоциативные базы данных, чтобы обнаруживать конкретные словообразования в пределах заданных пользователем интервалов, предназначенных для обнаружения комбинаций слов, окружающих понятие, которое определяет отношение между понятием и другими понятиями, находящимися в относительной близости от него. Программа Ргодгат4, представленная в приложении листинга компьютерных программ, является примером программы, которая использует общий частотный анализ для нахождения семантически эквивалентных или подобных слов.

Например, один вариант осуществления, использующий конкретное словообразование вблизи слова или словосочетания, использующего независимый общий частотный анализ (1СРА), заключается в том, чтобы идентифицировать слова и словосочетания, которые представляют собой эквиваленты или почти эквиваленты в семантическом отношении (т.е. по смыслу) в отношении любого слова или словосочетания. Данный вариант осуществления содержит следующие этапы. Этап 1, заключающийся в том, что принимается запрос на то, чтобы слово или словосочетание (слово запроса) было подвергнуто анализу на эквиваленты, и выдается словосочетание (выданное слово) заданного пользователем размера, которое появляется с наибольшей частотой, а также частота появления выданного слова, при этом выданное слово располагается непосредственно слева от слова запроса во всех доступных документах, использующих независимый общий частотный анализ (1СРА). Чем больше заданное пользователем словосочетание, тем более точным будут окончательные результаты. Этап 2, заключающийся в том, что выполняется независимый общий частотный анализ (1СРА) для каждого результата из заданного пользователем числа имеющих наивысший ранг результатов этапа 1 с использованием интервала, образованного 1 словом или словосочетанием справа от каждого анализируемого слова или словосочетания (применение интервала длиной в 1 слово или словосочетание означает, что система будет классифицировать по рангу наиболее часто повторяющиеся слова и словосочетания справа от каждого из слов или словосочетаний, анализируемых на этапе 2). Затем выполняется суммирование полученных на этапе 2 частот всех общих слов и словосочетаний. Этап 3, заключающийся в том, что выполняется независимый общий частотный анализ (1СРА) запроса с использованием интервала, образованного заданным пользователем числом слов непосредственно справа от запроса (и вновь, для обеспечения точности обычно требуется, по меньшей мере,

- 25 007776 два слова). Этап 4, заключающийся в том, что выполняется независимый общий частотный анализ (1СЕЛ) для каждого слова и словосочетания из заданного пользователем числа имеющих наивысший ранг слов и словосочетаний, выданных на этапе 3 с использованием интервала, образованного 1 словом или словосочетанием слева от каждого анализируемого слова или словосочетания (и вновь, результаты применения интервала длиной в 1 слово или словосочетание непосредственно слева от анализируемого слова или словосочетания будут классифицироваться по рангам на основе частоты слов и словосочетаний, наиболее часто идущих впереди каждого слова и словосочетания, анализируемого на этапе 4). Затем частоты всех общих слов и словосочетаний, полученных в результате выполнения этапа 4, суммируются. На этапе 5 определяется каждое из слов или словосочетаний, которые выдаются как на этапе 2, так и на этапе 4. Численные значения частот каждого из общих слов и словосочетаний, выданных на этапе 2, умножаются на численные значения частот общих слов и словосочетаний, выданных на этапе 4. Слова или словосочетания, классифицированные наивысшим рангом на основании произведений их частот, выданных на этапе 2 и этапе 4, будут словами и словосочетаниями, наиболее семантически эквивалентными или подобными запросу.

В примере варианта осуществления с построением тезауруса эквивалентов всех слов и словосочетаний в документальной базе данных системы предполагается, что пользователь вводит слово йеРнпей («задержанный») для определения всех известных системе эквивалентов слов и словосочетаний.

На этапе 1, на основании результатов наивысшего ранга (заданных пользователем), взятых в количестве 3 для большей наглядности, сначала система определит (смотри ниже) 3 словосочетания (заданные пользователем), наиболее часто появляющихся непосредственно слева от «йеРнпей»:

1. 111с 5Н5рсс1 \ν;·ΐ5 («по подозрению»)

2. \ν;·ΐ5 аггс51сб апб («был арестован и»)

3. сопЛ'шей Ю Ье («продолжал быть»)

На этапе 2 система находит (смотри ниже) слова и словосочетания, которые наиболее часто следуют за 3 вышеприведенными выданными в результате словосочетаниями справа:

1. Ле 5и5рес1 \ν;·ΐ5

2. \ν;·ΐ5 атте^ей апб

3. сопйпией ΐο Ье

a. атгейей (240, частота)

b. ЬеИ (120) с ге1еа8ей (90)

a. ЬеИ (250)

b. сопуШей (150)

c. ге1еа8ей (100)

a. Ьеа1Лу (200)

b. сопййеп1 (150)

c. орЬшЩю (120)

Затем частоты общих результатов, выданных на этапе 2, суммируются. На этапе 2 выданы только следующие общие результаты:

a. 1е1й 120 + 250 = 270

b. те1еа§ей 90 + 100 = 190

На этапе 3 система определит 3 наиболее часто появляющихся (согласно заданному пользователем параметру) двухсловных словосочетания (заданных пользователем) непосредственно справа от выбранного запроса «йеРнпей» в документах в базе данных:

1. Тог диейюшпд

2. оп сЬатдек

3. йиппд Ле

На этапе 4 система определит (смотри ниже) слова и словосочетания, наиболее часто появляющиеся непосредственно слева от 3 словосочетаний, выданных на этапе 3:

1. 'Тот диейюшпд а. 1е1й (300)

Ь. ™ап1ей (150) с ЬтоидЫ ш (100)

2. оп сЬатдек а. 1е1й (350)

b. аттейей (200)

c. ЬтоидЫ ш (150)

3. йиппд Ле а. ЬеаиЛиГ (500)

b. 1арру(400)

c. реор1е (250)

Затем суммируются все общие результаты, полученные на этапе 4. В данном примере выдано 2 общих результата:

- 26 007776

a. Ье1б

b. ЬгоидЫ ш

300 + 350 = 650

100 + 150 = 250

Этап 5. На данном этапе перемножаются (смотри ниже) частоты общих результатов, выданных на этапах 2 и 4:

1. Ье1б

2. аггеЧеб

650 х 270 = 175,500

200 х 240 = 48,000

Вышеприведенный наглядный пример основан на сравнительно небольшом числе документов в документальной базе данных. Документальная база данных может быть больше и может содержать документы, удаленно доступные системе по сетям, например сети 1п1егпе1.

Вышеописанный вариант осуществления представляет собой один из многих вариантов способа по настоящему изобретению, который позволяет применять независимый общий частотный анализ (1СЕА) (или, в альтернативном варианте, связанный общий частотный анализ (КСЕА)) для определения характеристик понятий, отраженных словами и словосочетаниями, и характер отношения между словом или словосочетанием и любым другим словом или словосочетанием.

Можно применять и другие способы, основанные на одной и той же принципиальной идее использования отношений, существующих между понятиями и обнаруживаемых по их частоте и близости друг к другу в языке, в сочетании с другими индикаторами категорий, с целью решения более сложных проблем. Указанные способы могут содержать этапы, заключающиеся в выполнении общего частотного анализа, по меньшей мере, для 2 различных наборов сегментов и использовании комбинированных результатов в соответствии с инструкциями пользователя.

Один из примеров более сложного отношения, которое можно обнаружить, представляет собой комбинацию, образованную при сравнении сигнатур слов или словосочетаний, которые являются противоположностями друг другу. Чтобы обнаружить комбинацию, пользователь будет вводить слово в систему (например, 1ю1 (горячий)). Тогда система определит все частоты появления повторяющихся слов и словосочетаний около данного слова (в результате формируется «сигнатура» слов). Затем пользователь обратиться к системе с требованием определить все частоты появления повторяющихся слов и словосочетаний около слова или словосочетания, отражающего противоположное понятие (например, Со1б (холодный)). Затем система произведет для перекрывающихся понятий поиск общей комбинации для левой стороны от слова 1ю1 и правой стороны от слова со1б и для левой стороны от слова со1б и правой стороны от слова 1ю1.

Полученный результат представляет собой комбинацию, образованную сравнением двух сигнатур, которую система может впоследствии использовать для идентификации других пар слов или словосочетаний с аналогичными комбинациями, образованными сравнениями их сигнатур. Следовательно, если система получит запрос в виде слова или словосочетания таким образом, что будет производить поиск противоположности, то система (1) обнаружит все слова и словосочетания, окружающие данный запрос, (2) определит список слов и словосочетаний, которые имеют сигнатуры, аналогичные запросу, но не с такой степенью подобия, которая позволяет классифицировать их как синонимы, (3) затем сравнит сигнатуры этих связанных (но не синонимических) слов и словосочетаний с запросом и (4) сравнит результат сравнения, полученный на этапе 3, с результатами сравнений сигнатур ранее обнаруженных пар противоположных слов или словосочетаний. Если какие-либо из результатов сравнений, выполненных на этапе 3, содержат комбинацию, которая достаточно подобна (на основании заданных пользователем критериев) комбинации, образованной сравнениями сигнатур известных противоположностей, то система выявит слово или словосочетание в результатах этапа 2, которые противоречат запросу, чтобы сформировать комбинацию и обозначить ее как противоположность запросу.

Следует также отметить, что параметры, задаваемые пользователем так, чтобы система создавала эквиваленты словосочетаний (или любое другое отношение), могут содержать словосочетания, характеризующиеся любой степенью близости к запросу, а не только непосредственно примыкающие к запросу с левой или правой стороны. Корректировка заданных пользователем параметров потребуется для приложений, в которых выражение семантического содержания обычно менее эффективно или конструктивно менее общепринято (например, переговоры, записанные на «форумах» сети 1п1егпе1 (сйа! гоот), и переговоры других типов).

В принципе, процедура построения ассоциативной базы данных содержит этапы, заключающиеся в том, что (ί) принимается единица группированных данных, организованных линейно или упорядоченно, (ίί) группа данных делится на все возможные смежные поднаборы целой группы, и (ш) строятся отношения между всеми поднаборами данных на основе часто повторяющейся (обычно, непосредственной) близости друг к другу всех доступных единиц группированных данных. По существу, на основе общего частотного анализа, система выдает пользователю часто повторяющиеся отношения близости между сегментами поднаборов данных, чтобы облегчать обнаружение определенных повторяющихся комбинаций, которые задают «сигнатуру данных», обеспечивающую обобщенную информацию о любых данных, связанных с упомянутой общей «сигнатурой данных». Поэтому одни и те же процедуры, используемые при создании базы данных, и общий частотный анализ можно применять в приложениях распознавания обра

- 27 007776 зов для извлечения информации из данных и текста различными другими способами. опознавания цели и любом другом приложении. которое требует распознавания образов.

Специалистам в данной технической области очевидно. что при наличии опыта и квалификации в вышеописанные устройство и способы можно внести множество изменений. не выходящие за пределы сущности и объема изобретения.

Приложение

ЧЬаЦЧЫз'.'т 1йе','аге','о£ И1е’,Ъу’,^,Ь.е’,^,1о Ле'.'аз'.'оп'/ап'/аГ, ЧиЛ','&от',Ъе','ул1Г,Ъа8','по£,Ъу Ше',>ои1б','8Ьои1с1','5а1(Г,'1', Ъи1^,,^,8о'_>Ъаб',’1УЬо^,,'по','оп1у^,,Ъег',^,о£ а',Ъееп','апб 1Ье','а! 1Ье');

$ехс1ибе_&е = аггау( '1Г,'е11е','8Оп','Еа^,,^,5е5^,,'ип^,,'ипе','е81','е1а11','роиг','£’а1ге','орА(с)гег'₁'ро8ег','де', Че'Да'Дез'.'еГ.'А '/еп'.^'.'дие'/дш'.'сеЫ'/се'.'сез'.'сеГ/сейеБ'/бапз 1е', ’бапз к'/зоп^'бе 1а',’<1и',^>гА8 бе','бе'_>'баргАз^|,^,раг’,'А|1ге','А к’.’аи'/аих’, 'сотте¹,^,51^,,^|епауап!','5иг^,)^,ип'>'ипе^|)кег8’,'ауес')'1Г5^,§гА(с)','уо1оп1А(с)^,>^,беуо1г’_>Ά^ΐτε оЬНдА(с)','<Й8ай','(Й8а18','<И8еп!',']е','та15','81'_э'ои'_>'ауа1Х','ауа18','ауа1еп1', '9ш','цие'_>'поп','зеи1етеп1','е11е','ег Ιε','εί 1а','е1 кз’/без'/бапз');

$ехс1ибе_зра = аггау( ’1о^,,'е11а','8и^,,’ип^,,^,ш1а'>^,е8^,>^,й1е','Зи1',^,рог',^,рага^,,Ъасег^,,Ъасеп^,,^,е11о8’, 'е11а8^,,'бе','е1','1а^,,^,1о8^,,^|у',^|Ьа81а7еп^,,’81','е8е^,,^,яие^,,'адие11о^|,^,адиеПа', 'езк'/ейо'.'езМ.-'/егез'.'зоп'.'беГ.'сегса'.'а! 1або','е51аг','зет','аГ,'сото', 'епсепб1бо','ип','аггоЪа^,,'соп','безбе','А(с)Г,'уо1ипид',^,бепе','11ау','беЬег','<1уо', 'уо'_; ^,рего','зто','азА-','!ап^,,'о','ЬаЬА-а',^и1еп','дшА(с)п','по','8А31о','8о1атеп1е', 1а',Ъа δΐάο');

$<Нг = ЬеЫге;

$<йгбопе = ЬеЬ&ебопе;

$1ап§ = ”.еп§;

$о1ап£ = .Де;

$(аЫе =’ЪеЫге;

$1ап§иа§есоип1 = 1ап§соип1; $1апдиаде = 1ап§;

$о1апдиадесоип1 = о1ап§соип!; $о1ап§иа§е = о1ап§;

#$беЪи§ = кие;

Йтсбоп декшсгоДтеО {

Из1($изес, $зес) = ехр1обе(^И ,т1сгобте0); ге!ит ((Доа1)$изес + (Доа!)$зес);

} $аПз!аг1 = дектсгойтеО;

$ίρ = £ореп(7и5г/1оса]/арасЬе/1о2.Ьс!, ·νν+);

ίριιΐβ ($ίρ,δΐ3Πίη§ .ба1е(Н:г8).<ВК>\о);

- 28 007776 ίδίβΐίδΐ = й1е(”Ьйр://128.241.244.1 66/11з1.р11р?(Йг=$с11г&1ап§=$1ап2);#с11ап§е $1етр = Ш1р1ойе(,$й1е11з1);

$1151 = 8Ьг1:о1о\уег(1пт($1етр)); $татаггау = ехр1ойе(\п,$11з1);

80П($татаггау); ге5е1($татаггау);

$й1еаггау = аггауО;

$са!с = 0;

£ог ($1 = 0 ; $1 < соип1($татаггау); $Ж-)#сош11($тал1аггау) сЬапде { 1Г(й1е_ех1515(81г_гер1асе($1ап2,$о1ап§,$татап-ау[$1]))) { .

$1етр = $татаггау[$1];

$1етр1 = Й1е($татаггау[$£|); ипзе1($1етр2);

£ог ($т = 0 ; $т < соип1($1етр1); $т++) ( ί£ (зЬг51г($1етр1[$т],....)) ипзе1($1етр1[$т]);

$1етр1[$т] = еге£1_гер1асе([[:зрасе:]]+, ,з1пр_1адз($1етр1[$т])); $1етр1[$т] = иг1йесойе(зй_гер1асе(&Ь.1аЪ;,,$1етр1[$т]));

ΐ£ ($1етр1[$т] !=) $1етр2 .= $1етр1[$т];

} $й1еаггау[$1етр] = и1£8_епсобе($1етр2); ####### $1етр = 51г_гер1асе($1ап2,$о1ап2,$та1паггау[$(]); $1етр1 = П1е(з1г_гер1асе($1ап§,$о1ап£,$татагтау[$1])); ипзе!($1етр2);

£ог ($т = 0; $т < соип!($1етр1); $т++) { ί£ (з1гз1г($1етр 1 [$т],ипзе!($1етр1 [$т]);

ГСтг»1 = οί ^м ** с1т4г\ +аггс’/’Ф4-А**м-л1 ГС-»-м1\\·

X [,ψΧΧ^ УХ»/^Х · у ) V ЬкаХХ£/X ['Ч'ХХХ'] у/) $1етр1[$хп] = иг1йесобе(з1г_гер1асе(&ЫаЬ;'',,$1етр1[$1п])); ΐ£ ($1етр1[$т] != $1етр2 .= $1етр1[$т];

} $Я1еаггау[$1етр] = и1£8_епсобе($1етр2);

} ) (ри1з ($ф,ба1с(Н:1:з).<ВЮ^>бопе 1оай1пд й1ез т!о аггауЛп); $абфуогйз = ΐπιβ;

$с!ойо = сош11($та1па1гау);

$ΐ = Ο;

£ог ($1 = 0; $1 < $с!ойо ; $1++) {

ϊ£ (Й1е_ех151з(з1г_гер1асе($1апд,$о1апд,$тап1аггау[$1]))) $й1ех1з1 = йие; е1зе Ш1зе1($й1ех1з1);

ριΐηΐ Шее = $й1ех1з1 - $паатаггау[$4]\п;

- 29 007776 ίΓ ($йеЬи§ == 1гие) $й1ех181 = ίπιβ;

ίΓ ($β1βχΪ8ί ==-!гие) (

ίΓ($ша1паггау[$1) && $<1еЬи§ != ΐπιβ) {

зу81ет(шу $та1паггау[$1] /и5г/1оса1/арасйе/$й1гйопе/.8!г_гер1асе(/и8г/1оса1/арасЬе/$<йг/,_>$та1па1тау[$1]));

зуйешС'ту .з1г_гер1асе($1апд,$о1апд_э$та1паггау[$1]). /и5г/1оса1/арасйе/$сЯг<1опе/.81г_гер1асе($1ап2,$о1ап2,8!г_гер1асе(^,7и8г/1оса1/араске/$(1н·/ $татаггау[$!])));

} $1п§ = $61еаггау[$ташаггау[$1]];

$ο1ηβ = $Я1еаггау[81г_гер1асе($1апе,$о1ап&$та1па1гау[$!])];

$1п§8 = ехр1ойе( ,$1п§);

Гог ($ΐ = 0; $ΐ < соип1($1пдз); $ϊ++) {

ϊΓ(!βΓββ([^Λα-ζΑ-Ζ],$1η£8[$ί])) $1пдз[$1] = 8ίΓίο1ο·ννα·($1η§ε[$ΐ]);

} $01ηβ8 = ехр1ойе( ,5о1пд);

Гог ($ϊ = 0; $ΐ < соип!($о1п§з) ; $ϊ++) {

ΐΓ(!βΓβ2([^ΛΒ-ζΑ-Ζ],$ο1η§8[$ΐ])) $ο1η§δ[$ΐ] = 81т1о1оугег($о1пд8[$1]);

λ $8ите = соип1($1п£з);

$8итЬ = сошй($о1п§з);

ίΓ ($8ите > $8шпЬ) { Зтагдт = гоипй($зите / ($зите - $зшпЬ)); $асйоп - а<И;} е1зе1Г ($5шпЬ > $8ите) { $таг§ш = (гоипй($зитЬ / ($зшпЬ - $зшпе))); $асйоп = 8иЬ; } еке { Жтагдт = 1; $асйоп = зий”;}

ЗпитЬег = соип1($1п§з);

Гог ($) = $1+1; $] < $с1ойо ; $}++) # тат 1оор, го1а1е ЬеЪуееп 1Ье Й1ез ίο Ъе скескей. {

1Г(й1е_ех181з(81г_гер1асе($1ап&$о1ап§,$татаггау[$]]))) # сЬеск Й1епате тайЬ.

{ $й1е_81аП = ββίπύστοίπηβΟ;

ипзе1($апау);

Заггау = аггауО;

$1ηβίρ = $й1еаггау[$татаггау[$з]];

$οΙη£ίρ = $й1еаггау[81г_г^1асе($1ап2,$о1ап8,$татаггау[$з])];

$1η§8ίρ = ехр1ойе( ,$1пд{р);

Гог ($ί = 0 ; $ΐ < соип1($1пдз1р) ; $ϊ++) <

ΪΓ (!егед([^ла-2А-2]^и ₎$1пд81р[$1])) $1η£8ίρ[$ί] = 8к1о1о\¥ег($1п§з1р[$1]);

} $ο1η§8ίρ = ехр1ойе( ^п,$о1п§ф);

Гог ($ΐ = 0; $ΐ < сошй($о1п£з1р); $ί++)

- 30 007776 {

ϊ£ (!ετε§(*(^Λ&-ζΑ-Ζ],$ο1ηβ8ίρ[$ί])) $ο1η£5ίρ[$ΐ] = 8ίτίοΙολνβΓ($ο1η§5ΐρ[$ΐ]);

) $8ΐπηβίρ = СОШ11($1пд81р);

$5шпк1р = соип1($о1п£81р);

ΐ£ ($зите1р > ЗзитЫр) { $таг§т!р = гоип<1($8ите1р / ($зите1р - $зип1Ыр)); $асйоп = аёб;} екя£(ХзитЫр < Хвитеф) { $таг{рп{р = (гоип<1($5ит111р / ($5ит111р - $8шпе1р))); $ас11оп = зиЬ; } е1зе { $таг§1п1р = 1; $асНоп = абб; } $питЬегф = соип1($о1п§81р);

1£($0еЪид = ίηιβ) ρτίηΐ ^еС’Н-ьз'Э.’^ВК^;

Гог ($ΐ = 0; $ϊ < $пшпЪег; 5Ϊ++) #тат Ιοορ, οονετδ еуегу зрасе.

{ ΐ£($ί = $]) $т = $ί +1;

е1зе $ηϊ = 0;

£ог ($η = $ηΐ; $п < $питЪег1р; $п++) {

ип8е1($1Ьезате11);

$р = 0;

ип5е1($ШеЪ);

$1ап§81аг1 = §е1т1сгойте0;

ν/Ьйе ($р < 15 && $1π88[$ϊ+$ρ] — $1η§δ1ρ[$η+$ρ] && $1п§з1р[$п+$р] != )#скеск ΐ£ ϋιε $η ινοπίδ πκίεΐι.

{ $1кеЪ .= $1π§₅[$ΐ+$ρ].

$ύιεΒ1 = 1пт($1ЬеЬ); ϊ£(!ετε8(^,,['~!@#$%^Λ&*0^<>_⁺=-?.,;:Λ],$11ιεΒ1) && !еге₈([09],8иЬ51г($±еЫ,0,1)) && !εΓε§(^Λ[0-9]*$,$ΦεΒ1) && $ΰιεΒ1 != && зиЬзД($й1еЫ,0,1) != && !еге§([0-9],8иЬ51г($й1еЫ,П) && зиЬз1г($Ц1еЫ,-1) != && виЬ81г($1ЬеЫ,0,1) !=&& 8иЬз&($1ЬеЫ,-1)

Ι-- тп && $1ЬеЫ 1= && $1ЬеЫ != && !1п._аггау($1ЬеЫ,$ехс1ис1е_еп2)) (

$1етр = $8ΠΗγ[$ύιεΒ1][ΗεΒΓε\ν_ο];

ί£ (!$1етр) #ηβντ, туе1соте {

$аггау[$1ЬеЫ][ЬеЪге5У_с] = }

εΙβείΓ (!8ίΓ8ΐτ($ίβιηρ,,$ΐ,)) #ηενν, тлгекоте {

$аггау[$ШеЫ][118Ъг8\у_с”] = $1етр.

} $ех!га = Яоог($1/$таг£1п);

- 31 007776 ΐ£(Засйоп =ч айй) { Зех!гавт = $ί + 5ех1га - 45; 5ех!га1§ = $ϊ + $ех1га + 45;

екеИ (Засйоп = 5иЬ) { Зехггавт - 8ί - $ех!га - 45; $ех!га!§ = $ϊ - Зехйа + 45;} ϊ£ (8ех!гавт < 0) Зехйавт = 0;

ΐ£ (Зех1га1§ > $зитЬ) Зех!га1§ = ЗзитЬ;

$01апё81аг1 = дейтсгойтеО;

£ог ($е = Зехйавт; Зе < 5ех1га1§; $е++) {

Зехйап = йоог($п/5гпаг§т!р);

ΪΓ (Засйоп = айй) {ЗЬо! = $п + Зехйап - 45; $ίορ = $п + Зех!гап + 45; } е1ве1£(Засйоп = виЬ) { $Ъо1 = $п - Зехйап - 45; $1ор = $п - ЗехСап + 45;} И (ЗЬо! < 0) $Ъо1 = 0;

ίί ($1ор > ЗвитЫр) $1ор = ЗвитЫр;

ипве1($1Ьс);

£ог ($х = ЗЪо!; $х < $1ор ; $х++) # сЬеск ±е епдНвЬ, 10 Ъаск апй 10 Гопуагй. { ипве1($1еп§);

И (($1« && $х > Зе) || $1 != $ϊ)# $п > Зе &&

{ $а = 0;

Ми1е (Зо1п§в[$е+$а] = $о1пдв1р[$х+$а] && $о1пдв[3е+8а] 1= ) {

$1еп§ .= . $о1пдв[$е+$а];

$1еп§ = 1лт($1еп§);

1Г(!егед([’~!@#$%^А&*()о_+=-?._>;;Л],$1еп2) && !еге8([09],зиЪз1г($!епд,0,1)) && !егед(^л[0-9]*3,$(епд) && $1еп§ != && виЬв1г($!епд,0,1) != && !еге§([09],виЬв1г($1еп8,-1)) && виЬв1г($1еп8,-1) != && виЬв1г($1еп8,0,1) != && виЬзй(31еп§,-

1) != && $1еп§ != && $1еп§ !^в && !т_аггау(51еп8,$ехс1ийе_&е)) {

51етраггау = аггау_кеув($аггау[$1ЬеЪ1]);

ίί (т_аггау(51еп£,81етраггау)) {

$1етр = $аггау[$111еЫ][$1еп§];

ϊ£(!8ίτ5ΐτ($ΐβιηρ,_>$χ,))# && !з!г5!г($1етрГ’,₁$е₎)) {

$аггау[$й1еЪ1][$1еп&| = $1етр.$х,;

} }

е1ве {

$аггау[$1ЬеЫ][$1еп8] = ,$х,;

}

- 32 007776 }

$а++;

} #еп<1 ο£ν/1ΰ1ε Ιοορ }

}# епй о£ £ог 1оор.

}# εηά о£ ηεχν 1оор $о!ап§еп(1 = дейпдсгоНтеО;

$йте1 = $о1ап§епд - $о1ап£51аг1;

#фи1з ($ф,РгепсЬ ν/οτά пшпЪег $п о£5питЪег1р 1оок $1нпе1\п);

}# епс1 υρ ίο 5 ЪеЬгеху (озеОдег.

$р++;

} # εηά о£ч?ЪЙе Ιοορ $р < 15 $1апдепс1 = βείτηίοΓΟίπηεΟ;

$йте2 = $1ап@еп<1 - $1апд81аг1;

#фи1з ($φ,Εη§1Ϊ81ι χνοτά питЬег $ΐ о£$питЬег 1оок $1нпе2\п);

} }

ΐ£ (соип1($аггау) > 0) {

$(й>81аг1 = §е!т1сго11те0;

Хзкеат = МУ89Ь_СОМ4ЕСТ( 127.0.0.1”,’’гоо1”);

$1етрЬеЪ = аггау_кеу8($аггау)·, £ог ($ί = 0; $ΐ < соип!($1етр11еЬ) ; $ΐ++) {

$1п§ = $1етрЬеЪ[$1];

ΐ£ (8иЪз1г_соип1($а1гау[$1пд][ЬеЬгеху_с],,) - 1 > 0) {

$1п§с = зиЪз1г_соип1($аггау[$1пд][11еЪгеху_с],_>) - 1;

$£етро1пд = аггау_кеу8($аггау[$1пд]);

$η= 1;

χνΐιίΐε ($п < соип1($1етро1пд) && соип1($1етро1п§) > 1) {

$о1п§ = 5Иетро1п§[$п];

$о!п§с = 8иЪ8й_соип1($аггау[$1п§][$о1пд],,) -1;

$циегу = ирда1е $1аЫе 8βί 1о1а1 = 1о1а1+1, $1апдиадгсошй = $1апдиадесои1й+$1п8С, $о1ап£иа§есошй = $о1ап8иа§есоип1+$о1п§с, агйс1е = сопса1(агйс1е,\, $татаггау[$}] V) хуЬеге (агёск ηοί 1£ке'% Бташагтау^] %' апй $1ап§иа§е = '.а4Й51а8Ье8($1п2).' ап4 $о1ап§иа§е “ ^т.а<М51а8Ье8($о1пз).');

МУ8рЬСЪгаш,$диегу,$81геат)ог <Не(#2 Сап'1 $циегу .музрь_ЕКв.око);

$пит = МУ8рЬ_АЕРЕСТЕО_К.ОА8($81геат);

ϊ£ ($пит = 0) {

$дииу — ϊπδειΐ 1§поге ΐηίο $1аЫе уа1иез(\’Ж1ЬЬ\,\'’1\^,,,^,,,.аа(181а8Ье8($1п8).^,,,''.аа<181а8Ье8($о1п8).^,'',\^ии.а(1(181а8Ье8($111ё).А ,?'$1пдс\Д.а0481а8Ье5($о1пд).\,\$о1п8с\,\ $татаггау[$]]

- 33 007776

КГ¥£РЦ'Ъгат'^,,$диегу,$з1геат)ог с!1е(”#3 СапЧ $циегу .МУ8рЕ_ЕККОЕ0);

} $п++;

} }

}

М¥5рЬ_СЬО8Е($81геат);

$<1Ьеп(1 - §ейшсго1ш1еО;

$Нте = $£ϊόεηά - $0Ьз1аг1;

фи1з ($ίρ,άΕ 1оок $Йте\п);

} $й1е_епс1 = §еПшсгоЕтеО;

} }

$аПепс! = деПгпсгоНтеО;

$йте - $а11епб - $аПз!аг1;

£ри1з ($(р,'ЧЬ.е ν/ΕοΙβ зЫ1 Шок $йте\п);

фи!з ($ф,Епа1; ^и.йа1е(У-т-<1Нл:8). - $са1с - <ВК>\п); £с1озе($ф);

?>

??

Продолжение сноски с предыдущей страницы Продолжение сноски на следующей странице

- 34 007776 <7 ίτνοπΐ = ипйеЗ паНопз;

$епдзра_{ = еп§зра;

$еп§йе_1 = ’ЪеЬйе;

$йезра_1 = йезра;

$с = 1;

ΜΥ8ρΕ_€ΟΝΝΕσΓ(^,,128.241.244.166,Γθοΐ);

$Чиегу = ве1ес11о(а1,1апд,1апдсоип1,о1ап§,о1апдсоип1 йот $еп§йе_1 ν/Неге о!ап§ = 'Зм'огй';

$гезик = М¥8рЬ(Ъгат,5^иегу) ог Ше(Етгог #1 - $_Чиегу - ''.МУ89Ь_ЕККОК0); $ф1егу1 = зеке! 1ап8 &^ош $еп§5ра_1 ν/Ьегс о1ап§ = '$хуогй';

$гезиЙ1 = МУ8рЬ(Ьгат_;$диегу1) ог <Не(Еггог #2 - $_Чиегу1 - .МУЗрЬ.ЕККОКО); Гог ($ΐ = 0 ; $ΐ < М¥8рЬ_ЫиМ_КОА5($ге8иИ1); $ΐ++) {

1181($1ап§) = М¥8рЬ_ГЕТСН_К.ОА($гезиЙ1);

$ϊη .= .'.аййз^йезСЛапд).’;

) $П1 = 5иЪвй($т,1);

$пит = М¥8рЬ_ЪШМ_К.ОА8($ге8и11);

ρπηΐ $ίη<ΒΚχΒΚ>\η;

Гог ($ϊ = 0 ; $ΐ < $пит; $ί++) {

Нз1($1о1а1,$1ап8,$1ап§с,$о1ап8,$о1ап§с) = М¥8рЕ_ГЕТСН_КОА($гези11);

ρτΐηΐ ”$1ап§, $Чиегу2 = зе1ес1 сМ йот $йезра_1 хуйеге о1апд = '.айсШазЬез^апд).' аий 1ап§ ίη ($т)”;

$гезиИ2 = М¥8рЬ(Ъгат^,’,$чиегу2) ог (йе(Еггог #3 - $чиегу2 - .МУ8<^Е_Е1<К.ОК.О); 1£(М¥8рЬ_ЫЦМ_КОА8($ге8и112) > 0) {

$гез .= $ΐ - $1о1а1,Яапд,$1апдс,$о1апд,$о1а11дс<ВК>\п'';

$с++;

} }

ρπηΐ <ВК.хВК>$гез;

ρπηΐ $с/ ^п.М¥89Ь_ЫиМ_КОА8($ге8и11);

?>

??

- 35 007776 <1

Гипсйоп сопуей($5¥Ьа1,$о1ап§) {

ίί ($ννή3ί = $™Ьа1 = V;

ίί ($5УЙа( = \\) гейта;

$циегу = зе1ес1 з1ейег (тот. $о1апд. 1ейег иЪеге Пейег = ’ХмгЬаГ;

5гезик = МУ5рЦтт1Ьи511,$9иегу) ог <Яе(*5>уЬа1* -еггог #1 5циегу -. МУ8рЬ_ЕВКОК0);

;£(МУ8рЬ_КиМКО\У8(5гезик) > 0) {

Нй($81ейег) = МУ8рЬ_ГЕТСН_К.О^($ге8иЙ);

гейта 5з1ейег;

} е1зе гейта 8£прз1а8Йез($1УЙа1);

}

Й1ПСЙОП

0Уег1ар($з,$тт,$теап,$108_>$о8теап,$тах,$б1сбопагу_£,$1ап8,$о1апд,$8расеа<Мге53,$1 опдез1о1апд) {

$1етртах = $тах;

5{5о1апд) = 5озтеап;

${$1ап§} = $теап;

$теап = ехр1обе( ,$теап);

$озтеап = ехр1обе( ,$озтеап);

£ог (5т = $тт; 5т < сошй(5теап); $т++) {

ипзе1(5з1пп£);

Гог ($1 = $т; $1 < соип£($теап) ; $1++) $8ίπη8 .= $теап[$1].

$8т = $8 + соигй($теап);

ипзе1(5пех£\уогбта(сЬ);

ίί (58расеаббгезз[$8т+1]) $пехйУогбта{сЬ = $1ап§ Йке ’.зЦ_гер1асе(%,,£пт($з{пп§.5зрасеаббгезз[5зт])). %' ог;

5циегу1 = 8е1ес1 $1апд,$о1ап§ Дот $<йсбрпагу_1 чуйеге $пех1луогбта£сй $1апд =. '.8й_гер1асе(%/',й£т(58йбпд.5зрасеай(1ге88[5зт])).' апб $о1ап§ о ” огбег Ьу $1апд безе, 1еп§Й1(51апд),$о1апд безе, 1епд1й($о1апд) безе;

$гези111 = МУЗрЬ(''пшйЬизй''_> ^,'$диегуГ) ог б1е(сапЧ еггог #2 - '5циегу1' . МУ8рЬ_ЕККОК0);

$1 = 0;

5уЫ1е ($1 < МУ80Ь_МиМК.О\¥8($гези111))# && $£етрта1сЬ != уез) {

1Ϊ8ί($ {-1ешр.$1апв}3 Петр”.$о1апв}) = МУ8рЬ_ЕЕТСН_КО^($ге5и1£1); $£етртеап = ехр1обе(^п ,5{'Четр.51апв});

$1етротеап = ехр1обе(^п ,$ (1етр.5о1апд});

$1§ = $т;

$Ьп = 0;

ипзе1(51стрта1сй);

- 36 007776 ννΐΰΐβ ($ΐβ < соип1($1етртеал) + $т) {

ί£ (($8расеаббге88[$8+$1д] = $1етртеап[$Ьп]) && ($1етрта1сЬ != по)) $1етрта£сЬ = уев;

е1зе $1етрта1сй = по;

$£§++;

$Йп++;

} ϊ£ ($1етрта1сй = уез && 8иЪ51г_соип1($1опдез£ге8ик, ) <= 8иЬз1г_соип1(${1етр.$1апд}_> )) #сЬескз ϊ£Λβ пеху оуейар ΐδ та£сЬт§ Ле 1гап81абоп ΓβςιιβδΙ.

{ $1опве81ге81111 = ${£етр.$1ап§};

$отеап = ехр1обе($1етротеап[0],${5о1ап§});

$1о = соип1($отеап) - 1;

ЛсбескЪ = 8иЬ8й-(${£етр.$о1апд},0,81г1еп($1етротеап[0]));

ΐ£ ($озтеап[$1оз] = $1етротеап[0] && 188е1($о8теап[$1оз])) {

ΐ£ (соип1($теап) + соип{($(етртеап) -1 > $тах) # δΐηβΙβννοΓά оуейар {

$тах = $т + соип1($1етртеап);

$пз = $т;

$1о1ап§ = ${$о1ап§} . 5иЬ81г(${1етр.$о1апд},81г1еп($1етротеап[0]));

$оуег1ар = ίπιβ;

) е1зе $1етрта1сЪ = по;

} β18βΐ£ ($овтеап[($1о8-1)] = $1етротеап[0] && $О8теап[$1оз] = $1етротеап[1] && 18зе1($о8теап[($1о8-1)])) {

ΐ£ (соип1($теап) + соип1($1етртеап) -1 > $тах) # зт§1е\уогб оуегкр {

$тах = $т + соип1($1етртеап); $П5 = $т;

$1о1ап§ = ${$о1ап§} . 5пЪ81г(${4етр.$о1ап§),81г1еп($1етротеап[0]. .$1етротеап[1]));

$оуег1ар = ΐπιβ;

} е18е $1етрта1сЬ = по;

} е1зе1£ ($о8теап[($1оз-2)] = $1етротеап[0] && $озтеап[($1оз-1)] — $1етротеап[1] && $озтеап[$1оз] = $1етротеап[2] && 188е1($озтеап[($1о8-2)])) { ΐ£ (согш1($теап) + соип1($1етртеап) -1 > $тах) # зтд1еугогб оуег1ар {

$тах = $т + соип1($1етртеап);

- 37 007776 $пз = $ш;

$1о1ап§ = ${$о1ап§} . зиЬзк(${'Четр.$о1апд},зк1еп($1етротеап[0]. ,$1етротеап[1]. ,$1етротеап[2]));

$оуег1ар = 1гие;

} е1зе $1етрта1сЬ = по;

} е1зе1£ (зиЬзк_соип1(${$о1ап§}, ) = 0 && $1сЬескЬ = 1пт(зиЬ5&(${$о1ап§}_>1))) { ΐ£ (соип{($теап) + соип1($1етртеап) - 1 > $тах) # зтдкчуогй оуег1ар {

$тах = $т + сошй($1етртеап);

$пз = $ш;

$о1апдттиз = зиЬзк(${1етр.$о1ап_ё},зк1еп(${$о1апд}));

$1о1ап§ = ${$о1ап§} . . $о1ап§ттиз;

$оуег1ар = кие;

} }

е1зе1£(зиЬзк_соип1(${$о1ап§}, ) — 0 && зиЬзк_соип1(${'Четр.$о1ап§}, ) — О) # епдПзЬ оуег!ар ЬеЬгеду опе хуогй оп1у.

{ $тах = $т + соип1($1етртеап);

$пз - $т;

$к>1ап§ = ${$о1ап§) . . ${'Четр.$о1ап§};

$оуег1ар = кие;

} е1зе {

$1етрта4сЬ = по;

} ΐ£ ($оуег1ар = кие) {

$ттеап = ехр1ойе( ”.$1етртеап[0],${$1ап§});

$к> = соип1($ттеап) -1;

$По8 = сошп($теап) -1;

ΐ£ ($ттеап[$1:о] && $1о > 0) {

$1скеск = зиЬзк(${^,Четр.$1ап§},5к1еп($1етртеап[0])+1);

ί£ <8иЪзк($1сЬеск,0,8к1еп(кш1($штеап[$1о]))) — клп($ттеап[$к>])) # оуег1аррт§ {

$Иап_ё = ${$1ап_ё) . 8иЪ8к($1сЬеск,8к1еп(кпп($ттеап[$1о])));

} }

екеД ($теап[$коз] = $1етртеап[0] && $теап[$Йоз]) {

- 38 007776 $Йап§ = ${$1ап§} . зиЬз1г(${1етр.$1апд},з1г1еп($1етртеап[0]));

} е1зе {ρπηί ВИЗ ЕЯКОЯ; ехй;} }

} $1++;

} }

ΐ£($оуег!ар != ΐηιβ) $оуег1ар = Гаке;

ΪΓ ($1етртах = $тах && $оуег1ар != Ьгае) $тах = 0;

$аггау = аггау( ь =*=* э» , пин ^-'ииидцфшеап), шеаи ιυ» —>ъио51г_ииипцф1и1анё, )_эо5теап=>$1о1ап8,тах=>$тах,1о1ап§^|->$1о1апе^и,'^,оуег1ар=>$оуег1ар^,’,'’1оп 8ез1о1апд=>$1оп£ез1:о1ап8);

ге1ит $аггау;

} й1псйоп1гап51а1е($\Уогс1,$1оск,$1а83,$Ьазе1ап8) {

§1оЪа1 $1д_1,$ргейх_^$ШсНопагу_1;

$Ъазе1апд = ЬеЪгелу;

ϊί (!$ννοτά) τβΐυτη;

ί£ ($4гап8еп£ = ίηιβ) {ίί (еге£([а-гА-2],$зуог<1)) τβίιιπι $\νοπ1;} ί£($Ъазе1ап§ — ЬеЬгезу) { $зрасей = ίπιβ; $етаПеп(1 = · о,£.бТ·, ϊ£($Ьазе1ап§ = ’^арапезе) { $сксбопагу_1 = с11сйопагу]ар; $зрасей = ка1зе;} ΐί ($Ъазе1ап8 — сЫпезезпп) { $(Нспопагу_1 = ФсйопагусЬпзйп; $зрасей = ка1зе; }

М¥5рЬ_СОКНЕСТ(216.205.78.138,^ипоЬо(1у)ог Ые(сапЧ соппеск . МУ89Ь_ЕККОК0);

$ινοπ1 = ίπιη($ννοΓά);

ΐΓ ((з1г5Ы($у/огф11еЪгеу($10_1).,) || 8ΐΤ5ΐτ($ννθΓ<1,Ηβ6Γβν($ίά._ί). ) || 3υΒ8ΐΓ($ν/0Γά,3ΐΓ1εη.($·ΛΌΓά) - 5ίτ1εη($ΐά_ί)) — ЬеЬгеу($1д_1)) && Ϊ8δβΐ($ίά_ΐ)) {

$\νοπ! - 5^_тер1асе([1еЪтеу($И_1),'\5'^от0');

$зуз1етз11е = ίηιβ;

ΐί (5ν/οτφ # \νλν\ν.30Γηεύιίηβ #

1Г(8^г81г($\уог0,1111р://«^п¥.шЬеЬге1У.сол1/п81а.Ыт1)) {

$λνοτά = 8ρΙΐΙ('-,$\уогф;

$\νοτά = зрШ(&,$\уогс1[1]);

гекит $ννοΓ<1[0];

- 39 007776 ΐί (8ίτ8ΐτ($·ννοΓ<1,://)) { $ΐβιηρ = βχρ1οάβ(://,$ννοπ1); 5аййгезз = $1етр[1]; } е1зе $аййгезз = $угог<1;

БасИгезз = ехр1ойе(/,$ай(1ге8з);

БаййгеззсЬеск = $аййгез5[0];

ί£ (!ετεβ([3-ζΑ-Ζ.. $аййгеззсЬеск)) БаййгеззсЬеск = $аййгезз[ 1];

1£(еге§([а-гА-2],$ас1йге83сйеск)) {

$1ап§ = епдНзЬ;

$о1ап§ = $Ъазе1ап§;

1х ^&αιυιυννει\,Λαυοΐ4^φνννινι._>ν_>/)}--- ιιιι,ρ.// у χ ψγννιιχ — оииои^уущи, ιу, ц>рю — }

ϊ£ (8Що1олуег(5иЬз1г($5УОГЙ,0,8)) — Ьйрз://) {$νζοτά = 8иЬз1г($дуогс1,8); $рге =

ΪΓ (8ίιΐοΙονβτ(3υΒ8ίτ($·ννοπ1,0,6)) = Йр7/) { $\νοτά = зиЪз1г($1¥огй,6); $рге = }

} βίβεΐί ($Ъазе1ап§ — ЬеЬгеху) {

$1апд = ’ЪеЬгету;

$о1апд = епдНзЬ;

И (зиЬзЬг($5Уогс1,0,8) — „§§“://*) { δτνοπΐ = зиЬз1г($ж>п1,8); $рге = Ьйр://; $иррег = {гие;} е!зе1£(зиЬз1г($1Уог<1,0,7) — { $·\νοτά = зиЬз1г($1¥Ог<1,7); $рге = Ьйр://;} е1зе1£ (зиЪз1г($у/ог<1Д9) — ,,δδ“π://*) { $χνοτά = зиЬз1г($^огй,9); $рге = Ййрз://; $иррег = ’Чгие;} е1зеИ (зиЪз1г($\уогс1,0,8) = ,,§δ“π://) {$\νοτά = зиЬз1г($^огй,8); Зрге = ЬПрз://; } .

βίββΐί (биЬ81г($луогй,0,7) = “§“^/*) { $·ννοπ! = зиЪз1г($ч¥оп1,7); $рге = Йр://; $иррег ~ 1гие;} е1зе1£ (βιΛβίτφινοπΙ,Ο,ό) = {$\νοΓά = зиЪз1г($угог<1,б); $рге = Др://;} е1зе1Е (зиЬз1г($\Уог<1,0,1) — *) { $у/огй = зиЬзГДЗ'Л'огсЦ); $иррег = ΐπιβ; } } сюсхх ^ψυ<κ>&ιαιΐ£--{ $1ап§ = Э'арапезе;

$о1ап§ = епдНзк;

} екеУ ($Ьазе1апд = сЪтезезпп) {

$1апд = сЬтезезпп;

$о1ап§ = епдИзк;

} $5 = 0;

$1етргер1асе = 8ίτίο1σννβΓ($\νθΓά);

- 40 007776 ν/ΗϊΙβ ($5 < зД1еп($!етргер1асе)) { ΐ£ (!еге§([.. .-£а-гА-20-9\У'],$!етргер1асе[$8])) {

$1етргер1асе = 8иЪзД_гер1асе($1етргер1асе, $!етргер1асе[$з] ,$8,1);

$5 = $8 + 2;

} $з++;

} $1етргер1асе = егед1_гер1асе([[:зрасе:]]+, ,$1етргер1асе);

$зрасеаббгез8 = ехр1обе( ,$1етргер1асе);

(Г- _ ЛФ» — и, Ш15е1($8расе);

$со1ог = геб;

$соип!з = соип1($8расеаббгезз);

$циегу = зеке! $1ап§,$о1ап§ Дот $б1сйопагу_1 ν/йеге $1ап§ = '$1етргер1асе'; $гезик = МУЗрЬ(т1тЬи8Й,$циегу) ог б1е(сапЧ еггог #0.1 - 'Хциегу¹ . МУЗБЩЕКЙОКО);

1£(МУ8рЬДЩМкОА8($ге8и11) > 0) {

Из1(${$1ап§},${$о1ап@}) = М¥89Ь_РЕТСН_КОА($гези11);

$врасе - $ {$о1апд};

$соип!з = 0;

} луйНе ($соип!з > $в) # ууогб Ьейуееп..

{ $5расеаббгез8[$8] = !пт($8расеаббге88[$з]);

ΐ£ ($1а§8 = Дие) {

$ореп = <£оп1 со1ог=\$со1ог\>;

$с1озе = </£οηΐ>;

ί£ ($со1ог — геб) $со1ог = Ыие;

е!зе $со1ог = геб;

} ,Τ £« «А 7\Л’П» {

ип8е!($гез1оГаббгез8);

£ог ($ΐ = $з; $ΐ < $соил1з; $ί++) $гез1о£аббгезз .= .ХзрасеаббгеззЩ]; $ге8!о£аббгезз = Дпп($ге8!о£аббге88);

$циегу » 8е1ес! $1ап§,$о1ап§ Дот $б1сНопагу_! ν/йеге $1апд = '$гез1о£аббгез5'; $гези11 = М¥8рЬ(тпйЬиз11,$диегу) ог б1е(сапЧ еггог #0.2 - ^циегу¹. МУ8РЬ_ЕККОКО);

1£(М¥89Ь_КиМКОА8($гези11) = 1) {

И81(${$1ап§},${$о1ап8}) = МУ8рЬ_ЕЕТСН_В.ОА($ге8иЙ);

$зрасе .= .$ореп.${$о1апв}.$с1озе;

- 41 007776 $зрасе = 1пт($зрасе);

$соип15 =Ό;

} е1зе {

$п = $з + 1;

ипзе1($пехЬУ0гбта1сЬ);

ίί ($зрасеаббгезз[$п]) $пехк^огбта1ск = $1ап§ Нке '.51г_гер1асе(%,,$зрасеаббгезз[$з]). .зб_гер1асе(%,,$8расеаббгезз[$п]).%' ог; .

$циегу = зе1ес! $1ап§,$о1ап£ Дот $б1сйопагу_1 λνΗετε $пехДуогбта!сЬ $1ап§ = '$5расеаббге58[$з]' апб $о1ап£ о огбегЪу $1апд безе, 1еп§б1($1ап§),$о1ап£ безе, 1еп£1Ь($о1ап§) безе;

$гезиИ = М¥8рЬ(пшмЪизЬ,$циегу) ог б1е(еап'1 епог #1 - 'Зциегу¹. МУ8РЬ_ЕККОКО);

ΪΓ ($та1сЬ = уез) ипзе1($та1ск);

ϊί ((МУ8рЬ_ЫиМЯО5¥8($ге5ик) > 0) && ($таДЬ != по)) {

$п = 0;

$тах1тит = 0;

$тахйпитг = 0;

ипзе1($Дпа1з);

ипзе1($£та1зг);

хшзе1($1оп§е81о1апе); ипзе1($1оп§ез11ап§);

ννΗϊΙβ ($п < ΜΥ8ΡΕ_ΝυΜΚ0ν78($Γε3υ11))# && ($та1ск 1= уез)) {

Нз1($ {$1ап§} ,$ {$о1ап§})=М¥8рЬ_РЕТСН_КО\У($гези11);

$теап = ехр1обе( ,${$1ап§});

Жозтеап = ехр1обе( ,${$о1ап£});

$1о8 = сошй($ояпеап) -1;

$6 = 0;

ипзе1($та1с11);

χνΐύΐε ($з < соип!($теап)) {

ί£ (($зрасеаббгезз[$з+$д] = $теап[$д]) && ($та1сЬ 1= по)) $та1сЬ = уев;

еке $та1сЬ = по;

$β++;

} ΐ£ ($та!сЬ == уез) {

ίί (зД1еп($1оп§ез1о1ап§) < зД1еп(${$о1ап§})) $1оп§ез1о1ап§ = ${$о1апз); ίί (зД1еп($1оп£ез11ап£) < зД1еп(${$1ап£})) $1оп£езбап£ = ${$1ап£}; Ш1зе1(5оуег1ар);

ипзе1($тах);

- 42 007776

Заггау=аггауО; $аггау-= оуег!ар($з,1 ,$ [$1апд] ,$1оз,$ {$о1ап§} ,$д,$б1скопагу_1,$1апд,$о1ап§,55расеаббге55,$1оп дез{о1апд);

$тах = 5агтау[тах];

$1о1ащ» = $аггау['Чо1ап§];

ϊί ($1о1ап§) Здаавок = йпе;

νώΐβ ($аггау[оуег1ар] != Гаке && соипДЗзрасеаббгезз) > Зтах) {

Заггау = оуег1ар($аггау[8^п],$аггау[1пт],1пт($аггау[^птеап]),$аггау[1о5]_>Ь1т($аггау[о5теа п]),$&8б1сиопагу_к$1апд,$о1апд,$8расеаббге58,$1опде81о1апд);

ϊ£ (5аггау[оуег1ар] = ’Чгие) {

Зтах = $аггау[тах];

$1о1ап§ = $аггау[1о1апд];

Ззуазок = ’Чгие;

} }

ΐί ($тах > Зтахйпит && Зтах > 0) {

Зтахппит = Зтах;

$£па1з = $1о1апд;

} ΐ£ ($\уазок != ίηιβ) {

ίΓ (81г1еп(${$1апд}) > Зтахппитг) {

Зтахппитг = з1г1е11(3{31ап§});

$§г = $К $£та1ет = $ {$о!ап§};

} }

} $п++;

} ίί (Зчгазок·*“ ’Чгие) {

$та1ск = ’Чгие;

И (!&1г8|1($&1а18,$1оп§е51о1ап§) && Зтахпшпп <- (зиЪзР-соиЫС ,$1опде51о1ап2)+1)) {

#ρηηί ϊί ($з = 0) Ззрасе - Ззрасе. $ореп. $1опдез1о1ап§. Зс1озе;

еке Ззрасе = Ззрасе. . Зореп. $1оп£езГо1ап§. $с1озе;

$з = $з + зиЪз1г_сошй(31опце811ап8, ) + 1;

- 43 007776 }

е1зе {

ϊ£ ($8 = 0) Ззрасе = $5расе. Зореп. 5бпа1з . Зс1озе;

е1зе Ззрасе = Ззрасе. . Зореп. Зйпа1з. 5с1озе;

$8 = $з + Зтахппит;

} ипзеЦЗтахтит);

ипзеЦЗ'Уазок);

} είδβίί (Зйпа1зг) ### ΐβ5ίίη§ пе\у ώΐηβ, мгЫ Ьарреп8 νζΒεη а рагйа1 таек ν/аз /ла λ ΒΛΤνίηΐΙίΐηίΎ П ЛА лла+ 4*» +1ча вчг0Фа«*ч\

Аииии, α> оиш^иишц, иш α ю υνι ш шу {

ϊί ($8 = 0) Ззрасе = Ззрасе. Зореп. $йпа1зг. Зс1озе;

е15е Ззрасе = Ззрасе. . Зореп. Зйпа1зг. 5с1озе;

Зз = $8 + Зет ип8е1(3тахппитг);

} е1зе # 8Й11Ϊ81ез£ рЬазе.

{ ϊ£ (еге£([а-гА-г.. .-£],3зрасеа(1с1ге88[55])) Ззрасе = Ззрасе . . Зореп . сопуег1(8иЬ51г($8расеа(1с1гезз[5з],0,1),5Ьа8е1ап8). 5с1озе;

е1зе Ззрасе = Ззрасе. Зореп. сопуег1(5иЬз!г(Ззрасеас1с1гез8[58],0,1)₎8Ьазе1ап8). $с1озе;

3зрасеас1<1ге88[35] = 8иЪзСг(38расеа<1(1ге8з[38],1);

1£(!$8расеа(1(1ге8з[$з] || 3зрасеа<1<1гез8[35] — 0) Зз++; ипзе1(5та1сЬ);

} }

е1зе {

ΐ£ (βτβ8([3-ζΑ-Ζ.. ЗзрасеадйгеззСЗз])) Ззрасе = Ззрасе. . Зореп. сопуег1(8иЬз11($8расеад(1ге88[58]_>0,1)_>5Ьа8е1ап§). $с1озе;

е!зе Ззрасе = Ззрасе. Зореп. сопует£(8иЪз£г($5расеас1с1ге88[Зз],0,1),5Ьа5е1апд)

А·

Ззрасеайбгеззфз] = зиЪз1г($8расеа<1(1ге88[$з],1);

1£(!$зрасеад<1ге88[58] || ЗзрасеайскеззСЗз] = 0) Зз++; ипзе!(8та!сЬ);

}

И (’Ззрасеайбгезз^з] || 5зрасеайдге88[$з]« О) $з++;

) }

е1зе {

ί£(βτββ([8-ζΑ-Ζ.$зрасеай<1ге88[$8])) {Ззрасе = Ззрасе. . Зореп. сопуег1(8иЪз£г($8расеа<1<1ге88[Зз]_>0,1)₎ЗЬазе1ап8). 5с1озе; рпп! }

- 44 007776 βίδβΐί (ετβ§([3-ζΑ-Ζ.. .-£],$зрасеа(1<1гезз[($з-1)])) $драсе = $зрасе. . $ореп. сопуег1(зиЬз1г(55расеа<1агез8[$з],0,1),$Ьазе1ап_ё). $с1озе;

е1зе $зрасе = $зрасе . $ореп. сопуег4(8иЬзк($5расеааагезз[$8],0,1),$Ьазе1апё). $с1озе;

$5расеас1с1гезз[$8] = зиЪзк($8расеаа<кез8[$з],1);

$з++;

ипзе1($та1сЬ);

} }# епй о£ ν/огй ЬеРуееп..

$иг1 .= $зрасе;

ипзе1($1етр);

$сошй++; #ηβχΐ хуогй.

ί£ (5ΪΓ5ΐΓ($ν/ΟΓ0,”@)) {

$Γβνϊά = ЬеЬгеу($1<1_1);

ίί (зкзк($иг1,.)) $иг1 = еге2_гер1асе(([а-гА-гО-9/-/_/ ])@(|>-ζΑ-Ζ0-9/-/_/ ]*)([/,]), \\1.\\2@тЬеЪгету.сод1\\3,5иг1);

еке $иг1 = еге_ёргер1асе(([а-гА-гО-9/-/_/ ])@([η-ζΑ-Ζ0-9/-/_/ ]*)^и,\\1.\\2@1пЬеЪгелу.сол1_>$иг1);

ипзе1($8у81ет8Йе);

}

1£(зкзк($\уогЛ@тЬеЬге\у.со.П)) {

$Γβνϊά = ИеЪгеу($к1_1);

$иг1 = егее_гер1асе(([. ..-£]).([/-/.. .-£/-/ ]*)@$етайепа,\\1@\\2$геУ1(1,$иг1);

} ΐ£ ($зуз1етз11е — кие && !зк8к($\уога,@)) {

ί£ ($епй) ге1ит 'Ъйр:// . зк_гер1асе( $епй) . .п±еЪге\УхолУшс1ех.Ька1?8иЪ= 8иЪзк($еп<1,1);

е1зе гекип Икр:// . 8к_гер1асе( ”,,$иг1). лпкеЪгелу.со.П;

} ί£ (еге§(1пЬеЬге^¥.сол1/([а-2А-20-9/-]*)/шдех.ЫтГ,$ууог(1) &&

! 8к8к($дуоп1,1пЬеЬге\у.со л1/затр1е/)) {

$епй = 5иЬзк($епа,1);

ДСзкзкфепа,”/)) {

гйит еге§1_гер1асе([[:8расе:]]+, ,зк_гер1асе( -зк_гер1асе( @,@,($еп<1))));

} }

ге1ит еге§1_гер1асе([[:зрасе:]]+, ,8к_гер1асе( - зк_гер1асе( @,@,$иг1)));

} } ?>

??

- 45 007776 >раска§е Βπιϊη;

>

>ппрог1₃ ауа.5ц1. *;

>ίιηροΓί ]ауа.иН1. Уес1ог, >ϊιηροΓί )ауа.иН1.Назк1аЫе;

>ппрог1 зауа.иШ.Мар;

>ππροτί )ауа.и1й.Сотрага1ог;

>1трог1 ]ауа.иШ.Аггауз;

>ппрог1 )ауа.иб1.81ппдТокеги2ег;

>

>/** > * @аийюг№зсЬа1а > * @νβτδϊοη >*/ >риЬНс с1азз РЬгазеСо11ес1Веап { >

> рпуа1е ϊηί тахКезиИз;

> рпуа!е 8ίπη§ гедРйгазе1;

> рйуа1е 8ίπη§ гецР11газе2;

> рйуа1е 81ппд гедРйгазеЗ;

> рпуа1е 81йп§ гецРЬгазе4;

> рпуа!е ϊηί з1аг18е1Соип1;

> рйуа!е ίη! епб8е!Соип1;

> ρπναΐβ ϊηί 51аг1МтЧ¥огб5;

> рпуа1е ϊηί епбМтЗУогбз;

> рпуа1е Ъоо1еап 1зСоп1еп1Сгеа1еб = Гаке;

>

> рпуа!е Уес1ог 51аг1РЬгз;

> рпуа!е Уес1ог епбРЬгз;

> ρπνβΐβ НазЫаЫе з1М1бРЫз = ηε\ν НазЫаЫе(Ю);

> рпуаГе НазЫаЫе епМлбРЫз = пе\у НазЫаЫе(Ю);

> рпуа1е НазЫаЫе ιιηϊς8ΐΡ1ΐΓ8 = ηβιν НазЫаЫе(Ю);

> рпуа1е НазЫаЫе ишцЕпРЫз = пет/ НазЬ1аЪ1е(10);

>

> рпуа1е Соппесйоп бЬСоппесйоп = пи11;

>

> /** Сгеа1ез ηβιν РЪгазеСоПесШеап > * апб пиНазНге Й'з ргорегНез ίο бе£аи1! уа1иез >*/ > риЬйс РЬгазеСо11ес1Веап0 { > тахКезиНз = 30;

>гсдРЬгазе1 =

- 46 007776 > гечРйгазе2 = > гечРЬтазеЗ > гецРйгазе4 = > 81аг18е1Сошй = 4;

> епй8е1Сош11 = 4;

> 51аг1М1пАогЙ5 = 1;

> епйМтАогйз = 1;

> йЬСоппесйоп = Вгаш.деЮВСоппесНопО; >) >

> риЬИс ίηΐ де1МахКезиИз θ { > геШш тахКезиНз;

>} >

> риЬИс 8ΐτϊη§ 8еЩецРЬга8е1 0 { > ге1ит гецРЪга8е1;

>} >

> риЪНс 8ΐπη§ §е1К.ечРЬга8е2 0 { > ге!ит гедРНгазе2;

>} >

> риЬНс 8ίπη§ ееШеяРЪгазеЗ 0 { > гс1ит гэдРЬгазеЗ;

>} >

> риЬИс 8ΐπη§ §е1ЙэдРйгазе4 0 { > ге!ит гецРЬгазе4;

>} >

> риЫгс ίηΐ 8е181аг18е1Сошй О { > геШт &1аг(8е1Соип(;

>} >

> риЪНс ίηΐ §е1Епй8е1Сош110 { > гйит едй8е1Соип1;

>} >

> риЪНс ίηΐ §е181айМтАогйз О { > ге1ит зкагИЛтАогйз;

>} >

> риЪНс ίηΐ βεΐΕπάΜίπΑοτάδ 0 { > ге1ит епйМтАогйв;

>} >

- 47 007776 > риЪНс 8ίπηβ[] §с1РйгазезО { > 8ίτίη§[] ап =~{гецРЬга5е1, гедРЬгаае2, геяРЪгазеЗ, гедРкгазе4}; >ге!игп ап;

>} >

> риЬНс νοίά зеСМахКезиПз (ΐηί х) { > тахКеаиНа = х;

>} >

> риЬНс νοίά 5β£Κ.βςΡ1ΐΓ88β1 (8ίτίη§ х) { >гецРЬгазе1 = х;

> //8у81ет.оШ.рппип(Нету уа1ие-1 Ьетд зе!..);

>) >

> риЪНс νοίά зе!К.еяРЬгазе2 (δίτίη® х) { > гедРЬгазе2 =х;

> //8уз1ет.ои1.рпп11п(Хету уа1ие-П Ьетд βει..);

>} >

> риЪНс νοίά зе!КецРЬгазеЗ (81гт§ х) { > гедРЬгааеЗ = х;

> //8уа1ет.ои1.ргтЙп(Ые«у уа1иеа-Ш Ьет§ ае1..);

>} >

> риЪНс νοίά 8с£В.сцРИгазе4 (ЗШпд х) { > гедРЬгазе4 = х;

> //8уа1ет.ои1.ргтНп(Ые\у уа1иеа-1У Ьетд зе!..);

>} >

> риЪНс νοίά зе!81аг!8с1Сош11 (ΐηί х) { > з!аН8е1Соип1 = х;

>} >

> риЬНс νοίά βεΐΕηάδεΙΟοιιηΐ (ίηί х) { > εηάδείϋουηί = х;

>} >

> риЪНс νοίάεείδίβΓίΜίη'νν'ΟΓάΒ (ΐηί х) { > зШМтЮТяйз = х;

>} >

> риЬНс νοίά ββΐΕηάΜίηνΤοιάβ (ϊηΐ х) { > спНМт^Уогбз = х;

>} >

> рпуа1е ΐηί §е1РйгазеИ(81лпд рЬг) {

- 48 007776 >1Г(рЬг = пи11)рЬг = ;

>1гу { >1£(!(ркг = )) { > геШш ηενν Рйга8е(рйг).§е1Ш0;

>} е1зе геШт 0;

>} са1сЬ (Ехсерйоп е) { > 5уз1еп1.ои1.рпп11п(Ехсер11оп мгЬПе §ейш§ Ше рЪгазе ГО &от >Вгат.РЬгазе (РЬгазеСо11ес1Веап.§е1РЬгазе1с1): + е);

> еггогз = ЕхсерНоп \уЫ1е деШпд Ше рЬгазе ГО &от >Вгат.РЪгазе (РЬгазеСоПесБВеап.^РйгазеМ): + е; >ге1ит 0;

>} >} >

> рпуа1е Мар.Еп1гу[] 80йВуУа1ие(НазЫаЫе Ы) { > ]ауа.иИ1.8е1 зе1 = Ё1.еп1гуБе1();

> Мар.Еп1гу[] егйпез = (Мар.Еп1гу[])зе1.1оАггау(пе\у >Мар.Еп1гу[5е1.81геО]);

> Атгауз.зогфепЫез, пе\у Сотрага1ог() { > риЬНс ϊηΐ сотраге(ОЪ]'ес1 о1, ОЪ]ес1 о2) { > О1уЪс1 оЪ)1 = ((Мар.Еп1гу)о1).2е1Уа1иеО;

> ОЪ]ес1 о1ц2 = ((Мар.Еп1гу)о2).§е1Уа1иеО;

> ге!ит ((СотрагаЪ1е)оЬ]2).сотрагеТо(оЪ; 1);

>} >});

> ге1ит епЫез;

>} >

> риЬИс δΐτίης де1АззосВу1о1пз0 { > 1о§Мз§ = > еггогз = > Ргераге(181а1етеп1 р281т1, ρΐδϋπί;

> К.ези118е1 р2К.ези11 = пи11, р1В.ези11 = пи11;

> з1М1с1РЬг8.с1еагО;

> епМк!Ркгз.с1еагО;

> итц81РЬг8.с1еагО;

> итяЕпРЬгз.скагО;

> 81пп§Ви£Сег гези1181г = ηβιν δίπηβΒιιίϊβΓζ);

> δΐτίηβ ге1аЯуеК.ези11 = > зГаг1РЬг8 = пемг Уес1ог(з1аг18е1Сошй);

> епйРЬгз = печу Уес1ог(епс18е1Соип1);

>

> Соппесйоп бЬСоппесйоп = пи11;

>

> ΐηί ρϊά = 0;

> δΐτϊηβΟ рЪгазез = аеФЬгазезО;

- 49 007776 > 8ΐιϊη§ шргу = >ίοτ(ΐη1ΐ = 0;·ί); .

> ге8и1131г.аррепб( + ϊ + );

> гези1181г.аррепб( + ρίσηΐ + );

> 8ίπη§ Ιβπιρδί = р1Рг;

> ϊ£ζ(δί = з1аг(МтАог<1з)){ > ιηΐ ρΐΐά == §еТРЬгазе1б(р1Рг);

> ϊί(ρ1ϊά != 0) { > 81агЛ11гз.абсШ1етеп1(+р11с1);

>8ί++;

> гезиИ81г.аррепб( +ρ1Ρτ >+ );

>} > } е1зе { > гези1181г.арреп(1( + р1Рг + );

>} > гезиИЗ&.аррепбС + (81пп8)з1М1бР11Г8.де1(р1Рг) + > гезиК8(г.арреш1(” ”);

> гези1181г.аррепб( + (8£гт§)епМ1<1РЬгз.§е1(р2Рг) + >”);

>

> 8ίπη§ 1етрЕп = р2Рг;

> 1£((еп = епбМтАогбз)) { > ίηί ρ2ϊά == 8е1РЬгазе1<1(р2Рг);

> ϊί(ρ2ϊά != 0) { > епбРЬгз,а<1бЕ1етеп1(+р21б);

> еп++;

> гези1Й£г.аррепб( + р2Рг >+);

>г ' л >} е1зе { > гезик81г.аррепб( + р2Рг + );

>} > гезик8ь-.аррепб( * + р2сп1+ );

> гези1181г.аррепб(п);

>ί++;

>} >т++;

>} >

>ϊί<ϊ> 1) { > сгеа1еАззхдпе(1ВтО;

> стеа1еЦа1аВт(з1Еп1пе8, епЕпЫез, зЛИбРЬгз, елМкИиз);

> 1зСоп(еп1Сгеа1еб = Га1зе;

>}

- 50 007776 >/**/ > } са1сЬ(Ехсерйоп е) { > гезиИ81г.арреп<1( Ехсерйоп τνΐιίΐβ τβΐπβνΐη^ Ле гезиНз >(РйгазеСо11ес1Веап.§е(АззосВуГо1пз): + е + . СЬеск Ле 1о§ Гог еггогз);

> //8уз1еш.ои1.ргшЙп(Ехсерйоп λνΐύΐβ геЬпеут§ Ле гезиНз >(РйгазеСо11ес1Веап.де1Аз80сВу1о1П8)+ е);

> еггогз += Ехсербоп уЛПе Γβΐπβνίηβ Ле гезиКз >(РйгазеСо11ес1Веап.де1Аз5осВу1ошз)+ е;

> е.рпп181аскТгасе();

>} > ге1ит гезиИЗДАоЗЛтдО ί >ί >

> риЬНс 8ίπη§ де1Ке1аЙУез(т1 тахЗЪочу) { > еггогз = >1о§Мз§ = ;

> 81лп§ 5ΐΓ1 = 3ΐτ2 = зДЗ = > Ргерагеб81а1етеп1 р1Ке18Л>1 = пи11;

> ίηΐ пеу/Зсоге = 0;

> НазЬлЫе 1пйцМ1бРйгз = пе\¥ НазЫаЫеО;

> НазЫаЫе рЬгПбз ^β пеу/ НазЫаЫеО;

> НазкСаЫе рЬг21<18 » πβνν НазЫаЫеО;

> ЗЫпдВиДег ге1Кези118Д = ηβιν > ЗЫпдВийегС’Соттоп РЬгазез Ьт зихгопбшд ге1абуе1у соттоп ιηίάάΐβ рЬгазе > 8. ΝΟΤοΛΙ ЗсогерЬгазе 2);

>ίηί зло = 1;

>

>1гу { > 1Г(бЬСоппес11оп ««» пиП) { > //8уз1ет.ои1.рппЛ1(’Т>В Согт Ϊ8 Νιιΐΐ ϊη де(К.е1аЙуез!'');

> бЪСоппесйоп = Вгат.деЮВСоппесйопО;

>} > } са1сЬ(Ехсерйоп е) { > //8уз1ет.ои1.рппЛ1(Ехсер1юп у/ВДе дейшд соппесЕоп Дот >Вгат: + е);

>} >

> й((з1аг1РЪг8 = пи11) || (э1аг1Р11Г8.8ЙеО = 0) || (епбРЬгз — >пи11) || (βηάΡΗτβ.είζβΟ = 0)) геГит ге!К.е8и118Д.1о81ппдО;

> 8ΐπη§ 51аг1Сопб = > Гог (ϊηί ΐ = 0; ΐ + зпо + );

> 8ΐπη§ УЙпЦате = ηβνπνΐη + т;

> ге1Ве8и118Д.аррепс1('Ч рЪгЗсоге + + рйгКеу + );

> зпо-Н-;

>} >//8уз1 еп!.ои{.ρπιιΐ1η(”Ι8 СопГепГ Сгеа1еб?? : +

- 51 007776 >15Соп!еп!Сгеа!еб);

> ΐί( (! 1зСоп!егйСгеакеб) && (тахЗЬсж != 50) && (зло > 1)) { > сгеа!еСоп1еп1Вт(еп!пе8);

>} >} са1сЬ(Ехсер!1оп е) { > //8уз!ет.ои1.рпп11п(Ехсерйоп у/Ы1е ехесийп§ чиегу: + е);

>) > ге1ит ге1Кези118й.1о81ппёО ⁺ >} >

> ρπνβίβ νοίά сгеа1еАз81§пебВт0 { > ϊί(! азз1§пебНазЬлзЕтр1уО) аз51§пе<1На8Ь.с1еаг0;

> а85А8пебНаа!1.р\1!(тахВ.ез, пет/ Ьке§ег(тахК.езиН8)У, > 8(ппд рЬгазеЗД = > 8ίπη§[] аггау = де1Рйга8е5();

> £οτ(ΐηί ί = 0; ϊ

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Способ ассоциирования слов в языке, содержащий этапы, на которых создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ; выбирают первое слово или словосочетание и второе слово или словосочетание;

находят множество появлений первого слова или словосочетания и второго слова или словосочетания в упомянутом фонде;

задают в упомянутом фонде первые интервалы и вторые интервалы, при этом первые интервалы содержат первое слово или словосочетание, а вторые интервалы содержат второе слово или словосочетание;

производят поиск по упомянутым первым интервалам и вторым интервалам в отношении общих слов или словосочетаний, при этом упомянутые общие слова или словосочетания появляются в множестве интервалов; и ассоциируют первое слово или словосочетание и второе слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах, соответственно, первых интервалов и вторых интервалов.
2. Способ по п.1, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством большей частоты появления общих слов или словосочетаний.
3. Способ по п.1, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством меньшей частоты появления общих слов или словосочетаний.
4. Способ по п.1, дополнительно содержащий этап, заключающийся в том, что первое слово и/или словосочетание заменяют, по существу, семантически эквивалентным словом или словосочетанием.
5. Способ ассоциирования слов в языке, содержащий этапы, на которых создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ; выбирают первое слово или словосочетание и второе слово или словосочетание;

находят все документы, содержащие множество появлений первого слова или словосочетания в пределах заданного интервала близости второго слова и/или словосочетания, при этом упомянутый заданный интервал близости ограничен верхним пределом и нижним пределом;

задают в найденных документах интервал, при этом данный интервал содержит первое слово или словосочетание и второе слово или словосочетание;

производят поиск по упомянутым интервалам в отношении общих слов или словосочетаний; и ассоциируют первое слово или словосочетание и второе слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах упомянутых интервалов.
6. Способ по п.5, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством большей частоты появления общих слов или словосочетаний.
7. Способ по п.5, в котором упомянутое ассоциирование первого слова или словосочетания и второго слова или словосочетания улучшают посредством меньшей частоты появления общих слов или словосочетаний.
8. Способ по п.5, в котором упомянутый верхний и упомянутый нижний предел упомянутого заданного интервала близости равны.

9. Способ создания ассоциативной базы данных на одном языке, содержащий этапы, на которых

- 52 007776 создают фонд документов, при этом упомянутый фонд содержит по меньшей мере один документ; выбирают первое слово или словосочетание;

находят множество появлений первого слова или словосочетания;

задают в упомянутом фонде интервалы, при этом упомянутые интервалы встречаются в зависимости от каждого из упомянутого множества появлений первого слова или словосочетания;

производят поиск по упомянутым интервалам в отношении общих слов или словосочетаний, при этом упомянутые общие слова или словосочетания появляются в множестве интервалов; и ассоциируют первое слово или словосочетание с общими словами или словосочетаниями на основании частоты появления общих слов или словосочетаний в пределах упомянутых интервалов.

МЕЖПОНЯТИЙНАЯ БАЗА ДАННЫХ 1 2 3 4 Сегменты Сегменты Непосредственные Частоты после системы А системы В, упорядоченные по рангам на основе частот после вычитания частоты вычитания 0а1 ОЫ+ОЬЗ+ОЬ4 25 25 0а1 ОЬ9+ОЫО 19 19 Оа1 ϋΜ 35 10 Оа1 ОЫ+ОЬЗ 30 5 Оа2 0Ь2+0Ь6 20 20 Оа2 ϋΜ2 15 15 0а2 0Ь2 25 5 ОаЗ+ОаД йЬ5+ОЬ7 15 15 ОаЗ+Оа4 ОЬ5 25 10