EA003619B1

EA003619B1 - Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков

Info

Publication number: EA003619B1
Application number: EA200001013A
Authority: EA
Inventors: Уильям Петерман
Original assignee: Уильям Петерман
Priority date: 1998-04-01
Filing date: 1999-03-26
Publication date: 2003-08-28
Also published as: AU3366799A; WO1999050763A1; KR100627195B1; JP2002510089A; KR20010034738A; IL138806A0; EP1073972A4; CN1157673C; EP1073972A1; EA200001013A1; US6480838B1; CN1300400A; AU770515B2; HK1038087A1; ID29592A; CA2326901A1; BR9909337A

Abstract

Осуществляется обработка поисковых запросов для корректировки знаков или цепочки знаков, ошибочно считанных во время сканирования с использованием ОРЗ. После ввода алфавитно-цифрового поискового запроса (50) система определяет вариантные слова, связанные с введением алфавитно-цифрового поискового запроса, в соответствии с предварительно определенной таблицей возможных ошибок ОРЗ, вероятностью появления ошибок ОРЗ и предварительно определенным пороговым значением вероятности их появлений (52). После завершения обработки средство поиска использует указанные вариантные слова для поиска в базе данных, содержащей отсканированные с использованием ОРЗ документы (54).

Description

Изобретение относится к способам, устройствам и компьютерным изделиям для поиска в компьютерных базах данных и, в частности, для поиска документов, созданных с использованием способов оптического распознавания знаков.

Предшествующий уровень техники

Большой объем информации, на которой базируется бизнес и деятельность правительственных учреждений, хранится на бумажном носителе. С появлением легко доступных глобальных сетей, высокоскоростных оптических сканеров и запоминающих устройств большой емкости на микросхемах в последние годы предприняты попытки сделать информацию на бумажных носителях доступной для компьютера.

Доступная для компьютера информация имеет множество преимуществ по сравнению с бумажными носителями. Электронное хранение данных гораздо дешевле, чем шкалы для хранения документов в хранилищах, особенно если учесть арендную плату. Время поиска измеряется секундами или десятками секунд, а не минутами, часами или даже днями, в частности, для информации в крупных архивах. Копирование информации представляет собой тривиальную задачу, и к одному документу может одновременно обращаться множество людей. К сожалению, задача преобразования большого объема информации, существующей на бумаге, в машиночитаемую форму, доступную компьютеру, пугает своей сложностью.

При одном способе каждый документ сканируется с использованием оптического сканера и после сканирования автоматически обрабатывается. Оптический сканер создает электронное изображение документа. Программные средства оптического распознавания знаков (ОРЗ) обрабатывают электронные изображения и создают электронный текстовый файл, представляющий данный документ. Программные средства «индексации» считывают каждый текстовый файл и создают индекс для всех документов. Затем поисковая программа может использовать этот индекс для определения местоположения документов, содержащих заданное слово или комбинацию слов. Процесс индексации и поиска документов определяется как индексация и поиск по всему тексту.

Индекс и поиск по всему тексту имеют два ценных качества. Процесс полностью автоматизирован (и, следовательно, относительно дешевле) и непосредственно базируется на действительном содержании отсканированного документа. Высокопроизводительные поисковые системы воспринимают контекст, что позволяет определять местоположение документов, содержащих родственные слова, в ситуациях, когда пользователь задает тему документа, а не его точную фразировку. Поисковые средства по сети Интернет используют средства поиска по всему тексту для поиска миллионов электронных документов.

Иногда поисковые средства не в состоянии определить местоположение документов, которые были созданы с использованием сканеров и программных средств ОРЗ. Это вызвано наличием огромного количества ошибок в крупных базах данных, построенных на основе отсканированных документов. Крупная база данных может содержать более миллиона документов и десятки миллионов страниц. Для поиска документа пользователь должен задать комбинацию слов, возможно три или более, что либо приводит к нахождению единственного документа, либо, по меньшей мере, ограничивает список результатов поиска до приемлемого размера. Если искомый запрос документа содержит ошибки в ключевых словах, используемых для его поиска, поисковое средство не найдет этот документ. Программы ОРЗ часто делают несколько ошибок на страницу. Примером подобной ошибки может служить ошибка в букве, например, «I» в верхнем регистре неправильно представляется, как похожая на нее буква, например, «1» (эль) в нижнем регистре.

Одним из решений проблемы является так называемый «размытый поиск». Размытый поиск основан на концепции, заключающейся в том, что слова, содержащие ошибки, структурно подобны правильной версии данного слова. Например, слова «т1егие!» и «т!ете!» структурно подобны. Первое слово может быть преобразовано во второе удалением одной буквы и замещением «т» на другую. Если требуется достаточно мало изменений, то сообщается о совпадении. Такой подход связан с большими вычислительными затратами, поскольку во время поиска каждое уникальное слово в базе данных индивидуально сравнивается с ключевым словом для определения того, есть ли совпадение. Поскольку ошибки при ОРЗ часто порождают «уникальные слова», в базе данных, содержащей индекс по всему тексту для крупного архива, может находиться более миллиона уникальных слов, которые надо сравнить с каждым ключевым словом. Для подобного поиска даже при наличии быстродействующего сервера нужно время.

В добавление к этим затратам времени размытый поиск может привести к большому объему совпадений при поиске. В крупной базе данных большое количество поисков приводит к тысячам совпадений. Так слово «1и1егие!» похоже на «шбте!», но также на «ш!ет», «иибегпе1» и даже на «т1ета!юиа1». Поиск слова «Ьоа!» может привести к совпадению со словом «соа!», даже если маловероятно, что программа может перепутать букву «Ь» с буквой «с».

Желательно иметь механизм, который позволял бы средству поиска точно определять местоположение электронных документов, которые были созданы с использованием программных средств ОРЗ. Предпочтительно, чтобы указанный механизм позволял распознавать ошибки, которые обычно возникают при работе программных средств ОРЗ, и учитывать ошибки, имеющие наиболее высокую вероятность появления. Кроме того, предпочтительный механизм должен минимизировать объем обработки, связанной с запросом на поиск со стороны пользователя, для уменьшения времени каждого поиска.

Сущность изобретения

Согласно данному изобретению предлагается способ и компьютерное изделие для обработки поискового запроса, для того чтобы скорректировать знаки и цепочки знаков, неправильно интерпретируемые во время выполнения сканирования с оптическим распознаванием знаков (ОРЗ). После получения алфавитноцифрового поискового запроса механизм согласно изобретению определяет вариантные слова, связанные с получением алфавитноцифровым поисковым запросом, в соответствии с предварительно определенной таблицей возможных замещений ОРЗ, вероятностью появления замещения ОРЗ и предварительно определенного порогового значения вероятности появлений замещения. Затем в базе данных с отсканированными с использованием ОРЗ документами выполняется поиск вариантных слов.

Согласно другим аспектам изобретения вариантные слова определяются посредством определения сегментов слов, которые представляют интерпретации ОРЗ для частей поискового запроса. Определяется интегральная вероятность для каждого сегмента слова и, если интегральная вероятность сегмента слова ниже предварительно определенного порогового значения, то данный сегмент слова отвергается в качестве вариантного слова.

Согласно еще одним аспектам изобретения создается древовидная структура данных, имеющая узлы ветвления и узлы замещения. Каждый узел ветвления представляет возможное очертание знака во время обработки, связанной с ОРЗ. Каждый узел замещения представляет возможное замещение ОРЗ для знака, соответствующего родительскому узлу ветвления. Узлы замещения на пути от корневого узла к концевому узлу образуют вариантное слово. Интегральная вероятность для узла замещения определяется умножением вероятности появления для этого узла на интегральную вероятность появления для узла замещения - «деда» этого узла.

Как очевидно из вышеизложенного, изобретение обеспечивает новый и усовершенствованный способ, устройство и компьютерное изделие для поиска по словам электронных документов, созданных с использованием оптического распознавания знаков. Изобретение со кращает количество документов, теряемых во время поиска из-за ошибки ОРЗ, когда документы первоначально преобразуются в электронную форму. Изобретение также уменьшает затраты времени, необходимые для выполнения поиска, путем минимизации объема обработки, выполняемой после получения поискового запроса. И, наконец, поскольку вариантные слова, сконструированные подобным образом, редко являются правильными на естественном языке базы данных, количество ложных совпадений при поиске резко уменьшается.

Краткое описание чертежей

Вышеуказанные аспекты и множество сопутствующих преимуществ настоящего изобретения станут более очевидными из последующего подробного описания вместе с сопроводительными чертежами, на которых фиг. 1 - некоторые базовые компоненты компьютерной системы, предназначенные для реализации настоящего изобретения;

фиг. 2 - блок-схема, иллюстрирующая процесс создания статистической таблицы оптического распознавания знаков (ОРЗ), используемой при реализации настоящего изобретения;

фиг. 3 и 4 - блок-схемы, иллюстрирующие процесс поиска в базе данных, состоящей из документов, которые были отсканированы с использованием ОРЗ, согласно настоящему изобретению;

фиг. 5 - пример узловой диаграммы, иллюстрирующей предварительную обработку, выполняемую согласно настоящему изобретению;

фиг. 6 - схема взаимосвязей, иллюстрирующая взаимосвязь информации согласно примеру поиска на фиг. 5, которая хранится в статистической таблице, созданной так, как показано на фиг. 2.

Подробное описание предпочтительного варианта изобретения

На фиг. 1 представлены элементы системы 20 текстового поиска, построенной согласно изобретению. В частности, система 20 текстового поиска включает память 22 с предварительно запомненной статистической таблицей 23, препроцессор 24, подсоединенный к памяти 22, пользовательский интерфейс 26 для ввода поисковых запросов в препроцессор 24, средство поиска 28 для получения поисковых запросов от препроцессора 24 и базу данных 30, которая содержит предварительно запомненные документы, поиск которых осуществляется средством поиска 28. Система 20 также может включать сканер 32, выполняющий оптическое сканирование документов, и программу 34 оптического распознавания знаков (ОРЗ), которая обрабатывает изображения, созданные сканером 32, для построения текстовых файлов, помещаемых в базу данных 30. Интерфейс 26 включает устройства ввода пользователя, такие как клавиатура и мышь, и устройство вывода, на пример, устройство отображения или принтер. В данном примере препроцессор 24 и средство поиска 28 расположены в хост-компьютере 21. Однако, как очевидно специалистам в данной области техники, препроцессор 24 и средство поиска 28 могут быть удалены друг от друга. Например, препроцессор 24 может находиться в хост-компьютере клиента, а средство поиска 28 может быть расположено в компьютерной системе сервера и соединено с препроцессором 24 через сеть передачи данных общего пользования или частную сеть передачи данных. В другой альтернативной конфигурации пользовательский интерфейс 26 может быть соединен с компьютером клиента, находящимся на связи с хост-компьютером 21 через компьютерную сеть, к примеру, интернет или локальную сеть. Кроме того, база данных 30 может размещаться в хост-компьютере 21 или в отдельном компьютере, находящемся на связи с хост-компьютером 21 либо непосредственно, либо через компьютерную сеть.

Перед началом работы собственно системы 20 текстового поиска создается статистическая таблица 23. Как показано на фиг. 2, в блоке 40 для каждого знака и цепочки знаков определяются потенциальные альтернативы (ошибки), порождаемые при ОРЗ, а также вероятность каждой альтернативы. Создание списка возможных альтернатив и вероятностей их появления может быть выполнено экспериментально несколькими путями. Например, распечатывается ряд документов, созданных системой поиска по словам. Затем распечатанные документы сканируются сканером 32 и обрабатываются программой ОРЗ 34. Затем отсканированные с использованием ОРЗ документы сравниваются с документами, созданными путем обработки подлинных слов. Определяются отличия и вероятности их появления. Предпочтительно, чтобы способы ОРЗ, используемые для создания статистической таблицы, были аналогичны способам ОРЗ, используемым для внесения документов в базу данных.

В блоке 42 создается таблица, включающая все знаки и комбинации знаков, которые были определены для создания альтернативы вместе с соответствующими вероятностями их появления. На фиг. 6 показан предпочтительный вариант статистической таблицы 23, который подробно обсуждается ниже.

После создания статистической таблицы 23 система 20 текстового поиска готова выполнять эффективные поиски в базе данных 30, включающей документы, которые были внесены в эту базу данных с использованием способов ОРЗ. Как показано на фиг. 3, в блоке 50 препроцессор 24 получает поисковый запрос. Предпочтительно, чтобы поисковый запрос вводился пользователем, взаимодействующим с пользовательским интерфейсом 26, а затем направлялся в препроцессор 24. Далее, в блоке 52 препроцессор 24 определяет вариантные искомые слова, связанные с запрашиваемым поиском, в соответствии со статистической таблицей и предварительно определенным пороговым значением вероятности появления. Процесс такого определения показан на фиг. 4 и более подробно описан ниже. Наконец, в блоке 54 средство поиска 28 производит поиск в базе данных 30 в соответствии с определенными вариантными искомыми словами. Затем результаты поиска посылаются в пользовательский интерфейс 26 для их просмотра пользователем.

На фиг. 4 показан способ обработки 70, заключающийся в определении вариантных слов замещений, связанных с запрашиваемым поиском. В способе обработки 70 строится набор узлов, которые связываются в древовидную структуру. Прежде чем обсудить способ обработки 70, заключающийся в определении вариантных слов - замещений, предлагаются пояснения к статистической таблице 23 (фиг. 1). На фиг. 6 показан пример статистической таблицы 23, которая включает данные, относящиеся к статистической вероятности определенных ошибок во время обработки, связанной с ОРЗ.

Как показано на фиг. 6, в одном из реальных вариантов осуществления изобретения статистическая таблица 23 включает таблицу ветвлений 200 и таблицу замещений 202. Таблица ветвлений 200 содержит набор записей 204, 206, 208 и 210, причем каждая запись представляет знак или комбинацию знаков. Эти записи представляют знаки и комбинации знаков, которые могут составить электронное изображение, обрабатываемое программой ОРЗ 34 (фиг. 1). В частности, записи таблицы ветвлений представляют знаки или комбинации знаков, которые программа ОРЗ 34 может воспринять как один знак во время обработки, связанной с ОРЗ. На фиг. 6 изображено лишь небольшое количество таких записей для иллюстрации способа обработки 70 (фиг. 4), заключающегося в определении вариантных слов - замещений. Реальная статическая таблица 23 включает гораздо больше записей и, в частности, по меньшей мере, одну запись, соответствующую каждой букве алфавита. Предпочтительно, чтобы записи 204, 206, 208, 210 в таблице ветвлений были организованы в структуру, позволяющую осуществлять быстрый просмотр, к примеру, кэштаблицу. Кэш-таблицы хорошо известны специалистам в области компьютерного программирования, и они обсуждаются здесь только тогда, когда это необходимо для описания изобретения.

Каждая запись в таблице ветвлений 204, 206, 208, 210 имеет указатель на соответствующую запись таблицы замещений 212, 214, 216, 218 в таблице замещений 202. Запись таблицы замещений 212, 214, 216, 218 содержит набор вариантных записей ОРЗ, представляющих возможную интерпретацию при ОРЗ комбинации знаков, представленной соответствующей записью из таблицы ветвлений. Например, как показано на фиг. 6, запись 204 из таблицы ветвлений представляет одну букву «С». Запись 204 «С» в таблице ветвлений соответствует и указывает на запись 212 в таблице замещений. Запись 212 в таблице замещений включает три вариантные записи 220, 222 и 224. Вариантная запись 220 содержит букву «С» и представляет информацию о том, что программа ОРЗ 34 (фиг. 1) может интерпретировать букву «С» как «С». В этом случае интерпретация будет правильной. Вариантная запись 220, показанная на фиг. 6, включает значение вероятности 226 (0,95), указывающее, что программа ОРЗ 34 интерпретирует букву «С» как «С» с вероятностью 95%. Следующая вариантная запись 222 содержит знак «6» и значение вероятности 228, равное 0,03. Это указывает на то, что программа ОРЗ 34 будет интерпретировать «С» как «6» с вероятностью 3%.

Запись в таблице замещений 212 содержит также вариантную запись 224, обозначающую «никакой» и значение вероятности 230, равное 0,01. Эта запись представляет информацию о том, что программа ОРЗ 34 будет пропускать знак «С», либо считать, что знака нет. Хотя запись 21 в таблице замещений, показанная на фиг. 6, включает только три вариантных знака 220, 222, 224, реальная запись в таблице замещений, соответствующая таблице ветвлений 204 и представляющая букву «С», может содержать больше записей. Указанные значения вероятностей не являются действительными значениями вероятностей, а используются для того, чтобы сделать пример более понятным. Специалистам в области ОРЗ понятно, что в других условиях, к примеру, при других способах ОРЗ и типах документов, в таблице 23 окажутся несколько другие значения вероятностей. Предпочтительно, чтобы каждая запись в таблице замещений содержала в себе вариантные записи, соответствующие замещениям с вероятностью выше предварительно определенного порогового значения. Для минимизации размера таблицы можно задать, что каждая запись в таблице замещений содержит запись, соответствующую замещению с вероятностью выше предварительно определенного порогового значения, причем эта вероятность должна быть намного меньше минимального порогового значения, которое используется в запросах, поступающих из интерфейса пользователя 26 в препроцессор 24.

Аналогично запись 206 в таблице ветвлений, представляющая букву «I», соответствует и указывает на запись 214 в таблице замещений. В этой записи таблицы замещений показаны четыре вариантные записи 232, 234, 236 и 238, представляющие возможные замещения «I», «1» (эль), «1» (один) и «никакой» соответственно. Каждая из вариантных записей 232, 234, 236 и

238 включает соответствующие значения вероятностей 240, 242, 244 и 246.

Запись 208 в таблице ветвлений представляет комбинацию знаков «ΙΝ». Программа ОРЗ 34 может интерпретировать комбинацию знаков с ошибками, имеющими статистическую вероятность появления. Например, как показано на фиг. 6, запись 208 в таблице ветвлений соответствует и указывает на запись 216 в таблице замещений, содержащую возможные интерпретации комбинации знаков «ΓΝ». Как показано на фиг. 6, запись 216 в таблице замещений содержит две вариантные записи 248 и 250, представляющие замещения «М» и «никакой». В целях иллюстрации значения вероятностей 254 и 256, соответствующие вариантным записям 248 и 250, выбраны равными соответственно 0,05 и 0,003. Запись 216 в таблице замещений может также включать вариантную запись, представляющую возможную замену «ΓΝ», которая указывает на то, что программа ОРЗ может интерпретировать комбинацию знаков «ΓΝ» как правильную комбинацию, то есть, «ΓΝ». Однако нахождение вариантного искомого слова с использованием этой записи дублирует аналогичное искомое слово, которое может быть найдено, следуя записям в таблице ветвлений, соответствующим «I» и «Ν». Следовательно, запись для «ΓΝ» в записи 216 таблицы замещений предпочтительно можно исключить, если статистические отличия от вероятностей, предсказываемых значениями для «I» и «Ν», не потребуют оставить ее на месте. Если запись оставляется, то запись узла ветвления (описанная ниже) для «ΓΝ» заменит при обработке поискового запроса записи узлов ветвлений для «I» и «Ν».

Запись 210 в таблице ветвлений на фиг. 6 представляет знак «8» и указывает на запись 218 в таблице замещений. Запись 218 таблицы замещений имеет записи, соответствующие замещениям ОРЗ «8», «5» и «никакой».

Записи в таблице замещений могут быть оптимизированы, чтобы исключить вариантные записи 224, 250 и 262, соответствующие отсутствию знака. Вместо этого программа ОРЗ 34 может содержать команду, которая «знает» о нулевом замещении, соответствующем каждой записи в таблице ветвлений. При такой оптимизации может быть использовано фиксированное значение вероятности, соответствующей нулевому замещению.

На фиг. 5 показан пример дерева решений 110, которое создается препроцессором 24 в ходе способа обработки 70, заключающегося в определении вариантных слов - замещений, связанных с запрашиваемым искомым словом. Дерево решений 110 представляет маршруты, по которым может следовать программа ОРЗ 34 во время интерпретации и преобразования изображения слова для создания эквивалентного текста. Каждый узел ветвления представляет возможное очертание следующего знака во введен ном изображении. Поскольку программа ОРЗ может воспринимать два или более знаков как один знак, узел ветвления может представлять один или более знаков. Каждый узел замещения представляет возможную интерпретацию введенного знака или знаков, представленных узлом ветвления - «родителем» узла замещения. Для иллюстрации способа обработки 70 предположим, что запрашиваемым при поиске словом является «8ΙΝ6». Препроцессор 24 выполняет способ обработки 70 создания дерева решений 110 для того, чтобы определить возможные варианты искомого слова, которые имеют вероятность появления, превышающую расчетную, предварительно определенную пороговую вероятность.

Дерево решений 110 имеет корневой узел 120, который служит корнем данного дерева. Корневой узел - это особый узел замещения, который имеет вероятность, равную 1,0. Ниже корневого узла 120 находятся чередующиеся уровни узлов, включающие уровень узлов ветвления, за которым следует уровень узлов замещения, за которым, в свою очередь, следует еще один уровень узлов ветвления и еще один уровень узлов замещения. Дерево решений 110 содержит столько уровней узлов, сколько это необходимо для завершения способа обработки 70 определения вариантных слов - замещений. Считается, что корневой узел 120 является нулевым уровнем дерева решений 110.

Узлы ветвления, находящиеся на каждом уровне узлов ветвления, представляют знаки или комбинации знаков, введенных в программу ОРЗ 34 (фиг. 1) в виде изображений. Каждый узел ветвления соответствует записи таблицы ветвлений 204, 206, 208 или 210 в таблице ветвлений 200 (фиг. 6). Узлы замещения, находящиеся на каждом уровне узлов замещения, представляют знаки или комбинации знаков, созданные программой ОРЗ 34 в результате интерпретации соответствующего узла ветвления. Каждый узел замещения соответствует вариантной записи в таблице замещений 202. Каждый дочерний узел узла ветвления соответствует вариантной записи в записи таблицы замещений, указанной записью таблицы ветвлений, которая соответствует данному узлу ветвления.

Например, на первом узле уровня 112 узлов ветвления корневой узел 120 имеет четыре дочерних узла ветвления: узел ветвления «8» 122, узел ветвления «8Ι», узел ветвления «8ΙΝ» 126 и узел ветвления «8ΙΝ6» 128, представляющие введенные знаки «8», «8Ι», «8ΙΝ» и «8ΙΝΟ» соответственно. Это указывает на то, что программа ОРЗ 34 может распознать любую одну из указанных комбинаций знаков в качестве первого знака слова «8ΙΝ6».

Как показано на фиг. 5, узел ветвления 122 имеет три дочерних узла: узел замещения «8» 130, узел замещения «5» (пять) 132, и узел нулевого замещения 134. Эти узлы замещений пред ставляют информацию о том, что программа ОРЗ 34 может интерпретировать знак «8» в «8ΙΝ6» как «8», «5», либо как отсутствие знака соответственно. Как более подробно обсуждается ниже, узел замещения «8» 130, узел замещения «5» (пять) 132 и узел нулевого замещения 134 берутся из записи 218 в таблице замещений (фиг. 6), которая соответствует записи таблицы ветвлений 210 в статистической таблице 23.

Каждый из узлов замещения 130, 132, 134 на первом уровне 113 узлов замещения имеет ноль или более дочерних узлов ветвления. Каждый из узлов ветвления на втором уровне 114 узлов ветвления представляет следующий знак или комбинацию знаков, которые воспринимаются программой ОРЗ 34 после обработки предыдущего знака или комбинации знаков, где предыдущий знак или комбинация знаков представлена в виде узла - «деда» нового узла ветвления. Например, как показано на фиг. 5, после обработки знака «8», представленного узлом ветвления «8» 122, и интерпретации «8» как знака «8», представленного узлом замещения «8» 130, следующим знаком или комбинацией знаков, подлежащих обработке, является «Ι», «ΙΝ» и «ΙΝΟ», представленные узлом ветвления «Ι» 135, узлом ветвления «ΙΝ» 136 и узлом ветвления «ΙΝΟ» 138 соответственно.

Аналогично, после обработки знака «8», представленного узлом ветвления «8» 122, и интерпретации «8» как «5» представленного узлом замещения «5» (пять) 132 следующим знаком или комбинацией знаков, обрабатываемой программой ОРЗ 34, является «Ι», «ΙΝ» или «ΙΝΟ», представленные узлом ветвления «Ι» 140, узлом ветвления «ΙΝ» 142 и узлом ветвления «ΙΝΟ» 144 соответственно. Заметим, что узлы ветвления 140, 142 и 144 аналогичны узлам ветвления 135, 136 и 138 соответственно, поскольку оба набора узлов ветвления представляют следующий знак или комбинации знаков, которые обрабатываются программой ОРЗ 34 после обработки комбинации знаков, представленной узлом ветвления - «дедом» 122.

Узлы замещения на втором уровне 115 узлов замещения представляют возможным замещения для родительских узлов ветвления на втором уровне 114 узлов ветвления. Каждый из узлов замещения образуется путем просмотра его родительского узла ветвления на уровне 114 узлов ветвления в таблице ветвлений 200 статистической таблицы 23, как показано на фиг. 6. Например, узел замещения «Ι» 146, узел замещения «1» (эль) 148, узел замещения «1» (один) 149 и узел нулевого замещения 150, представляющие возможные замещения «Ι», «1» (эль), «1» (один) и «никакой соответственно, являются дочерними узлами узла ветвления «Ι» 134. Эти узлы замещения соответствуют записи 214 таблицы замещений, которая изображена на фиг. 6 и соответствует записи 206 таблиц ветвлений.

Каждый узел замещения имеет соответствующее значение вероятности, которое представляет вероятность выполнения соответствующего замещения и всех замещений, представленных узлами замещения - «предшественниками» данного узла замещения в дереве решений в ходе процесса ОРЗ. Значение вероятности для любого узла замещения включает в себя вероятности для узлов замещения его «предшественников».

Интегральная вероятность, соответствующая узлу замещения, вычисляется путем умножения значения вероятности в соответствующей вариантной записи в таблице замещений, на интегральную вероятность узла замещения «деда» данного узла замещения. Например, узел замещения «I» 146 соответствует вариантной записи 232 (фиг. 6), имеющей значение вероятности 240, равное 0,92. Затем значение 0,92 умножается на интегральную вероятность узла замещения 130 «8» - «деда», которая равна 0,98. Следовательно, интегральная вероятность для узла замещения «I» 146 равна 0,92 х 0,98, то есть составляет 0,9016. Аналогично, интегральная вероятность, соответствующая узлу замещения «1» (эль) 148б равна 0,02 х 0,98, то есть, составляет 00196.

Как обсуждалось выше, дерево решений 110, изображенное на фиг. 5, приведено в качестве примера в целях иллюстрации. При реальном воплощении изобретения некоторые из узлов, показанных на фиг. 5, можно не создавать либо можно создать дополнительные узлы. В предпочтительном варианте осуществления изобретения узлы в дереве замещений 110 создаются только тогда, когда маршрут, идущий к ним от корневого узла 120, представляет интегральную замену с вероятностью, превышающей заданное пороговое значение вероятности.

Для обсуждения способа обработки 70 заключающегося в определении вариантных слов - замещений, связанных с запрашиваемым поиском, вновь обратимся к фиг. 4 и рассмотрим ее вместе с деревом решений 110, показанным в качестве примера на фиг. 5, и соответствующей статистической таблицей 23, показанной в качестве примера на фиг. 6. Способ обработки 70, заключающийся в определении вариантных слов-замещений, включает создание дерева решений, такого как дерево решений 110 на фиг.

5. В ходе способа обработки 70 препроцессор 24 поддерживает данные, которые определяются как «текущий узел».

В блоке 71 препроцессор 24 создает корневой узел 120 и устанавливает этот корневой узел в качестве текущего узла. На шаге 72 препроцессор создает дочерние узлы ветвления для текущего узла замещения. Как обсуждалось выше, каждый дочерний узел ветвления представляет возможный исход распознавания программой ОРЗ 34 следующего знака. Когда текущим узлом является корневой узел 120, ни один знак еще не обработан. Следовательно, создаваемые дочерние узлы ветвления являются узлами ветвления 122, 124, 126 и 128, представляющими исходы распознавания введенных знаков «8», «81», «8ΙΝ» и «8ΙΝ6» соответственно.

На шаге 74 определяется, существует ли дочерний узел ветвления текущего узла, который еще не полностью обработан. Первый раз этот шаг достигается после создания новых узлов ветвления, когда ни один из дочерних узлов ветвления не обработан. Следовательно, результатом определения на шаге 74 будет «да», и обработка будет продолжена на шаге 86. На шаге 76 в качестве текущего узла устанавливается следующий необработанный дочерний узел ветвления. В примере дерева решений на фиг. 5, когда первый раз выполняется шаг 76, в качестве текущего узла устанавливается узел ветвления 122. На шаге 80 определяется, существуют ли какое-либо замещения, которые еще не были проверены для текущего узла ветвления. Это определение включает проверку записи в таблице замещений 202, соответствующей текущему узлу ветвления. Как показано на фиг. 6, запись 218 таблицы замещений соответствует записи 210 таблицы ветвлений, имеющей знак «8», который соответствует узлу ветвления «8» 122. В записи 218 таблицы замещений каждая из вариантных записей 258, 260, 262, представляет собой потенциальное замещение при ОРЗ. Когда шаг 80 выполняется первый раз, ни одно из замещений еще не проверено. На шаге 82 ищется замещение для текущего узла. Например, когда шаг 82 выполняется первый раз, замещение «8» ищется в таблице 218 записей замещений.

На шаге 84 вычисляется интегральная вероятность для найденного замещения при ОРЗ. Она вычисляется путем умножения значения вероятности, соответствующего данному замещению, на интегральную вероятность для родительского узла замещения текущего узла ветвления 122. В этой точке процесса обработки родительский узел является корневым узлом 120, который имеет интегральную вероятность 1,0. Следовательно, интегральная вероятность для замещения ОРЗ «8» равна 0,98 х 1,0 = 0,98.

На шаге 86 определяется, превышает ли вычисленная интегральная вероятность предварительно определенное пороговое значение. Если интегральная вероятность выше предварительно определенного порогового значения, то тогда на шаге 88 создается новый узел замещения, соответствующий найденному замещению. Например, создается узел замещения 130 «8». Затем в качестве текущего узла устанавливается этот вновь созданный узел. Далее происходит возвращение к шагу 72, на котором создаются новые дочерние узлы ветвления текущего узла. В примере дерева решений 110 по фиг. 5 создаются узлы ветвления 135, 136 и 138, представ ляющие следующие возможные исходы распознавания знаков «I», «ΙΝ» и «ШС» соответственно.

Последовательность шагов, обсужденных выше, выполняется многократно для создания новых узлов ветвлений и узлов замещения и перемещения вниз по дереву решений 110. Как показано на фиг. 5, создаются узел ветвления «Ν» 152, дочерний узел замещения «Ν» 154, узел ветвления «С» 156 и узел замещения «С» 158.

После создания на шаге 88 узла замещения «С» 158 и присвоения ему функции текущего узла, на шаге 72 не останется дочерних узлов ветвления, которые необходимо создать. Это случится потому, что все знаки введенного слова «8ШС» были обработаны. Следовательно, на шаге 74 будет определено, что у текущего узла нет дочерних узлов ветвления, которые были обработаны. Затем управление переходит к шагу 94, где определяется, является ли текущий узел корневым. В рассматриваемом примере текущий узел не является корневым, и управление перейдет к шагу 96, где определяется, есть ли какие-либо дочерние узлы у текущего узла замещения. Если дочерних узлов нет, то тогда находится действительное искомое слово. Искомое слово представляется последовательностью узлов замещения на пути от корневого узла к текущему узлу. В рассматриваемом примере комбинируются узел замещения «8» 130, узел замещения «I» 146, узел замещения «Ν» 154 и узел замещения «С» 158, представляющие искомое слово «8ΙΝΟ», которое является точной интерпретацией введенного изображения в настоящем примере.

На шаге 100 в качестве текущего узла устанавливается родительский узел ветвления текущего узла замещения. В настоящем примере в качестве текущего узла устанавливается узел ветвления «С» 156. Затем управление переходит к шагу 80 для проверки дополнительных замещений для текущего узла. Затем процесс продолжается, как обсуждалось выше, создавая дополнительные узлы замещения, к примеру, узел замещения «6» (шесть) 160, изображенный в примере на фиг. 5. На шаге 98 находится действительное искомое слово, оканчивающееся узлом замещения «6» (шесть) 160. Следовательно, второе действительное искомое слово представляется узлами замещения 130, 146, 154 и 160, которое пишется как «8ΙΝ6».

На шаге 86, если вычисленная интегральная вероятность не превышает предварительно определенного порогового значения, управление переходит к шагу 90, где в качестве текущего узла устанавливается родительский узел замещения текущего узла ветвления. В примере дерева решений по фиг. 5 это происходит, когда текущим узлом является узел ветвления «С» 156, и проверена интегральная вероятность для нулевого замещения ОРЗ. На фиг. 5 изображен узел замещения 162 «фиктивный ноль», представляющий пустой символ, для иллюстрации того, что замещение на «ноль» проверено, но узел замещения не создан. В настоящем примере в качестве текущего узла устанавливается родительский узел замещения «Ν» 154, и управление переходит обратно к шагу 74, для определения, есть ли дополнительные дочерние узлы ветвления текущего узла, которые еще не полностью обработаны. Как обсуждалось выше, если необработанных дочерних узлов ветвления нет, как в настоящем примере, то управление переходит к шагу 94, а затем к шагу 96. В настоящем примере на шаге 96 имеются дочерние узлы ветвления текущего узла (узел замещения «Ν» 154), так что искомое слово не найдено, и процесс переходит к шагу 100, где в качестве текущего узла устанавливается родительский узел ветвления. Таким образом способ обработки 70 возвращается вверх по дереву решений 110. В конце концов, способ обработки 70 достигает шага 80, когда текущим узлом становится узел ветвления «I» 135. Как показано на фиг. 5, проверяется замещение при ОРЗ «1» (эль) и создается соответствующий узел замещения «1» (эль). Для упрощения дерева решений 110, изображенного на фиг. 5, узлы - «потомки» узла замещения «1» (эль) 148 не показаны. Аналогично создается узел замещения «1» (один) 149, и процесс следует по узлам - «потомкам» (не показано). Как показано на фиг. 5, узел замещения - «фиктивный ноль» 150 показывает, что проверено замещение на «ноль», но узел замещения не создан.

Как очевидно специалистам в области компьютерного программирования и в других областях, продолжение способа обработки 70 определения вариантных слов замещения приводит к созданию дерева решений 110, показанному на фиг. 5. Как видно из фигуры, узел ветвления «ΙΝ» 136 имеет дочерний узел замещения «М» 164 и узел ветвления «С» - «внук» 166??. Узел ветвления «С» 166 имеет дочерний узел замещения «С» 168?? и дочерний узел замещения «6» (шесть) 170??. Узел замещения «фиктивный ноль» 174?? и узел замещения «фиктивный ноль» 176?? показаны для того, чтобы продемонстрировать, что процесс согласно изобретению рассматривает, но не создает эти узлы, поскольку значения соответствующих вероятностей находятся ниже предварительно определенного порога.

В конце концов, текущим узлом становится корневой узел 120, и процесс переходит к шагу 74, на котором не оказывается дополнительных дочерних узлов ветвления корневого узла, которые еще не полностью обработаны. Затем управление переходит к шагу 94, где определяется, что текущий узел является корневым узлом. В этот момент способ обработки 70 завершается. Все действительные вариантные искомые слова созданы. Как видно из фиг. 5, процесс определяет вариантные искомые слова, включающие «ΞΙΝΟ», «ΞΙΝ6», «ΞΜΟ», «ΞΜ6». Дополнительные вариантные искомые слова на фиг. 5 не показаны.

Как ясно специалистам в области компьютерного программирования и прочим, в способ обработки 70, описанный выше, могут быть внесены различные изменения, не выходящие за рамки сущности и объема изобретения. Например, в ходе процесса может быть определено, что нет необходимости создавать некоторые узлы ветвления, к примеру, узлы ветвления 124, 126 и 128, поскольку они представляют вероятности, значения которых меньше заданного порога. Кроме того, в рамках изобретения может быть изменен порядок шагов в способе обработки 70.

Хотя здесь был показан и описан предпочтительный вариант осуществления изобретения, очевидно, что в него могут быть внесены различные изменения в рамках существа и объема данного изобретения.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Компьютеризованный способ для связи документов с оптическим распознаванием знаков с алфавитно-цифровым поисковым запросом, использующим формирование вариантных слов, причем способ включает следующие этапы:

получение алфавитно-цифрового поискового запроса;

формирование, по меньшей мере, одного вариантного слова, связанного с алфавитноцифровым поисковым запросом, в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков, причем данные замещения при оптическом распознавании знаков включают набор замещений при оптическом распознавании знаков и вероятность их появления, соответствующую каждому замещению при оптическом распознавании знаков, где вариантное слово отличается от алфавитно-цифрового поискового запроса; и идентификацию любых электронных документов в базе данных, имеющей, по меньшей мере, одно сформированное вариантное слово.
2. Способ по п.1, отличающийся тем, что формирование, по меньшей мере, одного вариантного слова включает определение сегмента-кандидата вариантного слова, причем каждый сегмент-кандидат вариантного слова содержит, по меньшей мере, часть слова;

определение того, превышает ли вероятность появления сегмента-кандидата вариантного слова предварительно определенное пороговое значение вероятности; и исключение сегмента-кандидата вариантного слова, из упомянутого, по меньшей мере, одного вариантного слова, если вероятность появления сегмента-кандидата вариантного слова не превышает предварительно определенное пороговое значение вероятности.
3. Способ по п.2, отличающийся тем, что определение того, превышает ли вероятность появления сегмента-кандидата вариантного слова предварительно определенное пороговое значение вероятности, включает определение множества замещений при оптическом распознавании знаков, соответствующих сегменту-кандидату вариантного слова, в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков;

объединение вероятности появления, соответствующей каждому замещению при оптическом распознавании знаков, соответствующему сегменту-кандидату вариантного слова, для определения вероятности появления, соответствующей сегменту-кандидату вариантного слова; и сравнение вероятности появления, соответствующей сегменту-кандидату вариантного слова, с предварительным определенным пороговым значением вероятности.
4. Способ по п.1, отличающийся тем, что дополнительно включает определение множества замещений при оптическом распознавании знаков, соответствующих алфавитно-цифровому поисковому запросу, в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков; и объединение множества замещений при оптическом распознавании знаков для создания сегмента-кандидата вариантного слова.
5. Способ по п.1, отличающийся тем, что дополнительно включает создание древовидной структуры данных, имеющей множество узлов замещения, причем каждый узел замещения соответствует элементу замещения при оптическом распознавании знаков, соответствующего алфавитно-цифровому поисковому запросу, при этом древовидная структура данных имеет корневой узел и, по меньшей мере, один концевой узел, причем каждый концевой узел связан с корневым узлом маршрутом, соответствующим этому концевому узлу; и объединение замещений при оптическом распознавании знаков, соответствующих каждому узлу замещения на маршруте, соответствующем одному из концевых узлов для создания вариантного слова.
6. Способ по п.5, отличающийся тем, что дополнительно включает определение для каждого узла замещения соответствующей вероятности появления в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков; и определение для каждого узла замещения того, превышает ли соответствующая вероят17 ность появления предварительно определенное пороговое значение; и исключение вариантного слова, соответствующего узлу замещения, из упомянутого, по меньшей мере, одного вариантного слова в случае, когда вероятность появления, соответствующая этому узлу замещения, не превышает предварительно определенного порогового значения.
7. Способ по п.5, отличающийся тем, что дополнительно включает создание узла ветвления в древовидной структуре данных, причем узел ветвления соответствует очертанию знака во время оптического распознавания знаков алфавитно-цифрового поискового запроса;

создание, по меньшей мере, одного узла замещения, который является дочерним узлом узла ветвления, причем дочерний узел соответствует замещению при оптическом распознавании знаков для знака, соответствующего узлу ветвления.
8. Способ по п.7, отличающийся тем, что замещение при оптическом распознавании знаков, соответствующее узлу замещения, включает два знака.
9. Способ по п.7, отличающийся тем, что замещение при оптическом распознавании знаков, соответствующее узлу замещения, представляет знаки нуля.
10. Способ по п.1, отличающийся тем, что определение, по меньшей мере, одного вариантного слова включает определение множества вариантных слов, а поиск в базе данных происходит после определения множества вариантных слов.
11. Компьютеризированный способ поиска для базы данных электронных документов, реализующий программу из команд, исполняемых компьютером, для выполнения этапов способа для поиска в базе данных документов, причем база данных документов включает документы с оптическим распознаванием знаков, при этом этапы способа включают получение поискового запроса, включающего искомое алфавитно-цифровое слово;

получение множества замещений при оптическом распознавании знаков, соответствующих искомому алфавитно-цифровому слову;

формирование, по меньшей мере, одного вариантного слова, соответствующего искомому алфавитно-цифровому слову, где, по меньшей мере, одно вариантное слово отличается от искомого алфавитно-цифрового слова и основано на множестве замещений при оптическом распознавании знаков, соответствующих искомому алфавитно-цифровому слову; и идентификацию документов в базе данных документов, имеющих, по меньшей мере, одно сформированное вариантное слово.
12. Способ по п.11, отличающийся тем, что этапы способа дополнительно включают определение возможного замещения при оптическом распознавании знаков, соответствующего искомому алфавитно-цифровому слову;

определение вероятности появления, соответствующей возможному замещению при оптическом распознавании знаков;

определение того, превышает ли вероятность появления, соответствующая возможному замещению при оптическом распознавании знаков, пороговое значение вероятности;

избирательное включение возможного замещения при оптическом распознавании знаков во множестве замещений при оптическом распознавании знаков на основе вероятности появления, связанной с пороговым значением вероятности.
13. Способ по п.11, отличающийся тем, что этапы способа дополнительно включают задание множества узлов замещения, причем каждый узел замещения соответствует замещению при оптическом распознавании знаков, при этом множество узлов замещения образует иерархическую древовидную структуру; и формирование вариантного слова, путем включения замещений, соответствующих набору узлов замещения, образующих маршрут между корневым узлом и концевым узлом в иерархической древовидной структуре.
14. Способ по п.11, отличающийся тем, что этапы способа дополнительно включают задание множества узлов ветвления в иерархической древовидной структуре, причем каждый узел ветвления представляет очертание знака во время оптического распознавания знаков искомого алфавитно-цифрового слова.
15. Компьютеризированный способ поиска для базы данных электронных документов, созданных с использованием оптического распознавания знаков, причем способ включает получение алфавитно-цифрового поискового запроса, определение, по меньшей мере, одного вариантного слова, связанного с алфавитноцифровым поисковым запросом, в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков, причем данные замещения при оптическом распознавании знаков включают набор замещений при оптическом распознавании знаков и вероятность их появления, соответствующую каждому замещению при оптическом распознавании знаков, где вариантное слово отличается от алфавитно-цифрового поискового запроса, создание древовидной структуры данных, имеющей множество узлов замещения, причем каждый узел замещения соответствует элементу замещения при оптическом распознавании знаков, соответствующего алфавитно-цифровому поисковому запросу, при этом древовидная структура имеет корневой узел и, по меньшей мере, один концевой узел, причем каждый кон цевой узел связан с корневым узлом маршрутом, соответствующим этому концевому узлу, и объединение замещений при оптическом распознавании знаков, соответствующих каждому узлу замещения на маршруте соответствующем одному из концевых узлов для формирования вариантного слова, и осуществление поиска в базе данных электронных документов в соответствии с упомянутым, по меньшей мере, одним определенным вариантным словом.
16. Способ по п.15, отличающийся тем, что дополнительно включает следующие этапы: определение для каждого узла замещения соответствующей вероятности появления в соответствии с предварительно определенными данными замещения при оптическом распознавании знаков; и определение для каждого узла замещения того, превышает ли соответствующая вероятность появления предварительно определенное пороговое значение; и исключение вариантного слова, соответствующего узлу замещения, из упомянутого, по меньшей мере, одного вариантного слова в случае, когда вероятность появления, соответствующая этому узлу замещения, не превышает предварительно определенного порогового значения.
17. Способ по п.15, отличающийся тем, что дополнительно включает следующие этапы:

создание узла ветвления в древовидной структуре данных, причем узел ветвления соответствует очертанию знака во время оптического распознавания знаков алфавитно-цифрового поискового запроса;

создание, по меньшей мере, одного узла замещения, который является дочерним узлом узла ветвления, причем дочерний узел соответствует замещению при распознавании знаков для знака, соответствующего узлу ветвления.
18. Способ по п.17, отличающийся тем, что замещение при оптическом распознавании знаков, соответствующее узлу замещения, включает два знака.
19. Способ по п.17, отличающийся тем, что замещение при оптическом распознавании знаков, соответствующее узлу замещения, представляет знаки нуля.
20. Способ по п.1, отличающийся тем, что дополнительно осуществляет отвергание вариантных слов неидентифицируемых в базе данных.
21. Способ по п.11, отличающийся тем, что дополнительно осуществляет отвергание вариантных слов, не идентифицируемых в базе данных документов.