EA001689B1 - Система автоматической идентификации языка для многоязычного оптического распознавания символов - Google Patents

Система автоматической идентификации языка для многоязычного оптического распознавания символов Download PDF

Info

Publication number
EA001689B1
EA001689B1 EA200000321A EA200000321A EA001689B1 EA 001689 B1 EA001689 B1 EA 001689B1 EA 200000321 A EA200000321 A EA 200000321A EA 200000321 A EA200000321 A EA 200000321A EA 001689 B1 EA001689 B1 EA 001689B1
Authority
EA
Eurasian Patent Office
Prior art keywords
language
zone
word
words
confidence
Prior art date
Application number
EA200000321A
Other languages
English (en)
Other versions
EA200000321A1 (ru
Inventor
Леонард К. Пон
Тапас Канунго
Дзун Янг
Кеннет Чан Чой
Минди Р. Боксер
Original Assignee
Скэнсофт, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Скэнсофт, Инк. filed Critical Скэнсофт, Инк.
Publication of EA200000321A1 publication Critical patent/EA200000321A1/ru
Publication of EA001689B1 publication Critical patent/EA001689B1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

В данном изобретении применяют словарный подход для идентификации языков в различных зонах многоязычного документа. На первом этапе образ документа сегментируют на различные зоны, области и словоформы с использованием подходящих геометрических свойств. В каждой зоне словоформы сравнивают со словарями, сопоставляемыми различным языкам-кандидатам, и язык, который проявляет наивысший показатель доверительности, первоначально идентифицируют в качестве языка данной зоны. Затем каждую зону расщепляют на области. После этого производят идентификацию языка каждой области с использованием показателей доверительности для слов данной области. Для любого определения языка, имеющего низкое значение доверительности, ранее определенный язык зоны применяют с целью способствовать процессу идентификации.

Description

Область техники, к которой относится изобретение
Настоящее изобретение, в общем случае, относится к различению языков, употребляемых при общении и, более конкретно, к автоматическому распознаванию различных языков в многоязычном документе в целях оптического распознавания символов и т.п.
Уровень техники
В целом, оптическое распознавание символов предполагает разбиение образа документа на отдельные знаки и группы знаков и сравнение образов знаков с шаблонной информацией, представляющей различные символы, например, буквы алфавита, цифры и т.п. Для повышения точности процесса распознавания, в подсистемах ОРС (оптического распознавания символов) применяются методики, которые базируются на особенностях того или иного языка. Например, языковую информацию можно использовать для выбора надлежащих классификаторов, словарей, вероятностей биграфных и триграфных символов, а также распознавания характерных для того или иного языка форматов дат, цифр и т.д.
Раньше пользователю, применяющему систему ОРС, если она способна распознавать текст на разных языках, приходилось вручную задавать язык текста в сканируемом образе, чтобы система ОРС могла точно распознавать знаки и слова в образе документа. Применительно к одноязычному документу эта задача была относительно проста. Однако для оптимальной ОРС-обработки многоязычных страниц необходимо было разграничивать различные зоны, содержащие текст на том или ином языке, и идентифицировать каждую зону ярлыком правильного языка. Вследствие необходимости такого непосредственного вмешательства могут увеличиваться затраты труда, что приводит к удорожанию и значительному замедлению всего процесса преобразования образа в текст.
По мере глобального нарастания деловой активности многоязычные документы становятся обычным явлением. Примерами таких документов могут служить руководства пользователя, предназначенные для многих стран и, по этой причине, содержащие на одной странице фрагменты текста на разных языках, а также туристические брошюры, предоставляющие сжатую информацию в ряде многоязычных схем. В такого рода документах однотипная информация может быть представлена на разных языках и размещаться в разных абзацах, колонках или на разных страницах. В качестве других примеров многоязычных документов могут выступать проспекты авиалиний, предоставляющие информацию для международных туристов и лиц, совершающих деловые поездки, международная деловая переписка, где шапка может быть выполнена на языке страны отправителя, а содержательная часть - на языке стра ны адресата, а также иммиграционные документы, содержащие инструкции на нескольких языках. Все это обусловливает растущую необходимость в автоматическом различении и идентификации различных языков в одном документе.
Предшествующие разработки по автоматической идентификации языка строились на одном из двух общих подходов. Согласно одному подходу идентификация языка опирается на признаки, извлекаемые из образов словоформ. Варианты применения этого подхода описаны, например, в следующих публикациях: Т.Накаяма (Яакауата) и А.Л. Шпиц (δρίΐζ) «Определение европейских языков на основании образа» (Еигореап Ьапдиадс ЭйсгтшаНоп Егот 1тадс), Труды международной конференции по анализу и распознаванию документов, Цукуба, Япония, 1993; П. Сибун (81Ьип) и А. Л. Шпиц «Определение языка: обработка естественного языка на основании сканированных образов документов» (Ьапдиадс Пс1сгш1пайоп: №Нига1 Ьапдиадс Ргосскыпд Егот Зсаппсй Эоситсп! 1тадс8), Труды конференции по применению обработки естественного языка, Штутгарт, Германия, 1994; и А.Л. Шпиц «Определение шрифта и языка на основании образов документов»(8спр1 Апб Ьапдиадс Эйсгтшайоп Егот Эоситсп! 1тадс8), Труды симпозиума по анализу документов и извлечению информации, Лас-Вегас, Невада, 1994. Для того, чтобы идентификация с помощью методик, подобных тем, что описаны в этих ссылочных материалах, была достоверной, требуется значительный объем текста на определяемом языке. Если смена языка текста происходит с относительно большой частотой, например, от строки к строке, то получить статистические данные по признакам, которые позволяли бы отличить один язык от другого, не представляется возможным.
Второй подход к идентификации языка основан на частотности слова и вероятности биграфа. Варианты применения этого подхода описаны в следующих публикациях: Х.С. Баирд (Ваий), Д.Гильберт (СйЬсй) и Д.Дж. Иттнер (Шпсг) «Семейство устройств считывания страниц на европейских языках» (ЕатПу О£ Еигорсап Радс Ясайсгк), Труды международной конференции по распознаванию образов, Иерусалим, Израиль, 1994; и Д. Ли (Ьсс), К. Ноль (С. ЫоЫ) и X. Баирд «Идентификация языка в образах сложных, неориентированых и низкокачественных документов» (Ьапдиадс 1йспййсайоп 1п Сотр1сх, Апй Эсдгайсй Эоситсп! 1тадс8, Труды рабочей группы 1АРК. по системам анализа документов, Малверн, Пенсильвания, США, 1996. Этот подход применим лишь к таким документам, в которых каждая станица содержит текст на одном языке. Он не дает возможности различить два языка в пределах одной страницы, если не производить предварительной сегментации вручную. Кроме того, чтобы с уверенностью получить вероятности переходов между языковыми моделями, к образам документов предъявляются относительно высокие требования по верности.
Таким образом, существует необходимость в системе автоматического различения нескольких и идентификации языков, которая не требует предварительного ручного ввода и способна разделять образ на однородные по языку области, с целью уверенной идентификации различных языков, совокупно представленных на одной странице, и, тем самым, позволяет эффективно производить оптическое распознавание символов с более высокой скоростью и точностью.
Сущность изобретения
Для достижения вышеизложенных целей, настоящее изобретение предусматривает применение словарного подхода к разделению различных фрагментов документа на однородные по языку области. Разделение документа можно выполнять с использованием нисходящего подхода, восходящего подхода или смешанного подхода. Нисходящий подход предусматривает сегментацию образа документа на зоны и словоформы с использованием подходящих геометрических свойств. Внутри каждой зоны осуществляется сравнение словоформ со словарями, соответствующими каждому из различных языков-кандидатов, с целью определения показателя доверительности по каждому языку. Первоначально, с языком данной зоны идентифицируется язык, характеризующийся наивысшим показателем доверительности. Каждая зона разделяется на локальные области, каждая из которых может представлять собой одно слово или группировку слов, например, строку. Идентификация языка каждой локальной области осуществляется с использованием словарного показателя доверительности для слов этой области. После этого локальные области разделяются в соответствии с языком, который сопоставляется каждой из них.
Восходящий подход предусматривает разбиение образа документа на отдельные словоформы, для каждой из которых определяется показатель доверительности по каждому языкукандидату. Образ документа делится на локальные области, каждая из которых, опять же, может представлять собой одно слово или группировку слов, например, строку. Идентификация языка для каждой локальной области осуществляется с использованием словарного показателя доверительности для слов этой области. После этого локальные области, имеющие общий язык, группируются в соответствии с языком, который сопоставляется каждой из них, с целью формирования однородных по языку областей.
Смешанный подход предусматривает, прежде всего, сегментацию образа документа на одну или несколько зон, и идентификацию языка для каждой зоны. После этого реализуется восходящий подход, в соответствии с которым зональный язык применяется при определении группировок локальных областей с целью формирования однородных по языку областей.
Дополнительные признаки изобретения и обеспечиваемые ими преимущества подробно описаны со ссылкой на иллюстративные варианты реализации, представленные на прилагаемых чертежах.
Краткое описание чертежей
Фиг.1 представляет собой блок-схему компьютерной системы, которая предусматривает применение настоящего изобретения,
Фиг. 2 представляет собой блок-схему, иллюстрирующую основные этапы оптического распознавания символов документа,
Фиг.3 представляет собой схематическое изображение многоязычного документа,
Фиг.4 представляет собой блок-схему алгоритма всего процесса согласно первому варианту реализации настоящего изобретения,
Фиг. 5 представляет собой блок-схему алгоритма выполнения подпрограммы определения статистики доверительности по языку слова,
Фиг. 6 представляет собой блок-схему алгоритма выполнения подпрограммы определения статистики доверительности по языку области,
Фиг. 7 представляет собой блок-схему алгоритма выполнения подпрограммы кластеризации областей в подзоны,
Фиг. 8 представляет собой блок-схему алгоритма всего процесса согласно второму варианту реализации настоящего изобретения,
Фиг. 9 представляет собой блок-схему алгоритма выполнения подпрограммы определения зонального языка,
Фиг. 10 представляет собой блок-схему алгоритма выполнения подпрограммы определения областного языка,
Фиг.11 представляет собой блок-схему алгоритма выполнения подпрограммы сегрегации областей по подзонам.
Подробное описание вариантов реализации настоящего изобретения
Для облегчения понимания настоящего изобретения ниже приведен частный случай оптического распознавания символов страницы документа, содержащей текст на нескольких языках. Хотя настоящее изобретение особенно подходит для такого применения, следует учитывать, что оно не ограничивается этим отдельным случаем использования. Напротив, принципы, лежащие в основе изобретения, можно использовать в самых разных случаях, когда требуется различать и идентифицировать языки.
Автоматическую идентификацию языков и, в целом, оптическое распознавание символов можно осуществлять на различных компьютерных системах. Хотя те или иные аппаратные компоненты компьютерной системы сами по себе не являются предметом изобретения, ниже приведено их краткое описание, позволяющее лучше понять, как признаки изобретения должны сочетаться с компонентами компьютерной системы, чтобы достичь желаемых результатов.
Согласно фиг. 1 иллюстративная компьютерная система включает в себя компьютер 10, к которому подключена совокупность 12 внешних периферийных устройств. Компьютер 10 включает в себя центральный процессор (ЦП) 14 и соответствующую память. Эта память, в общем случае, включает в себя основную или оперативную память, обычно выполненную в виде оперативного запоминающего устройства 16, статическую память, которая может представлять собой постоянное запоминающее устройство 18, и накопительное устройство, например, магнитный или оптический диск 20. ЦП сообщается с каждым из этих видов памяти через внутреннюю шину 22. Периферийные устройства 12 включают в себя устройство ввода данных, например, клавиатуру 24 и устройство 26 позиционирования или управления курсором, например, мышь, перо и т.п. Дисплейное устройство 28, например, монитор с ЭЛТ (электронно-лучевой трубкой) или экран ЖКД (жидкокристаллического дисплея) обеспечивает визуальное отображение информации, обрабатываемой компьютером, например, образ документа, на котором производится оптическое распознавание символов. Принтер 30 или аналогичное устройство может выдавать твердую копию информации. Связь с другими компьютерами может осуществляться с помощью модема 32 и/или платы сетевого интерфейса 34. Для преобразования твердой копии документа в электронный формат, подлежащий хранению, манипулированию и обработке на компьютере, можно использовать сканер 36. Каждое из этих внешних периферийных устройств обменивается данными с ЦП 14 посредством одного или нескольких портов ввода-вывода 38, установленных на компьютере.
В ходе работы пользователь может сканировать документ с помощью сканера 36, в результате чего файл данных, который описывает образ документа, сохраняется в основной памяти 16. Сканированный документ может также отображаться на мониторе 28. В то время, когда содержимое файла образа хранится в основной памяти 16, над ним может осуществляться ОРСобработка с целью извлечения символьных данных для текстуального фрагмента образа. В результате оптического распознавания символов создается отдельный файл данных, например, файл А8С11. Оба файла - образа и символьных данных, либо один из них можно направить на хранение в накопительное устройство 20 и/или передать на другой компьютер через модем 32 или сеть.
На фиг. 2 представлены основные этапы, осуществляемые ЦП компьютера в ходе типич ного процесса оптического распознавания символов. Согласно фигуре, на начальном этапе 40 образ документа импортируется в компьютер, например, с помощью сканера 36 или путем загрузки через коммуникационную сеть. На этапе 42 необязательной предварительной обработки образ документа корректируется с целью устранения перекоса и фильтруется тем или иным способом с целью удаления артефактов, которые могут создавать помехи для программы распознавания символов. Например, если в результате неисправности сканера возникает вертикальная линия, проходящая по всему образу, эту линию можно обнаружить и надлежащим образом удалить перед дальнейшей обработкой. После этого на этапе 44 производится сегментация образа документа на некоторое количество зон. Пример такой сегментации приведен на фиг. 3. В примере, представленном на этой фигуре, страница 46 содержит три колонки текста, каждая из которых состоит из двух абзацев. Если документ представляет собой многоязычное руководство пользователя, то, например, каждый столбец или каждый абзац в отдельности может содержать текст на отдельном языке. В результате сегментации образа документ может быть разделен на три зоны 48а, 48Ь и 48с, которые соответствуют трем колонкам. В зависимости от необходимой степени точности, документ может быть подвергнут более тонкому разделению на меньшие зоны. Например, отдельную зону может составлять каждый абзац или даже каждая строка или полустрока. В общем, зоной может быть любой фрагмент документа, содержащий две или более словоформы.
Этапы предварительной обработки для коррекции перекоса и удаления артефактов, как и сегментации документа можно осуществлять в соответствии с любой из разнообразных общеизвестных методик. Примеры таких методик описаны в работе Л. О'Гормана (О'Сегшаи) и Р. Кастури (Ка81шг), «Анализ образа документа» (Поситеп! 1таде Апа1у818), ΙΕΕΕ Сотр. 8ос. Рге88, 1995, в частности, в главе 4, содержание которой используется здесь для ссылки.
Когда документ поделен на сегменты, производится идентификация отдельных словоформ, т. е. группировок символьных знаков, в отношении которых можно предположить, что они образуют отдельные слова, опять же с использованием общепринятых методик оптического распознавания символов. На этапе 50 для каждой словоформы с использованием классификатора знаков генерируется одна или несколько гипотез относительно возможных символьных последовательностей, которые составляют словоформу. Подробную информацию по подобным классификаторам и работе с ними можно найти в работе Дуды (Эиба) и Харта (Наг!), «Классификация шаблонов и анализ сцен» (Ра!!ет С1а881Дса1юп апб 8сепе Апа1у818), ХУбеу апб 8оп8, 1973. Результатом этапа 50 первоначального ОРС является оценка символов в каждой из отдельных словоформ. Каждой оценке слова или гипотезе можно сопоставить вероятность распознавания, которая указывает степень правдоподобия правильности оценки по отношению к другим оценкам слова одной и той же словоформы.
В общем случае, при оптическом распознавании символов применяется классификатор, который распознает шаблоны или знаки, которые соответствуют символам алфавита, цифрам, знакам препинания и т.д. Когда конкретный язык обрабатываемого документа известен, классификатор можно настроить на этот язык. Однако пример, представленный на фиг. 3, предусматривает наличие нескольких языков, причем, каких именно, заранее неизвестно. В этом случае предпочтительно, чтобы классификатор символов, используемый для создания первоначальной гипотезы слова, был общим для всех языков-кандидатов, подлежащих распознаванию. Например, если методика оптического распознавания символов рассчитана на идентификацию и различение романских языков, общий классификатор знаков можно настроить на распознавание всех или большинства знаков, используемых в этих языках. В качестве альтернативы использованию общего классификатора, возможно применение классификатора, приспособленного к одному конкретному языку, но при этом он должен обладать возможностями дополнительной обработки для распознавания знаков, которых может не оказаться в данном языке.
После осуществления первоначальной оценки слов, на этапе 52 производится идентификация языка, сопоставляемого с текстом в каждой из зон, которая более подробно описана ниже. Это позволяет производить на следующем этапе 54 более активное оптическое распознавание символов, которое обеспечивает более высокую степень точности, с использованием классификаторов, предназначенных для каждого идентифицированного языка. Конечным продуктом этого процесса является файл данных 56, который представляет отдельные символы текста в исходном образе, например файл АЗСП.
В целом, настоящее изобретение предусматривает применение словарного подхода, который состоит в том, что словарь слов, найденных в том или ином языке, используется для идентификации текста на этом языке. Для каждого языка-кандидата, подлежащего идентификации, назначается словарь слов этого языка. Таким образом, например, если нужно идентифицировать языки, в основе которых лежат латинские алфавиты, можно назначить словарь каждого из следующих языков: американский английский, британский английский, французский, итальянский, немецкий, шведский, норвежский, финский, датский, португальский, бра зильский португальский, испанский и голландский. Каждый словарь может представлять собой либо элементарный словарь, содержавший только наиболее употребительные слова данного языка, либо полный словарь, который содержит более полное множество слов языка. Словарь может также содержать статистическую информацию о словах, например, частоту, с которой они обычно встречаются в языке. В качестве альтернативы использованию отдельного словаря для каждого языка-кандидата, возможно применение единого словаря, который содержит все слова различных языков-кандидатов. В этом случае каждая статья словаря возвращает данные, указывающие языки, в которых встречается это слово.
Согласно одному варианту реализации изобретения для каждой из зон 48а-48с документа вычисляют статистику доверительности по каждому языку-кандидату. Один достаточно простой вариант осуществления изобретения предусматривает вычисление статистики доверительности путем подсчета в зоне числа слов, обнаруженных в каждом из соответствующих словарей. Для вычисления статистики доверительности можно применять и другие, более сложные подходы, которые подробно описаны ниже. Выявляют язык с наивысшей статистикой доверительности и его используют в качестве первоначальной оценки языка зоны.
В зависимости от степени детализации при осуществлении сегментации может случиться так, что не каждая зона содержит один единственный язык. На примере документа, изображенного на фиг. 3, можно представить, что каждый из двух абзацев в каждой из зон 48а-48с набран на отдельном языке.
Поэтому, после первоначальной идентификации зонального языка, каждую зону дополнительно расщепляют на локальные области. Локальная область может быть сколь угодно мала, вплоть до отдельной словоформы. Предпочтительно однако, чтобы локальная область состояла из логической группы слов, например, из одной или нескольких строк документа. Идентификацию языка каждой области осуществляют с использованием словарной статистики доверительности для данной области. Затем производят объединение следующих друг за другом областей с той же языковой характеристикой. Если в какой-либо области ни один из языков-кандидатов не имеет высокой языковой статистики доверительности, то в качестве областной языковой характеристики, принятой по умолчанию, используют зональный язык, сопоставленный с этой областью.
Вышеописанную программу сегментации документа на однородные по языку области согласно настоящему изобретению могут осуществлять по-разному. Более подробно варианты реализации изобретения, в которых находят свое применение различные подходы, проиллю стрированы блок-схемами алгоритма, изображенными на фиг. 4-11. Уместна следующая общая классификация этих различных подходов: восходящий подход, нисходящий подход и смешанный подход, сочетающий в себе концепции двух первых подходов. На фиг. 4 представлена вся процедура распознавания языка, отвечающая восходящему подходу. На этапе 100 документ сканируют, или образ документа тем или иным способом импортируют в оперативное запоминающее устройство 16 компьютера. Возможна также предварительная обработка образа документа, например, для коррекции перекоса с тем, чтобы строки текста были ориентированы в горизонтальном направлении, а также для того, чтобы тем или иным способом отфильтровать явные артефакты. На этапе 102, производят сегментацию образа документа на словоформы и локальные области на основании геометрических свойств образа с использованием общепринятых методик. Для облегчения понимания изобретения в нижеприведенном примере каждая локальная область документа представляет собой одну строку текста. Однако следует заметить, что локальная область может иметь сколь угодно малый размер, вплоть до отдельного слова.
По завершении сегментации документа на слова и локальные области, выполняют подпрограмму 106, определяющую для каждого слова, выбранного на этапе 104, статистику доверительности по языку. Затем на этапе 108 выбирают первую область, после чего выполняют еще одну подпрограмму 110, которая определяет для данной области статистику доверительности по языку. На этапе 112 производят проверку, остались ли в документе области, не прошедшие обработку, и, если да, то этапы 108 и 110 повторяют до тех пор, пока статистика доверительности по языку не будет определена для всех областей. По завершении определения статистики доверительности для каждой области, подпрограммой 114 осуществляют кластеризацию соседних областей, например, следующих друг за другом строк, характеризующихся достаточно высокими доверительными уровнями по данному языку, в подзоны. После того, как все области прошли подобную обработку, процедуру оканчивают на этапе 118. Результатом этой процедуры является упорядоченное множество подзон, каждая из которых имеет однородную языковую характеристику.
Выполняемая на этапе 106 подпрограмма определения статистики доверительности по языку для каждого слова иллюстрируется более подробной блок-схемой алгоритма, изображенной на фиг. 5. На этапе 124 выбирают первую словоформу в зоне* и на этапе 128 выбирают первый язык-кандидат 1. На этапе 130 вычисляют статистику ν( 1), которая указывает степень доверительности того, что данное слово содержится в выбранном языке. Согласно одно му варианту реализации статистика может представлять собой просто единицу или нуль в зависимости от того, найдено ли данное слово в словаре данного языка. Можно также использовать другие, более изощренные подходы. Например, статистика доверительности ν(1) для каждого слова может быть взвешена в соответствии с длиной слова. Этот подход особенно полезен для языков, в которых употребляются относительно длинные, уникальные слова, например, немецкого и норвежского. Для значения, вычисленного для каждого слова, можно также использовать весовой коэффициент, являющийся функцией вероятности распознавания, сопоставляемой с отдельными символами в словоформе, которые определяют по классификатору. При таком подходе оценки слов, имеющие относительно низкую вероятность распознавания, не оказывают на статистику доверительности по языку столь сильного влияния, как те, которые идентифицированы с большей определенностью. Помимо указания того, найдено ли данное слово в словаре, статистика доверительности может учитывать и другие показатели. Например, для взвешивания статистики доверительности может потребоваться использовать пграфную информацию или информацию по частотности слова, т. е. указывать, насколько правдоподобно, что последовательность символов в словоформе появляется в выбранном языке.
На этапе 140 производят проверку, остались ли языки, не прошедшие обработку в отношении данного слова. Если да, то этапы 128 и 130 повторяются до тех пор, пока слово не будет сравнено со словарем каждого из языковкандидатов, и по каждому языку не будет вычислена статистика доверительности. После проверки всех языков и вычисления показателей доверительности выбирают следующее слово, и этапы 124-140 повторяют. После вычисления для каждого слова статистики доверительности по каждому языку-кандидату подпрограмму возвращают к основному процессу.
Выполняемая на этапе 110 подпрограмма определения статистики доверительности по языку для данной области, подробно иллюстрируется блок-схемой алгоритма, изображенной на фиг. 6. Согласно этой фигуре на этапе 142 выбирают первый язык-кандидат 1 и на этапе 144 производят инициализацию, т.е. обнуление, статистики доверительности для области г(1). На этапе 146 выбирают первое слово в данной области, и на этапе 148 производят обновление показателя доверительности по выбранному языку г(1) для данной области. Например, показатель доверительности для области можно сохранять в сумматоре. Обновление показателя можно производить путем сложения статистики доверительности по языку данного слова ν(1) со значением, хранящимся в накопителе.
Затем процесс переходит к этапу 150, на котором производят проверку, остались ли в области слова, не прошедшие обработку. Этапы 146 и 150 повторяются для каждого слова в области с целью получения статистики доверительности г(1), по отношению к словам в области, которые найдены в словаре выделенного языка 1. После проверки всех слов обновленное значение г(1) сохраняют в качестве показателя доверительности по выделенному языку в области. На этапе 152 производят проверку, остались ли языки, подлежащие обработке для зоны. Если да, то этапы 142-150 повторяют до тех пор, пока каждое слово в зоне не будет сравнено со словарем каждого языка-кандидата. Результатом этой процедуры является определение показателя доверительности г(1) по каждому языку для данной области. После проверки всех языков и определения всех показателей доверительности подпрограмму возвращают к основному процессу.
Выполняемая на этапе 114 подпрограмма кластеризации областей в однородные по языку подзоны более подробно иллюстрируется блоксхемой алгоритма, изображенной на фиг. 7. На этапе 154 множество подзон Ζ' первоначально определяют как пустое множество или множество меры нуль. На этапе 156 значение временной переменной и для текущей подзоны также первоначально устанавливают равным нулю, и на этапе 158 язык текущей подзоны, цъ, первоначально устанавливают равным любому языку, заданному по умолчанию. Затем, на этапе 160 выбирают первую область г и на этапе 162 производят проверку, указывают ли показатели доверительности по языку г(1) для данной области, что язык цъ текущей подзоны, скорее всего, является языком области, Iе. Другими словами, производят сравнение показателей доверительности по каждому из языков-кандидатов и проверку, является ли языковой показатель доверительности г(1) по языку текущей подзоны наивысшим или, по крайней мере, достаточно высоким по отношению к другим показателям доверительности для данной области. Если да, то на этапе 164 данную область г присоединяют к множеству областей К.(ц) текущей подзоны.
Если язык текущей ползоны цъ не является языком данной области, т.е. показатель доверительности г(1) по языку подзоны недостаточно высок по сравнению с другими показателями доверительности для рассматриваемой области, то на этапе 166 производят проверку, превышает ли наивысший показатель доверительности г(1)тах для данной области пороговое значение Т11. Если да, то можно начинать определение новой подзоны. Поэтому, на этапе 168 язык подзоны цъ заменяют языком с наивысшей доверительностью для данной области. После этого на этапе 170 только что определенную подзону и присоединяют к множеству подзон Ζ', и на этапе 172 производят инициализацию переменной и текущей подзоны с целью начать определение новой подзоны. Затем на этапе 164 выбранную в данный момент область г присоединяют к новой текущей подзоне.
Если на этапе 166 выясняется, что наивысший показатель доверительности для области не превышает порогового значения, начинать определение новой подзоны не следует. Согласно варианту реализации, представленному на блок-схеме алгоритма, выбранную область присоединяют к множеству областей К.(ц) текущей подзоны. В альтернативном варианте присоединение этой области можно временно отложить, пока не будет проверена следующая область. Если показатели доверительности для следующей области указывают, что следует начать определение новой подзоны, то предыдущую область может повторно проверить на предмет того, не следует ли включить ее в новую подзону. Таким образом, на переходном участке между двумя подзонами можно применять программу упреждающей выборки, которая позволяет определить, язык какой из двух подзон наиболее близок к языку переходной области.
На этапах 160-172 процедуру повторяют для каждой области г, пока не будет определено множество подзон Ζ'. Каждая подзона представляет собой одну или несколько следующих друг за другом областей, которые были идентифицированы как содержащие текст на одном и том же языке. Таким образом, в случае, когда каждая область является строкой текста, подзона представляет собой следующие друг за другом строки текста. Когда встречается следующая строка, имеющая другой язык, например, в начале нового абзаца, назначается новая подзона.
В предыдущем варианте реализации изобретения при определении областного показателя доверительности по словарям соответствующих языков рассматривалась каждая словоформа, и все они имели равные весовые коэффициенты. В некоторых случаях, с целью повышения точности, может понадобиться более избирательно присваивать различным словам соответствующие значения. Например, словоформы, которые состоят только из одного символа, можно исключить из рассмотрения, учитывая тот факт, что они могут представлять скорее шум, чем значимую информацию.
Восходящий подход, лежащий в основе рассмотренного выше варианта реализации, предусматривает, что анализ образа документа с целью сегрегации различных языковых областей начинают с наименьшего общего элемента, а именно, словоформы. Альтернативный, нисходящий подход предусматривает возможность первоначально назначать язык для более крупной зоны, а затем производить разделение на более мелкие однородные по языку области. На фиг. 8 изображена блок-схема алгоритма, представляющая весь процесс, отвечающий этому варианту реализации изобретения. Согласно фигуре, на этапе 200 образ документа импортируют в оперативное запоминающее устройство компьютера и его опять же подвергают предварительной обработке с целью коррекции перекоса и отфильтровки явных артефактов. На этапе 202 производят сегментацию образа документа на зоны, области и словоформы, исходя из геометрических свойств образа. В примере, изображенном на фиг. 3, для определения отдельных зон можно легко идентифицировать три вертикальные колонки текста на основании широких белых полос, которые их разделяют. Внутри каждой колонки отдельные строки текста идентифицируют по горизонтальным полоскам белого цвета, которые разграничивают разные области. Аналогично, внутри каждой строки отдельные словоформы идентифицируют по относительно широким пробелам между символами. Хотя в примере, изображенном на фиг. 3, представлено несколько зон, вполне возможно, чтобы вся страница представляла собой одну зону.
По завершении сегментации документа, на этапе 204 выбирают одну зону. Затем выполняют подпрограмму 206 определения языка для зоны. После этого на этапе 208 выбирают первую область и выполняют подпрограмму 210 определения статистики доверительности по языку для данной области. На этапе 212 производят проверку, остались ли в зоне области, не прошедшие обработку, и, если да, то этапы 208 и 210 повторяют до тех пор, пока будет определена статистика доверительности по языку для всех областей. После определения статистики доверительности для каждой области подпрограмма 214 отделяет области, имеющие сходные доверительные уровни по данному языку, от других областей, которые не сопоставляются с этим языком, с целью формирования однородных подзон. На этапе 216 производят проверку, остались ли зоны, не прошедшие обработку. Если да, то этапы 204-216 повторяют для каждой оставшейся зоны. После того, как все зоны прошли подобную обработку, процедуру заканчивают на этапе 218. Результатом этой процедуры является упорядоченное множество однородных по языку подзон в каждой зоне.
Выполняемая на этапе 206 подпрограмма определения зонального языка более подробно иллюстрируется блок-схемой алгоритма, изображенной на фиг. 9. На этапе 224 выбирают первый язык-кандидат 1, и на этапе 226 производят инициализацию статистики по данному языку ζ(1). На этапе 228 выбирают первое слово в зоне и на этапе 230 производят вычисления статистики доверительности для данного слова ν(1). зависящей от того, удалось ли найти в словаре данного языка 1 последовательность символов в этой словоформе. Затем на этапе 232 производят обновление языковой статистики ζ(1) в соответствии с выявленным значением доверительности. Например, языковую статистику ζ(1) можно получить суммированием отдельных значений доверительности ν(1) для слов зоны по данному языку. Затем процесс переходит к этапу 234 с целью проверки, остались ли в зоне слова, не прошедшие обработку.
Этапы 228-232 повторяют для каждого слова зоны, пока не будет получено окончательное значение ζ(1) по данному языку. В относительно простом варианте осуществления, статистика может быть получена подсчетом в зоне числа слов, найденных в словаре данного языка
1. После обработки всех слов на этапе 236 производят проверку, остались ли языки, не прошедшие обработку для данной зоны. Если да, то этапы 224-234 повторяют до тех пор, пока каждое из слов в зоне не будет сравнено со словарем каждого из языков-кандидатов. По окончании подобной проверки языков, на этапе 240 производят выбор зонального языка Ζ1'. исходя из языковой статистики ζ(1), которая представляет собой наивысшее значение доверительности. В простом варианте осуществления, описанном выше, язык, имеющий наивысшую частотность слов в данной зоне, т. е. язык, словарь которого генерирует наивысший счет, окончательно выбирают в качестве зонального языка Ζ1' для этой зоны. По завершении проверки всех языков и идентификации зонального языка подпрограмму возвращают к основному процессу.
Выполняемая на этапе 210 подпрограмма определения областного языка подробно иллюстрируется блок-схемой алгоритма, изображенной на фиг. 10. Согласно фигуре, на этапе 242 областной язык ть первоначально устанавливают равным ранее определенному зональному языку ζΕ. Затем в процедуре, аналогичной той, что выполняют на этапах 224-236 блок-схемы алгоритма, изображенной на фиг. 9, каждое слово области проверяют на предмет определения его значения доверительности г(1) по выбранному языку 1.***
После того, как определено значение доверительности для каждой области, процесс возвращают к основной программе. После этого подпрограммой 214 осуществляют сегрегацию областей по однородным по языку подзонам. Этот процесс может проходить, например, аналогично процедуре кластеризации, представленной блок-схемой алгоритма, изображенной на фиг. 7. Однако согласно данному варианту реализации при определении подзон используют зональный язык ζ1'. Это различие явствует из фиг. 11. Согласно фигуре, если на этапе 266 выясняют, что значение доверительности г(1) для области недостаточно велико, чтобы обуславливать переход к новой подзоне, то на этапе 267 подзональный язык иъ для новой подзоны по умолчанию устанавливают равным зональному языку ζ1'. Другими словами, в случае неопределенности относительно превалирующего языка области, делают предположение, что это преобладающий язык зоны, в которой находится данная область, и ее группируют в подзону, сопоставляемую с этим языком. Таким образом, пер воначальное определение зонального языка позволяет применять в процессе кластеризации более консервативный критерий в отношении того, следует ли переходить к другой подзоне, столкнувшись с низким значением доверительности.
Третий вариант реализации изобретения, основанный на применении смешанного подхода, предусматривает использование отдельных методик, осуществляемых в каждом из первых двух вариантах реализации. В частности, согласно этому варианту реализации, сначала определяют зональный язык для каждой зоны документа, как предписывает нисходящий подход. После этого процесс осуществляют согласно восходящему подходу, определяя показатель доверительности для каждого слова, а затем областной язык для каждой области. В этом случае, как и в нисходящем подходе, можно использовать зональный язык, чтобы способствовать кластеризации областей в подзоны.
Любому специалисту должно быть ясно, что настоящее изобретение можно реализовать в других конкретных формах, выходя за рамки его сущности или характерных особенностей. Например, в конкретных вариантах осуществления, которые иллюстрируются прилагаемыми блок-схемами алгоритма, статистику доверительности вычисляют для каждого слова зоны по каждому из языков-кандидатов. После этого все вычисленные доверительные уровни используются для определения зонального языка и областного языка. Однако оптимальный вариант осуществления не предусматривает необходимости вычисления статистики доверительности для каждого слова или по каждому языку. Напротив, если статистика доверительности по одному языку достаточно высока, чтобы уверенно определить, что для данного слова идентифицирован правильный язык, то на этом вычисление можно закончить, не вычисляя значения доверительности по каким-либо другим языкам. Аналогично, если достаточное количество слов в зоне или области определены как слова одного и того же языка, то для выбора языка данной зоны или области уже не требуется проверять каждое из оставшихся слов. По этой причине вышеописанные варианты реализации следует рассматривать исключительно как иллюстративные, но не ограничительные. Объем изобретения определяется прилагаемой формулой изобретения, но не вышеприведенным описанием, и охватывает все изменения, находящиеся в рамках ее значения и диапазона эквивалентности.

Claims (14)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ автоматического определения одного или более языков, сопоставляемых с текстом документа, включающий в себя этапы сегментации документа на совокупность словоформ, формирования, по крайней мере, одной гипотезы относительно символов в упомянутых словоформах, задания словаря каждого из нескольких языков, определения для упомянутой гипотезы слова показателей доверительности по упомянутым нескольким языкам, причем показатели определяют, исходя из того, содержится ли данная гипотеза слова в соответствующих словарях, задания в документе совокупности областей, каждая из которых содержит, по крайней мере, одно слово, определения показателя доверительности по языку для каждой области, исходя из показателей доверительности, сопоставляемых со словами данной области, и кластеризации областей, имеющих относительно высокие показатели доверительности по данному языку, с целью формирования подзоны, которую идентифицируют данным языком.
  2. 2. Способ по п.1, согласно которому гипотезу формируют только относительно слов, минимальная длина которых составляет, по крайней мере, два символа.
  3. 3. Способ по п.1, согласно которому упомянутые показатели доверительности для слов, относительно которых сформированы гипотезы, взвешиваются в соответствии с длинами слов, относительно которых сформированы гипотезы.
  4. 4. Способ по п. 1, дополнительно включающий в себя этапы определения вероятности распознавания для каждой гипотезы и взвешивания упомянутых показателей доверительности в соответствии с вероятностями распознавания.
  5. 5. Способ по п.1, согласно которому упомянутые показатели доверительности для слов, относительно которых сформированы гипотезы, взвешивают в соответствии с частотами, с которыми слова, относительно которых сформированы гипотезы, встречаются в соответствующих языках.
  6. 6. Способ по п.1, согласно которому упомянутую первоначальную гипотезу формируют с помощью классификатора, который является общим по отношению к каждому из упомянутых нескольких языков.
  7. 7. Способ автоматической сегментации документа на однородные по языку подзоны, включающий в себя этапы задания в документе, по крайней мере, одной зоны, которая содержит совокупность слов, задания словаря каждого из нескольких языков, определения для каждого слова данной зоны показателя доверительности по каждому из упомянутых нескольких языков, причем показатель определяют, исходя из того, содержится ли данное слово в соответствующих словарях, идентификации зонального языка для данной зоны, исходя из показателей доверительности, сопоставляемых со словами данной зоны, выбора в данной зоне локальной области, которая содержит, по крайней мере, одно слово, идентификации областного языка для данной локальной области, исходя из показателя доверительности, сопоставляемого со словами данной области;
    определения, совпадает ли областной язык с зональным языком, и сегрегации данной локальной области от других областей данной зоны, если ее областной язык не совпадает с зональным языком.
  8. 8. Способ автоматического определения одного или нескольких языков, сопоставляемых с текстом документа, включающий в себя этапы сегментации документа на совокупность зон, содержащих области, состоящие из словоформ, формирования, по крайней мере, одной гипотезы относительно символов в упомянутых словоформах, задания словаря каждого из нескольких языков, для каждого слова, относительно которого сформирована гипотеза, определения, какие из упомянутых словарей содержат гипотезу слова, и определения значения доверительности каждому языку, идентификации зонального языка для каждой зоны, исходя из значений доверительности, сопоставляемых со словами данной зоны, идентификации областного языка для каждой области, исходя из значений доверительности, сопоставляемых словами данной области, указания зонального языка в качестве областного языка, если значения доверительности, сопоставляемые со словами данной области, недостаточно высоки, и кластеризации областей зоны, которые имеют один и тот же областной язык, с целью формирования подзоны, которая идентифицируется тем или иным языком.
  9. 9. Способ по п.8, согласно которому гипотезу формируют только относительно слов, для которых заранее определено минимальное количество символов, превышающее единицу.
  10. 10. Способ по п.8, дополнительно включающий в себя этап взвешивания упомянутых значений доверительности в соответствии с длинами слов, относительно которых сформированы гипотезы.
  11. 11. Способ по п.8, дополнительно включающий в себя этапы определения вероятности распознавания для каждой гипотезы и взвешивания упомянутых значений доверительности в соответствии с вероятностями распознавания.
  12. 12. Способ по п.8, согласно которому упомянутую первоначальную гипотезу формируют с помощью классификатора, который является общим по отношению к каждому из упомянутых нескольких языков.
  13. 13. Способ автоматического определения одного или нескольких языков, сопоставляемых с текстом документа, включающий в себя этапы сегментации документа на совокупность словоформ, формирования, по крайней мере, одной гипотезы относительно символов в упомянутых словоформах, определения для каждой гипотезы слова показателя доверительности, который указывает, содержится ли данное слово в каждом из упомянутых нескольких языков, задания в документе совокупности областей, каждая из которых содержит, по крайней мере, одно слово, определения показателя доверительности по языку для каждой области, исходя из показателей доверительности, сопоставляемых со словами данной области, и кластеризации областей, имеющих относительно высокие показатели доверительности по данному языку, с целю формирования подзоны, которую идентифицируют данным языком.
  14. 14. Способ автоматической сегментации документа на однородные по языку подзоны, включающий в себя этапы задания в документе, по крайней мере, одной зоны, которая содержит совокупность слов, определения для каждого слова данной зоны показателя доверительности, который указывает, содержится ли данное слово в каждом из упомянутых нескольких языков, идентификации зонального языка для данной зоны, исходя из показателей доверительности, сопоставляемых со словами данной зоны, выбора в данной зоне локальной области, которая содержит, по крайней мере, одно слово, идентификации областного языка для данной локальной области, исходя из показателя доверительности, сопоставляемого со словами данной области, определения, совпадает ли областной язык с зональным языком, и сегрегации данной локальной области от других областей данной зоны, если ее областной язык не совпадает с зональным языком.
EA200000321A 1997-09-15 1997-11-20 Система автоматической идентификации языка для многоязычного оптического распознавания символов EA001689B1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/929,788 US6047251A (en) 1997-09-15 1997-09-15 Automatic language identification system for multilingual optical character recognition
PCT/US1997/018705 WO1999014708A1 (en) 1997-09-15 1997-11-20 Automatic language identification system for multilingual optical character recognition

Publications (2)

Publication Number Publication Date
EA200000321A1 EA200000321A1 (ru) 2000-10-30
EA001689B1 true EA001689B1 (ru) 2001-06-25

Family

ID=25458457

Family Applications (1)

Application Number Title Priority Date Filing Date
EA200000321A EA001689B1 (ru) 1997-09-15 1997-11-20 Система автоматической идентификации языка для многоязычного оптического распознавания символов

Country Status (8)

Country Link
US (1) US6047251A (ru)
EP (1) EP1016033B1 (ru)
CN (1) CN1122243C (ru)
AT (1) ATE243342T1 (ru)
AU (1) AU5424498A (ru)
DE (1) DE69722971T2 (ru)
EA (1) EA001689B1 (ru)
WO (1) WO1999014708A1 (ru)

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449718B1 (en) * 1999-04-09 2002-09-10 Xerox Corporation Methods and apparatus for partial encryption of tokenized documents
US20020023123A1 (en) * 1999-07-26 2002-02-21 Justin P. Madison Geographic data locator
AU784194B2 (en) 1999-11-10 2006-02-16 Pandora Media, Inc. Internet radio and broadcast method
US6389467B1 (en) 2000-01-24 2002-05-14 Friskit, Inc. Streaming media search and continuous playback system of media resources located by multiple network addresses
US6567801B1 (en) 2000-03-16 2003-05-20 International Business Machines Corporation Automatically initiating a knowledge portal query from within a displayed document
US6584469B1 (en) * 2000-03-16 2003-06-24 International Business Machines Corporation Automatically initiating a knowledge portal query from within a displayed document
EP1139231A1 (en) * 2000-03-31 2001-10-04 Fujitsu Limited Document processing apparatus and method
US6738745B1 (en) * 2000-04-07 2004-05-18 International Business Machines Corporation Methods and apparatus for identifying a non-target language in a speech recognition system
US7251665B1 (en) 2000-05-03 2007-07-31 Yahoo! Inc. Determining a known character string equivalent to a query string
US8352331B2 (en) * 2000-05-03 2013-01-08 Yahoo! Inc. Relationship discovery engine
US7162482B1 (en) * 2000-05-03 2007-01-09 Musicmatch, Inc. Information retrieval engine
US7024485B2 (en) * 2000-05-03 2006-04-04 Yahoo! Inc. System for controlling and enforcing playback restrictions for a media file by splitting the media file into usable and unusable portions for playback
US6678415B1 (en) * 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
WO2002005140A1 (en) * 2000-07-11 2002-01-17 Launch Media, Inc. Online playback system with community bias
US8271333B1 (en) 2000-11-02 2012-09-18 Yahoo! Inc. Content-related wallpaper
US7493250B2 (en) * 2000-12-18 2009-02-17 Xerox Corporation System and method for distributing multilingual documents
US7406529B2 (en) * 2001-02-09 2008-07-29 Yahoo! Inc. System and method for detecting and verifying digitized content over a computer network
US7574513B2 (en) 2001-04-30 2009-08-11 Yahoo! Inc. Controllable track-skipping
GB0111012D0 (en) 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US7707221B1 (en) 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7305483B2 (en) 2002-04-25 2007-12-04 Yahoo! Inc. Method for the real-time distribution of streaming data on a network
RU2251737C2 (ru) * 2002-10-18 2005-05-10 Аби Софтвер Лтд. Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
JP3919617B2 (ja) * 2002-07-09 2007-05-30 キヤノン株式会社 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US6669085B1 (en) * 2002-08-07 2003-12-30 Hewlett-Packard Development Company, L.P. Making language localization and telecommunications settings in a multi-function device through image scanning
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
FR2848688A1 (fr) * 2002-12-17 2004-06-18 France Telecom Identification de langue d'un texte
WO2005026916A2 (en) * 2003-09-10 2005-03-24 Musicmatch, Inc. Music purchasing and playing system and method
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
JP3890326B2 (ja) * 2003-11-07 2007-03-07 キヤノン株式会社 情報処理装置、情報処理方法ならびに記録媒体、プログラム
US8027832B2 (en) * 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
JP4311365B2 (ja) * 2005-03-25 2009-08-12 富士ゼロックス株式会社 文書処理装置およびプログラム
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
US8185376B2 (en) * 2006-03-20 2012-05-22 Microsoft Corporation Identifying language origin of words
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US7912289B2 (en) 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US9141607B1 (en) * 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
GB0717067D0 (en) * 2007-09-03 2007-10-10 Ibm An Apparatus for preparing a display document for analysis
US8233726B1 (en) * 2007-11-27 2012-07-31 Googe Inc. Image-domain script and language identification
US8073680B2 (en) * 2008-06-26 2011-12-06 Microsoft Corporation Language detection service
US8266514B2 (en) 2008-06-26 2012-09-11 Microsoft Corporation Map service
US8019596B2 (en) * 2008-06-26 2011-09-13 Microsoft Corporation Linguistic service platform
US8107671B2 (en) 2008-06-26 2012-01-31 Microsoft Corporation Script detection service
US8224641B2 (en) * 2008-11-19 2012-07-17 Stratify, Inc. Language identification for documents containing multiple languages
US8224642B2 (en) * 2008-11-20 2012-07-17 Stratify, Inc. Automated identification of documents as not belonging to any language
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
US8468011B1 (en) * 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
CN102024138B (zh) * 2009-09-15 2013-01-23 富士通株式会社 字符识别方法和字符识别装置
US8756215B2 (en) * 2009-12-02 2014-06-17 International Business Machines Corporation Indexing documents
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8635061B2 (en) * 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
JP5672003B2 (ja) * 2010-12-28 2015-02-18 富士通株式会社 文字認識処理装置及びプログラム
US8600730B2 (en) 2011-02-08 2013-12-03 Microsoft Corporation Language segmentation of multilingual texts
CN102156889A (zh) * 2011-03-31 2011-08-17 汉王科技股份有限公司 一种识别手写文本行语言类别的方法及装置
US9519641B2 (en) * 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
KR101686363B1 (ko) 2012-10-10 2016-12-13 모토로라 솔루션즈, 인크. 문서에 사용된 언어를 식별하고, 식별된 언어에 기초하여 ocr 인식을 수행하는 방법 및 장치
US9411801B2 (en) * 2012-12-21 2016-08-09 Abbyy Development Llc General dictionary for all languages
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
US9269352B2 (en) * 2013-05-13 2016-02-23 GM Global Technology Operations LLC Speech recognition with a plurality of microphones
CN103285360B (zh) * 2013-06-09 2014-09-17 王京涛 一种治疗血栓闭塞性脉管炎的中药制剂及其制备方法
BR112016002229A2 (pt) 2013-08-09 2017-08-01 Behavioral Recognition Sys Inc sistema de reconhecimento de comportamento neurolinguístico cognitivo para fusão de dados de multissensor
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
WO2016017009A1 (ja) * 2014-07-31 2016-02-04 楽天株式会社 メッセージ処理装置、メッセージ処理方法、記録媒体およびプログラム
US10963651B2 (en) 2015-06-05 2021-03-30 International Business Machines Corporation Reformatting of context sensitive data
JP6655331B2 (ja) * 2015-09-24 2020-02-26 Dynabook株式会社 電子機器及び方法
CN106598937B (zh) * 2015-10-16 2019-10-18 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN107092903A (zh) * 2016-02-18 2017-08-25 阿里巴巴集团控股有限公司 信息识别方法及装置
US10311330B2 (en) 2016-08-17 2019-06-04 International Business Machines Corporation Proactive input selection for improved image analysis and/or processing workflows
US10579741B2 (en) 2016-08-17 2020-03-03 International Business Machines Corporation Proactive input selection for improved machine translation
US10460192B2 (en) * 2016-10-21 2019-10-29 Xerox Corporation Method and system for optical character recognition (OCR) of multi-language content
US10579733B2 (en) 2018-05-10 2020-03-03 Google Llc Identifying codemixed text
US11720752B2 (en) * 2020-07-07 2023-08-08 Sap Se Machine learning enabled text analysis with multi-language support
WO2021081562A2 (en) * 2021-01-20 2021-04-29 Innopeak Technology, Inc. Multi-head text recognition model for multi-lingual optical character recognition

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988715A (en) * 1975-10-24 1976-10-26 International Business Machines Corporation Multi-channel recognition discriminator
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5182708A (en) * 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words

Also Published As

Publication number Publication date
EA200000321A1 (ru) 2000-10-30
DE69722971D1 (de) 2003-07-24
WO1999014708A1 (en) 1999-03-25
EP1016033B1 (en) 2003-06-18
EP1016033A1 (en) 2000-07-05
CN1276077A (zh) 2000-12-06
US6047251A (en) 2000-04-04
AU5424498A (en) 1999-04-05
CN1122243C (zh) 2003-09-24
DE69722971T2 (de) 2003-12-04
ATE243342T1 (de) 2003-07-15

Similar Documents

Publication Publication Date Title
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US5491760A (en) Method and apparatus for summarizing a document without document image decoding
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US6377704B1 (en) Method for inset detection in document layout analysis
RU2445699C1 (ru) Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
JPH0668301A (ja) 文字認識方法及び装置
US9008425B2 (en) Detection of numbered captions
US7099507B2 (en) Method and system for extracting title from document image
US20100131841A1 (en) Document image layout apparatus
CN111630521A (zh) 图像处理方法和图像处理系统
KR101486495B1 (ko) 사후 광학 문자 인식 처리에서의 형상 클러스터링 기법
CN113887375A (zh) 一种文本识别方法、装置、设备及存储介质
US11551461B2 (en) Text classification
CN113673294A (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
CN111860513A (zh) 光学字符识别支持系统
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP3159087B2 (ja) 文書照合装置および方法
García-Calderón et al. Unsupervised multi-language handwritten text line segmentation
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
EP4276676A1 (en) Information processing apparatus, information processing method, program, and storage medium for extracting a named entity from a document
JPH05128307A (ja) 文字認識装置
El Khayati et al. An Innovative Ground Truth Dataset for Automated Validation of Arabic Handwritten Character Segmentation Algorithms
CN117542056A (zh) 图文数据生成文本的方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM AZ BY KZ KG MD TJ TM RU