RU2016137529A - Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка - Google Patents

Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка Download PDF

Info

Publication number
RU2016137529A
RU2016137529A RU2016137529A RU2016137529A RU2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A
Authority
RU
Russia
Prior art keywords
target
lexical
initial
source
sentences
Prior art date
Application number
RU2016137529A
Other languages
English (en)
Other versions
RU2682002C2 (ru
RU2016137529A3 (ru
Inventor
Юрий Григорьевич Зеленков
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2016137529A priority Critical patent/RU2682002C2/ru
Priority to US15/607,557 priority patent/US10261989B2/en
Publication of RU2016137529A publication Critical patent/RU2016137529A/ru
Publication of RU2016137529A3 publication Critical patent/RU2016137529A3/ru
Application granted granted Critical
Publication of RU2682002C2 publication Critical patent/RU2682002C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Claims (76)

1. Исполняемый на компьютере способ сопоставления исходного лексического элемента исходного цифрового текста на первом языке с соответствующим целевым лексическим элементом целевого цифрового текста на втором языке, целевой цифровой текст является переводом исходного цифрового текста, способ выполняется на сервере, способ включает в себя:
получение сервером указания на исходный цифровой текст, который будет обработан, исходный цифровой текст включает в себя множество исходных предложений;
парсинг сервером по меньшей мере части множества исходных предложений на один или несколько исходных лексических элементов;
создание для каждого из одного или нескольких исходных лексических элементов исходного контекстного параметра, исходный контекстный параметр включает в себя:
первый набор исходных значений контекстно-зависимых отношений (CDR), каждое исходное значение CDR представляет собой отношение (i) числа исходных предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких исходных лексических элементов к (ii) общему числу исходных предложений, содержащих данный исходный лексический элемент; и
указание на одно или несколько исходных предложений, в которых встречается каждый из одного или нескольких исходных лексических элементов;
получение сервером указания на целевой цифровой текст, который будет обработан, целевой цифровой текст включает в себя множество целевых предложений;
парсинг сервером по меньшей мере части множества целевых предложений на один или несколько целевых лексических элементов;
создание для каждого из одного или нескольких целевых лексических элементов целевого контекстного параметра, целевой контекстный параметр включает в себя:
первый набор целевых значений CDR, каждое целевое значение CDR представляет собой отношение (i) числа целевых предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких целевых лексических элементов к (ii) общему числу целевых предложений, содержащих данный целевой лексический элемент;
указание на одно или несколько целевых предложений, в которых встречается каждый из одного или нескольких целевых лексических элементов;
выбор первого целевого лексического элемента, первый исходный лексический элемент, обладающий первым исходным контекстным параметром;
сравнение сервером первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы;
сопоставление первого исходного лексического элемента с первым целевым лексическим элементом, первый целевой лексический элемент является связанным с данным целевым контекстным параметром, обладающим наименьшим значением разницы.
2. Исполняемый на компьютере способ по п. 1, в котором:
парсинг каждого из множества исходных предложений и каждого из множества целевых предложений включает в себя назначение грамматического типа каждому слову из исходного текста и целевого цифрового текста; и
в котором лексический элемент представляет собой одно из следующего:
слово, которое было определено на основе соответствующего грамматического типа; и
фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.
3. Исполняемый на компьютере способ по п. 1, в котором сравнение первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы, включает в себя:
выбор первого исходного предложения, включающего в себя первый исходный лексический элемент;
для каждого целевого предложения из множества целевых предложений:
сравнение первого исходного контекстного параметра с одним или несколькими целевыми контекстными параметрами, связанными с одним или несколькими целевыми лексическими элементами, содержащими данное целевое предложение, для определения локального минимального значения, локальное минимальное значение указывает на предварительное соответствие первого исходного контекстного параметра с данным целевым контекстным параметром в данном целевом предложении; и
на основе определенного набора локальных минимальных значений, выбор локального минимального значения, которое является наименьшим значением разницы.
4. Исполняемый на компьютере способ по п. 3, в котором первый исходный лексический элемент и первый целевой лексический элемент, связанный с наименьшим значением разницы, является гипотезой эквивалентности перевода.
5. Исполняемый на компьютере способ по п. 4, способ далее включает в себя проверку гипотезы эквивалентности перевода путем:
создания для каждого из одного или нескольких исходных лексических элементов, второго набора исходных значений контекстно-независимых отношений (CIR), каждое исходное значение CIR представляет собой отношение (i) числа общих слов между данным исходным лексическим элементом и каждым из одного или нескольких исходных лексических элементов к (ii) числу слов данного исходного лексического элемента;
создания для каждого из одного или нескольких целевых лексических элементов, второго набора целевых значений CIR, каждое целевое значение CIR представляет собой отношение (i) числа общих слов между данным целевым лексическим элементом и каждым из одного или нескольких целевых лексических элементов к (ii) числу слов данного целевого лексического элемента; и
определения того, что сходство набора исходных значений CIR, связанных с первым исходным лексическим элементом, с набором целевых значений CIR, связанных с первым целевым лексическим элементом находится выше заранее определенного порога.
6. Исполняемый на компьютере способ по п. 1, который далее выполнен с возможностью сопоставлять каждый исходный лексический элемент с каждым целевым лексическим элементом и сохранять сопоставление в базе данных сопоставлений.
7. Исполняемый на компьютере способ по п. 6, в котором после завершения сопоставления каждого исходного лексического элемента с каждым целевым лексическим элементом, способ далее включает в себя сопоставление первого исходного предложения с первым целевым предложением, первое целевое предложение является эквивалентом перевода первого исходного предложения, путем:
идентификации набора исходных лексических элементов, включающих первое исходное предложение;
получения из базы данных сопоставлений набора целевых лексических элементов, соответствующих набору исходных лексических элементов; и
идентификации первого целевого предложения, включающего в себя набор целевых лексических элементов.
8. Исполняемый на компьютере способ по п. 7, в котором после определения того, что ни одно из целевых предложений не содержит набор целевых лексических элементов, определение набора целевых предложений, набор целевых предложений содержит два или более соседних целевых предложений, включающих в себя набор целевых лексических элементов.
9. Исполняемый на компьютере способ по п. 1, в котором получение указаний на исходный цифровой текст и целевой цифровой текст включает в себя получение указаний на исходный цифровой текст и целевой цифровой текст от соответствующего устройства памяти.
10. Исполняемый на компьютере способ по п. 1, в котором получение указаний на исходный цифровой текст и целевой цифровой текст включает в себя получение указаний на исходный цифровой текст и целевой цифровой текст из приложения по обработке текста, приложение по обработке текста обладает ранее созданным целевым цифровым текстом в ответ на получение исходного цифрового текста от электронного устройства.
11. Сервер для сопоставления исходного лексического элемента исходного цифрового текста на первом языке с соответствующим целевым лексическим элементом целевого цифрового текста на втором языке, целевой цифровой текст является переводом исходного цифрового текста, сервер включает в себя:
сетевой интерфейс для коммуникативного соединения сети передачи данных;
процессор, соединенный с сетевым интерфейсом и выполненный с возможностью осуществлять:
получение сервером указания на исходный цифровой текст, который будет обработан, исходный цифровой текст включает в себя множество исходных предложений;
парсинг сервером по меньшей мере части множества исходных предложений на один или несколько исходных лексических элементов;
создание для каждого из одного или нескольких исходных лексических элементов исходного контекстного параметра, исходный контекстный параметр включает в себя:
первый набор исходных значений контекстно-зависимых отношений (CDR), каждое исходное значение CDR представляет собой отношение (i) числа исходных предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких исходных лексических элементов к (ii) общему числу исходных предложений, содержащих данный исходный лексический элемент; и
указание на одно или несколько исходных предложений, в которых встречается каждый из одного или нескольких исходных лексических элементов;
получение сервером указания на целевой цифровой текст, который будет обработан, целевой цифровой текст включает в себя множество целевых предложений;
парсинг сервером по меньшей мере части множества целевых предложений на один или несколько целевых лексических элементов;
создание для каждого из одного или нескольких целевых лексических элементов целевого контекстного параметра, целевой контекстный параметр включает в себя:
первый набор целевых значений CDR, каждое целевое значение CDR представляет собой отношение (i) числа целевых предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких целевых лексических элементов к (ii) общему числу целевых предложений, содержащих данный целевой лексический элемент;
указание на одно или несколько целевых предложений, в которых встречается каждый из одного или нескольких целевых лексических элементов;
выбор первого целевого лексического элемента, первый исходный лексический элемент, обладающий первым исходным контекстным параметром;
сравнение сервером первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы;
сопоставление первого исходного лексического элемента с первым целевым лексическим элементом, первый целевой лексический элемент является связанным с данным целевым контекстным параметром, обладающим наименьшим значением разницы.
12. Сервер по п. 11, в котором:
парсинг каждого из множества исходных предложений и каждого из множества целевых предложений включает в себя назначение грамматического типа каждому слову из исходного текста и целевого цифрового текста; и
в котором лексический элемент представляет собой одно из следующего:
слово, которое было определено на основе соответствующего грамматического типа; и
фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.
13. Сервер по п. 11, в котором сравнение первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы, включает в себя:
выбор первого исходного предложения, включающего в себя первый исходный лексический элемент;
для каждого целевого предложения из множества целевых предложений:
сравнение первого исходного контекстного параметра с одним или несколькими целевыми контекстными параметрами, связанными с одним или несколькими целевыми лексическими элементами, содержащими данное целевое предложение, для определения локального минимального значения, локальное минимальное значение указывает на предварительное соответствие первого исходного контекстного параметра с данным целевым контекстным параметром в данном целевом предложении; и
на основе определенного набора локальных минимальных значений, выбор локального минимального значения, которое является наименьшим значением разницы.
14. Сервер по п. 13, в котором первый исходный лексический элемент и первый целевой лексический элемент, связанный с наименьшим значением разницы, является гипотезой эквивалентности перевода.
15. Сервер по п. 14, в котором процессор дополнительно выполнен с возможностью осуществлять проверку гипотезы перевода путем:
создания для каждого из одного или нескольких исходных лексических элементов, второго набора исходных значений контекстно-независимых отношений (CIR), каждое исходное значение CIR представляет собой отношение (i) числа общих слов между данным исходным лексическим элементом и каждым из одного или нескольких исходных лексических элементов к (ii) числу слов данного исходного лексического элемента;
создания для каждого из одного или нескольких целевых лексических элементов, второго набора целевых значений CIR, каждое целевое значение CIR представляет собой отношение (i) числа общих слов между данным целевым лексическим элементом и каждым из одного или нескольких целевых лексических элементов к (ii) числу слов данного целевого лексического элемента; и
определения того, что сходство набора исходных значений CIR, связанных с первым исходным лексическим элементом, с набором целевых значений CIR, связанных с первым целевым лексическим элементом, находится выше заранее определенного порога.
16. Сервер по п. 11, в котором процессор далее выполнен с возможностью сопоставлять каждый исходный лексический элемент с каждым целевым лексическим элементом и сохранять сопоставление в базе данных сопоставлений.
17. Сервер по п. 16, в котором после завершения сопоставления каждого исходного лексического элемента с каждым целевым лексическим элементом, процессор выполнен с возможностью осуществлять сопоставление первого исходного предложения с первым целевым предложением, первое целевое предложение является эквивалентом перевода первого исходного предложения, путем:
идентификации набора исходных лексических элементов, включающих первое исходное предложение;
получения из базы данных сопоставлений набора целевых лексических элементов, соответствующих набору исходных лексических элементов; и
идентификации первого целевого предложения, включающего в себя набор целевых лексических элементов.
18. Сервер по п. 17, в котором после определения того, что ни одно из целевых предложений не содержит набор целевых лексических элементов, определение набора целевых предложений, набор целевых предложений содержит два или более соседних целевых предложений, включающих в себя набор целевых лексических элементов.
19. Сервер по п. 11, в котором указания на исходный цифровой текст и целевой цифровой текст получают из соответствующего устройства памяти.
20. Сервер по п. 11, в котором указания на исходный цифровой текст и целевой цифровой текст получают от приложения по обработке текста, приложение по обработке текста обладает ранее созданным целевым цифровым текстом в ответ на получение исходного цифрового текста от электронного устройства.
RU2016137529A 2016-09-20 2016-09-20 Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка RU2682002C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2016137529A RU2682002C2 (ru) 2016-09-20 2016-09-20 Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
US15/607,557 US10261989B2 (en) 2016-09-20 2017-05-29 Method of and system for mapping a source lexical unit of a first language to a target lexical unit of a second language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016137529A RU2682002C2 (ru) 2016-09-20 2016-09-20 Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка

Publications (3)

Publication Number Publication Date
RU2016137529A true RU2016137529A (ru) 2018-12-14
RU2016137529A3 RU2016137529A3 (ru) 2018-12-14
RU2682002C2 RU2682002C2 (ru) 2019-03-14

Family

ID=61620433

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016137529A RU2682002C2 (ru) 2016-09-20 2016-09-20 Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка

Country Status (2)

Country Link
US (1) US10261989B2 (ru)
RU (1) RU2682002C2 (ru)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
RU2767965C2 (ru) 2019-06-19 2022-03-22 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке
USD917549S1 (en) 2019-06-20 2021-04-27 Yandex Europe Ag Display screen or portion thereof with graphical user interface
RU2751993C1 (ru) * 2020-09-09 2021-07-21 Глеб Валерьевич Данилов Способ извлечения информации из неструктурированных текстов, написанных на естественном языке
US11900073B2 (en) * 2021-09-07 2024-02-13 Lilt, Inc. Partial execution of translation in browser

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442782A (en) * 1993-08-13 1995-08-15 Peoplesoft, Inc. Providing information from a multilingual database of language-independent and language-dependent items
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US9047275B2 (en) * 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8688690B2 (en) 2010-04-15 2014-04-01 Palo Alto Research Center Incorporated Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2607975C2 (ru) * 2014-03-31 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Построение корпуса сравнимых документов на основе универсальной меры похожести

Also Published As

Publication number Publication date
US10261989B2 (en) 2019-04-16
US20180081870A1 (en) 2018-03-22
RU2682002C2 (ru) 2019-03-14
RU2016137529A3 (ru) 2018-12-14

Similar Documents

Publication Publication Date Title
RU2016137529A (ru) Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка
KR102163549B1 (ko) 선행사의 결정방법 및 장치
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答系统
WO2018120889A1 (zh) 输入语句的纠错方法、装置、电子设备及介质
US10860800B2 (en) Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
US10089300B2 (en) Apparatus and method for amending language analysis error
JP2017097882A (ja) 機械翻訳評価方法および装置、並びに機械翻訳方法および装置
CN107291684B (zh) 语言文本的分词方法和系统
US8600730B2 (en) Language segmentation of multilingual texts
MX2016005489A (es) Metodo y aparato para determinar similitud y terminal.
TWI553491B (zh) 問句處理系統及其方法
CN106339366B (zh) 基于人工智能的需求识别的方法和装置
US20160217122A1 (en) Apparatus for generating self-learning alignment-based alignment corpus, method therefor, apparatus for analyzing destructne expression morpheme by using alignment corpus, and morpheme analysis method therefor
US10528606B2 (en) Method for providing search suggestion candidates for input key and method for creating database DFA
CN111368506B (zh) 文本处理方法及装置
CN105095178A (zh) 实现文本语义容错理解的方法及系统
EP2833269B1 (en) Terminology verification system and method for machine translation services for domain-specific texts
RU2016137530A (ru) Способ и система автоматического создания тезауруса
CN112395880A (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
US9495147B2 (en) Method and apparatus for obtaining context information for a software development task
Angle et al. Automated error correction and validation for POS tagging of Hindi
RU2013157757A (ru) Обнаружение языковой неоднозначности в тексте
Ravishankar Finite-state back-transliteration for Marathi
CN111859089A (zh) 一种用于互联网信息的错词检测控制方法