RU2016137529A - Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка - Google Patents
Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка Download PDFInfo
- Publication number
- RU2016137529A RU2016137529A RU2016137529A RU2016137529A RU2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A RU 2016137529 A RU2016137529 A RU 2016137529A
- Authority
- RU
- Russia
- Prior art keywords
- target
- lexical
- initial
- source
- sentences
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Claims (76)
1. Исполняемый на компьютере способ сопоставления исходного лексического элемента исходного цифрового текста на первом языке с соответствующим целевым лексическим элементом целевого цифрового текста на втором языке, целевой цифровой текст является переводом исходного цифрового текста, способ выполняется на сервере, способ включает в себя:
получение сервером указания на исходный цифровой текст, который будет обработан, исходный цифровой текст включает в себя множество исходных предложений;
парсинг сервером по меньшей мере части множества исходных предложений на один или несколько исходных лексических элементов;
создание для каждого из одного или нескольких исходных лексических элементов исходного контекстного параметра, исходный контекстный параметр включает в себя:
первый набор исходных значений контекстно-зависимых отношений (CDR), каждое исходное значение CDR представляет собой отношение (i) числа исходных предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких исходных лексических элементов к (ii) общему числу исходных предложений, содержащих данный исходный лексический элемент; и
указание на одно или несколько исходных предложений, в которых встречается каждый из одного или нескольких исходных лексических элементов;
получение сервером указания на целевой цифровой текст, который будет обработан, целевой цифровой текст включает в себя множество целевых предложений;
парсинг сервером по меньшей мере части множества целевых предложений на один или несколько целевых лексических элементов;
создание для каждого из одного или нескольких целевых лексических элементов целевого контекстного параметра, целевой контекстный параметр включает в себя:
первый набор целевых значений CDR, каждое целевое значение CDR представляет собой отношение (i) числа целевых предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких целевых лексических элементов к (ii) общему числу целевых предложений, содержащих данный целевой лексический элемент;
указание на одно или несколько целевых предложений, в которых встречается каждый из одного или нескольких целевых лексических элементов;
выбор первого целевого лексического элемента, первый исходный лексический элемент, обладающий первым исходным контекстным параметром;
сравнение сервером первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы;
сопоставление первого исходного лексического элемента с первым целевым лексическим элементом, первый целевой лексический элемент является связанным с данным целевым контекстным параметром, обладающим наименьшим значением разницы.
2. Исполняемый на компьютере способ по п. 1, в котором:
парсинг каждого из множества исходных предложений и каждого из множества целевых предложений включает в себя назначение грамматического типа каждому слову из исходного текста и целевого цифрового текста; и
в котором лексический элемент представляет собой одно из следующего:
слово, которое было определено на основе соответствующего грамматического типа; и
фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.
3. Исполняемый на компьютере способ по п. 1, в котором сравнение первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы, включает в себя:
выбор первого исходного предложения, включающего в себя первый исходный лексический элемент;
для каждого целевого предложения из множества целевых предложений:
сравнение первого исходного контекстного параметра с одним или несколькими целевыми контекстными параметрами, связанными с одним или несколькими целевыми лексическими элементами, содержащими данное целевое предложение, для определения локального минимального значения, локальное минимальное значение указывает на предварительное соответствие первого исходного контекстного параметра с данным целевым контекстным параметром в данном целевом предложении; и
на основе определенного набора локальных минимальных значений, выбор локального минимального значения, которое является наименьшим значением разницы.
4. Исполняемый на компьютере способ по п. 3, в котором первый исходный лексический элемент и первый целевой лексический элемент, связанный с наименьшим значением разницы, является гипотезой эквивалентности перевода.
5. Исполняемый на компьютере способ по п. 4, способ далее включает в себя проверку гипотезы эквивалентности перевода путем:
создания для каждого из одного или нескольких исходных лексических элементов, второго набора исходных значений контекстно-независимых отношений (CIR), каждое исходное значение CIR представляет собой отношение (i) числа общих слов между данным исходным лексическим элементом и каждым из одного или нескольких исходных лексических элементов к (ii) числу слов данного исходного лексического элемента;
создания для каждого из одного или нескольких целевых лексических элементов, второго набора целевых значений CIR, каждое целевое значение CIR представляет собой отношение (i) числа общих слов между данным целевым лексическим элементом и каждым из одного или нескольких целевых лексических элементов к (ii) числу слов данного целевого лексического элемента; и
определения того, что сходство набора исходных значений CIR, связанных с первым исходным лексическим элементом, с набором целевых значений CIR, связанных с первым целевым лексическим элементом находится выше заранее определенного порога.
6. Исполняемый на компьютере способ по п. 1, который далее выполнен с возможностью сопоставлять каждый исходный лексический элемент с каждым целевым лексическим элементом и сохранять сопоставление в базе данных сопоставлений.
7. Исполняемый на компьютере способ по п. 6, в котором после завершения сопоставления каждого исходного лексического элемента с каждым целевым лексическим элементом, способ далее включает в себя сопоставление первого исходного предложения с первым целевым предложением, первое целевое предложение является эквивалентом перевода первого исходного предложения, путем:
идентификации набора исходных лексических элементов, включающих первое исходное предложение;
получения из базы данных сопоставлений набора целевых лексических элементов, соответствующих набору исходных лексических элементов; и
идентификации первого целевого предложения, включающего в себя набор целевых лексических элементов.
8. Исполняемый на компьютере способ по п. 7, в котором после определения того, что ни одно из целевых предложений не содержит набор целевых лексических элементов, определение набора целевых предложений, набор целевых предложений содержит два или более соседних целевых предложений, включающих в себя набор целевых лексических элементов.
9. Исполняемый на компьютере способ по п. 1, в котором получение указаний на исходный цифровой текст и целевой цифровой текст включает в себя получение указаний на исходный цифровой текст и целевой цифровой текст от соответствующего устройства памяти.
10. Исполняемый на компьютере способ по п. 1, в котором получение указаний на исходный цифровой текст и целевой цифровой текст включает в себя получение указаний на исходный цифровой текст и целевой цифровой текст из приложения по обработке текста, приложение по обработке текста обладает ранее созданным целевым цифровым текстом в ответ на получение исходного цифрового текста от электронного устройства.
11. Сервер для сопоставления исходного лексического элемента исходного цифрового текста на первом языке с соответствующим целевым лексическим элементом целевого цифрового текста на втором языке, целевой цифровой текст является переводом исходного цифрового текста, сервер включает в себя:
сетевой интерфейс для коммуникативного соединения сети передачи данных;
процессор, соединенный с сетевым интерфейсом и выполненный с возможностью осуществлять:
получение сервером указания на исходный цифровой текст, который будет обработан, исходный цифровой текст включает в себя множество исходных предложений;
парсинг сервером по меньшей мере части множества исходных предложений на один или несколько исходных лексических элементов;
создание для каждого из одного или нескольких исходных лексических элементов исходного контекстного параметра, исходный контекстный параметр включает в себя:
первый набор исходных значений контекстно-зависимых отношений (CDR), каждое исходное значение CDR представляет собой отношение (i) числа исходных предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких исходных лексических элементов к (ii) общему числу исходных предложений, содержащих данный исходный лексический элемент; и
указание на одно или несколько исходных предложений, в которых встречается каждый из одного или нескольких исходных лексических элементов;
получение сервером указания на целевой цифровой текст, который будет обработан, целевой цифровой текст включает в себя множество целевых предложений;
парсинг сервером по меньшей мере части множества целевых предложений на один или несколько целевых лексических элементов;
создание для каждого из одного или нескольких целевых лексических элементов целевого контекстного параметра, целевой контекстный параметр включает в себя:
первый набор целевых значений CDR, каждое целевое значение CDR представляет собой отношение (i) числа целевых предложений, в которых совместно встречаются данный исходный лексический элемент и каждый из одного или нескольких целевых лексических элементов к (ii) общему числу целевых предложений, содержащих данный целевой лексический элемент;
указание на одно или несколько целевых предложений, в которых встречается каждый из одного или нескольких целевых лексических элементов;
выбор первого целевого лексического элемента, первый исходный лексический элемент, обладающий первым исходным контекстным параметром;
сравнение сервером первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы;
сопоставление первого исходного лексического элемента с первым целевым лексическим элементом, первый целевой лексический элемент является связанным с данным целевым контекстным параметром, обладающим наименьшим значением разницы.
12. Сервер по п. 11, в котором:
парсинг каждого из множества исходных предложений и каждого из множества целевых предложений включает в себя назначение грамматического типа каждому слову из исходного текста и целевого цифрового текста; и
в котором лексический элемент представляет собой одно из следующего:
слово, которое было определено на основе соответствующего грамматического типа; и
фразу, которая является группой из двух или более слов, определенных на основе соответствующего грамматического типа одного из двух или более слов.
13. Сервер по п. 11, в котором сравнение первого исходного контекстного параметра со множеством целевых контекстных параметров для определения данного целевого контекстного параметра, обладающего наименьшим значением разницы, включает в себя:
выбор первого исходного предложения, включающего в себя первый исходный лексический элемент;
для каждого целевого предложения из множества целевых предложений:
сравнение первого исходного контекстного параметра с одним или несколькими целевыми контекстными параметрами, связанными с одним или несколькими целевыми лексическими элементами, содержащими данное целевое предложение, для определения локального минимального значения, локальное минимальное значение указывает на предварительное соответствие первого исходного контекстного параметра с данным целевым контекстным параметром в данном целевом предложении; и
на основе определенного набора локальных минимальных значений, выбор локального минимального значения, которое является наименьшим значением разницы.
14. Сервер по п. 13, в котором первый исходный лексический элемент и первый целевой лексический элемент, связанный с наименьшим значением разницы, является гипотезой эквивалентности перевода.
15. Сервер по п. 14, в котором процессор дополнительно выполнен с возможностью осуществлять проверку гипотезы перевода путем:
создания для каждого из одного или нескольких исходных лексических элементов, второго набора исходных значений контекстно-независимых отношений (CIR), каждое исходное значение CIR представляет собой отношение (i) числа общих слов между данным исходным лексическим элементом и каждым из одного или нескольких исходных лексических элементов к (ii) числу слов данного исходного лексического элемента;
создания для каждого из одного или нескольких целевых лексических элементов, второго набора целевых значений CIR, каждое целевое значение CIR представляет собой отношение (i) числа общих слов между данным целевым лексическим элементом и каждым из одного или нескольких целевых лексических элементов к (ii) числу слов данного целевого лексического элемента; и
определения того, что сходство набора исходных значений CIR, связанных с первым исходным лексическим элементом, с набором целевых значений CIR, связанных с первым целевым лексическим элементом, находится выше заранее определенного порога.
16. Сервер по п. 11, в котором процессор далее выполнен с возможностью сопоставлять каждый исходный лексический элемент с каждым целевым лексическим элементом и сохранять сопоставление в базе данных сопоставлений.
17. Сервер по п. 16, в котором после завершения сопоставления каждого исходного лексического элемента с каждым целевым лексическим элементом, процессор выполнен с возможностью осуществлять сопоставление первого исходного предложения с первым целевым предложением, первое целевое предложение является эквивалентом перевода первого исходного предложения, путем:
идентификации набора исходных лексических элементов, включающих первое исходное предложение;
получения из базы данных сопоставлений набора целевых лексических элементов, соответствующих набору исходных лексических элементов; и
идентификации первого целевого предложения, включающего в себя набор целевых лексических элементов.
18. Сервер по п. 17, в котором после определения того, что ни одно из целевых предложений не содержит набор целевых лексических элементов, определение набора целевых предложений, набор целевых предложений содержит два или более соседних целевых предложений, включающих в себя набор целевых лексических элементов.
19. Сервер по п. 11, в котором указания на исходный цифровой текст и целевой цифровой текст получают из соответствующего устройства памяти.
20. Сервер по п. 11, в котором указания на исходный цифровой текст и целевой цифровой текст получают от приложения по обработке текста, приложение по обработке текста обладает ранее созданным целевым цифровым текстом в ответ на получение исходного цифрового текста от электронного устройства.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016137529A RU2682002C2 (ru) | 2016-09-20 | 2016-09-20 | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка |
US15/607,557 US10261989B2 (en) | 2016-09-20 | 2017-05-29 | Method of and system for mapping a source lexical unit of a first language to a target lexical unit of a second language |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016137529A RU2682002C2 (ru) | 2016-09-20 | 2016-09-20 | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2016137529A true RU2016137529A (ru) | 2018-12-14 |
RU2016137529A3 RU2016137529A3 (ru) | 2018-12-14 |
RU2682002C2 RU2682002C2 (ru) | 2019-03-14 |
Family
ID=61620433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016137529A RU2682002C2 (ru) | 2016-09-20 | 2016-09-20 | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка |
Country Status (2)
Country | Link |
---|---|
US (1) | US10261989B2 (ru) |
RU (1) | RU2682002C2 (ru) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2642413C2 (ru) * | 2016-02-09 | 2018-01-24 | Общество С Ограниченной Ответственностью "Яндекс" | Способ (варианты) и сервер обработки текста |
RU2767965C2 (ru) | 2019-06-19 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке |
USD917549S1 (en) | 2019-06-20 | 2021-04-27 | Yandex Europe Ag | Display screen or portion thereof with graphical user interface |
RU2751993C1 (ru) * | 2020-09-09 | 2021-07-21 | Глеб Валерьевич Данилов | Способ извлечения информации из неструктурированных текстов, написанных на естественном языке |
US11900073B2 (en) * | 2021-09-07 | 2024-02-13 | Lilt, Inc. | Partial execution of translation in browser |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442782A (en) * | 1993-08-13 | 1995-08-15 | Peoplesoft, Inc. | Providing information from a multilingual database of language-independent and language-dependent items |
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
US9047275B2 (en) * | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8688690B2 (en) | 2010-04-15 | 2014-04-01 | Palo Alto Research Center Incorporated | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
-
2016
- 2016-09-20 RU RU2016137529A patent/RU2682002C2/ru active
-
2017
- 2017-05-29 US US15/607,557 patent/US10261989B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10261989B2 (en) | 2019-04-16 |
US20180081870A1 (en) | 2018-03-22 |
RU2682002C2 (ru) | 2019-03-14 |
RU2016137529A3 (ru) | 2018-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2016137529A (ru) | Способ и система для сопоставления исходного лексического элемента первого языка с целевым лексическим элементом второго языка | |
KR102163549B1 (ko) | 선행사의 결정방법 및 장치 | |
WO2018157805A1 (zh) | 一种自动问答处理方法及自动问答系统 | |
WO2018120889A1 (zh) | 输入语句的纠错方法、装置、电子设备及介质 | |
US10860800B2 (en) | Information processing method, information processing apparatus, and program for solving a specific task using a model of a dialogue system | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
US10089300B2 (en) | Apparatus and method for amending language analysis error | |
JP2017097882A (ja) | 機械翻訳評価方法および装置、並びに機械翻訳方法および装置 | |
CN107291684B (zh) | 语言文本的分词方法和系统 | |
US8600730B2 (en) | Language segmentation of multilingual texts | |
MX2016005489A (es) | Metodo y aparato para determinar similitud y terminal. | |
TWI553491B (zh) | 問句處理系統及其方法 | |
CN106339366B (zh) | 基于人工智能的需求识别的方法和装置 | |
US20160217122A1 (en) | Apparatus for generating self-learning alignment-based alignment corpus, method therefor, apparatus for analyzing destructne expression morpheme by using alignment corpus, and morpheme analysis method therefor | |
US10528606B2 (en) | Method for providing search suggestion candidates for input key and method for creating database DFA | |
CN111368506B (zh) | 文本处理方法及装置 | |
CN105095178A (zh) | 实现文本语义容错理解的方法及系统 | |
EP2833269B1 (en) | Terminology verification system and method for machine translation services for domain-specific texts | |
RU2016137530A (ru) | Способ и система автоматического создания тезауруса | |
CN112395880A (zh) | 结构化三元组的纠错方法、装置、计算机设备及存储介质 | |
US9495147B2 (en) | Method and apparatus for obtaining context information for a software development task | |
Angle et al. | Automated error correction and validation for POS tagging of Hindi | |
RU2013157757A (ru) | Обнаружение языковой неоднозначности в тексте | |
Ravishankar | Finite-state back-transliteration for Marathi | |
CN111859089A (zh) | 一种用于互联网信息的错词检测控制方法 |