CN115618087A - 对多语言翻译语料进行存储、搜索和显示方法及装置 - Google Patents
对多语言翻译语料进行存储、搜索和显示方法及装置 Download PDFInfo
- Publication number
- CN115618087A CN115618087A CN202211552733.7A CN202211552733A CN115618087A CN 115618087 A CN115618087 A CN 115618087A CN 202211552733 A CN202211552733 A CN 202211552733A CN 115618087 A CN115618087 A CN 115618087A
- Authority
- CN
- China
- Prior art keywords
- corpus
- search
- text
- data
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种对多语言翻译语料进行存储、搜索和显示方法及装置;方法包括:通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,并通过语料库后端服务生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到浏览器的显示窗口中进行对齐显示。本发明可实现辅助翻译,提升译员们的效率。
Description
技术领域
本发明属于智能搜索技术领域以及自然语言处理领域,具体涉及一种对多语言翻译语料进行存储、搜索和显示方法及装置。
背景技术
在翻译译员们进行语音翻译时,需要从自己以前翻译过的文本或其他译员历史工作中找到相关的翻译语料数据进行参考,以提升翻译的效率。因此,在翻译工作中,帮助翻译译员们存储记忆自己或其他译员们之前曾经翻译过的语料数据,并在需要参考时,能够快速查找到相关语料数据并形成原文和译文的对照显示的方法及装置成为一种需求。
并且,通常存储的原文和译文语料为包含多个句子的段落语料。并且由于不同语种的表达方式不同,存在原文句与译文句不能直接对应的情况。在进行原文和译文显示时,如果原文句和译文句不能直接对照显示,就需译员自己进行原文句和相应的译文句人工查询。会增加译员的工作量,降低翻译效率。
发明内容
鉴于上述的分析,本发明旨在公开了一种对多语言翻译语料进行存储、搜索和显示方法及装置,以实现辅助翻译,提升译员们翻译效率。
本发明公开了一种对多语言翻译语料进行存储、搜索和显示方法,包括以下步骤:
语料数据存储步骤;通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;所述新增语料为成段的、包括原文和与原文对应的至少一种语种译文的原—译文语料;
语料数据搜索步骤;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;
搜索结果处理显示步骤:语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到客户端浏览器中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
进一步地,所述语料数据存储步骤,包括:
步骤S101、通过浏览器界面的语料输入窗口发起新增语料请求;输入包括语料的原文、译文、年份、出处和领域在内的新增语料的属性信息;
步骤S102、浏览器将新增语料请求发送至语料库后端服务;
步骤S103、语料库后端服务收到请求后,解析得到新增语料的属性信息;并判断出新增语料的原文语言,根据原文语言进行分词预处理后,存储到Elasticsearch的索引中。
进一步地,对于一对一单语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
进一步地,对于一对N的多语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、第1译文文本、…、第i译文文本、…、第N译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
进一步地,所述语料数据搜索步骤,包括:
步骤S201、通过在浏览器界面上设置的搜索过滤窗口输入搜索关键词以及包括年份、出处和权威等级在内的搜索过滤条件,点击“搜索”按钮后,浏览器将搜索请求发送至语料库后端服务;
步骤S202、语料库后端服务收到请求后,解析得到搜索关键词以及搜索过滤条件,并进行预处理,拼接组合得到目标Elasticsearch DSL查询语句、查询方式以及查询路径;
步骤S203、利用RestClient组件与Elasticsearch建立查询连接;
步骤S204、建立连接后,将拼接好的Elasticsearch DSL查询语句,以及查询方式和查询路径发送给Elasticsearch;
步骤S205、然后Elasticsearch根据指定的DSL查询语句、查询方式和查询路径进行数据搜索,并将搜索到的目标数据通过RestClient组件之间的连接返回给语料库后端服务。
进一步地,在后端服务拼接Elasticsearch DSL查询语句时,对于用户输入的原文查询关键词,会设置成将完全匹配的数据进行提取,使之尽可能排在前面,其余模糊匹配的搜索结果,按默认的BM25排序算法计算出的相关行分值进行排序;当包括年份、权威等级和语料类型在内的搜索过滤项,拼接DSL查询语句时,将所述搜索过滤项转换成TermQuery方式进行布尔查询过滤。
进一步地,在搜索结果处理显示步骤中,原文和译文的逐句对齐显示的方法包括:
步骤S301、将搜索结果中的译文文本根据标点符号逐句翻译,形成与译文文本句对齐的第二原文文本;
步骤S302、将翻译的第二原文文本与原文文本进行滑动窗口相似度匹配;实现第二原文文本和原文文本的句匹配对齐;
步骤S303、根据译文文本和第二原文文本的对齐关系,以及第二原文文本和原文文本的句匹配对齐关系,将译文文本与原文文本逐句对齐显示。
进一步地,所述步骤S302中,基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分;实现第二原文文本和原文文本的句匹配对齐。
进一步地,滑动窗口相似度匹配和基于鸽巢原理的组合拆分过程包括:
1)将第二原文文本和原文文本分别进行分词得到一系列相互独立的词语;根据词语对文档的重要程度对每个词语赋以一个权值以表示该词的权重;得到分词后的文本表示;
2)将进行分词和赋以权重的第二原文文本和原文文本输入到基于神经网络的滑窗模型中,进行相似度匹配,得到词与词之间的相似度值;
3)基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分和对齐;
本发明还公开了一种对多语言翻译语料进行存储、搜索和显示装置,包括用户端、语料库和语料库后端服务;
所述用户端为Web浏览器,通过Web浏览器向用户提供语料输入窗口、搜索过滤窗口和语料显示窗口;
所述语料输入窗口为语料数据存储时的输入窗口,所述搜索过滤窗口为语料数据搜索时的输入窗口,所述语料显示窗口为对搜索结果处理后的显示窗口;
所述语料库包括Elasticsearch和MySQL关系型数据库;其中,Elasticsearch用于存放语料数据,MySQL关系型数据库用于存放与语料数据相关的包括用户信息和语料专业领域在内的业务数据;
所述语料库后端服务,用于在语料数据存储时,将通过在浏览器界面上设置的语料输入窗口输入新增语料存储到Elasticsearch的索引中;在语料数据搜索时,将通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径,输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;在搜索结果显示时,根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到客户端浏览器中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
本发明可实现以下有益效果之一:
本发明公开的对多语言翻译语料进行存储、搜索和显示方法及装置,用于帮助翻译译员们存储记忆自己或其他译员们之前曾经翻译过的语料数据,便于下次再翻译类似文本的过程中,通过进行快速查找,得到文本相似的翻译语料数据进行参考,达到辅助翻译工作的目的,提升译员们的效率。
另外,在本发明中还使用了深度学习语义相似度计算和文本翻译,并结合组合数学中鸽巢原理设计的智能滑动窗口算法,提供对原—译文文本进行智能拆分匹配的工具,对翻译任务场景进行原—译文按段落句子尝试智能拆分匹配,提升原—译文双语文本的对齐效率。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例中的对多语言翻译语料进行存储、搜索和显示方法流程图;
图2为本发明实施例中的一种对多语言翻译语料进行存储、搜索和显示装置框图;
图3为本发明施例中的另一种对多语言翻译语料进行存储、搜索和显示装置框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个实施例公开了一种对多语言翻译语料进行存储、搜索和显示方法,如图1所示,包括以下步骤:
步骤S1、语料数据存储步骤;通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;所述新增语料为成段的多语言翻译语料,包括原文文本和与原文对应的至少一种语种译文本;
步骤S2、语料数据搜索步骤;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,并通过语料库后端服务生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;
步骤S3、搜索结果处理显示步骤:语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到浏览器的显示窗口中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
具体的,步骤S1中,包括:
步骤S101、通过浏览器界面的语料输入窗口发起新增语料请求;输入包括语料的原文、译文、年份、出处和领域在内的新增语料的属性信息;
步骤S102、浏览器将新增语料请求发送至语料库后端服务;
步骤S103、语料库后端服务收到请求后,解析得到新增语料的属性信息;并判断出新增语料的原文语言,根据原文语言进行分词预处理后,存储到Elasticsearch的索引中。
具体的,所述新增语料包括一对一的单语种翻译的新增语料和/或一对N的多语种翻译的新增语料。
其中,对于一对一的单语种翻译,在Elasticsearch的索引结构中具体的字段包含:原文文本、译文文本、翻译语言方向、语料类型(句段、术语)、权威等级、专业领域ID、出处、年份、上传者ID、语料权限(公开、私有)、创建时间unix时间戳、更新时间unix时间戳。
具体的,在数据存储至Elasticsearch时,对包括原文文本、译文文本和出处在内的字段的文本值进行分词预处理,便于进行模糊查找匹配;
优选的,在分词预处理中,对于中文文本使用ik_max_word方式进行分词;英文文本和出处使用Elasticsearch默认的翻译文本进行分词的方式为Standard Analyzer;其余字段均为keyword类型或数字类型,搜索时可直接进行Term查询。
其中,对于一对多的多语种翻译时,在Elasticsearch的索引结构中具体的字段包含:原文文本、第1译文文本、…、第i译文文本、…、第N译文文本、翻译语言方向、语料类型(句段、术语)、权威等级、专业领域ID、出处、年份、上传者ID、语料权限(公开、私有)、创建时间unix时间戳、更新时间unix时间戳;所述翻译语言方向标明当前存储数据中。
具体的,在一对多的多语种翻译时,通过翻译语言方向将原文文本与N种译文文本中某种译文文本对应;
例如,一条Elasticsearch的存储数据中,原文文本字段为中文,第1译文文本字段为英文翻译文本,第2译文文本字段为法文翻译文本,……;在翻译语言方向字段中标明原文文本与某种译文文本的对应关系,如在翻译语言方向字段中标明(ZH_FR),表示该条Elasticsearch的存储数据中指定为中译法,如是其他对应的翻译语言,同样采用预设的翻译语言方向字,实现原文和译文的对应,以此来实现本系统对多种翻译语言语料的扩展支持能力。
具体的,步骤S2包括:
步骤S201、通过在浏览器界面上设置的搜索过滤窗口输入搜索关键词以及包括年份、出处和权威等级在内的搜索过滤条件,点击“搜索”按钮后,浏览器将搜索请求发送至语料库后端服务;
步骤S202、语料库后端服务收到请求后,解析得到搜索关键词以及搜索过滤条件,并进行预处理,拼接组合得到目标Elasticsearch DSL查询语句、查询方式以及查询路径;
优选的,在后端服务拼接Elasticsearch DSL查询语句时,对于用户输入的原文查询关键词,会设置成将完全匹配的数据进行提取,使之尽可能排在前面,其余模糊匹配的搜索结果,按默认的BM25排序算法计算出的相关行分值进行排序;当包括年份、权威等级和语料类型在内的搜索过滤项,拼接DSL查询语句时,将所述搜索过滤项转换成TermQuery方式进行布尔查询过滤。
步骤S203、利用Elasticsearch Java版RestClient组件与Elasticsearch建立查询连接;
步骤S204、建立连接后,将拼接好的Elasticsearch DSL查询语句,以及查询方式和查询路径发送给Elasticsearch;
步骤S205、然后Elasticsearch根据指定的DSL查询语句、查询方式和查询路径进行数据搜索,并将搜索到的目标数据通过RestClient组件之间的连接返回给语料库后端服务。
具体的,在搜索结果处理显示步骤中,搜索得到的原文和译文的逐句对齐显示,方便译员进行对照分析。
其中,原文和译文的逐句对齐显示的实现方法中,使用了深度学习语义相似度计算和文本翻译,并结合组合数学中鸽巢原理设计的智能滑动窗口算法,提供对原—译文文本进行智能拆分匹配的工具,对翻译任务场景进行原文-译文按段落句子尝试智能拆分匹配,提升原—译双语对齐效率。
具体的,在进行业务字段展示时,采用原文和译文智能对齐的文本对齐方式进行对齐显示;
通过对齐显示,使成段的原—译文业务字段数据自动尝试句子拆分并匹配,并将机器拆分匹配后的结果展示给用户,用户可进行自行纠偏调整后,将业务字段数据导出至文件。
原—译文双语文本对齐算法流程如下:
步骤S301、将搜索结果中的译文文本根据标点符号逐句翻译,形成与译文文本句对齐的第二原文文本;
步骤S302、将翻译的第二原文文本与原文文本进行相似度匹配和组合拆分;实现第二原文文本和原文文本的句匹配对齐;
其中,第二原文文本与原文文本进行相似度匹配采用滑动窗口相似度匹配;在进行组合拆分过程中,基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分;实现第二原文文本和原文文本的对齐;
步骤S303、根据译文文本和第二原文文本的对齐关系,以及第二原文文本和原文文本的句匹配对齐关系,将译文文本与原文文本逐句对齐显示。
具体的,在步骤S302中,在进行滑动窗口相似度匹配采用深度学习的相似度匹配算法进行匹配。
滑动窗口相似度匹配和基于鸽巢原理的组合拆分过程包括:
1)将第二原文文本和原文文本分别进行分词得到一系列相互独立的词语;根据词语对文档的重要程度对每个词语赋以一个权值以表示该词的权重;得到分词后的文本表示;
例如,第二原文或原文D文档包含相互独立的词语t1,t2,…,tN;则进行分词后,表示为D(t1,t2,…,tN);由于文档中词语对文档的重要程度不同,并且词语的重要程度对文本相似度的计算有很大的影响,因而可对文档中的每个词语赋以一个权值w,以表示该词的权重;
其表示如下:D(t1,w1;t2,w2;…,tN,wN),可简记为D(w1,w2,…,wN),此时的wk即为词语tk的权重,1≤k≤N。
优选的,根据词语在文本中的出现频率(tf)以及词语的文档频率(df,即含有该词的文档数量)进行词语的权重设置。
2)将进行分词和赋以权重的第二原文文本和原文文本输入到基于神经网络的滑窗模型中,进行NLP文本语义相似度匹配,得到第二原文文本和原文文本的词与词之间的语义相似度值;
具体的,基于神经网络的滑窗模型包括第一网络模块、第二网络模块和相似度计算网络模块;
其中,第一网络模块,用于对输入的原文文本的分词后的文本表示进行语义向量提取;得到原文文本的向量表示;
第二网络模块,用于对输入的第二原文文本的分词后的文本表示进行语义向量提取;得到第二原文文本的向量表示;
所述相似度计算网络模块,用于对输入的原文文本的向量表示和第二原文文本的向量表示进行分词之间的语义相似度计算。
滑窗模型中的神经网络可以采用但不限于DSSM,ARC-I ,CNTN,LSTM-RNN等神经网络模型。
通过实现建立的训练样本集,对基于神经网络的滑窗模型中的神经网络进行训练,可以使基于神经网络的滑窗模型对输入的两个文本中词与词之间的语义相似度进行量化得到语义相似度值。
3)基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分和对齐;
例如,通过步骤2)的NLP文本语义相似度匹配,把第二原文(A1| B1| B2| C1| C2|C3| D1)跟原文(中1 |中2|中3| 中4)进行滑动窗口相似度匹配;“A1”与“中1”的语义相似度值高,与其他原文中词的语义相似度值低;“B1”、“B2”与“中2”的语义相似度值高,与其他原文中词的语义相似度值低;“C1”、“C2”、“C3”与“中3”的语义相似度值高,与其他原文中词的语义相似度值低;“D1”与“中4”的语义相似度值高,与其他原文中词的语义相似度值低。
利用鸽巢原理,从上到下,对第二原文文本和原文文本每个段落每句话进行滑动窗口智能匹配,把相似度最高的部分进行组合拆分,比如(A1 – 中1)|(B1 B2 – 中2)|(C1C2 C3 – 中3)|(D1-中4),。
最后,在步骤S303中,根据译文文本和第二原文文本的对齐关系,以及第二原文文本和原文文本的句匹配对齐关系,得到原文和译文的对齐组合,并将译文文本与原文文本逐句对齐显示。
在本实施例中的另一个方案中,公开了一种对多语言翻译语料进行存储、搜索和显示装置;如图2所示,包括用户端、语料库和语料库后端服务;
所述用户端为Web浏览器,通过Web浏览器向用户提供语料输入窗口、搜索过滤窗口和语料显示窗口;
所述语料输入窗口为语料数据存储时的输入窗口,所述搜索过滤窗口为语料数据搜索时的输入窗口,所述语料显示窗口为对搜索结果处理后的显示窗口;
所述语料库包括Elasticsearch和MySQL关系型数据库;其中,Elasticsearch用于存放语料数据,MySQL关系型数据库用于存放与语料数据相关的包括用户信息和语料专业领域在内的业务数据;
所述语料库后端服务,用于在语料数据存储时,将通过在浏览器界面上设置的语料输入窗口输入新增语料存储到Elasticsearch的索引中;在语料数据搜索时,将通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径,输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;在搜索结果显示时,根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到客户端浏览器中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
在本实施例中的另一个具体的方案中,公开了另一种对多语言翻译语料进行存储、搜索和显示装置;所述装置采用B/S架构,如图3所示,包括存储层、服务层和应用层;
所述存储层,用于负责语料数据、用户账号、专业领域等数据的存放,同时包含对数据的备份功能。其中,语料数据存放于Elasticsearch中,其余数据存放于MySQL关系型数据库中。Elasticsearch和MySQL向上层服务层提供实时的数据存取接口,且均具备横向扩展能力,可提升在高并发条件下的快速数据访问响应能力,满足海量数据场景下的实时与准实时的存取需求。
所述服务层,用于连接存储层和应用层,主要负责语料数据的解析和转换,搜索查询语句的解析和拼接转换,并维护与存储层Elasticsearch和MySQL的网络连接。
所述应用层主要包括:基本/高级搜索模块、语料文本对齐工具、语料数据管理模块、语料文件导入/导出模块、专业领域数据管理模块、用户账号体系模块、用户管理模块、用户行为审计日志模块、系统硬件状态模块、语料数据统计信息模块。
基本/高级搜索模块,用户可通过输入搜索词/句,发起基本搜索请求。也可除了输入搜索词/句之外,选择其他查询条件来发起高级搜索请求。系统将搜索到的与用户输入的查询条件相匹配的语料数据返回给浏览器进行展示,并支持原文文本中的搜索关键词高亮。
语料文本对齐工具,支持对成段的原—译双语语料自动尝试句子拆分并匹配,并将机器拆分匹配后的结果展示给用户,用户可进行自行纠偏调整后,将语料数据导出至文件。
语料文本对齐工具中采用原文和译文的逐句对齐显示的实现方法,具体的,使用了深度学习语义相似度计算和文本翻译,并结合组合数学中鸽巢原理设计的智能滑动窗口算法,提供对原—译文文本进行智能拆分匹配的工具,对翻译任务场景进行原文-译文按段落句子尝试智能拆分匹配,提升原—译双语对齐效率。
语料数据管理模块,支持用户对个人语料数据的新增、编辑、删除操作。
语料文件导入/导出模块,支持用户从文件导入语料数据,或用户在语料管理后台中查询到的语料数据导出到文件。
专业领域数据管理模块,支持用户对语料的专业领域属性标签进行增删改管理操作。
用户账号体系模块,负责用户注册、密码修改、登陆、登出等用户账号相关的功能。
用户管理模块,用于向管理员提供用户增加、禁用、重置密码操作。
用户行为审计日志模块,负责记录用户的各种敏感行为,并将记录下的行为日志展示给管理员。
系统硬件状态模块,负责收集当前服务器CPU、内存、硬盘的硬件信息,展示给用户。
语料数据统计信息模块,负责统计目前系统中的语料数据总量,当月新增的数量,以及最后新增语料的时间。
本系统的核心功能语料存储和查询运用基础搜索组件Elasticsearch实现。Elasticsearch在用户新增语料时建立索引与文档(一个文档对应一条语料数据)的关系,在进行关键词搜索时找到索引中与查询条件对应的所有文档,并经过相关行计算给出最佳搜索结果。Elasticsearch的整体架构图,如(图3)所示,包括:
最上层是Elasticsearch用来跟上游进行交互的接口层 —— RESTful API,负责接收数据插入、查询等请求。
往下一层是Elasticsearch的传输模块和JMX(Java Management Extensions,即Java管理扩展);传输模块支持HTTP、Thrift、Memcached协议,默认使用HTTP协议进行传输。JMX是Java的管理框架,用来管理Elasticsearch Java进程。
再往下是Discovery、Scripting脚本语言和第三方插件。Discovery是Elasticsearch的节点发现模块;Scripting用来支持JavaScript、Python等脚本语言。
再下层是Elasticsearch的核心模块,包括索引模块、搜索模块、映射模块。
再往下是Lucene搜索内核,Elasticsearch依赖 Lucene来实索引和搜索这些核心功能。
最下层的Gateway是Elasticsearch用来存储索引的文件系统,支持多种文件类型:本地磁盘、共享磁盘、HDFS、Amazon S3等。
Elasticsearch内部采用倒排索引结构来存储语料数据,以实现快速搜索。例如语料1:提出好人好事倡议,文档2:学习好人好事倡议,在倒排索引中存储如下:
通过Elasticsearch可以实现,当用户输入关键词查询时,Elasticsearch首先把关键词进行切分成若干个词组,然后根据词组在倒排表中进行查询,取出命中的所有文档,然后通过BM25排序模型计算文档和查询关键词之间的相关性得分,按照分数排序后返回最相关的文档给用户。
Elasticsearch中还支持Filter过滤器,用于根据各种条件对文档进行过滤,不参与计算相关性得分。以此来实现本系统各种高级搜索查询条件,如年份、权威等级等。
Elasticsearch中所采用的BM25排序算法是一种经典的检索算法,用来评价用户所输入的搜索关键词和文档之间的相关性,它是一种基于概率检索模型提出的算法。典型BM25算法的主要思想是通过对搜索关键词/句分词后计算单词的词频信息,即单词在各个文档中出现的频率,以根据单词的词频来判断单词的重要性。同时设置了多种可调节因子进行召回。
综上所述,本发明实施例公开的对多语言翻译语料进行存储、搜索和显示方法及装置,用于帮助翻译译员们存储记忆自己或其他译员们之前曾经翻译过的语料数据,便于下次再翻译类似文本的过程中,通过本系统进行快速查找,得到文本相似的翻译语料数据进行参考,达到辅助翻译工作的目的,提升译员们的效率。另外,在本发明中还使用了深度学习语义相似度计算和文本翻译,并结合组合数学中鸽巢原理设计的智能滑动窗口算法,提供对原—译文文本进行智能拆分匹配的工具,对翻译任务场景进行原—译文按段落句子尝试智能拆分匹配,提升原—译文双语文本的对齐效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种对多语言翻译语料进行存储、搜索和显示方法,其特征在于,包括以下步骤:
语料数据存储步骤;通过在浏览器界面上设置的语料输入窗口输入新增语料,并通过语料库后端服务将新增语料存储到Elasticsearch的索引中;所述新增语料为成段的多语言翻译语料,包括原文文本和与原文对应的至少一种语种译文本;
语料数据搜索步骤;通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,并通过语料库后端服务生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径;输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;
搜索结果处理显示步骤:语料库后端服务根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到浏览器的显示窗口中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
2.根据权利要求1所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
所述语料数据存储步骤,包括:
步骤S101、通过浏览器界面的语料输入窗口发起新增语料请求;输入包括语料的原文、译文、年份、出处和领域在内的新增语料的属性信息;
步骤S102、浏览器将新增语料请求发送至语料库后端服务;
步骤S103、语料库后端服务收到请求后,解析得到新增语料的属性信息;并判断出新增语料的原文语言,根据原文语言进行分词预处理后,存储到Elasticsearch的索引中。
3.根据权利要求2所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
对于一对一单语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
4.根据权利要求2所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
对于一对N的多语种翻译的新增语料,在Elasticsearch的索引结构中具体的字段包含:原文文本、第1译文文本、…、第i译文文本、…、第N译文文本、翻译语言方向、语料类型、权威等级、专业领域ID、出处、年份、上传者ID、语料权限、创建时间unix时间戳、更新时间unix时间戳。
5.根据权利要求1所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
所述语料数据搜索步骤,包括:
步骤S201、通过在浏览器界面上设置的搜索过滤窗口输入搜索关键词以及包括年份、出处和权威等级在内的搜索过滤条件,点击“搜索”按钮后,浏览器将搜索请求发送至语料库后端服务;
步骤S202、语料库后端服务收到请求后,解析得到搜索关键词以及搜索过滤条件,并进行预处理,拼接组合得到目标Elasticsearch DSL查询语句、查询方式以及查询路径;
步骤S203、利用RestClient组件与Elasticsearch建立查询连接;
步骤S204、建立连接后,将拼接好的Elasticsearch DSL查询语句,以及查询方式和查询路径发送给Elasticsearch;
步骤S205、然后Elasticsearch根据指定的DSL查询语句、查询方式和查询路径进行数据搜索,并将搜索到的目标数据通过RestClient组件之间的连接返回给语料库后端服务。
6.根据权利要求5所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
在后端服务拼接Elasticsearch DSL查询语句时,对于用户输入的原文查询关键词,会设置成将完全匹配的数据进行提取,使之尽可能排在前面,其余模糊匹配的搜索结果,按默认的BM25排序算法计算出的相关行分值进行排序;当包括年份、权威等级和语料类型在内的搜索过滤项,拼接DSL查询语句时,将所述搜索过滤项转换成TermQuery方式进行布尔查询过滤。
7.根据权利要求5所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
在搜索结果处理显示步骤中,原文和译文的逐句对齐显示的方法包括:
步骤S301、将搜索结果中的译文文本根据标点符号逐句翻译,形成与译文文本句对齐的第二原文文本;
步骤S302、将翻译的第二原文文本与原文文本进行滑动窗口相似度匹配;实现第二原文文本和原文文本的句匹配对齐;
步骤S303、根据译文文本和第二原文文本的对齐关系,以及第二原文文本和原文文本的句匹配对齐关系,将译文文本与原文文本逐句对齐显示。
8.根据权利要求7所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,所述步骤S302中,基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分;实现第二原文文本和原文文本的句匹配对齐。
9.根据权利要求8所述的对多语言翻译语料进行存储、搜索和显示方法,其特征在于,
滑动窗口相似度匹配和基于鸽巢原理的组合拆分过程包括:
1)将第二原文文本和原文文本分别进行分词得到一系列相互独立的词语;根据词语对文档的重要程度对每个词语赋以一个权值以表示该词的权重;得到分词后的文本表示;
2)将进行分词和赋以权重的第二原文文本和原文文本输入到基于神经网络的滑窗模型中,进行相似度匹配,得到词与词之间的相似度值;
3)基于鸽巢原理,对于滑动窗口相似度匹配中第二原文文本与原文文本中相似度最高的部分进行组合拆分和对齐。
10.一种对多语言翻译语料进行存储、搜索和显示装置,其特征在于,包括用户端、语料库和语料库后端服务;
所述用户端为Web浏览器,通过Web浏览器向用户提供语料输入窗口、搜索过滤窗口和语料显示窗口;
所述语料输入窗口为语料数据存储时的输入窗口,所述搜索过滤窗口为语料数据搜索时的输入窗口,所述语料显示窗口为对搜索结果处理后的显示窗口;
所述语料库包括Elasticsearch和MySQL关系型数据库;其中,Elasticsearch用于存放语料数据,MySQL关系型数据库用于存放与语料数据相关的包括用户信息和语料专业领域在内的业务数据;
所述语料库后端服务,用于在语料数据存储时,将通过在浏览器界面上设置的语料输入窗口输入新增语料存储到Elasticsearch的索引中;在语料数据搜索时,将通过在浏览器界面上设置的搜索过滤窗口输入搜索过滤条件,生成与搜索过滤条件对应的目标Elasticsearch DSL查询语句、查询方式以及查询路径,输出到Elasticsearch进行语料数据的搜索和排序,得到语料数据搜索结果;在搜索结果显示时,根据Elasticsearch的搜索结果,将需显示的原—译文语料数据中的业务字段进行加工处理后,发送到客户端浏览器中进行对齐显示;在对齐显示中,原文和译文之间保持逐句对齐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552733.7A CN115618087B (zh) | 2022-12-06 | 2022-12-06 | 对多语言翻译语料进行存储、搜索和显示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552733.7A CN115618087B (zh) | 2022-12-06 | 2022-12-06 | 对多语言翻译语料进行存储、搜索和显示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618087A true CN115618087A (zh) | 2023-01-17 |
CN115618087B CN115618087B (zh) | 2023-04-07 |
Family
ID=84879956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211552733.7A Active CN115618087B (zh) | 2022-12-06 | 2022-12-06 | 对多语言翻译语料进行存储、搜索和显示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618087B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649455A (zh) * | 2016-09-24 | 2017-05-10 | 孙燕群 | 一种大数据开发的标准化系统归类、命令集系统 |
CN109815390A (zh) * | 2018-11-08 | 2019-05-28 | 平安科技(深圳)有限公司 | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 |
US20190266271A1 (en) * | 2018-02-27 | 2019-08-29 | Elasticsearch B.V. | Systems and Methods for Converting and Resolving Structured Queries as Search Queries |
CN110543517A (zh) * | 2019-08-26 | 2019-12-06 | 汉纳森(厦门)数据股份有限公司 | 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质 |
-
2022
- 2022-12-06 CN CN202211552733.7A patent/CN115618087B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649455A (zh) * | 2016-09-24 | 2017-05-10 | 孙燕群 | 一种大数据开发的标准化系统归类、命令集系统 |
US20190266271A1 (en) * | 2018-02-27 | 2019-08-29 | Elasticsearch B.V. | Systems and Methods for Converting and Resolving Structured Queries as Search Queries |
CN109815390A (zh) * | 2018-11-08 | 2019-05-28 | 平安科技(深圳)有限公司 | 多语言信息的检索方法、装置、计算机设备及计算机存储介质 |
CN110543517A (zh) * | 2019-08-26 | 2019-12-06 | 汉纳森(厦门)数据股份有限公司 | 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115618087B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284357B (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
US6662152B2 (en) | Information retrieval apparatus and information retrieval method | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
Gupta et al. | A survey of text question answering techniques | |
US7113943B2 (en) | Method for document comparison and selection | |
JP7232831B2 (ja) | 複雑な回答の補強証拠取り出し | |
US7099870B2 (en) | Personalized web page | |
US20020111792A1 (en) | Document storage, retrieval and search systems and methods | |
US20080235202A1 (en) | Method and system for translation of cross-language query request and cross-language information retrieval | |
KR20160149978A (ko) | 검색 엔진 및 그의 구현 방법 | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
JP2016045652A (ja) | 質問文生成装置及びコンピュータプログラム | |
WO2018227930A1 (zh) | 智能提示答案的方法及装置 | |
Lommatzsch et al. | An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases. | |
WO2023231331A1 (zh) | 一种知识抽取方法、系统、设备及存储介质 | |
JP2021114070A (ja) | 情報検索装置、情報検索方法、および情報検索プログラム | |
CN115618087B (zh) | 对多语言翻译语料进行存储、搜索和显示方法及装置 | |
Kumar et al. | Smart information retrieval using query transformation based on ontology and semantic-association | |
Husain | Critical concepts and techniques for information retrieval system | |
Kandasamy et al. | Information retrieval for Question Answering System using Knowledge based Query Reconstruction by adapted LESK and LATENT Semantic analysis | |
Iswarya et al. | Speech and text query based Tamil-English Cross Language Information Retrieval system | |
WO2020079749A1 (ja) | 事例検索方法 | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム | |
Varshney et al. | Improving Retrieval performance of English-Hindi based Cross-Language Information Retrieval | |
Li et al. | MuSeCLIR: a multiple senses and cross-lingual information retrieval dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |