CN109815390A - 多语言信息的检索方法、装置、计算机设备及计算机存储介质 - Google Patents

多语言信息的检索方法、装置、计算机设备及计算机存储介质 Download PDF

Info

Publication number
CN109815390A
CN109815390A CN201811325488.XA CN201811325488A CN109815390A CN 109815390 A CN109815390 A CN 109815390A CN 201811325488 A CN201811325488 A CN 201811325488A CN 109815390 A CN109815390 A CN 109815390A
Authority
CN
China
Prior art keywords
corpus
language
multilingual
retrieved
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811325488.XA
Other languages
English (en)
Other versions
CN109815390B (zh
Inventor
韩亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811325488.XA priority Critical patent/CN109815390B/zh
Publication of CN109815390A publication Critical patent/CN109815390A/zh
Application granted granted Critical
Publication of CN109815390B publication Critical patent/CN109815390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种多语言信息的检索方法、装置、计算机设备及计算机存储介质,涉及信息检索领域,可以提高待检索信息翻译的精度。所述方法包括:获取多语言句对形式的语料;根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库;根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行。

Description

多语言信息的检索方法、装置、计算机设备及计算机存储介质
技术领域
本发明涉及信息检索领域,特别是涉及一种多语言信息的检索方法、装置、计算机设备及计算机存储介质。
背景技术
随着互联网的高速发展,带来了网络数据文本的爆炸式生长,蓬勃的互联网发展带来了丰富的多语言信息,借助这些丰富的多语言信息可以构建更好的语料检索平台,通过语料检索平台实现对不同语言的翻译。
人工翻译耗时较长,成本较高,已经满足不了人们对多语言信息日益增长的需求。机器翻译能够将一种自然语言自动地翻译为另一种自然语言,利用机器翻译快速获取多语言的信息和资源已成为必然趋势。现有的机器翻译平台,如百度翻译、谷歌翻译以及译马网等,都有自己的语料库,通过用户输入待检索语句,可以实现不同国家语言的翻译以及查询等操作。
然而,机器翻译平台虽然支持多语言翻译以及查询等操作,但是由于机器翻译平台内的语料库架构臃肿且不易迁移,使得机器翻译后的语句质量较差,用户并不能直接使用,而是需要对翻译结果进行校对或者处理。
发明内容
有鉴于此,本发明提供了一种多语言信息的检索方法、装置、计算机设备及计算机存储介质,主要目的在于解决现有技术的机器翻译平台内的语料库架构臃肿且不易迁移,使得机器翻译后的语句质量较差问题。
依据本发明一个方面,提供了一种多语言信息的检索方法,该方法包括:
获取多语言句对形式的语料;
根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;
将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库;
根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;
当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
进一步地,在所述获取多语言句对形式的语料之后,所述方法还包括:
对所述多语言句对形式的语料进行格式调整,得到相同存储格式的多语言句对形式的语料。
进一步地,所述各个存储规则的语料库中存储有用于承载多语言句对形式的语料的多个数据表,所述根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库包括:
根据各个存储规则的语料库中数据表所记录语料之间的依赖关系,设置各个数据表之间的关联字段;
将所述各个数据表之间的关联字段作为所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
进一步地,在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,所述方法还包括:
检测所述多语言句对形式的语料的存储规则是否符合搜索引擎库中导入语料库对应的存储规则;
如果是,则发送导入成功的提示信息;否则,发送导入错误的提示信息。
进一步地,在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,所述方法还包括:
通过为所述多语言句对形式的语料添加基本信息,将导入的多语言句对形式的语料进行结构化。
进一步地,所述从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送包括:
通过分词算法对所述携带有语言种类的待检索信息进行分词处理,得到多个携带有语言种类的待检索分词;
从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果;
通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度,选取相似度结果排名前N的包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果进行推送。
进一步地,所述从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果包括:
获取每个携带有语言种类的待检索分词对应的索引ID;
根据所述每个携带有语言种类的待检索分词对应的索引ID从所述多语言语料库中查找包含所有携带有语言种类的待检索分词的语料;
从所述多语言句对形式的语料中提取出与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果。
依据本发明另一个方面,提供了一种多语言信息的检索装置,该装置包括:
获取单元,用于获取多语言句对形式的语料;
生成单元,用于根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;
导入单元,用于将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库;
构建单元,用于根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;
查找单元,用于当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
进一步地,所述装置还包括:
调整单元,用于在所述获取多语言句对形式的语料之后,对所述多语言句对形式的语料进行格式调整,得到相同存储格式的多语言句对形式的语料。
进一步地,所述各个存储规则的语料库中存储有用于承载多语言句对形式的语料的多个数据表,所述构建单元包括:
设置模块,用于根据各个存储规则的语料库中数据表所记录语料之间的依赖关系,设置各个数据表之间的关联字段;
构建模块,用于将所述各个数据表之间的关联字段作为所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
进一步地,所述装置还包括:
检测单元,用于在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,检测所述多语言句对形式的语料的存储规则是否符合搜索引擎库中导入语料库对应的存储规则;
发送单元,用于如果所述多语言句对形式的语料的存储规则符合搜索引擎库中导入语料库对应的存储规则,则发送导入成功的提示信息;
所述发送单元,还用于如果所述多语言句对形式的语料的存储规则不符合搜索引擎库中导入语料库对应的存储规则,则发送导入错误的提示信息。
进一步地,所述装置还包括:
添加单元,用于在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,通过为所述多语言句对形式的语料添加基本信息,将导入的多语言句对形式的语料进行结构化。
进一步地,所述查找单元包括:
分词模块,用于通过分词算法对所述携带有语言种类的待检索信息进行分词处理,得到多个携带有语言种类的待检索分词;
查找模块,用于从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果;
计算模块,用于通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度,选取相似度结果排名前N的包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果进行推送。
进一步地,所述查找模块,具体用于获取每个携带有语言种类的待检索分词对应的索引ID;
所述查找模块,具体还用于根据所述每个携带有语言种类的待检索分词对应的索引ID从所述多语言语料库中查找包含所有携带有语言种类的待检索分词的语料;
所述查找模块,具体还用于从所述多语言句对形式的语料中提取出与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果。
依据本发明又一个方面,提供了一种存储设备,其上存储有计算机程序,所述程序被处理器执行时实现上述多语言信息的检索方法。
依据本发明再一个方面,提供了一种多语言信息的检索装置,包括存储设备、处理器及存储在存储设备上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述多语言信息的检索方法。
借由上述技术方案,本发明提供的一种多语言信息的检索方法及装置,首先获取多语言句对形式的语料,之后按照多语言句对形式的语料库的存储规则将多语言句对形式的语料导入搜索引擎库中符合该存储规则的语料库,由于搜索引擎库中设置有各种存储规则的语料库,根据搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库,最后当接收到用户发送的携带有语言种类的待检索信息时,从索引结构的多语言语料库中查找与待检索信息相匹配语言种类的检索结果,与现有技术中通过机器翻译平台实现不同国家的语言翻译以及查询等操作的方法相比,本发明实施例通过构建索引结构的多语言语料库来存储多语言句对形式的语料,该索引结构的多语言语料库中语料库节点与计算节点互不干扰,使数据存储结构更加清晰,便于信息检索,增加检索结果的准确度,提高了待检索信息翻译的精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种多语言信息的检索方法流程示意图;
图2示出了本发明实施例提供的另一种多语言信息的检索方法流程示意图;
图3示出了本发明实施例提供的一种多语言信息的检索装置的结构示意图;
图4示出了本发明实施例提供的另一种多语言信息的检索装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种多语言信息的检索方法,可以实现提高待检索信息翻译精度的目的,如图1所示,该方法包括:
101、获取多语言句对形式的语料。
其中,多语言句对形式的语料可以为一对不同语言句子的互译或者不同语言词语的互译,例如中文到英文,中文到法文,法文到德文,也可以选择其他语种之间的互译,本发明不进行限制。
对于本发明实施例,具体可以通过爬虫的方式获取需要的多语言句对形式的语料,也可以通过数据平台获取多语言句对形式的语料,例如,通过搜狗实验室或者自然语言处理与信息检索共享平台获取多国语言之间互译的语料,每两种语言之间的互译的语料不少于20万条,需要说明的是,本发明对获取的语料数据并不进行限定,但为了保证检索的精度,获取的语料数据不宜过少。
102、根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则。
由于多语言句对形式的语料在形成过程中涉及两个语言种类语料之间的互译,例如中文到法文、日文到德文、中文到德文等,可以将具有共同互译方向的两个语言种类之间的语料设置为相同的存储规则,例如中文到法文的语料设置为相同存储规则,中文到日文的语料设置为相同存储规则。
需要说明的是,两个语言种类语料之间的互译为具有方向性,例如,从中文到日本、从日文到中文,这样两个语言种类语料之间的互译可以包括正向翻译与反向翻译,在将中文到日文的语料设置为相同存储规则,进一步日文到中文的语料设置为相同存储规则。
103、将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库。
其中,搜索引擎库中设置有各种存储规则的语料库,该存储规则为预先为各个语料库中多语言句对形式的语料设定的存储规则,可以为中文-英文、中文-日文、法文-德文等,通过该存储规则将符合语言种类的多语言句对形式的语料导入至语料库中,例如将中文到英文方向或者英文到中文方向的语料存储至中文-英文语言种类的语料库中。
对于本发明实施例,具体可以选择Elasticsearch做为搜索引擎库,Elasticsearch是一种搜索服务器,提供了分布式的搜索引擎,并且包括多个节点,每个节点相当于一个语料库,通过为不同的节点设定存储规则,得到各种存储规则的语料库,例如节点A存储中文译成英文的语料与英文译成中文的语料,节点B存储英文译成法文的语料与法文译成英文的语料,也可以在语言种类的规则下具体再划分各种行业和领域,本发明不进行限定。
需要说明的是,由于Elasticsearch搜索引擎更适用于信息检索,因此本发明实施例使用Elasticsearch搜索引擎,也可以采用其他种类的搜索引擎,本发明不进行限制。
本发明实施例通过将获取的多语言句对式语料导入相应存储规则的语料库,使数据的存储结构更加清晰,构成分布式搜索。
104、根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
由于各种存储规则的语料库中存储有不同语言种类之间互译的语料,而不同语言种类之间互译的语料具有关联性,例如,中文到日文之间互译的语料、中文到法文之间互译的语料都具有相同的中文语料,这里的中文语料可以作为建立日文到法文存储规则的语料库的桥梁,通过中文语料可以查询其他语言种类的语料库中的语料。
对于本发明实施例,索引结构可以为正排索引,倒排索引或field索引等方式,本发明对索引结构不进行限定,例如,构建倒排索引结构的多语言语料库具体步骤可以包括:首先对获取的各个存储规则的语料进行分词处理,即把各个存储规则的语料中可能成为关键词的词组划分出来,得到语料库中各个分词的集合,之后针对每个分词建立对应的倒排表,最后把获取的倒排表按照关键词的排序存入文件,形成倒排文件,文件中记载了关键词对应的语料和关键词出现的语料库位置等信息,通过构建的倒排文件生成索引结构的多语言语料库。
105、当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
其中,待检索信息为用户输入的待翻译成相应语言种类的句子或者词语。
对于本发明实施例,当接收到用户发送的待检索信息时,首先对用户发送的待检索信息进行分词处理,即将用户输入的待翻译的句子切分成一个一个分词,根据用户待翻译的语言种类查找每个待检索词语对应的索引表,根据每个待检索词语对应的索引表,得到包含全部待检索词的语料信息,根据该语料信息,提取包含全部待检索词的语料,将获取的包含全部待检索词的语料与用户发送的待检索信息进行相似度计算,对相似度排名前N的语料对应的检索结果进行推送。
例如,用户输入待检索信息为“东北大学”,进行汉译英,首先对用户输入的待检索信息“东北大学”进行分词处理,得到“东北”、“大学”、“东北大学”三个分词,之后在建立的倒排文件中查找互译语种为汉译英的两个分词的倒排表,该倒排表中记录了所有包含“东北”、“大学”、“东北大学”三个分词的语料信息,根据获取的倒排表中的语料信息,得到同时包含“东北”、“大学”、“东北大学”三个分词的全部语料,最后对同时包含“东北”、“大学”、“东北大学”三个分词的全部语料进行相似度计算,得到相似度排名最高的句对形式的语料为“东北大学以及Northeastern University”,将与中文语料相对应的英文语料Northeastern University作为排名最靠前的检索结果进行推送。
通过本发明,首先获取多语言句对形式的语料,之后按照多语言句对形式的语料库的存储规则将多语言句对形式的语料导入搜索引擎库中符合该存储规则的语料库,由于搜索引擎库中设置有各种存储规则的语料库,根据搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库,最后当接收到用户发送的携带有语言种类的待检索信息时,从索引结构的多语言语料库中查找与待检索信息相匹配语言种类的检索结果,与现有技术中通过机器翻译平台实现不同国家的语言翻译以及查询等操作的方法相比,本发明实施例通过构建索引结构的多语言语料库来存储多语言句对形式的语料,该索引结构的多语言语料库中语料库节点与计算节点互不干扰,使数据存储结构更加清晰,便于信息检索,增加检索结果的准确度,提高了待检索信息翻译的精度。
本发明实施例提供了另一种多语言信息的检索方法,可以实现便于信息检索的目的,如图2所示,该方法包括:
201、获取多语言句对形式的语料。
其中,多语言句对形式的语料为一对不同语言之间句子或者短语的互译,例如你好和Hello为一对中文到英文的语料,Bonjour和Hallo为一对法语到德语的语料,具体可以通过爬虫的方式或者一些数据平台获取这种互译的句子或者词语作为语料。
202、对所述多语言句对形式的语料进行格式调整,得到相同存储格式的多语言句对形式的语料。
对于本发明实施例,在获取多语言句对形式的语料之后,由于多语言句对形式的语料来源不同,导致语料格式有所不同,为了便于后续语料的存储,对多语言句对形式的语料格式进行整理,将语料格式统一为预设数据格式。
例如,Elasticsearch搜索引擎中采用json作为数据的交互格式,因此可以选择json作为预设数据格式,将多语言句对形式的语料的存储格式统一调整为jason数据格式。
203、根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则。
对于本发明实施例,多语言句对形式的语料是为任意两种语言种类之间的互译,为了方便对语料的检索,根据语料在形成过程中的语言种类将具有共同语言种类的语料设置为相同存储规则,例如语料在形成过程中的语言种类为中文到日文,则生成中文到日文的存储规则,语料在形成过程中的语言种类为中文到英文,则生成中文到英文的存储规则,本发明实施例对存储规则不进行限定。
204、将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库。
由于存储规则为预先设定的各个语料库收录不同语言种类语料之间的互译,例如,中文到法文、日文到德文、中文到德文等。根据多语言句对形式的语料对应的语言种类将多语言句对形式的语料导入搜索引擎库中符合存储规则的语料库中,也就是将中文到法文语料导入中文到法文语言种类的语料库,将中文到英文语料导入到中文到英文语言种类的语料库。
并且在各个语料库中存储有具有关联关系的数据表,通过将符合存储规则语言种类的语料存储至语料库中的数据表中。
本发明实施例通过将多语言句对形式的语料导入至相匹配存储规则的语料库节点,这种分布式存储方式使数据存储结构更加清晰,便于信息的检索。
205、通过为所述多语言句对形式的语料添加基本信息,将导入的多语言句对形式的语料进行结构化。
对于本发明实施例,在将语料导入到搜索引擎库中各个语料库之后,为了方便后续检索,可以将语料数据进行结构化,除了语料内容以外,为语料添加基本信息,例如,语料的创建时间、语料的所有者、语料的获取途径等。
206、检测所述多语言句对形式的语料的存储规则是否符合搜索引擎库中导入语料库对应的存储规则。
由于每个语料库设置有相应的存储规则,不符合该语料库存储规则的语料不应该被存储至该语料库,例如,中文至日文的语料不应该存储至中文至英文的语料库中,所以,为确保收录的语料符合各个语料库的存储规则,要对每条收录的语料进行检测。对于本发明实施例,如果导入的多语言句对形式的语料对应的存储规则不符合语料库的存储规则,则发送导入错误的提示信息;如果导入的多语言句对形式的语料对应的存储规则符合语料库节点的存储规则,则发送导入成功的提示信息。
207、根据各个存储规则的语料库中数据表所记录语料之间的依赖关系,设置各个数据表之间的关联字段。
由于各个存储规则的语料库中存储有用于承载多语言句对形式的语料的多个数据表,并且每个数据表中存储有用于表示语料属性多个字段,如语料来源、语料创建时间、语料的领域等,而各个存储规则的语料库中的数据表所记录的语料之间存在依赖关系,例如具有相同领域的语料、具有相同语言种类的语料等,如果需要检索具有相同领域的语料,可以将语料的领域设置关联字段,这里不进行限定。
对于本发明实施例,具体可以通过设置各个数据表之间的关联字段来建立数据表之间的关联关系,提取多语言句对形式语料之间的关联关系,从而建立各个语料库数据表之间的关联关系,例如,语料库中存储有中文到英文方向句对形式的语料,并且数据表中设置有语料编号、语料内容、语料方向、语料获取来源、语料创建时间、语料涉及领域等字段,可以将语料编号或语料内容设置为关联字段,从而获取相同语料编号或者相同语料内容的其他语料库中的语料,这里不进行限定。
需要说明的是,在建立语料库中各个数据表之间的关联关系时,有些不必要的关联字段则可以舍弃,如语料创建时间或语料编号等在实际检索过程中应用较少的字段,具体可以根据实际情况添加或者删除关联字段。
208、将所述各个数据表之间的关联字段作为所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
具体构建索引结构的多语言语料库的过程可以包括但不局限于下述实现方式:首先将各个语料库节点中的语料切分成一个一个关键词,由于各个语料库中的语料可以看成是多个关键词的集合,然后将每个关键词建立倒排表,该倒排表中记录了该关键词将被翻译的语言种类,该关键词出现的语料库节点以及该关键词在数据表中的位置,例如,关键词“网站”的倒排表为(1;1;<1>),(1;5;<3>),(2;1;<1>),该倒排表表示关键词“网站”出现在编号为1的汉译英语料库中的第一条语料,为该语料的第一个词,还出现在编号为1的汉译英语料库中的第五条语料,为该语料的第三个词以及出现在编号为2的汉语译日语的语料库中的第一条语料,为该语料的第一个词。对于其他关键词的倒排表也按上述方法建立,由此,索引结构中的每个关键词都会指向一个倒排表,每个关键词倒排表的排列顺序按照互译语言种类的编号顺序排列。最后将各个语言种类的关键词的倒排表按照相应的顺序存入文件,形成倒排文件,生成索引结构的多语言语料库。
本发明实施例通过建立这种倒排索引结构的多语言语料库,可以使用户快速检索到相应的信息,提高了用户检索结果的准确度。
209、当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
对于本发明实施例,执行本步骤操作的主体可以为Elasticsearch搜索引擎,具体步骤可以包括但不局限于下述实现方式:当Elasticsearch搜索引擎接收到用户发送的携带有语言种类待检索信息时,会通过特征过滤器对待检索信息进行预处理,并执行去掉待检索信息中的标点符号等操作;进一步通过分词器中的分词算法将预处理后的待检索信息进行分词处理,得到多个待检索的分词,例如,用户输入的待检索信息为“Tom is a goodteacher.”语言种类为英文到中文,通过特征过滤器去掉“.”后,分词器会对其进行分词处理,得到“Tom”,“is”,“a”,“doctor”,然后从索引结构的多语言语料库中查找包含所有携带语言种类的待检索分词的语料,也就是包含“Tom”,“is”,“a”,“doctor”的英文语料,并获取与包含所有携带语言种类的待检索分词的语料相匹配语言种类的检索结果,也就是获取包含“Tom”,“is”,“a”,“doctor”的中文语料,进一步通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度,也就是计算包含“Tom”,“is”,“a”,“doctor”的英文语料与Tom is a good teacher之间的相似度,得到相似度排名,将排名前N的所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果进行推送。
需要说明的是,Elasticsearch搜索引擎具有自定义分词器和内置分词器,可以通过自行设定分词器或者使用Elasticsearch搜索引擎的内置分词器对用户的待检索信息进行分词处理,例如,通过Elasitsearch搜索引擎的中文分词器IK对待检索的中文信息进行分词处理,得到多个待检索的中文分词。
对于本发明实施例,具体从索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果的步骤可以包括但不局限于下述实现方式:首先获取每个携带有语言种类的待检索分词对应的索引ID,具体可以根据每个待检索分词对应的关键词的倒排表,获取符合相应语言种类的语料的索引ID,根据每个待检索分词对应的索引ID,得到包含全部待检索分词的语料;然后根据每个携带有语言种类的待检索分词对应的索引ID从多语言语料库中查找包含所有携带有语言种类的待检索分词的语料;从所述多语言句对形式的语料中提取出与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果。
对于本发明实施例,在通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度的过程中,可以将向量空间模型的每个待检索分词作为向量空间的一个维度,因此待检索信息与包含所有待检索分词的语料可以作为两个独立的向量,在向量空间模型中,将待检索信息中所有待检索分词对应的维度设置为位置顺序,而对应语料中每个待检索分词对应的维度分别为该待检索分词在语料中的位置信息,最后计算待检索信息向量与包含所有待检索分词的语料向量之间的距离,将计算得到的距离按从小到大排列,排名前N的包含所有携带有语言种类的待检索分词的语料作为检索结果进行推送。
通过本发明,首先获取多语言句对形式的语料,之后按照多语言句对形式的语料库的存储规则将多语言句对形式的语料导入搜索引擎库中符合该存储规则的语料库,由于搜索引擎库中设置有各种存储规则的语料库,根据搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库,最后当接收到用户发送的携带有语言种类的待检索信息时,从索引结构的多语言语料库中查找与待检索信息相匹配语言种类的检索结果,与现有技术中通过机器翻译平台实现不同国家的语言翻译以及查询等操作的方法相比,本发明实施例通过构建索引结构的多语言语料库来存储多语言句对形式的语料,该索引结构的多语言语料库中语料库节点与计算节点互不干扰,使数据存储结构更加清晰,便于信息检索,增加检索结果的准确度,提高了待检索信息翻译的精度。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种多语言信息的检索装置,如图3所示,所装置包括:获取单元31、生成单元32、导入单元33、构建单元34、查找单元35;
获取单元31,可以用于获取多语言句对形式的语料;
生成单元34,可以用于根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;
导入单元33,可以用于将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库;
构建单元34,可以用于根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;
查找单元35,可以用于当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
本发明实施例提供一种多语言的信息检索装置,首先获取多语言句对形式的语料,之后按照多语言句对形式的语料库的存储规则将多语言句对形式的语料导入搜索引擎库中符合该存储规则的语料库,由于搜索引擎库中设置有各种存储规则的语料库,根据搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库,最后当接收到用户发送的携带有语言种类的待检索信息时,从索引结构的多语言语料库中查找与待检索信息相匹配语言种类的检索结果,与现有技术中通过机器翻译平台实现不同国家的语言翻译以及查询等操作的方法相比,本发明实施例通过构建索引结构的多语言语料库来存储多语言句对形式的语料,该索引结构的多语言语料库中语料库节点与计算节点互不干扰,使数据存储结构更加清晰,便于信息检索,增加检索结果的准确度,提高了待检索信息翻译的精度。
在具体的应用场景中,如图4所示,所装置包括:所述装置还包括:
调整单元36,可以用于在所述获取多语言句对形式的语料之后,对所述多语言句对形式的语料进行格式调整,得到相同存储格式的多语言句对形式的语料;
检测单元37,可以用于在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,检测所述多语言句对形式的语料的存储规则是否符合搜索引擎库中导入语料库对应的存储规则;
发送单元38,可以用于如果所述多语言句对形式的语料的存储规则符合搜索引擎库中导入语料库对应的存储规则,则发送导入成功的提示信息;
所述发送单元38,还可以用于如果所述多语言句对形式的语料的存储规则不符合搜索引擎库中导入语料库对应的存储规则,则发送导入错误的提示信息;
添加单元39,可以用于在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,通过为所述多语言句对形式的语料添加基本信息,将导入的多语言句对形式的语料进行结构化。
进一步地,所述各个存储规则的语料库中存储有用于承载多语言句对形式的语料的多个数据表,所述构建单元34包括:
设置模块341,可以用于根据各个存储规则的语料库中数据表所记录语料之间的依赖关系,设置各个数据表之间的关联字段;
构建模块342,可以用于将所述各个数据表之间的关联字段作为所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
进一步地,所述查找单元35包括:
分词模块351,可以用于通过分词算法对所述携带有语言种类的待检索信息进行分词处理,得到多个携带有语言种类的待检索分词;
查找模块352,可以用于从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果;
计算模块353,可以用于通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度,选取相似度结果排名前N的包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果进行推送。
进一步地,所述查找模块352,具体可以用于获取每个携带有语言种类的待检索分词对应的索引ID;
所述查找模块352,具体还可以用于根据所述每个携带有语言种类的待检索分词对应的索引ID从所述多语言语料库中查找包含所有携带有语言种类的待检索分词的语料;
所述查找模块352,具体还可以用于从所述多语言句对形式的语料中提取出与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果。
需要说明的是,本实施例提供的一种多语言信息的检索装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的多语言信息的检索方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1和图2所示的方法,以及图3和图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的多语言信息的检索方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的多语言信息的检索实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,通过将获取的多语言句对形式的语料导入搜索引擎库中对应存储规则的语料库节点,生成索引结构的多语言语料库,该索引结构的多语言语料数据库中数据节点与计算节点互不干扰,使数据存储结构更加清晰,便于信息检索,增加检结果的准确度,提高了待检索信息翻译的精度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种多语言信息的检索方法,其特征在于,包括:
获取多语言句对形式的语料;
根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;
将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库;
根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;
当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
2.根据权利要求1所述的方法,其特征在于,在所述获取多语言句对形式的语料之后,所述方法还包括:
对所述多语言句对形式的语料进行格式调整,得到相同存储格式的多语言句对形式的语料。
3.根据权利要求1所述的方法,其特征在于,所述各个存储规则的语料库中存储有用于承载多语言句对形式的语料的多个数据表,所述根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库包括:
根据各个存储规则的语料库中数据表所记录语料之间的依赖关系,设置各个数据表之间的关联字段;
将所述各个数据表之间的关联字段作为所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库。
4.根据权利要求1所述的方法,其特征在于,在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,所述方法还包括:
检测所述多语言句对形式的语料的存储规则是否符合搜索引擎库中导入语料库对应的存储规则;
如果是,则发送导入成功的提示信息;否则,发送导入错误的提示信息。
5.根据权利要求1所述的方法,其特征在于,在所述将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库之后,所述方法还包括:
通过为所述多语言句对形式的语料添加基本信息,将导入的多语言句对形式的语料进行结构化。
6.根据权利要求1所述的方法,其特征在于,所述从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送包括:
通过分词算法对所述携带有语言种类的待检索信息进行分词处理,得到多个携带有语言种类的待检索分词;
从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果;
通过相似度模型计算包含所有携带有语言种类的待检索分词的语料与待检索信息之间的相似度,选取相似度结果排名前N的包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果进行推送。
7.根据权利要求6所述的方法,其特征在于,所述从所述索引结构的多语言语料库中查找包含所有携带有语言种类的待检索分词的语料,获取与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果包括:
获取每个携带有语言种类的待检索分词对应的索引ID;
根据所述每个携带有语言种类的待检索分词对应的索引ID从所述多语言语料库中查找包含所有携带有语言种类的待检索分词的语料;
从所述多语言句对形式的语料中提取出与包含所有携带有语言种类的待检索分词的语料相匹配语言种类的检索结果。
8.一种多语言信息的检索装置,其特征在于,所述装置包括:
获取单元,用于获取多语言句对形式的语料;
生成单元,用于根据所述多语言句对形式的语料在形成过程中的语言种类,生成符合所述多语言句对形式的语料的存储规则;
导入单元,用于将所述多语言句对形式的语料导入搜索引擎库中符合所述存储规则的语料库,所述搜索引擎库中设置有各种存储规则的语料库
构建单元,用于根据所述搜索引擎库中各种存储规则的语料库之间的关联关系,构建索引结构的多语言语料库;
查找单元,用于当接收到用户发送的携带有语言种类的待检索信息时,从所述索引结构的多语言语料库中查找与所述待检索信息相匹配语言种类的语料作为检索结果进行推送。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201811325488.XA 2018-11-08 2018-11-08 多语言信息的检索方法、装置、计算机设备及计算机存储介质 Active CN109815390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811325488.XA CN109815390B (zh) 2018-11-08 2018-11-08 多语言信息的检索方法、装置、计算机设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811325488.XA CN109815390B (zh) 2018-11-08 2018-11-08 多语言信息的检索方法、装置、计算机设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN109815390A true CN109815390A (zh) 2019-05-28
CN109815390B CN109815390B (zh) 2023-08-08

Family

ID=66602816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811325488.XA Active CN109815390B (zh) 2018-11-08 2018-11-08 多语言信息的检索方法、装置、计算机设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN109815390B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160045A (zh) * 2019-12-27 2020-05-15 苏州亿歌网络科技有限公司 一种游戏资源文件翻译方法、装置及设备
CN111461330A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 一种基于多语言简历的多语言知识库构建方法及系统
CN115618087A (zh) * 2022-12-06 2023-01-17 墨责(北京)科技传播有限公司 对多语言翻译语料进行存储、搜索和显示方法及装置
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN101072168A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种多语言即时通讯终端及其系统和方法
CN102629244A (zh) * 2012-02-27 2012-08-08 清华大学 多语言工卡生成系统及方法
CN103793395A (zh) * 2012-10-30 2014-05-14 上海勇金懿信息科技有限公司 一种快速查询和重用海量多语言资产的方法
CN103823796A (zh) * 2014-02-25 2014-05-28 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104933193A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉马双语平行语料自动采集的系统及实现方法
US20150363384A1 (en) * 2009-03-18 2015-12-17 Iqintell, Llc System and method of grouping and extracting information from data corpora
US20170031901A1 (en) * 2015-07-30 2017-02-02 Alibaba Group Holding Limited Method and Device for Machine Translation
CN106503195A (zh) * 2016-11-02 2017-03-15 四川译宝联科技有限公司 一种基于搜索引擎的翻译词库检索方法及系统
CN106844648A (zh) * 2017-01-22 2017-06-13 中央民族大学 一种基于图片构建资源稀缺语言可比语料库的方法及系统
CN108536688A (zh) * 2018-04-23 2018-09-14 苏州大学 发现全网多语言网站并获得平行语料的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN101072168A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种多语言即时通讯终端及其系统和方法
US20150363384A1 (en) * 2009-03-18 2015-12-17 Iqintell, Llc System and method of grouping and extracting information from data corpora
CN102629244A (zh) * 2012-02-27 2012-08-08 清华大学 多语言工卡生成系统及方法
CN103793395A (zh) * 2012-10-30 2014-05-14 上海勇金懿信息科技有限公司 一种快速查询和重用海量多语言资产的方法
CN103823796A (zh) * 2014-02-25 2014-05-28 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104933193A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉马双语平行语料自动采集的系统及实现方法
US20170031901A1 (en) * 2015-07-30 2017-02-02 Alibaba Group Holding Limited Method and Device for Machine Translation
CN106503195A (zh) * 2016-11-02 2017-03-15 四川译宝联科技有限公司 一种基于搜索引擎的翻译词库检索方法及系统
CN106844648A (zh) * 2017-01-22 2017-06-13 中央民族大学 一种基于图片构建资源稀缺语言可比语料库的方法及系统
CN108536688A (zh) * 2018-04-23 2018-09-14 苏州大学 发现全网多语言网站并获得平行语料的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KURT WINKLER 等: "Fully automatic multi-language translation with a catalogue of phrases: successful employment for the Swiss avalanche bulletin", LANG RESOURCES & EVALUATION, pages 13 - 35 *
孙宏林,段慧明: "面向自然语言处理的现代汉语短语信息库", 术语标准化与信息技术, no. 02, pages 6 *
徐春;: "汉、英平行语料库的研究与构建", 科技信息, no. 17, pages 104 - 105 *
王飞;陈立;易绵竹;谭新;张兴华;: "新技术驱动的自然语言处理进展", 武汉大学学报(工学版), no. 08, pages 669 - 678 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160045A (zh) * 2019-12-27 2020-05-15 苏州亿歌网络科技有限公司 一种游戏资源文件翻译方法、装置及设备
CN111160045B (zh) * 2019-12-27 2021-03-23 苏州亿歌网络科技有限公司 一种游戏资源文件翻译方法、装置及设备
CN111461330A (zh) * 2020-04-03 2020-07-28 中国建设银行股份有限公司 一种基于多语言简历的多语言知识库构建方法及系统
CN111461330B (zh) * 2020-04-03 2023-09-15 中国建设银行股份有限公司 一种基于多语言简历的多语言知识库构建方法及系统
CN115618087A (zh) * 2022-12-06 2023-01-17 墨责(北京)科技传播有限公司 对多语言翻译语料进行存储、搜索和显示方法及装置
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质
CN116757203B (zh) * 2023-08-16 2023-11-10 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109815390B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
JP6975377B2 (ja) テキスト相関度を確定するためのコンピュータ実施方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN110647614B (zh) 智能问答方法、装置、介质及电子设备
CN109815390A (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
JP5998194B2 (ja) 対話型検索方法および装置
CN104685501B (zh) 响应于可视化查询标识文本词汇
US20120054177A1 (en) Sketch-based image search
KR20170063645A (ko) 의도 기반 피드백 제공 기법
CN110413738A (zh) 一种信息处理方法、装置、服务器及存储介质
CN106776583A (zh) 机器翻译评价方法和设备及机器翻译方法和设备
CN108334490A (zh) 关键词提取方法以及关键词提取装置
US9104750B1 (en) Using concepts as contexts for query term substitutions
CN110377745B (zh) 信息处理方法、信息检索方法、装置及服务器
CN108829854B (zh) 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110209810A (zh) 相似文本识别方法以及装置
JP2017157193A (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN110413645A (zh) 数据搜索方法、装置、终端及计算机可读存储介质
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
CN106326415A (zh) 一种拍照搜题的方法及装置
CN104050157A (zh) 歧义消解的方法和系统
CN110008391A (zh) 用户兴趣画像的构建方法及装置、存储介质、计算机设备
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
KR101505673B1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2021042084A1 (en) Systems and methods for retreiving images using natural language description
CN111078724A (zh) 学习系统中的测试题检索方法、装置、设备及存储介质
JP7016237B2 (ja) 情報検索装置、検索処理方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant