CN103488648A - 一种多语种混合检索方法和系统 - Google Patents

一种多语种混合检索方法和系统 Download PDF

Info

Publication number
CN103488648A
CN103488648A CN201210194972.XA CN201210194972A CN103488648A CN 103488648 A CN103488648 A CN 103488648A CN 201210194972 A CN201210194972 A CN 201210194972A CN 103488648 A CN103488648 A CN 103488648A
Authority
CN
China
Prior art keywords
languages
info web
query word
index
info
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210194972.XA
Other languages
English (en)
Other versions
CN103488648B (zh
Inventor
郑伟
林锋
金华兴
孙丽
刘清富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Singapore Holdings Pte Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210194972.XA priority Critical patent/CN103488648B/zh
Priority to TW101129975A priority patent/TW201351169A/zh
Priority to US13/915,378 priority patent/US9582570B2/en
Priority to JP2015517385A priority patent/JP2015523659A/ja
Priority to KR1020147034872A priority patent/KR20150013290A/ko
Priority to PCT/US2013/045348 priority patent/WO2013188504A2/en
Publication of CN103488648A publication Critical patent/CN103488648A/zh
Application granted granted Critical
Publication of CN103488648B publication Critical patent/CN103488648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种多语种混合检索方法和系统,涉及网络技术领域。本发明的方法包括:接收用户端输入的查询词,并识别所述查询词的所属源语种;将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;对于得到的所有网页信息,返回至少一条网页信息至用户端。本发明去除了现有技术对于在检索过程中全文翻译的依赖,降低因翻译而存在的信息损失问题,降低没有明显上下文关系的信息的翻译信息损失问题,提高搜索结果的精确度。

Description

一种多语种混合检索方法和系统
技术领域
本申请涉及网络技术领域,特别是涉及一种多语种混合检索方法和系统。
背景技术
随着网络的普及,网络上的信息资源日益丰富且用户对于网络资源的需求也在逐渐提高。但是在网页信息资源日益丰富的同时,又存在着阻碍这些资源为用户所广泛共存的一个主要障碍:多语种问题。为了解决多语种问题,便开始多语种信息检索(MLIR)的研究。
现有技术中,举例来说,以西班牙语和英语为例:首先,将英语的文档全文翻译为西班牙语文档,然后将翻译得到的西班牙语文档和原有的西班牙文档一起建立西班牙语对应的索引;同时也讲西班牙语文档全文翻译为英语文档,然后将翻译得到的英语文档和原有的英语文档一起建立英语对应的索引。当有英语查询词时,将英语查询词在英语对应的索引中进行检索,获取检索结果并返回;当有西班牙查询词时,将西班牙语查询词在西班牙语对应的索引中进行检索,获取检索结果并返回。
现有技术中,首先,对于其中任意一种语言A,先将其他语言的文档翻译为该语言A的文档在一起建立索引,导致系统结构臃肿,硬件设备规模庞大,不易于维护,也不易于扩展。其次,对于其中任意一种语言A,现有技术将其他语言的文档的全文翻译为该语言A的文档后,将语言A的查询词在这些文档中进行搜索,由于各种语言的规则很不相同,导致翻译时原文档的语义信息损失,并且翻译越多,则可能存在的损失越大,如此,再在全文翻译的基础上进行搜索必然会不够精确。
发明内容
本申请所要解决的技术问题是提供一种多语种混合检索方法和系统,能降低精准度损失的问题,并且系统结构简单,降低硬件设备的规模,易于扩展,布置灵活。
为了解决上述问题,本申请公开、一种多语种混合检索方法,包括:
接收用户端输入的查询词,并识别所述查询词的所属源语种;
将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;
对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
对于得到的所有网页信息,返回至少一条网页信息至用户端。
优选的,所述各语种的网页信息的索引建立的步骤包括:
对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;
对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;
基于各最简语义单元和各特征域建立索引。
优选的,基于各最简语义单元和各特征域建立索引时包括:
利用各最简语义单元,建立第一倒排索引;所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息;
利用所述各特征域和相应特征域中的最简语义单元,将特征域排序建立第二序列化索引;所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
优选的,对于每个语种的查询词,基于所述查询词检索对应各语种的网页信息的索引,获得相应语种的网页信息时包括:
对于每个语种的查询词,按相应语种的语义规则对所述查询词进行规范化处理,得到相应语种的各最简语义单元;
基于各语种的所述各最简语义单元检索相应语种网页信息的索引,获得相应语种的网页信息。
优选的,在获得相应语种的网页信息时包括:
对于每一个语种的网页信息,计算所述网页信息与相应语种查询词的相关性权值。
优选的,计算所述网页信息与相应语种查询词的相关性权值的步骤包括:
计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比f1;
计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2;
计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3;
计算查询词占网页信息的关键词特征域的关键词占比情况f4;
计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5;
计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6;
基于所述f1、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
优选的,将所述查询词从源语种翻译为各目标语种的查询词时包括:
计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
优选的,获取从各目标语种翻译为源语种后的网页信息时包括:
获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端之前还包括:
对于每一条网页信息,利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值;
利用所述总权值对各条网页信息进行排序。
优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端包括:
将网页信息中的标识特征域相同的网页信息进行去重。
相应的,本申请还公开了一种多语种混合检索系统,包括
接收识别模块,用于接收用户端输入的查询词,并识别所述查询词的所属源语种;
翻译模块,用于将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
检索模块群,其中每个语种对应一个检索模块,用于对于相应语种的查询词,基于所述查询词检索对应语种网页信息的索引,获得相应语种的网页信息;
源语种网页信息获取模块,用于对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
返回模块,用于对于得到的所有网页信息,返回至少一条网页信息至用户端。
优选的,所述索引的建立模块包括:
域信息获取子模块,用于对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;
预处理子模块,用于对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;
建立子模块,用于基于各最简语义单元和各特征域建立索引。
与现有技术相比,本申请包括以下优点:
本申请首先对于每一种语言的网页信息建立一套索引,然后对于用户端输入的查询词,首先识别其所属的源语种,并将查询词从源语种翻译为其他语种的查询词;此时对于各语种的查询词,将其输入相应语种的检索引擎中进行检索,得到与查询词相关的网页信息,最后再将得到的产品翻译为源语种的网页信息,返回给用户端查看。在上述过程中,由于是针对每一种语言的网页信息单独建立了索引,在搜索时每种语言的查询词只搜索本语言的网页信息,不用分别为每种语言建立所有语言的网页信息的索引,简化了索引结构,使构建整个系统的硬件设备大大缩减;其次,在上述过程中只是对查询词翻译为目标语言,然后去目标语言的网页信息中搜索相关的网页信息,翻译量少,去除了现有技术对于在检索过程中全文翻译的依赖,降低了因翻译而存在的信息损失问题,特别是降低没有明显上下文关系的信息的翻译信息损失问题,提高了搜索结果的精确度。
附图说明
图1是本申请一种多语种混合检索方法的流程示意图;
图2是本申请优选的建立索引的流程示意图;
图3是本申请优选的对应每个语种查询词的检索流程示意图;
图4是本申请一种多语种混合检索系统的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心思想之一在于,针对每种语言的网页信息,只建立本语种网页信息的索引;对于用户端某种语言的查询词,将其翻译为其他语种的查询词,然后将各种语言的查询词分别输入相应的语种的索引中进行查询,根据查询结果再提取相应的网页信息翻译返回给用户端。本申请提出的多语种混合检索方法,极易扩展到其他语种的语言产品,为多语言混合搜索平台打好基础,实现不同数据对象的混合搜索及混合排序,简化了索引结构,是构建整个系统的硬件设备大大缩减;并且翻译量少,去除了现有技术对于在检索过程中全文翻译的依赖,降低了因翻译而存在的信息损失问题,特别是降低没有明显上下文关系的信息的翻译信息损失问题,提高了搜索结果的精确度。
参照图1,示出了本申请一种多语种混合检索方法的流程示意图,包括:
步骤110,接收用户端输入的查询词,并识别所述查询词的所属源语种;
步骤120,将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
步骤130,对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;
步骤140,对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
步骤150,对于得到的所有网页信息,返回至少一条网页信息至用户端。
本申请首先需要建立各语种的网页信息的索引,比如如果网络中存在英语、法语、汉语、日语四种语言的网页信息,那么对于每种语言的网页信息分别建立一套索引,各自不相互干扰。
在本申请中,首先需要针对各种语言的网页信息建立相应语言的索引。在实际中,可构建相应语种的索引集群,提供该种索引的查询服务。
优选的,所述各语种的网页信息的索引建立的步骤包括:
步骤S131,对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息。
在实际中,本申请对于结构化信息具有更好的搜索精度和效率。比如电子商务领域,电子商务的检索对象是一种结构化信息,那么所述的网页信息为产品信息,进一步可为卖家的产品的详细描述。这类信息有其特殊的结构,通用的搜索索引建立和搜索方法对于该种结构化的信息检索精准度比较低。因为现有技术是将其他语言的产品信息翻译为一种语言的产品信息建立索引,即每种语言的索引包括了所有其他语言的产品信息翻译过来的索引,而现有技术中翻译基本上是针对具有相对完善的上下文关系的长文本内容进行的翻译,但是其针对基本上不具有上下文关系的文本的翻译,比如上述结构化文本,则会出现很大的歧义,如果再完全利用全文翻译的结果去进行搜索,则会导致搜索结果更不精确。
即在本申请中,优选的,所述网页信息可为产品信息。以卖家的产品为例,其产品信息的特征域包括:产品信息主题(title)、产品信息ID、产品信息的关键词、产品信息属性、产品信息类目、产品信息的概要描述、产品的详细描述等等,其中每个字段表示一个特征域。
如表一,其示出了一个英语产品信息的描述片段:
Figure BDA00001761649300071
表一
当然,本申请的网页信息也可扩展到其他具有各种特征域的结构化信息,本申请不对其加以限制。
步骤S132,对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元。
一般情况下,是对各域信息中的语言进行一系列处理,比如预处理、分词、去词根等,其中预处理是对语言进行字符编码处理、大小写转化、去除特殊字符、去除不可见字符等。因为在实际中各个域的信息在后台中可能以各种形式存在。比如title=“plAstic bottlE    #?!$”,预处理后为:title=“plastic bottle”,分词后为title=[plastic][bottle],去词根后为:title=[plastic][bottl]。一般情况下,为了方便存储,会将处理结果进行hash计算,转化为hash id,那么前述title=[plastic][bottle]转化为单词hash id为title=[3439954953][1533389829]。
在实际中,各种语言有其自身的语义规则,因此各种语言的处理规则不同,比如以西班牙语为例,title=“El algodón,hilado del T/C
Figure BDA00001761649300081
tela del cheque44/5”,预处理后为:title=el algodón,hilado del t/c
Figure BDA00001761649300082
tela del cheque 44/5;分词结果为:title=[el algodón][hilado][del][t/c]
Figure BDA00001761649300083
[tela][del][cheque][/44/5],过滤纯数字为title=[el algodón][hilado][del][t/c]
Figure BDA00001761649300084
[tela][del][cheque],去除声调为:title=[el algodon][hilado][del][t/c][teio][tela][del][cheque],去除词根后为:title=[el algodon][hil][del][t/c][te][tel][del][chequ]。
具体的各种语言的处理则按照其语言的规则进行,本申请不对其加以限制。
最后可将每个西班牙语最简语义单元采用hash函数转化为hash id,用于以hash id建立索引。也可直接以最简语言单元建立索引。
步骤S133,基于各最简语义单元和各特征域建立索引。
利用步骤S132得到的规范化的最简语义单元,即可针对各特征域建立索引。比如对于前述产品信息,生成索引是将包括产品title,产品ID、产品的关键词、产品属性、产品类目等信息的特征的索引化。即可得到各种语言的产品信息的本语言的索引。比如如果有英语产品信息和西班牙语产品信息,对英语产品信息建立英语的索引,西班牙产品信息建立西班牙语产品信息,而不用将英语产品信息翻译为西班牙语产品信息后在与原西班牙语产品信息结合在一起建立西班牙语产品信息。
本申请可利用最简语言单元的hash id建立索引,当利用最简语义单元的hash id建立索引时,搜索引擎在步骤130中,也会将各种查询词进行处理做同一的hash计算,以便与hash id构建的索引进行检索。
优选的,参照图2,基于各最简语义单元和各特征域建立索引时包括:
步骤A1,利用各最简语义单元,建立第一倒排索引;所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息;
即本步骤以前述处理得到的最简语义单元为检索单位,构建线上查询时的第一次搜索索引;即搜索引擎直接根据查询词的各最简语义单元搜索所有相关的网页信息。
本步骤倒排索引可根据网页信息不同域的字符建立倒排索引,该部分是线上粗排选择的前提。比如对于前述产品信息,根据产品id,产品类目,产品title,产品keywords,产品summary等域,进行前述预处理、切词等处理后,每个域建立不同的索引,最终会建立多个域的索引。即本申请采用两趟排序策略,第一趟称为粗排即从海量的数据集中通过字符串匹配等算法筛选出较小的候选集合,粗排目标是快速筛选出候选集合;第二趟是精排,即从候选集合中做更精细化排序。
步骤A2,利用所述各特征域和相应特征域中的最简语义单元,将特征域排序建立第二序列化索引;所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
所述第二序列化索引是直接按照一定顺序将各特征域和相应特征域中的最简语义单元进行组织。比如对于前述产品信息,将产品ID,产品类目,产品title等按照其在计算机中占有的内存大小进行组织。
如果存在各目标语种的产品信息的信息质量评价,即计算了产品信息质量得分,则可将产品信息质量得分存储在序列化索引中,其中产品信息质量得分通过Score1=F1(f′1,...,f′n)获得,产品信息质量得分考虑产品的title(主题特征域),keywords(关键词特征域)属性等特征,拟合时可采用的是线性回归模型,F1表示的是信息质量的模型函数,产品信息的打分为score1
另外,如果对于产品信息对应的卖家也存在商业权重,即存在卖家商业得分,那么也可将卖家商业得分存储在序列化索引中。其中商业得分通过:Score2=F2(f″1,...,f″n)获得,产品商业得分类似于产品信息质量得分和相关性得分的训练及预测。
步骤A1和步骤A2的设置,有利于将检索范围从大到小进行检索,节省了系统的检索时间。比如步骤A1首先初步构建的宽范围的索引,那么,在检索时,可直接根据查询词的匹配初选所有与查询词相关的网页信息;然后步骤A2,基于各特征域和相应特征域中的最简语义单元再进行索引构建,那么搜索时通过步骤A1构建的索引缩小了精确检索的范围,以各特征域和相应特征域中的最简语义单元进行精确检索时就只需在小范围内选择,而不用在全量索引中选择,即可节省检索时间。
基于所述构建的索引,本申请的一种多语种混合检索方法包括:
步骤110,接收用户端输入的查询词,并识别所述查询词的所属源语种。
本申请首先需要识别用户输入的查询词的源语种,以便后续步骤的处理。当用户端输入查询词后,本系统接收到用户端输入的查询词,一般会根据用户端的一些信息来添加一个标志位,标志其属于哪种语言,即标志其源语种是哪种。一般情况下,可根据用户端的IP地址来识别,比如,如果用户端输入的查询词是“v-cuello vestido de novia”,该用户端是属于西班牙的IP地址,那么对于“v-cuello vestido de novia”的识别结果为:query=v-cuellovestido de novia&language=es,其中es表示该查询词所属源语种属于西班牙语。如果用户端输入的查询词是v-neck wedding dress,该用户端是属于英国的IP地址,那么对于“v-neck wedding dress”的识别结果为:query=v-neckwedding dress&language=en,其中en表示该查询词所属源语种属于英语。
另外,还可由系统提供选择项,使用户选择其所属的源语种,系统可根据用户的选择识别其输入的查询词属于哪种源语种。具体的识别方式,可以有多种,本申请不对其加以限制。
步骤120,将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种。
为了在不同语言的索引服务器或者服务器集群中进行检索工作,则需要将用户的查询词进行翻译,将查询词从源语种翻译为各目标语种的查询词。
比如前述用户端输入的查询词为“v-cuello vestido de novia”,系统识别其为西班牙语。系统中存在汉语、英语、法语等语言的网页信息的索引,那么就需要将v-cuello vestido de novia”翻译为这些语言的查询词。比如将“v-cuello vestido de novia”翻译成英语“v-neck wedding dress”。
而对于源语种的查询词来说,不需要翻译,则可直接将其输入源语种检索集群进行检索。
另外,优选的,将所述查询词从源语种翻译为各目标语种的查询词时包括:
步骤S121,计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
对于将查询词翻译为某种语言的查询词时,可计算其翻译质量(翻译质量主要考虑借助语言模型及字典来计算翻译译文的忠诚度及流利度,从而得到一个置信度,具体计算方法本申请不对其加以限制)stido de novia”翻译成英语“v-neck wedding dress”,则可计算将“v-cuello vestido de novia”翻译成英语“v-neck wedding dress”时的第一翻译权值。
步骤130,对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息。
在实际中,本步骤对于翻译后得到每个语种的查询词和源语种的查询词,需要进行预处理,即进行规范化处理。参照图3,对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息包括:
步骤B1,对于每个语种的查询词,按相应语种的语义规则对所述查询词进行规范化处理,得到相应语种的各最简语义单元;
由于每种语言的语态、句法、编码方式等不同,因此每种语言的预处理方式不同。比如编码方式处理、大小写转化、乱码处理、非法字符处理、特殊字符处理、分句、分词、去词根、去声调等操作。
以西班牙语为例:查询词红色的mp3 player,q=“rojO??reprodUctor demp3”,预处理之后分词为“rojo/reproductor de mp3/”,“rojo/reproductorde mp3/”去除词根后为:“roj reproductor de mp3”。
以英语为例:查询词为q=“RED mp3$$$pLayeR&&***^M”,预处理之后分词后为q=”red mp3 player”。
步骤B2,基于各语种的所述各最简语义单元检索相应语种网页信息的索引,获得相应语种的网页信息。
然后利用得到的最简语义单元,在索引中检索网页信息。
优选的,在索引中检索时包括:
步骤C1,利用第一倒排索引检索筛选与查询词对应字符串匹配的候选索引集合;
步骤C2,利用第二序列化索引从所述候选索引集合中选择最终网页信息结果。
步骤C1和C2利用到前述优选的,基于各最简语义单元和各特征域建立索引的步骤A1和A2。
本申请可将一种语言的网页信息翻译成其他语言的网页信息进行存储,以便步骤130检索到结果后,提取该语种网页信息相应的翻译为源语种的网页信息,然后展示给源语种的用户端,使源语种的用户端可以浏览。
优选的,在获得相应语种的网页信息时包括:
步骤D1,对于每一个语种的网页信息,计算所述网页信息与相应语种查询词的相关性权值。
比如,对于识别为英语语种的用户端,当将其查询词翻译为西班牙语在西班牙索引中检索到网页信息后,计算所述西班牙网页信息与西班牙查询词的相关性权值,同理,比如计算汉语网页信息与汉语查询词的相关性权值;以便在将网页信息返回给用户端时,依据所述相关性权值给各网页信息进行排序。
优选的,计算所述网页信息与相应语种查询词的相关性权值的步骤包括:
步骤D11,计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比f1;
比如对于前述产品信息,f1表示查询词与产品描述中title(产品信息的主题特征域)相同单词与产询词长度的占比情况。以西班牙语为例query=teléfono móvil,title=Nokia 5310 teléfono móvil,那么query和title完全匹配的单词为2,最终特征得分为满分1分。
步骤D12,计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2;
比如对于前述产品信息,f2表示查询词与产品描述中title相同单词与title长度的占比情况,比如查询词query=teléfono móvil,主题特征域词title=Nokia 5310 teléfono móvil,那么query和title完全匹配的单词为2,最终特征得分为0.5分。
步骤D13,计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3;
比如对于前述产品信息,f3表示查询词占包含查询词的title情况,比如query=rojo mp3,title=Rojo 2G mp3,最终得分为0.6分。
步骤D14,计算查询词占网页信息的关键词特征域的关键词占比情况f4;
比如对于前述产品信息,f4表示查询词占包含查询词的keywords(关键词特征域的关键词)情况,(keywords是卖家发布产品信息时填写的与该产品相关的多个产品词),和f1特征计算方法类似,如果查询词和keywords完全匹配获得比较高的特征分,否则的比较低的特征分。
步骤D15,计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5;
比如对于前述产品信息,f5表示查询词语与产品描述中title(主题特征域)序列匹配。比如主题特征域的词为title=teléfono móvil,查询词query=teléfono móvil为,则序列完全匹配,分值为1。
步骤D16,计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6;
比如对于前述产品信息,f6表示查询词与产品描述中keywords序列匹配。比如,keywords中包括,teléfono móvil,Nokia 5310 teléfono móvil,Nokia5310,查询词query=teléfono móvil,则匹配分为1.5。
f5和f6不仅考虑query和产品的字符匹配,还考虑字符序列,若字符串完全匹配并且字符序列完全一致的满分。
步骤D17,基于所述f1、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
对于这些特征的拟合即特征值权重的确定,采用线性回归模型。相关性得分可通过Score0=F0(f1,...,f6)获得,f1,f2,...,f6表示上述六个特征,F0表示线性回归模型训练的模型函数,上面特征进行拟合后得出的分值score0即为相关性得分。
步骤140,对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息。
比如前述预先翻译存储的各目标语种相应的翻译为源语种后的网页信息,那么本步骤可直接根据检索结果获取从各目标语种翻译为源语种后的网页信息。一般可根据各条检索结果与翻译后的网页信息的一一对应关系获取。
在实际中,在建立完索引后,即可将每种语言的网页信息翻译为其他语言的网页信息进行存储,以便步骤130检索到结果后,从所述存储中提取该语种网页信息相应的翻译为源语种的网页信息,然后展示给源语种的用户端,使源语种的用户端可以浏览。比如,实际中有英语,西班牙语,汉语三种语言的网页信息,对于每种语言的网页信息,建立本语言的索引后;对于英语网页信息,将其翻译为西班牙语的网页信息和汉语的网页信息进行存储;对于西班牙语的网页信息,将其翻译为英语的网页信息和汉语的网页信息进行存储;对于汉语的网页信息,将其翻译为英语的网页信息和西班牙语的网页信息进行存储。如此,比如当用户端是汉语语种用户时,其输入的查询词翻译为英语查询词和西班牙查询词,分别在英语索引和西班牙索引中搜索到相应结果时,则提取对应的翻译后的中文网页信息给所述汉语用户。
另外,本步骤也可在获得检索结果后,即对目标语言的索引进行检索得到目标语言的网页信息后,再将其翻译为源语言的网页信息返回给用户端,不过该种方法不如预先存储的模式效率高。
优选的,获取从各目标语种翻译为源语种后的网页信息时包括:
步骤S141,获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
比如将英文的网页信息翻译成西班牙文的网页信息时,即可计算其翻译质量,获取其翻译的置信度,即所述第二翻译权值。
比如前述,存在英语,西班牙语,汉语三种语言的产品信息时,对于英语产品信息,将其翻译为西班牙语的产品信息和汉语的产品信息进行存储;那么即可分别计算将英语产品信息翻译为西班牙语的产品信息和汉语的产品信息的第二翻译权值,获取其翻译的置信度。
步骤150,对于得到的所有网页信息,返回至少一条网页信息至用户端。
在得到最终的检索结果,即最终的检索信息后,实际中一般将各网页信息进行排序,然后再进行输出。
输出之前,可结合前述各网页信息与相应查询词的权重进行排序。优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端之前还包括:
步骤E1,对于每一条网页信息,利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值;
对于前述得到的:
(1)计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。设其为p1
(2)各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。设其为p2
(3)各网页信息与相应语种查询词的相关性权值。即前述基于所述f1、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值score0
(4)网页信息质量得分score1
(5)商业得分score2
那么可通过Score=F(score0,score1,score3)×p1×p2计算各网页信息的总权值,其中指线性回归模型。比如对于识别为西班牙语种用户的西班牙查询词,系统将该西班牙查询词翻译为英语查询词时,可计算西班牙查询词翻译成英文查询词的质量p1,某英文网页信息翻译成西班牙网页信息的质量p2,然后基于前述的其他几项特征计算某英文网页信息或者其对应翻译的西班牙网页信息的总权值。
步骤E2,利用所述总权值对各条网页信息进行排序。
对于最终得到的源语种的各网页信息,基于上述总权值对各网页信息排序,然后即可根据排序情况输出给用户端。
另外,优选的,对于得到的所有网页信息,返回至少一条网页信息至用户端包括:
步骤O1,将网页信息中的标识特征域相同的网页信息进行去重。
比如对于前述的产品信息,在实际的检索结果中可能存在相同或比较相似的产品。比如某跨国销售的公司,其在不同语言的国家可能销售同一款产品,其不同只在于产品信息的语言不同。那么此种情况,即可对其进行去重。去重原理包括根据卖家产品的唯一标志产品id进行过滤。比如,如果产品id相同时,选取搜索引擎分配的文档id较小的那个。
参照图4,其示出了本申请一种多语种混合检索系统的结构示意图,包括:
搜索系统210和索引建立系统220;
所述搜索模块包括:
接收识别模块211,用于接收用户端输入的查询词,并识别所述查询词的所属源语种;
翻译模块212,用于将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
检索模块群213,其中每个语种对应一个检索模块,用于对于相应语种的查询词,基于所述查询词检索对应语种网页信息的索引,获得相应语种的网页信息;
源语种网页信息获取模块214,用于对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
返回模块215,用于对于得到的所有网页信息,返回至少一条网页信息至用户端。
所述索引建立模块220包括:
域信息获取子模块221,用于对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;
预处理子模块222,用于对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;
建立子模块223,用于基于各最简语义单元和各特征域建立索引。
其中,所述的翻译模块还用于计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
所述的翻译模块还用于将各目标语种的网页信息从各目标语种翻译为源语种的网页信息;并计算各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
所述的搜索模块210还包括去重合并模块,用于将网页信息中的标识特征域相同的网页信息进行去重。
其中,所述建立子模块223包括:
第一倒排索引建立模块,用于利用各最简语义单元,建立第一倒排索引;所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息;
第二序列化索引建立模块,用于利用所述各特征域和相应特征域中的最简语义单元,将特征域排序建立第二序列化索引;所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
其中,所述每个检索模块包括:
预处理子模块,用于对于每个语种的查询词,按相应语种的语义规则对所述查询词进行规范化处理,得到相应语种的各最简语义单元;
检索子模块,用于基于各语种的所述各最简语义单元检索相应语种网页信息的索引,获得相应语种的网页信息。
其中,所述搜索模块还包括:相关性权值计算模块,用于对于每一个语种的网页信息,计算所述网页信息与相应语种查询词的相关性权值。
其中,所述相关性权值计算模块包括:
第一计算子模块,用于计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比f1;
第二计算子模块,用于计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2;
第三计算子模块,用于计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3;
第四计算子模块,用于计算查询词占网页信息的关键词特征域的关键词占比情况f4;
第五计算子模块,用于计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5;
第六计算子模块,用于计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6;
第七计算子模块,用于基于所述f1、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
所述返回模块还包括:
总权值计算子模块,用于对于每一条网页信息,利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值;
排序子模块,用于利用所述总权值对各条网页信息进行排序。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种多语种混合检索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种多语种混合检索方法,其特征在于,包括:
接收用户端输入的查询词,并识别所述查询词的所属源语种;
将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
对于每个语种的查询词,基于所述查询词检索对应各语种网页信息的索引,获得相应语种的网页信息;
对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
对于得到的所有网页信息,返回至少一条网页信息至用户端。
2.根据权利要求1所述的方法,其特征在于,所述各语种的网页信息的索引建立的步骤包括:
对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;
对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;
基于各最简语义单元和各特征域建立索引。
3.根据权利要求2所述的方法,其特征在于,基于各最简语义单元和各特征域建立索引时包括:
利用各最简语义单元,建立第一倒排索引;所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息;
利用所述各特征域和相应特征域中的最简语义单元,将特征域排序建立第二序列化索引;所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
4.根据权利要求1所述的方法,其特征在于,对于每个语种的查询词,基于所述查询词检索对应各语种的网页信息的索引,获得相应语种的网页信息时包括:
对于每个语种的查询词,按相应语种的语义规则对所述查询词进行规范化处理,得到相应语种的各最简语义单元;
基于各语种的所述各最简语义单元检索相应语种网页信息的索引,获得相应语种的网页信息。
5.根据权利要求4所述的方法,其特征在于,在获得相应语种的网页信息时包括:
对于每一个语种的网页信息,计算所述网页信息与相应语种查询词的相关性权值。
6.根据权利要求5所述的方法,其特征在于,计算所述网页信息与相应语种查询词的相关性权值的步骤包括:
计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比f1;
计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2;
计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3;
计算查询词占网页信息的关键词特征域的关键词占比情况f4;
计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5;
计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6;
基于所述f1、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
7.根据权利要求1所述的方法,其特征在于,将所述查询词从源语种翻译为各目标语种的查询词时包括:
计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
8.根据权利要求1所述的方法,其特征在于,获取从各目标语种翻译为源语种后的网页信息时包括:
获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
9.根据权利要求6、7、8其中之一所述的方法,其特征在于,对于得到的所有网页信息,返回至少一条网页信息至用户端之前还包括:
对于每一条网页信息,利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值;
利用所述总权值对各条网页信息进行排序。
10.根据权利要求1所述的方法,其特征在于,对于得到的所有网页信息,返回至少一条网页信息至用户端包括:
将网页信息中的标识特征域相同的网页信息进行去重。
11.一种多语种混合检索系统,其特征在于,包括
接收识别模块,用于接收用户端输入的查询词,并识别所述查询词的所属源语种;
翻译模块,用于将所述查询词从源语种翻译为各目标语种的查询词;所述各目标语种为与所述源语种不同的语种;
检索模块群,其中每个语种对应一个检索模块,用于对于相应语种的查询词,基于所述查询词检索对应语种网页信息的索引,获得相应语种的网页信息;
源语种网页信息获取模块,用于对于由各目标语种对应的索引获得的网页信息,获取从各目标语种翻译为源语种后的网页信息;
返回模块,用于对于得到的所有网页信息,返回至少一条网页信息至用户端。
12.根据权利要求11所述的系统,其特征在于,所述索引的建立模块包括:
域信息获取子模块,用于对于一个语种的网页信息,获取所述网页信息对应的各特征域的域信息;
预处理子模块,用于对于每个特征域的域信息,基于所属语种的语义规则进行规范化处理,得到该语种的各最简语义单元;
建立子模块,用于基于各最简语义单元和各特征域建立索引。
CN201210194972.XA 2012-06-13 2012-06-13 一种多语种混合检索方法和系统 Active CN103488648B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210194972.XA CN103488648B (zh) 2012-06-13 2012-06-13 一种多语种混合检索方法和系统
TW101129975A TW201351169A (zh) 2012-06-13 2012-08-17 多語種混合檢索方法和系統
US13/915,378 US9582570B2 (en) 2012-06-13 2013-06-11 Multilingual mixed search method and system
JP2015517385A JP2015523659A (ja) 2012-06-13 2013-06-12 多言語混合検索方法およびシステム
KR1020147034872A KR20150013290A (ko) 2012-06-13 2013-06-12 다중언어 혼합된 검색 방법 및 시스템
PCT/US2013/045348 WO2013188504A2 (en) 2012-06-13 2013-06-12 Multilingual mixed search method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210194972.XA CN103488648B (zh) 2012-06-13 2012-06-13 一种多语种混合检索方法和系统

Publications (2)

Publication Number Publication Date
CN103488648A true CN103488648A (zh) 2014-01-01
CN103488648B CN103488648B (zh) 2018-03-20

Family

ID=49756894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210194972.XA Active CN103488648B (zh) 2012-06-13 2012-06-13 一种多语种混合检索方法和系统

Country Status (6)

Country Link
US (1) US9582570B2 (zh)
JP (1) JP2015523659A (zh)
KR (1) KR20150013290A (zh)
CN (1) CN103488648B (zh)
TW (1) TW201351169A (zh)
WO (1) WO2013188504A2 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468920A (zh) * 2015-12-07 2016-04-06 国家电网公司信息通信分公司 一种评价查新报告质量的模型建立方法及应用方法
CN106294643A (zh) * 2016-08-03 2017-01-04 王晓光 不同语言在大数据中实现实时搜索方法及系统
CN106326350A (zh) * 2016-08-06 2017-01-11 马岩 不同语言在大数据中实现实时搜索方法及系统
CN106383892A (zh) * 2016-09-23 2017-02-08 广东风信子网络科技有限公司 一种跨境商品信息自助查询器及方法
CN106407250A (zh) * 2015-07-28 2017-02-15 阿里巴巴集团控股有限公司 信息查询方法、装置、系统、服务器和客户端
CN106503195A (zh) * 2016-11-02 2017-03-15 四川译宝联科技有限公司 一种基于搜索引擎的翻译词库检索方法及系统
CN107221329A (zh) * 2017-07-06 2017-09-29 上海思依暄机器人科技股份有限公司 一种对话控制方法、装置及机器人
CN107632986A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 搜索方法及装置
WO2018027344A1 (zh) * 2016-08-06 2018-02-15 马岩 不同语言在大数据中实现实时搜索方法及系统
CN107844235A (zh) * 2016-09-20 2018-03-27 大众汽车有限公司 用户界面、提供用户界面的方法和存储器介质
CN109933724A (zh) * 2019-03-07 2019-06-25 上海智臻智能网络科技股份有限公司 知识搜索方法、系统、问答装置、电子设备及存储介质
CN110232107A (zh) * 2019-05-08 2019-09-13 深圳市小满科技有限公司 一种产品数据获取方法
CN110347904A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个多语言电子商务网站处理语言搜索方法
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN111737550A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN112380410A (zh) * 2020-11-10 2021-02-19 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
CN113486246A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 信息的搜索方法、装置、设备以及存储介质
WO2024179341A1 (zh) * 2023-02-28 2024-09-06 北京字跳网络技术有限公司 内容搜索方法、装置、设备、计算机可读存储介质及产品

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9678952B2 (en) 2013-06-17 2017-06-13 Ilya Ronin Cross-lingual E-commerce
US9324065B2 (en) 2014-06-11 2016-04-26 Square, Inc. Determining languages for a multilingual interface
US10409810B2 (en) * 2015-05-08 2019-09-10 International Business Machines Corporation Generating multilingual queries
WO2017074785A1 (en) * 2015-10-30 2017-05-04 Alibaba Group Holding Limited Method and system for statistics-based machine translation
US10496970B2 (en) 2015-12-29 2019-12-03 Square, Inc. Animation management in applications
US10083155B2 (en) 2016-05-17 2018-09-25 International Business Machines Corporation Method for detecting original language of translated document
US11829428B2 (en) * 2016-07-06 2023-11-28 Vimio Co. Ltd App name search method and system
WO2018073947A1 (ja) * 2016-10-20 2018-04-26 富士通株式会社 対応語出力プログラム、対応語出力装置及び対応語出力方法
US10380579B1 (en) * 2016-12-22 2019-08-13 Square, Inc. Integration of transaction status indications
CN110399515B (zh) * 2019-06-28 2022-05-17 中山大学 图片检索方法、装置及图片检索系统
US20240119076A1 (en) * 2022-10-07 2024-04-11 Open Text Corporation System and method for hybrid multilingual search indexing
US20240119070A1 (en) * 2022-10-07 2024-04-11 Open Text Corporation System and method for hybrid multilingual search indexing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1424670A (zh) * 2002-12-25 2003-06-18 上海交通大学 跨语种网页搜索方法
CN101099153A (zh) * 2005-01-04 2008-01-02 汤姆森环球资源公司 用于多语言信息检索的系统、方法、软件和界面
CN101288073A (zh) * 2005-01-13 2008-10-15 汤姆森环球资源公司 用于利用多种查询语言检索信息的系统、方法和软件
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索
CN101918945A (zh) * 2007-07-20 2010-12-15 谷歌公司 自动扩展的语言搜索

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013289B2 (en) * 2001-02-21 2006-03-14 Michel Horn Global electronic commerce system
JP2004534324A (ja) * 2001-07-04 2004-11-11 コギズム・インターメディア・アーゲー 索引付きの拡張可能な対話的文書検索システム
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7627817B2 (en) 2003-02-21 2009-12-01 Motionpoint Corporation Analyzing web site for translation
DE10348920A1 (de) * 2003-10-21 2005-05-25 Bayer Materialscience Ag Computersystem und Verfahren zur mehrsprachigen assoziativen Suche
JP5027803B2 (ja) 2005-05-20 2012-09-19 エヌエイチエヌ ビジネス プラットフォーム コーポレーション クエリマッチングシステム及びその方法、該方法を実行するためのプログラムが記録されたコンピュータ読取可能な記録媒体
JP2006179019A (ja) 2006-01-16 2006-07-06 Ricoh Co Ltd 文書検索装置
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
JP4787803B2 (ja) 2007-08-31 2011-10-05 株式会社リコー 情報処理装置と情報処理方法とプログラム
US20090144280A1 (en) * 2007-12-03 2009-06-04 Barry Rongsheng Su Electronic multilingual business information database system
JP2009157458A (ja) 2007-12-25 2009-07-16 Nippon Telegr & Teleph Corp <Ntt> インデックス作成装置、その方法、プログラム及び記録媒体
US8346613B2 (en) 2007-12-26 2013-01-01 Marc Raygoza Zero integration model for e-commerce merchants
US20090287471A1 (en) 2008-05-16 2009-11-19 Bennett James D Support for international search terms - translate as you search
US8250083B2 (en) * 2008-05-16 2012-08-21 Enpulz, Llc Support for international search terms—translate as you crawl
JP4826622B2 (ja) 2008-11-10 2011-11-30 日本電気株式会社 文書検索装置、検索方法及びプログラム
CN102012900B (zh) 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
JP5577809B2 (ja) 2010-04-14 2014-08-27 アイシン・エィ・ダブリュ株式会社 施設検索装置及びプログラム
CN102289436B (zh) * 2010-06-18 2013-12-25 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
JP5542017B2 (ja) * 2010-09-15 2014-07-09 アルパイン株式会社 名称検索装置
JP5492726B2 (ja) 2010-09-27 2014-05-14 株式会社日立システムズ 特定文字列除き文字列検索支援システムおよび検索支援方法、ならびにそのためのプログラム
US20120185496A1 (en) * 2011-01-18 2012-07-19 Dublin City University Method of and a system for retrieving information
US20120278302A1 (en) * 2011-04-29 2012-11-01 Microsoft Corporation Multilingual search for transliterated content

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1424670A (zh) * 2002-12-25 2003-06-18 上海交通大学 跨语种网页搜索方法
CN101099153A (zh) * 2005-01-04 2008-01-02 汤姆森环球资源公司 用于多语言信息检索的系统、方法、软件和界面
CN101288073A (zh) * 2005-01-13 2008-10-15 汤姆森环球资源公司 用于利用多种查询语言检索信息的系统、方法和软件
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101918945A (zh) * 2007-07-20 2010-12-15 谷歌公司 自动扩展的语言搜索
CN101868797A (zh) * 2007-09-21 2010-10-20 谷歌公司 跨语言搜索

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407250A (zh) * 2015-07-28 2017-02-15 阿里巴巴集团控股有限公司 信息查询方法、装置、系统、服务器和客户端
CN106407250B (zh) * 2015-07-28 2020-02-11 阿里巴巴集团控股有限公司 信息查询方法、装置、系统、服务器和客户端
US10467266B2 (en) 2015-07-28 2019-11-05 Alibaba Group Holding Limited Information query
CN105468920B (zh) * 2015-12-07 2019-03-12 国家电网公司信息通信分公司 一种评价查新报告质量的模型建立方法及应用方法
CN105468920A (zh) * 2015-12-07 2016-04-06 国家电网公司信息通信分公司 一种评价查新报告质量的模型建立方法及应用方法
CN107632986B (zh) * 2016-07-18 2021-04-06 阿里巴巴集团控股有限公司 搜索方法及装置
CN107632986A (zh) * 2016-07-18 2018-01-26 阿里巴巴集团控股有限公司 搜索方法及装置
CN106294643A (zh) * 2016-08-03 2017-01-04 王晓光 不同语言在大数据中实现实时搜索方法及系统
WO2018027344A1 (zh) * 2016-08-06 2018-02-15 马岩 不同语言在大数据中实现实时搜索方法及系统
CN106326350A (zh) * 2016-08-06 2017-01-11 马岩 不同语言在大数据中实现实时搜索方法及系统
CN107844235A (zh) * 2016-09-20 2018-03-27 大众汽车有限公司 用户界面、提供用户界面的方法和存储器介质
CN106383892A (zh) * 2016-09-23 2017-02-08 广东风信子网络科技有限公司 一种跨境商品信息自助查询器及方法
CN106503195A (zh) * 2016-11-02 2017-03-15 四川译宝联科技有限公司 一种基于搜索引擎的翻译词库检索方法及系统
CN107221329A (zh) * 2017-07-06 2017-09-29 上海思依暄机器人科技股份有限公司 一种对话控制方法、装置及机器人
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN110888967B (zh) * 2018-09-11 2023-04-28 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN109933724A (zh) * 2019-03-07 2019-06-25 上海智臻智能网络科技股份有限公司 知识搜索方法、系统、问答装置、电子设备及存储介质
CN109933724B (zh) * 2019-03-07 2022-01-14 上海智臻智能网络科技股份有限公司 知识搜索方法、系统、问答装置、电子设备及存储介质
CN111737550B (zh) * 2019-03-25 2024-01-23 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN111737550A (zh) * 2019-03-25 2020-10-02 阿里巴巴集团控股有限公司 搜索结果处理方法及装置、存储介质和处理器
CN110232107A (zh) * 2019-05-08 2019-09-13 深圳市小满科技有限公司 一种产品数据获取方法
CN110347904A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个多语言电子商务网站处理语言搜索方法
CN112380410A (zh) * 2020-11-10 2021-02-19 北京字节跳动网络技术有限公司 信息处理方法、装置和电子设备
CN112528681A (zh) * 2020-12-18 2021-03-19 北京百度网讯科技有限公司 跨语言检索及模型训练方法、装置、设备和存储介质
CN113486246A (zh) * 2021-07-26 2021-10-08 平安科技(深圳)有限公司 信息的搜索方法、装置、设备以及存储介质
CN113486246B (zh) * 2021-07-26 2024-07-12 平安科技(深圳)有限公司 信息的搜索方法、装置、设备以及存储介质
WO2024179341A1 (zh) * 2023-02-28 2024-09-06 北京字跳网络技术有限公司 内容搜索方法、装置、设备、计算机可读存储介质及产品

Also Published As

Publication number Publication date
JP2015523659A (ja) 2015-08-13
CN103488648B (zh) 2018-03-20
US9582570B2 (en) 2017-02-28
WO2013188504A3 (en) 2014-02-13
WO2013188504A2 (en) 2013-12-19
US20130339378A1 (en) 2013-12-19
TW201351169A (zh) 2013-12-16
KR20150013290A (ko) 2015-02-04

Similar Documents

Publication Publication Date Title
CN103488648A (zh) 一种多语种混合检索方法和系统
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN105808711B (zh) 一种基于文本语义的概念生成模型的系统和方法
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN102253930B (zh) 一种文本翻译的方法及装置
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
GB2583679A (en) Searching multilingual documents based on document structure extraction
CN101350027A (zh) 内容检索设备和内容检索方法
Alkadri et al. Semantic feature based arabic opinion mining using ontology
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN114997288A (zh) 一种设计资源关联方法
KR101616031B1 (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
CN101308512A (zh) 一种基于网页的互译翻译对抽取方法及装置
CN102117285B (zh) 一种基于语义索引的检索方法
Christophe et al. A methodology supporting syntactic, lexical and semantic clarification of requirements in systems engineering
CN105426551A (zh) 文言文搜索方法和装置
CN114169325B (zh) 基于词向量表征的网页新词发现和解析方法
Bernard et al. Tracking news stories in short messages in the era of infodemic
Pilaluisa et al. Contextual word embeddings for tabular data search and integration
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Gupta et al. Review of various sentiment analysis techniques of Twitter data
Giang et al. Building Structured Query in Target Language for Vietnamese–English Cross Language Information Retrieval Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1191713

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1191713

Country of ref document: HK

TR01 Transfer of patent right

Effective date of registration: 20240301

Address after: 51 Belarusian Road, Singapore

Patentee after: Alibaba Singapore Holdings Ltd.

Country or region after: Singapore

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

Country or region before: Cayman Islands

TR01 Transfer of patent right