CN103886064A - 一种语言融合搜索装置及方法 - Google Patents

一种语言融合搜索装置及方法 Download PDF

Info

Publication number
CN103886064A
CN103886064A CN201410103118.7A CN201410103118A CN103886064A CN 103886064 A CN103886064 A CN 103886064A CN 201410103118 A CN201410103118 A CN 201410103118A CN 103886064 A CN103886064 A CN 103886064A
Authority
CN
China
Prior art keywords
language
information
retrieving
result set
retrieving information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410103118.7A
Other languages
English (en)
Other versions
CN103886064B (zh
Inventor
闫正航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Original Assignee
Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yulong Computer Telecommunication Scientific Shenzhen Co Ltd filed Critical Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority to CN201410103118.7A priority Critical patent/CN103886064B/zh
Publication of CN103886064A publication Critical patent/CN103886064A/zh
Application granted granted Critical
Publication of CN103886064B publication Critical patent/CN103886064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种语言融合搜索装置及方法,识别用户输入的第一语言检索信息和第二语言检索信息;根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。解决现有翻译软件在同一时间点只对用户输入的单一语言进行翻译的问题。

Description

一种语言融合搜索装置及方法
技术领域
本发明涉及电子技术领域,尤其涉及一种语言融合搜索装置及方法。
背景技术
现有的翻译软件中,通常是用户输入一种语言的检索信息,软件翻译为另一种语言,如将英文翻译成中文。而且,现有翻译软件对用户输入的检索信息的准确程度要求很高,如果用户对要输入的检索信息记得不是很准确的话,难以找到目标结果。当用户对源语言检索信息有部分信息量,对需要翻译成的目标翻译结果也有部分信息量,例如用户想查找一个英文是“poly”开头,中文带一个“胺”字的化工词语,当输入“poly”时,现有的翻译软件会翻译成一系列相关的中文词语,但并没有得到期望结果;当输入“胺”时,现有的翻译软件会翻译成一系列相关的英文词语,但是同样没有得到期望结果;当在搜索框中同时输入两种语言的部分信息时,现有翻译软件的一般做法是只翻译前面一种语言的内容,仍不是用户希望得到的结果。
发明内容
本发明提供一种语言融合搜索装置及方法,解决现有翻译软件在同一时间点只对用户输入的单一语言进行翻译的问题。
为解决上述技术问题,本发明采用以下技术方案:
一种语言融合搜索装置,包括:
识别模块,用于识别用户输入的第一语言检索信息和第二语言检索信息;
第一搜索模块,用于根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;
第二搜索模块,用于根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;
第一翻译模块,用于将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;
运算模块,用于对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
进一步地,该语言融合搜索装置还包括:
第二翻译模块,用于将第一子集中的各个结果翻译成第一语言,得到第二子集;
和/或显示模块,用于显示第一子集和/或第二子集。
进一步地,所述识别模块包括:
接收子模块,用于接收用户输入的检索信息;
识别子模块,用于识别所述接收子模块接收到的检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息。
进一步地,所述识别子模块具体用于根据所述检索信息包括的两种不同语言检索信息是否按照预设的连接符输入在同一指定搜索框中,来识别所述两种不同语言检索信息是否按照预设规则输入。
一种语言融合搜索方法包括:
识别用户输入的第一语言检索信息和第二语言检索信息;
根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;
对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
进一步地,语言融合搜索方法还包括:
显示第一子集。
进一步地,语言融合搜索方法还包括:
将第一子集中的各个结果翻译成第一语言,得到第二子集;
显示第二子集。
进一步地,识别用户输入的第一语言检索信息和第二语言检索信息包括:
接收用户输入的检索信息;
识别所述检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息。
进一步地,所述两种不同语言检索信息是否按照预设规则输入包括:所述两种不同语言检索信息是否按照预设的连接符输入在同一指定搜索框中。
进一步地,所述预设的连接符包括:分号、空格、百分号、千分号、顿号中的一种或多种。
本发明提供的语言融合搜索装置及方法,支持两种不同语言的融合翻译,根据用户输入的第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;根据用户输入的第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合,将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;对第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。当用户对源语言检索信息有部分信息量,对需要翻译成的目标翻译结果也有部分信息量时,利用本发明能够根据用户输入的双语信息检索信息缩小搜索范围,更容易获得准确的结果。
附图说明
图1为本发明一实施例提供的语言融合搜索方法的流程图;
图2为本发明一实施例提供的语言融合搜索装置的示意图;
图3为本发明另一实施例提供的语言融合搜索方法的流程图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
图1为本发明一实施例提供的语言融合搜索方法的流程图,请参考图1,包括如下流程:
S101、识别用户输入的第一语言检索信息和第二语言检索信息。
S102、根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合。
S103、对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
第一语言、第二语言指的是世界上任意两种不同的语言,例如第一语言是汉语,第二语言是英语;或者第一语言是英文,第二语言是汉语。
第一语言检索信息、第二语言检索信息可以是字、词、短语、句子。
第一语言信息库中预存的是第一语言的信息,包括第一语言的字、词、短语、句子等;第二语言信息库中预存的是第二语言的信息,包括第二语言的字、词、短语、句子等。
在一些实施例中,步骤S103之后还包括:
显示第一子集;和/或,将第一子集中的各个结果翻译成第一语言,得到第二子集并显示第二子集。
在一些实施例中,步骤S101包括:
S101a、接收用户输入的检索信息;
S101b、识别所述检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则适用本发明的语言融合搜索方法,将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息,进入步骤S102;否则,按照常规方式处理。不论用户输入怎样的检索信息,都能处理。
在一些实施例中,所述两种不同语言检索信息按照预设规则输入包括但不局限于:所述两种不同语言检索信息按照预设的连接符输入在同一指定搜索框中;预设的连接符包括:分号、空格、百分号、千分号、顿号中的一种或多种。例如在同一指定搜索框中输入“poly”和“胺”,且用“;”隔开,即输入“poly;胺”,则识别为适用本发明的语言融合搜索方法。
图2为本发明一实施例提供的语言融合搜索装置的示意图,如图2所示,语言融合搜索装置2包括识别模块21、第一搜索模块22、第二搜索模块23、第一翻译模块24和运算模块25,其中,
识别模块21用于识别用户输入的第一语言检索信息和第二语言检索信息;
第一搜索模块22用于根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;
第二搜索模块23用于根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;
第一翻译模块24用于将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;
运算模块25用于对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
优选的,语言融合搜索装置2还包括:第二翻译模块26和/或显示模块27,其中,
第二翻译模块26用于将第一子集中的各个结果翻译成第一语言,得到第二子集;
显示模块27用于显示第一子集和/或第二子集。
优选的,识别模块21包括接收子模块211和识别子模块212,其中,
接收子模块211用于接收用户输入的检索信息;
识别子模块212用于识别接收子模块211接收到的检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息。
优选的,识别子模块212具体用于根据所述检索信息包括的两种不同语言检索信息是否按照预设的连接符输入在同一指定搜索框中,来识别所述两种不同语言检索信息是否按照预设规则输入。
下面以用户想查找一个英文以“poly”开头,中文带一个“胺”字的化工词语为例,本发明一实施例包括以下流程:
S301、用户在指定的同一搜索框中输入:“poly;胺”;
S302、接收用户输入的“poly;胺”;
S303、识别用户输入的是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若是,将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息)假设本实施例将“poly”作为第一语言检索信息,将“胺”作为第二语言检索信息),进入步骤S304;否则,按照常规方式处理;
S304、根据第一语言检索信息“poly”在第一语言信息库,即英文信息库中匹配相关信息,得到第一搜索结果集合;根据第二语言检索信息“胺”在第二语言信息库,即中文信息库中匹配相关信息,得到第二搜索结果集合;将第一搜索结果集合中的各个搜索结果翻译成第二语言,即翻译成中文,得到第一翻译结果集合;
S305、对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集;
S306、将第一子集中的各个结果翻译成第一语言,即翻译成英文,得到第二子集;
S307、显示第一子集和第二子集。
本发明针对翻译软件只能单向翻译的局限,对其功能进行了扩展,支持两种不同语言的融合翻译,当用户对源语言检索信息有部分信息量,对需要翻译成的目标翻译结果也有部分信息量时,利用本发明能够根据用户输入的双语信息检索信息缩小搜索范围,更容易获得准确的结果。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种语言融合搜索装置,其特征在于,包括:
识别模块,用于识别用户输入的第一语言检索信息和第二语言检索信息;
第一搜索模块,用于根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;
第二搜索模块,用于根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;
第一翻译模块,用于将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;
运算模块,用于对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
2.如权利要求1所述的语言融合搜索装置,其特征在于,还包括:
第二翻译模块,用于将第一子集中的各个结果翻译成第一语言,得到第二子集;
和/或显示模块,用于显示第一子集和/或第二子集。
3.如权利要求1或2所述的语言融合搜索装置,其特征在于,所述识别模块包括:
接收子模块,用于接收用户输入的检索信息;
识别子模块,用于识别所述接收子模块接收到的检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息。
4.如权利要求3所述的语言融合搜索装置,其特征在于,所述识别子模块具体用于根据所述检索信息包括的两种不同语言检索信息是否按照预设的连接符输入在同一指定搜索框中,来识别所述两种不同语言检索信息是否按照预设规则输入。
5.一种语言融合搜索方法,其特征在于,包括:
识别用户输入的第一语言检索信息和第二语言检索信息;
根据第一语言检索信息在第一语言信息库中匹配相关信息,得到第一搜索结果集合;根据第二语言检索信息在第二语言信息库中匹配相关信息,得到第二搜索结果集合;将第一搜索结果集合中的各个搜索结果翻译成第二语言,得到第一翻译结果集合;
对所述第一翻译结果集合与第二搜索结果集合进行交集运算,得到第一子集。
6.如权利要求5所述的语言融合搜索方法,其特征在于,还包括:
显示第一子集。
7.如权利要求5所述的语言融合搜索方法,其特征在于,还包括:
将第一子集中的各个结果翻译成第一语言,得到第二子集;
显示第二子集。
8.如权利要求5至7任一项所述的语言融合搜索方法,其特征在于,识别用户输入的第一语言检索信息和第二语言检索信息包括:
接收用户输入的检索信息;
识别所述检索信息是否包括两种不同语言,且所述两种不同语言检索信息是否按照预设规则输入;若所述检索信息包括两种不同语言,且所述两种不同语言检索信息按照预设规则输入,则将其中一种语言检索信息作为第一语言检索信息,另一种语言检索信息作为第二语言检索信息。
9.如权利要求8所述的语言融合搜索方法,其特征在于,所述两种不同语言检索信息是否按照预设规则输入包括:所述两种不同语言检索信息是否按照预设的连接符输入在同一指定搜索框中。
10.如权利要求8所述的语言融合搜索方法,其特征在于,所述预设的连接符包括:分号、空格、百分号、千分号、顿号中的一种或多种。
CN201410103118.7A 2014-03-19 2014-03-19 一种语言融合搜索装置及方法 Active CN103886064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410103118.7A CN103886064B (zh) 2014-03-19 2014-03-19 一种语言融合搜索装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410103118.7A CN103886064B (zh) 2014-03-19 2014-03-19 一种语言融合搜索装置及方法

Publications (2)

Publication Number Publication Date
CN103886064A true CN103886064A (zh) 2014-06-25
CN103886064B CN103886064B (zh) 2017-11-17

Family

ID=50954956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410103118.7A Active CN103886064B (zh) 2014-03-19 2014-03-19 一种语言融合搜索装置及方法

Country Status (1)

Country Link
CN (1) CN103886064B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072168A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种多语言即时通讯终端及其系统和方法
KR20090002362A (ko) * 2007-06-28 2009-01-09 주식회사 케이티 비디오 객체 지정을 이용한 비디오 객체 검색 장치 및 그방법과, 이를 위한 비디오 검색 요청 장치 및 그를 이용한홈쇼핑 시스템 및 그 방법
CN101493841A (zh) * 2009-02-23 2009-07-29 深圳市中科新业信息科技发展有限公司 一种搜索方法及搜索装置
CN101566984A (zh) * 2008-07-11 2009-10-28 博采林电子科技(深圳)有限公司 一种应用在个人手持设备中的搜索引擎和资源搜索方法
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
US20130332445A1 (en) * 2012-06-07 2013-12-12 Google Inc. Methods and systems for providing custom crawl-time metadata

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072168A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种多语言即时通讯终端及其系统和方法
KR20090002362A (ko) * 2007-06-28 2009-01-09 주식회사 케이티 비디오 객체 지정을 이용한 비디오 객체 검색 장치 및 그방법과, 이를 위한 비디오 검색 요청 장치 및 그를 이용한홈쇼핑 시스템 및 그 방법
CN101566984A (zh) * 2008-07-11 2009-10-28 博采林电子科技(深圳)有限公司 一种应用在个人手持设备中的搜索引擎和资源搜索方法
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN101493841A (zh) * 2009-02-23 2009-07-29 深圳市中科新业信息科技发展有限公司 一种搜索方法及搜索装置
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
US20130332445A1 (en) * 2012-06-07 2013-12-12 Google Inc. Methods and systems for providing custom crawl-time metadata

Also Published As

Publication number Publication date
CN103886064B (zh) 2017-11-17

Similar Documents

Publication Publication Date Title
US10051030B2 (en) Interactive searching and recommanding method and apparatus
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
US9471874B2 (en) Mining forums for solutions to questions and scoring candidate answers
US20140059033A1 (en) Machine translation using information retrieval
CN110968663B (zh) 一种问答系统的答案展示方法及装置
CN108959242A (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
EP2724256A1 (en) System and method for matching comment data to text data
CN104462085A (zh) 检索关键词纠错方法及装置
US10037381B2 (en) Apparatus and method for searching information based on Wikipedia's contents
WO2017216642A3 (en) Cross lingual search using multi-language ontology for text based communication
CN110188180B (zh) 相似问题的确定方法、装置、电子设备及可读存储介质
US9015143B1 (en) Refining search results
US20160371253A1 (en) Augmented Text Search with Syntactic Information
Zafar et al. Developing urdu wordnet using the merge approach
CN102609410B (zh) 规范文档辅助写作系统及规范文档生成方法
US9720910B2 (en) Using business process model to create machine translation dictionaries
WO2023103943A1 (zh) 图片处理方法、装置及电子设备
CN104050156A (zh) 用于提取最大名词短语的装置、方法以及电子设备
CN103886064A (zh) 一种语言融合搜索装置及方法
JPWO2015016133A1 (ja) 情報管理装置及び情報管理方法
Nanda The named entity recognizer framework
CN103186588A (zh) 拼音搜索方法
Ali et al. A hybrid approach to Urdu verb phrase chunking
US20130166558A1 (en) Method and system for classifying article
Keerthana et al. Tamil to Hindi Machine Transliteration Using Support Vector Machines

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant