CN1492354A - 多国文字信息搜索方法和多国文字信息搜索引擎系统 - Google Patents

多国文字信息搜索方法和多国文字信息搜索引擎系统 Download PDF

Info

Publication number
CN1492354A
CN1492354A CNA00109050XA CN00109050A CN1492354A CN 1492354 A CN1492354 A CN 1492354A CN A00109050X A CNA00109050X A CN A00109050XA CN 00109050 A CN00109050 A CN 00109050A CN 1492354 A CN1492354 A CN 1492354A
Authority
CN
China
Prior art keywords
search
user
translater
literal
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA00109050XA
Other languages
English (en)
Inventor
钧 顾
顾钧
汪春雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA00109050XA priority Critical patent/CN1492354A/zh
Publication of CN1492354A publication Critical patent/CN1492354A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种利用多国文字处理器和翻译器对异种语言数据库信息搜索的方法,及依照这种方法建立的多国文字信息搜索引擎系统,所述方法主要包括进入主页后选择搜索类别,输入“搜索字”;形成标准词汇;自动连接文字编辑器;选定一种或多种语言;显示搜索结果并加以翻译;所述系统包括用户计算机系统,计算机网络和服务计算机系统,本发明将文字识别与处理、翻译、搜索引擎等多项高尖端技术有机地结合起来,可以构造世界范围内的虚拟信息共享平台,最大限度地发挥互联网的作用。

Description

多国文字信息搜索方法和多国文字 信息搜索引擎系统
本发明涉及一种利用多国文字处理器和翻译器对异种语言数据库信息搜索的方法,及依照这种方法建立的多国文字信息搜索引擎系统。
当前因特网上的信息呈指数增长,人们正在享受信息时代所带来的各种便利。另一方面,如何准确而全面地检索和收集各种信息仍然是一个亟待解决的问题。特别是,目前已有100多个国家上网,但大多数网站都是基于各国的本土语言,因此很多信息不能为遍布世界各国网民共享。有的因特网专业公司为检索更多的网上信息,建立了十几种文字形式的、十几个信息的搜索引擎,但它们互不相连,使用不便。面对世界多达200多种的语言,只熟悉单种或几种语言的广大用户不易检索因特网上其他文种信息。
本发明针对上述问题,提出一种运用多国文字识别器和翻译器对异种语言数据库进行信息搜索的方法,以及依照这种方法进行多国文字信息搜索,由用户计算机(或上网电器)、计算机网络和搜索引擎等构成的新型的对多国文字的搜索引擎系统。
本发明所述的多国文字信息搜索方法主要由下列步骤构成:开机进入搜索引擎主页;选择搜索类别后输入检索关键词即“搜索字”;对搜索字内容进行文字识别以形成与翻译器接口的标准词汇;自动连接文字编辑器;用语言选择器选择出所需要翻译成的一种或多种语言;显示多种语言的搜索结果并加以翻译;其中,用户可根据其要求对翻译器的翻译结果进行修改并作进一步的标准词汇校正或更改;另一方面也可提供若干可能的翻译结果供用户选择;将经用户确认的“搜索字”中的内容的多国语言翻译字送入搜索引擎进行信息检索。
用户输入搜索字后所选择的搜索类别包括关键词搜索,人名搜索,期刊搜索,报刊搜索等。用户发出搜索指令后,如按动“搜索”按钮后,系统中的搜索引擎将自动连接文字识别器和翻译器,文字识别包括语种自动识别和文法检查,在用户再次确认后将开始按所译语种进行搜索,搜索结果将按所选语种顺序列入主页下方。进一步点击某语种搜索结果,则进入分类检索页面(参见附图5),分类检索将显示语种搜索类别、搜索字、翻译搜索字、按用户所选语种翻译后的搜索结果等信息。用户也可以直接利用搜索引擎主页“分类”按钮直接进入分类检索页面而针对某一种语种进行检索。通过操作图4、5中的“显示”可以由用户自行选择显示方式:用户可以选择只显示本国(本地)语种的文字,也可以显示他国文字,如果没有他国语种的文字字库,可以选择以PDF格式显示。
本发明所述的多国文字信息搜索引擎系统包括用户计算机系统,计算机网络和服务计算机系统(参见附图1)。其中,用户计算机系统由用户计算机的检索界面、信息电器的上网操作平台、电子邮件处理器、文字处理器、网络收藏夹和网站编辑器等构成;服务计算机系统由数据库、翻译器、信息搜索引擎、信息资源分类和管理系统等组成。
本发明所述的运用文字处理器和翻译器进行多国文字信息搜索的方法是一种新型的信息融合与知识挖掘方法。利用这一方法可以构造世界范围内的虚拟信息共享平台,最大限度地发挥互联网的作用。本发明也将使网民感觉不到语言障碍,可高效、准确、全面地获取所需的信息,而且其操作容易掌握,初学者都可使用。同时,本发明将文字识别与处理、翻译、搜索引擎等多项高尖端技术有机地结合起来,是高技术系统集成与应用的一个典范。
下面结合附图详细介绍本发明。
图1为本发明所述的多国文字信息搜索引擎系统的构成框图;
图2为本发明所述系统的文字识别处理器页面;
图3为本发明所述系统的翻译器页面;
图4为本发明所述系统中用户计算机上的检索界面主页;
图5为本发明所述系统中用户计算机上的语种分类检索页面。
本发明所述系统中的文字识别处理器(参见附图2)的主要功能是对检索者输入的关键词一“搜索字”中的内容进行文字识别,并形成与翻译器接口的标准词汇。文字识别中的文法检查之目的是为了预先消除翻译器可能产生的语义混淆。通过用户在“设置”中作功能选择,文字处理器可以进行自动标准词汇校正,以及和文字编辑器自动连接。图2中的“标准词汇校正”可依用户要求,根据“搜索字”中的内容提供若干个最接近的校正词汇以供用户选择;并可通过“词汇”提供用户进行特定词汇校正的手段;“窗口”的功能在于使文字识别处理器同时工作于多个窗口,以同时处理多条检索信息;“确认”将把经标准词汇校正的“搜索字”中的内容转入翻译器。
文字翻译器服务软件可常驻于服务计算机,也可直接放入用户计算机(PC)系统。当该服务软件常驻于服务计算机时,用户计算机(PC)系统可通过远程共享方式使用翻译器软件。通过用户计算机翻译器控制页面的控制(图3),翻译器接收文字处理器生成的标准词汇搜索字。“语言选择”可以选择一种或多种语言;“窗口”的多窗口功能则用于显示多种语言翻译结果;用户可依其自身条件通过“编辑”对翻译器翻译出的搜索字或搜索结果进行修改;且用户对翻译结果不满意时可通过“词汇”作进一步的标准词汇校正或更改,以更改搜索字;这一功能在用户对翻译结果不满意而希望更改搜索字时非常有用;“显示”用以设置显示格式,比如本地用户计算机中可能没有某种语言文字字库,这时通过“显示”可以设置为PDF显示格式(但不能进行修改),翻译器将按需要将所翻译的文本生成PDF文件。图3中的“翻译”提供若干可能的翻译结果供用户选择;“确认”将把经用户确认的“搜索字”中的内容的翻译字送入搜索引擎进行信息检索。
多国文字搜索引擎可以将一种语言的关键字译成多种语言并进入多国文字数据库进行信息检索。图4中“语言选择”供用户选择一种、多种或所列的全部语种。当用户输入搜索字,选择搜索类别(搜索类别包括关键词搜索,人名搜索,期刊搜索或报刊搜索等)并点击“搜索”按钮后,搜索引擎将自动连接文字识别器和翻译器,开始按所译语种进行搜索;也可经用户再次确认后按所译语种进行搜索,搜索将按所选语种的顺序把搜索结果列于主页下方。进一步点击某语种搜索结果,则翻译结果就进入该语种的分类检索页面(参见附图5),分类检索将显示语种搜索类别、搜索字、翻译搜索字、搜索结果等信息。用户也可以直接利用搜索引擎主页“分类”按钮直接进入分类检索页面而针对某一种语种进行检索。图4、5中的“显示”可以使用户自行选择显示方式:用户可以选择只显示本国(本地)文字,也可以显示他国文字,如果没有他国文字字库,可以选择显示PDF格式。
本系统可以应用于包括一系列现在已有的和将来会出现的计算机,网络,通讯和信息操作器件。
在系统中建立的检索界面、搜索引擎、文字识别处理器、翻译器可以存在存储介质上,比如磁盘、磁带、光盘等。
该系统同样适用于各种局域网、广域网。
参照附图2、3、4、5描述本发明的第一实施例:
如一中文用户欲检索有关“计算机”的信息,则先开机进入搜索引擎主页(图4)。在“搜索类别”中选择关键词搜索,在“搜索字”中键入“计算机”,然后在“语言选择”中选择语种。如果用户想搜索互联网或数据库中分别以英文、法文、德文、俄文、日文体现的有关“计算机”的信息,则在“语言选择器”中选定相应的5个语种,先后点击文字识别器与翻译器页面,翻译器将产生与5种语言相对应的关于“计算机”的搜索字。如用户想利用本系统的校正和编辑功能,即可在此页面下对搜索字进行校正和编辑;如无须校正和编辑,则用户可直接点击“确认”。随后,系统进入搜索状态,搜索结果将按英文、法文、德文、俄文、日文五个语种的顺序列于主页。这时用户如点击搜索结果中的英文,在分类检索页面上就会显示出所有涉及“计算机”的英文信息。用户通过在“显示”中选择格式,英文搜索结果及相应的中文译文就可按用户选定的格式显示。余此类推。
参照附图2、3、4、5描述本发明的第二实施例:
如一中文用户欲到日本旅游,希望查询日本有关天气方面的信息,则先开机进入分类检索页面(图5)。在“搜索类别”选择关键词搜索,在“搜索字”中键入“天气”,然后在“语言选择”中选择日文。点击搜索,则文字识别器与翻译器页面分别弹出,然后点击文字识别器与翻译器页面中的“确认”,系统开始搜索日文信息,搜索结果经过翻译器的翻译,将逐条以用户的本地文字(中文)显示,用户也可选择双语种即同时以中文和日文形式显示。用户可以将有关信息放于收藏夹或通过“文件”选项选择存储或打印。

Claims (22)

1.一种多国文字信息搜索方法,其特征在于,主要由下列步骤构成:开机进入搜索引擎主页;选择搜索类别后输入检索关键词即“搜索字”;对搜索字内容进行文字识别以形成与翻译器接口的标准词汇;自动连接文字编辑器;用语言选择器选择出所需要翻译成的一种或多种语言;显示多种语言的搜索结果并加以翻译;将经用户确认的“搜索字”中的内容的多国语言的翻译字送入搜索引擎进行信息检索。
2.根据权利要求1所述的多国文字信息搜索方法,其特征在于,用户输入搜索字后所选择的搜索类别包括关键词搜索,人名搜索,期刊搜索、报刊搜索等。
3.根据权利要求1所述的多国文字信息搜索方法,其特征在于,用户发出“搜索”指令后,系统中的搜索引擎将自动连接文字识别器和翻译器。
4.根据权利要求1所述的多国文字信息搜索方法,其特征在于,文字识别包括语种自动识别和文法检查。
5.根据权利要求1所述的多国文字信息搜索方法,其特征在于,在用户确认后将开始按所译语种进行搜索,搜索结果将按所选语种顺序列入主页下方。进一步点击某语种搜索结果,则进入分类检索页面,分类检索将显示语种搜索类别、搜索字、翻译搜索字、搜索结果等信息。
6.根据权利要求1所述的多国文字信息搜索方法,其特征在于,可根据用户要求对翻译器的翻译结果进行修改并作进一步的标准词汇校正或更改。
7.根据权利要求1所述的多国文字信息搜索方法,其特征在于,可提供若干可能的翻译结果供用户选择;
8.根据权利要求1所述的多国文字信息搜索方法,其特征在于,用户也可以直接利用搜索引擎主页“分类”按钮直接进入分类检索页面针对某一种语种进行检索。
9.根据权利要求1所述的多国文字信息搜索方法,其特征在于,用户可自行选择显示方式:用户可以选择只显示本国(本地)文字,也可以显示他国文字,如果没有他国文字字库,可以选择显示PDF格式。
10.一种多国文字信息搜索引擎系统,其特征在于,它包括用户计算机系统,计算机网络和服务计算机系统。
11.根据权利要求10所述的系统,其特征在于,其中,用户计算机系统由用户计算机的检索界面、信息电器的上网操作平台、电子邮件处理器、文字处理器、网络收藏夹和网站编辑器等构成;服务计算机系统由数据库、翻译器、信息搜索引擎、信息资源分类和管理系统等组成。
12.根据权利要求10、11所述的系统,其特征在于,其中,文字识别处理器对检索者输入的关键词——“搜索字”中的内容进行文字识别,形成与翻译器接口的标准词汇。
13.根据权利要求10、11所述的系统,其特征在于,系统中的“设置”可实现文字识别处理器与文字编辑器自动连接。
14.根据权利要求10、11所述的系统,其特征在于,系统中的“标准词汇校正”将根据“搜索字”中的内容提供若干个最接近的校正词汇以供用户选择;“词汇”提供用户进行特定词汇校正的手段;“窗口”可以使文字识别处理器同时工作于多个窗口,以同时处理多条检索信息;“确认”将把经标准词汇校正的“搜索字”中的内容转入翻译器。
15.根据权利要求10、11所述的系统,其特征在于,文字翻译器服务软件可常驻于服务计算机,也可直接放入用户计算机(PC)系统。
16.根据权利要求10、11所述的系统,其特征在于,用户计算机系统可以通过远程共享方式使用常驻于服务计算机的翻译器软件。
17.根据权利要求10、11所述的系统,其特征在于,通过用户计算机翻译器控制页面的控制,翻译器接收文字处理器生成的标准词汇搜索字。
18.根据权利要求10、11所述的系统,其特征在于,“语言选择”可以选择一种或多种语言;“窗口”的多窗口功能用于显示多种语言翻译结果;显示”可以设置显示格式:“翻译”提供若干可能的翻译结果供用户选择;“确认”将把经用户确认的“搜索字”中的内容的翻译字送入互联网进行信息检索。
19.根据权利要求10、11所述的系统,其特征在于,“编辑”可以对翻译器的翻译结果进行修改;“词汇”用于进一步的标准词汇校正或更改;
20.根据权利要求10、11所述的系统,其特征在于,本系统可以应用于包括一系列现在已有和将来会出现的计算机,网络,通讯和信息操作器件。
21.根据权利要求10、11所述的系统,其特征在于,在系统中建立的检索界面、搜索引擎、文字识别处理器、翻译器可以存在存储介质上,比如磁盘、磁带、光盘等。
22.根据权利要求10、11所述的系统,其特征在于,该系统同样适用于各种局域网、广域网。
CNA00109050XA 2000-06-02 2000-06-02 多国文字信息搜索方法和多国文字信息搜索引擎系统 Pending CN1492354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA00109050XA CN1492354A (zh) 2000-06-02 2000-06-02 多国文字信息搜索方法和多国文字信息搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA00109050XA CN1492354A (zh) 2000-06-02 2000-06-02 多国文字信息搜索方法和多国文字信息搜索引擎系统

Publications (1)

Publication Number Publication Date
CN1492354A true CN1492354A (zh) 2004-04-28

Family

ID=34230874

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA00109050XA Pending CN1492354A (zh) 2000-06-02 2000-06-02 多国文字信息搜索方法和多国文字信息搜索引擎系统

Country Status (1)

Country Link
CN (1) CN1492354A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1955954B (zh) * 2005-10-27 2010-11-17 英华达(上海)电子有限公司 一种多国语言地图数据库系统
WO2011060565A1 (en) * 2009-11-20 2011-05-26 Google Inc. Cross-language search options
CN101271461B (zh) * 2007-03-19 2011-07-13 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和系统
CN102479179A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 应用于局域网络中的翻译查询与资料查询系统及其方法
WO2013136344A2 (en) * 2012-03-14 2013-09-19 Rao K V Ramalingeswara Method and system for transliterating text from one language to multiple language scripts
CN103324680A (zh) * 2012-06-01 2013-09-25 微软公司 语言学习机会和通用搜索引擎
WO2014114117A1 (en) * 2013-01-22 2014-07-31 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
CN104281583A (zh) * 2013-07-02 2015-01-14 索意互动(北京)信息技术有限公司 信息检索方法及装置
WO2015051670A1 (en) * 2013-10-10 2015-04-16 Tencent Technology (Shenzhen) Company Limited Method and device for keyword search
CN104573019A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN105095512A (zh) * 2015-09-09 2015-11-25 四川省科技交流中心 基于桥梁语的跨语种专用数据检索系统及方法
CN105161104A (zh) * 2015-07-31 2015-12-16 北京云知声信息技术有限公司 一种语音处理方法及装置
US9336197B2 (en) 2013-01-22 2016-05-10 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
CN106294436A (zh) * 2015-05-27 2017-01-04 富泰华工业(深圳)有限公司 网页评论分类方法、系统及网页管理装置
CN106557467A (zh) * 2015-09-28 2017-04-05 四川省科技交流中心 基于桥梁语的机器翻译系统及翻译方法
CN113722480A (zh) * 2021-08-11 2021-11-30 安徽帕觅智能科技有限公司 一种日文联系人混合检索方法
CN114706946A (zh) * 2022-03-28 2022-07-05 广州万辉信息科技有限公司 一种商标类别检索平台及方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1955954B (zh) * 2005-10-27 2010-11-17 英华达(上海)电子有限公司 一种多国语言地图数据库系统
CN101271461B (zh) * 2007-03-19 2011-07-13 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和系统
CN102770859A (zh) * 2009-11-20 2012-11-07 谷歌公司 跨语言搜索选项
WO2011060565A1 (en) * 2009-11-20 2011-05-26 Google Inc. Cross-language search options
CN102770859B (zh) * 2009-11-20 2017-05-03 谷歌公司 跨语言搜索选项
US9177018B2 (en) 2009-11-20 2015-11-03 Google Inc. Cross language search options
US8856162B2 (en) 2009-11-20 2014-10-07 Google Inc. Cross language search options
CN102479179A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 应用于局域网络中的翻译查询与资料查询系统及其方法
WO2013136344A3 (en) * 2012-03-14 2013-12-12 Rao K V Ramalingeswara Method and system for transliterating text from one language to multiple language scripts
WO2013136344A2 (en) * 2012-03-14 2013-09-19 Rao K V Ramalingeswara Method and system for transliterating text from one language to multiple language scripts
CN103324680A (zh) * 2012-06-01 2013-09-25 微软公司 语言学习机会和通用搜索引擎
WO2014114117A1 (en) * 2013-01-22 2014-07-31 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
US9336197B2 (en) 2013-01-22 2016-05-10 Tencent Technology (Shenzhen) Company Limited Language recognition based on vocabulary lists
CN104281583A (zh) * 2013-07-02 2015-01-14 索意互动(北京)信息技术有限公司 信息检索方法及装置
CN104281583B (zh) * 2013-07-02 2018-01-12 索意互动(北京)信息技术有限公司 信息检索方法及装置
WO2015051670A1 (en) * 2013-10-10 2015-04-16 Tencent Technology (Shenzhen) Company Limited Method and device for keyword search
CN104572642A (zh) * 2013-10-10 2015-04-29 腾讯科技(深圳)有限公司 关键字搜索方法和装置
CN104573019A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104573019B (zh) * 2015-01-12 2019-04-02 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN106294436A (zh) * 2015-05-27 2017-01-04 富泰华工业(深圳)有限公司 网页评论分类方法、系统及网页管理装置
CN105161104A (zh) * 2015-07-31 2015-12-16 北京云知声信息技术有限公司 一种语音处理方法及装置
CN105095512A (zh) * 2015-09-09 2015-11-25 四川省科技交流中心 基于桥梁语的跨语种专用数据检索系统及方法
CN106557467A (zh) * 2015-09-28 2017-04-05 四川省科技交流中心 基于桥梁语的机器翻译系统及翻译方法
CN113722480A (zh) * 2021-08-11 2021-11-30 安徽帕觅智能科技有限公司 一种日文联系人混合检索方法
CN114706946A (zh) * 2022-03-28 2022-07-05 广州万辉信息科技有限公司 一种商标类别检索平台及方法

Similar Documents

Publication Publication Date Title
CN101520786B (zh) 一种输入法词典的实现方法和输入法系统
US6396951B1 (en) Document-based query data for information retrieval
KR101554293B1 (ko) 교차 언어 정보 검색
US20070118519A1 (en) Question answering system, data search method, and computer program
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
CN1492354A (zh) 多国文字信息搜索方法和多国文字信息搜索引擎系统
US7099870B2 (en) Personalized web page
US20050154580A1 (en) Automated grammar generator (AGG)
US20060122997A1 (en) System and method for text searching using weighted keywords
US20060206472A1 (en) Question answering system, data search method, and computer program
US20020184204A1 (en) Information retrieval apparatus and information retrieval method
CN101137983A (zh) 嵌入式翻译增强的搜索
US20020077832A1 (en) Computer based integrated text/graphic document analysis
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
JP4934355B2 (ja) 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体
RU2698405C2 (ru) Способ поиска в базе данных
US6760408B2 (en) Systems and methods for providing a user-friendly computing environment for the hearing impaired
RU2546064C1 (ru) Распределенная система и способ языкового перевода
Bian et al. Integrating query translation and document translation in a cross-language information retrieval system
CN116795968A (zh) 一种基于Chat LLM技术的知识扩展及QA系统
CN111506704B (zh) 日语关键词组生成方法、装置、电子设备、存储介质
CN113627200A (zh) 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法
KR100836159B1 (ko) 반자동 번역 서비스 제공 시스템 및 방법
JP5361708B2 (ja) 多言語データクエリ

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication