CN101661480A - 确定组织在不同语言中的名称的方法和系统 - Google Patents
确定组织在不同语言中的名称的方法和系统 Download PDFInfo
- Publication number
- CN101661480A CN101661480A CN200810212468A CN200810212468A CN101661480A CN 101661480 A CN101661480 A CN 101661480A CN 200810212468 A CN200810212468 A CN 200810212468A CN 200810212468 A CN200810212468 A CN 200810212468A CN 101661480 A CN101661480 A CN 101661480A
- Authority
- CN
- China
- Prior art keywords
- title
- network address
- target language
- candidate
- address url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种组织名称确定方法和装置。根据本发明,基于至少一个组织在源语言中的名称,获取组织的网址URL,其中所获得的网址URL由目标语言中的字符串构成;从网址URL的核心部分中提取目标语言中的词,并与组织在源语言中的名称形成组合查询项;借助于搜索引擎,获取组合查询项的搜索结果列表;从搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为组织在目标语言中的名称。
Description
技术领域
本发明一般涉及组织名称的确定,尤其涉及根据组织在源语言中的名称来确定其在目标语言中的名称。
背景技术
为了增强国际影响力,很多组织具有多种语言的名称,其中一个组织在不同语言中的名称相互之间具有某种相似性。例如,中文名称“思科”和“谷歌”分别源自其英文名称“Cisco”和“Google”的发音,而英文名称“Sino Ocean Land”和“China Mobile”分别是其中文名称“远洋地产”和“中国移动”的字义翻译。
组织名称的确定对于信息提取和检索非常重要,尤其是对于商业智能应用和搜索引擎而言。在知道某组织在一种语言中的名称的情况下,为了从万维网上收集关于该组织的各种语言的信息,需要根据该组织在这种语言中的名称确定该组织在其他语言中的名称,从而检索搜索引擎和获得搜索结果。
但是,组织名称的确定非常难。首先,一个组织在不同语言中的名称之间的相似性可以是多种多样的,诸如可以是意思,发音等等,因此机器很难对一组织在不同语言中的名称之间所具有的相似性进行预测,进而对组织名称进行准确的确定。其次,组织名称的确定要求非常高的准确性,因为其将被发送用于进一步的处理。
在现有技术中,已经存在三种确定组织名称的方法:
1.直接映射方法,在该方法中,维持一个表格,该表格存储组织在不同语言中的名称之间的映射关系。但是,组织的数量不断地增加,并且语言映射的组合非常多,因此,维持这样的映射表格很困难并且成本很高。
2.基于机器翻译的方法,其对名称进行切词,从而得到较小的词单元,然后借助于字典分别翻译所得到的每个词单元,最后通过机器学习技术将每个词单元的翻译结果组合在一起。但是,这种方法不适用于根据发音或以其他非字义的形式所生成的名称。而且,即使对于由意思相似性所生成的名称,这样的直接翻译也不可能得到准确的名称。而且,以上两种方法要求大量的手动工作。
3.基于网络搜索的方法,其直接将组织在源语言中的名称输入到搜索引擎进行查询,然后从搜索结果中所出现的英文短语中选择该组织的英文名称。但是,有时候在搜索结果中只有很少的英文内容。而且,并没有关于如何挑选准确英文名称的准则,且可能同时仅选择了某种噪声。
因此,需要一种确定组织名称的方法和装置来更有效、更准确地确定目标语言中的组织名称,从而克服现有技术中的缺陷。
发明内容
本发明利用组织的网址URL(统一资源定位符)信息来根据组织在源语言(例如非英语语言)中的名称确定该组织在目标语言(例如英语)的名称。可选地,通过本发明,还可以以目标语言中的名称为媒介来进一步确定组织在另一目标语言中的名称。
在现有技术中,已知可以以多种方式获取组织的网址URL,例如可以借助于搜索引擎、其他外部数据源等。特别地,在当前的搜索引擎领域中,各种搜索引擎都通过各种方法尽量使自己的搜索结果更准确。例如,Google用其所开发的基于网络链接构造的PageRank方法来确定网络上页面的重要性,并在搜索结果列表中根据页面的重要性对搜索结果进行排序。通常,对于组织名称作为查询项的搜索,搜索引擎认为该组织的主页的重要性最高,并将该组织的主页列在搜索结果列表中的第一个搜索结果或前几个搜索结果中。因此借助于搜索引擎可以很容易地获得链接到该组织的主页的该组织的网址URL。
组织网址URL通常由该组织的名称的完整表达或缩写(例如英文首字母缩写)构成,即其能够比较准确地反映组织名称的特征,因此本发明所提供的基于组织网址URL的组织名称确定方法和装置能够更有效、更准确地从一种语言中的组织名称确定另外一种语言中的组织名称。
根据本发明的一个方面,提供了一种根据源语言中的名称确定目标语言中的名称的方法,包括:网址URL获取步骤,基于至少一个组织在源语言中的名称,获取所述至少一个组织的网址URL,其中网址URL由目标语言中的字符串构成;查询项生成步骤,从网址URL的核心部分中提取目标语言中的词,并与所述至少一个组织在源语言中的名称形成组合查询项;查询项搜索步骤,借助于搜索引擎,获取组合查询项的搜索结果列表;组织名称确定步骤,从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为所述至少一个组织在目标语言中的名称。
根据本发明的另一方面,提供了一种根据源语言中的名称确定目标语言中的名称的设备,包括:网址URL获取装置,用于基于至少一个组织在源语言中的名称,获取所述至少一个组织的网址URL,其中网址URL由目标语言中的字符串构成;查询项生成装置,用于从网址URL的核心部分中提取目标语言中的词,并与所述至少一个组织在源语言中的名称形成组合查询项;查询项搜索装置,用于借助于搜索引擎,获取组合查询项的搜索结果列表;组织名称确定装置,用于从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为所述至少一个组织在目标语言中的名称。
根据本发明的再一方面,提供了一种网络浏览器,包括:查询项输入装置,用于接收至少一个组织在源语言中的名称作为查询项;根据本发明的根据源语言中的名称确定目标语言中的名称的设备,用于基于所接收的组织名称,确定所述至少一个组织在目标语言中的名称;搜索结果获取装置,用于借助于搜索引擎,获取搜索结果列表,其中搜索结果列表至少包括与所确定的所述至少一个组织在目标语言中的名称相关的搜索结果。
根据本发明的还一方面,提供了一种搜索引擎系统,包括:查询项接收装置,用于接收至少一个组织在源语言中的名称作为查询项;根据本发明的根据源语言中的名称确定目标语言中的名称的设备,用于基于所接收的组织名称,确定所述至少一个组织在目标语言中的名称;搜索结果提供装置,用于提供搜索结果列表,其中搜索结果列表至少包括与所确定的所述至少一个组织在目标语言中的名称相关的搜索结果。
附图说明
为了更好地理解本发明的实施例以及本发明的其它实施例,下面结合附图对这些实施例加以描述,其中在附图中,相同的附图标记自始至终表示相应的部分。
图1示意性地示出了根据本发明的组织名称确定方法的一个实施例的流程图;
图2示意性地示出了根据图1所示组织名称确定方法中步骤S104的一种实施方式的流程图;
图3示意性地示出了根据本发明的组织名称确定设备的一个实施例的框图;
图4示意性地示出了根据图3所示组织名称确定设备中组织名称选择装置的一个实施方式的框图;
图5以“远洋地产”作为源语言中的组织名称为例示出了根据本发明的组织名称确定方法的工作过程;
图6示例性地示出了图5所示例子中搜索结果列表的一部分。
具体实施方式
现在详细介绍例示在附图中的实施例。在如下的详细描述中,给出了许多具体细节,以便全面理解本发明。但是,对于本领域的普通技术人员来说,显而易见的是,不用这些具体细节也可以实施本发明。在其它情况下,不详细描述众所周知的方法、过程、部件、电路和网络,以便不会不必要地使这些实施例的方方面面不突出。
在本说明书中,术语“URL”是指统一资源定位符,它是表示可经由互联网获得的资源的简要字符串。当前,URL主要是由英文字符串构成的,但是URL也可以由非英文的字符串构成(例如由中文、法文、德文字符串构成的URL)。可以想到,对于一个组织的主页,可以有多个网址URL链接到该主页,其中这些网址URL可以分别由不同语言的字符串构成。至于网址URL所使用的语言,例如可以通过对构成网址URL的字符串中的字符(例如中文字)进行分析而确定该网址URL由什么语言的字符串构成。也可以想到,可以通过对构成网址URL的字符串中的词进行分析来确定网址URL的语言。当然,也可以通过参考网址URL中标识地址的地理位置的部分(例如“.中国”、“.uk”等)来确定构成网址URL由什么语言的字符串构成。
本领域技术人员可以想到,在对一个组织在一种语言中的名称执行搜索之后,搜索引擎可以将链接到该组织的主页的由不同语言字符串构成的所有网址URL列在搜索结果列表的最前端。
在本说明书中,术语“字符”是指一种语言中的最小文字单位,例如英文中的字母(诸如“o”、“c”等)、中文中的字(诸如“地”、“产”等)。而术语“词”是指由一种语言中的最小文字单位所构成的有意义的词,例如英文中的单词(诸如“ocean”、“land”等)、中文中的词语(诸如“地产”等)。术语“短语”是指一种语言中的词和/或字符的某个组合,例如英文中几个单词和/或字母的组合(诸如“sino-ocean landholdings limited”)、中文中几个词语和/或字的组合(诸如“远洋地产”)。
在本说明书中,术语“源语言”是指这样一种语言,即根据该语言中的组织名称来确定另一语言中的组织名称。而术语“目标语言”是指所要确定的组织名称所处于的那“另一”语言。
组织网址的URL通常是一种语言(例如英文)中完整的或缩写的组织名称。本发明利用URL信息,通过以下方式来根据源语言中的名称确定目标语言中的名称。首先,根据至少一个组织在源语言中的名称,获得该至少一个组织的网址URL,其中所述网址URL由目的语言的字符串构成;然后,从所获得的网址URL的核心部分中提取目标语言中的词,并与该至少一个组织在源语言中的名称形成组合查询项;借助于搜索引擎对组合查询项执行搜索,以获取该组合查询项的搜索结果列表;最后从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为该至少一个组织在目标语言中的名称。
如上所述,组织的网址URL通常比较准确地反映组织名称的特征,因此在确定组织名称的过程中利用其网址URL能够提高组织名称确定的准确性和有效性。
图1示出了根据本发明的组织名称确定方法的一个实施例的流程图。如图1所示,在步骤S101中,根据至少一个组织在源语言中的名称,获取该至少一个组织的网址URL,其中所获得的网址URL由目的语言的字符串构成。例如,可以通过借助于搜索引擎(例如Google或者百度)对组织在源语言中的名称执行搜索而获得该组织的网址URL,但这不是必需的。本领域技术人员应当理解,可以通过其他任何方式来根据组织名称获取该组织的网址URL,而不背离本发明的精神和范围。例如可选地,可以从其他外部数据源(例如组织名称与其网址URL的映射表格等)获取组织的网址URL。
随后,在步骤S102中,从所获得的网址URL的核心部分中提取目标语言中的词,并与该至少一个组织在源语言中的名称形成组合查询项。可选地,可以基于目标语言字典而提取目标语言中的词。例如以一个英文(目标语言)网址URL的核心部分为“sinooceanland”的组织名称“远洋地产”为例,在步骤S102中,例如参考英文字典而从网址URL核心部分中提取出英文词“ocean”和“land”,并将所提取出的这两个英文词与中文(源语言)组织名称“远洋地产”组合在一起形成组合查询项,例如“ocean land远洋地产”。当然,本领域技术人员也可以想到,对于多于一个的组织名称,可以将这些组织的网址URL核心部分中所提取的目标语言中的词与这些组织名称组合在一起形成组合查询项。
可选地,如果在步骤S102中,没有从该至少一个组织中某个或某些组织的网址URL的核心部分中提取出目标语言中的词,即这个或这些组织的网址URL的核心部分中不包含目标语言中的词,则步骤S102将这个或这些组织的网址URL的整个核心部分组合到组合查询项中。例如,对于一个英文(目标语言)网址URL的核心部分是“ICBC”(即其英文名称的首字母缩写)的组织名称“中国工商银行”,由于网址URL的核心部分“ICBC”中不包含任何英文词,因此步骤S102不能从网址URL核心部分中提取出任何英文词。于是,步骤S102直接将网址URL的核心部分“ICBC”组合到组合查询项中,即直接将网址URL的核心部分“ICBC”与其中文(源语言)组织名称“中国工商银行”组合在一起形成组合查询项。当然,本领域技术人员可以想到,对于多于一个的组织,如果这些组织中一部分的网址URL核心部分中包含目标语言中的词,而这些组织中其他组织的网址URL核心部分中不包含目标语言中的词,则步骤S102将包含目标语言中的词的那些组织网址URL核心部分中所包含的目标语言中的词、不包含目标语言中的词的那些组织网址URL的核心部分以及这些(多于一个的)组织在源语言中的名称组合在一起形成组合查询项。
在本发明中,网址URL的核心部分例如可以是通过从网址URL中滤除前缀(例如英文URL中的“http://www”)和后缀(例如英文URL中的“.com”、“.net”等)而获得的。
在步骤S102中形成组合查询项之后,根据本发明的方法前进到步骤S103。在步骤S103中,借助于搜索引擎,对步骤S102中所生成的组合查询项执行搜索,从而得到一个搜索结果列表,在搜索结果列表中列出了搜索结果。例如,在搜索结果列表中列出了搜索结果的标题及摘录,并且通过点击搜索结果列表中的某个搜索结果(例如该搜索结果的标题或摘录),可以链接到该搜索结果的页面。可选地,在本发明中,通过模糊匹配来执行搜索,因为严格匹配搜索(例如在搜索引擎Google中,为输入的查询项的至少一部分加上引号)可能导致大量有用搜索结果被滤除。
随后,在步骤S104中,从步骤S103所获得的搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并从所提取的短语中选择至少一个作为该至少一个组织在目标语言中的名称。例如,可以从搜索结果列表中所列出的搜索结果的标题及摘录中提取目标语言中的短语。可选地,也可以经由搜索结果列表(例如通过点击搜索结果列表中某个搜索结果的标题或摘录)链接到搜索结果的页面,并从搜索结果的页面中提取目标语言中的短语。
图2示意性地示出了根据图1所示实施例中步骤S104的一种实施方式的流程图。如图2所示,图1中所示方法中步骤S104可以包括侯选名称提取步骤S2010和组织名称选择步骤S2020。
候选名称提取步骤S2010从搜索结果列表中所列出的搜索结果(例如搜索结果的标题及摘录或搜索结果的页面)中提取目标语言中的名称,作为候选名称。可选地,步骤S2010包括计数步骤S2011和提取步骤S2012,其中计数步骤S2011对搜索结果(例如搜索结果的标题及摘录或搜索结果的页面)中所出现的目标语言中的每个短语的出现次数进行计数,而提取步骤S2012从搜索结果中提取出现次数高于一预定阈值的短语,作为侯选名称。有利地,在步骤S2010中,只从搜索结果列表中所列出的前N个搜索结果中提取目标语言中的短语,但这不是必需的。可选地,N的设定一般在100到1000之间。
组织名称选择步骤S2020利用网址URL的核心部分对步骤S2010中所提取的侯选名称进行校验,并将通过校验的侯选名称选择作为组织在目标语言中的名称。但是,本领域技术人员应当理解,在步骤S2020中也可以使用任何其他适当的方法(例如现有技术中公知的方法)来从所提取的短语(候选名称)中选择组织名称,而不背离本发明的精神和范围。由于在本发明中,在步骤S102中确定搜索的查询项时参考了组织的网址URL,因此与现有技术相比,本发明中步骤S103所得到的搜索结果已经比现有技术中的更有效和更准确,因此即使以与现有技术中相同的选择标准来从搜索结果列表中选择短语,对组织名称的确定也比现有技术更有效和更准确。
在图2所示的实施方式中,步骤S2020包括利用网址URL的核心部分对步骤S2010中所提取的侯选名称进行校验的校验步骤S2021和将通过校验的侯选名称选择作为组织在目标语言中的名称的组织名称确定步骤S2022。
在校验步骤S2021中,可以为在步骤S2010中所提取出的每个侯选名称计算置信度,以表征该侯选名称与一网址URL核心部分的匹配程度,并对于一组织,将置信度最高的至少一个侯选名称确定为通过了校验。本领域技术人员可以想到,对于多于一个组织的情况,可以针对每个组织的网址URL的核心部分,为每个侯选名称计算置信度,并且对于每个组织,将置信度最高的至少一个侯选名称确定为通过了校验。
例如,在校验步骤S2021中,如果组织的网址URL的核心部分中包含目标语言中的词,则可以根据组织的网址URL核心部分中所包含的词以及由这些词分隔开的字段在侯选名称中的出现情况,来计算置信度;而如果组织的网址URL的核心部分中不包含目标语言中的词,则可以根据组织的网址URL核心部分所包含的字符在侯选名称中的出现情况,来计算置信度。
有利地,在校验步骤S2021中,可以通过包含校验2021a来为每个侯选名称计算包含校验值,即通过根据组织网址URL核心部分中所包含的目标语言中的词及由这些词分隔开的字段(对于网址URL核心部分中包含目标语言中的词的情况)或组织网址URL核心部分中所包含的字符(对于网址URL核心部分不包含目标语言中的词的情况)在某侯选名称中的包含情况对该侯选名称与组织网址URL核心部分的匹配程度进行度量或打分;并将所计算的包含校验值作为置信度。
在本发明中,例如可以利用信息检索和文本挖掘(text mining)中经常使用的词频-反文档频率(TF-IDF:Term Frequency-InverseDocument Frequency)加权来执行包含校验2021。如本领域技术人员所理解的那样,词频(TF)是指某个词在一文档中出现的频率,而反文档频率(IDF)是指所有文档的数量除以这些文档中包含某个词的那些文档的数量所得到的商。即对于词频TF,下式成立:
其中TFi表示文档j中词i的词频,Nij是文档j中词i的出现次数,而对于反文档频率IDF,下式成立:
其中IDFi是词ti的反文档频率,D是所有文档的数量,而|{dj/ti∈dj}|是包含词ti的文档的数量。在TF-IDF加权中,使用矢量来{w1,d,w2,d,...wN,d}表示文档d,其中N是词的数量,且wi,d表示词i在文档d中的出现情况,其中wt,d=TFi*IDFt。
在本发明中,侯选名称相当于TF-IDF中的文档,网址URL核心部分和侯选名称中所包含的词和字段或者字符相当于TF-IDF中的词。例如,对于网址URL的核心部分“sinooceanland”(包含目标语言中的词“ocean”、“land”和字段“sino”)以及侯选名称“Sino OceanLand Holdings Limited”和“China Aoyuan Property Group”,所有文档的数量是2,而所要考虑的词和字段包括“Sino”、“Ocean”、“Land”、“Holdings”、“Limited”、“China”、“Aoyuan”、“Property”和“Group”。对于这两个侯选名称可以得到下表:
于是,得到侯选名称“Sino Ocean Land Holdings Limited”的矢量(1/5*2/1,1/5*2/1,1/5*2/1,1/5*2/1,1/5*2/1,0*2/1,0*2/1,0*2/1,0*2/1),即(0.4,0.4,0.4,0.4,0.4,0,0,0,0),同样得到侯选名称“China Aoyuan Property Group”的矢量(0,0,0,0,0,0.5,0.5,0.5,0.5)。
另外,根据网址URL核心部分对这些词和字段(或者字符)的包含情况,得到基准矢量。在本例中,因为网址URL核心部分中只包含字段“Sino”以及词“Ocean”和“Land”(所以矢量中与这些字段或词对应的数字为1),而不包含其他词“Holdings”,“Limited”,“China”,“Aoyuan”,“Property”,“Group”(所以矢量中与这些词对应的数字为0),因此基准矢量是(1,1,1,0,0,0,0,0,0)。
然后通过将每个侯选名称的矢量与该基准矢量进行点积而得到相应侯选名称的相似性值。例如,对于上面的例子,侯选名称“SinoOcean Land Holdings Limited”的相似性值是1.2,而侯选名称“ChinaAoyuan Property Group”的相似性值是0。
可选地,为了简化计算,可以在计算相似性值时只考虑TF,而忽略IDF,即在获取侯选名称的矢量时直接使用TF,而不将TF与IDF相乘。对于上面的例子,通过这种简化的计算得到侯选名称“SinoOcean Land Holdings Limited”的相似性值是0.6,而侯选名称“ChinaAoyuan Property Group”的相似性值是0。
在本发明中,可以将所计算的相似性值确定为包含校验值。但是,可选地,也可以通过对所计算的相似性值进行归一化处理,而将归一化后的相似性值作为包含校验值。这里所述的归一化处理是指将某个侯选名称的相似性值除以该侯选名称的矢量的模与基准矢量的模的乘积。
可选地,除了执行包含校验2021a之外,在校验步骤S2021中还可以附加地执行顺序校验2021b,为每个侯选名称计算顺序校验值,即根据组织网址URL中所包含的这些词和字段或这些字符在网址URL核心部分中的排列顺序和这些词和字段或这些字符出现在某侯选名称中时的排列顺序,对该侯选名称与组织网址URL核心部分的匹配程度进行度量或打分。在本发明中,例如可以利用最长公共子序列(LCS:Longest Common Subsequence)算法来执行顺序校验2021b。例如,对于网址URL的核心部分“sinooceanland”(包含目标语言中的词“ocean”、“land”和字段“sino”),侯选名称“Sino Ocean LandHoldings Limited”与网址URL核心部分“sinooceanland”的最长公共子序列是“Sino Ocean Land”,该最长公共子序列的长度为3,即该公共子序列包含网址URL核心部分中所包含的词或字段中的3个;而侯选名称“AoYuan Land and Sino Ocean”与网址URL核心部分“sinooceanland”的最长公共子序列是“Sino Ocean”,该公共子序列的长度为2,即该公共子序列包含网址URL核心部分中所包含的词或字段中的2个。通过将为每个侯选名称所确定的最长公共子序列的长度除以网址URL核心部分中所包含的词或字段的数量,而得到顺序校验值。例如,在前面的例子中,网址URL核心部分“sinooceanland”包含词“ocean”、“land”和字段“sino”,即其所包含的词或字段的数量(其长度)为3,于是侯选名称“Sino Ocean Land Holdings Limited”的顺序校验值为3/3,而侯选名称“AoYuan Land and Sino Ocean”的顺序校验值为2/3。
上面以网址URL核心部分中包含目标语言中的词为例解释了包含校验2021a和顺序校验2021b,但是本领域技术人员应该理解,上面所述的包含校验顺序校验也可以应用与不包含目标语言中的词的网址URL核心部分。例如,对于每个侯选名称(短语),可以通过从该侯选名称(短语)的每个词或字段中提取首字符(例如英文中的首字母)来组合形成一个字符序列,然后利用前面所提到的TF-IDF和最长公共子序列算法来相对于网址URL核心部分所包含的字符为该侯选名称计算包含校验值和顺序校验值。但是,从每个词或字段中提取首字符不是必需的,本领域技术人员也可以想到通过其他方式从一侯选名称中提取字符以形成一字符序列,例如也可以从该侯选名称的某词或字段中提取非首字符的字符或者提取不止一个字符。
在附加地执行顺序校验2021b的情况下,校验步骤S2021通过结合包含校验值和顺序校验值而确定置信度。例如,对于某个侯选名称,可以通过将为该侯选名称所确定的包含校验值和顺序校验值加权相加而得到该侯选名称的置信度。
在图2中所示的组织名称确定步骤S2022中,将通过校验的侯选名称选择作为组织在目标语言中的名称。可选地,组织名称确定步骤S2022只将置信度高于一预定阈值的侯选名称选择作为组织在目标语言中的名称。
现在返回到图1,在一种实施方式中,在步骤S104中,对于网址URL的核心部分中包含目标语言中的词的情况,选择包含网址URL核心部分中所包含的所有词和由这些词分隔开的所有字段、并且这些词和字段在侯选名称中的排列顺序与在网址URL核心部分中的排列顺序相同的侯选名称作为组织在目标语言中的名称;而对于网址URL的核心部分中不包含目标语言中的词的情况,选择包含网址URL核心部分中所包含的所有字符、并且这些字符在侯选名称中的排列顺序与在网址URL核心部分中的排列顺序相同的侯选名称作为组织在目标语言中的名称。
可选地,如果在步骤S104中,所提取的目标语言中的短语(即侯选名称)中没有任何一个被选择为组织名称,例如因为所有侯选名称都不满足包含网址URL的核心部分中所包含的所有词和字段或所有字符且这些词和字段或这些字符的排列顺序与网址URL中的相同这样的要求,或者因为所有侯选名称的置信度都低于预定阈值,则根据本发明的方法可选地还包括以下步骤:确定源语言中与组织名称相关的前缀或后缀,例如对于前面所提到的“思科”,相关的后缀可以是“公司”;而对于组织名称“清华”,其相关的后缀可以是“大学”。与组织名称相关的前缀的例子例如可以包括与位置信息相关的词语,例如“中国”、“北京”等等。与组织名称相关的后缀的例子例如可以包括“公司”、“大学”、“医院”、“实业”等等。并且,在步骤S102中,将在以上步骤中所确定的前缀或后缀在目标语言中的翻译组合到所形成的组合查询项中。然后重复后续的步骤S103和S104。
以下参考图3描述根据本发明的组织名称确定设备的一个实施例。图3示出了根据本发明的组织名称确定设备的一个实施例的框图。
如图3所示,根据本发明的组织名称确定设备3000主要包括用于获取组织网址URL的网址URL获取装置3010、用于生成组合查询项的查询项生成装置3020、用于借助于搜索引擎执行搜索的查询项搜索装置3030、和用于从搜索结果列表中确定组织在目标语言中的名称的组织名称确定装置3040。
根据本发明,至少一个组织在源语言中的名称被提供给网址URL获取装置3010,并且网址URL获取装置3010根据组织在源语言中的名称,获取该至少一个组织的网址URL,并将所获得的网址URL提供给查询项生成装置3020,其中所获得的网址URL由目标语言中的字符串构成。例如,网址URL获取装置3010可以借助于搜索引擎而获得组织的网址URL。本领域技术人员也可以想到,可以借助于其他方式(例如通过其他外部数据源)来获取组织的网址URL。
查询项生成装置3020从网址URL获取装置2010接收所获得的网址URL,从网址URL的核心部分中提取目标语言中的词,并将其与该至少一个组织在源语言中的名称形成组合查询项。可选地,查询项生成装置3020基于目标语言字典而从网址URL核心部分中提取目标语言中的词。在本发明中,查询项生成装置3020通过从网址URL中滤除前缀(例如英文URL中的“http://www”)和后缀(例如英文URL中的“.com”、“.net”等)而确定网址URL的核心部分。
可选地,如果从该至少一个组织中某个或某些组织的网址URL的核心部分中没有提取出目标语言中的词,即这个或这些组织的网址URL的核心部分中不包含目标语言中的词,则查询项生成装置3020将这个或这些组织的网址URL的整个核心部分组合到组合查询项。
查询项生成装置3020将所生成的组合查询项提供给查询项搜索装置3030,查询项搜索装置3030借助于搜索引擎,对所接收的组合查询项进行搜索,从而获得该组合查询项的搜索结果列表。在所获得的搜索结果列表中列出了该查询项的搜索结果。
组织名称确定装置3040从查询项搜索装置3030所获得的搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并从所提取的短语中选择至少一个作为组织在目标语言中的名称。
例如,如图3所示,组织名称确定装置3040可以包括侯选名称提取装置3041和组织名称选择装置3042。其中侯选名称提取装置3041从查询项搜索装置3030所获得的搜索结果列表中所列出的搜索结果中提取目标语言中的短语,作为侯选名称,并将所提取的侯选名称提供给组织名称选择装置3042;而组织名称选择装置3042利用网址URL的核心部分对侯选名称进行校验,并将通过校验的侯选名称选择作为组织在目标语言中的名称。
可选地,侯选名称提取装置3041可以包括计数器3041-1和提取装置3041-2,其中计数器3041-1对搜索结果中所出现的目标语言中的每个短语的出现次数进行计数,而提取装置3041-2则基于计数器3041-1的计数结果,从搜索结果中提取出现次数高于一预定阈值的目标语言中的短语作为侯选名称。有利地,侯选名称提取装置3041-1只从搜索结果列表中所列出的前N个搜索结果中提取目标语言中的短语。可选地,N在100到1000之间。
图4示意性地示出了图3所示设备的组织名称选择装置3042的一种实施方式的流程图。如上所述,组织名称选择装置3042利用网址URL的核心部分对侯选名称提取装置3041所提取的侯选名称进行校验,并将通过校验的侯选名称选择作为组织在目标语言中的名称。
如图4所示,组织名称选择装置3042可以包括校验装置4010和确定装置4020,其中校验装置4010利用网址URL的核心部分对侯选名称进行校验,而确定装置4020将通过校验的侯选名称选择为组织在目标语言中的名称。
可选地,校验装置4010为每个侯选名称计算置信度,以表征该侯选名称与一网址URL核心部分的匹配程度,并对于每个组织,将置信度最高的至少一个侯选名称确定为通过了校验。
例如,如果组织的网址URL的核心部分包含目标语言中的词,则校验装置4010可以根据组织的网址URL的核心部分中所包含的词和由这些词分隔开的字段在侯选中的出现情况来计算置信度;相反,如果组织的网址URL的核心部分中不包含目标语言中的词,则校验装置4010可以根据组织的网址URL的核心部分所包含的字符在侯选名称中的出现情况来计算置信度。
有利地,校验装置4010包括包含校验器4011,用于为每个侯选名称计算包含校验值,并将所计算的包含校验值作为置信度。如上所述,包含校验器4011可以利用TF-IDF加权中的TF来执行包含校验。
可选地,除了包含校验器4011之外,校验装置4010还可以包括顺序校验器4012,用于为每个侯选名称计算顺序校验器。并且,在这种情况下,校验装置4010通过结合包含校验器4011和顺序校验器4012的校验结果而确定置信度。如上所述,顺序校验器4012可以利用LCS算法来执行顺序校验。
图4所示的确定装置4020将通过校验的侯选名称选择为组织在目标语言中的名称。可选地,确定装置4020只将置信度高于一预定阈值的侯选名称选择作为组织在目标语言中的名称。
现在返回到图3,现在返回到图3,在一种实施方式中,如果网址URL的核心部分中包含目标语言中的词,则组织名称确定装置3040选择包含网址URL核心部分中所包含的所有词和由这些词分隔开的所有字段、并且这些词和字段的排列顺序与网址URL核心部分中的排列顺序相同的后选名称作为组织在目标语言中的名称;如果网址URL的核心部分中不包含目标语言中的词,则组织名称确定装置3040选择包含网址URL核心部分中所包含的所有字符、并且这些字符的排列顺序与网址URL核心部分中的排列顺序相同的侯选名称作为组织在目标语言中的名称。
根据本发明的组织名称确定设备3000可选地还可以包括前后缀确定装置。其中如果组织名称选择装置3042没有从侯选名称提取装置3041所提取的侯选名称中选择任何一个侯选名称作为组织名称,例如因为所有侯选名称都不满足包含网址URL的核心部分中所包含的所有词和字段或所有字符且这些词和字段或这些字符的排列顺序与网址URL中的相同这样的要求,或者因为所有侯选名称的置信度都低于预定阈值,则前后缀确定装置确定源语言中与组织名称相关的前缀或后缀。在这种情况下,查询项生成装置3020将前后缀确定装置所确定的前缀或后缀在目标语言中的翻译组合到所形成的组合查询项中。
例如,在一种实施方式中,前后缀确定装置通过尝试来实现前后缀的添加,例如,对于“思科”,查询项生成装置3020可以先添加后缀“公司”在目标语言中的翻译,如果这样能确定有效的目标组织名称,则不再继续。而对于“清华”,查询项生成装置3020也可以先添加后缀“公司”在目标语言中的翻译,但这时候依然无法确定有效的目标组织名称,于是继续通过添加“大学”在目标语言中的翻译来进行进一步的尝试,这时候,一般就可以确定有效的目标组织名称了。前后缀确定装置可以这样一直尝试,直到可用的前后缀都被尝试。当然,本领域技术人员也可以想到,查询项生成装置3020可以在形成组合查询项时将所有可能的后缀(可选地,也可以包括前缀)在目标语言中的翻译组合到所形成的组合查询项中。
在以下描述中,以英文URL(即源语言为非英文,而目标语言为英文)为例对具体实施方式进行详细地介绍。但是,本领域技术人员显然可以理解,通过使用非英文的URL来代替英文URL,可以利用本发明确定组织在非英文语言中的名称。
图5以组织中文名称“远洋地产”为例子示出了根据本发明的组织名称确定方法的工作流程。如图5所示,首先,组织的中文名称“远洋地产”被输入,根据所接收的组织中文名称“远洋地产”,(例如如果借助于搜索引擎,则可以取搜索结果中的第一项)获取该组织的英文网址URL,即“http//www.sinooceanland.com.cn”。然后,从网址URL的核心部分“sinooceanland”中提取出英文词“ocean”和“land”(同时得到字段“sino”),然后将英文词“ocean”和“land”与中文名称“远洋地产”相结合,例如形成组合查询项“ocean land远洋地产”或者“远洋地产ocean land”。随后,借助于搜索引擎对该组合查询项执行搜索,从而获得相应的搜索结果列表,例如如图6所示。从搜索结果列表中所列出的搜索结果的标题和摘录中提取出英文短语“Sino-Ocean Land Holdings Limited”和“China Aoyuan PropertyGroup”(例如通过对标题和摘录中所出现的所有英文短语的出现次数进行计数并提取出现次数高于一预定阈值的英文短语),作为侯选名称。最后,选择侯选名称中的一个作为英文组织名称,例如利用网址URL对这些侯选名称进行校验,并选择英文短语“Sino-Ocean LandHoldings Limited”作为“远洋地产”的英文名称,因为在这两个侯选名称中,英文短语“Sino-Ocean Land Holdings Limited”包含网址URL的核心部分所包含的所有英文词“ocean”和“land”和字段“sino”并且它们的排列顺序与网址URL中的排列顺序相同。
图6示出了图5所示实施例的搜索结果列表的一部分的示意性示图。图6示出了例如通过Google对查询项“ocean land远洋地产”执行搜索所得到的搜索结果列表的一部分。
如上所述,根据本发明的组织名称确定方法和设备通过分析组织的网址URL来确定查询项,然后利用所确定的查询项进行搜索并确定组织名称。由于组织的网址URL通常反映了组织名称的特征,因此根据本发明的方法和设备能够更有效、更准确地获取搜索结果,从而提高了组织名称确定的准确度。可选地,根据本发明的方法和设备在从搜索结果中确定组织名称时进一步使用组织的网址URL来对侯选名称进行校准,从而进一步地提高了组织名称确定的有效性和准确性。
根据本发明的组织名称确定设备可以应用于各种领域、例如搜索引擎领域中。为此,根据本发明,还提供了一种搜索引擎系统,其包括根据本发明的组织名称确定设备。此外,与现有技术的搜索引擎系统相同,根据本发明的搜索引擎系统还具有用于接收查询项的查询项接收装置和用于提供搜索结果列表的搜索结果提供装置。根据本发明的搜索引擎系统可以根据作为查询项所接收的至少一个组织在源语言中的名称自动确定该至少一个组织在目标语言中的名称,并提供相应的搜索结果列表,该搜索结果列表至少包括与所确定的目标语言中的组织名称相关的搜索结果。例如,根据本发明的搜索引擎系统可以响应于接收到源语言中的组织名称“远洋地产”作为查询项,返回所有有关该组织在目标语言中的名称“Sino-Ocean Land HoldingsLimited”的搜索结果,或者可以同时还返回所有有关源语言中的组织名称“远洋地产”的搜索结果。在一种可选实施方式中,搜索引擎还可以包括可由用户来控制以确定是否返回源语言或目标语言相关内容的装置。
根据本发明,还提供了一种网络浏览器,其包括根据本发明的组织名称确定设备。此外,与现有技术的网络浏览器相同,根据本发明的网络浏览器还包括用于接收查询项的查询项输入装置和用于借助于搜索引擎获取搜索结果的搜索结果获取装置。根据本发明的网络浏览器可以根据作为查询项所接收的至少一个组织在源语言中的名称确定该至少一个组织在目标语言中的名称,并借助于搜索引擎而获取至少包括与所确定的目标语言中的名称相关的搜索结果。例如,根据本发明的网络浏览器可以响应于接收到源语言中的组织名称“远洋地产”作为查询项,返回所有有关该组织在目标语言中的名称“Sino-Ocean Land Holdings Limited”的搜索结果,或者可以同时还返回所有有关源语言中的组织名称“远洋地产”的搜索结果。在一种可选实施方式中,根据本发明的网络浏览器还可以包括可由用户来选择以确定是否返回源语言或目标语言相关内容的装置。
前面为了说明的目的,参照特定实施例对本发明作了描述。但是,上面的例示性讨论不是排它的或使本发明局限于公开的确切形式。可以按照上述教导作出许多修改和改变。选择和描述这些实施例是为了最佳地说明本发明的原理和它的实际应用,从而使本领域的普通技术人员能够最佳地利用本发明和使各种修改适合设想的特定使用的各种实施例。
Claims (16)
1.一种根据源语言中的名称确定目标语言中的名称的方法,包括:
网址URL获取步骤,基于至少一个组织在源语言中的名称,获取所述至少一个组织的网址URL,其中所述网址URL由目标语言中的字符串构成;
查询项生成步骤,从所述网址URL的核心部分中提取目标语言中的词,并与所述至少一个组织在源语言中的名称形成组合查询项;
查询项搜索步骤,借助于搜索引擎,获取所述组合查询项的搜索结果列表;
组织名称确定步骤,从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为所述至少一个组织在目标语言中的名称。
2.根据权利要求1所述的方法,其中所述查询项生成步骤在没有从所述至少一个组织中某组织的网址URL的核心部分中提取出目标语言中的词的情况下,将该组织的网址URL的核心部分组合到所述组合查询项中。
3.根据权利要求2所述的方法,其中所述组织名称确定步骤包括:
侯选名称提取步骤,从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,作为侯选名称;
组织名称选择步骤,利用所述网址URL的核心部分对所述侯选名称进行校验,并将通过校验的侯选名称选择作为所述至少一个组织在目标语言中的名称。
4.根据权利要求3所述的方法,其中所述组织名称选择步骤中的校验包括:
针对每个所述侯选名称,根据所述网址URL的核心部分所包含的词和由这些词分隔开的字段在所述候选名称中的出现情况,或根据所述网址URL的核心部分所包含的字符在所述侯选名称中的出现情况,来计算置信度;以及
将置信度最高的至少一个侯选名称确定为是通过校验的候选名称。
5.根据权利要求4所述的方法,其中所述计算置信度还基于所述词和字段或所述字符在所述网址URL的核心部分中的排列顺序及这些词和字段或这些字符出现在所述候选名称中时的排列顺序。
6.根据权利要求5所述的方法,其中只有置信度高于预定阈值的候选名称才被选择作为所述组织在目标语言中的名称。
7.根据权利要求3所述的方法,其中所述侯选名称提取步骤包括:
对搜索结果中所出现的目标语言中的每个短语的出现次数进行计数;和
从搜索结果中提取出现次数高于一预定阈值的目标语言中的短语,作为侯选名称。
8.一种根据源语言中的名称确定目标语言中的名称的设备,包括:
网址URL获取装置,用于基于至少一个组织在源语言中的名称,获取所述至少一个组织的网址URL,其中所述网址URL由目标语言中的字符串构成;
查询项生成装置,用于从所述网址URL的核心部分中提取目标语言中的词,并与所述至少一个组织在源语言中的名称形成组合查询项;
查询项搜索装置,用于借助于搜索引擎,获取所述组合查询项的搜索结果列表;
组织名称确定装置,用于从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,并选择其中至少一个短语作为所述至少一个组织在目标语言中的名称。
9.根据权利要求8所述的设备,其中所述查询项生成装置被配置为在没有从所述至少一个组织中某组织的网址URL的核心部分中提取出目标语言中的词的情况下,将该组织的网址URL的核心部分组合到所述组合查询项中。
10.根据权利要求9所述的设备,其中所述组织名称确定装置包括:
候选名称提取装置,用于从搜索结果列表中所列出的搜索结果中提取目标语言中的短语,作为侯选名称;
组织名称选择装置,用于利用所述网址URL的核心部分对所述侯选名称进行校验,并将通过校验的候选名称选择作为所述至少一个组织在目标语言中的名称。
11.根据权利要求10所述的设备,其中所述组织名称选择装置中的校验包括:
针对每个所述侯选名称,根据所述网址URL的核心部分所包含的词和由这些词分隔开的字段在所述侯选名称中的出现情况,或根据所述网址URL的核心部分所包含的字符在所述侯选名称中的出现情况,来计算置信度;以及
将置信度最高的至少一个候选名称确定为是通过校验的候选名称。
12.根据权利要求11所述的设备,其中所述计算置信度还基于所述词和字段或所述字符在所述网址URL的核心部分中的排列顺序及这些词和字段或这些字符出现在所述侯选名称中时的排列顺序。
13.根据权利要求12所述的设备,其中只有置信度高于预定阈值的侯选名称才被选择作为所述组织在目标语言中的名称。
14.根据权利要求10所述的设备,其中所述侯选名称提取装置包括:
用于对搜索结果中所出现的目标语言中的每个短语的出现次数进行计数的装置;和
用于从搜索结果中提取出现次数高于一预定阈值的目标语言中的短语,作为侯选名称的装置。
15.一种网络浏览器,包括:
查询项输入装置,用于接收至少一个组织在源语言中的名称作为查询项;
根据权利要求8至14中任一项所述的根据源语言中的名称确定目标语言中的名称的设备,用于基于所接收的组织名称,确定所述至少一个组织在目标语言中的名称;
搜索结果获取装置,用于借助于搜索引擎,获取搜索结果列表,其中所述搜索结果列表至少包括与所确定的所述至少一个组织在目标语言中的名称相关的搜索结果。
16.一种搜索引擎系统,包括:
查询项接收装置,用于接收至少一个组织在源语言中的名称作为查询项;
根据权利要求8至14中任一项所述的根据源语言中的名称确定目标语言中的名称的设备,用于基于所接收的组织名称,确定所述至少一个组织在目标语言中的名称;
搜索结果提供装置,用于提供搜索结果列表,其中所述搜索结果列表至少包括与所确定的所述至少一个组织在目标语言中的名称相关的搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102124681A CN101661480B (zh) | 2008-08-29 | 2008-08-29 | 确定组织在不同语言中的名称的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102124681A CN101661480B (zh) | 2008-08-29 | 2008-08-29 | 确定组织在不同语言中的名称的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101661480A true CN101661480A (zh) | 2010-03-03 |
CN101661480B CN101661480B (zh) | 2012-08-08 |
Family
ID=41789508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102124681A Expired - Fee Related CN101661480B (zh) | 2008-08-29 | 2008-08-29 | 确定组织在不同语言中的名称的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101661480B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679842A (zh) * | 2015-02-12 | 2015-06-03 | 北京集奥聚合科技有限公司 | 一种实时识别用户搜索关键字的方法 |
US9830384B2 (en) | 2015-10-29 | 2017-11-28 | International Business Machines Corporation | Foreign organization name matching |
CN112185573A (zh) * | 2020-09-25 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3121548B2 (ja) * | 1996-10-15 | 2001-01-09 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 機械翻訳方法及び装置 |
US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
CN1496062A (zh) * | 2000-06-28 | 2004-05-12 | 因特国风网络软件有限公司 | 网络中智能信息处理的方法和系统 |
-
2008
- 2008-08-29 CN CN2008102124681A patent/CN101661480B/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679842A (zh) * | 2015-02-12 | 2015-06-03 | 北京集奥聚合科技有限公司 | 一种实时识别用户搜索关键字的方法 |
US9830384B2 (en) | 2015-10-29 | 2017-11-28 | International Business Machines Corporation | Foreign organization name matching |
CN112185573A (zh) * | 2020-09-25 | 2021-01-05 | 志诺维思(北京)基因科技有限公司 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
CN112185573B (zh) * | 2020-09-25 | 2023-11-03 | 志诺维思(北京)基因科技有限公司 | 一种基于lcs和tf-idf的相似字符串确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101661480B (zh) | 2012-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
Zhang et al. | Entity linking leveraging automatically generated annotation | |
CN100416570C (zh) | 一种基于问答库的中文自然语言问答方法 | |
CN102236640B (zh) | 命名实体的消歧 | |
Zhu et al. | ESpotter: Adaptive named entity recognition for web browsing | |
US8812508B2 (en) | Systems and methods for extracting phases from text | |
CN103838732A (zh) | 一种生活服务领域垂直搜索引擎 | |
CN101004762A (zh) | 一种动态多维互联网网页系统 | |
JP2010117797A (ja) | 数値表現処理装置 | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
Wei et al. | Exploring tweets normalization and query time sensitivity for twitter search | |
Li et al. | National University of Singapore at the TREC-13 question answering main task | |
CN101661480B (zh) | 确定组织在不同语言中的名称的方法和系统 | |
Pinnis et al. | Accurat toolkit for multi-level alignment and information extraction from comparable corpora | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
Roche et al. | AcroDef: A quality measure for discriminating expansions of ambiguous acronyms | |
Stanković et al. | Improving document retrieval in large domain specific textual databases using lexical resources | |
Tannebaum et al. | Analyzing query logs of uspto examiners to identify useful query terms in patent documents for query expansion in patent searching: a preliminary study | |
Blair-Goldensohn et al. | A hybrid approach for answering definitional questions | |
Wang et al. | Web data extraction based on simple tree matching | |
Meng et al. | Chinese microblog entity linking system combining wikipedia and search engine retrieval results | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
CN110457435A (zh) | 一种专利新颖性分析系统及其分析方法 | |
Urbansky et al. | Entity extraction from the web with webknox |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120808 Termination date: 20150829 |
|
EXPY | Termination of patent right or utility model |