CN102789473A - 标识符检索方法和设备 - Google Patents
标识符检索方法和设备 Download PDFInfo
- Publication number
- CN102789473A CN102789473A CN2011101459482A CN201110145948A CN102789473A CN 102789473 A CN102789473 A CN 102789473A CN 2011101459482 A CN2011101459482 A CN 2011101459482A CN 201110145948 A CN201110145948 A CN 201110145948A CN 102789473 A CN102789473 A CN 102789473A
- Authority
- CN
- China
- Prior art keywords
- identifier
- source
- profile
- identification symbol
- candidate identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种标识符检索方法,该方法可以包括步骤:根据源标识符从数据源中提取候选标识符;从数据源中获取源标识符的简档和候选标识符的简档;以及根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。该方法可以高效、准确、迅速地查找与源标识符相关联的目标标识符。
Description
技术领域
本发明的各实施方式涉及信息检索领域,更具体地涉及用于标识符检索的方法与设备。
背景技术
在当今的竞争时代,在商业等各个方面上获取有效的竞争信息变得越来越重要,越来越多的公司在制定商业策略过程中考虑和综合竞争信息。通常,人们通过市场调研人工地收集需要的竞争信息。
随着社会和信息技术的不断发展,互联网向用户提供越来越多的信息,同时,用户也在向互联网传送越来越多的信息。许多信息是由文本来进行组织的,例如新闻、介绍性文章、评论内容等。这些文本信息中有相当数量的内容与产品、人名、机构名等命名实体类别有关。例如,许多互联网硬件或软件网站的介绍性文章、评测性文章中都大量出现产品信息。
然而,通过人工手动地从包含海量数据的互联网上获取公司的竞争信息是非常耗费时间的,也是不切实际的。
发明内容
例如,当用户希望知道A公司与哪些公司是竞争对手,或者希望知道A公司的某一产品与哪些其他产品形成竞争关系时,可能利用源标识符来表示希望查询的产品、并借助互联网上的某些评论或介绍信息来检索表示竞争产品的目标标识符。这时,如果仅仅通过人工来浏览互联网上的海量数据,是无法高效、准确、迅速地完成这种检索的。
因此,目前需要一种能够从网络上的用户生成的数据或者其他数据源高效、准确、迅速地查找与源标识符相关联的目标标识符的技术方案。
在一个实施方式中,提供了一种标识符检索方法。该方法包括:根据源标识符从数据源中提取候选标识符;从数据源中获取源标识符的简档和候选标识符的简档;以及根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。
在另一个实施方式中,提供了一种标识符检索设备。该设备包括:提取装置,被配置用于根据源标识符从数据源中提取候选标识符;获取装置,被配置用于从数据源中获取源标识符的简档和候选标识符的简档;以及选择装置,被配置用于根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。
利用本发明各实施方式中的方法和设备,可以从网络上的用户生成的数据或者其他数据源高效、准确、迅速地查找与源标识符相关联的目标标识符,从而可以快速确定竞争对手或竞争产品,便于商业信息的获取和商业策略的制定。
通过以下对说明本发明原理的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是明显的。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1是按照本发明的一个实施例的标识符检索方法的流程图;
图2A和图2B是按照本发明的另一个实施例的标识符检索方法的流程图;
图3A和图3B是按照本发明的一个实施例的可以作为简档的示例以及不可以作为简档的示例;
图4是按照本发明的一个实施例的标识符检索设备的框图;以及
图5是适于实现根据本发明的实施例的计算机系统的结构方框图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
以下结合附图对本发明的实施方式进行更详细的解释和说明。应当理解,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
为便于描述,首先对本说明书中所使用的术语作以解释。
1.数据源
数据源可以是用户生成的数据(UGC),例如网络上对于某一产品或公司的评论信息、新闻、微博、博客、BBS等内容,或者任何其他使得用户能够通过通信网络浏览或查阅的内容。
另外,数据源也可以是本体库(Ontology)。本体库可以用于捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇或概念,并从不同层次的形式化模式上给出这些概念和概念之间相互关系的明确定义。从语义上讲,概念之间的关系例如可以是:“part-of”,表达概念之间部分与整体的关系;“kind-of”表达概念之间的继承关系;“instance-of”表达概念的实例与概念之间的关系;“attribute-of”表达某个概念是另一个概念的属性。在实际应用中,概念之间的关系不限于上面列出的4种关系,而是可以根据领域的具体情况定义相应的关系。目前广泛使用的本体库例如有Wordnet、Framenet、GUM、SENSUS、Mikrokmos等。其中,Wordnet是基于心理语言规则的英文词典,以synsets(在特定的上下文环境中可互换的同义词的集合)为单位组织信息。Framenet是英文词典,采用称为Frame Semantics的描述框架,提供较强的语义分析能力,目前发展为FramenetII。GUM是面向自然语言处理,支持多语种处理,包括基本概念及独立于各种具体语言的概念组织方式。SENSUS也是面向自然语言处理,为机器翻译提供概念结构,包括7万多个概念。Mikrokmos也是面向自然语言处理,支持多语种处理,采用一种语言中间的中间语言TMR表示知识。
此外,数据源也可以是预先建立的产品知识库,包括各种产品的品牌名称、产品型号、所属公司和产品类别以及其他产品属性信息等。
2.命名实体
命名实体(以下简称“实体”)是文本中承载信息的重要语言单位,在信息抽取、机器翻译、自动文摘等多个领域具有重要作用。命名实体识别(NER)主要是指识别出数据源中实体概念的命名性指称项。命名实体的类别主要包括:人名、地名、机构名、时间、数量、产品等。
3.标识符
标识符可以表示一个实体,例如可以采用该实体的全称、简称、英文缩写等。标识符可以是用户直接输入的,也可以是根据输入的对象而根据数据源的得到的,还可以是根据命名实体识别来确定的。
4.对象
对象可以是与标识符相对应的实体。例如,当标识符表示产品时,对象可以表示该产品所隶属于的公司,其可以是该公司的全称、简称、英文缩写等。
标识符可以与对象相对应。在本发明中,一个标识符可以与一个或多个对象相对应,而一个对象也可以与一个或多个标识符与之相对应。具体而言,一个产品可以隶属于一个或多个公司,也可以是两个公司的合做成果,也即这一个产品可以隶属于两个公司。。同时,一个公司可以具有一个或多个产品,所以一个公司可以有一个或多个产品与之相对应。
在本发明的一个实施方式中,描述了一种计算机实现的标识符检索方法。在该实施方式中,根据源标识符从数据源中提取候选标识符,从该数据源中获取源标识符的简档和候选标识符的简档,根据所获取的源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的标识符来作为目标标识符。
图1是按照本发明的一个实施例的标识符检索方法的流程图。
在步骤S101,根据源标识符从数据源中提取候选标识符。
在该步骤中首先可以对数据源进行命名实体识别,然后可以从识别出的命名实体中提取与源标识符属于相同实体类别的标识符,作为候选标识符。
在步骤S102,从该数据源中获取源标识符的简档和候选标识符的简档。
可以在数据源中搜索与源标识符有关的信息,以作为源标识符的简档。例如,可以在源标识符的简档中查找针对源标识符的描述性信息,并可以使用针对源标识符的描述性信息来更新源标识符的简档。
可以在数据源中搜索与候选标识符有关的信息,以作为候选标识符的简档。例如,可以在候选标识符的简档中查找针对候选标识符的描述性信息,并可以使用针对候选标识符的描述性信息来更新候选标识符的简档。
在步骤S103,根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。
可以通过计算源标识符与候选标识符的相似度,并通过比较相似度与预定阈值,从候选标识符中选择与源标识符相关联的标识符作为目标标识符。该预定阈值例如可以是根据经验得到的,也可以是预设的,还可以是本领域技术人员根据任何其他适当的方式得到的。
源标识符与候选标识符的相似度可以通过多种方法实现。例如,可以提取源标识符的简档中的关键词(以下称为“源关键词”),并可以提取候选标识符的简档中的关键词(以下称为“候选关键词”),然后根据源关键词和候选关键词计算该相似度。又例如,可以将源标识符的简档与候选标识符的简档直接进行比较,比如使用针对两个语句的比较方法或者针对两个段落之间的比较方法,来根据源标识符的简档和候选标识符的简档计算源标识符与候选标识符的相似度。
在根据本发明的另一个实施例中,可以基于源标识符的简档和候选标识符的简档,确定源标识符与候选标识符之间的时间顺序;并且,当该时间顺序满足预定要求时,可以从候选标识符中选择与源标识符相关联的目标标识符。
然后,图1的流程结束。
在根据本发明的一个实施例中,在步骤S101之前还可以接收用户输入的源对象,在数据源中查找与该源对象相对应的标识符,并将该标识符作为步骤S101-S103中的源标识符。
在根据本发明的一个实施例中,在步骤S103之后还可以确定与源标识符相对应的源对象和与目标标识符相对应的目标对象,并将所确定的源对象与所确定的目标对象相关联。
图2A和图2B是按照本发明的另一个实施例的标识符检索方法的流程图。
在步骤S201,对数据源进行命名实体识别。
命名实体识别通常是指识别出数据源中实体概念的命名性指称项。如前所述,命名实体的类别主要包括:人名、地名、机构名、时间、数量、产品等。所以,对数据源进行命名实体识别之后,可以得到人名、地名、机构名、时间、数量、产品等类型的实体。
在步骤S202,从识别出的命名实体中提取与源标识符属于相同实体类别的标识符,作为候选标识符。
在此步骤中,可以首先判断源标识符所属的实体类别,然后根据该实体类别在步骤S201所识别出的实体中确定候选标识符。
在根据本发明的一个实施例中,假设源标识符为“DB2”,其表示国际商业机器(IBMTM)公司的一个产品。由此,在步骤S202可以首先判断出源标识符“DB2”表示产品类别的实体。然后,可以从步骤S201所识别出的实体中查找属于产品类别的实体,将查找出来的实体作为候选标识符。在该实施例中,假设候选标识符包括“SQLServerTM”、“WindowsTM”和“iPhoneTM”这三个产品类别的实体。
应该注意的是,在本发明中,源标识符并不局限于仅表示产品类别的实体,而是可适用于人名、地名、机构名、时间、数量等其他类别的实体。
例如,在根据本发明的另一个实施例中,假设源标识符为“乔布斯”,此时源标识符表示的是苹果公司的领导者。由此,在步骤S202可以首先判断出源标识符“乔布斯”属于人名类别的实体。然后,可以从步骤S201所识别出的实体中查找属于人名类别的实体,将查找出来的实体作为候选标识符。在该实施例中,假设候选标识符包括“张三”、“比尔·盖茨”、“奥巴马”这三个人名类别的实体。
在步骤S203,在数据源中搜索与源标识符有关的信息,以作为源标识符的简档。
在本发明的实施方式中,与源标识符“DB2”有关的信息可以是包含比较、列举、并列、竞争等关系的语句、片段、段落、文章或其他类型的内容。例如,根据“Such as DB2,A,B and C”这一表述可以确定DB2与A、B和C是并列或列举关系,所以可以将包含“Suchas DB2,A,B and C”这一表述的内容确定为与源标识符“DB2”有关的信息,从而作为源标识符“DB2”的简档。根据“DB2vs A”或者“Which one is better,DB2 or A?”这两种表述之一都可以确定DB2与A是比较或竞争关系,所以可以将包含“DB2vs A”或“Which oneis better,DB2 or A?”的内容也确定为与源标识符“DB2”有关的信息,作为其简档。
图3A示出了可以作为简档的示例,其中包含“DB2 VSPostgreSQL”,这表示出DB2与PostgreSQL是比较或竞争关系,从而该片段可以作为标识符“DB2”的简档。另一方面,如果将“PostgreSQL”也认为是一个标识符,则也可以将图3A所示的片段作为标识符“PostgreSQL”的简档。
图3B示出了不可以作为简档的示例,其中“DB2”与“SunMicrosystemsTM”并不是并列或列举关系;相反,二者具有较小的相关性,因此不将该片段作为“DB2”或者“Sun MicrosystemsTM”的简档。
在根据本发明的一个实施例中,可以对步骤S203得到的源标识符的简档进行优化,使得优化后的简档更加有利于准确确定与源标识符相关联的目标标识符。例如,可以通过在源标识符的简档中查找针对源标识符的描述性信息,并使用该描述性信息来更新源标识符的简档,从而实现对源标识符的简档的优化。
在源标识符的简档中查找描述性信息的实现方法有多种。在一个例子中,可以首先对该简档执行聚焦的(focused)命名实体识别或者其他过滤方法,将与源标识符关系较小的内容从简档中去除,从而得到该简档的一个子集S1;然后用该子集S1作为描述性信息,以便替代源标识符当前的简档。在另一个例子中,可以首先对该简档执行聚焦的命名实体识别或者其他过滤方法,将与源标识符关系较小的内容从简档中去除来得到子集S1;之后,可以使用朴素贝叶斯、支撑向量积、KNN等分类算法从该子集S1中检测出关于源标识符的介绍性或者描述性内容,也即子集S2;然后,用该子集S2作为描述性信息,以便替代源标识符当前的简档。
在步骤S204,在数据源中搜索与候选标识符有关的信息,以作为候选标识符的简档。
与步骤S203中的源标识符的简档类似,与候选标识符有关的信息可以是包含比较、列举、并列、竞争等关系的语句、片段、段落、文章或其他类型的内容。
在上述实施例中,假设候选标识符包括“SQLServerTM”、“WindowsTM”、“iPhoneTM”这三个产品类别的实体,则在步骤S204可以为这三个候选标识符分别在数据源中搜索与之有关的信息,作为这三个候选标识符的简档。
在根据本发明的一个实施例中,可以对步骤S204得到的候选标识符的简档进行优化,使得优化后的简档更加有利于准确确定与源标识符相关联的目标标识符。例如,可以通过在候选标识符的简档中查找针对候选标识符的描述性信息,并使用该描述性信息来更新候选标识符的简档,从而实现对候选标识符的简档的优化。
在候选标识符的简档中查找描述性信息的实现方法有多种。在一个例子中,可以首先对该简档执行聚焦的命名实体识别或者其他过滤方法,将与候选标识符关系较小的内容从简档中去除,从而得到该简档的一个子集S1;然后用该子集S1作为描述性信息,以便替代候选标识符当前的简档。在另一个例子中,可以首先对该简档执行聚焦的命名实体识别或者其他过滤方法,将与候选标识符关系较小的内容从简档中去除来得到子集S1;之后,可以使用朴素贝叶斯、支撑向量积、KNN等分类算法从该子集S1中检测出关于候选标识符的介绍性或者描述性内容,也即子集S2;然后,用该子集S2作为描述性信息,以便替代候选标识符当前的简档。
在步骤S205,提取源标识符的简档中的源关键词。
可以利用本领域已知的多种关键词提取方法来完成步骤S205。已知的关键词提取算法包括基于频度或规则来提取关键词,例如基于统计的方法和基于规则的方法。其中,基于统计的方法简单易行不需要复杂的训练过程,比如基于词共线的方法等;基于规则的方法例如采用朴素贝叶斯技术对短语离散的特征值进行训练,获取模型的权值。已知的关键词提取算法还包括基于语义词性特征来提取关键词,能从文档中提取出较高正确率的关键词,例如基于自然语言理解的方法,参见“张颖颖等,基于同义词链的中文关键词提取算法,计算机工程,2010,36(19):93-95”、“张虹,基于自动文本分类的关键词抽取算法,计算机工程,2009,35(12):145-147”、“Medelyan O,Witten I H.Thesaurus Based Automatic KeyphraseIndexing[C]//Proc.of the Joint Conference on Digital Libraries.ChapelHill,NC,USA:[s.n.],2006:296-297”或“Ercan G,Ciekli I.UsingLexical Chains for Keyword Extraction[J].Information Processing andManagement,2007,43(6):1705-1714”等。
在根据本发明的一个实施例中,当源标识符表示产品类别的实体时,源关键词例如可以是源标识符的简档中用于描述产品型号、系列、技术参数、出现频率等信息中的一个或多个关键词。
在根据本发明的另一个实施例中,当源标识符表示人名类别的实体时,源关键词例如可以是源标识符的简档中用于描述职位、学历、专业、任职期限、出现频率等信息中的一个或多个关键词。
在步骤S206,提取候选标识符的简档中的候选关键词。
该步骤的实现方法与步骤S205类似,不同之处仅在于,候选关键词是候选标识符的简档中的一个或多个关键词,与源关键词的来源不同。
在步骤S207,根据源关键词和候选关键词,计算源标识符与候选标识符的相似度。
可以通过多种相似度计算方法来得到源标识符与候选标识符的相似度。在根据本发明的一个实施例中,根据步骤S205得到的源关键词,可以得到由源关键词组成的向量,称为源向量;同样,根据步骤S206得到的候选关键词,可以得到由候选关键词组成的向量,称为候选向量。根据得到的源向量和候选向量,可以通过计算二者的夹角余弦来计算二者的相似度。
另外,还可以通过利用戴斯系数、Chi-square、对数似然率或类F1 measure等相似度计算方法来计算源标识符与候选标识符的相似度。
在步骤S208,判断步骤S207计算出的相似度是否大于预定阈值。如果是,则进入步骤S209;如果否,则流程结束。
可以通过多种方式得到与步骤S207计算出的相似度进行比较的预定阈值。例如,预定阈值可以根据经验得到,也可以是预设的,还可以是本领域技术人员根据任何其他适当的方式得到的。
在根据步骤S202中所述的实施例中,假设源标识符为IBMTM公司的产品“DB2”,在步骤S202可以识别出的候选标识符为“SQLServerTM”、“WindowsTM”和“iPhoneTM”。假设在步骤S207计算出:源标识符“DB2”与第一个候选标识符“WindowsTM”的相似度为0.2,源标识符“DB2”与第二个候选标识符“iPhoneTM”的相似度为0.1,源标识符“DB2”与第三个候选标识符“SQLServerTM”的相似度为0.8。另外,假设在步骤S208中的预定阈值为0.6,则在步骤S208可以判断出第三个候选标识符“SQLServerTM”与源标识符“DB2”的相似度大于预定阈值。
在步骤S209,将该候选标识符选择为与源标识符相关联的目标标识符。
此时,可以确定出与源标识符相关联的目标标识符是第三个候选标识符“SQLServerTM”。
在本发明中,两个标识符相“关联”可以表示这两个标识符具有竞争关系、比较关系或者其他任何适当的预定义关系。根据以上步骤,可以实现从源标识符查找关联目标标识符的过程。在实际应用中,可以通过这一过程查找到与DB2这一产品具有竞争关系的产品SQLServerTM。
在根据本发明的另一个实施例中,假设源标识符为“乔布斯”,属于人名类型的实体,假设候选标识符包括“张三”、“比尔·盖茨”、“奥巴马”这三个人名类别的实体。通过步骤S203-S209的处理之后,可以根据“比尔·盖茨”与“乔布斯”的相似度大于预定阈值,从而确定“比尔·盖茨”为目标标识符,由此实现了从源标识符到与之相关联的目标标识符的检索。
在步骤S210,确定与源标识符相对应的源对象。
在根据本发明的一个实施例中,源标识符为“DB2”,由于其是国际商业机器(IBMTM)公司的一个产品,因此可以确定与源标识符“DB2”相对应的源对象是“国际商业机器公司”。注意,源对象可以是“国际商业机器公司”,也可以国际商业机器公司的简称、缩写、通称或者用户经常使用的任何可以标识该公司的名称,例如“IBM”等。
在步骤S211,确定与目标标识符相对应的目标对象。
该步骤与S210相类似,可以根据目标标识符所表示的产品来确定其所属的公司。例如,对于目标标识符“SQLServerTM”,可以确定与其相对应的目标对象是“微软公司”。注意,目标对象可以是“微软公司”,也可以国际商业机器公司的简称、缩写、通称或者用户经常使用的任何可以标识该公司的名称,例如“MicrosoftTM”或“MS”。
在步骤S212,将源对象与目标对象相关联。
此时,可以确定出与源对象(例如,“IBMTM”)相关联的目标对象是“MicrosoftTM”。
在本发明中,两个对象相“关联”可以表示这两个对象具有竞争关系、比较关系或者其他任何适当的预定义关系。根据以上步骤,可以实现从源对象查找关联目标对象的过程。在实际应用中,可以通过查找到与DB2这一产品具有竞争关系的产品SQLServerTM,来确定与IBMTM具有竞争关系的公司MicrosoftTM。
在根据本发明的一个例子中,将源对象与目标对象相关联时可以输出类似以下的示意性示例的结果:
“IBM vs Microsoft(DB2 vs SQLServer)
“IBM vs Oracle(DB2 vs Oracle)
......”
上述结果表明:IBMTM与MicrosoftTM由于各自的产品DB2和SQLServerTM而具有关联(例如,竞争)关系;IBMTM与OracleTM由于各自的产品DB2和OracleTM互相竞争而具有关联(例如,竞争)关系。
然后,图2的流程结束。
应该注意的是,步骤S210-S212是可选的而不是必需的。在步骤S209已可以确定与源标识符相关联的目标标识符。步骤S210-S212对于这一过程进行了扩展,实现了根据源标识符与目标标识符的关联性来确定与源对象相关联的目标对象。
在根据本发明的一个实施例中,在步骤S201之前还可以接收用户输入的源对象(例如用户输入的是“IBM”),随后可以在数据源中查找与该源对象相对应的标识符(例如“DB2”),并将该标识符作为步骤S201-S212中使用的源标识符。应该注意的是,源标识符并不限于仅来源于用户输入的源对象,而是可以由用户直接输入或者本领域技术人员可以想到的任何其他适当方式。
在根据本发明的另一个实施例中,根据源标识符的简档和候选标识符的简档从候选标识符中选择与源标识符相关联的目标标识符的过程还可以通过以下实现:基于源标识符的简档和候选标识符的简档来确定源标识符与候选标识符之间的时间顺序,当该时间顺序满足预定要求时从候选标识符中选择与源标识符相关联的目标标识符。
在一种具体实现中,可以在源标识符的简档中识别与源标识符有关的时间信息,并在候选标识符的简档中识别与候选标识符有关的时间信息,通过比较这些时间信息来确定源标识符与候选标识符的时间顺序;然后,可以根据预定要求来筛除或过滤掉不满足条件的候选标识符。例如,可以确定源标识符“DB2”发布于候选标识符“SQLSeverTM”之前或之后,当预定要求是源标识符应当发布于候选标识符之前,则应筛除在源标识符“DB2”之前发布的候选标识符,然后可以将在源标识符“DB2”之后发布的候选标识符确定为与源标识符相关联的目标标识符。
在另一种具体实现中,可以在源标识符的简档和候选标识符的简档中分别识别与源标识符有关的时间信息以及与候选标识符有关的时间信息,然后通过比较这些时间信息来确定源标识符与候选标识符的时间顺序;继而,可以根据预定要求来筛除或过滤不满足条件的候选标识符;随后可以继续按照步骤S205-S209来从候选标识符中选择目标标识符。
在根据本发明的另一个实施例中,当源标识符和/或目标标识符数量较多的时候,可以将源标识符与目标标识符的关联关系构建为图的形式,简称为“标识符关联图”。标识符关联图中的顶点可以对应于源标识符或目标标识符,该图中在两个顶点之间的边可以对应于源标识符与目标标识符的关联关系,该边可以具有方向性(例如用箭头来表示),表示这两个顶点的先后顺序。例如,从第一顶点指向第二顶点的箭头表示第二顶点出现或者发生的时间在第一顶点之后。另外,以上的标识符关联图也可以用文本形式(例如TXT、XML或其他常用文本标记工具)进行表示。此外,本领域的技术人员完全可以理解,标识符之间的关联关系可以用多种适当的形式来表示,而不限于在此仅作为示例的图或者文本文件。
标识符关联图可以在后台完成。根据标识符关联图,可以直接从源标识符确定关联的目标标识符,从而提高了实时处理速度,增加了处理效率。
在根据本发明的另一个实施例中,当源对象和/或目标对象数量较多的时候,也可以将源对象与目标对象的关联关系构建为图的形式,简称为“对象关联图”。与标识符关联图类似,对象关联图中的顶点可以对应于源对象或目标对象,该图中在两个顶点之间的边可以对应于源对象与目标对象的关联关系,该边可以具有方向性(例如用箭头来表示),表示这两个顶点的先后顺序。注意,对象之间的关联关系可以用多种适当的形式来表示,而不限于在此仅作为示例的图或者文本文件。
对象关联图也可以在后台完成。根据对象关联图,可以直接从源对象确定关联的目标对象,同样提高了实时处理速度,增加了处理效率。
图4是按照本发明的一个实施例的标识符检索设备400的方框图。标识符检索设备400可以包括:提取设备410、获取装置420以及选择装置430。提取装置410可以被配置用于根据源标识符从数据源中提取候选标识符。获取装置420可以被配置用于从数据源中获取源标识符的简档和候选标识符的简档。选择装置430可以被配置用于根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。
在根据本发明的一个实施例中,提取装置410可以包括:命名实体识别装置,被配置用于对数据源进行命名实体识别;以及候选标识符提取装置,被配置用于从识别出的命名实体中提取与源标识符属于相同实体类别的标识符作为候选标识符。
在根据本发明的一个实施例中,获取装置420可以包括:源标识符简档搜索装置,被配置用于在数据源中搜索与源标识符有关的信息以作为源标识符的简档;以及候选标识符简档搜索装置,被配置用于在数据源中搜索与候选标识符有关的信息以作为候选标识符的简档。
在一种实现方式中,源标识符简档搜索装置还可以包括:源标识符描述性信息查找装置,被配置用于在源标识符的简档中查找针对源标识符的描述性信息;以及源标识符简档更新装置,被配置用于使用针对源标识符的描述性信息来更新源标识符的简档。
在一种实现方式中,候选标识符简档搜索装置还可以包括:候选标识符描述性信息查找装置,被配置用于在候选标识符的简档中查找针对候选标识符的描述性信息;以及候选标识符简档更新装置,被配置用于使用针对候选标识符的描述性信息来更新候选标识符的简档。
在根据本发明的一个实施例中,选择装置430可以包括:计算单元,被配置用于计算源标识符与候选标识符的相似度;以及选择单元,被配置用于当相似度大于预定阈值时,将候选标识符选择为与源标识符相关联的目标标识符。
在一种实现方式中,计算单元可以包括:源关键词提取装置,被配置用于提取源标识符的简档中的源关键词;候选关键词提取装置,被配置用于提取候选标识符的简档中的候选关键词;以及相似度计算装置,被配置用于根据源关键词和候选关键词计算源标识符与候选标识符的相似度。
在根据本发明的一个实施例中,选择装置430可以包括:时间顺序确定装置,被配置用于基于源标识符的简档和候选标识符的简档,确定源标识符与候选标识符之间的时间顺序;以及目标标识符选择装置,被配置用于当时间顺序满足预定要求时,从候选标识符中选择与源标识符相关联的目标标识符。
在根据本发明的一个实施例中,标识符检索设备400还可以包括:接收装置(未示出),其可以被配置用于接收用户输入的源对象;以及查找装置(未示出),其可以被配置用于在数据源中查找与源对象相对应的标识符,作为源标识符。
在根据本发明的一个实施例中,标识符检索设备400还可以包括:确定装置(未示出),其可以被配置为确定与源标识符相对应的源对象和确定与目标标识符相对应的目标对象;以及关联装置(未示出),其可以被配置为将源对象与目标对象相关联。
图5示意性示出了适于实现根据本发明的实施例的计算机系统的结构方框图。
图5中所示的计算机系统包括CPU(中央处理单元)501、RAM(随机存取存储器)502、ROM(只读存储器)503、系统总线504,硬盘控制器505、键盘控制器506、串行接口控制器507、并行接口控制器508、显示器控制器509、硬盘510、键盘511、串行外部设备512、并行外部设备513和显示器514。在这些部件中,与系统总线504相连的有CPU 501、RAM 502、ROM 503、硬盘控制器505、键盘控制器506,串行接口控制器507,并行接口控制器508和显示器控制器509。硬盘510与硬盘控制器505相连,键盘511与键盘控制器506相连,串行外部设备512与串行接口控制器507相连,并行外部设备513与并行接口控制器508相连,以及显示器514与显示器控制器509相连。
图5中每个部件的功能在本技术领域内都是众所周知的,并且图5所示的结构也是常规的。不同的应用中,可以向图5中所示的结构添加某些部件,或者图5中的某些部件可以被省略。图5中所示的整个系统由通常作为软件存储在硬盘510中、或者存储在EPROM或者其他非易失性存储器中的计算机可读指令控制。软件也可从网络(图中未示出)下载。或者存储在硬盘510中,或者从网络下载的软件可被加载到RAM 502中,并由CPU 501执行,以便完成由软件确定的功能。
尽管图5中描述的计算机系统能够支持根据本发明的标识符检索设备,但是其只是计算机系统的一个例子。本领域的熟练技术人员可以理解,许多其他计算机系统设计也能实现本发明的实施例。本发明还涉及一种计算机程序产品,该计算机程序产品包括用于执行如下的代码:根据源标识符从数据源中提取候选标识符;从该数据源中获取源标识符的简档和候选标识符的简档;以及根据源标识符的简档和候选标识符的简档,从候选标识符中选择与源标识符相关联的目标标识符。在使用之前,可以把代码存储在其他计算机系统的存储器中,例如,存储在硬盘或诸如光盘或软盘的可移动的存储器中,或者经由因特网或其他计算机网络进行下载。
本发明的实施方式所公开的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器、个人计算机(PC)或大型机来执行。在优选实施方式中,本发明实现为软件,其包括但不限于固件、驻留软件、微代码等。
而且,本发明的实施方式还可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,这些介质提供程序代码以供计算机或任何指令执行系统使用或与其结合使用。出于描述目的,计算机可用或计算机可读机制可以是任何有形的装置,其可以包含、存储、通信、传播或传输程序以由指令执行系统、装置或设备使用或与其结合使用。
介质可以是电的、磁的、光的、电磁的、红外线的、或半导体的系统(或装置或器件)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。目前光盘的例子包括紧凑盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。
适合于存储/或执行根据本发明的实施方式的程序代码的系统将包括至少一个处理器,其直接地或通过系统总线间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间所利用的本地存储器、大容量存储器、以及提供至少一部分程序代码的临时存储以便减少执行期间从大容量存储器必须取回代码的次数的高速缓存存储器。
输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等等)可以直接地或通过中间I/O控制器耦合到系统。
网络适配器也可以耦合到系统,以使得系统能够通过中间的私有或公共网络而耦合到其他系统或远程打印机或存储设备。调制解调器、线缆调制解调器以及以太网卡仅仅是当前可用的网络适配器类型的几个例子。
说明书中提及的通信网络可以包括各类网络,包括但不限于局域网(“LAN”),广域网(“WAN”),根据IP协议的网络(例如,因特网)以及端对端网络(例如,ad hoc对等网络)。
应当注意,为了使本发明的实施方式更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实施方式的实现可能是必需的更具体的一些技术细节。
提供本发明的说明书是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是可以的。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。
Claims (20)
1.一种计算机实现的标识符检索方法,包括:
根据源标识符从数据源中提取候选标识符;
从所述数据源中获取所述源标识符的简档和所述候选标识符的简档;以及
根据所述源标识符的简档和所述候选标识符的简档,从所述候选标识符中选择与所述源标识符相关联的目标标识符。
2.根据权利要求1的方法,其中根据源标识符从数据源中提取候选标识符包括:
对数据源进行命名实体识别;以及
从识别出的命名实体中提取与源标识符属于相同实体类别的标识符,作为候选标识符。
3.根据权利要求1的方法,其中从所述数据源中获取所述源标识符的简档和所述候选标识符的简档包括:
在所述数据源中搜索与所述源标识符有关的信息,以作为所述源标识符的简档;以及
在所述数据源中搜索与所述候选标识符有关的信息,以作为所述候选标识符的简档。
4.根据权利要求3的方法,其中在所述数据源中搜索与所述源标识符有关的信息,以作为所述源标识符的简档还包括:
在所述源标识符的简档中查找针对所述源标识符的描述性信息;以及
使用针对所述源标识符的描述性信息来更新所述源标识符的简档。
5.根据权利要求3的方法,其中在所述数据源中搜索与所述候选标识符有关的信息,以作为所述候选标识符的简档还包括:
在所述候选标识符的简档中查找针对所述候选标识符的描述性信息;以及
使用针对所述候选标识符的描述性信息来更新所述候选标识符的简档。
6.根据权利要求1的方法,其中根据所述源标识符的简档和所述候选标识符的简档,从所述候选标识符中选择与所述源标识符相关联的目标标识符包括:
计算所述源标识符与候选标识符的相似度;以及
当所述相似度大于预定阈值时,将所述候选标识符选择为与所述源标识符相关联的目标标识符。
7.根据权利要求6的方法,其中计算所述源标识符与候选标识符的相似度包括:
提取所述源标识符的简档中的源关键词;
提取所述候选标识符的简档中的候选关键词;以及
根据所述源关键词和所述候选关键词,计算所述源标识符与候选标识符的相似度。
8.根据权利要求1的方法,其中根据所述源标识符的简档和所述候选标识符的简档,从所述候选标识符中选择与所述源标识符相关联的目标标识符还包括:
基于所述源标识符的简档和所述候选标识符的简档,确定所述源标识符与所述候选标识符之间的时间顺序;以及
当所述时间顺序满足预定要求时,从所述候选标识符中选择与所述源标识符相关联的目标标识符。
9.根据权利要求1的方法,其中在根据源标识符从数据源中提取候选标识符之前还包括:
接收用户输入的源对象;以及
在数据源中查找与所述源对象相对应的标识符,作为所述源标识符。
10.根据权利要求1的方法,还包括:
确定与所述源标识符相对应的源对象;
确定与所述目标标识符相对应的目标对象;以及
将所述源对象与所述目标对象相关联。
11.一种标识符检索设备,包括:
提取装置,被配置用于根据源标识符从数据源中提取候选标识符;
获取装置,被配置用于从所述数据源中获取所述源标识符的简档和所述候选标识符的简档;以及
选择装置,被配置用于根据所述源标识符的简档和所述候选标识符的简档,从所述候选标识符中选择与所述源标识符相关联的目标标识符。
12.根据权利要求11的设备,其中所述提取装置包括:
命名实体识别装置,被配置用于对数据源进行命名实体识别;以及
候选标识符提取装置,被配置用于从识别出的命名实体中提取与源标识符属于相同实体类别的标识符作为候选标识符。
13.根据权利要求11的设备,其中所述获取装置包括:
源标识符简档搜索装置,被配置用于在所述数据源中搜索与所述源标识符有关的信息以作为所述源标识符的简档;以及
候选标识符简档搜索装置,被配置用于在所述数据源中搜索与所述候选标识符有关的信息以作为所述候选标识符的简档。
14.根据权利要求13的设备,其中所述源标识符简档搜索装置还包括:
源标识符描述性信息查找装置,被配置用于在所述源标识符的简档中查找针对所述源标识符的描述性信息;以及
源标识符简档更新装置,被配置用于使用针对所述源标识符的描述性信息来更新所述源标识符的简档。
15.根据权利要求13的设备,其中所述候选标识符简档搜索装置还包括:
候选标识符描述性信息查找装置,被配置用于在所述候选标识符的简档中查找针对所述候选标识符的描述性信息;以及
候选标识符简档更新装置,被配置用于使用针对所述候选标识符的描述性信息来更新所述候选标识符的简档。
16.根据权利要求11的设备,其中所述选择装置包括:
计算单元,被配置用于计算所述源标识符与候选标识符的相似度;以及
选择单元,被配置用于当所述相似度大于预定阈值时,将所述候选标识符选择为与所述源标识符相关联的目标标识符。
17.根据权利要求16的设备,其中所述计算单元包括:
源关键词提取装置,被配置用于提取所述源标识符的简档中的源关键词;
候选关键词提取装置,被配置用于提取所述候选标识符的简档中的候选关键词;以及
相似度计算装置,被配置用于根据所述源关键词和所述候选关键词计算所述源标识符与候选标识符的相似度。
18.根据权利要求11的设备,其中所述选择装置包括:
时间顺序确定装置,被配置用于基于所述源标识符的简档和所述候选标识符的简档,确定所述源标识符与所述候选标识符之间的时间顺序;以及
目标标识符选择装置,被配置用于当所述时间顺序满足预定要求时,从所述候选标识符中选择与所述源标识符相关联的目标标识符。
19.根据权利要求11的设备,还包括:
接收装置,被配置用于接收用户输入的源对象;以及
查找装置,被配置用于在数据源中查找与所述源对象相对应的标识符,作为所述源标识符。
20.根据权利要求11的设备,还包括:
确定装置,被配置为确定与所述源标识符相对应的源对象和确定与所述目标标识符相对应的目标对象;以及
关联装置,被配置为将所述源对象与所述目标对象相关联。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101459482A CN102789473A (zh) | 2011-05-18 | 2011-05-18 | 标识符检索方法和设备 |
US13/471,515 US20120296932A1 (en) | 2011-05-18 | 2012-05-15 | Method and apparatus for identifier retrieval |
US13/590,479 US20120317125A1 (en) | 2011-05-18 | 2012-08-21 | Method and apparatus for identifier retrieval |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101459482A CN102789473A (zh) | 2011-05-18 | 2011-05-18 | 标识符检索方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102789473A true CN102789473A (zh) | 2012-11-21 |
Family
ID=47154877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101459482A Pending CN102789473A (zh) | 2011-05-18 | 2011-05-18 | 标识符检索方法和设备 |
Country Status (2)
Country | Link |
---|---|
US (2) | US20120296932A1 (zh) |
CN (1) | CN102789473A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106164896A (zh) * | 2013-12-30 | 2016-11-23 | 邓白氏公司 | 用于发现复杂两对手方或多对手方关系的多维递归学习过程及系统 |
CN108416644A (zh) * | 2017-02-09 | 2018-08-17 | 富士通株式会社 | 信息输出方法和信息输出装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11043291B2 (en) | 2014-05-30 | 2021-06-22 | International Business Machines Corporation | Stream based named entity recognition |
CN105608075A (zh) * | 2014-09-26 | 2016-05-25 | 北大方正集团有限公司 | 一种相关知识点的获取方法及系统 |
CN105373622B (zh) * | 2015-12-08 | 2019-03-12 | 中国建设银行股份有限公司 | 信息处理方法及装置 |
CN106959958B (zh) * | 2016-01-11 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 地图兴趣点简称获取方法和装置 |
US10671577B2 (en) * | 2016-09-23 | 2020-06-02 | International Business Machines Corporation | Merging synonymous entities from multiple structured sources into a dataset |
CN110287328B (zh) * | 2019-07-03 | 2021-03-16 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101499062A (zh) * | 2008-01-29 | 2009-08-05 | 国际商业机器公司 | 用于收集实体别名的方法和设备 |
CN102236640A (zh) * | 2006-03-31 | 2011-11-09 | 谷歌公司 | 命名实体的消歧 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711558B1 (en) * | 2000-04-07 | 2004-03-23 | Washington University | Associative database scanning and information retrieval |
EP1634195A1 (en) * | 2003-06-18 | 2006-03-15 | ZI Corporation | Configurable information identification system and method |
US7634482B2 (en) * | 2003-07-11 | 2009-12-15 | Global Ids Inc. | System and method for data integration using multi-dimensional, associative unique identifiers |
-
2011
- 2011-05-18 CN CN2011101459482A patent/CN102789473A/zh active Pending
-
2012
- 2012-05-15 US US13/471,515 patent/US20120296932A1/en not_active Abandoned
- 2012-08-21 US US13/590,479 patent/US20120317125A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236640A (zh) * | 2006-03-31 | 2011-11-09 | 谷歌公司 | 命名实体的消歧 |
CN101499062A (zh) * | 2008-01-29 | 2009-08-05 | 国际商业机器公司 | 用于收集实体别名的方法和设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106164896A (zh) * | 2013-12-30 | 2016-11-23 | 邓白氏公司 | 用于发现复杂两对手方或多对手方关系的多维递归学习过程及系统 |
CN106164896B (zh) * | 2013-12-30 | 2020-03-03 | 邓白氏公司 | 用于发现对手方关系的多维递归方法及系统 |
CN108416644A (zh) * | 2017-02-09 | 2018-08-17 | 富士通株式会社 | 信息输出方法和信息输出装置 |
Also Published As
Publication number | Publication date |
---|---|
US20120296932A1 (en) | 2012-11-22 |
US20120317125A1 (en) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | A practical approach to constructing a knowledge graph for cybersecurity | |
US10198479B2 (en) | Systems and methods for contextual retrieval and contextual display of records | |
Hua et al. | Short text understanding through lexical-semantic analysis | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
Angeli et al. | Leveraging linguistic structure for open domain information extraction | |
CN102789473A (zh) | 标识符检索方法和设备 | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
RU2491622C1 (ru) | Способ классификации документов по категориям | |
Chen et al. | CSSeer: an expert recommendation system based on CiteseerX | |
CN110309251A (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Ko et al. | Natural language processing–driven model to extract contract change reasons and altered work items for advanced retrieval of change orders | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
Bonab et al. | Citation worthiness of sentences in scientific reports | |
Dietz et al. | Across-Document Neighborhood Expansion: UMass at TAC KBP 2012 Entity Linking. | |
Alonso et al. | Predicting word sense annotation agreement | |
WO2018220688A1 (ja) | 辞書生成装置、辞書生成方法、及びプログラム | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
Bing et al. | Towards a language-independent solution: Knowledge base completion by searching the Web and deriving language pattern | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 | |
Li | Feature and variability extraction from natural language software requirements specifications | |
Singh et al. | Marathi parts-of-speech tagger using supervised learning | |
Srinivasan et al. | Model-assisted machine-code synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20121121 |