CN107729347B - 同义标签的获取方法、装置、设备及计算机可读存储介质 - Google Patents

同义标签的获取方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN107729347B
CN107729347B CN201710729010.2A CN201710729010A CN107729347B CN 107729347 B CN107729347 B CN 107729347B CN 201710729010 A CN201710729010 A CN 201710729010A CN 107729347 B CN107729347 B CN 107729347B
Authority
CN
China
Prior art keywords
label
identified
synonymous
template
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710729010.2A
Other languages
English (en)
Other versions
CN107729347A (zh
Inventor
孙珂
王超越
李婷婷
赵世奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710729010.2A priority Critical patent/CN107729347B/zh
Publication of CN107729347A publication Critical patent/CN107729347A/zh
Priority to US16/110,449 priority patent/US10769372B2/en
Application granted granted Critical
Publication of CN107729347B publication Critical patent/CN107729347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种同义标签的获取方法、装置、设备及计算机可读存储介质。本发明实施例通过获取待识别标签的中心语素,进而根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。

Description

同义标签的获取方法、装置、设备及计算机可读存储介质
【技术领域】
本发明涉及搜索技术,尤其涉及一种同义标签的获取方法、装置、设备及计算机可读存储介质。
【背景技术】
标签(tag)是用户用来表述领域需求的基础,也是构成用户查询语句(query)的基础。当用户在使用搜索引擎进行搜索时,会利用查询语句(query)来表达搜索意图,然而常常因为用户选择的查询语句与搜索结果不匹配,导致召回结果不足。在垂直领域中,该问题尤其严重。以电影领域为例,当用户搜索“比较烧脑的电影”时,其真实搜索意图是“高智商电影”或“悬疑、推理类电影”,如果搜索引擎没有将“烧脑电影”与“高智商”、“悬疑”、“推理”类电影资源建立映射关系,则会导致搜索结果召回缺失。
因此,为了能够将与用户所提供的查询语句具有同义关系的搜索结果一并召回,需要基于用户所提供的查询语句进行同义查询扩展,即利用查询语句所包含的标签进行搜索的同时,还需要进一步利用该标签的同义标签进行搜索,从而达到满足用户真正的搜索意图的目的,进而提升用户体验和最大化商业价值。目前,将同义标签的挖掘作为短语级复述任务来处理,其依赖于具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源。
然而,由于现有的同义标签的挖掘依赖于具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,在一些情况下,例如,挖掘资源的数据稀疏,会使得同义标签的覆盖率降低,从而导致了同义标签获取的可靠性的降低。
【发明内容】
本发明的多个方面提供一种同义标签的获取方法、装置、设备及计算机可读存储介质,用以提高同义标签获取的可靠性。
本发明的一方面,提供一种同义标签的获取方法,包括:
获取待识别标签的中心语素;
根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;
根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,包括:
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签之前,还包括:
获取指定实体的至少两个标签;
根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;
获取所述过滤处理之后的标签中每个标签的中心语素;
根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;
根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述两两标签之间的相似度,包括字重合度和词重合度中的至少一项。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签之后,还包括:
利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
本发明的另一方面,提供一种同义标签的获取装置,包括:
获取单元,用于获取待识别标签的中心语素;
模板单元,用于根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;
挖掘单元,用于根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述挖掘单元,具体用于
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述挖掘单元,还用于
获取指定实体的至少两个标签;
根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;
获取所述过滤处理之后的标签中每个标签的中心语素;
根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;以及
根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述两两标签之间的相似度,包括字重合度和词重合度中的至少一项。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括搜索单元,用于
利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
本发明的另一方面,提供一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述一方面所提供的同义标签的获取方法。
本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面所提供的同义标签的获取方法。
由上述技术方案可知,本发明实施例通过获取待识别标签的中心语素,进而根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的同义标签的获取方法的流程示意图;
图2为本发明另一实施例提供的同义标签的获取装置的结构示意图;
图3为本发明另一实施例提供的同义标签的获取装置的结构示意图;
图4为适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(PersonalComputer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的同义标签的获取方法的流程示意图,如图1所示。
101、获取待识别标签的中心语素。
102、根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板。
103、根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签。
需要说明的是,101~103的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
这样,通过获取待识别标签的中心语素,进而根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以利用wordrank算法,对待识别标签进行重要词(term)识别,以获得该待识别标签的中心语素。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以将所述待识别标签删除所述待识别标签的中心语素之后的内容,作为所述待识别标签的标签模板。例如,待识别标签为关于人性,其中心语素为人性,那么,其标签模板则为关于<slot>。
可选地,在本实施例的一个可能的实现方式中,在103之前,还可以进一步包括预先获取所述至少一个同义标签模板簇的步骤。
首先,可以获取指定实体的至少两个标签,并根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理。其中,所述两两标签之间的相似度,可以包括但不限于字重合度和词重合度中的至少一项,本实施例对此不进行特别限定。
例如,将映射到实体(entity)E的所有标签(tag)构成同义标签簇,对同义标签簇中的任一标签tag ti,其中,2≤i≤K,K为所有映射到实体E的tag的个数。该同义标签簇中其他标签tag(t1-ti-1,ti+1-tK)均作为tag ti的同义标签。ti与候选tag(t1-ti-1,ti+1-tK)两两构成同义标签对。然后,获取再获取所构成的同义标签对中两两标签之间的字重合度和词重合度中的至少一项,然后,则可以根据所述字重合度和词重合度中的至少一项,利用预先设置的与其所对应的字重合度阈值,以及词重合度阈值,过滤掉如下同义标签对中的至少一对:
小于字重合度阈值的同义标签对;
小于词重合度阈值的同义标签对;以及
小于字重合度阈值,且小于词重合度阈值的同义标签对。
其中,
具体可以采用如下公式,获得两两标签之间的字重合度:
Figure BDA0001386667530000081
其中,s1(tag1,tag2)为同义标签对中的tag1与tag2之间的字重合度,com1(tag1,tag2)为同义标签对中的tag1与tag2之间相同字的个数,len1(tag1)为tag1包含的字的个数;len1(tag2)为tag2包含的字的个数。
具体可以采用如下公式,获得两两标签之间的词重合度:
Figure BDA0001386667530000082
其中,s2(tag1,tag2)为同义标签对中的tag1与tag2之间的词重合度,com2(tag1,tag2)为同义标签对中的tag1与tag2之间相同词的个数,len2(tag1)为tag1包含的词的个数;len2(tag2)为tag2包含的词的个数。
其次,可以获取所述过滤处理之后的标签中每个标签的中心语素,进而,则可以根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同。
例如,可以利用wordrank算法,对每个标签进行重要词(term)识别,以获得该标签的中心语素。将中心语素相同的标签,构成最终的同义标签簇。
然后,则可以根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
例如,可以根据每个同义标签簇中所包含的每个标签和该同义标签簇中所包含的标签的中心语素,获得每个标签的标签模板。将这些标签的标签模板,组成该同义标签簇的同义标签模板簇。也就是说,互为同义关系的标签,其标签模板也互为同义关系。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,则可以根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
所谓实体,可以理解为一个抽象概念的实例化,由名称、类型和描述该实体的属性信息组成。
具体来说,具体可以判断所述标签模板是否在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中。
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,则可以根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
若所述标签模板不在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,则可以将所述标签模板所对应的标签所属的实体,作为指定实体,执行前述的预先获取所述至少一个同义标签模板簇的步骤。
可选地,在本实施例的一个可能的实现方式中,在103之后,还可以进一步利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
本发明可以适用于垂直领域,进行同义标签的挖掘,利用标签与实体之前的映射关系,探索用户的同义表达行为,从而得到满足用户查询意图、符合搜索引擎特点的同义标签,达到增加召回检索结果数量的目的。
本实施例中,通过获取待识别标签的中心语素,进而根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的同义标签的获取装置的结构示意图,如图2所示。本实施例的同义标签的获取装置可以包括获取单元21、模板单元22和挖掘单元23。其中,获取单元21,用于获取待识别标签的中心语素;模板单元22,用于根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;挖掘单元23,用于根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签。
需要说明的是,本实施例所提供的同义标签的获取装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行限定。
可选地,在本实施例的一个可能的实现方式中,如图3所示,本实施例所提供的同义标签的获取装置还可以进一步包括搜索单元31,可以用于利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
可选地,在本实施例的一个可能的实现方式中,所述挖掘单元23,具体可以用于若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
可选地,在本实施例的一个可能的实现方式中,所述挖掘单元23,还可以进一步用于获取指定实体的至少两个标签;根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;获取所述过滤处理之后的标签中每个标签的中心语素;根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;以及根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
其中,所述两两标签之间的相似度,可以包括但不限于字重合度和词重合度中的至少一项,本实施例对此不进行特别限定。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的同义标签的获取装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取单元获取待识别标签的中心语素,进而由模板单元根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,使得挖掘单元能够根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,无需依赖具有复述关系的点击日志或者具有双语平行对齐语料的数据等挖掘资源,能够避免现有技术中由于挖掘资源的数据稀疏而导致的同义标签的覆盖率降低的技术问题,从而提高了同义标签获取的可靠性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
图4示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图4显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储装置或者系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口44进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所对应的实施例所提供的同义标签的获取方法。
本发明另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1所对应的实施例所提供的同义标签的获取方法。
具体来说,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或页面组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一个计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种同义标签的获取方法,其特征在于,包括:
获取待识别标签的中心语素;
根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;
根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签;其中,
所述根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板,包括:
将所述待识别标签删除所述待识别标签的中心语素之后的内容,作为所述待识别标签的标签模板;
所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签,包括:
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签之前,还包括:
获取指定实体的至少两个标签;
根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;
获取所述过滤处理之后的标签中每个标签的中心语素;
根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;
根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
3.根据权利要求2所述的方法,其特征在于,所述两两标签之间的相似度,包括字重合度和词重合度中的至少一项。
4.根据权利要求1所述的方法,其特征在于,所述根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签之后,还包括:
利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
5.一种同义标签的获取装置,其特征在于,包括:
获取单元,用于获取待识别标签的中心语素;
模板单元,用于根据所述待识别标签和所述待识别标签的中心语素,获得所述待识别标签的标签模板;
挖掘单元,用于根据所述标签模板、所述待识别标签的中心语素和至少一个同义标签模板簇,获得所述待识别标签的同义标签;其中,
模板单元,具体用于
将所述待识别标签删除所述待识别标签的中心语素之后的内容,作为所述待识别标签的标签模板;
所述挖掘单元,具体用于
若所述标签模板在所述至少一个同义标签模板簇中的任意一个同义标签模板簇中,根据所述任意一个同义标签模板簇中除了所述标签模板之外的其他同义标签模板和所述待识别标签的中心语素,获得所述待识别标签的同义标签。
6.根据权利要求5所述的装置,其特征在于,所述挖掘单元,还用于获取指定实体的至少两个标签;
根据所述至少两个标签中两两标签之间的相似度,对所述至少两个标签进行过滤处理;
获取所述过滤处理之后的标签中每个标签的中心语素;
根据所述每个标签的中心语素,获得至少一个同义标签簇;所述至少一个同义标签簇中每个同义标签簇中所包含的标签的中心语素相同;以及
根据所述每个同义标签簇和该同义标签簇中所包含的标签的中心语素,获得所述至少一个同义标签模板簇。
7.根据权利要求6所述的装置,其特征在于,所述两两标签之间的相似度,包括字重合度和词重合度中的至少一项。
8.根据权利要求5所述的装置,其特征在于,所述装置还包括搜索单元,用于
利用所述待识别标签和所述待识别标签的同义标签,执行搜索操作。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~4中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~4中任一所述的方法。
CN201710729010.2A 2017-08-23 2017-08-23 同义标签的获取方法、装置、设备及计算机可读存储介质 Active CN107729347B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710729010.2A CN107729347B (zh) 2017-08-23 2017-08-23 同义标签的获取方法、装置、设备及计算机可读存储介质
US16/110,449 US10769372B2 (en) 2017-08-23 2018-08-23 Synonymy tag obtaining method and apparatus, device and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710729010.2A CN107729347B (zh) 2017-08-23 2017-08-23 同义标签的获取方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107729347A CN107729347A (zh) 2018-02-23
CN107729347B true CN107729347B (zh) 2021-06-11

Family

ID=61205266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710729010.2A Active CN107729347B (zh) 2017-08-23 2017-08-23 同义标签的获取方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
US (1) US10769372B2 (zh)
CN (1) CN107729347B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7289661B2 (ja) * 2019-01-31 2023-06-12 キヤノン株式会社 情報処理装置、制御方法、およびそのプログラム
CN110245259B (zh) * 2019-05-21 2021-09-21 北京百度网讯科技有限公司 基于知识图谱的视频打标签方法及装置、计算机可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263019A1 (en) * 2001-09-24 2008-10-23 Iac Search & Media, Inc. Natural language query processing
US8135580B1 (en) * 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
WO2013136532A1 (en) * 2012-03-14 2013-09-19 Nec Corporation Term synonym acquisition method and term synonym acquisition apparatus
CN105956206A (zh) * 2016-07-04 2016-09-21 Tcl集团股份有限公司 一种基于关键词树的视频检索方法及系统
CN106934069A (zh) * 2017-04-24 2017-07-07 中国工商银行股份有限公司 数据检索方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030066025A1 (en) * 2001-07-13 2003-04-03 Garner Harold R. Method and system for information retrieval
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US8195683B2 (en) * 2006-02-28 2012-06-05 Ebay Inc. Expansion of database search queries
US8949265B2 (en) * 2009-03-05 2015-02-03 Ebay Inc. System and method to provide query linguistic service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080263019A1 (en) * 2001-09-24 2008-10-23 Iac Search & Media, Inc. Natural language query processing
US8135580B1 (en) * 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
WO2013136532A1 (en) * 2012-03-14 2013-09-19 Nec Corporation Term synonym acquisition method and term synonym acquisition apparatus
CN105956206A (zh) * 2016-07-04 2016-09-21 Tcl集团股份有限公司 一种基于关键词树的视频检索方法及系统
CN106934069A (zh) * 2017-04-24 2017-07-07 中国工商银行股份有限公司 数据检索方法及系统

Also Published As

Publication number Publication date
US20190065474A1 (en) 2019-02-28
US10769372B2 (en) 2020-09-08
CN107729347A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
US8788471B2 (en) Matching transactions in multi-level records
US10169427B2 (en) Personalized highlighter for textual media
US10394955B2 (en) Relation extraction from a corpus using an information retrieval based procedure
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN110990406B (zh) 一种模糊查询方法、装置、设备和介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
US20160371244A1 (en) Collaboratively reconstituting tables
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
US10216802B2 (en) Presenting answers from concept-based representation of a topic oriented pipeline
CN115438232A (zh) 知识图谱构建方法及装置、电子设备、存储介质
JP2024507902A (ja) 情報検索方法、装置、電子機器および記憶媒体
CN107729347B (zh) 同义标签的获取方法、装置、设备及计算机可读存储介质
US20140343921A1 (en) Analyzing documents corresponding to demographics
CN111931524B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN110489563B (zh) 图结构的表示方法、装置、设备及计算机可读存储介质
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
US9286348B2 (en) Dynamic search system
CN107273362B (zh) 数据处理方法及其设备
US20150324341A1 (en) Paper based data entry
CN108280139B (zh) Poi数据的处理方法、装置、设备及计算机可读存储介质
CN110674224B (zh) 实体数据的处理方法、装置、设备及计算机可读存储介质
CN109558508B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN109460511B (zh) 一种获取用户画像的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant