CN115496065A - 识别复合词的方法、装置、设备及存储介质 - Google Patents

识别复合词的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115496065A
CN115496065A CN202211139840.7A CN202211139840A CN115496065A CN 115496065 A CN115496065 A CN 115496065A CN 202211139840 A CN202211139840 A CN 202211139840A CN 115496065 A CN115496065 A CN 115496065A
Authority
CN
China
Prior art keywords
word
recognized
words
search
compound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211139840.7A
Other languages
English (en)
Inventor
孔琳琳
叶林
刘同华
蒋勇翔
李振华
徐融冰
傅凌进
谭智仁
吴瀚宇
杨崇
李翔
刘洋洋
李帆
张虎
雷毅
骆仲军
傅文林
吴翰清
赖集佳
贺同
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202211139840.7A priority Critical patent/CN115496065A/zh
Publication of CN115496065A publication Critical patent/CN115496065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种识别复合词的方法、装置、设备及存储介质,所述方法包括:获取待识别词语;向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。

Description

识别复合词的方法、装置、设备及存储介质
技术领域
本说明书实施例涉及自然语言处理技术领域,尤其涉及识别复合词的方法、装置、设备及存储介质。
背景技术
语素是最小的语音语义结合体,即最小的语言单位;一个语素能够独立表达一个完整的语义。复合词是指由至少两个作为词根的语素按一定的规则构成的词语,词义由两个语素的语义复合构成。如建立词库等很多业务场景下,需要识别某个词语是否是一个复合词;目前都是由人工审核,效率低下,需要投入较大成本。
发明内容
为克服相关技术中存在的问题,本说明书实施例提供了识别复合词的方法、装置、设备及存储介质。
根据本说明书实施例的第一方面,提供一种识别复合词的方法,包括:
获取待识别词语;
向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
根据本说明书实施例的第二方面,提供一种识别复合词的装置,包括:
获取模块,用于:获取待识别词语;
搜索模块,用于:向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别模块,用于:识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现前述第一方面所述方法实施例的步骤。
根据本说明书实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述方法实施例的步骤。
本说明书的实施例提供的技术方案可以包括以下有益效果:
本说明书实施例设计了利用搜索引擎的能力来识别复合词,通过向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。由于搜索引擎通常具有从全网获取数据的能力,而全网的数据可以很直观地反映出待识别词语是否已经实际作为一个整体被用户广泛使用,进而依据待识别词语与搜索结果的匹配情况,可以确定该待识别词语是否可以是复合词,解决了人工审核低效的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1A至图1C分别是本说明书根据一示例性实施例示出的一种网站中网页的示意图。
图2A是本说明书根据一示例性实施例示出的一种识别复合词的方法的流程图。
图2B是本说明书根据一示例性实施例示出的一种搜索结果的示意图。
图3是本说明书根据一示例性实施例示出的一种识别复合词的装置所在计算机设备的框图。
图4是本说明书根据一示例性实施例示出的一种识别复合词的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
语素是最小的语音语义结合体,是最小的语言单位;一个语素能够独立表达一个完整的语义。以中文语法为例,语素可以分类为:
(1)单音节语素,如土、人或水等。
(2)双音节语素,即组成该语素的两个音节需要合起来才能表达语义;如淘汰、踌躇或牡丹等。
(3)多音节语素,即组成该语素的两个音节需要合起来才能表达语义;如白兰地、凡士林等。
词是由语素组成的最小的造句单位;按构成方式分单纯词和合成词:
(1)单纯词,由一个语素组成的词,所有的单音节语素、所有的双音节语素或多音节语素都可以组成单纯词,如:山、水、天;仿佛、苍茫、蜈蚣;敌敌畏或阿司匹林等。
(2)合成词,由两个或两个以上的语素组成的词;如“系统版本”、“远程桌面”等。
合成词可以分类为派生词和复合词:
①派生词:是在作为词根的语素的语义的基础上派生出来的词语,词义由该语素决定,例如“阿姨”、“老虎”或“石头”。
②复合词:复合词由至少两个作为词根的语素按一定的规则构成,词义由两个语素的语义复合构成,例如“开发者社区”或“Linux系统”等。
在很多场景下需要识别复合词。例如,一些网站所有者需要创建聚合页,聚合页是指根据一定主题或者关键词将网站原有内容进行重新组合排序而生成一个新的列表或专题页面。如图1A至图1C所示,是本说明书根据一示例性实施例示出的一种网站中网页的示意图,图 1A示出了“开发者社区”网站的聚合页,该页面中聚合了该网站的其他网页,聚合页方便用户对同一主题相关的内容进行拓展阅读,也方便搜索引擎抓取网页内容。聚合页中需要展示多个网页中网页内容的关键词,该关键词可以链接至对应的网页;而关键词通常包括语素和复合词。例如,用户通过点击“课程”,可以链接至如图1B所示的网页;通过点击“推荐博文”下的“C语言和ABAP编程”,可以链接至如图1C所示的网页。相关技术中,可以利用自然语言处理技术对网页内容识别出关键词。自然语言处理 (Natural LanguageProcessing,NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言。NLP识别关键词的准确度除了算法优化外,其重要依赖是词库的建立,即语素及复合词的沉淀。词库中未存储的复合词,则无法利用NLP识别到。
因此还需要人工审核网页内容中包含的词语是否可以作为复合词。例如,利用NLP从网页内容中识别出两个或以上连续的语素,但这两个或以上连续的语素构成的词语并未收录在词库中,需要人工审核该词语是否可以作为复合词。因此,目前人工审核的方式效率低下且需要投入较大成本。
基于此,本说明书实施例提供了一种识别复合词的方法,利用搜索引擎的能力来识别复合词,利用搜索引擎的能力来识别复合词,通过向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。由于搜索引擎通常具有从全网获取数据的能力,而全网的数据可以很直观地反映出待识别词语是否已经实际作为一个整体被用户广泛使用,进而依据待识别词语与搜索结果的匹配情况,可以确定该待识别词语是否可以是复合词,解决了人工审核低效的问题。
如图2A所示,是本说明书根据一示例性实施例示出的一种识别复合词的方法的流程图,该方法可以包括如下步骤:
在步骤202中,获取待识别词语。
在步骤204中,向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果。
在步骤206中,识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
本实施例方案的待识别词语是指任意需要确定是否为复合词的词语。本实施例方案可以应用于任意需要识别复合词的场景中。例如,一些NLP场景下通常建立有词库,待识别词语可以是未存储于词库中的需要识别是否可以存储至词库中的词语。在另一些例子中,如前述的网站所有者,需要对网站内的所有网页内容提取词语建立复合词词库以创建聚合页,可以利用本实施例方案对提取出的部分或全部词语识别是否是复合词。
在一些例子中,搜索引擎服务器返回的是按相关性排序的多条搜索结果,由于搜索结果的数量可能很多,在一些例子中,获取一个或多个搜索引擎服务器返回的多条搜索结果,可以是排序最前的N条搜索结果,N根据需要可以灵活配置,本实施例对此不进行限定。每条搜索结果中通常包括网页地址,以及对该网页的网页摘要文本,网页摘要文本由搜索引擎根据该网页内容而确定,用于描述该网页中的关键内容。因此,本实施例的搜索结果对应的网页信息文本,可以是网页内容,也可以是网页摘要文本。
以网页内容为例,若待识别词语包含于多个网页的网页内容中,可以确定该待识别词语在全网中已被一些用户所使用,可以基于此确定待识别词语是否为复合词。由于复合词是具有确定语义的词语,搜索引擎通常具有从全网获取数据的能力,而全网的数据可以很直观地反映出“待识别词语”是否已经实际作为一个整体被用户所使用。若待识别词语不具有语义,不是一个复合词,则该待识别词语并不会被用户所使用;若具有确定的语义,则会有用户使用该词语,通过搜索引擎能够搜索到该待识别词语存在于一些网页中被用户所使用。因此依据待识别词语与搜索结果的匹配情况,可以确定待识别词语是否为复合词。
以网页摘要文本为例进行说明,如图2B所示,是本说明书根据一示例性实施例示出的一种搜索引擎网站展示搜索结果的示意图。用户可以使用浏览器访问搜索引擎网页,在搜索栏中输入搜索关键词,本实施例的搜索关键词以“ABC邮箱”为例。网页会显示搜索引擎对于“ABC邮箱”的搜索结果。本实施例中示出了前4条搜索结果,每条搜索结果包括网页地址和网页摘要文本。例如第一条搜索结果,包括网页地址qiye.abc.com,以及对该网页摘要文本“登录入口_ABC邮箱企业版官方”。
基于此,待识别词语与每个网页摘要文本的匹配情况,可以表征该待识别词语是否可以作为复合词。例如,可以作为复合词的待识别词语具有确定的语义,该复合词可能被其他网页内容,或者是有一些搜索引擎的用户在搜索引擎中搜索过,或者是搜索引擎服务器的词库中收录有该复合词,则可以作为复合词的待识别词语将会在搜索结果中出现。对于待识别词语不可作为复合词的情况,该待识别词语可能未具有确定的语义,或者是较少搜索引擎的用户搜索过、未出现在其他网页内容中等,则搜索结果中的网页摘要文本中出现该待识别词语的概率较低。
可以通过多种方式识别待识别词语是否包含于每条搜索结果对应的网页信息文本中。例如,图2B所示实施例中,待识别词语“ABC邮箱”,包含在第一条搜索结果的网页摘要文本“登录入口_ABC邮箱企业版官方”中。第二条搜索结果和第三条搜索结果也是如此。
而第四条搜索结果的网页描述文本“ABC邮箱登录入口”中未包括该待识别词语,“ABC邮箱”包括的两个语素“ABC”和“邮箱”,分别位于网页描述文本中不连续的位置。
对于网页信息文本为网页内容的情况也可以采用上述方式实现。例如,可以获取网页信息文本中的每个字符,以及获取待识别词语中的每个字符,将待识别词语中的每个字符与网页信息文本的字符进行匹配。例如,将待识别词语中的每个字符作为一个按序的字符序列,网页信息文本的各个字符也作为一个按序的字符序列,将待识别词语的字符序列与网页信息文本的字符序列匹配,从而识别待识别词语是否包含于网页信息文本中。
由上述实施例可见,搜索结果中通常包括网页地址以及对该网页的网页摘要文本;采用网页内容的方式,需要利用网页地址访问网页读取网页内容,再将待识别词语与网页内容进行匹配;而采用网页摘要文本进行匹配的方式,由于搜索引擎返回的搜索结果就包括了网页摘要文本,因此可以直接将待识别词语与网页摘要文本进行匹配;相对于网页内容的方式,匹配的过程相对更快速高效。
实际应用中,获取包含所述待识别词语的搜索结果的数量可以有多种实现方式。例如,以网页信息文本为网页内容为例,可以是搜索结果对应的网页内容包含该待识别词语,则确定该搜索结果包含待识别词语。以网页信息文本为网页摘要文本为例,可以是搜索结果对应的网页摘要文本包含该待识别词语,则认为搜索结果包含待识别词语。基于此,可以确定各条搜索结果是否包含待识别词语,进而确定包含所述待识别词语的搜索结果的数量。
在一些例子中,可以判断包含所述待识别词语的搜索结果的数量是否大于预设数量阈值,至少根据判断结果确定所述待识别词语是否为复合词。例如,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,可以包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值,则确定所述待识别词语为复合词;或者,
若所述待识别词语的搜索结果的数量小于或等于所述预设数量阈值,则确定所述待识别词语不是复合词。
其中预设数量阈值可以根据需要灵活配置,本实施例对此不进行限定。本实施例可以仅从数量的维度考虑,若包含所述待识别词语的搜索结果的数量大于预设数量阈值,确定所述待识别词语为复合词,若小于或等于预设数量阈值,确定所述待识别词语不是复合词。基于此,可以快速地对待识别词语是否为复合词进行判定。
在另一些例子中,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,可以包括:
根据包含所述待识别词语的搜索结果的数量以及包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词。
本实施例中,除了数量的维度,还可以考虑包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序的维度,来判定待识别词语是否为复合词。一些搜索引擎可能基于多种因素来考虑搜索结果的排序,例如,包含所述待识别词语的各个搜索结果在所述多条搜索结果中排名靠前,则该待识别词语被使用的频率越大,该词语是复合词的概率越大。本实施例基于数量和排序的维度,可以准确地确定待识别词语是否为复合词。
在一些例子中,所述根据包含所述待识别词语的网页信息的数量以及包含所述待识别词语的搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词,包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值、且包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序满足预设排序条件,确定所述待识别词语为复合词;
若包含所述待识别词语的搜索结果的数量小于或等于预设数量阈值,和/或,包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序不满足预设排序条件,则确定所述待识别词语不是复合词。
本实施例的预设数量阈值和预设排序条件可以根据需要灵活配置,本实施例对此不进行限定。其中,预设排序条件可以是针对包含所述待识别词语的部分或全部搜索结果在所述多条搜索结果中的排序;例如,包含待识别词语的搜索结果有k个,预设排序条件可以是表征全部k个搜索结果的排序的条件,也可以是考虑k个中部分搜索结果的排序的条件,例如可以针对k个中排序最高的搜索结果的条件,也可以针对k个中排序最低的搜索结果的条件等等。
示例性的,若包含所述待识别词语的搜索结果的数量大于m,且包含所述待识别词语的各个搜索结果,在所述多条搜索结果中的排序均不低于第n名,则确定所述待识别词语为复合词,否则确定所述待识别词语不是复合词;其中,m和n均可以根据需要确定,本实施例不进行限定。
在一些例子中,所述方法还可包括:
若确定所述待识别词语为复合词,将所述待识别词语存储至词库;
若确定所述待识别词语不是复合词,将所述待识别词语发送至客户端进行展示,以使用户校验所述待识别词语。
本实施例中,若利用搜索结果确定待识别词语为复合词,可以将该词语存储至词库中作为一个复合词,从而快速自动地实现词库的更新。若确定待识别词语不是复合词,可以将待识别词语发送至客户端进行展示,以使用户通过所述客户端校验所述待识别词语,从而可以进一步结合人工审核,以校验待识别词语是否可以作为复合词。
在一些例子中,待识别词语有多个,根据需要可以实现向搜索引擎服务器批量搜索多个待识别词语。在一些例子中,搜索引擎服务器可以有多个,可以是针对每个待识别词语,向每个搜索引擎服务器均发起搜索请求,即一个待识别词语可以向两个或以上个搜索引擎服务器发起搜索请求。也可以是针对多个待识别词语,向不同搜索引擎服务器发起对不同待识别词语的搜索请求。
示例性的,可以将多个所述待识别词语进行分组,向不同搜索引擎服务器发起对不同组待识别词语的搜索请求。例如,根据设定分组规则将多个待识别词语分组,每组待识别词语的数量可以相同或不同,各组待识别词语向不同的搜索引擎服务器发起搜索请求。为了防止对搜索引擎服务器造成干扰,还可以多个搜索引擎服务器按照设定周期轮流发起搜索请求,例如,将多个搜索引擎服务器排序,对第一个搜索引擎服务器发起一个或多个搜索请求后,向第二个搜索引擎服务器发起一个或多个搜索请求,以此类推。
示例性的,在一个待识别词语向至少两个搜索引擎服务器请求搜索结果的情况下,可以利用搜索引擎服务器分别返回的搜索结果,综合确定待识别词语是否为复合词;确定是否为复合词的条件可以根据需要进行确定,例如,可以是分别基于每个搜索引擎服务器的搜索结果分别确定是否为复合词,之后再综合进一步确定是否为复合词;也可以是将各个搜索引擎服务器的搜索结果融合后再确定是否为复合词。
在其他例子中,还可以根据待识别词语的类型以及搜索引擎服务器的特点确定对应的搜索引擎服务器。示例性的,可以获取所述待识别词语包括的至少两个语素,根据所述待识别词语的各个语素的语种,从所述多个搜索引擎服务器中确定适配于所述待识别词语的目标搜索引擎,向所述目标搜索引擎服务器发起对所述待识别词语的搜索请求。例如,可以根据待识别词语的语种以及搜索引擎服务器的能力确定,实际应用中根据需要可以灵活配置,本实施例对此不进行限定。
示例性的,待识别词语中包括至少两个语素,至少两个语素可能涉及不同的语种,根据需要可以将该待识别词语向两个或以上搜索引擎服务器发起搜索请求,并通过两个搜索引擎服务器分别返回的搜索结果,综合确定待识别词语是否为复合词。
在其他例子中,为了提升搜索效率,所述向一个或多个搜索引擎服务器发起对所述待识别词语的搜索请求,可以包括:由多个设备分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求;其中,各个所述设备的IP地址不同。其中,设备数量可以根据需要灵活配置。每个设备可以获取一个或多个待识别词语,各个设备所获取的待识别词语的数量不限定是否相同;各个设备所获取的待识别词语也不限定是否相同,例如,可以多个待识别词语分配给各个设备,每个设备获取的部分待识别词语都不同;当然,多个设备之间获取到相同的待识别词语也是可选的。每个设备所请求的搜索引擎个数可以是一个或多个,各个设备所请求的搜索引擎个数也不限定是否相同。各个设备采用不同的IP地址,基于此,多个待识别词语可以分配给多个设备分别进行搜索,多个设备可以采用并行的方式发起请求,从而提升搜索效率。其中,本实施例的方法可以由所述各个设备中的任一执行,也可以是其他设备执行,由该其他设备获取所述多个设备的搜索结果,并执行后续确定是否为复合词的流程。
在另一些例子中,所述待识别词语有多个;所述在搜索引擎中搜索所述待识别词语,可以包括:由多个虚拟机分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求。其中,虚拟机(Virtual Machine)指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。在实体计算机中能够完成的工作在虚拟机中都能够实现。在计算机中创建虚拟机时,需要将实体机的部分硬盘和内存容量作为虚拟机的硬盘和内存容量,可以像使用实体机一样对虚拟机进行操作。本实施例中,虚拟机的数量可以根据需要灵活配置,各个虚拟机所获取的待识别词语的数量不限定是否相同;各个虚拟机所获取的待识别词语也不限定是否相同。每个虚拟机所请求的搜索引擎个数可以是一个或多个,各个虚拟机所请求的搜索引擎个数也不限定是否相同。一个计算机设备可以运行多个虚拟机,因此采用多个虚拟机的方式可以减少硬件资源的投入,同时多个虚拟机可以同时运行,实现并行的搜索,提升搜索效率。
以网站场景为例,为了生成聚合页,可以获取需识别复合词的网站的各个网页的网页内容,例如网页中的标题或正文等。对网页内容进行NLP处理,例如识别所述网页内容中的多个语素;确定所述多个语素中至少两个语素组合出的词语是否存储于预设词库中,将未存储于所述预设词库的词语确定为待识别词语。之后对待识别词语识别是否为复合词。若利用搜索结果确定待识别词语为复合词,可以将该词语存储至词库中作为一个复合词,从而快速自动地实现词库的更新。若确定待识别词语不是复合词,还可以人工校验,确定是否加入至词库中。
基于此,建立有网站中各个网页的词库后,根据需要可以生成知识图谱,根据词库或知识图谱生成聚合页,从而可以优化网站的站外搜索。或者,词库也可以用于网站的站内搜索,当用户在站内搜索关键词时,可以利用建立好的词库进行搜索查询。
本实施例的搜索引擎是被配置用于搜索一组信息资源的软件(可执行指令和数据)。执行搜索引擎的计算机生成针对向搜索引擎提交的查询的搜索结果。
搜索引擎通常在服务器(即搜索引擎服务器)上运行。服务器是集成软件组件(包括数据) 和诸如在计算机上用于执行集成软件组件的存储器、节点和处理器之类的计算资源的分配的组合,在服务器上,软件和计算资源的组合专用于特别的功能。在搜索引擎服务器的情况中,服务器专用于搜索一组信息资源。
搜索引擎在因特网、万维网以及其它大型内部网络和信息资源网络中被广泛使用。通常,搜索引擎可作为网站在服务器上被访问。
由搜索引擎搜索出的信息资源的集合通常可称为文档(document)。文档是可通过搜索引擎索引来索引的任何信息单元。搜索引擎索引在下面描述。通常,文档是可以包含无格式的或带格式的文本、行内图形(inline graphic)和其它多媒体数据以及对其它文档的超级链接。文档可以是静态或者动态生成的。
搜索引擎使用一个或多个搜索引擎索引来搜索信息,搜索引擎索引在这里也被简单称为索引。更具体地,搜索引擎索引可以利用爬虫的处理自动创建并维护。爬虫在因特网中持续地探索信息。爬虫可以检索(例如,获取、下载)网络资源(例如,页面),保存原始形式的页面或其它资源,识别和提取到其它资源或网页的链接等等。从而使得这些资源/页面能够被搜索引擎检索到。
利用爬虫检索的资源/页面提取的内容可以建立索引。在搜索索引时,资源/页面的内容可以被索引(例如,语义索引、概念索引等等)并且存储在数据库中。搜索引擎响应于搜索查询时,即是在数据库中利用索引进行实际搜索。
在一种配置中,用于搜索引擎的软件可以被配置用于搜索一组资源,而在另一种配置中被配置用于搜索另一组资源。这样的配置中的每一种配置被认为是不同的搜索引擎。
垂直搜索引擎是使用用于索引被限制于特定域或特定主题的文档的索引的引擎。例如可以通过将爬虫配置为搜索特定位置的方式来限定垂直搜索引擎。例如,针对食谱的用于垂直搜索引擎的爬虫可以被配置为搜索保持有食谱文档的站点和/或位置。
由搜索引擎生成的搜索结果包括文档的列表并且可以包含关于文档的概要信息。文档的列表可以被排序。为了对文档的列表进行排序,搜索引擎可以为列表中的每个文档分配排名。当列表通过排名而被排序时,具有相对较高排名的文档与具有相对较低排名的文档相比可能被置为离列表的头部更近。搜索引擎可以根据对搜索查询的相关性来对文档排名。相关性表示的是文档的主题与搜索查询关键词的匹配程度。
与前述识别复合词方法的实施例相对应,本说明书还提供了识别复合词的装置及其所应用的计算机设备的实施例。
本说明书识别复合词装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书识别复合词的装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外,实施例中识别复合词的装置331所在的计算机设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
如图4所示,图4是本说明书根据一示例性实施例示出的一种识别复合词装置的框图,所述装置包括:
获取模块41,用于:获取待识别词语;
搜索模块42,用于:向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别模块43,用于:识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
在一些例子中,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值,则确定所述待识别词语为复合词;或者,
若所述待识别词语的搜索结果的数量小于或等于所述预设数量阈值,则确定所述待识别词语不是复合词。
在一些例子中,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,包括:
根据包含所述待识别词语的搜索结果的数量以及包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词。
在一些例子中,所述根据包含所述待识别词语的搜索结果的数量以及包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词,包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值、且包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序满足预设排名条件,确定所述待识别词语为复合词;
若包含所述待识别词语的搜索结果的数量小于或等于预设数量阈值,和/或,包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序不满足预设排序条件,则确定所述待识别词语不是复合词。
在一些例子中,所述识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,包括:
获取每条所述搜索结果对应的网页摘要文本,识别每条所述搜索结果对应的网页摘要文本中是否包含所述待识别词语。
在一些例子中,所述获取待识别词语,包括:
获取需识别复合词的网站中各个网页的网页内容,识别所述网页内容中的多个语素;
确定所述多个语素中至少两个语素组合出的词语是否存储于预设词库中,将未存储于所述预设词库的词语确定为待识别词语。
在一些例子中,所述待识别词语有多个,所述搜索引擎有多个;所述向一个或多个搜索引擎服务器发起对所述待识别词语的搜索请求,包括如下的至少一种方式:
获取所述待识别词语包括的至少两个语素,根据所述待识别词语的各个语素的语种,从所述多个搜索引擎服务器中确定适配于所述待识别词语的目标搜索引擎,向所述目标搜索引擎服务器发起对所述待识别词语的搜索请求;
将多个所述待识别词语进行分组,向不同搜索引擎服务器发起对不同组待识别词语的搜索请求;
由多个设备分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求;其中,各个所述设备的IP地址不同;
由多个虚拟机分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求。
在一些例子中,所述方法还包括:
若确定所述待识别词语为复合词,将所述待识别词语存储至词库;
若确定所述待识别词语不是复合词,将所述待识别词语发送至客户端进行展示,以使用户校验所述待识别词语。
上述识别复合词的装置中各个模块的功能和作用的实现过程具体详见上述识别复合词的方法中对应步骤的实现过程,在此不再赘述。
相应的,本说明书实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现前述识别复合词方法实施例的步骤。
相应的,本说明书实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现识别复合词方法实施例的步骤。
相应的,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现识别复合词方法实施例的步骤。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例可以应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,所述电子设备的硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(DigitalSignal Processor, DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该申请的保护范围内。
其中,“具体示例”、或“一些示例”等的描述意指结合所述实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (11)

1.一种识别复合词的方法,包括:
获取待识别词语;
向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
2.根据权利要求1所述的方法,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值,则确定所述待识别词语为复合词;或者,
若所述待识别词语的搜索结果的数量小于或等于所述预设数量阈值,则确定所述待识别词语不是复合词。
3.根据权利要求1或2所述的方法,所述根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词,包括:
根据包含所述待识别词语的搜索结果的数量以及包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词。
4.根据权利要求3所述的方法,所述根据包含所述待识别词语的搜索结果的数量以及包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序,确定所述待识别词语是否为复合词,包括:
若包含所述待识别词语的搜索结果的数量大于预设数量阈值、且包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序满足预设排序条件,确定所述待识别词语为复合词;
若包含所述待识别词语的搜索结果的数量小于或等于预设数量阈值,和/或,包含所述待识别词语的各个搜索结果在所述多条搜索结果中的排序不满足预设排序条件,则确定所述待识别词语不是复合词。
5.根据权利要求1所述的方法,所述识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,包括:
获取每条所述搜索结果对应的网页摘要文本,识别每条所述搜索结果对应的网页摘要文本中是否包含所述待识别词语。
6.根据权利要求1所述的方法,所述获取待识别词语,包括:
获取需识别复合词的网站中各个网页的网页内容,识别所述网页内容中的多个语素;
确定所述多个语素中至少两个语素组合出的词语是否存储于预设词库中,将未存储于所述预设词库的词语确定为待识别词语。
7.根据权利要求1所述的方法,所述待识别词语有多个,所述搜索引擎有多个;所述向搜索引擎服务器发起对所述待识别词语的搜索请求,包括如下的至少一种方式:
获取所述待识别词语包括的至少两个语素,根据所述待识别词语的各个语素的语种,从所述多个搜索引擎服务器中确定适配于所述待识别词语的目标搜索引擎,向所述目标搜索引擎服务器发起对所述待识别词语的搜索请求;
将多个所述待识别词语进行分组,向不同搜索引擎服务器发起对不同组待识别词语的搜索请求;
由多个设备分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求;其中,各个所述设备的IP地址不同;
由多个虚拟机分别获取所述多个待识别词语中的部分待识别词语,并分别向一个或多个搜索引擎服务器发起对获取的部分待识别词语的搜索请求。
8.根据权利要求1所述的方法,所述方法还包括:
若确定所述待识别词语为复合词,将所述待识别词语存储至词库;
若确定所述待识别词语不是复合词,将所述待识别词语发送至客户端进行展示,以使用户校验所述待识别词语。
9.一种识别复合词的装置,所述装置包括:
获取模块,用于:获取待识别词语;
搜索模块,用于:向搜索引擎服务器发起对所述待识别词语的搜索请求,获取所述搜索引擎服务器返回的多条搜索结果;
识别模块,用于:识别每条搜索结果对应的网页信息文本中是否包含所述待识别词语,根据包含所述待识别词语的搜索结果的数量,确定所述待识别词语是否为复合词。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现权利要求1至8任一所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。
CN202211139840.7A 2022-09-19 2022-09-19 识别复合词的方法、装置、设备及存储介质 Pending CN115496065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211139840.7A CN115496065A (zh) 2022-09-19 2022-09-19 识别复合词的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211139840.7A CN115496065A (zh) 2022-09-19 2022-09-19 识别复合词的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115496065A true CN115496065A (zh) 2022-12-20

Family

ID=84471352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211139840.7A Pending CN115496065A (zh) 2022-09-19 2022-09-19 识别复合词的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115496065A (zh)

Similar Documents

Publication Publication Date Title
Cambazoglu et al. Scalability challenges in web search engines
CA2732733C (en) Providing posts to discussion threads in response to a search query
US10176227B2 (en) Managing a search
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
CA2790421C (en) Indexing and searching employing virtual documents
US20140032529A1 (en) Information resource identification system
US8984414B2 (en) Function extension for browsers or documents
CN105095231A (zh) 一种呈现搜索结果的方法和装置
US10810181B2 (en) Refining structured data indexes
US11768905B2 (en) System and computer program product for creating and processing URLs
US20130031080A1 (en) Surfacing actions from social data
US20110131211A1 (en) Methods and systems for visualizing topic location in a document redundancy graph
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
US9135328B2 (en) Ranking documents through contextual shortcuts
EP3079083A1 (en) Providing app store search results
US11074266B2 (en) Semantic concept discovery over event databases
Liu et al. Visualizing document classification: A search aid for the digital library
CN111177518A (zh) 网页净化方法、系统及计算机可读存储介质
US20220382824A1 (en) Browser search management
US10546029B2 (en) Method and system of recursive search process of selectable web-page elements of composite web page elements with an annotating proxy server
CN115496065A (zh) 识别复合词的方法、装置、设备及存储介质
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
US20200192949A1 (en) Method and system for generating an object card
Krishna et al. Mining Web Graphs for Large Scale Meta Search Engine Results

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination