CN111666417B - 生成同义词的方法、装置、电子设备以及可读存储介质 - Google Patents
生成同义词的方法、装置、电子设备以及可读存储介质 Download PDFInfo
- Publication number
- CN111666417B CN111666417B CN202010286745.4A CN202010286745A CN111666417B CN 111666417 B CN111666417 B CN 111666417B CN 202010286745 A CN202010286745 A CN 202010286745A CN 111666417 B CN111666417 B CN 111666417B
- Authority
- CN
- China
- Prior art keywords
- search result
- result page
- words
- synonym
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012216 screening Methods 0.000 claims description 27
- 238000002372 labelling Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种生成同义词的方法、装置、电子设备以及可读存储介质,涉及搜索技术领域。本申请在生成同义词时所采用的实现方案为:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及搜索技术领域中的一种生成同义词的方法、装置、电子设备以及可读存储介质。
背景技术
在当前的搜索场景下,当用户输入实体词进行搜索时,通常会使用与实体词对应的同义词来替换所输入的实体词进行搜索,从而获取更为丰富的搜索结果。因此,与实体词对应的同义词在搜索中占据着重要的位置。
而现有技术在进行同义词的生成时,通常采用将语料库中的文本数据进行切词之后,通过计算词语之间词向量的相似度来生成同义词,但该方法所生成的同义词的准确性较差,且无法确保所生成的同义词与实体词具有相似的搜索需求,从而降低用户对于搜索结果的满意程度。
发明内容
本申请为解决技术问题所采用的技术方案是提供一种生成同义词的方法,包括:获取待处理实体词及其对应的第一搜索结果页;确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。
本申请为解决技术问题所采用的技术方案是提供一种生成同义词的装置,包括:获取单元,用于获取待处理实体词及其对应的第一搜索结果页;处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;生成单元,用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请能够确保所生成的同义词与实体词具有相似的搜索需求,从而提升同义词生成的准确性。因为采用了通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词的技术手段,所以克服了现有技术中仅通过词语之间词向量的相似度来生成同义词所导致的准确性较低、所生成的同义词与实体词具有不同的搜索需求的技术问题,从而实现确保所生成的同义词与实体词具有相似的搜索需求,提升同义词生成的准确性的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是用来实现本申请实施例的生成同义词的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的生成同义词的方法,具体可以包括如下步骤:
S101、获取待处理实体词及其对应的第一搜索结果页;
S102、确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
S103、选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
本实施例的生成同义词的方法,能够根据所获取的待处理实体词及其对应的第一搜索结果页,来自动地生成与待处理实体词对应的同义词,进而实现在用户输入待处理实体词之后使用与其对应的同义词来进行搜索,从而获取更为丰富且准确的搜索结果的目的。
本实施例中的待处理实体词包括人名、地名、机构名、产品名、影视名、专有名词等具有特定意义的词语。本实施例中的S101在获取待处理实体词时,可以将用户实时输入的词语作为待处理实体词,还可以获取预先存储在数据库中的词语作为待处理实体词。
本实施例中的与待处理实体词对应的第一搜索结果页,即为将待处理实体词作为搜索请求进行搜索之后所获取的搜索结果页面。本实施例中的S101在获取与待处理实体词对应的第一搜索结果页时,可以通过对待处理实体词进行实时搜索来获取,还可以根据搜索日志记录来获取。
另外,本实施例在获取与待处理实体词对应的第一搜索结果页时,可以将预设数量的搜索结果页面作为第一搜索结果页,其中预设数量可以为一页,例如搜索结果首页,也可以为多页。本实施例对与待处理实体词对应的第一搜索结果页的数量不进行限定。
本实施例在获取与待处理实体词对应的第一搜索结果页之后,首先确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,然后再获取与所确定的第二搜索结果页对应的查询词query,其中第二搜索结果页即使用所确定的查询词query作为搜索请求来获取的搜索结果页面。
因此,本实施例通过确定与待处理实体词具有相似的搜索结果页的查询词query,确保了从查询词query中所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升了在使用同义词进行搜索时获取搜索结果的召回率。
具体地,本实施例在执行S102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页时,可以采用以下方式:确定第一搜索结果页中包含的URL(UniformResource Locator,统一资源定位符),各URL即为搜索结果页面中对应各搜索结果的网页地址;获取历史搜索结果页,并确定所获取的历史搜索结果页中包含的URL,其中可以通过搜索日志记录来获取历史搜索结果页;通过所确定的URL,将第一搜索结果页与历史搜索结果页进行比较;根据比较结果,从历史搜索结果页中选取与第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为第二搜索结果页。
因此,本实施例通过搜索结果页中包含的URL,来确定与第一搜索结果页相似的第二搜索结果页,使得第二搜索结果页与第一搜索结果页中包含的搜索结果尽可能相似,从而进一步确保了所获取的查询词query与待处理实体词具有相似的搜索需求。
另外,本实施例在执行S102确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果时,除了根据URL之外,还可以根据搜索结果的标题,选取与第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的历史搜索结果页作为第二搜索结果页。
由于搜索日志记录中会存储有用户每次进行搜索时所使用的查询词query及其对应的搜索结果页,因此本实施例根据查询词query与搜索结果页之间的对应关系,能够获取与第二搜索结果页对应的查询词query。另外,本实施例所获取的查询词query可以有多个,也可以有一个,本实施例对查询词query的数量不进行限定。
本实施例在获取与第二搜索结果页对应的查询词query之后,从查询词query中选取满足第二预设条件的词语,将所选取的词语作为与待处理实体词对应的同义词。
其中,本实施例在执行S103选取查询词query中满足第二预设条件的词语时,可以采用以下方式:将查询词query进行切词,获取查询词query的切词结果;计算切词结果中各词语与待处理实体词之间的相似度,选取与待处理实体词具有最大相似度的词语,其中可以计算词语与待处理实体词之间的雅克比相似度。因此,本实施例通过选取与待处理实体词相似度最大的词语,能够提升同义词生成的准确性。
另外,本实施例中的第二预设条件还可以为选取查询词query中热度最高的词语、选取查询词query中预设词性的词语等。
本实施例的生成同义词的方法,通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词,能够克服现有技术的不足,通过搜索结果来建立待处理实体词与同义词之间的关系,使得所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升同义词生成的准确性。
图2是根据本申请第二实施例的示意图。如图2中所示,本实施例的生成同义词的方法,具体可以包括如下步骤:
S201、获取待处理实体词及其对应的第一搜索结果页;
S202、确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
S203、选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;
本实施例在从查询词query中选取满足第二预设条件的词语之后,将所选取的词语作为候选词语,从而与待处理实体词构成同义词候选对,即本实施例将所选取的词语作为待处理实体词的候选同义词。
S204、提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选,将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。
本实施例在将候选词语与待处理实体词构成同义词候选对之后,首先提取各同义词候选对的预设特征,然后根据所提取的预设特征对各同义词候选对进行筛选,最后将筛选之后的同义词候选对中的候选词语,作为对应待处理实体词的同义词。
也就是说,本实施例将从查询词query中所选取的词语进行二次筛选,能够避免由于获取了错误的查询词query所导致的候选词语与待处理实体词不具有同义关系的问题,进一步提升了同义词生成的准确性。
本实施例中的同义词候选对的预设特征,包括同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种,其中词语本身特征包括词语的读音、语义等,搜索结果特征包括两个词语对应的搜索结果页中相同URL的展现位置、相同URL的标题等。
具体地,本实施例在提取同义词候选对的预设特征来筛选同义词候选对时,可以采用以下方式:从所构成的同义词候选对中选取预设数量的同义词候选对进行标注,其中标注结果用于表示该同义词候选对中的待处理实体词与候选词语是否同义,例如标注结果为1表示同义,标注结果为0则表示不同义;将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;将全部同义词候选对的预设特征分别输入同义标注模型,根据同义标注模型的输出结果来对各同义词候选对进行筛选,例如将输出结果小于预设阈值的同义词候选对进行过滤。其中,本实施例中的分类模型可以为随机森林模型、支持向量机等。
可以理解的是,本实施例也可以通过预先训练得到的同义标注模型来进行同义词候选对的筛选;还可以通过人工来设置筛选规则,从而将预设特征不满足筛选规则的同义词候选对进行过滤,其中人工设置的筛选规则可以为两个词语的读音相近、两个词语的语义相似、两个词语的搜索结果页中相同URL的展现位置相同等。
本实施例的生成同义词的方法,在从查询词query中选取了候选词语之后,首先提取由候选词语与待处理实体词所构成同义词候选对的预设特征,然后根据所提取的预设特征进行同义词候选对的筛选,从而确保了所得到的同义词与待处理实体词之间存在准确的同义关系,进一步提升了同义词生成的准确性。
图3是根据本申请第三实施例的示意图。如图3中所示,本实施例的生成同义词的装置,包括:
获取单元301、用于获取待处理实体词及其对应的第一搜索结果页;
处理单元302、用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
生成单元303、用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
本实施例中的获取单元301获取的待处理实体词包括人名、地名、机构名、产品名、影视名、专有名词等具有特定意义的词语。本实施例中的获取单元301在获取待处理实体词时,可以将用户实时输入的词语作为待处理实体词,还可以获取预先存储在数据库中的词语作为待处理实体词。
本实施例中的获取单元301获取的与待处理实体词对应的第一搜索结果页,即为将待处理实体词作为搜索请求进行搜索之后所获取的搜索结果页面。本实施例中的获取单元301在获取与待处理实体词对应的第一搜索结果页时,可以通过对待处理实体词进行实时搜索来获取,还可以根据搜索日志记录来获取。
另外,本实施例中的获取单元301在获取与待处理实体词对应的第一搜索结果页时,可以将预设数量的搜索结果页面作为第一搜索结果页,其中预设数量可以为一页,例如搜索结果首页,也可以为多页。本实施例对与待处理实体词对应的第一搜索结果页的数量不进行限定。
本实施例中的获取单元301在获取了与待处理实体词对应的第一搜索结果页之后,由处理单元302首先确定与第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,然后再获取与所确定的第二搜索结果页对应的查询词query,其中第二搜索结果页即为使用所确定的查询词query作为搜索请求而获取的搜索结果页面。
也就是说,本实施例中的处理单元302通过确定与待处理实体词具有相似的搜索结果页的查询词query,从而确保了从查询词query中所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升了在使用同义词进行搜索时获取搜索结果的召回率。
具体地,本实施例中的处理单元302在确定与第一搜索结果页相似的第二搜索结果页时,可以采用以下方式:确定第一搜索结果页中包含的URL;获取历史搜索结果页,并确定所获取的历史搜索结果页中包含的URL,其中可以通过搜索日志记录来获取历史搜索结果页;通过所确定的URL,将第一搜索结果页与历史搜索结果页进行比较;根据比较结果,从历史搜索结果页中选取与第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为第二搜索结果页。
也就是说,本实施例中的处理单元302通过搜索结果页中包含的URL,来确定与第一搜索结果页相似的第二搜索结果页,使得第二搜索结果页与第一搜索结果页中包含的搜索结果尽可能相似,从而进一步确保了所获取的查询词query与待处理实体词具有相似的搜索需求。
另外,本实施例中的处理单元302在确定与第一搜索结果页相似的第二搜索结果页时,除了根据URL之外,还可以根据搜索结果标题,来选取与第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的历史搜索结果页作为第二搜索结果页。
由于搜索日志记录中会存储有用户每次进行搜索时所使用的查询词query及其对应的搜索结果页,因此本实施例中的处理单元302根据查询词query与搜索结果页之间的对应关系,能够获取与第二搜索结果页对应的查询词query。另外,本实施例中处理单元302所获取的查询词query可以有多个,也可以有一个,本实施例对查询词query的数量不进行限定。
本实施例中的处理单元302在获取了与第二搜索结果页对应的查询词query之后,由生成单元303选取查询词query中满足第二预设条件的词语,作为与待处理实体词对应的同义词。
其中,本实施例中的生成单元303在选取查询词query中满足第二预设条件的词语时,可以采用以下方式:将查询词query进行切词,获取查询词query的切词结果;计算切词结果中各词语与待处理实体词之间的相似度,选取与待处理实体词具有最大相似度的词语,其中可以计算词语与待处理实体词之间的雅克比相似度。因此,本实施例中的生成单元303通过选取与待处理实体词具有最大相似度的词语,能够提升同义词生成的准确性。
另外,本实施例中的生成单元303还可以选取查询词query中热度最高的词语、选取查询词query中预设词性的词语等。
本实施例中的生成单元303在选取查询词query中满足第二预设条件的词语,作为对应待处理实体词的同义词时,还可以采用以下方式:选取查询词query中满足第二预设条件的词语作为候选词语,将候选词语与待处理实体词构成同义词候选对;提取同义词候选对的预设特征,进行同义词候选对的筛选,将筛选之后的同义词候选对中的候选词语,作为对应待处理实体词的同义词。
本实施例中的生成单元303提取的同义词候选对的预设特征,包括同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种,其中词语本身特征包括词语的读音、语义等,搜索结果特征包括两个词语对应的搜索结果页中相同URL的展现位置、相同URL的标题等。
具体地,本实施例中的生成单元303在提取同义词候选对的预设特征来筛选同义词候选对时,可以采用以下方式:从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;将全部同义词候选对的预设特征分别输入同义标注模型,根据同义标注模型的输出结果来对各同义词候选对进行筛选。
可以理解的是,本实施例中的生成单元303也可以通过预先训练得到的同义标注模型来进行同义词候选对的筛选;还可以通过人工来设置筛选规则,从而将预设特征不满足筛选规则的同义词候选对进行过滤。
根据本申请的实施例,本申请还提供了一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。
如图4所示,是根据本申请实施例的生成同义词的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的生成同义词的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的生成同义词的方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的生成同义词的方法对应的程序指令/模块(例如,附图3所示的获取单元301、处理单元302以及生成单元303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的生成同义词的方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至生成同义词的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
生成同义词的方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与生成同义词的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过与待处理实体词对应的第一搜索结果页来获取查询词query,然后选取查询词query中满足第二预设条件的词语作为待处理实体词的同义词,能够克服现有技术的不足,通过搜索结果来建立待处理实体词与同义词之间的关系,使得所获取的同义词与待处理实体词具有相似的搜索需求,进一步提升同义词生成的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种生成同义词的方法,其特征在于,包括:
获取待处理实体词及其对应的第一搜索结果页,所述第一搜索结果页为将所述待处理实体词作为搜索请求进行实时搜索之后获取的搜索结果页面;
确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的统一资源定位符URL;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的URL;
根据所确定的URL,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页包括:
确定所述第一搜索结果页中包含的搜索结果的标题;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的搜索结果的标题;
根据所确定的搜索结果的标题,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
4.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语包括:
将所述查询词query进行切词,获取切词结果;
计算所述切词结果中的各词语与所述待处理实体词之间的相似度,选取与所述待处理实体词具有最大相似度的词语。
5.根据权利要求1所述的方法,其特征在于,所述选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词包括:
选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;
提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选;
将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。
6.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征包括:
提取所述同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种。
7.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;
将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;
将全部同义词候选对的预设特征分别输入所述同义标注模型,根据所述同义标注模型的输出结果,来筛选各同义词候选对。
8.根据权利要求5所述的方法,其特征在于,所述提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选包括:
获取预先设置的筛选规则;
根据所提取的预设特征,将不满足所述筛选规则的同义词候选对进行过滤。
9.一种生成同义词的装置,其特征在于,包括:
获取单元,用于获取待处理实体词及其对应的第一搜索结果页,所述第一搜索结果页为将所述待处理实体词作为搜索请求进行实时搜索之后获取的搜索结果页面;
处理单元,用于确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页,并获取与所述第二搜索结果页对应的查询词query;
生成单元,用于选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词。
10.根据权利要求9所述的装置,其特征在于,所述处理单元在确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页时,具体执行:
确定所述第一搜索结果页中包含的统一资源定位符URL;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的URL;
根据所确定的URL,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同URL的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
11.根据权利要求9所述的装置,其特征在于,所述处理单元在确定与所述第一搜索结果页的相似度满足第一预设条件的第二搜索结果页时,具体执行:
确定所述第一搜索结果页中包含的搜索结果的标题;
获取历史搜索结果页,并确定所述历史搜索结果页中包含的搜索结果的标题;
根据所确定的搜索结果的标题,从所述历史搜索结果页中选取与所述第一搜索结果页具有相同标题的搜索结果的数量超过预设阈值的搜索结果页,作为所述第二搜索结果页。
12.根据权利要求9所述的装置,其特征在于,所述生成单元在选取所述查询词query中满足第二预设条件的词语时,具体执行:
将所述查询词query进行切词,获取切词结果;
计算所述切词结果中的各词语与所述待处理实体词之间的相似度,选取与所述待处理实体词具有最大相似度的词语。
13.根据权利要求9所述的装置,其特征在于,所述生成单元在选取所述查询词query中满足第二预设条件的词语,作为对应所述待处理实体词的同义词时,具体执行:
选取所述查询词query中满足第二预设条件的词语作为候选词语,将所述候选词语与所述待处理实体词构成同义词候选对;
提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选;
将筛选之后的同义词候选对中的候选词语,作为对应所述待处理实体词的同义词。
14.根据权利要求13所述的装置,所述生成单元在提取所述同义词候选对的预设特征时,具体执行:
提取所述同义词候选对中两个词语的词语本身特征以及两个词语对应的搜索结果特征中的至少一种。
15.根据权利要求13所述的装置,其特征在于,所述生成单元在提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选时,具体执行:
从所构成的同义词候选对中选取预设数量的同义词候选对进行标注;
将所选取的同义词候选对的预设特征作为输入,将对应各同义词候选对的标注结果作为输出,训练分类模型,得到同义标注模型;
将全部同义词候选对的预设特征分别输入所述同义标注模型,根据所述同义标注模型的输出结果,来筛选各同义词候选对。
16.根据权利要求13所述的装置,其特征在于,所述生成单元在提取所述同义词候选对的预设特征,进行所述同义词候选对的筛选时,具体执行:
获取预先设置的筛选规则;
根据将所提取的预设特征,将不满足所述筛选规则的同义词候选对进行过滤。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010286745.4A CN111666417B (zh) | 2020-04-13 | 2020-04-13 | 生成同义词的方法、装置、电子设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010286745.4A CN111666417B (zh) | 2020-04-13 | 2020-04-13 | 生成同义词的方法、装置、电子设备以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666417A CN111666417A (zh) | 2020-09-15 |
CN111666417B true CN111666417B (zh) | 2023-06-23 |
Family
ID=72382700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010286745.4A Active CN111666417B (zh) | 2020-04-13 | 2020-04-13 | 生成同义词的方法、装置、电子设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666417B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182348B (zh) * | 2020-11-09 | 2024-03-29 | 百度国际科技(深圳)有限公司 | 语义匹配判定方法、装置、电子设备、计算机可读介质 |
CN112417003A (zh) * | 2020-11-20 | 2021-02-26 | 平安普惠企业管理有限公司 | 基于网络搜索的近义词挖掘方法、装置、设备及存储介质 |
CN113553398B (zh) * | 2021-07-15 | 2024-01-26 | 杭州网易云音乐科技有限公司 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0501416A2 (en) * | 1991-02-28 | 1992-09-02 | Hitachi, Ltd. | Document data processing method and apparatus for document retrieval |
CN101361068A (zh) * | 2005-11-22 | 2009-02-04 | 谷歌公司 | 从用户日志推断搜索类别同义词 |
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN101873335A (zh) * | 2009-04-24 | 2010-10-27 | 同济大学 | 一种跨域语义Web服务的分布式搜索方法 |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102651003A (zh) * | 2011-02-28 | 2012-08-29 | 北京百度网讯科技有限公司 | 一种跨语言搜索的方法和装置 |
CN102722499A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
KR20140009852A (ko) * | 2012-07-13 | 2014-01-23 | 주식회사 다음커뮤니케이션 | 검색 시스템 및 그의 동의어 생성 방법 |
CN104503991A (zh) * | 2014-12-03 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 一种信息搜索方法和装置 |
CN105224555A (zh) * | 2014-06-12 | 2016-01-06 | 北京搜狗科技发展有限公司 | 一种搜索的方法、装置和系统 |
CN105608071A (zh) * | 2015-12-21 | 2016-05-25 | 北京奇虎科技有限公司 | 用于确定中心词的机器学习算法的生成方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2009229679A1 (en) * | 2008-03-24 | 2009-10-01 | Min Soo Kang | Keyword-advertisement method using meta-information related to digital contents and system thereof |
CN103995870A (zh) * | 2014-05-21 | 2014-08-20 | 百度在线网络技术(北京)有限公司 | 交互式搜索方法和装置 |
US10339165B2 (en) * | 2015-02-27 | 2019-07-02 | Walmart Apollo, Llc | System, method, and non-transitory computer-readable storage media for generating synonyms of a search query |
-
2020
- 2020-04-13 CN CN202010286745.4A patent/CN111666417B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0501416A2 (en) * | 1991-02-28 | 1992-09-02 | Hitachi, Ltd. | Document data processing method and apparatus for document retrieval |
CN101361068A (zh) * | 2005-11-22 | 2009-02-04 | 谷歌公司 | 从用户日志推断搜索类别同义词 |
CN101535945A (zh) * | 2006-04-25 | 2009-09-16 | 英孚威尔公司 | 全文查询和搜索系统及其使用方法 |
CN101873335A (zh) * | 2009-04-24 | 2010-10-27 | 同济大学 | 一种跨域语义Web服务的分布式搜索方法 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102651003A (zh) * | 2011-02-28 | 2012-08-29 | 北京百度网讯科技有限公司 | 一种跨语言搜索的方法和装置 |
CN102722499A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
CN103186633A (zh) * | 2011-12-31 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种结构化信息抽取方法、搜索方法和装置 |
KR20140009852A (ko) * | 2012-07-13 | 2014-01-23 | 주식회사 다음커뮤니케이션 | 검색 시스템 및 그의 동의어 생성 방법 |
CN105224555A (zh) * | 2014-06-12 | 2016-01-06 | 北京搜狗科技发展有限公司 | 一种搜索的方法、装置和系统 |
CN104503991A (zh) * | 2014-12-03 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 一种信息搜索方法和装置 |
CN105608071A (zh) * | 2015-12-21 | 2016-05-25 | 北京奇虎科技有限公司 | 用于确定中心词的机器学习算法的生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
"基于文本聚类的垂直搜索引擎系统设计与实现";陈迪阳;《北京工业大学硕士论文》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111666417A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094550B (zh) | 视频检索方法、装置、设备和介质 | |
CN112650907B (zh) | 搜索词的推荐方法、目标模型的训练方法、装置及设备 | |
US10521484B1 (en) | Typeahead using messages of a messaging platform | |
JP2021089739A (ja) | 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体 | |
CN111666417B (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
EP3832484A2 (en) | Semantics processing method, semantics processing apparatus, electronic device, and medium | |
CN106796608B (zh) | 上下文搜索字符串同义词的自动生成 | |
CN111737559B (zh) | 资源排序方法、训练排序模型的方法及对应装置 | |
CN111949814A (zh) | 搜索方法、装置、电子设备和存储介质 | |
CN110717340B (zh) | 推荐方法、装置、电子设备及存储介质 | |
EP3832492A1 (en) | Method and apparatus for recommending voice packet, electronic device, and storage medium | |
KR102601545B1 (ko) | 지리 위치점 정렬 방법, 정렬 모델 트레이닝 방법 및 대응하는 장치 | |
CN111708800A (zh) | 查询方法、装置及电子设备 | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
CN111858880B (zh) | 获取查询结果的方法、装置、电子设备和可读存储介质 | |
CN111090991A (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
CN111460296B (zh) | 用于更新事件集合的方法和装置 | |
CN111291184B (zh) | 表情的推荐方法、装置、设备及存储介质 | |
CN114065765A (zh) | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 | |
CN111984775A (zh) | 问答质量确定方法、装置、设备和存储介质 | |
CN111259058B (zh) | 数据挖掘方法、数据挖掘装置和电子设备 | |
CN111460257B (zh) | 专题生成方法、装置、电子设备和存储介质 | |
CN112148988B (zh) | 用于生成信息的方法、装置、设备以及存储介质 | |
CN111881255B (zh) | 同义文本获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |