CN110704578B - 关联关系确定方法、装置、电子设备及可读存储介质 - Google Patents

关联关系确定方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110704578B
CN110704578B CN201910957640.4A CN201910957640A CN110704578B CN 110704578 B CN110704578 B CN 110704578B CN 201910957640 A CN201910957640 A CN 201910957640A CN 110704578 B CN110704578 B CN 110704578B
Authority
CN
China
Prior art keywords
word
search result
text
keyword
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910957640.4A
Other languages
English (en)
Other versions
CN110704578A (zh
Inventor
张佩晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Second Hand Artificial Intelligence Technology Co ltd
Original Assignee
Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Second Hand Artificial Intelligence Technology Co ltd filed Critical Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority to CN201910957640.4A priority Critical patent/CN110704578B/zh
Publication of CN110704578A publication Critical patent/CN110704578A/zh
Application granted granted Critical
Publication of CN110704578B publication Critical patent/CN110704578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种关联关系确定方法、装置、电子设备及可读存储介质,包括:对目标类型关键词以及目标类型关键词对应的包含词进行搜索,获得包括有目标类型关键词或目标类型关键词对应的包含词的多个搜索结果文本;根据预先存储的多个标签,对多个搜索结果文本中的每个搜索结果文本添加标签;根据标签,将搜索结果文本中属于同一词义的文本内容作为同一词组;对不属于同一类型的任意两个词组,根据两个词组在搜索结果文本中的距离,确定两个词组分别对应的词义是否存在关联关系。根据不同类型的词组在同一搜索结果文本中的距离来判断词组之间是否存在关联关系,改善现有技术无法较好分辨同一文本中的两个类型分别对应的关键词是否存在关联的问题。

Description

关联关系确定方法、装置、电子设备及可读存储介质
技术领域
本申请涉及信息检索领域,具体而言,涉及一种关联关系确定方法、装置、电子设备及可读存储介质。
背景技术
现有技术中,利用Elasticsearch存储文本时,会将文本分成多个关键词,然后以倒排索引的方式来存储该分成多个关键词的文本。这样,用户在使用关键词查询时,可以快捷地找到具有相应关键词的文本。
在某一文本中,若某一关键词只出现在文本开头,另一关键词只出现在文本末尾,则这两个关键词通常不具备关联关系。然而,如果用户使用Elasticsearch进行关键词查询,由于两个关键词出现在同一文本中,因此会被Elasticsearch作为查询结果返回给用户,造成用户误以为两个关键词存在关联关系的情况。
发明内容
本申请实施例的目的在于提供一种关联关系确定方法、装置、电子设备及可读存储介质,用以改善现有技术中容易被用户误认为存在关联关系的问题。
第一方面,本申请实施例提供了一种关联关系确定方法,用于对预先存储的多个类型关键词中的任一个类型关键词进行处理,所述多个类型关键词均属于同一类型,所述方法包括:对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本,其中,所述目标类型关键词以及对应的包含词表征同一词义;根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,其中,所述标签表征对应的文本内容的类型以及词义;根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组;对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系。
在上述的实施方式中,根据不同类型的词组在同一搜索结果文本中的距离来判断词组之间是否存在关联关系,改善了现有技术无法较好分辨同一文本中的两个类型分别对应的关键词是否存在关联的问题。
在一个可能的设计中,所述根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系,包括:若所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离,确定所述两个词组分别对应的两个词义存在关联关系。
在上述的实施方式中,可以将两个词组在搜索结果文本中相距最近的距离与预设距离进行比较,若小于预设距离,则判定上述的两个词组存在关联关系。
在一个可能的设计中,在所述确定所述两个词组分别对应的两个词义存在关联关系之后,所述方法还包括:分别获取所述两个词义的至少一个父层词义;确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
在上述的实施方式中,存在关联关系的词义可能是较为具体且底层的词义,在底层的词义存在关联关系的情况下,若底层的词义存在父层,则一个底层的词义对应的父层词义与另一个底层的词义对应的父层词义也存在关联关系,从而提高了关联关系的适用范围。
在一个可能的设计中,所述根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,包括:对所述多个搜索结果文本中的每个搜索结果文本进行分词处理,得到所述搜索结果文本的多个分词结果;利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配;为匹配成功的分词结果添加对应的标签。
在上述的实施方式中,可以先对搜索结果文本进行分词,得到多个分词结果,然后对每个分词结果分别与标签进行匹配,可能存在分词结果无法匹配到标签,则可跳过该分词结果,继续进行其他分词结果的匹配,直到搜索结果文本中的分词结果全部执行完匹配流程。通过上述的标签添加过程可以兼顾到搜索结果文本中的每个分词结果,避免遗漏。
在一个可能的设计中,所述利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配,包括:获取所述标签对应的目标词义;获取表征所述目标词义的目标关键词或所述目标关键词对应的包含词;若所述目标关键词或所述目标关键词对应的包含词中存在与分词结果相同的词,则确定所述标签与所述分词结果匹配。
在上述的实施方式中,可以先获取标签的词义,然后再获取表征相应词义的目标关键词和包含词,判断目标关键词与包含词中是否存在与分词结果相同的词,若有,则判定目标关键词或包含词表征的词义所对应的标签与分词结果匹配。
在一个可能的设计中,所述方法还包括:接收用户输入的第一关键词;根据词义之间存在的所述关联关系,获得与第一关键词的词义存在关联关系的至少一个词义对应的词组;展示至少一个所述词组,以供用户选择;将用户选择的词组与所述第一关键词共同作为用户的搜索需求,获得所述搜索需求对应的多个搜索结果。
在上述的实施方式中,上述方法把词语之间的关联关系提前进行,然后在执行搜索动作前,可以展示出词语之间的关联关系,而非在执行搜索动作时再搜索词语之间的关联关系,从而提高了搜索效率。
第二方面,本申请实施例提供了一种关联关系确定装置,用于对预先存储的多个类型关键词中的任一个类型关键词进行处理,所述多个类型关键词均属于同一类型,所述装置包括:搜索结果获得模块,用于对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本,其中,所述目标类型关键词以及对应的包含词表征同一词义;标签添加模块,用于根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,其中,所述标签表征对应的文本内容的类型以及词义;词组分类模块,用于根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组;关联关系确定模块,用于对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系。
在一个可能的设计中,所述关联关系确定模块还用于当所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离时,确定所述两个词组分别对应的两个词义存在关联关系。
在一个可能的设计中,所述装置还包括:父层词义获取模块,用于分别获取所述两个词义的至少一个父层词义;父层关联建立模块,用于确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
在一个可能的设计中,标签添加模块,具体用于对所述多个搜索结果文本中的每个搜索结果文本进行分词处理,得到所述搜索结果文本的多个分词结果;利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配;为匹配成功的分词结果添加对应的标签。
在一个可能的设计中,标签添加模块,具体还用于获取所述标签对应的目标词义;获取表征所述目标词义的目标关键词或所述目标关键词对应的包含词;若所述目标关键词或所述目标关键词对应的包含词中存在与分词结果相同的词,则确定所述标签与所述分词结果匹配。
在一个可能的设计中,所述装置还包括:关键词接收模块,用于接收用户输入的第一关键词;关联词组获得模块,用于根据词义之间存在的所述关联关系,获得与第一关键词的词义存在关联关系的至少一个词义对应的词组;词组展示模块,用于展示至少一个所述词组,以供用户选择;搜索需求模块,用于将用户选择的词组与所述第一关键词共同作为用户的搜索需求,获得所述搜索需求对应的多个搜索结果。
第三方面,本申请提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请提供一种可读存储介质,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的关联关系确定方法的流程示意图;
图2为图1中步骤S120的具体步骤的流程示意图;
图3为图2中步骤S122的具体步骤的流程示意图;
图4为本申请实施例提供的关联关系确定方法的一种具体实施方式的流程示意图;
图5为本申请实施例提供的关联关系确定装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的关联关系确定方法的一种具体实施方式的流程示意图,该方法可以由电子设备来执行,该电子设备可以是服务器,也可以是用户终端,该方法具体包括如下步骤S110至步骤S130:
步骤S110,对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本。
目标类型关键词为预先存储在电子设备中的数据库中,电子设备的数据库中可以存储有多种类型的类型关键词,且每种类型的类型关键词均有多个。每个类型关键词均可以有各自对应的包含词,包含词为类型关键词的近义词,目标类型关键词以及对应的包含词可以表征同一词义。
为了便于描述,不妨以多种类型的类型关键词包括:化妆品品类关键词、功效关键词、谈论角度关键词为例进行说明。上述每种类型的类型关键词均有多个。
化妆品品类关键词可以为按照化妆品使用的身体部位划分的关键词,例如,包括洁面乳、洁面皂、眼霜、面膜、鼻膜、鼻贴、颈霜等;化妆品品类关键词也可以为按照化妆品功能划分的关键词,例如,包括卸妆水、防晒霜、护手霜、塑身霜等。每个化妆品品类关键词均可以有各自对应的包含词。例如,对于洁面乳,其包含词包括洁面奶、洁颜乳、洁面炭泥、洗颜乳、洗面霜、洁面霜、洁面膏等;对于卸妆水,其包含词包括卸妆液、洁颜水、魔术水等。
功效关键词可以为表征化妆品的功能性的关键词,例如,包括深层清洁、去角质、去黑头、保湿、去暗沉、抗粉刺等。每个功效关键词均可以包括各自对应的包含词,例如,去角质的包含词为去除角质、祛除角质、软化角质死皮、软化角质、温和去角质、平滑角质、角质清洁、去角质、祛角质、祛除角质、去死皮等;保湿的包含词为补水等。
谈论角度关键词为用户谈论化妆品时可能谈论的角度,例如,谈论角度包括化妆品的功效,则化妆品的功效相关的谈论角度关键词可能与上述的功效关键词相同。可选地,谈论角度关键词还可以包括除功效外的其他角度,例如质量、携带便利性、使用方法、价格、服务、产品真伪、代言明星等。谈论角度关键词均可以包括各自对应的包含词,例如,价格的包含词为贵、便宜、性价比、价钱等;使用方法的包含词为乳化、拍打、棉片、顺时针、逆时针、水洗等。
电子设备可以对预先存储在数据库中的多个类型关键词中的每个类型关键词依次执行步骤S110,即对于每个类型关键词,均会对该类型关键词以及该类型关键词对应的包含词进行搜索,获得类型关键词以及相应的包含词共同对应的多个搜索结果文本。
可选地,在进行搜索时,可以在全网进行搜索,也可以在一个限定的数据库中进行搜索,例如可以在某电商网站或某电商应用程序中进行搜索,例如可以在论坛的帖子中或电商网站的评论中进行搜索。在获得到搜索结果文本之后,可以把这些搜索结果文本存放在Elasticsearch里,以json格式存储。
具体地,json格式存储的源代码如下:
{
"id":,
"text_title":"发帖的标题",
"text_content":"正文",
"text_productName":"商品名称",
"text_productBrandName":"商品品牌名称"
...
}
在一种具体实施方式中,部分类型关键词还可以包括有对应的排除词,排除词为在搜索某个类型关键词时,在获得的搜索结果文本中排除掉包含有排除词的搜索结果文本。例如,对于类型关键词“其他洗面奶”,其对应的排除词可以为洁面乳、洁面奶、洁颜乳、洁面炭泥、洗颜乳、洗面霜、洁面霜、洁面膏、洁面啫喱、洁面凝胶、洗面啫喱、洗面凝胶。也就是说,在搜索“其他洗面奶”时,可以将多个搜索结果文本中包含有“洁面乳、洁面奶、洁颜乳、洁面炭泥、洗颜乳、洗面霜、洁面霜、洁面膏、洁面啫喱、洁面凝胶、洗面啫喱、洗面凝胶”的内容排除。
步骤S120,根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签。
其中,所述标签表征对应的文本内容的类型以及词义。每个类型关键词均有各自对应的标签,该标签同样也可以预先存储在电子设备的数据库中。
接上文的举例继续进行说明:
对于化妆品品类关键词“洁面乳”,其对应的标签为SC-1-1-1-1,其中,SC为skincare_category的缩写,表示类型为化妆品品类,1-1-1-1为“洁面乳”在SC类别下区别于其他化妆品的标识。
对于功效关键词“深层清洁”,其对应的标签为SF-1-2-1,其中,SF为skincare_function的缩写,表示类型为功效关键词,1-2-1为“深层清洁”在SF类别下区别于其他功效关键词的标识。
对于搜索得到的多个搜索结果文本中的每个搜索结果文本,均依据预先存储的多个标签,为搜索结果文本中的文本内容添加相应的标签。
例如,对于搜索结果文本:“XX牌的洁面乳的祛除角质的效果好,很清爽,完全不油腻,以后去死皮就选它”,该搜索结果文本可以为搜索化妆品品类关键词“洁面乳”时得到的。由于祛除角质、去死皮均属于功效关键词去角质的包含词,因此两者与去角质具有相同的标签SF-1-3-1;由于不油腻属于谈论角度关键词清爽的包含词,因此清爽、不油腻具有相同的标签。
在对其添加标签时,可以为祛除角质、去死皮添加标签SF-1-3-1,可以为清爽、不油腻添加标签ST-1-2-2,其中ST为skincare_talkingAngle的缩写,表示类型为谈论角度关键词。其中,标签SF-1-3-1、ST-1-2-2均预先存储在电子设备的数据库中。
步骤S130,根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组。
由于类型关键词以及其对应的包含词均属于同一标签,因此可以将标签相同的文本内容作为同一词组。接上文的例子继续说明,祛除角质、去死皮属于同一标签SF-1-3-1,因此可以作为同一词组;清爽、不油腻属于同一标签ST-1-2-2,因此也可以作为同一词组。
步骤S140,对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系。
两个词组在搜索结果文本中的距离可以指的是两个词组在搜索结果文本中相距最近的两个词之间的距离。对于上文提到的搜索结果文本:“XX牌的洁面乳的祛除角质的效果好,很清爽,完全不油腻,以后去死皮就选它”中,可知同一词组中的“不油腻”与另一类型词组中的“去死皮”在该搜索结果文本中相距的距离最近,因此,可以得到“不油腻”与“去死皮”的相距的距离量,然后根据该距离量确定两个词组之间是否有关联关系。
可选地,在一种具体实施方式中,步骤S140包括:若所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离,确定所述两个词组分别对应的两个词义存在关联关系。
可选地,可以分别获取“不油腻”相对于搜索结果文本开头位置的位置偏移量a,以及“去死皮”相对于搜索结果文本开头位置的位置偏移量b,然后获得两者的差值的绝对值|a-b|,该绝对值|a-b|记为两个词组之间的距离,将该距离|a-b|与预设距离进行比较,若该距离|a-b|小于预设距离,则确定两个词组分别对应的两个词义存在关联关系。预设距离为反映两个词组是否具有关联关系的临界点,可选地,预设距离可以设置为5个单位长度。
例如,对于如下的源代码:
{
"id":123456,
"text_title":{
"SC-1-1-1":[[1,2],[4,5],[7,9]],
"SF-3-2-4":[[2,5]],
"SC-3-2-4":[[32,35],[19,21],
...
},
反映了标签为SC-1-1-1的词组在该搜索结果文本的标题中存在于三个位置,分别是[1,2],[4,5],[7,9],其中,[1,2]指的是以偏移量1为开头、以偏移量2为结尾得到的一个位置;[4,5]指的是以偏移量4为开头、以偏移量5为结尾得到的一个位置;[7,9]指的是以偏移量7为开头、以偏移量9为结尾得到的一个位置。
标签为SF-3-2-4的词组在该搜索结果文本的标题中存在于一个位置,是[2,5],其中,[2,5]指的是以偏移量2为开头、以偏移量5为结尾得到的一个位置。
标签为SC-3-2-4的词组在该搜索结果文本的标题中存在于两个位置,分别是[32,35],[19,21],其中,[32,35]指的是以偏移量32为开头、以偏移量35为结尾得到的一个位置;[19,21]指的是以偏移量19为开头、以偏移量21为结尾得到的一个位置。
然后对于上述的三个词组,可以根据步骤S140判断三个词组中的任意两个词组是否存在关联关系。应当理解,对于a、b、c三个词组来说,若词组a与词组b存在关联关系,词组a与词组c存在关联关系,则可以确定词组b与词组c也存在关联关系。
对表征同一词义的关键词和包含词进行搜索,得到多个搜索结果文本。为多个搜索结果文本中的每个搜索结果文本的文本内容添加标签,标签表征文本内容的类型和词义。对于每个搜索结果文本,根据词义把属于同一词义的文本内容作为同一词组,然后分析不属于同一类型的任意两个词组在对应搜索结果文本中的距离是否小于一定的值,若是,则判定上述的不属于同一类型的任意两个词组的词义存在关联关系。根据不同类型的词组在同一搜索结果文本中的距离来判断词组之间是否存在关联关系,改善了现有技术无法较好分辨同一文本中的两个类型分别对应的关键词是否存在关联的问题。
可选地,在确定所述两个词组分别对应的两个词义存在关联关系之后,所述方法还包括:分别获取所述两个词义的至少一个父层词义;确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
每个类型关键词在预先存储的数据库中还可以有对应的一层或多层父层词义,接上文的举例继续进行说明:
洁面乳的标签为SC-1-1-1-1,洁面乳的父层词义为洗面奶,洗面奶对应的标签为SC-1-1-1;洗面奶的父层词义为洁面产品,洁面产品对应的标签为SC-1-1;洁面产品的父层词义为脸部护肤,脸部护肤对应的标签为SC-1。
去角质的标签为SF-1-3-1,去角质的父层词义为角质,角质对应的标签为SF-1-3;角质的父层词义为清洁,清洁对应的标签为SF-1。清爽的标签为ST-1-2-2,清爽的父层词义为使用感,使用感对应的标签为ST-1-2;使用感的父层词义为产品,产品对应的标签为ST-1。
若去角质所在的词组与清爽所在的词组有关联关系,则可以判定去角质、角质、清洁中的任一个关键词与清爽、使用感、产品中的任一个关键词存在关联关系。
存在关联关系的词义可能是较为具体且底层的词义,在底层的词义存在关联关系的情况下,若底层的词义存在父层,则一个底层的词义对应的父层词义与另一个底层的词义对应的父层词义也存在关联关系,从而提高了关联关系的适用范围。
请参见图2,在一种具体实施方式中,步骤S120具体可以包括如下步骤S121至步骤S123:
步骤S121,对所述多个搜索结果文本中的每个搜索结果文本进行分词处理,得到所述搜索结果文本的多个分词结果。
步骤S122,利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配。
接上文的举例继续进行说明:
对于搜索结果文本:“XX牌的洁面乳的祛除角质的效果好,很清爽,完全不油腻,以后去死皮就选它”进行分词处理,可以得到“XX牌/的/洁面乳/的/祛除角质/的/效果/好,很/清爽,完全/不油腻,以后/去死皮/就/选它”。对于上述的多个分词结果中的每个分词结果,分别与预先存储在电子设备的数据库中的多个标签进行匹配。
请参见图3,步骤S122具体可以包括如下步骤S1221至步骤S1223:
步骤S1221,获取所述标签对应的目标词义。
步骤S1222,获取表征所述目标词义的目标关键词或所述目标关键词对应的包含词。
步骤S1223,若所述目标关键词或所述目标关键词对应的包含词中存在与分词结果相同的词,则确定所述标签与所述分词结果匹配。
由于标签、关键词以及关键词对应的包含词存在一一映射的关系,因此,可以按照数据库中的顺序,对多个标签中的每个标签,均获得标签对应的关键词以及该关键词的包含词,然后将分词结果与关键词以及该关键词的包含词一一比对,若某标签对应的关键词以及该关键词的包含词中有与分词结果相同的词,则可以确定该分词结果的标签为上述标签;若某标签对应的关键词以及该关键词的包含词均无法与某分词结果对应,则表明该标签与上述的分词结果无关。
可以先获取标签的词义,然后再获取表征相应词义的目标关键词和包含词,判断目标关键词与包含词中是否存在与分词结果相同的词,若有,则判定目标关键词或包含词表征的词义所对应的标签与分词结果匹配。
步骤S123,为匹配成功的分词结果添加对应的标签。
可以先对搜索结果文本进行分词,得到多个分词结果,然后对每个分词结果分别与标签进行匹配,可能存在分词结果无法匹配到标签,则可跳过该分词结果,继续进行其他分词结果的匹配,直到搜索结果文本中的分词结果全部执行完匹配流程。通过上述的标签添加过程可以兼顾到搜索结果文本中的每个分词结果,避免遗漏。
请参见图4,图4示出了本申请提供的关联关系确定方法的一种具体实施方式的流程示意图,具体包括如下步骤S210至步骤S240:
步骤S210,接收用户输入的第一关键词。
步骤S220,根据词义之间存在的所述关联关系,获得与第一关键词的词义存在关联关系的至少一个词义对应的词。
步骤S230,展示至少一个词义对应的词,以供用户选择。
步骤S240,将用户选择的词与所述第一关键词共同作为用户的搜索需求,获得所述搜索需求对应的多个搜索结果。
接上文的举例继续进行说明:
若用户输入的关键词为洁面乳,由于与洁面乳存在关联关系的词义包括祛除角质和清爽,因此,电子设备在接收到用户输入的关键词为“洁面乳”后,可以获取到与“洁面乳”存在关联关系的“祛除角质”和“清爽”。
然后在显示界面展示“祛除角质”以及展示“清爽”,以供用户选择。用户可以通过输入装置点击选择,输入装置可以为鼠标键盘,也可以为触控显示屏等。
用户可能会选择“祛除角质”,也可能会选择“清爽”,也可能两个都选择,也可能两个均不选择。若用户进行了选择,则可以将用户选择的词连同“洁面乳”共同作为用户的搜索需求,并获得该搜索需求对应的搜索结果。
在上述的实施方式中,可以接收用户输入的第一关键词,然后根据词义之间存在的关联关系,为用户展示出与第一关键词的词义存在关联关系的至少一个词义对应的词组,以供用户选择。然后将第一关键词连同用户选择的词组共同作为搜索需求进行搜索,得到搜索结果。上述方法把词语之间的关联关系提前进行,然后在执行搜索动作前,可以展示出词语之间的关联关系,而非在执行搜索动作时再搜索词语之间的关联关系,从而提高了搜索效率。
请参见图5,图5示出了本申请实施例提供的关联关系确定装置,用于对预先存储的多个类型关键词中的任一个类型关键词进行处理,所述装置500包括:
搜索结果获得模块510,用于对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本,其中,所述目标类型关键词以及对应的包含词表征同一词义。
标签添加模块520,用于根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,其中,所述标签表征对应的文本内容的类型以及词义。
词组分类模块530,用于根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组。
关联关系确定模块540,用于对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系。
标签添加模块520具体用于对所述多个搜索结果文本中的每个搜索结果文本进行分词处理,得到所述搜索结果文本的多个分词结果;利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配;为匹配成功的分词结果添加对应的标签。
标签添加模块520具体还用于获取所述标签对应的目标词义;获取表征所述目标词义的目标关键词或所述目标关键词对应的包含词;若所述目标关键词或所述目标关键词对应的包含词中存在与分词结果相同的词,则确定所述标签与所述分词结果匹配。
关联关系确定模块540还用于当所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离时,确定所述两个词组分别对应的两个词义存在关联关系。
所述装置还包括:
父层词义获取模块,用于分别获取所述两个词义的至少一个父层词义;父层关联建立模块,用于确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
关键词接收模块,用于接收用户输入的第一关键词。
关联词组获得模块,用于根据词义之间存在的所述关联关系,获得与第一关键词的词义存在关联关系的至少一个词义对应的词组。
词组展示模块,用于展示至少一个所述词组,以供用户选择。
搜索需求模块,用于将用户选择的词组与所述第一关键词共同作为用户的搜索需求,获得所述搜索需求对应的多个搜索结果。
本申请实施例提供的关联关系确定装置与方法实施例提供的关联关系确定方法对应相同,在此便不做赘述。
本申请还提供一种可读存储介质,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种关联关系确定方法,其特征在于,用于对预先存储的多个类型关键词中的任一个类型关键词进行处理,所述方法包括:
对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本,其中,所述目标类型关键词以及对应的包含词表征同一词义;
根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,其中,所述标签表征对应的文本内容的类型以及词义;
根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组;
对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系;其中,若所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离,确定所述两个词组分别对应的两个词义存在关联关系;
若所述两个词组分别对应的两个词义存在关联关系,分别获取所述两个词义的至少一个父层词义;确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,包括:
对所述多个搜索结果文本中的每个搜索结果文本进行分词处理,得到所述搜索结果文本的多个分词结果;
利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配;
为匹配成功的分词结果添加对应的标签。
3.根据权利要求2所述的方法,其特征在于,所述利用预先存储的多个标签,对所述多个分词结果中的每个分词结果进行匹配,包括:
获取所述标签对应的目标词义;
获取表征所述目标词义的目标关键词或所述目标关键词对应的包含词;
若所述目标关键词或所述目标关键词对应的包含词中存在与分词结果相同的词,则确定所述标签与所述分词结果匹配。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户输入的第一关键词;
根据词义之间存在的所述关联关系,获得与第一关键词的词义存在关联关系的至少一个词义对应的词;
展示至少一个词义对应的词,以供用户选择;
将用户选择的词与所述第一关键词共同作为用户的搜索需求,获得所述搜索需求对应的多个搜索结果。
5.一种关联关系确定装置,其特征在于,用于对预先存储的多个类型关键词中的任一个类型关键词进行处理,所述装置包括:
搜索结果获得模块,用于对目标类型关键词以及所述目标类型关键词对应的包含词进行搜索,获得包括有所述目标类型关键词或所述目标类型关键词对应的包含词的多个搜索结果文本,其中,所述目标类型关键词以及对应的包含词表征同一词义;
标签添加模块,用于根据预先存储的多个标签,对所述多个搜索结果文本中的每个搜索结果文本添加标签,其中,所述标签表征对应的文本内容的类型以及词义;
词组分类模块,用于根据所述标签,将所述搜索结果文本中属于同一词义的文本内容作为同一词组;
关联关系确定模块,用于对不属于同一类型的任意两个词组,根据所述两个词组在所述搜索结果文本中的距离,确定所述两个词组分别对应的词义是否存在关联关系;其中,当所述两个词组在所述搜索结果文本中分别对应且相距最近的两个文本内容的距离小于预设距离时,确定所述两个词组分别对应的两个词义存在关联关系;
父层词义获取模块,用于若所述两个词组分别对应的两个词义存在关联关系,分别获取所述两个词义的至少一个父层词义;
父层关联建立模块,用于确定所述两个词义中的一个词义及其父层词义与所述两个词义中的另一个词义及其父层词义存在关联关系。
6.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1-4任一项所述的方法。
7.一种可读存储介质,其特征在于,该可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1-4任一项所述的方法。
CN201910957640.4A 2019-10-09 2019-10-09 关联关系确定方法、装置、电子设备及可读存储介质 Active CN110704578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910957640.4A CN110704578B (zh) 2019-10-09 2019-10-09 关联关系确定方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910957640.4A CN110704578B (zh) 2019-10-09 2019-10-09 关联关系确定方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110704578A CN110704578A (zh) 2020-01-17
CN110704578B true CN110704578B (zh) 2022-08-09

Family

ID=69200121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910957640.4A Active CN110704578B (zh) 2019-10-09 2019-10-09 关联关系确定方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110704578B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182348B (zh) * 2020-11-09 2024-03-29 百度国际科技(深圳)有限公司 语义匹配判定方法、装置、电子设备、计算机可读介质
CN113987374A (zh) * 2021-10-27 2022-01-28 北京达佳互联信息技术有限公司 词云展示方法、装置、电子设备、介质及产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760127A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 基于扩展文本信息来确定资源类型的方法、装置及设备
CN104199872A (zh) * 2014-08-19 2014-12-10 北京搜狗科技发展有限公司 一种信息推荐的方法以及装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105653673A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 信息搜索方法及装置
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN107357776A (zh) * 2017-06-16 2017-11-17 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109215796A (zh) * 2018-08-14 2019-01-15 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760127A (zh) * 2011-04-26 2012-10-31 北京百度网讯科技有限公司 基于扩展文本信息来确定资源类型的方法、装置及设备
CN104199872A (zh) * 2014-08-19 2014-12-10 北京搜狗科技发展有限公司 一种信息推荐的方法以及装置
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN105653673A (zh) * 2015-12-29 2016-06-08 小米科技有限责任公司 信息搜索方法及装置
CN106951494A (zh) * 2017-03-14 2017-07-14 腾讯科技(深圳)有限公司 一种信息推荐方法及装置
CN107357776A (zh) * 2017-06-16 2017-11-17 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN108959575A (zh) * 2018-07-06 2018-12-07 北京神州泰岳软件股份有限公司 一种企业关联关系信息挖掘方法及装置
CN109215796A (zh) * 2018-08-14 2019-01-15 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110704578A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN112084268B (zh) 一种搜索结果展示的方法、装置及计算机存储介质
JP6301958B2 (ja) 検索語句を構成し、広告を配信し、製品情報を検索するための方法および装置
JP7356206B2 (ja) コンテンツ推薦及び表示
CN109325179B (zh) 一种内容推广的方法及装置
CN110704578B (zh) 关联关系确定方法、装置、电子设备及可读存储介质
CN109242537A (zh) 广告投放方法、装置、计算机设备及存储介质
WO2014153981A1 (en) Method, server, client terminal, and electronic commerce system for product comparison
CN108280098B (zh) 信息推荐方法及装置
CN110929138A (zh) 推荐信息生成方法、装置、设备及存储介质
WO2015135110A1 (en) Systems and methods for keyword suggestion
WO2017020779A1 (zh) 一种业务信息推送方法及系统
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
CN110781307A (zh) 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN105095446A (zh) 药品的搜索处理方法、服务器及终端设备
CN110717097A (zh) 业务推荐方法、装置、计算机设备和存储介质
Erdmann et al. Feature based sentiment analysis of tweets in multiple languages
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN112446214B (zh) 广告关键词的生成方法、装置、设备及存储介质
EP3886029A1 (en) Method and system for unsupervised multi-modal set completion and recommendation
CN111429200B (zh) 一种内容关联方法及装置、存储介质、计算机设备
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
CN111428120B (zh) 一种信息确定方法、装置、电子设备及存储介质
CN110113410A (zh) 一种信息推送的管理方法、装置、电子设备及存储介质
CN114596138A (zh) 一种信息推荐方法、装置、计算机设备和存储介质
US20150347564A1 (en) Category name extraction device, category name extraction method, and category name extraction program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201217

Address after: A108, 1 / F, curling hall, winter training center, 68 Shijingshan Road, Shijingshan District, Beijing 100041

Applicant after: Beijing second hand Artificial Intelligence Technology Co.,Ltd.

Address before: Room 9014, 9 / F, building 3, yard 30, Shixing street, Shijingshan District, Beijing

Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant