CN116340469B - 一种同义词挖掘方法、装置、存储介质及电子设备 - Google Patents

一种同义词挖掘方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116340469B
CN116340469B CN202310615472.7A CN202310615472A CN116340469B CN 116340469 B CN116340469 B CN 116340469B CN 202310615472 A CN202310615472 A CN 202310615472A CN 116340469 B CN116340469 B CN 116340469B
Authority
CN
China
Prior art keywords
search
synonym
search word
pairs
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310615472.7A
Other languages
English (en)
Other versions
CN116340469A (zh
Inventor
吕劲松
杨建明
戚耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310615472.7A priority Critical patent/CN116340469B/zh
Publication of CN116340469A publication Critical patent/CN116340469A/zh
Application granted granted Critical
Publication of CN116340469B publication Critical patent/CN116340469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种同义词挖掘方法、装置、存储介质及电子设备,本说明书实施例基于用户同一会话下的搜索词序列所产生的搜索日志序列中的曝光日志和点击日志,确定出搜索日志序列的编码字符串和搜索词序列的搜索词串。基于“换词搜索后点击”代表换词之前的搜索词与换词后点击时的搜索词很大可能是同义词的原理,根据预设的编码字符模式,从搜索词串中提取子搜索词串,基于子搜索词串,挖掘出候选同义词对,并基于候选同义词对,确定出最终同义词对。在此方法中,采用用户针对搜索词的上下文日志,以及结合用户执行点击行为前后的搜索词来挖掘同义词,可以避免同一搜索词在不同语境下的不同意思,从而提高挖掘同义词对的准确性。

Description

一种同义词挖掘方法、装置、存储介质及电子设备
技术领域
本说明书涉及自然语言处理领域,尤其涉及一种同义词挖掘方法、装置、存储介质及电子设备。
背景技术
同义词挖掘在自然语言处理和信息检索是一个非常重要的任务,其精准性影响自然语言理解的诸多下游任务,以及用户搜索点击转化的效果。
现有技术中,基于预先训练的机器学习模型,针对任意两个词语,先提取这两个词语的特征向量,得到这两个词语的词向量,然后,计算这两个词向量之间的距离或相似度,以判断这两个词语是否为同义词。
然而,现有技术中机器学习模型的特征提取是基于词语本身的文本信息进行的,但是,同一词语在不同语境下所表达的意思是不同,词向量也是不同的,这导致挖掘出的同义词对可能是不准确的或同义词对质量不高。
发明内容
本说明书实施例提供一种同义词挖掘方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种同义词挖掘方法,包括:
获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
基于所述子搜索词串,挖掘出各候选同义词对;
基于所述各候选同义词对,确定出最终同义词对。
可选地,根据所述搜索词序列,确定出搜索词串,具体包括:
采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
可选地,根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,具体包括:
当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;
根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
可选地,基于所述子搜索词串,挖掘出各候选同义词对,具体包括:
确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;
针对所述其他搜索词的每个搜索词,将该搜索词与所述最后一个搜索词进行组合,得到候选同义词对。
可选地,基于所述各候选同义词对,确定出最终同义词对,具体包括:
针对所述各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数;
根据所述第一次数和所述第二次数,确定出该候选同义词对的置信度;
根据每个候选同义词对的置信度,从所述各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对;
基于各目标同义词对,确定出最终同义词对。
可选地,基于各目标同义词对,确定出最终同义词对,具体包括:
针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数;
根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。
可选地,所述方法还包括:
以所述最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图;
将所述拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对所述拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出所述搜索词对存在同义词关系的概率;
以预测出的所述最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型;
在得到所述训练后的图神经网络模型之后,将所述拓扑图输入到所述训练后的图神经网络模型中,以通过所述图神经网络模型,预测出所述拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率;
将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对。
本说明书提供的一种同义词挖掘装置,包括:
获取模块,用于获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
第一确定模块,用于根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
提取模块,用于根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
挖掘同义词模块,用于基于所述子搜索词串,挖掘出各候选同义词对;
第二确定模块,用于基于所述各候选同义词对,确定出最终同义词对。
可选地,所述第一确定模块,具体用于采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
可选地,所述提取模块,具体用于当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
可选地,所述挖掘同义词模块,具体用于确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;针对所述其他搜索词的每个搜索词,将该搜索词与所述最后一个搜索词进行组合,得到候选同义词对。
可选地,所述第二确定模块,具体用于针对所述各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数;根据所述第一次数和所述第二次数,确定出该候选同义词对的置信度;根据每个候选同义词对的置信度,从所述各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对;基于各目标同义词对,确定出最终同义词对。
可选地,所述第二确定模块,具体用于针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数;根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。
可选地,所述装置还包括:扩充同义词模块;
所述扩充同义词模块,用于以所述最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图;将所述拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对所述拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出所述搜索词对存在同义词关系的概率;以预测出的所述最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型;在得到所述训练后的图神经网络模型之后,将所述拓扑图输入到所述训练后的图神经网络模型中,以通过所述图神经网络模型,预测出所述拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率;将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对。
本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的同义词挖掘方法。
本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的同义词挖掘方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例中基于用户同一会话下的搜索词序列所产生的搜索日志序列中的曝光日志和点击日志,确定出搜索日志序列的编码字符串和搜索词序列的搜索词串。基于“换词搜索后点击”的行为代表换词之前的搜索词与换词后点击时的搜索词很大可能是同义词的原理,根据预设的编码字符模式,从搜索词串中提取子搜索词串,基于子搜索词串,挖掘出候选同义词对,并基于候选同义词对,确定出最终同义词对。在此方法中,采用用户针对搜索词的上下文日志,以及结合用户执行点击行为的前后搜索词来挖掘同义词,可以避免同一搜索词在不同语境下的不同意思,从而提高挖掘同义词对的准确性或同义词对的质量。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书实施例提供的同义词挖掘方法的流程示意图;
图2为本说明书实施例提供的生成搜索词串和编码字符串的示意图;
图3a~图3b为本说明书实施例提供的提取子搜索词串和子编码字符串的示意图;
图4为本说明书实施例提供的同义词挖掘装置结构示意图;
图5为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
本说明书提供的同义词挖掘方法旨在在从搜索词中挖掘出同义词的场景中,基于“换词搜索后点击”代表换词之前的搜索词与换词后点击时的搜索词很大可能是同义词的原理,从同一会话下的搜索词序列中挖掘出同义词对。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提供的同义词挖掘方法的流程示意图,该同义词挖掘方法可以适用于服务器,包括:
S100:获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志。
在本说明书实施例中的同义词挖掘方法可以应用于分布式系统中的云服务器。其中,分布式系统可以包括:云服务器、用户终端,用户终端可以是移动终端设备,也可以是服务器。
本说明书中同义词挖掘方法的原理是:在一个搜索词序列中,如果更换搜索词之前,用户并未在基于搜索词返回的搜索页面中执行点击操作,但是,在更换搜索词之后,用户在基于搜索词返回的搜索页面中执行点击操作,则说明更换搜索词之前的搜索词很可能和更换搜索词之后的搜索词是同义词。
基于上述的原理,需要在用户同一会话下的搜索日志序列中确定出执行点击操作的搜索日志和未执行点击操作的搜索日志。
具体的,可以获取用户在同一会话下基于搜索词序列所产生的搜索日志序列。其中,搜索词序列可以是按照时间顺序进行排列后所得到序列。搜索词序列中的每个搜索词对应搜索日志序列中的每个搜索日志。然后,从搜索日志序列中确定出用户未执行点击操作的搜索日志,作为曝光日志,以及从搜索日志序列中确定出用户执行点击操作的搜索日志,作为点击日志。其中,曝光日志可以是指基于搜索词进行搜索后向用户展示却未对搜索结果进行点击的日志。点击日志可以是指基于搜索词进行搜索后向用户展示且对搜索结果进行点击的日志。
在获取搜索词序列和搜索日志序列时,可以获取用户在同一会话下基于每个搜索词所产生的搜索日志,然后,按照时间顺序,对同一会话下的各搜索词进行排列,得到搜索词序列。同样的,按照时间顺序,对同一会话下的各搜索日志进行排序,得到搜索日志序列。其中,排序算法包括冒泡排序、选择排序、插入排序、快速排序、希尔排序、归并排序、堆排序等。
其中,用户可以是多个,同一用户的会话可以是多个。每个用户具有各自的用户标识,用户标识可以包括:登录用户的会员ID或未登录用户的设备ID。每个会话具有会话标识。一个用户的用户标识与这个用户发起的会话的会话标识具有对应关系,在这个用户发起的会话下采用搜索词进行搜索操作,会在这个会话下产生一个搜索词序列,即,一个搜索词序列对应一个会话标识。
针对同一会话下的每个搜索词,确定针对该搜索词的搜索日志。搜索日志中记录有用户输入的搜索词、基于搜索词返回的搜索页面、用户在搜索页面的浏览行为、用户在搜索页面的点击行为等信息。其中,当搜索日志中记录有用户在搜索页面的点击行为时,说明用户在搜索页面中执行点击操作,可以将这个搜索日志作为点击日志。当搜索日志中未记录有用户在搜索页面的点击行为时,说明用户在搜索页面中未执行点击操作,可以将这个搜索日志作为曝光日志。
需要说明的是,搜索日志序列一般是搜索引擎前端通过事件打点和通过Kafka类事件收集组件收集得到。
S102:根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符。
在本说明书实施例中,在得到搜索词序列和基于搜索词序列所产生的搜索日志序列之后,可以根据用于表示曝光日志的第一编码字符和用于表示点击日志的第二编码字符,确定出搜索日志序列对应的编码字符串。同时,根据搜索词序列,确定出搜索词序列对应的搜索词串。其中,搜索词序列中的一个搜索词对应一个编码字符,相应的,搜索词串与编码字符串一一对应。第一编码字符可以用“0”来表示,第二编码字符可以用“1”来表示。这样,编码字符串可以是数字串。
在根据搜索词序列,确定出搜索词串时,采用指定分隔符,对搜索词序列中的每个搜索词进行串行连接,得到搜索词串。其中,指定分隔符为特殊字符,比如:不可见控制字符。
基于上述的描述,本说明书实施例中生成搜索词串和编码字符串的示意图,如图2所示。
在图2中,以“|”为指定分隔符为例,搜索词序列为:ABCDEF,搜索词串为:A|B|C|D|E|F。若搜索词A、C、E对应曝光日志,搜索词B、D、F对应点击日志,则搜索词序列对应的编码字符串为:010101。
S104:根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符。
在本说明书实施例中,在确定每个搜索词序列对应的搜索词串以及基于每个搜索词序列所产生的每个搜索日志序列对应的编码字符串之后,可以根据预设的编码字符模式,从搜索日志序列对应的编码字符串中提取出满足该编码字符模式的子编码字符串。由于搜索词串与编码字符串是一一对应的,所以,可以从搜索词串中确定出与子编码字符串对应的子搜索词串。其中,预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符。预设的编码字符模式可以包括:“01”、“001”、“0001”等。
当搜索日志序列存在多个时,针对每个搜索日志序列,根据预设的编码字符模式,从该搜索日志序列对应的编码字符串中提取出满足该编码字符模式的子编码字符串,得到该搜索日志序列对应的子编码字符串。然后,从与该搜索日志序列相匹配的搜索词序列对应的搜索词串确定出与子编码字符串对应的子搜索词串。其中,一个搜索日志序列对应的编码字符串中可以包含多个子编码字符串。
然而,有的搜索日志序列对应的编码字符串中并不包含预设的编码字符模式,所以,为了减少提取的编码字符串个数,可以先对所有搜索日志序列对应的编码字符串进行过滤,保留下存在预设的编码字符模式的编码字符串。
具体的,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足正则匹配规则的搜索日志序列对应的编码字符串。然后,根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足预设的编码字符模式的子编码字符串。其中,正则匹配规则可以是“0+1”。“+”表示至少一个零的意思。“0+1”表示为:至少一个0和一个1,且0位于1之前。
基于上述的描述,本说明书实施例中提取子搜索词串和子编码字符串的示意图,如图3a~图3b所示。
在图3a中,若有三个搜索词串,分别为:A|B|C|D|E|F、J|K|H|I、G|H|L|I|E|F,这三个搜索串依次对应的编码字符串为:010101、1111、100101。根据预设的正则匹配规则,从三个编码字符串中选择出包含有至少一个0和一个1的编码字符串,即,010101和100101,过滤掉1111。然后,在图3b中,针对010101,从这个编码字符串提取出的三个子编码字符串,分别为:01、01、01,子搜索词串依次为:A|B、C|D、E|F;针对100101,从这个编码字符串提取出的两个子编码字符串,分别为:001、01,子搜索词串依次为:H|L|I、E|F。
S106:基于所述子搜索词串,挖掘出各候选同义词对。
在本说明书实施例中,在从每个搜索词串中提取出子搜索词串之后,可以基于各子搜索词串,挖掘出各候选同义词对。其中,挖掘算法可以包括:Apriori算法、FPgrowth算法、GSP算法、FreeSpan、PrefixSpan算法、Disc-all算法。
考虑到候选同义词对属于频繁二项集,可以对子搜索词串包含的搜索词进行两两配对,以挖掘出候选同义词对。
具体的,确出子搜索词串的最后一个搜索词以及子搜索词串中除最后一个搜索词之外的其他搜索词。然后,针对其他搜索词的每个搜索词,将该搜索词与最后一个搜索词进行组合,得到候选同义词对。
当子搜索词串存在多个时,针对每个子搜索词串,确出该子搜索词串的最后一个搜索词以及该子搜索词串中除最后一个搜索词之外的其他搜索词。然后,针对该子搜索词串中其他搜索词的每个搜索词,将该搜索词与该子搜索词串的最后一个搜索词进行组合,得到候选同义词对。
这样,可以从不同的用户在不同会话下的搜索词序列中挖掘出各候选同义词对。
例如:若子编码字符串为01,子搜索词串为A|B,则子搜索词串只有两个搜索词,则这两个搜索词为候选同义词对,即A|B;若子编码字符串为001,子搜索词串为C|D|E,则子搜索词串的最后一个搜索词为E,其他搜索词为CD,候选同义词对有:C|E和D|E。
S108:基于所述各候选同义词对,确定出最终同义词对。
在本说明书实施例中,在得到各候选同义词对之后,需要对各候选同义词对进行过滤,选择出存在同义词关系的可能性较大的候选同义词对,作为最终同义词对。需要说明的是,这里的各候选同义词对可以是从不同用户的不同会话下的搜索词序列中挖掘出的。
具体的,针对各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数。然后,根据第一次数和第二次数,确定出该候选同义词对的置信度。其中,确定第一次数与第二次数之间的比值,作为置信度。比值越大,置信度越大,表示这个候选同义词对越可信。
之后,根据每个候选同义词对的置信度,从各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对,可以直接将目标同义词对作为最终同义词对。
需要说明的是,从各候选同义词中选择出的每个目标同义词对是不同的。
在本说明书中,考虑到同一用户可能会频繁搜索同一搜索词,这可能造成置信度大的目标同义词对也不一定可信,为此,本说明书中对目标同义词对再次进行可信度判断,去除同一用户或同一会话中同一搜索词的高频出现。即,在选出各目标同义词对之后,基于各目标同义词对,确定出最终同义词对。
具体的,针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数。之后,根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。最后,可以将各最终同义词对保存到同义词库中,以便执行下游任务时调用同义词库。
其中,在根据每个用户的所有会话下所挖掘出的目标同义词对,确定该目标同义词对的用户支持数时,针对每个用户,可以先确定出该用户在不同会话下的搜索日志序列,并从不同会话下的搜索日志序列对应的编码字符串中提取出子编码字符串,并从搜索词串中确定与子编码字符串对应的子搜索词串。基于子搜索词串,挖掘出各候选同义词对,作为该用户的所有会话下所挖掘出的候选同义词对。然后,针对不同的任意目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定包含有该目标同义词对的用户的用户数量,作为该目标同义词对的用户支持数。
在本说明书实施例中,在确定出最终同义词对之后,可以训练图神经网络模型,并通过训练后的图神经网络模型预测出基于搜索词序列未挖掘出的同义词对,以扩充同义词对的数量。其中,图神经网络模型可以包括:GCN、GAT、GraphSage。
具体的,以最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图。然后,将拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出搜索词对存在同义词关系的概率。这样,所有的搜索词对中包含有最终同义词对(即,正样本),也包含有除最终同义词对之外的其他搜索词对(即,负样本)。
以预测出的最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型。其中,其他搜索词对是指所有搜索词对中除最终同义词对之外的搜索词对。
也就是,以正样本为同义词对的概率大于负样本为同义词对的概率为优化目标,对图神经网络模型进行训练。
其中,在以预测出的最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练时,根据预测出的最终同义词对存在同义词关系的概率以及预测出的其他搜索词对存在同义词关系的概率,确定损失,以损失最小为优化目标,对待训练的图神经网络模型进行训练。
损失为:。e+和e-分别为最终同义词对和其他搜索词对,/>为图神经网络模型的参数,/>为超参。
在得到训练后的图神经网络模型之后,可以将拓扑图输入到训练后的图神经网络模型中,以通过图神经网络模型,预测出拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率。将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对,并将确定出的同义词对保存于同义词库中,以扩充同义词库。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
通过上述图1所示的方法可见,本说明书基于用户同一会话下的搜索词序列所产生的搜索日志序列中的曝光日志和点击日志,确定出搜索日志序列的编码字符串和搜索词序列的搜索词串。基于“换词搜索后点击”代表换词之前的搜索词与换词后点击时的搜索词很大可能是同义词的原理,根据预设的编码字符模式,从搜索词串中提取子搜索词串,基于子搜索词串,挖掘出候选同义词对,并基于候选同义词对,确定出最终同义词对。在此方法中,采用用户针对搜索词的上下文日志,以及结合用户执行点击行为前后的搜索词来挖掘同义词,可以避免同一搜索词在不同语境下的不同意思,从而提高挖掘同义词对的准确性或同义词对的质量。
以上为本说明书实施例提供的同义词挖掘方法,基于同样的思路,本说明书还提供了相应的装置、存储介质和电子设备。
图4为本说明书实施例提供的一种同义词挖掘装置的结构示意图,所述装置包括:
获取模块401,用于获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
第一确定模块402,用于根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
提取模块403,用于根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
挖掘同义词模块404,用于基于所述子搜索词串,挖掘出各候选同义词对;
第二确定模块405,用于基于所述各候选同义词对,确定出最终同义词对。
可选地,所述装置还包括:扩充同义词模块406;
所述扩充同义词模块406,用于以所述最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图;将所述拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对所述拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出所述搜索词对存在同义词关系的概率;以预测出的所述最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型;在得到所述训练后的图神经网络模型之后,将所述拓扑图输入到所述训练后的图神经网络模型中,以通过所述图神经网络模型,预测出所述拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率;将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对。
可选地,所述第一确定模块402具体用于,采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
可选地,所述提取模块403具体用于,当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
可选地,所述挖掘同义词模块404具体用于,确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;针对所述其他搜索词的每个搜索词,将该搜索词与所述最后一个搜索词进行组合,得到候选同义词对。
可选地,所述第二确定模块405具体用于,针对所述各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数;根据所述第一次数和所述第二次数,确定出该候选同义词对的置信度;根据每个候选同义词对的置信度,从所述各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对;基于各目标同义词对,确定出最终同义词对。
可选地,所述第二确定模块405具体用于,针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数;根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。
本说明书还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可用于执行上述图1提供的同义词挖掘方法。
基于图1所示的同义词挖掘方法,本说明书实施例还提供了图5所示的电子设备的结构示意图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的同义词挖掘方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (12)

1.一种同义词挖掘方法,其特征在于,包括:
获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
基于所述子搜索词串,挖掘出各候选同义词对;
针对所述各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数;
根据所述第一次数和所述第二次数,确定出该候选同义词对的置信度;
根据每个候选同义词对的置信度,从所述各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对;
针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数;
根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。
2.如权利要求1所述的方法,其特征在于,根据所述搜索词序列,确定出搜索词串,具体包括:
采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
3.如权利要求1所述的方法,其特征在于,根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,具体包括:
当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;
根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
4.如权利要求1所述的方法,其特征在于,基于所述子搜索词串,挖掘出各候选同义词对,具体包括:
确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;
针对所述其他搜索词的每个搜索词,将该搜索词与所述最后一个搜索词进行组合,得到候选同义词对。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
以所述最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图;
将所述拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对所述拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出所述搜索词对存在同义词关系的概率;
以预测出的所述最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型;
在得到所述训练后的图神经网络模型之后,将所述拓扑图输入到所述训练后的图神经网络模型中,以通过所述图神经网络模型,预测出所述拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率;
将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对。
6.一种同义词挖掘装置,其特征在于,包括:
获取模块,用于获取用户在同一会话下基于搜索词序列所产生的搜索日志序列,并从所述搜索日志序列中确定出未执行点击操作的曝光日志以及执行点击操作的点击日志;其中,所述搜索词序列是按照时间顺序进行排列后所得到的序列,所述搜索词序列中的每个搜索词对应所述搜索日志序列中的每个搜索日志;
第一确定模块,用于根据用于表示所述曝光日志的第一编码字符和用于表示所述点击日志的第二编码字符,确定出所述搜索日志序列对应的编码字符串;根据所述搜索词序列,确定出搜索词串;其中,所述搜索词序列中的每个搜索词对应所述编码字符串中的每个编码字符;
提取模块,用于根据预设的编码字符模式,从所述搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串,并从所述搜索词串中确定出与所述子编码字符串对应的子搜索词串;其中,所述预设的编码字符模式包含有前项和后项,前项对应有至少一个第一编码字符,后项对应有一个第二编码字符;
挖掘同义词模块,用于基于所述子搜索词串,挖掘出各候选同义词对;
第二确定模块,用于针对所述各候选同义词对中的每个候选同义词对,统计出该候选同义词对在所有候选同义词对中出现的次数,作为第一次数,以及统计出该候选同义词对中位于前项的搜索词在所有候选同义词对中出现的次数,作为第二次数;根据所述第一次数和所述第二次数,确定出该候选同义词对的置信度;根据每个候选同义词对的置信度,从所述各候选同义词对中选择出置信度大于预设置信度阈值的候选同义词对,作为目标同义词对;
针对不同的每个目标同义词对,根据每个用户的所有会话下所挖掘出的候选同义词对,确定该目标同义词对的用户支持数;根据不同的每个目标同义词对的用户支持数,从各目标同义词对中选择出用户支持数大于预设支持阈值的目标同义词对,作为最终同义词对。
7.如权利要求6所述的装置,其特征在于,所述第一确定模块,具体用于采用指定分隔符,对所述搜索词序列中的每个搜索词进行串行连接,得到搜索词串。
8.如权利要求6所述的装置,其特征在于,所述提取模块,具体用于当所述搜索日志序列存在多个时,基于预设的正则匹配规则,从多个搜索日志序列对应的编码字符串中选择出满足所述正则匹配规则的搜索日志序列对应的编码字符串;根据预设的编码字符模式,从选择出的搜索日志序列对应的编码字符串中提取出满足所述编码字符模式的子编码字符串。
9.如权利要求6所述的装置,其特征在于,所述挖掘同义词模块,具体用于确出所述子搜索词串的最后一个搜索词以及所述子搜索词串中除所述最后一个搜索词之外的其他搜索词;针对所述其他搜索词的每个搜索词,将该搜索词与所述最后一个搜索词进行组合,得到候选同义词对。
10.如权利要求6所述的装置,其特征在于,所述装置还包括:扩充同义词模块;
所述扩充同义词模块,用于以所述最终同义词对中的每个搜索词为顶点,搜索词与搜索词之间的同义词关系为边,构建拓扑图;将所述拓扑图输入到待训练的图神经网络模型中,以通过图神经网络模型,针对所述拓扑图中任意两个搜索词,将这两个搜索词作为搜索词对,并预测出所述搜索词对存在同义词关系的概率;以预测出的所述最终同义词对存在同义词关系的概率大于其他搜索词对存在同义词关系的概率为优化目标,对待训练的图神经网络模型进行训练,得到训练后的图神经网络模型;在得到所述训练后的图神经网络模型之后,将所述拓扑图输入到所述训练后的图神经网络模型中,以通过所述图神经网络模型,预测出所述拓扑图中未通过边连接的任意两个搜索词之间存在同义词关系的概率;将存在同义词关系的概率大于预设概率的两个搜索词确定为同义词对。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-5任一项所述的方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-5任一项所述的方法。
CN202310615472.7A 2023-05-29 2023-05-29 一种同义词挖掘方法、装置、存储介质及电子设备 Active CN116340469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310615472.7A CN116340469B (zh) 2023-05-29 2023-05-29 一种同义词挖掘方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310615472.7A CN116340469B (zh) 2023-05-29 2023-05-29 一种同义词挖掘方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116340469A CN116340469A (zh) 2023-06-27
CN116340469B true CN116340469B (zh) 2023-08-11

Family

ID=86884492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310615472.7A Active CN116340469B (zh) 2023-05-29 2023-05-29 一种同义词挖掘方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116340469B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566995A (zh) * 2008-04-25 2009-10-28 北京搜狗科技发展有限公司 一种互联网信息整合发布的方法和系统
CN101763405A (zh) * 2009-11-16 2010-06-30 陆嘉恒 基于同义词规则的近似字符串搜索技术
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
US8965882B1 (en) * 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
CN105447158A (zh) * 2015-12-02 2016-03-30 北京信息科技大学 一种基于图的专利搜索日志中同义词集自动挖掘方法
CN107220384A (zh) * 2017-06-29 2017-09-29 北京拉勾科技有限公司 一种基于相关性的搜索词处理方法、装置及计算设备
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置
CN108334631A (zh) * 2018-02-24 2018-07-27 武汉斗鱼网络科技有限公司 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN111767738A (zh) * 2020-03-30 2020-10-13 北京沃东天骏信息技术有限公司 一种标签校验方法、装置、设备和存储介质
CN113139115A (zh) * 2020-01-19 2021-07-20 北京沃东天骏信息技术有限公司 信息推荐方法、搜索方法、装置及客户端、介质及设备
CN115168545A (zh) * 2022-07-26 2022-10-11 北京百度网讯科技有限公司 群组搜索方法、装置、电子设备及介质
CN115422429A (zh) * 2022-09-26 2022-12-02 中国建设银行股份有限公司 关联词的确定方法、装置、计算机设备和存储介质
CN115827841A (zh) * 2022-11-28 2023-03-21 上海哔哩哔哩科技有限公司 搜索方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350649A (ja) * 2005-06-15 2006-12-28 Nintendo Co Ltd プログラムおよび情報処理装置
US9600566B2 (en) * 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566995A (zh) * 2008-04-25 2009-10-28 北京搜狗科技发展有限公司 一种互联网信息整合发布的方法和系统
CN101763405A (zh) * 2009-11-16 2010-06-30 陆嘉恒 基于同义词规则的近似字符串搜索技术
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
US8965882B1 (en) * 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
CN105447158A (zh) * 2015-12-02 2016-03-30 北京信息科技大学 一种基于图的专利搜索日志中同义词集自动挖掘方法
CN107220384A (zh) * 2017-06-29 2017-09-29 北京拉勾科技有限公司 一种基于相关性的搜索词处理方法、装置及计算设备
CN107958078A (zh) * 2017-12-13 2018-04-24 北京百度网讯科技有限公司 信息生成方法和装置
CN108334631A (zh) * 2018-02-24 2018-07-27 武汉斗鱼网络科技有限公司 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN113139115A (zh) * 2020-01-19 2021-07-20 北京沃东天骏信息技术有限公司 信息推荐方法、搜索方法、装置及客户端、介质及设备
CN111767738A (zh) * 2020-03-30 2020-10-13 北京沃东天骏信息技术有限公司 一种标签校验方法、装置、设备和存储介质
CN115168545A (zh) * 2022-07-26 2022-10-11 北京百度网讯科技有限公司 群组搜索方法、装置、电子设备及介质
CN115422429A (zh) * 2022-09-26 2022-12-02 中国建设银行股份有限公司 关联词的确定方法、装置、计算机设备和存储介质
CN115827841A (zh) * 2022-11-28 2023-03-21 上海哔哩哔哩科技有限公司 搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
凌佩云 ; .基于神经网络语义匹配的自动问答系统研究与应用.中国优秀硕士学位论文全文数据库.2021,第I138-861页. *

Also Published As

Publication number Publication date
CN116340469A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111488426B (zh) 一种查询意图确定方法、装置及处理设备
CN110162796B (zh) 新闻专题创建方法和装置
CN117235226A (zh) 一种基于大语言模型的问题应答方法及装置
EP3869511A1 (en) Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence
CN116303989A (zh) 一种面向多种检索场景的专利检索方法、装置、设备
CN111488510B (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN116186330B (zh) 一种基于多模态学习的视频去重方法及装置
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN116340469B (zh) 一种同义词挖掘方法、装置、存储介质及电子设备
CN115545572B (zh) 一种业务风控的方法、装置、设备及存储介质
CN114676257A (zh) 一种对话主题确定方法及装置
CN117252183B (zh) 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN111598092A (zh) 图像中目标区域的确定方法、目标识别方法及装置
CN117033469B (zh) 一种基于表格语义注释的数据库检索方法、装置以及设备
CN116070916B (zh) 数据处理方法、装置及设备
CN115827935B (zh) 一种数据处理方法、装置及设备
CN111723567B (zh) 文本选择数据处理方法、装置及设备
CN117875413B (zh) 一种知识图谱本体中概念构建方法、装置、介质及设备
CN117391150B (zh) 一种基于分层池化图哈希的图数据检索模型训练方法
CN117493564A (zh) 一种聚类方法、装置、存储介质及电子设备
CN117540825A (zh) 基于强化学习的预训练模型的构建方法及装置和电子设备
CN117313727A (zh) 一种模型训练和实体识别方法
CN116431465A (zh) 一种接口匹配的方法、装置、存储介质及电子设备
CN114429116A (zh) 一种数据处理方法、装置及设备
CN117494800A (zh) 一种基于构建出的核聚变知识图谱的任务执行方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant