CN108509474B - 搜索信息的同义词扩展方法及装置 - Google Patents

搜索信息的同义词扩展方法及装置 Download PDF

Info

Publication number
CN108509474B
CN108509474B CN201710833554.3A CN201710833554A CN108509474B CN 108509474 B CN108509474 B CN 108509474B CN 201710833554 A CN201710833554 A CN 201710833554A CN 108509474 B CN108509474 B CN 108509474B
Authority
CN
China
Prior art keywords
synonym
synonyms
pair
participles
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710833554.3A
Other languages
English (en)
Other versions
CN108509474A (zh
Inventor
谢润泉
连凤宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710833554.3A priority Critical patent/CN108509474B/zh
Publication of CN108509474A publication Critical patent/CN108509474A/zh
Application granted granted Critical
Publication of CN108509474B publication Critical patent/CN108509474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种搜索信息的同义词扩展方法及装置,其中,方法包括:对搜索信息进行切词处理,得到所述搜索信息的至少一个分词;获取分词的候选同义词集合;其中,候选同义词集合中包括分词的至少一个同义词;针对每个同义词,形成包括分词和同义词的同义词对;对同义词对进行特征提取,得到同义词对特征集合;根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率;如果目标概率超出预设的阈值,则以分词和同义词形成同义词扩展项,并基于同义词扩展项搜索得到搜索结果。通过该方法,能够提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度,解决现有技术中同义词替换不准确、搜索结果召回率差的技术问题。

Description

搜索信息的同义词扩展方法及装置
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种搜索信息的同义词扩展方法及装置。
背景技术
用户在使用搜索引擎进行信息搜索时,往往会出现输入的搜索词和获得的搜索结果中同一个词的概念不一致的情况。为了提高搜索结果的召回率,搜索引擎需要对用户输入的搜索词进行同义词扩展操作,通过对搜素词进行同义词替换来扩大搜索范围,以提高搜索结果的准确率。
相关搜索技术中,主要基于语言模型的替换模型来计算同义词的替换概率。然而,仅基于语言模型并不能准确判断同义词替换的合理性,可能出现基于语言模型计算出的替换后的搜索词的替换概率很高,但替换后的搜索词的语义发生漂移的问题,使同义词替换不准确,进而导致搜索结果的召回率差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种搜索信息的同义词扩展方法,通过对同义词对进行特征提取,得到同义词对的相对特征,根据相对特征对同义词对进行预测,得到同义词对预测为合理替换的概率,将预测为合理的分词和同义词形成搜索式进行搜索,以提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度,解决现有技术中同义词替换不准确、搜索结果召回率差的技术问题。
本发明的第二个目的在于提出一种搜索信息的同义词扩展装置。
本发明的第三个目的在于提出一种非临时性计算机可读存储介质。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种计算机设备。
为达上述目的,本发明第一方面实施例提出了一种搜索信息的同义词扩展方法,包括:
对搜索信息进行切词处理,得到所述搜索信息的至少一个分词;
获取所述分词的候选同义词集合;其中,所述候选同义词集合中包括所述分词的至少一个同义词;
针对每个同义词,形成包括所述分词和所述同义词的同义词对;
对所述同义词对进行特征提取,得到所述同义词对特征集合;其中,所述特征集合中包括至少一个相对特征,所述相对特征用于表征所述分词与所述同义词之间的关联程度和所述搜索信息与替换后的搜索信息之间的关联程度中的至少一个,其中,所述替换后的搜索信息是基于所述同义词形成的;
根据所述特征集合对所述同义词对进行预测,得到所述同义词对预测为合理替换的目标概率;
如果所述目标概率超出预设的阈值,则以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果。
本发明实施例的搜索信息的同义词扩展方法,通过对搜索信息进行切词处理,得到搜索信息的至少一个分词,获取分词的候选同义词集合,针对每个同义词,形成包括分词和同义词的同义词对,基于同义词扩展系统对同义词对进行特征提取,得到同义词对特征集合,并根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率,其中,特征集合中包括多个维度的相对特征,在目标概率超出预设的阈值时,以分词和同义词形成同义词扩展项,基于同义词扩展项得到搜索结果。由此,能够提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度。通过从多个维度对同义词替换进行预测,使同义词替换不只依赖于语言模型和替换概率,能够提高同义词替换的合理性,降低同义词替换后语义发生漂移的风险,从而能够解决现有技术中同义词替换不准确的技术问题。
为达上述目的,本发明第二方面实施例提出一种搜索信息的同义词扩展装置,包括:
分词模块,用于对搜索信息进行切词处理,得到所述搜索信息的至少一个分词;
获取模块,用于获取所述分词的候选同义词集合;其中,所述候选同义词集合中包括所述分词的至少一个同义词;
生成模块,用于针对每个同义词,形成包括所述分词和所述同义词的同义词对;
提取模块,用于对所述同义词对进行特征提取,得到所述同义词对特征集合;其中,所述特征集合中包括至少一个相对特征,所述相对特征用于表征所述分词与所述同义词之间的关联程度和所述搜索信息与替换后的搜索信息之间的关联程度中的至少一种,其中,所述替换后的搜索信息是基于所述同义词形成的;
预测模块,用于根据所述特征集合对所述同义词对进行预测,得到所述同义词对预测为合理替换的目标概率;
搜索模块,用于在所述目标概率超出预设的阈值时,以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果。
本发明实施例的搜索信息的同义词扩展装置,通过对搜索信息进行切词处理,得到搜索信息的至少一个分词,获取分词的候选同义词集合,针对每个同义词,形成包括分词和同义词的同义词对,基于同义词扩展系统对同义词对进行特征提取,得到同义词对特征集合,并根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率,其中,特征集合中包括多个维度的相对特征,在目标概率超出预设的阈值时,以分词和同义词形成同义词扩展项,基于同义词扩展项搜索得到搜索结果。由此,能够提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度。通过从多个维度对同义词替换进行预测,使同义词替换不只依赖于语言模型和替换概率,能够提高同义词替换的合理性,降低同义词替换后语义发生漂移的风险,从而能够解决现有技术中同义词替换不准确的技术问题。
为达上述目的,本发明第三方面实施例提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面实施例所述的搜索信息的同义词扩展方法。
为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面实施例所述的搜索信息的同义词扩展方法。
为达上述目的,本发明第五方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时,实现如第一方面实施例所述的搜索信息的同义词扩展方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一实施例提出的搜索信息的同义词扩展方法的流程示意图。
图2为本发明另一实施例提出的搜索信息的同义词扩展方法的流程示意图;
图3为本发明又一实施例提出的搜索信息的同义词扩展方法的流程示意图;
图4为本发明一具体实施例中同义词替换的实现框图;
图5为本发明一实施例提出的搜索信息的同义词扩展装置的结构示意图;
图6为本发明另一实施例提出的搜索信息的同义词扩展装置的结构示意图;
图7为本发明又一实施例提出的搜索信息的同义词扩展装置的结构示意图;
图8为本发明一实施例提出的计算机设备的结构示意图;
图9为本发明一具体实施例的交互示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的搜索信息的同义词扩展方法及装置。
为了便于理解本发明,在详细解释本发明的具体实现方案之前,首先对本发明中可能用到的术语进行解释如下:
query:指用户在搜索引擎中输入的查询信息,可以为一个或多个词语,也可以为一句话等,搜索引擎依据接收的query进行搜索。
语言模型:自然语言处理中计算一个句子概率的模型,评估句子是否合理,广泛用于机器翻译、语音识别等应用中,常用的是N-gram语言模型。
doc:搜索引擎返回结果中的每一结果项称为一个doc。
QRW:QueryReWrite的缩写,指搜索引擎中和query相关的分析处理系统,包括query纠错、query词权重、非必留、query同义词、query意图识别等模块。
用户在使用搜索引擎的过程中,输入的搜索词(query)可能不太准确,导致输入的query和doc中对同一个概念的描述不一致。为了能够召回概念一致的相关文档,搜索引擎需要对用户输入的query进行同义词扩展操作。比如用户输入的query为“减肥快招”,但是很多doc中的表述是“瘦身快招”、“减肥秘籍”等,如果直接基于用户输入的query来下发检索式(减肥AND快招),可能会导致召回的相关文档不足。因此,需要将“减肥”同义成“瘦身”,将“快招”同义成“秘籍”,将query同义词扩展和原始query一起下发检索式(减肥OR瘦身)AND(快招OR秘籍),以达到扩大召回结果的目的。尤其当用户输入的query没有召回相关的doc时,合理的query同义词扩展显得更加重要。
现有的同义词替换方法主要基于语言模型的替换模型来计算同义词的替换概率。假设原始query(q)经过同义词对(wi→wj)替换后变成同义词query(q'),则其替换概率计算公式如下:
p(q→q')=p(wi→wj)p(q')
Figure BDA0001409249320000041
其中p(q')基于最大trigram语言模型计算替换后的query概率,p(wi→wj)是同义词对的前向替换概率,在挖掘同义词词典时进行计算。基于这种策略,会出现替换后的query语言模型的概率很高,但query本身的语义发生了漂移,比如query“没关系”->“不联系”,虽然“不联系”的语言模型概率比较高,但是替换并不合理。
由于同义词替换和query上下文或doc上下文的强相关,query中不合理的同义词替换同样会召回和用户意图不符的结果,影响用户体验。对于同一个同义词对,不同的上下文可能导致不同的替换结果。比如同义词对“钱包->零钱包”,当用户输入的query为“有哪些质量好的钱包”时,将query替换成“有哪些质量好的零钱包”是合理的;当用户输入的query为“玖富钱包”时,由于玖富钱包是一个借贷APP的名称,将query替换成“玖富零钱包”则不合理。
此外,挖掘的同义词词典也不能保证同义词替换完全准确,比如国贸和地贸,虽然语义上有很强的相关性,但是并不能看成同义词对,也不能在query中进行替换。同时,query的同义词替换也要结合doc综合考虑,比如“广州大学->广大”,doc1:“广大市政学院专升本学习指南”,doc2:“广大农村市场成阿里京东新战场”,在doc1中同义词扩展是合理的;在doc2中替换后的同义词语义发生漂移。
综上所述,传统的同义词替换方法忽略了替换词的前后紧密度、query语义信息、query成分信息等,仅基于语言模型并不能准确判断同义词替换的合理性,容易导致替换后的query发生语义漂移,召回结果差。
针对上述问题,本发明实施例提出一种搜索信息的同义词扩展方法,通过对同义词对进行特征提取,得到同义词对多个维度的相对特征,根据相对特征对同义词对进行预测,得到同义词对预测为合理替换的概率,将预测为合理的分词和同义词形成同义词扩展项进行搜索,以提高同义词替换的合理性和准确性,进而提高搜索结果的召回率和精度。
图1为本发明一实施例提出的搜索信息的同义词扩展方法的流程示意图。
如图1所示,该搜索信息的同义词扩展方法包括以下步骤:
步骤101,对搜索信息进行切词处理,得到搜索信息的至少一个分词。
用户通过搜索引擎获取信息时,可以将有关所需获取信息的搜索信息输入至搜索引擎提供的搜索框中,并触发搜索操作。搜索引擎接收到用户输入的搜索信息后,可以采用相关的分词处理技术对搜索信息进行切词处理,得到搜索信息的至少一个分词。
比如,用户输入的搜索信息为“明天天气如何”,则对该搜索信息进行切词处理后得到的分词分别为“明天”、“天气”和“如何”。
步骤102,获取分词的候选同义词集合。
其中,候选同义词集合中包括分词的至少一个同义词。
本实施例中,接收到用户输入的搜索信息并对搜索信息进行切词处理得到至少一个分词之后,可以进一步获取分词的至少一个同义词,并组成候选同义词集合。
作为一种示例,针对每个分词,可以获取与该分词词义相同或相似的词作为该分词的同义词,并利用所获取的所有同义词组成候选同义词集合。
步骤103,针对每个同义词,形成包括分词和同义词的同义词对。
比如,对于分词“触动”,其候选同义词集合中包括“感动打动震动”三个同义词,则针对每个同义词,可以分别形成同义词对(触动感动)、(触动打动)和(触动震动)。
步骤104,对同义词对进行特征提取,得到同义词对特征集合。
其中,特征集合中包括至少一个相对特征,相对特征用于表征分词与同义词之间的关联程度和搜索信息与替换后的搜索信息之间的关联程度中的至少一种。其中,替换后的搜索信息是基于同义词形成的。
本实施例中,针对形成的每个同义词对,可以进一步对同义词对进行特征提取,得到同义词对特征集合。
作为一种示例,可以预先训练得到同义词扩展系统,进而基于同义词扩展系统对同义词对进行特征提取得到同义词对特征集合。
举例而言,可以在同义词扩展系统中设置不同的模块,以用于提取同义词对多个维度的相对特征。比如,可以在同义词扩展系统中设置语言模型、同义词模块、统计词典和词向量模块,基于上述各个模块,可以提取出同义词对的语言模型特征、同义词词典特征、词左右熵、多词概率互信息(Probability Mutual Information,PMI)、多词逆向文件频率(Inverse Document Frequency,IDF)、重要性、同义词替换概率等特征,进而将所提取的特征中的至少两个进行组合,得到同义词对特征集合。
步骤105,根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率。
本实施例中,得到同义词对的特征集合之后,可以进一步根据特征集合对同义词对进行预测,进而得到同义词对预测为合理替换的目标概率。
步骤106,如果目标概率超出预设的阈值,则以分词和同义词形成同义词扩展项,并基于同义词扩展项搜索得到搜索结果。
其中,阈值可以是预先设定的,可以根据同义词替换的准确度要求由开发人员自行设定,阈值设置的越大,同义词替换的准确度越高,召回的搜索结果的精度越高。
本实施例中,可以预先设置好一个概率的阈值,将预测得到的同义词对预测为合理替换的目标概率同预设的阈值进行比较,当得到的目标概率大于预设的阈值时,将分词和同义词形成同义词扩展项,即根据目标概率超出阈值的同义词对形成同义词扩展项,并根据同义词扩展项搜索获得搜索结果。
比如,假设预设的阈值为0.6,对于同义词对(触动感动),得到的预测为合理替换的目标概率为0.63,则该同义词对可以形成同义词扩展项(触动OR感动),并基于该同义词扩展项进行搜索。
本实施例的搜索信息的同义词扩展方法,通过对搜索信息进行切词处理,得到搜索信息的至少一个分词,获取分词的候选同义词集合,针对每个同义词,形成包括分词和同义词的同义词对,基于同义词扩展系统对同义词对进行特征提取,得到同义词对特征集合,并根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率,其中,特征集合中包括多个维度的相对特征,在目标概率超出预设的阈值时,以分词和同义词形成同义词扩展项,基于同义词扩展项搜索得到搜索结果。由此,能够提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度。通过从多个维度对同义词替换进行预测,使同义词替换不只依赖于语言模型和替换概率,能够提高同义词替换的合理性,降低同义词替换后语义发生漂移的风险,从而能够解决现有技术中同义词替换不准确的技术问题。
为了能够快速而准确地获得同义词对的特征集合,可以先根据采集的数据训练获得同义词扩展系统,以能够基于同义词扩展系统得到同义词对的特征集合。从而,在本发明实施例一种可能的实现方式中,如图2所示,该搜索信息的同义词扩展方法可以包括以下步骤:
步骤201,采集用于挖掘同义词词典的基础数据。
步骤202,对基础数据进行数据挖掘形成同义词词典。
其中,基础数据可以为搜索引擎的服务器中缓存的点击日志、腾讯新闻、微信文章等。
本实施例中,采集到基础数据之后,可以对基础数据进行数据挖掘,以形成同义词词典。比如,可以将搜索获得相同或相近的搜索结果的query作为同义词形成同义词词典。
步骤203,基于同义词词典形成同义词训练样本,使用同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统。
其中,同义词扩展系统用于提取同义词对的特征。同义词扩展系统可以预先构建好,并设置同义词扩展系统包括多个模块,比如同义词扩展系统可以包括语言模型、同义词模块、统计词典、词向量模块等,构建同义词扩展系统采用的模块不同,同义词扩展系统的功能也不同,可以根据实际需求构建同义词扩展系统,本发明对此不作限定。
本实施例中,通过对采集的基本数据进行挖掘形成同义词词典之后,可以从获得的同义词词典中获取多个同义词,形成同义词训练样本,并使用同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统。
步骤204,对搜索信息进行切词处理,得到搜索信息的至少一个分词。
当接收到用户输入的搜索信息之后,可以对该搜索信息进行切词处理,以得到搜索信息的至少一个分词。
具体地,可以采用相关分词算法对用户输入的搜索信息进行切词处理,由于分词算法为现有技术,此处不作过多描述。
步骤205,从同义词词典中,获取与分词词义相似或者相同的词作为同义词。
本实施例中,对搜索信息进行切词处理获得至少一个分词之后,针对每一个分词,可以从预先挖掘形成的同义词词典中,获取与所得分词词义相似或相同的词作为与该分词匹配的同义词。
步骤206,利用获取的所有同义词形成候选同义词集合。
本实施例中,针对每一个分词,可以利用获取的与该分词匹配的所有同义词形成候选同义词集合。比如,对于分词“触动”,从同义词词典中获取的同义词为“感动”、“打动”和“震动”,则分词“触动”对应的候选同义词集合为(感动打动震动)。
步骤207,针对每个同义词,形成包括分词和同义词的同义词对。
步骤208,将同义词对输入到训练后的同义词扩展系统中,基于训练后的同义词扩展系统进行特征提取,得到同义词对特征集合。利用训练后的同义词扩展系统,将形成的同义词对输入至同义词扩展系统中,可以对同义词对进行特征提取,得到同义词对特征集合。
步骤209,根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率。
步骤210,针对每个分词,将所有同义词对的目标概率进行排序,按照从高到低的顺序,从所有同义词对中选择部分或者全部作为目标同义词对。
本实施例中,基于训练后的同义词扩展系统对同义词对进行特征提取得到同义词对的特征集合,并根据所得特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率之后,可以进一步对目标概率进行排序。针对每一个分词,可以将与该分词相关的所有同义词对的目标概率按照从高到低的顺序进行排序,并按照从高到低的顺序从所有的同义词对中选择部分或者全部同义词对作为目标同义词对,以用于信息搜索。
步骤211,将每个目标同义词对的目标概率与阈值比较。
其中,阈值可以是预先设定的,可以根据同义词替换的准确度要求由开发人员自行设定,阈值设置的越大,同义词替换的准确度越高,召回的搜索结果的精度越高。
步骤212,将超出阈值的目标同义词对中的同义词作为分词的扩展同义词。
本实施例中,针对每个目标同义词对,将对应的目标概率同预设的阈值进行比较,并将超出阈值的目标同义词对中的同义词作为分词的扩展同义词。
通过对同义词对的目标概率按照从高到低的顺序进行排序,并从中选择部分或全部作为目标同义词对,将目标同义词对的目标概率同预设的阈值进行比较,超出阈值的目标同义词对作为分词的扩展同义词,能够缩小比较范围,降低运算复杂度,进而提高同义词确定速度。
步骤213,利用每个分词以及分词对应的扩展同义词以与或树的形式,形成同义词扩展项。
其中,分词与各个同义词之间为与的关系,各个同义词之间为或的关系,可以将分词作为根节点,将各个同义词作为子节点形成与或树,按照以与或树的形式表示的分词和同义词形成同义词扩展项。
步骤214,根据同义词扩展项在文档库中进行搜索,得到与同义词扩展项匹配的搜索结果。
本实施例中,获得同义词扩展项之后,可以进一步根据同义词扩展项在文档库中进行搜索,得到与同义词扩展项匹配的搜索结果。
本实施例的搜索信息的同义词扩展方法,通过采集用于挖掘同义词词典的基础数据,并对基础数据进行数据挖掘形成同义词词典,基于同义词词典形成同义词训练样本,使用同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统,对搜索信息进行切词处理,得到搜索信息的至少一个分词,从同义词词典中,获取与分词词义相似或者相同的词作为同义词,利用获取的所有同义词形成候选同义词集合,针对每个同义词,形成包括分词和同义词的同义词对,将同义词对输入到训练后的同义词扩展系统中,基于同义词扩展系统对同义词对进行特征提取,得到同义词对特征集合,并根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率,针对每个分词,将所有同义词对的目标概率进行排序,按照从高到低的顺序,从所有同义词对中选择部分或者全部作为目标同义词对,将每个目标同义词对的目标概率与阈值比较,并将超出阈值的目标同义词对中的同义词作为分词的扩展同义词,利用每个分词以及分词对应的扩展同义词以与或树的形式,形成同义词扩展项,进而根据同义词扩展项在文档库中进行搜索,得到与同义词扩展项匹配的搜索结果。通过对搜索信息进行切词处理,能够降低同义词匹配难度。通过针对每个分词,对所有同义词对的目标概率进行排序,按照从高到低的顺序选择部分或全部作为目标同义词对,以利用目标同义词对的目标概率与阈值比较,能够降低运算复杂度。通过将分词以及对应的扩展同义词以与或树的形式形成同义词扩展项,能够扩大搜索范围,进而提高召回率。
由于同义词扩展系统包括的模块不同,提取的特征也不同,进而得到的同义词对特征集合也不同。下面针对基于同义词扩展系统可以提取到的特征分别进行描述如下:
(1)获取同义词对中分词和同义词分别与预设个数各自相邻的词组成句子的第一概率,并利用第一概率形成同义词对的语言模型特征,其中,语言模型特征中包括分词和同义词各自的第一概率以及两者的第一差值。
举例而言,对于搜索信息“北京电影学院”,分词“电影”的同义词为“影片”,则搜索信息经同义词替换后变为“北京影片学院”。当计算前后最多两个相邻的词组成句子的第一概率时,计算结果为p(北京电影学院)=p(北京|<start>)*p(电影|北京,<start>)*p(学院|北京,电影)*p(<end>|电影,学院)=-8.399,同理,可以计算p(北京影片学院)=-13.2839。进一步地,可以计算两个第一概率的第一差值为4.88491,并基于所得的两个第一概率以及两者的第一差值形成“北京电影学院”和“北京影片学院”的语言模型特征。
需要说明的是,还可以计算分词和同义词分别与前后一个词组成句子的第一概率,仍以上述例子为例,可以计算p(电影|北京,<start>),p(学院|北京,电影),p(<end>|电影,学院)等,进而计算第一概率及差值,其计算原理与上述计算过程类似,此处不再赘述。
(2)获取同义词对的词典特征,其中,词典特征包括同义词对的前向替换概率和后向替换概率。
比如,对于同义词对(电影影片),电影到影片的前向替换概率为0.136742,而电影到影片的后向替换概率为0.789568。
(3)获取同义词对中分词和同义词与各自相邻的词组成的短语的IDF,并利用IDF形成同义词对的多个多词IDF特征,其中,多词IDF特征包括分词与同义词各自的IDF,以及两者的第二差值。
多词IDF可以衡量替换前后召回doc的能力,短语的IDF越小,召回能力越强,能够召回的doc数越多。比如北京和电影的IDF为6.641793,北京和影片的IDF为9.854968,则北京和电影组成的短语能够召回的doc相对较多。
(4)获取同义词对中分词和同义词与各自相邻的词之间的互信息,利用互信息形成同义词对的多词PMI特征,其中,多词PMI特征包括分词与同义词各自的PMI,以及两者的第三差值。
多词PMI特征可以用于衡量替换前后query的内部紧密度,PMI值越大,紧密度越大。比如,北京和电影的PMI为1.777793,北京和影片的PMI为0,则北京和电影的紧密度更大。
(5)获取同义词对中分词与同义词的词向量特征,其中,词向量特征用于计算分词与同义词之间的余弦相似度,或者替换前分词与预设个数的相邻词组成的短语与替换后同义词与预设个数的相邻词组成的短语之间的余弦相似度。
具体地,在计算余弦相似度时,可以针对每个分词和对应的同义词,利用两者的词向量特征计算该同义词对的余弦相似度。或者,也可以先计算替换前分词与预设个数的相邻词的平均词向量,作为替换前分词与预设个数的相邻词组成的短语的词向量,并计算替换后同义词与预设个数的相邻词的平均词向量,作为替换后同义词与预设个数的相邻词组成的短语的词向量,进而计算两个短语的词向量之间的余弦相似度。
(6)根据采集到的历史搜索信息的点击数据,获取分词和同义词的权重,并利用权重形成同义词对的权重特征,其中,权重特征包括分词和同义词各自的权重,以及分词的权重与搜索信息的权重的比值。
其中,历史搜索信息的点击数据可以从各个搜索引擎的服务器中获得。
不难理解,分词的权重与搜索信息的权重的比值越接近于1,表明分词与所表达的语义与搜索信息所要表达的完整语义越相似,进而可以根据分词的权重与同义词的权重,确定同义词扩展后的语义是否更加接近搜索信息的原始语义。
(7)获取同义词对中分词与同义词的左右熵,形成同义词对的左右熵特征。
左右熵特征可以用于衡量分词和同义词的左右搭配的不确定程度,熵越小,不确定程度越高,替换概率越小。
将上述语言模型特征、词典特征、多词IDF特征、多词PMI特征、词向量特征、权重特征和左右熵特征中的两种及两种以上特征进行组合,可以得到同义词对的特征集合。
通过从词向量、IDF、PMI、权重、语言模型等多个维度获取同义词对的特征,以基于多个特征组成的特征集合对同义词对进行预测,能够提高同义词替换的合理性和准确性,进而提高搜索结果的召回率。
基于多个维度的特征对同义词对进行预测仍可能存在预测结果不准确的问题,为了进一步降低替换后的搜索词发生语义漂移的风险,提高同义词替换的准确度,在得到同义词对预测为合理性的目标概率之后,还可以进一步结合短语识别、紧密度等对预测结果进行后验修正。从而,本发明实施例提出了另一种搜索信息的同义词扩展方法,图3为本发明又一实施例提出的搜索信息的同义词扩展方法的流程示意图。
如图3所示,在如图1所示实施例的基础上,在步骤106之前,还可以包括以下步骤:
步骤301,验证同义词对是否满足预设的验证条件。
其中,验证条件包括但不限于搜索信息的紧密度和最大同义单元。
对于验证条件为紧密度的情况,当预测的可以进行同义词替换的分词为一个短语或实体中的一部分时,即搜索信息为一个紧密的实体或者搜索信息中包含紧密的实体时,可以认为同义词对不满足验证条件。当同义词对不满足预设的验证条件时,针对验证条件为紧密度的情况,对应的修正规则为不对同义词对中的分词进行同义词替换。
对于验证条件为最大同义单元的情况,当较短的分词为较长的分词的子串,且两个分词均有对应的同义词结果时,可以认为同义词对不满足预设的验证条件。当同义词对不满足预设的验证条件时,针对验证条件为最大同义单元的情况,对应的修正规则为同义词替换以最大同义单元为准。
步骤302,当验证出不满足其中一个验证条件时,按照其中一个验证条件对应的修正规则对同义词对进行修正。
本实施例中,若对同义词对进行验证的结果为不满足验证条件,则按照不满足的验证条件的修正规则对同义词对进行修正。
作为一种示例,若验证出同义词对不满足紧密度的验证条件,则不将同义词对中的分词替换为同义词。比如,用户输入的搜索信息为“爱在西元前”,其分词结果是“爱/在/西元/前”,其中,“爱”被预测同义成“爱情”,但由于“爱在西元前”是一个紧密的实体,因此,经过修正,不会将“爱”替换为“爱情”。
作为另一种示例,若验证出同义词对不满足最大同义单元的验证条件,则根据修正规则,以最大同义单元为准进行同义词替换。比如,用户输入的搜索信息为“芦荟胶哪个牌子好”,其分词结果是“芦荟/胶/哪个/牌子/好”,其中,“牌子”被预测同义成“品牌”,“哪个牌子”整体同义成“哪种品牌”,根据修正规则,此时取“哪个牌子”的同义词结果,即“哪种品牌”。
需要说明的是,上述两种验证条件并不限于仅能使用其中一种,还可以将两种验证方法结合使用,以进一步提高同义词替换的准确度。
本实施例的搜索信息的同义词扩展方法,通过验证同义词对是否满足预设的验证条件,并在不满足其中一个验证条件时,按照其中一个验证条件对应的修正规则对同义词对进行修正,能够提高同义词替换的准确度,进而提高搜索结果的召回率和精度。
图4为本发明一具体实施例中同义词替换的实现框图。如图4所示,可以将Query点击日志、腾讯新闻和微信文章作为基础数据,基于基础数据进行同义词挖掘以形成同义词词典。基础模块中包括语言模块、同义词、统计词典和词向量,基于语言模型,根据基础数据进行训练,可以得到同义词训练样本。此外,还可以从形成的同义词词典中获取同义词训练样本。根据获取的同义词训练样本,对基础模块中的各个部分进行训练,得到训练后的基础模块。基于训练后的基础模块,可以对同义词对进行特征提取,得到同义词对的语言模型特征、词向量、词左右熵、多词PMI、多词IDF、静态IMP(权重特征)、同义词替换概率、同义词余弦相似性等特征,利用上述特征中的至少两个特征可以形成特征集合。将得到的特征集合输入至模型学习所得的预测模型中,可以得到同义词对的替换预测概率。最后,结合替换预测概率和命名实体识别、紧密度计算等对同义词对进行后验修正,将修正后的同义词与分词一起,以与或树的形式形成搜索式,经QRW模块处理后,将搜索式下发给索引集群,以由搜索集群对相关文档进行召回并排序。
在如图4所示的框图中,模型学习的目的在于训练获得预测模型,可以根据同义词训练样本的特征训练获得预测模型,以同义词替换后query是否发生语义漂移,以及替换后的query是否能够召回相关的doc为标准,对同义词训练样本进行标注。其中,样本标注示例如表1所示:
表1
标注信息 替换前query 替换后query
0 显瘦 显示瘦
1 医保 中心居民_医疗_保险_中心
0 快递信 快递苏见信
1 宅男视野 宅男眼界
0 玉明 玉明朝
表1中,0表示替换不合理,1表示替换合理。
在通过模型学习训练获得预测模型时,可以对进行特征提取之后的同义词训练样本按照一定的比例划分为训练集和测试集,比如按照8比2的比例随机划分为训练集和测试集,并采用梯度提升树(Gradient Boosting Decision Tree,GBDT)算法进行模型学习,训练得到预测模型。当然,也可以采用其他算法进行模型学习,本发明仅以GBDT算法为例进行说明,不能作为对本发明的限制。
利用模型学习所得的预测模型,可以得到同义词对预测为合理替换的概率。
通过从多个维度对同义词对进行特征提取,并根据提取的特征得到预测概率,进而对同义词对进行后验修正,根据修正后的同义词与分词形成搜索式进行搜索,能够提高同义词替换的准确度,进而提高搜索结果召回率。
为了实现上述实施例,本发明还提出一种搜索信息的同义词扩展装置。
图5为本发明一实施例提出的搜索信息的同义词扩展装置的结构示意图。
如图5所示,该搜索信息的同义词扩展装置50包括:分词模块510、获取模块520、生成模块530、提取模块540、预测模块550,以及搜索模块560。其中,
分词模块510,用于对搜索信息进行切词处理,得到搜索信息的至少一个分词。
获取模块520,用于获取分词的候选同义词集合。
其中,候选同义词集合中包括分词的至少一个同义词。
生成模块530,用于针对每个同义词,形成包括分词和同义词的同义词对。
提取模块540,用于对同义词对进行特征提取,得到同义词对特征集合。
其中,特征集合中包括至少一个相对特征,相对特征用于表征分词与同义词之间的关联程度和搜索信息与替换后的搜索信息之间的关联程度中的至少一个。其中,替换后的搜索信息是基于同义词形成的。
预测模块550,用于根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率。
可选地,在本发明实施例一种可能的实现方式中,预测模块550具体用于:
获取分词和同义词分别与预设个数各自相邻的词组成句子的第一概率,利用第一概率形成同义词对的语言模型特征,其中,语言模型特征包括分词和同义词各自的第一概率以及两者的第一差值;和/或,
获取同义词对的词典特征,其中,词典特征包括:同义词对的前向替换概率和后向替换概率;和/或,
获取分词和同义词与各自相邻的词组成的短语的IDF,利用IDF形成同义词对的多词IDF特征,其中,多词IDF特征包括分词与同义词各自的IDF,以及两者的第二差值;和/或,
获取分词和同义词与各自相邻的词之间的互信息,利用互信息形成同义词对的多词PMI特征,其中,多词PMI特征包括分词与同义词各自的PMI,以及两者的第三差值;和/或,
获取分词与同义词的词向量特征,其中,词向量特征用于计算分词与同义词之间的余弦相似度,或者替换前分词与预设个数的相邻词组成的短语与替换后同义词与预设个数的相邻词组成的短语之间的余弦相似度;和/或,
根据采集到的历史搜索信息的点击数据,获取分词和同义词的权重,利用权重形成同义词对的权重特征,其中,权重特征包括分词和同义词各自的权重,以及分词的权重与搜索信息的权重的比值;和/或,
获取分词与同义词的左右熵,形成同义词对的左右熵特征;
其中,特征集合为语言模型特征、词典特征、多词IDF特征、多词PMI特征、词向量特征、权重特征和左右熵特征中两种及两种以上特征的组合。
通过从词向量、IDF、PMI、权重、语言模型等多个维度获取同义词对的特征,以基于多个特征组成的特征集合对同义词对进行预测,能够提高同义词替换的合理性和准确性,进而提高搜索结果的召回率。
搜索模块560,用于在目标概率超出预设的阈值时,以分词和同义词形成同义词扩展项,并基于同义词扩展项搜索得到搜索结果。
为了能够快速而准确地获得同义词对的特征集合,可以先根据采集的数据训练获得同义词扩展系统,以能够基于同义词扩展系统得到同义词对的特征集合。从而,在本发明实施例一种可能的实现方式中,如图6所示,在如图5所示实施例的基础上,该搜索信息的同义词扩展装置50还可以包括:
采集模块500,用于采集用于挖掘同义词词典的基础数据。
挖掘模块501,用于对基础数据进行数据挖掘形成同义词词典。
训练模块502,用于基于同义词词典形成同义词训练样本,使用同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统。
其中,同义词扩展系统用于提取同义词对的特征。同义词扩展系统可以预先构建好,并设置同义词扩展系统包括多个模块,比如同义词扩展系统可以包括语言模型、同义词模块、统计词典、词向量模块等,构建同义词扩展系统采用的模块不同,同义词扩展系统的功能也不同,可以根据实际需求构建同义词扩展系统,本发明对此不作限定。
选择模块570,用于针对每个分词,将所有同义词对的目标概率进行排序,按照从高到低的顺序,从所有同义词对中选择部分或者全部作为目标同义词对。
获取模块520具体包括:
获取单元511,用于从同义词词典中,获取与分词词义相似或者相同的词作为同义词。
生成单元512,用于利用获取的所有同义词形成候选同义词集合。
提取模块540具体用于将同义词对输入到训练后的同义词扩展系统中,基于训练后的同义词扩展系统进行特征提取,得到同义词对特征集合。
搜索模块540具体用于将每个目标同义词对的目标概率与阈值比较;将超出阈值的目标同义词对中的同义词作为分词的扩展同义词;利用每个分词以及分词对应的扩展同义词以与或树的形式,形成同义词扩展项;根据同义词扩展项在文档库中进行搜索,得到与同义词扩展项匹配的搜索结果。
通过对搜素信息进行切词处理,能够降低同义词匹配难度。通过针对每个分词,对所有同义词对的目标概率进行排序,按照从高到低的顺序选择部分或全部作为目标同义词对,以利用目标同义词对的目标概率与阈值比较,能够降低运算复杂度。通过将分词以及对应的扩展同义词以与或树的形式形成同义词扩展项,能够扩大搜索范围,进而提高召回率。
基于多个维度的特征对同义词对进行预测仍可能存在预测结果不准确的问题,为了进一步降低替换后的搜索词发生语义漂移的风险,提高同义词替换的准确度,在得到同义词对预测为合理性的目标概率之后,还可以进一步结合短语识别、紧密度等对预测结果进行后验修正。从而,在本发明实施例一种可能的实现方式中,如图7所示,在如图5所示实施例的基础上,该搜索信息的同义词扩展装置50还可以包括:
验证模块580,用于验证同义词对是否满足预设的验证条件。
修正模块590,用于当验证出不满足其中一个验证条件时,按照其中一个验证条件对应的修正规则对同义词对进行修正。
通过验证同义词对是否满足预设的验证条件,并在不满足其中一个验证条件时,按照其中一个验证条件对应的修正规则对同义词对进行修正,能够提高同义词替换的准确度,进而提高搜索结果的召回率和精度。
需要说明的是,前述对搜索信息的同义词扩展方法实施例的解释说明也适用于本实施例的搜索信息的同义词扩展装置,其实现原理类似,此处不再赘述。
本实施例的搜索信息的同义词扩展装置,通过对搜索信息进行切词处理,得到搜索信息的至少一个分词,获取分词的候选同义词集合,针对每个同义词,形成包括分词和同义词的同义词对,基于同义词扩展系统对同义词对进行特征提取,得到同义词对特征集合,并根据特征集合对同义词对进行预测,得到同义词对预测为合理替换的目标概率,其中,特征集合中包括多个维度的相对特征,在目标概率超出预设的阈值时,以分词和同义词形成同义词扩展项,基于同义词扩展项搜索得到搜索结果。由此,能够提高同义词替换的合理性和准确性,提高搜索结果的召回率和精度。通过从多个维度对同义词替换进行预测,使同义词替换不只依赖于语言模型和替换概率,能够提高同义词替换的合理性,降低同义词替换后语义发生漂移的风险,从而能够解决现有技术中同义词替换不准确的技术问题。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,能够实现如前述实施例所述的搜索信息的同义词扩展方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行如前述实施例所述的搜索信息的同义词扩展方法。
为了实现上述实施例,本发明还提出一种计算机设备。
图8为本发明一实施例提出的计算机设备的结构示意图。
如图8所示,该计算机设备80包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序803,其中,处理器802执行该计算机程序803时,实现如第一方面实施例所述的搜索信息的同义词扩展方法。
图9为本发明一具体实施例的交互示意图。如图9所示,客户端与搜索引擎之间通过网络连接,用户在客户端输入搜索信息之后,客户端将接收到的搜索信息经网络发送给搜索引擎。其中,客户端可以为笔记本电脑、平板电脑、智能手机等。搜索引擎包括前述实施例所述的搜索装置,当搜索引擎接收到客户端发送的用户输入的搜索信息之后,基于搜索装置对搜索信息进行处理后,得到与搜索信息相关的同义词扩展项,进而基于同义词扩展项进行搜索得到搜索结果,并将搜索结果发送给客户端,由客户端将与搜索信息相关的搜索结果显示在显示界面中以展示给用户。
通过对搜索信息进行处理,考虑多个维度的特征来判断搜索信息中各个分词同义词替换的合理性,能够提高同义词替换的准确度,进而提高搜索结果的召回率和精度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种搜索信息的同义词扩展方法,其特征在于,包括:
对搜索信息进行切词处理,得到所述搜索信息的至少一个分词;
获取所述分词的候选同义词集合;其中,所述候选同义词集合中包括所述分词的至少一个同义词;
针对每个同义词,形成包括所述分词和所述同义词的同义词对;
对所述同义词对进行特征提取,得到所述同义词对的多个维度的相对特征;
对所述多个维度的相对特征中至少两个相对特征进行组合,得到所述同义词对特征集合;
其中,所述特征集合中包括至少一个相对特征,所述相对特征用于表征所述分词与所述同义词之间的关联程度和所述搜索信息与替换后的搜索信息之间的关联程度中的至少一种,其中,所述替换后的搜索信息是基于所述同义词形成的;
根据所述特征集合对所述同义词对进行预测,得到所述同义词对预测为合理替换的目标概率;
如果所述目标概率超出预设的阈值,则以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述获取所述分词的候选同义词集合,包括:
从同义词词典中,获取与所述分词词义相似或者相同的词作为所述同义词;
利用获取的所有同义词形成所述候选同义词集合。
3.根据权利要求2所述的方法,其特征在于,所述从同义词词典中,获取与所述分词词义相似或者相同的词作为所述同义词之前,还包括:
采集用于挖掘所述同义词词典的基础数据;
对所述基础数据进行数据挖掘形成所述同义词词典。
4.根据权利要求3所述的方法,其特征在于,对所述同义词对进行特征提取,得到所述同义词对的多个维度的相对特征之前,还包括:
基于所述同义词词典形成同义词训练样本,使用所述同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统;其中,所述同义词扩展系统用于提取同义词对的特征;
所述对所述同义词对进行特征提取,得到所述同义词对的多个维度的相对特征,包括:
将所述同义词对输入到所述训练后的同义词扩展系统中,基于所述训练后的同义词扩展系统进行特征提取,得到所述同义词对的多个维度的相对特征。
5.根据权利要求2所述的方法,其特征在于,所述根据所述特征集合对所述同义词对进行预测,得到所述同义词对预测为合理替换的目标概率之后,还包括:
针对每个分词,将所有同义词对的所述目标概率进行排序,按照从高到低的顺序,从所有同义词对中选择部分或者全部作为目标同义词对;
所述如果所述目标概率超出预设的阈值,则以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果,包括:
将每个目标同义词对的所述目标概率与所述阈值比较;
将超出所述阈值的所述目标同义词对中的同义词作为所述分词的扩展同义词;
利用每个所述分词以及所述分词对应的所述扩展同义词以与或树的形式,形成所述同义词扩展项;
根据所述同义词扩展项在文档库中进行搜索,得到与所述同义词扩展项匹配的所述搜索结果。
6.根据权利要求1所述的方法,其特征在于,所述如果所述目标概率超出预设的阈值,则以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果之前,还包括:
验证所述同义词对是否满足预设的验证条件;
当验证出不满足其中一个验证条件时,按照所述其中一个验证条件对应的修正规则对所述同义词对进行修正。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述同义词对进行特征提取,得到所述同义词对的多个维度的相对特征,包括:
获取所述分词和所述同义词分别与预设个数各自相邻的词组成句子的第一概率,利用所述第一概率形成所述同义词对的语言模型特征;其中,所述语言模型特征包括所述分词和所述同义词各自的所述第一概率以及两者的第一差值;和/或,
获取所述同义词对的词典特征;其中,所述词典特征包括:所述同义词对的前向替换概率和后向替换概率;和/或,
获取所述分词和所述同义词与各自相邻的词组成的短语的逆向文件,利用所述逆向文件形成所述同义词对的多词逆向文件频率特征;其中,所述多词逆向文件频率特征包括所述分词与所述同义词各自的逆向文件频率,以及两者的第二差值;和/或,
获取所述分词和所述同义词与各自相邻的词之间的互信息,利用所述互信息形成所述同义词对的多词概率互信息特征;其中,所述多词概率互信息特征包括所述分词与所述同义词各自的概率互信息,以及两者的第三差值;和/或,
获取所述分词与所述同义词的词向量特征;其中,所述词向量特征用于计算所述分词与所述同义词之间的余弦相似度,或者替换前所述分词与预设个数的相邻词组成的短语与替换后所述同义词与预设个数的相邻词组成的短语之间的余弦相似度;和/或,
根据采集到的历史搜索信息的点击数据,获取所述分词和所述同义词的权重,利用所述权重形成所述同义词对的权重特征;其中,所述权重特征包括所述分词和所述同义词各自的权重,以及所述分词的权重与所述搜索信息的权重的比值;和/或,
获取所述分词与所述同义词的左右熵,形成所述同义词对的所述左右熵特征;
其中,所述特征集合为所述语言模型特征、所述词典特征、所述多词逆向文件频率特征、所述多词概率互信息特征、所述词向量特征、所述权重特征和所述左右熵特征中两种及两种以上特征的组合。
8.一种搜索信息的同义词扩展装置,其特征在于,包括:
分词模块,用于对搜索信息进行切词处理,得到所述搜索信息的至少一个分词;
获取模块,用于获取所述分词的候选同义词集合;其中,所述候选同义词集合中包括所述分词的至少一个同义词;
生成模块,用于针对每个同义词,形成包括所述分词和所述同义词的同义词对;
提取模块,用于对所述同义词对进行特征提取,得到所述同义词对的多个维度的相对特征;对所述多个维度的相对特征中至少两个相对特征进行组合,得到所述同义词对特征集合;其中,所述特征集合中包括至少一个相对特征,所述相对特征用于表征所述分词与所述同义词之间的关联程度和所述搜索信息与替换后的搜索信息之间的关联程度中的至少一个,其中,所述替换后的搜索信息是基于所述同义词形成的;
预测模块,用于根据所述特征集合对所述同义词对进行预测,得到所述同义词对预测为合理替换的目标概率;
搜索模块,用于在所述目标概率超出预设的阈值时,以所述分词和所述同义词形成同义词扩展项,并基于所述同义词扩展项搜索得到搜索结果。
9.根据权利要求8所述的装置,其特征在于,
所述获取模块,包括:
获取单元,用于从同义词词典中,获取与所述分词词义相似或者相同的词作为所述同义词;
生成单元,用于利用获取的所有同义词形成所述候选同义词集合。
10.根据权利要求9所述的装置,其特征在于,还包括:
采集模块,用于采集用于挖掘所述同义词词典的基础数据;
挖掘模块,用于对所述基础数据进行数据挖掘形成所述同义词词典。
11.根据权利要求10所述的装置,其特征在于,还包括:
训练模块,用于基于所述同义词词典形成同义词训练样本,使用所述同义词训练样本对构建的同义词扩展系统进行训练,得到训练后的同义词扩展系统;其中,所述同义词扩展系统用于提取同义词对的特征;
所述提取模块,具体用于:
将所述同义词对输入到所述训练后的同义词扩展系统中,基于所述训练后的同义词扩展系统进行特征提取,得到所述同义词对的多个维度的相对特征。
12.根据权利要求9所述的装置,其特征在于,还包括:
选择模块,用于针对每个分词,将所有同义词对的所述目标概率进行排序,按照从高到低的顺序,从所有同义词对中选择部分或者全部作为目标同义词对;
所述搜索模块,具体用于:
将每个目标同义词对的所述目标概率与所述阈值比较;
将超出所述阈值的所述目标同义词对中的同义词作为所述分词的扩展同义词;
利用每个所述分词以及所述分词对应的所述扩展同义词以与或树的形式,形成所述同义词扩展项;
根据所述同义词扩展项在文档库中进行搜索,得到与所述同义词扩展项匹配的所述搜索结果。
13.根据权利要求8所述的装置,其特征在于,还包括:
验证模块,用于验证所述同义词对是否满足预设的验证条件;
修正模块,用于当验证出不满足其中一个验证条件时,按照所述其中一个验证条件对应的修正规则对所述同义词对进行修正。
14.根据权利要求8-13任一项所述的装置,其特征在于,所述提取预测模块,还用于:
获取所述分词和所述同义词分别与预设个数各自相邻的词组成句子的第一概率,利用所述第一概率形成所述同义词对的语言模型特征;其中,所述语言模型特征包括所述分词和所述同义词各自的所述第一概率以及两者的第一差值;和/或,
获取所述同义词对的词典特征;其中,所述词典特征包括:所述同义词对的前向替换概率和后向替换概率;和/或,
获取所述分词和所述同义词与各自相邻的词组成的短语的逆向文件,利用所述逆向文件形成所述同义词对的多词逆向文件频率特征;其中,所述多词逆向文件频率特征包括所述分词与所述同义词各自的逆向文件频率,以及两者的第二差值;和/或,
获取所述分词和所述同义词与各自相邻的词之间的互信息,利用所述互信息形成所述同义词对的多词概率互信息特征;其中,所述多词概率互信息特征包括所述分词与所述同义词各自的概率互信息,以及两者的第三差值;和/或,
获取所述分词与所述同义词的词向量特征;其中,所述词向量特征用于计算所述分词与所述同义词之间的余弦相似度,或者替换前所述分词与预设个数的相邻词组成的短语与替换后所述同义词与预设个数的相邻词组成的短语之间的余弦相似度;和/或,
根据采集到的历史搜索信息的点击数据,获取所述分词和所述同义词的权重,利用所述权重形成所述同义词对的权重特征;其中,所述权重特征包括所述分词和所述同义词各自的权重,以及所述分词的权重与所述搜索信息的权重的比值;和/或,
获取所述分词与所述同义词的左右熵,形成所述同义词对的所述左右熵特征;
其中,所述特征集合为所述语言模型特征、所述词典特征、所述多词逆向文件频率特征、所述多词概率互信息特征、所述词向量特征、所述权重特征和所述左右熵特征中两种及两种以上特征的组合。
15.一种计算机设备,其特征在于,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-7中任一项所述的搜索信息的同义词扩展方法。
16.一种计算机系统,其特征在于,当所述计算机系统中的指令由处理器执行时,执行如权利要求1-7中任一项所述的搜索信息的同义词扩展方法。
17.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的搜索信息的同义词扩展方法。
CN201710833554.3A 2017-09-15 2017-09-15 搜索信息的同义词扩展方法及装置 Active CN108509474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710833554.3A CN108509474B (zh) 2017-09-15 2017-09-15 搜索信息的同义词扩展方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710833554.3A CN108509474B (zh) 2017-09-15 2017-09-15 搜索信息的同义词扩展方法及装置

Publications (2)

Publication Number Publication Date
CN108509474A CN108509474A (zh) 2018-09-07
CN108509474B true CN108509474B (zh) 2022-01-07

Family

ID=63374483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710833554.3A Active CN108509474B (zh) 2017-09-15 2017-09-15 搜索信息的同义词扩展方法及装置

Country Status (1)

Country Link
CN (1) CN108509474B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213916A (zh) * 2018-09-14 2019-01-15 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110909540B (zh) * 2018-09-14 2022-05-24 阿里巴巴集团控股有限公司 短信垃圾新词识别方法、装置及电子设备
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置
CN109408824B (zh) * 2018-11-05 2023-04-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109522389B (zh) * 2018-11-07 2020-09-01 中国联合网络通信集团有限公司 文档推送方法、装置和存储介质
CN109508414B (zh) * 2018-11-13 2021-02-09 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN109543190B (zh) * 2018-11-29 2023-06-16 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
CN111368506B (zh) * 2018-12-24 2023-04-28 阿里巴巴集团控股有限公司 文本处理方法及装置
CN109740161B (zh) * 2019-01-08 2023-06-20 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
CN109918661B (zh) * 2019-03-04 2023-05-30 腾讯科技(深圳)有限公司 同义词获取方法及装置
CN110069610B (zh) * 2019-03-16 2024-03-19 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质
CN110032734B (zh) * 2019-03-18 2023-02-28 百度在线网络技术(北京)有限公司 近义词扩展及生成对抗网络模型训练方法和装置
CN110164422A (zh) * 2019-04-03 2019-08-23 苏州驰声信息科技有限公司 一种口语考试的多维度评估方法及装置
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备
CN110222513B (zh) * 2019-05-21 2023-06-23 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN110263347A (zh) * 2019-06-26 2019-09-20 腾讯科技(深圳)有限公司 一种同义词的构建方法及相关装置
CN110287493B (zh) * 2019-06-28 2023-04-18 中国科学技术信息研究所 风险短语识别方法、装置、电子设备及存储介质
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索系统的同义词挖掘方法及装置
CN110413737B (zh) * 2019-07-29 2022-10-14 腾讯科技(深圳)有限公司 一种同义词的确定方法、装置、服务器及可读存储介质
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110781204B (zh) * 2019-09-09 2024-02-20 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN110738042B (zh) * 2019-09-12 2024-01-05 腾讯音乐娱乐科技(深圳)有限公司 纠错词典创建方法、装置、终端及计算机存储介质
CN110543639B (zh) * 2019-09-12 2023-06-02 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN112507181B (zh) * 2019-09-16 2023-09-29 百度在线网络技术(北京)有限公司 搜索请求分类方法、装置、电子设备及存储介质
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置
CN111241124B (zh) * 2020-01-07 2023-10-03 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN113139119A (zh) * 2020-01-20 2021-07-20 微软技术许可有限责任公司 用于问题回答(qa)的对仗学习
CN113822051B (zh) * 2020-06-19 2024-01-30 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN112052375A (zh) * 2020-09-30 2020-12-08 北京百度网讯科技有限公司 舆情获取和词粘度模型训练方法及设备、服务器和介质
CN112256822A (zh) * 2020-10-21 2021-01-22 平安科技(深圳)有限公司 文本搜索方法、装置、计算机设备和存储介质
CN112287080B (zh) * 2020-10-23 2023-10-03 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN112232065B (zh) * 2020-10-29 2024-05-14 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN112541076B (zh) * 2020-11-09 2024-03-29 北京百度网讯科技有限公司 目标领域的扩充语料生成方法、装置和电子设备
CN113515940B (zh) * 2021-07-14 2022-12-13 上海芯翌智能科技有限公司 一种用于文本搜索的方法及设备
CN115238679A (zh) * 2022-07-14 2022-10-25 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答系统及方法
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
US8874553B2 (en) * 2012-08-30 2014-10-28 Wal-Mart Stores, Inc. Establishing “is a” relationships for a taxonomy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105955976A (zh) * 2016-04-15 2016-09-21 中国工商银行股份有限公司 一种自动应答系统及方法
CN105975596A (zh) * 2016-05-10 2016-09-28 上海珍岛信息技术有限公司 一种搜索引擎查询扩展的方法及系统

Also Published As

Publication number Publication date
CN108509474A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108509474B (zh) 搜索信息的同义词扩展方法及装置
CN108280061B (zh) 基于歧义实体词的文本处理方法和装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Hua et al. Short text understanding through lexical-semantic analysis
CN105279252B (zh) 挖掘相关词的方法、搜索方法、搜索系统
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
CN107102981B (zh) 词向量生成方法和装置
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US9230009B2 (en) Routing of questions to appropriately trained question and answer system pipelines using clustering
WO2017101342A1 (zh) 情感分类方法及装置
Wang et al. Query expansion based on a feedback concept model for microblog retrieval
US9305083B2 (en) Author disambiguation
US20150161230A1 (en) Generating an Answer from Multiple Pipelines Using Clustering
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
US10521510B2 (en) Computer-readable recording medium, retrieval device, and retrieval method
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
Atia et al. Increasing the accuracy of opinion mining in Arabic
CN109902156B (zh) 实体检索方法、存储介质和电子设备
Jin et al. Entity linking at the tail: sparse signals, unknown entities, and phrase models
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
US10198497B2 (en) Search term clustering
CN110866102A (zh) 检索处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant