CN111611452B - 搜索文本的歧义识别方法、系统、设备及存储介质 - Google Patents
搜索文本的歧义识别方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN111611452B CN111611452B CN202010440030.XA CN202010440030A CN111611452B CN 111611452 B CN111611452 B CN 111611452B CN 202010440030 A CN202010440030 A CN 202010440030A CN 111611452 B CN111611452 B CN 111611452B
- Authority
- CN
- China
- Prior art keywords
- search
- text
- ambiguity
- recognition
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种搜索文本的歧义识别方法、系统、设备及存储介质,所述方法包括步骤:基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果;基于关联待识别的搜索文本的历史搜索数据库,对待识别的搜索文本进行歧义性识别,获得第二识别结果;获取搜索引擎关于待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出第一关键词,依据不相同的第一关键词的个数,确定第三识别结果;构建文本语义匹配模型,依据训练后的文本语义匹配模型,获得第四识别结果;基于上述识别结果,对待识别的搜索文本进行歧义识别;本申请实现了对搜索文本歧义性的多角度识别,提高了识别的准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地说,涉及一种搜索文本的歧义识别方法、系统、设备及存储介质。
背景技术
对于在线旅游平台来说,每天都有大量用户在平台上进行信息搜索。当用户在平台上输入搜索文本之后,对于该搜索文本的解析可能会出现歧义,也即对于该搜索文本的解析可能指向多个搜索结果。如何正确理解用户的搜索文本,对于在线旅游平台来说是一件极其重要的事情。并且,平台正确理解用户的搜索文本之后,推荐合适的产品给用户,也能提高用户的搜索体验。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种搜索文本的歧义识别方法、系统、设备及存储介质,实现了对搜索文本的歧义性的准确识别。
为实现上述目的,本发明提供了一种搜索文本的歧义识别方法,所述方法包括以下步骤:
S10,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果;
S20,基于关联所述待识别的搜索文本的历史搜索数据库,对所述待识别的搜索文本进行歧义性识别,获得第二识别结果,所述历史搜索数据库记录有所有用户的历史搜索点击数据;
S30,获取搜索引擎关于所述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与所述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数;
S40,构建文本语义匹配模型,基于所述历史搜索数据库,对所述文本语义匹配模型进行训练;依据所述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果;
S50,基于所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对所述待识别的搜索文本进行歧义识别。
优选地,所述步骤S50包括:
若所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果中的至少一个为存在歧义性,那么所述待识别的搜索文本被判定为存在歧义性,否则判定为不存在歧义性。
优选地,所述方法还包括步骤:
S60,若所述待识别的搜索文本被判定为存在歧义性,则从所述待识别的搜索文本中提取出第二关键词和至少一个地理信息,将所述第二关键词依次和每一个所述地理信息合成,生成多个中间修正文本;基于所述多个中间修正文本,确定搜索目标词。
优选地,所述基于所述多个中间修正文本,确定搜索目标词,包括:
对每一个所述中间修正文本分别重复执行步骤S10至S50进行歧义识别,若得到的识别结果为存在歧义性,则执行步骤S70;否则判断不存在歧义性的中间修正文本是否具有多个,若否则将不存在歧义性的中间修正文本作为搜索目标词;若是则获取目标用户的历史浏览数据,从所述历史浏览数据中获取出现次数最多的地理信息,将与该地理信息相关联的中间修正文本作为搜索目标词;
S70,从所述预设搜索文本库中,获取与所述待识别的搜索文本之间的相似度大于第一预设阈值的历史搜索文本,对所述历史搜索文本重复执行步骤S10至S50,将识别结果为不存在歧义性且历史搜索量最大的所述历史搜索文本作为搜索目标词。
优选地,所述步骤S20包括:
若所述历史搜索数据库中与所述待识别的搜索文本相关联的点击数据中,指向同一目标搜索词的点击率大于第二预设阈值,则所述第二识别结果为不存在歧义性,否则第二识别结果为存在歧义性。
优选地,所述步骤S30中依据不相同的第一关键词的个数,确定第三识别结果,包括:
若从所述前N个搜索结果中提取到的不相同的第一关键词的个数大于第三预设阈值,则所述第三识别结果为存在歧义性,否则所述第三识别结果为不存在歧义性。
优选地,所述步骤S40包括:
基于所述历史搜索数据库,对所述文本语义匹配模型进行训练,得到训练后的文本语义匹配模型;
基于所述训练后的文本语义匹配模型,确定所述待识别的搜索文本与所述预设搜索文本库中所有的历史搜索文本之间的向量余弦距离;
若比第四预设阈值大的向量余弦距离的个数大于第五预设阈值,则第四识别结果为存在歧义性,否则所述第四识别结果为不存在歧义性。
本发明还提供了一种搜索文本的歧义识别系统,用于实现上述搜索文本的歧义识别方法,所述系统包括:
第一识别结果获取模块,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果;
第二识别结果获取模块,基于关联所述待识别的搜索文本的历史搜索数据库,对所述待识别的搜索文本进行歧义性识别,获得第二识别结果,所述历史搜索数据库记录有所有用户的历史搜索点击数据;
第三识别结果获取模块,获取搜索引擎关于所述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与所述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数;
第四识别结果获取模块,构建文本语义匹配模型,基于所述历史搜索数据库,对所述文本语义匹配模型进行训练;依据所述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果;
歧义识别确定模块,基于所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对所述待识别的搜索文本进行歧义识别。
本发明还提供了一种搜索文本的歧义识别设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项搜索文本的歧义识别方法的步骤。
本发明还提供了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述任意一项搜索文本的歧义识别方法的步骤。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的搜索文本的歧义识别方法、系统、设备及存储介质通过对待识别的搜索文本进行多个角度的歧义识别,得到的多个歧义性识别结果取并集,得到最终的歧义识别结果,实现了对搜索文本歧义性的多角度识别,提高了识别的准确性;另一方面,实现了对搜索文本的歧义性的修正,便于为用户推荐合适的产品,提高了用户的搜索体验。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1为本发明实施例公开的搜索文本的歧义识别方法的流程示意图;
图2为图1中步骤S40的流程示意图;
图3为本发明另一实施例公开的搜索文本的歧义识别方法的流程示意图;
图4为本发明实施例公开的搜索文本的歧义识别系统的结构示意图;
图5为本发明实施例公开的搜索文本的歧义识别设备的结构示意图;
图6为本发明实施例公开的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
如图1所示,本发明实施例公开了一种搜索文本的歧义识别方法,该方法包括以下步骤:
S10,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果。具体来说,即判断包含待识别的搜索文本字符串的目标字符串是否具有至少两个,若是,则判定待识别的搜索文本存在歧义性,此时第一识别结果即为存在歧义性。否则判定待识别的搜索文本不存在歧义性,此时第一识别结果即为不存在歧义性。以将该搜索文本的歧义识别方法应用于酒店业务为例,比如,用户搜索“欢乐酒店”时,可能出现“欢乐时光酒店”以及“君朋欢乐酒店”等多个酒店名称。那么即说明该待识别的搜索文本具有歧义性。
S20,基于关联上述待识别的搜索文本的历史搜索数据库,对上述待识别的搜索文本进行歧义性识别,获得第二识别结果,上述历史搜索数据库记录有所有用户的历史搜索点击数据。具体来说,在线旅游平台产生有很多用户的搜索与点击行为数据,对这些搜索与点击行为数据进行清洗,可以得到一部分高质量的搜索与点击数据,利用这些高质量的搜索与点击数据构建形成上述历史搜索数据库。在该历史搜索数据库中,每一条搜索行为数据和一条点击行为数据是一一对应的。
若上述历史搜索数据库中与上述待识别的搜索文本相关联的点击数据中,也即上述历史搜索数据库中与该待识别的搜索文本相同的搜索数据对应的点击数据中,指向同一目标搜索词的点击率大于第二预设阈值,则上述第二识别结果为不存在歧义性,否则第二识别结果为存在歧义性。比如,第二预设阈值为80%,即当关联的点击数据中超过80%的点击率都指向“欢乐时光酒店”,那么就判定用户输入的待识别的搜索文本的搜索意图是指向这个酒店的,上述第二识别结果就为不存在歧义性。否则就表示历史用户的点击数据分散在多个酒店,那么就判定待识别的搜索文本的搜索意图指向多个酒店,第二识别结果就为存在歧义性。
S30,获取搜索引擎关于上述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与上述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数。具体来说,若从上述前N个搜索结果中提取到的不相同的第一关键词的个数大于第三预设阈值,则上述第三识别结果为存在歧义性,否则上述第三识别结果为不存在歧义性。比如,N为20,即对于上述待识别的搜索文本,爬取搜索引擎对该搜索文本的排名最靠前的前20个搜索结果。
然后对该前20个搜索结果分别提取能够表征用户搜索意图的第一关键词,比如用户输入的搜索文本为“欢乐酒店”时,前20个搜索结果提取到的第一关键词分别为:“欢乐时光酒店”、“欢乐时光酒店”、“君朋欢乐酒店”、“君悦欢乐酒店”、“一纸欢乐酒店”.......等,然后获取上述第一关键词中内容不同的词的个数,此时由于第一个第一关键词和第二个第一关键词的内容是一样的,所以它们只能算作一个第一关键词。类似地,得到内容不相同的第一关键词的个数为4。示例性地,上述第三预设阈值为4。由于内容不相同的第一关键词的个数不大于4,所以得到上述第三识别结果为不存在歧义性,否则上述第三识别结果就为存在歧义性。
S40,构建文本语义匹配模型,基于上述历史搜索数据库,对上述文本语义匹配模型进行训练;依据上述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果。具体来说,上述历史搜索数据库中存在有一一对应的搜索行为数据和点击行为数据,然后根据这些搜索行为数据和点击行为数据获取语义相同的数据集作为训练集。比如,输入内容为“欢乐酒店”的搜索行为数据中,大于第六预设阈值的点击行为数据都指向了“君朋欢乐酒店”,那么就可以建立一个指向关系为:“欢乐酒店”指向“君朋欢乐酒店”,也即这个指向关系说明“欢乐酒店”和“君朋欢乐酒店”在搜索领域是语义相同的。根据建立的多个指向关系形成一数据集,利用该数据集作为文本语义匹配模型的训练集。
上述文本语义匹配模型是基于DSSM(Deep Structured Semantic Models,深度结构语义模型)算法构建的。DSSM算法包括有输入层、表示层和匹配层。输入层用于将用户搜索语句、指向的酒店名分别转为由字向量表示的二维数组。比如,对于上述示例指向关系,“欢乐酒店”就是用户搜索语句,“君朋欢乐酒店”就是指向的酒店名。输入层作为表示层的输入。表示层采用CNN(Convolutional Neural Networks,卷积神经网络)、RNN(RecurrentNeural Network,循环神经网络)等神经网络编码器,分别对由输入层输出的节点名称特征向量进行编码,提取出用户搜索语句和指向的酒店名各自对应的特征。匹配层利用上述提取的特征进行用户搜索语句和指向的酒店名之间的相似度计算。具体过程利用现有技术即可实现,本实施例不再赘述。
如图2所示,步骤S40包括:
S401,基于上述历史搜索数据库,对上述文本语义匹配模型进行训练,得到训练后的文本语义匹配模型。具体而言,利用上述历史搜索数据库得到的上述训练集对上述文本语义匹配模型进行训练。
S402,基于上述训练后的文本语义匹配模型,确定上述待识别的搜索文本与上述预设搜索文本库中所有的历史搜索文本之间的向量余弦距离。具体而言,利用上述训练后的文本语义匹配模型对上述待识别的搜索文本计算出其对应的字向量V0,然后利用上述训练后的文本语义匹配模型对历史搜索数据库中的所有的点击行为数据计算出各自对应的字向量Vi(i>0)。i为整数。然后计算V0与各个Vi之间的向量余弦距离。其中,向量余弦距离的计算方式参考现有技术即可实现,本实施例不再赘述。
S403,若比第四预设阈值大的向量余弦距离的个数大于第五预设阈值,则第四识别结果为存在歧义性,否则上述第四识别结果为不存在歧义性。示例性地,上述第四预设阈值为0.7,第五预设阈值为5。具体而言,即若上述所有的向量余弦距离中,大于0.7的向量余弦距离的个数超过5个,那么第四识别结果为存在歧义性,否则第四识别结果为不存在歧义性。
S50,基于上述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对上述待识别的搜索文本进行歧义识别。具体而言,若上述第一识别结果、第二识别结果、第三识别结果以及第四识别结果中的至少一个为存在歧义性,那么将上述待识别的搜索文本判定为存在歧义性,即最终的识别结果为存在歧义性。否则判定为不存在歧义性,即最终的识别结果为不存在歧义性。
如图3所示,在本发明的另一个实施例中,在上述实施例的基础上,上述搜索文本的歧义识别方法还包括步骤:
S60,若上述待识别的搜索文本被判定为存在歧义性,则从上述待识别的搜索文本中提取出第二关键词和至少一个地理信息,将上述第二关键词依次和每一个上述地理信息合成,生成多个中间修正文本;基于上述多个中间修正文本,确定搜索目标词。
上述基于上述多个中间修正文本,确定搜索目标词,包括:
对每一个上述中间修正文本分别重复执行步骤S10至S50进行歧义识别,若得到的识别结果为存在歧义性,则执行步骤S70。否则判断不存在歧义性的中间修正文本是否具有多个,若否则将不存在歧义性的中间修正文本作为搜索目标词。若是则获取目标用户的历史浏览数据,从上述历史浏览数据中获取出现次数最多的地理信息,将与该地理信息相关联的中间修正文本作为搜索目标词。
S70,从上述预设搜索文本库中,获取与上述待识别的搜索文本之间的相似度大于第一预设阈值的历史搜索文本,对上述历史搜索文本重复执行步骤S10至S50,将识别结果为不存在歧义性且历史搜索量最大的上述历史搜索文本作为搜索目标词。上述第一预设阈值可以为0.9。
具体来说,比如上述待识别的搜索文本为“浙江无锡欢乐酒店”,那么提取出第二关键词为“欢乐酒店”,以及两个地理信息,分别为“浙江”、“无锡”,然后将第二关键词依次和两个地理信息分别合成,生成两个中间修正文本,即为“浙江欢乐酒店”以及“无锡欢乐酒店”。其中,“浙江欢乐酒店”以及“无锡欢乐酒店”均不存在歧义性,那么获取目标用户的历史浏览数据,若上述历史浏览数据中在“浙江”和“无锡”两个地理信息中,“无锡”的出现次数最多,那么就把“无锡欢乐酒店”作为搜索目标词。
需要说明的是,本申请对上述第一预设阈值、第二预设阈值、第三预设阈值、第四预设阈值、第五预设阈值以及第六预设阈值的具体取值不作限制。
需要说明的是,本发明公开的上述实施例单独实现或者组合实现均可,均在本发明的保护范围内。
如图4所示,本发明实施例还公开了一种搜索文本的歧义识别系统4,该系统包括:
第一识别结果获取模块41,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果.
第二识别结果获取模块42,基于关联上述待识别的搜索文本的历史搜索数据库,对上述待识别的搜索文本进行歧义性识别,获得第二识别结果,上述历史搜索数据库记录有所有用户的历史搜索点击数据。
第三识别结果获取模块43,获取搜索引擎关于上述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与上述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数。
第四识别结果获取模块44,构建文本语义匹配模型,基于上述历史搜索数据库,对上述文本语义匹配模型进行训练;依据上述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果。
歧义识别确定模块45,基于上述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对上述待识别的搜索文本进行歧义识别。
可以理解的是,本发明的搜索文本的歧义识别系统还包括其他支持搜索文本的歧义识别系统运行的现有功能模块。图4显示的搜索文本的歧义识别系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本实施例中的搜索文本的歧义识别系统用于实现上述的搜索文本的歧义识别的方法,因此对于搜索文本的歧义识别系统的具体实施步骤可以参照上述对搜索文本的歧义识别的方法的描述,此处不再赘述。
本发明实施例还公开了一种搜索文本的歧义识别设备,包括处理器和存储器,其中存储器存储有所述处理器的可执行指令;处理器配置为经由执行可执行指令来执行上述搜索文本的歧义识别方法中的步骤。图5是本发明公开的搜索文本的歧义识别设备的结构示意图。下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述搜索文本的歧义识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明还公开了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述搜索文本的歧义识别方法中的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述搜索文本的歧义识别方法中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,通过对待识别的搜索文本进行多个角度的歧义识别,得到的多个歧义性识别结果取并集,得到最终的歧义识别结果,实现了对搜索文本歧义性的多角度识别,提高了识别的准确性;另一方面,实现了对搜索文本的歧义性的修正,便于为用户推荐合适的产品,提高了用户的搜索体验。
图6是本发明的计算机可读存储介质的结构示意图。参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的搜索文本的歧义识别方法、系统、设备及存储介质通过对待识别的搜索文本进行多个角度的歧义识别,得到的多个歧义性识别结果取并集,得到最终的歧义识别结果,实现了对搜索文本歧义性的多角度识别,提高了识别的准确性;另一方面,实现了对搜索文本的歧义性的修正,便于为用户推荐合适的产品,提高了用户的搜索体验。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种搜索文本的歧义识别方法,其特征在于,包括以下步骤:
S10,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果;
S20,基于关联所述待识别的搜索文本的历史搜索数据库,对所述待识别的搜索文本进行歧义性识别,获得第二识别结果,所述历史搜索数据库记录有所有用户的历史搜索点击数据;
S30,获取搜索引擎关于所述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与所述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数;
S40,构建文本语义匹配模型,基于所述历史搜索数据库,对所述文本语义匹配模型进行训练;依据所述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果;
S50,基于所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对所述待识别的搜索文本进行歧义识别。
2.如权利要求1所述的搜索文本的歧义识别方法,其特征在于,所述步骤S50包括:
若所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果中的至少一个为存在歧义性,那么所述待识别的搜索文本被判定为存在歧义性,否则判定为不存在歧义性。
3.如权利要求2所述的搜索文本的歧义识别方法,其特征在于,所述方法还包括步骤:
S60,若所述待识别的搜索文本被判定为存在歧义性,则从所述待识别的搜索文本中提取出第二关键词和至少一个地理信息,将所述第二关键词依次和每一个所述地理信息合成,生成多个中间修正文本;基于所述多个中间修正文本,确定搜索目标词。
4.如权利要求3所述的搜索文本的歧义识别方法,其特征在于,所述基于所述多个中间修正文本,确定搜索目标词,包括:
对每一个所述中间修正文本分别重复执行步骤S10至S50进行歧义识别,若得到的识别结果为存在歧义性,则执行步骤S70;否则判断不存在歧义性的中间修正文本是否具有多个,若否则将不存在歧义性的中间修正文本作为搜索目标词;若是则获取目标用户的历史浏览数据,从所述历史浏览数据中获取出现次数最多的地理信息,将与该地理信息相关联的中间修正文本作为搜索目标词;
S70,从所述预设搜索文本库中,获取与所述待识别的搜索文本之间的相似度大于第一预设阈值的历史搜索文本,对所述历史搜索文本重复执行步骤S10至S50,将识别结果为不存在歧义性且历史搜索量最大的所述历史搜索文本作为搜索目标词。
5.如权利要求1所述的搜索文本的歧义识别方法,其特征在于,所述步骤S20包括:
若所述历史搜索数据库中与所述待识别的搜索文本相关联的点击数据中,指向同一目标搜索词的点击率大于第二预设阈值,则所述第二识别结果为不存在歧义性,否则第二识别结果为存在歧义性。
6.如权利要求1所述的搜索文本的歧义识别方法,其特征在于,所述步骤S30中依据不相同的第一关键词的个数,确定第三识别结果,包括:
若从所述前N个搜索结果中提取到的不相同的第一关键词的个数大于第三预设阈值,则所述第三识别结果为存在歧义性,否则所述第三识别结果为不存在歧义性。
7.如权利要求1所述的搜索文本的歧义识别方法,其特征在于,所述步骤S40包括:
基于所述历史搜索数据库,对所述文本语义匹配模型进行训练,得到训练后的文本语义匹配模型;
基于所述训练后的文本语义匹配模型,确定所述待识别的搜索文本与所述预设搜索文本库中所有的历史搜索文本之间的向量余弦距离;
若比第四预设阈值大的向量余弦距离的个数大于第五预设阈值,则第四识别结果为存在歧义性,否则所述第四识别结果为不存在歧义性。
8.一种搜索文本的歧义识别系统,其特征在于,用于实现如权利要求1所述的搜索文本的歧义识别方法,所述系统包括:
第一识别结果获取模块,基于字符串匹配算法对待识别的搜索文本进行歧义性识别,获得第一识别结果;
第二识别结果获取模块,基于关联所述待识别的搜索文本的历史搜索数据库,对所述待识别的搜索文本进行歧义性识别,获得第二识别结果,所述历史搜索数据库记录有所有用户的历史搜索点击数据;
第三识别结果获取模块,获取搜索引擎关于所述待识别的搜索文本的前N个搜索结果,并从每一个搜索结果中提取出与所述待识别的搜索文本相关联的第一关键词,依据不相同的第一关键词的个数,确定第三识别结果,N为整数;
第四识别结果获取模块,构建文本语义匹配模型,基于所述历史搜索数据库,对所述文本语义匹配模型进行训练;依据所述待识别的搜索文本、预设搜索文本库以及训练后的文本语义匹配模型,获得第四识别结果;
歧义识别确定模块,基于所述第一识别结果、第二识别结果、第三识别结果以及第四识别结果,对所述待识别的搜索文本进行歧义识别。
9.一种搜索文本的歧义识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述搜索文本的歧义识别方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7中任意一项所述搜索文本的歧义识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440030.XA CN111611452B (zh) | 2020-05-22 | 2020-05-22 | 搜索文本的歧义识别方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010440030.XA CN111611452B (zh) | 2020-05-22 | 2020-05-22 | 搜索文本的歧义识别方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611452A CN111611452A (zh) | 2020-09-01 |
CN111611452B true CN111611452B (zh) | 2023-05-02 |
Family
ID=72205117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010440030.XA Active CN111611452B (zh) | 2020-05-22 | 2020-05-22 | 搜索文本的歧义识别方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611452B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182348B (zh) * | 2020-11-09 | 2024-03-29 | 百度国际科技(深圳)有限公司 | 语义匹配判定方法、装置、电子设备、计算机可读介质 |
CN112800321B (zh) * | 2021-01-05 | 2023-01-20 | 百威投资(中国)有限公司 | 基于关键词检索的歧义帖子识别方法和计算机设备 |
CN112883232A (zh) * | 2021-03-12 | 2021-06-01 | 北京爱奇艺科技有限公司 | 一种资源搜索方法、装置及设备 |
CN117349408B (zh) * | 2023-12-04 | 2024-02-13 | 天津市品茗科技有限公司 | 一种人机互动结果生成方法及系统 |
CN117892735A (zh) * | 2024-03-14 | 2024-04-16 | 中电科大数据研究院有限公司 | 一种基于深度学习的自然语言处理方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
US10157220B2 (en) * | 2015-07-23 | 2018-12-18 | International Business Machines Corporation | Context sensitive query expansion |
-
2020
- 2020-05-22 CN CN202010440030.XA patent/CN111611452B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162593A (zh) * | 2018-11-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种搜索结果处理、相似度模型训练方法及装置 |
Non-Patent Citations (2)
Title |
---|
杨凡 ; 任丹 ; .基于知识图谱的自然语言中歧义字段切分系统设计.现代电子技术.2020,(01),全文. * |
谢靖 ; 王敬东 ; 吴振新 ; 张智雄 ; 王颖 ; 叶志飞 ; .科技文献检索系统语义丰富化框架的设计与实践.数据分析与知识发现.2017,(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111611452A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611452B (zh) | 搜索文本的歧义识别方法、系统、设备及存储介质 | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
US11657223B2 (en) | Keyphase extraction beyond language modeling | |
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
JP7302022B2 (ja) | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 | |
US20190163691A1 (en) | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
WO2019080864A1 (zh) | 一种文本语义编码方法及装置 | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
US11016997B1 (en) | Generating query results based on domain-specific dynamic word embeddings | |
CN110598078B (zh) | 数据检索方法及装置、计算机可读存储介质、电子设备 | |
US10592514B2 (en) | Location-sensitive ranking for search and related techniques | |
US11651015B2 (en) | Method and apparatus for presenting information | |
AU2018250372B2 (en) | Method to construct content based on a content repository | |
CN110147494B (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
CN111078842A (zh) | 查询结果的确定方法、装置、服务器及存储介质 | |
CN114840671A (zh) | 对话生成方法、模型的训练方法、装置、设备及介质 | |
US20220129770A1 (en) | Implementing relation linking for knowledge bases | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN113656763B (zh) | 确定小程序特征向量的方法、装置和电子设备 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
WO2020052060A1 (zh) | 用于生成修正语句的方法和装置 | |
CN111881264B (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |