CN110795544A - 内容搜索方法、装置、设备和存储介质 - Google Patents
内容搜索方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN110795544A CN110795544A CN201910851956.5A CN201910851956A CN110795544A CN 110795544 A CN110795544 A CN 110795544A CN 201910851956 A CN201910851956 A CN 201910851956A CN 110795544 A CN110795544 A CN 110795544A
- Authority
- CN
- China
- Prior art keywords
- search text
- text
- candidate
- content
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种内容搜索方法、装置、设备和存储介质,涉及计算机技术领域。所述方法包括:获取输入搜索文本;根据输入搜索文本在内容数据库中进行召回,得到与输入搜索文本匹配的第一候选搜索文本以及第一候选搜索文本对应的标注;根据标注对输入搜索文本与第一候选搜索文本进行模糊匹配,得到第二候选搜索文本;根据目标内容和第二候选搜索文本对应的标注,对输入搜索文本与第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本;对输入搜索文本与第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本。相比于相关技术中,本申请实施例提供的技术方案,采用模糊匹配,可以有效提高召回率,进一步提高了搜索结果的准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种内容搜索方法、装置、设备和存储介质。
背景技术
应用程序可以获取搜索框中的输入搜索文本,该输入搜索文本是用户在搜索框中输入的;之后,应用程序可以向用户展示一些与该输入搜索文本相关的搜索结果。
在相关技术中,在获取到用户输入的输入搜索文本之后,首先采用ES (ElasticSearch)召回,得到与输入搜索文本相似的一些候选搜索文本;之后将输入搜索文本与候选搜索文本进行字符串精确匹配,若输入搜索文本与目标候选搜索文本完全匹配,则将该目标候选搜索文本发送给服务器进行搜索,并将搜索结果返回给用户。
在上述相关技术中,由于采用的是字符串精确匹配,输入搜索文本与候选搜索文本中的字符必须完全一致,导致召回率不足,进一步导致搜索结果不够准确。
发明内容
本申请实施例提供了一种内容搜索方法、装置、设备和存储介质,可用于解决相关技术中,召回率不足,搜索结果不够准确的问题。所述技术方案如下:
一方面,本申请实施例提供了一种内容搜索方法,所述方法包括:
获取输入搜索文本;
根据所述输入搜索文本在内容数据库中进行召回,得到与所述输入搜索文本匹配的第一候选搜索文本以及所述第一候选搜索文本对应的标注;
根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,所述第二候选搜索文本包括所述第一候选搜索文本中与所述输入搜索文本中的目标内容相似的标注所对应的搜索文本;
根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,所述第三候选搜索文本包括所述第二候选搜索文本中与所述输入搜索文本主谓一致的搜索文本;
对所述输入搜索文本与所述第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本,所述第一目标搜索文本用于进行内容搜索得到搜索结果。
另一方面,本申请实施例提供了一种内容搜索装置,所述装置包括:
文本获取模块,用于获取输入搜索文本;
文本召回模块,用于根据所述输入搜索文本在内容数据库中进行召回,得到与所述输入搜索文本匹配的第一候选搜索文本以及所述第一候选搜索文本对应的标注;
文本匹配模块,用于根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,所述第二候选搜索文本包括所述第一候选搜索文本中与所述输入搜索文本中的目标内容相似的标注所对应的搜索文本;
主谓判断模块,用于根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,所述第三候选搜索文本包括所述第二候选搜索文本中与所述输入搜索文本主谓一致的搜索文本;
模板判断模块,用于对所述输入搜索文本与所述第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本,所述第一目标搜索文本用于进行内容搜索得到搜索结果。
再一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的内容搜索方法。
再一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的内容搜索方法。
还一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被处理器执行时,用于实现上述内容搜索方法。
本申请实施例提供的技术方案可以包括如下有益效果:
将输入搜索文本进行召回得到的候选搜索文本,首先进行模糊匹配,之后基于模糊匹配的结果进行主谓一致性判断,最后基于主谓一致性判断的结果进行句子模板一致性判断,得到最终的目标搜索文本,并采用目标搜索文本进行内容搜索。相比于相关技术中,直接采用精准匹配,导致召回率不足,进一步导致搜索结果不够准确的技术问题。本申请实施例提供的技术方案,采用模糊匹配,可以有效提高召回率,进一步提高了搜索结果的准确性。
附图说明
图1示例性示出了本申请提供的内容搜索方法的流程图;
图2是本申请一个实施例提供的内容搜索方法的流程图;
图3是本申请另一个实施例提供的内容搜索方法的流程图;
图4至图7示例性示出了六种搜索结果的示意图;
图8是本申请一个实施例提供的内容搜索装置的框图;
图9是本申请另一个实施例提供的内容搜索装置的框图;
图10是本申请一个实施例提供的终端的结构框图;
图11是本申请一个实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
ML(Machine Learning,机器学习)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的ML等技术,提供了一种内容搜索方法,该方法可以应用到内容搜索等相关领域。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备,该计算机设备可以是诸如手机、平板电脑、PC(Personal Computer,个人计算机)、智能机器人、智能电视等终端杆,也可以是服务器。
请参考图1,其示例性示出了本申请提供的内容搜索方法的流程图。
计算机设备在获取到输入搜索文本10之后,将该输入搜索文本10在内容数据库11中进行召回,得到第一候选搜索文本12,该第一候选搜索文本12是内容数据库中与输入搜索文本相似的搜索文本。之后,基于该第一候选搜索文本12进行模糊匹配13,得到第二候选搜索文本14,该第二候选搜索文本14中包括第一候选搜索文本12中与输入搜索文本10中的目标内容相似的标注所对应的搜索文本。然后,基于该第二搜索文本14进行主谓一致性判断15,以从第二候选搜索文本14中确定出与输入搜索文本10主语和谓语一致的搜索文本,即第三候选搜索文本16。最后,基于第三候选搜索文本16与输入搜索文本10 进行句子模板一致性判断17,并将第三候选搜索文本16中与输入搜索文本10 句子模板相一致的搜索文本确定为目标搜索文本18,并采用该目标搜素文本18 进行内容搜索,得到搜索结果。另外,当将第三候选搜索文本16中不存在与输入搜索文本10句子模板相一致的搜索文本时,计算机设备可以调用相似度计算模型19,计算召回后得到的第一候选搜索文本12与输入搜索文本10之间的相似度,并根据该相似度进行筛选排序20,将相似度最高的搜素文本确定为目标搜索文本18并采用该目标搜素文本18进行内容搜索,得到搜索结果。
下面,通过几个实施例对本申请技术方案进行介绍说明。
请参考图2,其示出了本申请一个实施例提供的内容搜索方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤:
步骤201,获取输入搜索文本。
计算机设备可以获取输入搜索文本。当计算机设备为服务器时,上述输入搜索文本可以是用户在终端中输入后,由终端发送给服务器的,对应地,服务器可以接收终端发送的输入搜索文本。
上述输入搜索文本可以是用户手动输入的,也可以是基于用户输入的语音转换的,本申请实施例对此不作限定。
步骤202,根据输入搜索文本在内容数据库中进行召回,得到与输入搜索文本相似的第一候选搜索文本以及第一候选搜索文本对应的标注。
在获取到上述输入搜索文本之后,可以将该输入搜索文本在内容数据库中进行内容召回,以获取与输入搜索文本相似的第一候选搜索文本。上述第一候选搜索文本中包括a个候选搜索文本,a为大于1的整数。上述内容数据库中包括大量的候选搜索文本。
上述内容数据库可以是ES数据库,由基于Lucene的搜索服务器提供。它提供了一个分布式多用户能力的全文搜索引擎,具有稳定、可靠、快速等优势。此外,上述内容数据库还可以是其它数据库,本申请实施例对此不作限定。
示例性地,输入搜索文本为“企鹅为什么不能飞”,将该输入搜索文本在ES 中进行内容召回,得到与输入搜索文本相似的第一候选搜索文本,如“为什么企鹅不能飞”、“企鹅为什么不能飞”、“请问一下企鹅为什么不能够飞翔”、“企鹅是鸟类为什么不能飞”等等。
通过将输入搜索文本在内容数据库中进行内容召回,过滤到掉与输入搜索文本不相关的内容,后续步骤只需要基于召回的与输入搜索文本相似的第一候选搜索文本进行分析,减少了分析的时间复杂度,提高了搜索效率。
步骤203,根据标注对输入搜索文本与第一候选搜索文本进行模糊匹配,得到第二候选搜索文本。
上述第二候选搜索文本包括第一候选搜索文本中与输入搜索文本中的目标内容相似的标注所对应的候选搜索文本。上述第二候选搜索文本中包括b个候选搜索文本,b为大于1且小于a的整数。
上述模糊匹配可以是模糊子串匹配(Fuzzy String Matching)。模糊子串匹配是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。也就是说,当用户拼错内容或者只输入部分内容进行搜索时,也能够找到与之匹配的内容。
示例性地:输入搜索文本为“想知道小*张的生日是哪天”,通过ES召回的第一候选搜索文本中包含有“请问小张的生日是什么时候”,同时其对应的标注:请问<person>小张<person>的<attribute>生日<attribute>是什么时候。在获得两个标注“小张”和“生日”之后,可以将“小张”与输入搜索文本“想知道小*张的生日是哪天”进行模糊子串匹配,得知与标注“小张”最匹配的是“小*张”,与“生日”最匹配的是“生日”。
进一步,可以将第一候选搜索文本中与输入搜索文本中的目标内容相似的标注所对应的候选搜索文本确定为第二候选搜索文本,以便后续基于该第二候选搜索文本进行分析。
步骤204,根据目标内容和第二候选搜索文本对应的标注,对输入搜索文本与第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本。
上述第二候选搜索文本对应的标注用于表征第二候选搜索文本的关键词的内容和位置,关键词包括第二候选搜索文本的主语和谓语。
上述第三候选搜索文本包括第二候选搜索文本中与输入搜索文本主谓一致的第二候选搜索文本。上述第三候选搜索文本中包括c个候选搜索文本,c为大于1且小于b的整数。上述主谓一致是指第二候选搜索文本中与输入搜索文本的主语和谓语相同。
在获取到上述目标内容和第二候选搜索文本对应的标注后,将目标内容与第二候选文本对应的标注进行比对,以判断输入搜索文本与第二候选搜索文本的主语和谓语是否相同,并将与输入搜索文本主语和谓语相同的第二候选搜索文本作为第三候选搜索文本,以基于第三候选搜索文本进行后续分析。
步骤205,对输入搜索文本与第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本。
在进行主语和谓语的一致性判断之后,为了确保输入搜索文本与第一目标搜索文本意图的一致性,还可以进行句子模板一致性判断,即将输入搜索文本与第三搜索文本对应的句子模板进行一致性判断。其中,上述句子模板是指具有扩展样例的一种通用的句式。上述句子模板一致性判断用于判断输入搜索文本与第三搜索文本在句子级别的相似度。
上述第一目标搜索文本用于进行内容搜索得到搜索结果。也就,将第一目标搜索文本放置其它数据库中进行搜索,以得到搜索结果,并将搜索结果反馈给用户。
综上所述,本申请实施例提供的技术方案,将输入搜索文本进行召回得到的候选搜索文本,首先进行模糊匹配,之后基于模糊匹配的结果进行主谓一致性判断,最后基于主谓一致性判断的结果进行句子模板一致性判断,得到最终的目标搜索文本,并采用目标搜索文本进行内容搜索。相比于相关技术中,直接采用精准匹配,导致召回率不足,进一步导致搜索结果不够准确的技术问题。本申请实施例提供的技术方案,采用模糊匹配,可以有效提高召回率,进一步提高了搜索结果的准确性。
请参考图3,其示出了本申请另一个实施例提供的内容搜索方法的流程图。在本实施例中,主要以该方法应用于上文介绍的计算机设备中来举例说明。该方法可以包括如下几个步骤:
步骤301,获取输入搜索文本。
此步骤与上文图2实施例中的步骤201相同或类似,此处不再赘述。
步骤302,根据输入搜索文本在内容数据库中进行召回,得到与输入搜索文本相似的第一候选搜索文本以及第一候选搜索文本对应的标注。
可选地,上述根据输入搜索文本在内容数据库中进行召回,可以包括以下几个步骤:
(1)在获取到输入搜索文本之后,对输入搜索文本进行分词,得到输入搜索文本包括的至少一个分词;
(2)确定各个分词与内容数据库中包含的搜索文本的相关性得分;
(3)将各个分词的相关性得分进行加权求和,得到输入搜索文本与内容数据库中包含的搜索文本的相关性得分;
(4)将与输入搜索文本的相关性得分最高的至少一个搜索文本作为第一候选搜索文本。
在得到与输入搜索文本相似的第一候选搜索文本的同时,还能够得到第一候选搜索文本对应的标注。上述第一候选搜索文本对应的标注用于表征第一候选搜索文本的关键词的内容和位置,关键词包括第一候选搜索文本的主语和谓语。
示例性地:第一候选搜索文本中包括的搜索本文有:“请问小张的生日是什么时候”,其对应的标注是:请问<person>小张<person>的<attribute>生日 <attribute>是什么时候。
步骤303,计算输入搜索文本与第一候选搜索文本对应的标注之间的编辑距离。
编辑距离(Edit Distance):也称为Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将替换、插入、删除、增加等。通常来说,编辑距离越小,两个字符串的相似度越大。
示例性地,"kitten"和"sitting"这两个单词,由"kitten"转换为"sitting"需要的最少单字符编辑操作有:
(1)kitten→sitten(将kitten中的"k"替换为"s");
(2)sitten→sittin(将sitten中的"e"替换为"i");
(3)sittin→sitting(在sittin的最后增加"g");
也就是说,将“kitten”转换成“sitting”,最少需要3次编辑操作,因此,这两个单词之间的编辑距离为3。
步骤304,将编辑距离小于预设距离的第一候选搜索文本确定为第二候选搜索文本。
由于编辑距离与两个字符串的相似度成反比,编辑距离越小,两个字符串的相似度越大,因此,可以将编辑距离小于预设距离的第一候选搜索文本确定为第二候选搜索文本。
上述预设距离可以由用户自行设定,本申请实施例对此不作限定。
步骤305,根据第二候选搜索文本对应的标注,确定目标内容和以及目标内容在输入搜索文本中的位置。
第二候选搜索文本对应的标注用于表征第二候选搜索文本的关键词的内容和位置,关键词包括第二候选搜索文本的主语和谓语。
步骤306,判断第二候选搜索文本对应的标注与目标内容是否一致。
将第二候选搜索文本对应的标注与目标内容比对,以判断第二候选搜索文本对应的标注与目标内容是否一致。
可选地,上述判断第二候选搜索文本对应的标注与目标内容是否一致之前,还可以执行下述步骤:
(1)提取目标内容;
(2)对目标内容进行内容清洗,得到清洗后的目标内容;
此时,上述判断第二候选搜索文本对应的标注与目标内容是否一致,包括:
判断第二候选搜索文本对应的标注与清洗后的目标内容是否一致。
在确定输入搜索文本中的目标内容以及其位置之后,可以提取该目标哦内容,并对目标内容进行清洗,去除掉输入搜索文本中无用的标点符号、特殊字符、无用的助词和副词等等,得到清洗后的目标内容,并基于该清洗后的目标内容进行一致性判断。
示例性地,假设目标内容为“小*张”,进行内容清洗后变成“小张”,和第二候选搜索文本对应的标注“小张”相一致;目标内容还包括“生日”,内容清洗后变成“生日”,和第二候选搜索文本对应的标注“生日”相一致。从而,确保了主语和谓词的一致性,保证用户的真实意图。
步骤307,将与目标内容相一致的标注所对应的第一候选搜索文本确定为第二候选搜索文本。
步骤308,将输入搜索文本转换为与输入搜索文本对应的第一内容模板。
上述内容模板是指具有扩展样例的一种通用的句式。示例性地,输入搜索文本为“想知道小*张的生日是哪天”,转换为与该输入搜索文本对应的第一内容模板为:[help][person][attribute]是[when]。
步骤309,将第三候选搜索文本转换为与第三候选搜索文本对应的第二内容模板。
对应地,可以将第三候选搜索文本转换为与第三候选搜索文本对应的第二内容模板。
示例性地,假设第三候选搜索文本“请问小张的生日是什么时候”,转换为与该第三候选搜索文本对应的第二内容模板为:[help][person][attribute]是 [when]。
步骤310,对第一内容模板与第二内容模板进行句子模板一致性判断。
将第一内容模板与第二内容模板进行比对,以判断第一内容模板与第二内容模板的一致性。
示例性地,假设输入搜索文本为“想知道小*张的生日是哪天”,转换为与该输入搜索文本对应的第一内容模板为:[help][person][attribute]是[when];假设第三候选搜索文本“请问小张的生日是什么时候”,转换为与该第三候选搜索文本对应的第二内容模板为:[help][person][attribute]是[when];将第一内容模板与第二内容模板进行对比,可知两指主语和谓语相同,且句子模板也相一致,因此可以确认该第三候选搜索文本“请问小张的生日是什么时候”与输入搜索文本为“想知道小*张的生日是哪天”的搜索意图相一致。
可选地,在对第一内容模板与第二内容模板进行句子模板一致性判断后,不存在与第一内容模板相匹配的第二内容模板时,可以执行下述步骤311-312。
可选地,在对第一内容模板与第二内容模板进行句子模板一致性判断后,不存在与第一内容模板相匹配的第二内容模板时,可以执行下述步骤313-314。
步骤311,将与第一内容模板相匹配的第二内容模板对应第三候选搜索文本确定为第一目标搜索文本。
在对第一内容模板与第二内容模板进行句子模板一致性判断后,存在与第一内容模板相匹配的第二内容模板时,可以将该第二内容模板对应的第三候选搜索文本确定为第一目标搜索文本,并基于该第一目标搜索文本进行内容搜索,得到搜索结果。
步骤312,根据第一目标搜索文本在目标数据库中进行内容搜索,得到搜索结果。
上述目标数据库是指输入搜索内容对应的领域的领域数据库。例如,该领域数据库中可以是指令问答领域的知识图谱。其中,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。例如,当输入搜索内容对应的是知识问答相关的领域,则请求知识图谱服务,并得到对应的搜索结果。
步骤313,调用相似度计算模型确定输入搜索文本与第一候选搜索文本的相似度。
在对第一内容模板与第二内容模板进行句子模板一致性判断后,不存在与第一内容模板相匹配的第二内容模板时,可以调用相似度计算模型来确定输入搜索文本与第一候选搜索文本的相似度。
上述相似度计算模型用于计算输入搜索文本与第一候选搜索文本的相似度。上述相似度计算模型可以是Bert模型,也可以是其它模型,本申请实施例对此不作限定。
上述相似度计算模型的可以通过以下几个步骤训练得到:
(1)构建训练样本,训练样本包括正样本和负样本,正样本是指相同领域、相同意图,且参数一致的搜索文本;
(2)采用上述训练样本对相似度计算模型进行训练,得到训练完成的相似度计算模型。
数据库中语料是分领域和意图的,比如从领域级别有:音乐,视频,天气等几十个领域,每一个领域又有几个到几十个不等的意图,比如音乐领域有:播放,搜歌曲,搜歌词,搜专辑等多个意图,每个意图下有多条已标注语料(人工标注)。在模型正负样本的构建过程中,将同领域同意图,且参数一致的为正样本,否则为负样本。
示例性地,在音乐,播放这个意图下的三条语料:“播放刘德华的忘情水”的标注为“播放[singer]刘德华[singer]的[song]忘情水[song]”;“我想听刘德华的忘情水”对应的标注为“我想听[singer]刘德华[singer]的[song]忘情水[song]”;“我想听刘德华的冰雨”对应的标注为:“我想听[singer]刘德华[singer]的[song]冰雨 [song]”。第一条语料和第二条语料在参数类型([singer][song])和实体(刘德华,忘情水)都完全一致,因此可以将上述第一条语料和第二条语料构建为正样本。而第一条语料和第三条语料在参数类型([singer][song])上是一致的,但是在实体名称上却不一致(刘德华,忘情水——刘德华,冰雨)。因此,可以将上述第一条语料和第三条语料构建为负样本。基于此,得到至少一个正样本和负样本。
可选地,正样本与负样本的比例可以是1:10(如1000万的正样本,1亿的负样本),然后采用上述构建的正样本和负样本对相似度模型进行训练,得到训练完成的相似度计算模型。
在相似度计算模型训练完成之后,可以将该相似度计算模型推到线上,以便其它计算机设备在需要时调用。
可选地,可以采用梯度下降法来优化相似度计算模型的参数。
在相似度计算模型满足停止训练条件时,停止对该模型的训练,得到完成训练的相似度计算模型。该完成训练的相似度计算模型计算的相似度更加准确。其中,相似度计算模型的停止训练条件可以预先进行设定,如损失函数的值达到预设阈值、训练轮数达到预设轮数或训练时长达到预设时长等,本申请实施例对此不作限定。
在本申请实施例中,通过采用海量的无监督的语料对相似度机选模型进行计算,从而能够学习到海量语料的特征,如具有近义词的关系、表达不同但是语义相同的关系等,进一步,提高模型计算的相似度的准确性。
步骤314,将相似度满足预设相似度的第一候选搜索文本确定为第二目标搜索文本。
在计算得到上述第一候选搜索文本与输入搜索文本的相似度之后,可以根据该相似度对第一候选搜索文本进行排序,并将第一候选搜索文本中相似度最高的候选搜索文本作为第二目标搜索文本,以便基于该第二目标搜索文本进行内容搜索,得到搜索结果。
步骤315,将搜索结果进行反馈。
在获取到上述搜索结果之后,可以将该搜索结果反馈给用户。
综上所述,本申请实施例提供的技术方案,对召回的候选搜索文本进行模糊匹配、主谓一致性判断以及句子模板一致性判断的筛选之后,还存在候选搜索文本,则将该候选搜索文本作为目标搜索文本进行内容搜索;若不存在候选搜索文本,则调用相似度模型计算召回的候选搜索文本与输入搜索文本之间的相似度,并将相似度最高的候选搜索文本作为目标索索文本进行内容搜索。最后将搜索结果反馈给用户。
另外,本申请实施例中,通过主谓一致性判断以及句子模板一致性判断来判定输入搜索文本与候选搜索文本的一致性,可以得到更加准确的判断结果。
另外,本申请实施例中,还通过相似度计算模型,如Bert模型计算输入搜索文本与候选搜索文本之间的相似度,能够在保证用户的真实意图的情况下,提高搜索结果的准确性。
下面,通过从产品侧对比采用本申请实施例提供的技术方案与未采用本申请实施例提供的技术方案,来描述本申请实施例提供的技术方案的有益效果。
示例性地,如图4至图7所示,其示例性示出了六种搜索结果的示意图。如图4中的(a)部分所示,当用户输入“播放王王菲的传奇”时,未采用本申请实施例提供的技术方案时,未得到搜索结果;如图4中的(b)部分所示,采用本申请实施例提供的技术方案时,搜索结果为音乐“王菲的传奇”。如图5中的(a) 部分所示,当用户输入“播放刘德东华的冰雨”时,未采用本申请实施例提供的技术方案时,搜索结果为李翊君的冰雨;如图5中的(b)部分所示,采用本申请实施例提供的技术方案时,搜索结果为音乐“刘德华的冰雨”。如图6中的(a) 部分所示,当用户输入“播放刘刘德华的冰雨”时,未采用本申请实施例提供的技术方案时,搜索结果为文本“刘德华,偶像”;如图6中的(b)部分所示,采用本申请实施例提供的技术方案时,搜索结果为音乐“刘德华的冰雨”。如图7中的 (a)部分所示,当用户输入“播放张学学友的吻别”时,未采用本申请实施例提供的技术方案时,未得到搜索结果;如图7中的(b)部分所示,采用本申请实施例提供的技术方案时,搜索结果为音乐“张学友的吻别”。
可以看出,在未采用本申请实施例提供的技术方案时,如果输入搜索文本中新增了一个字或者改成了别的符号,那么计算机设备无法识别出正确的搜索文本,从而导致无法得到搜索结果或者搜索结果错误。但是在采用本申请实施例提供的技术方案时,通过模糊匹配以及相关的深度学习算法,能够使得计算机设备识别出正确的搜索文本,从而得到正确的搜索结果。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图8,其示出了本申请一个实施例提供的内容搜索装置的框图。该装置具有实现上述内容搜索方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备上。该装置800可以包括:文本获取模块810、文本召回模块 820、文本匹配模块830、主谓判断模块840和模板判断模块850。
文本获取模块810,用于获取输入搜索文本。
文本召回模块820,用于根据所述输入搜索文本在内容数据库中进行召回,得到与所述输入搜索文本匹配的第一候选搜索文本以及所述第一候选搜索文本对应的标注。
文本匹配模块830,用于根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,所述第二候选搜索文本包括所述第一候选搜索文本中与所述输入搜索文本中的目标内容相似的标注所对应的搜索文本。
主谓判断模块840,用于根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,所述第三候选搜索文本包括所述第二候选搜索文本中与所述输入搜索文本主谓一致的搜索文本。
模板判断模块850,用于对所述输入搜索文本与所述第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本,所述第一目标搜索文本用于进行内容搜索得到搜索结果。
综上所述,本申请实施例提供的技术方案,将输入搜索文本进行召回得到的候选搜索文本,首先进行模糊匹配,之后基于模糊匹配的结果进行主谓一致性判断,最后基于主谓一致性判断的结果进行句子模板一致性判断,得到最终的目标搜索文本,并采用目标搜索文本进行内容搜索。相比于相关技术中,直接采用精准匹配,导致召回率不足,进一步导致搜索结果不够准确的技术问题。本申请实施例提供的技术方案,采用模糊匹配,可以有效提高召回率,进一步提高了搜索结果的准确性。
在一些可能的设计中,所述文本匹配模块830,用于计算所述输入搜索文本与所述第一候选搜索文本对应的标注之间的编辑距离;将所述编辑距离小于预设距离的第一候选搜索文本确定为所述第二候选搜索文本。
在一些可能的设计中,如图9所示,所述主谓判断模块840,包括:
内容确定单元841,用于根据所述第二候选搜索文本对应的标注,确定所述目标内容以及所述目标内容在所述输入搜索文本中的位置,所述第二候选搜索文本对应的标注用于表征所述第二候选搜索文本的关键词的内容和位置,所述关键词包括所述第二候选搜索文本的主语和谓语;
主谓判断单元842,用于判断所述第二候选搜索文本对应的标注与所述目标内容是否一致;
文本确定单元843,用于将与所述目标内容相一致的标注所对应的第一候选搜索文本确定为所述第二候选搜索文本。
在一些可能的设计中,如图9所示,所述主谓判断模块840,还包括:内容提取单元844和内容清洗单元845。
内容提取单元844,用于提取所述目标内容。
内容清洗单元845,用于对所述目标内容进行内容清洗,得到清洗后的目标内容。
主谓判断单元842,用于判断所述第二候选搜索文本对应的标注与所述清洗后的目标内容是否一致。
在一些可能的设计中,所述模板判断模块850,用于将所述输入搜索文本转换为与所述输入搜索文本对应的第一内容模板;将所述第三候选搜索文本转换为与所述第三候选搜索文本对应的第二内容模板;对所述第一内容模板与所述第二内容模板进行句子模板一致性判断;将与所述第一内容模板相匹配的所述第二内容模板对应第三候选搜索文本确定为所述第一目标搜索文本。
在一些可能的设计中,如图9所示,所述装置800还包括:模型调用模块 860和目标确定模块870。
模型调用模块860,用于若所述第三输入搜索文本中不存在所述第一目标搜索文本,则调用相似度计算模型确定所述输入搜索文本与所述第一候选搜索文本的相似度。
目标确定模块870,用于将所述相似度满足预设相似度的第一候选搜索文本确定为第二目标搜索文本,所述第二目标搜索文本用于进行内容搜索得到搜索结果。
在一些可能的设计中,如图9所示,所述装置800还包括:
内容搜索模块880,用于根据所述第一目标搜索文本在目标数据库中进行内容搜索,得到所述搜索结果。
结果反馈模块890,用于将所述搜索结果进行反馈。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的终端的结构框图。通常,终端1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、 FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器 1001可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的内容搜索方法。
在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备可以包括:通信接口1004、显示屏1005、音频电路1006、摄像头组件1007、定位组件1008和电源1009中的至少一种。
本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
请参考图11,其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的内容搜索方法。例如,该服务器可以是图1 所示实施环境中的服务器20。具体来讲:
所述服务器1100包括CPU1101、包括RAM(Random Access Memory,随机存取存储器)1102和ROM(Read Only Memory,只读存储器)1102的系统存储器1104,以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述服务器1100还包括帮助计算机内的各个器件之间传输信息的基本I/O (Input/Output输入/输出)系统1106,和用于存储操作系统1113、应用程序1114 和其他程序模块1112的大容量存储设备1107。
所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器 (未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说,所述大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,带电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。
根据本申请的各种实施例,所述服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112,或者说,也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述内容搜索方法。
在示例性实施例中,还提供了一种计算机设备。该计算机设备可以是终端或服务器。所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述内容搜索方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时实现上述内容搜索方法。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被处理器执行时,其用于实现上述内容搜索方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种内容搜索方法,其特征在于,所述方法包括:
获取输入搜索文本;
根据所述输入搜索文本在内容数据库中进行召回,得到与所述输入搜索文本匹配的第一候选搜索文本以及所述第一候选搜索文本对应的标注;
根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,所述第二候选搜索文本包括所述第一候选搜索文本中与所述输入搜索文本中的目标内容相似的标注所对应的搜索文本;
根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,所述第三候选搜索文本包括所述第二候选搜索文本中与所述输入搜索文本主谓一致的搜索文本;
对所述输入搜索文本与所述第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本,所述第一目标搜索文本用于进行内容搜索得到搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,包括:
计算所述输入搜索文本与所述第一候选搜索文本对应的标注之间的编辑距离;
将所述编辑距离小于预设距离的第一候选搜索文本确定为所述第二候选搜索文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,包括:
根据所述第二候选搜索文本对应的标注,确定所述目标内容以及所述目标内容在所述输入搜索文本中的位置,所述第二候选搜索文本对应的标注用于表征所述第二候选搜索文本的关键词的内容和位置,所述关键词包括所述第二候选搜索文本的主语和谓语;
判断所述第二候选搜索文本对应的标注与所述目标内容是否一致;
将与所述目标内容相一致的标注所对应的第一候选搜索文本确定为所述第二候选搜索文本。
4.根据权利要求3所述的方法,其特征在于,所述判断所述第二候选搜索文本对应的标注与所述目标内容是否一致之前,还包括:
提取所述目标内容;
对所述目标内容进行内容清洗,得到清洗后的目标内容;
所述判断所述第二候选搜索文本对应的标注与所述目标内容是否一致,包括:
判断所述第二候选搜索文本对应的标注与所述清洗后的目标内容是否一致。
5.根据权利要求1所述的方法,其特征在于,所述对所述输入搜索文本与所述第三输入搜索文本进行句子模板一致性判断,得到第一目标搜索文本,包括:
将所述输入搜索文本转换为与所述输入搜索文本对应的第一内容模板;
将所述第三候选搜索文本转换为与所述第三候选搜索文本对应的第二内容模板;
对所述第一内容模板与所述第二内容模板进行句子模板一致性判断;
将与所述第一内容模板相匹配的所述第二内容模板对应第三候选搜索文本确定为所述第一目标搜索文本。
6.根据权利要求5所述的方法,其特征在于,所述对所述输入搜索文本与所述第三输入搜索文本进行句子模板一致性判断,得到第一目标搜索文本之后,还包括:
若所述第三输入搜索文本中不存在所述第一目标搜索文本,则调用相似度计算模型确定所述输入搜索文本与所述第一候选搜索文本的相似度;
将所述相似度满足预设相似度的第一候选搜索文本确定为第二目标搜索文本,所述第二目标搜索文本用于进行内容搜索得到搜索结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述输入搜索文本与所述第三输入搜索文本进行句子模板一致性判断,得到第一目标搜索文本之后,还包括:
根据所述第一目标搜索文本在目标数据库中进行内容搜索,得到所述搜索结果;
将所述搜索结果进行反馈。
8.一种内容搜索装置,其特征在于,所述装置包括:
文本获取模块,用于获取输入搜索文本;
文本召回模块,用于根据所述输入搜索文本在内容数据库中进行召回,得到与所述输入搜索文本匹配的第一候选搜索文本以及所述第一候选搜索文本对应的标注;
文本匹配模块,用于根据所述标注对所述输入搜索文本与所述第一候选搜索文本进行模糊匹配,得到第二候选搜索文本,所述第二候选搜索文本包括所述第一候选搜索文本中与所述输入搜索文本中的目标内容相似的标注所对应的搜索文本;
主谓判断模块,用于根据所述目标内容和所述第二候选搜索文本对应的标注,对所述输入搜索文本与所述第二候选搜索文本进行主谓一致性判断,得到第三候选搜索文本,所述第三候选搜索文本包括所述第二候选搜索文本中与所述输入搜索文本主谓一致的搜索文本;
模板判断模块,用于对所述输入搜索文本与所述第三候选搜索文本进行句子模板一致性判断,得到第一目标搜索文本,所述第一目标搜索文本用于进行内容搜索得到搜索结果。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851956.5A CN110795544B (zh) | 2019-09-10 | 2019-09-10 | 内容搜索方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910851956.5A CN110795544B (zh) | 2019-09-10 | 2019-09-10 | 内容搜索方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795544A true CN110795544A (zh) | 2020-02-14 |
CN110795544B CN110795544B (zh) | 2023-07-21 |
Family
ID=69427322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910851956.5A Active CN110795544B (zh) | 2019-09-10 | 2019-09-10 | 内容搜索方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795544B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112182144A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 搜索词标准化方法、计算设备和计算机可读存储介质 |
CN112230810A (zh) * | 2020-10-10 | 2021-01-15 | 深圳市欢太科技有限公司 | 应用查找方法、装置、终端及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016053130A1 (en) * | 2014-10-01 | 2016-04-07 | Obschestvo S Ogranichennoy Otvetstvennostyu "Slickjump" | Method for rendering relevant context-based information |
US20170177715A1 (en) * | 2015-12-21 | 2017-06-22 | Adobe Systems Incorporated | Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates |
CN106951470A (zh) * | 2017-03-03 | 2017-07-14 | 中兴耀维科技江苏有限公司 | 一种基于业务知识图检索的智能问答系统 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
US20180032930A1 (en) * | 2015-10-07 | 2018-02-01 | 0934781 B.C. Ltd | System and method to Generate Queries for a Business Database |
CN108292323A (zh) * | 2016-01-08 | 2018-07-17 | 微软技术许可有限责任公司 | 使用数据源的元数据的数据库操作 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN109271459A (zh) * | 2018-09-18 | 2019-01-25 | 四川长虹电器股份有限公司 | 基于Lucene和文法网络的聊天机器人及其实现方法 |
CN110019731A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、终端设备及存储介质 |
CN110032675A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 基于共现词的检索方法、装置、设备及可读存储介质 |
-
2019
- 2019-09-10 CN CN201910851956.5A patent/CN110795544B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016053130A1 (en) * | 2014-10-01 | 2016-04-07 | Obschestvo S Ogranichennoy Otvetstvennostyu "Slickjump" | Method for rendering relevant context-based information |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
US20180032930A1 (en) * | 2015-10-07 | 2018-02-01 | 0934781 B.C. Ltd | System and method to Generate Queries for a Business Database |
US20170177715A1 (en) * | 2015-12-21 | 2017-06-22 | Adobe Systems Incorporated | Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates |
CN108292323A (zh) * | 2016-01-08 | 2018-07-17 | 微软技术许可有限责任公司 | 使用数据源的元数据的数据库操作 |
CN106951470A (zh) * | 2017-03-03 | 2017-07-14 | 中兴耀维科技江苏有限公司 | 一种基于业务知识图检索的智能问答系统 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN110019731A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、终端设备及存储介质 |
CN109271459A (zh) * | 2018-09-18 | 2019-01-25 | 四川长虹电器股份有限公司 | 基于Lucene和文法网络的聊天机器人及其实现方法 |
CN110032675A (zh) * | 2019-03-13 | 2019-07-19 | 平安城市建设科技(深圳)有限公司 | 基于共现词的检索方法、装置、设备及可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783903A (zh) * | 2020-08-05 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN111783903B (zh) * | 2020-08-05 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 文本处理方法、文本模型的处理方法及装置、计算机设备 |
CN112230810A (zh) * | 2020-10-10 | 2021-01-15 | 深圳市欢太科技有限公司 | 应用查找方法、装置、终端及存储介质 |
CN112182144A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 搜索词标准化方法、计算设备和计算机可读存储介质 |
CN112182144B (zh) * | 2020-12-01 | 2021-03-05 | 震坤行网络技术(南京)有限公司 | 搜索词标准化方法、计算设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110795544B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
US20190266167A1 (en) | Content Authoring | |
US20170161619A1 (en) | Concept-Based Navigation | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN107832439A (zh) | 多轮状态追踪的方法、系统及终端设备 | |
CN112287085B (zh) | 语义匹配方法、系统、设备及存储介质 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN110991183A (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
CN110347807B (zh) | 问题信息处理方法及装置 | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN116956068A (zh) | 基于规则引擎的意图识别方法、装置、电子设备及介质 | |
CN116401344A (zh) | 根据问句检索表格的方法和装置 | |
CN114372478A (zh) | 一种基于知识蒸馏的问答方法、终端设备及存储介质 | |
CN115795007A (zh) | 智能问答方法、智能问答装置、电子设备及存储介质 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN113392220B (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN110472140B (zh) | 对象词推荐方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40021048 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |