CN109783735A - 一种基于用户语料获取内容的方法和装置 - Google Patents

一种基于用户语料获取内容的方法和装置 Download PDF

Info

Publication number
CN109783735A
CN109783735A CN201910046976.5A CN201910046976A CN109783735A CN 109783735 A CN109783735 A CN 109783735A CN 201910046976 A CN201910046976 A CN 201910046976A CN 109783735 A CN109783735 A CN 109783735A
Authority
CN
China
Prior art keywords
keyword
address
content
corpus
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910046976.5A
Other languages
English (en)
Inventor
魏誉荧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910046976.5A priority Critical patent/CN109783735A/zh
Publication of CN109783735A publication Critical patent/CN109783735A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及内容搜索技术领域,提供一种通过用户语料获取内容的方法和装置,包括提取用户的语料的关键词;依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。实现快速获取用户的搜索意图,并始终可以获得搜索结果。

Description

一种基于用户语料获取内容的方法和装置
技术领域
本发明涉及内容搜索技术领域,尤指一种基于用户语料获取内容的方法和 装置。
背景技术
手机APP或者其他应用程序通过搜索第三方网站获取用户需要的内容是已 知的,传统的应用程序通过要求用户输入需要查找的内容关键词,前往第三方 搜索与关键词相关的内容反馈给用户。这一类应用程序往往需要用户自行进行 提炼关键词,然后通过键盘或者虚拟键盘打字输入关键词,这种方式降低了用 户从产生疑问到获取答案过程的效率。
当用户完成输入后,应用程序使用内部已经存储好地址的第三方搜索对应 的内容,当这些预先存储的第三方的地址有时发生变化,或者需要关键词对应 的内容的地址发生变化时,搜索就会失败。
如何应对这些情况,一方面增加用户搜索的效率,一方面使用户始终可以 搜索到所需的内容,成为新的问题。
发明内容
本发明提供一种基于用户语料获取内容的方法和装置,通过识别用户语料 快速获取用户的搜索意图,在使用预先存储的第三方内容进行搜索失败后,切 换另一个地址进行新的搜索,使用户始终可以获得搜索结果。
本发明提供的技术方案如下:
本发明提供一种基于用户语料获取内容的方法和装置,包括:
提取用户的语料的关键词;
依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从 所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;
当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的 内容;
当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中 的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。
具体地,用户的语料可以是用户使用键盘或者虚拟键盘输入的语料,也可 以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式 不影响本发明的实施。
提取用户的语料的关键词,通过关键词理解用户的搜索意图,获取用户需 要的内容的特征。
与所述关键词对应的内容的地址列表是提供与关键对用的内容的网站、服 务器、或者内部存储器的地址列表,具体的存储方式不影响本发明的实施。这 些地址列表可以根据所有用户的搜索记录进行分类获得,也可以由应用程序的 开发人员人工预先分类后存储在各类设备的存储器中。地址列表中,每一个地 址都有关联的关键词,当进行查找的关键与某一个或多个地址关联时,某一个 或多个地址就会被抓取,用来搜索关键词所对应的内容。
与关键词对应的内容可以是与关键词对应的文字、图像、音频、视频内容, 也可以是与关键词对应的操作,视提取的关键词具体含义对应发生变化。抓取 并输出这些内容指的是当关键词对应的内容为文字、图像、音频、视频内容时, 将他们从包含这些内容的地址里提取出来,使用图像显示器、音频、视频播放 器等向进行搜索的用户输出这些内容,其输出的设备可以与进行搜索的设备为 同一个,也可以是通过网络通信技术进行耦接的多个设备,具体的输出形式和 输出设备不影响本发明实施。
当在某一个地址中搜索后,并未查找到与关键词对应的内容,那么就在地 址列表中选取另一个未经查找的地址中继续查找。一般情况下,存储到地址列 表中,通过关键词查找获得的地址都是包含与关键词关联的内容的,但当这些 地址发生变更、过期失效时,这个搜索就会失败。当然,搜索失败还包括其他 原因,例如网络连接失败,或者设备故障,具体的搜索失败原因不影响本发明 的实施,只要进行搜索的设备无法成功获取与关键词对用的内容,本发明就会 弃用当前进行搜索的地址,切换到另一个未经查找的地址中继续查找,直到查 找到与关键词对应的内容。
进一步地,本发明还提供一种基于用户语料获取内容的方法,所述提取 用户的语料的关键词包括:
解析所述语料中的语句的语义,转换为实体语义槽的形式;
提取所述实体语义槽中的关键词,作为所述语料的关键词。
具体地,在一些实施方式中,对用户的语料进行语义解析,理解用户的提 供的语料所表达的意图。解析过程中,对用户语料中的语句进行断句,文字内 容语料,通过标点符号进行断句,语音或图像内容语料通过语音识别或图像识 别技术转化为文字内容语料后进行断句,获取一个或多个句子,语料的具体呈 现形式不影响本发明实施。将这些句子按照句式结构分解成语义槽组成的形式, 这里的语义槽包括该槽位的词性以及该槽位在具体句式结构中的位置,将句子 中的词语按照词性填充到语义槽中。
提取实体语义槽中的关键词指的是在句子中的语义槽被符合槽定义的词 语填充之后,将这个词语提取出来,作为理解用户语料意图的关键词。
进一步地,本发明还提供一种基于用户语料获取内容的方法,所述获取提 供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查 找是否存在与所述关键词对应的内容具体包括:
提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第三方 内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大到小 的顺序进行排列;
根据排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从 编号最大的地址接入查找内容。
具体地,预先已存储的与所述关键词相关的第三方内容网站列表,可以是 存储在设备本地的存储器,也可以是存储在其他服务器中由本设备通过网络通 信获取,这些存储方式和存储地址不影响本发明的实施。在进行搜索之前,已 经统计了这些第三方内容网站的历史被搜索记录,每个网站被搜索的次数,成 功接入次数都已经记录下来,当这些网站根据关键词从列表中被筛选出来时, 将它们按照成功接入的次数从大到小进行排列。
排列完成后,依次对它们进行编号,其中第一号是编号最大的网站,优先 接入第一号网站的地址,查找与关键词对应的内容。如果第一号网站查找失败, 那么接入第二号网站,如果第二号网站查找失败,那么接入第三号网站,依此 类推,直到查找到所需的内容。查找失败的原因有多种,但当这些地址发生变 更、过期失效时,这个搜索就会失败。当然,搜索失败还包括其他原因,例如 网络连接失败,或者设备故障,具体的搜索失败原因不影响本发明的实施,只 要进行搜索的设备无法成功获取与关键词对用的内容,本发明就会弃用当前进 行搜索的地址,切换到下一编号的网站中继续查找,直到查找到与关键词对应的内容。
进一步地,本发明还提供一种基于用户语料获取内容的方法,所述获取 提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地 址查找是否存在与所述关键词对应的内容具体包括:
在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二搜索 结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接入网 站查找内容。
具体地,在本发明一些实施方式中,地址列表并不是预先存储好的,而是 通过用户语料的关键词,在搜索引擎中搜索获得的。搜索引擎可以是百度、必 应、谷歌等常用的搜索引擎,也可以是一些专业行业的搜索引擎,例如智慧芽、 佰腾等专利搜索引擎,具体的搜索引擎不影响本发明的实施。用户的语料中的 关键词输入之后,通常搜索引擎会提供一些按顺序排列的网站,也即是本发明 一些实施方式中的第二搜索结果,将第二搜索结果中的网站顺序列表作为第三 方网站内容列表,从中接入网站查找与关键词对应的内容。
进一步优选地,在本发明另一些实施方式中,在用户成功接入搜索引擎提 供的网站获取与关键词对应的内容后,统计这些网站的地址和成功接入次数, 将成功接入次数多的地址存储起来。
进一步地,本发明还提供一种基于用户语料获取内容的方法,所述在搜 索引擎中输入所述语料的关键词前包括:
提取预先已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排列的 多个搜索引擎;
根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大的优 先被选取,从编号最大的所述搜索引擎的地址接入查找内容。
具体地,本发明一些实施方式中,并不预先设置搜索引擎,而是提供一些 按优先级排列的搜索引擎列表,这些搜索引擎列表按照一些关键词进行匹配, 例如:常规的搜索关键词对应的搜索引擎列表为:
1、百度搜索
2、必应搜索
3、搜狗搜索
而当关键词中出现专利搜索时,对应的搜索引擎列表为:
1、智慧芽搜索
2、佰腾搜索
以上举例并不代表本发明只包含这两种搜索引擎列表,而是为了说明本发 明中可以根据关键词匹配不同的搜索引擎。这些搜索引擎具体的匹配规则可以 根据实际情况进行调整和变更。
进一步地,本发明还提供一种基于用户语料获取内容的装置,包括:
提取模块,用于提取用户的语料的关键词;
查找模块,获取提供与所述提取模块得到的所述关键词对应的内容的地 址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应 的内容;
抓取模块,当所述查找模块查找到与所述关键词对应的内容时,抓取并 输出与所述关键词对应的内容;
切换模块,当所述查找模块未查找到与所述关键词对应的内容时,则自 动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与 所述关键词对应的内容。
进一步地,本发明提供一种基于用户语料获取内容的装置,所述提取模块 包括:
解析子模块,解析所述语料中的语句的语义,转换为实体语义槽的形 式;
关键词子模块,提取所述实体语义槽中的关键词,作为所述语料的关键 词。
进一步地,本发明提供一种基于用户语料获取内容的装置,所述提取模 块包括:
排序子模块,提取预先已存储的与所述关键词相关的第三方内容网站列表, 所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次 数从大到小的顺序进行排列;
编号子模块,根据排序子模块排列的顺序,依次对所述地址进行编号,编 号最大的优先被选取,从编号最大的地址接入查找内容。
进一步地,本发明提供一种基于用户语料获取内容的装置,所述查找模块 还包括:
搜索子模块,在搜索引擎中输入所述语料的关键词,获取第二搜索结果, 所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的 顺序,接入网站查找内容。
进一步地,本发明提供一种基于用户语料获取内容的装置,所述搜索子 模块还用于:
获取已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排列的多个 搜索引擎;
根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大的优 先被选取,从编号最大的所述搜索引擎的地址接入查找内容。
通过本发明提供的一种基于用户语料获取内容的方法和装置,,能够带来 以下至少一种有益效果:
1、当从一个地址获取内容失败时,自动切换至另一个地址进行搜索,并保 证用户的搜索总能获得结果,相较传统方法,搜索过程效率更高。
2、在用户原始语料中过滤掉与用户意图无关的其他词语,得到可以代表用 户意图的关键词,为后续进行查找提供搜索词,通过关键词理解用户的搜索意 图获取其需要的内容,实现对用户意图的快速识别。
3、通过对地址列表进行编号,优先选取编号最大的地址进行所述关键词对 应的内容查找,基于大数据统计,进一步提高了查找的效率,避免无序地选取 地址列表中的地址增加额外的查找时间。
4、通过在搜索引擎搜索获取地址列表,避免了通过人工预设的址列表无法 及时更新的问题。通过现有的搜索引擎获取地址列表,一定程度上可以保证获 取的关键词对应的内容为及时更新的信息。
5、通过选择搜索引擎,实现更专业更准确的搜索,进一步提高了根据用户 语料获取内容的准确性。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于用户 语料获取内容的方法和装置的上述特征、技术特征、优点及其实现方式予以进 一步的说明。
图1是本发明一种基于用户语料获取内容的方法的一个实施例的流程图;
图2是本发明一种基于用户语料获取内容的方法的另一个实施例的流程图;
图3是本发明一种基于用户语料获取内容的方法的又一个实施例的流程图;
图4是本发明一种基于用户语料获取内容的方法的另一个实施例的流程图;
图5是本发明一种基于用户语料获取内容的方法的又一个实施例的流程图;
图6是本发明一种基于用户语料获取内容的装置的一个实施例的结构示 意图;
附图标号说明:
100 提取模块
110 解析子模块
120 关键词子模块
200 查找模块
210 排序子模块
220 编号子模块
230 搜索子模块
300 抓取模块
400 切换模块
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附 图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并 不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具 有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的 一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的 情形。
本发明提供一种基于用户语料获取内容的方法和装置,通过识别用户语料 快速获取用户的搜索意图,并在使用预先存储的第三方内容进行搜索失败后, 切换另一个地址进行新的搜索的方法,实现增加用户搜索的效率,并且使用户 始终可以搜索到所需的内容。
本发明第一实施例,如图1所示一种基于用户语料获取内容的方法,所 述提取用户的语料的关键词包括:
S100提取用户的语料的关键词;
S200依据所述关键词,获取提供与所述关键词对应的内容的地址列表, 并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;
S310当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对 应的内容;
S320当未查找到与所述关键词对应的内容时,弃用当前进行查找的地 址,返回至S200,切换至所述地址列表中的另一未经查找的地址中继续查找, 直至查找到与所述关键词对应的内容。
本发明的一些实施例中,用户的语料可以是用户使用键盘或者虚拟键盘输 入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体 的语料获取方式不影响本发明的实施。例如用户输入的语料为:“请问你能告诉 我鲨鱼为什么会一直不停地游动吗”。
通过S100提取用户的语料的关键词,通过关键词理解用户的搜索意图,获 取用户需要的内容的特征。在一个实施例中,关键词为“为什么”“鲨鱼”“一 直”“游动”。
在S200中,与所述关键词对应的内容的地址列表是提供与关键对用的内 容的网站、服务器、或者内部存储器的地址列表,其具体的存储方式不影响本 发明的实施。这些地址列表可以根据所有用户的搜索记录进行分类获得,也可 以由应用程序的开发人员人工预先分类后存储在各类设备的存储器中。地址列 表中,每一个地址都有关联的关键词,当进行查找的关键词与某一个或多个地 址关联时,某一个或多个地址就会被抓取,用来搜索关键词所对应的内容。例 如,“为什么”作为关键词关联到问答类网站地址中,相关联的地址就被提取出 来形成地址列表,例如“百度知道、知乎、维基百科”这些网站地址形成的地址列表,从这个地址列表中,再选取某一个地址,如“百度知道”查找与所述 关键词“为什么”“鲨鱼”“一直”“游动”对应的内容。由此,通过S200实现 通过用户语料的关键词进行对应内容的查找。
与关键词对应的内容可以是与关键词对应的文字、图像、音频、视频内容, 也可以是与关键词对应的操作,视提取的关键词具体含义对应发生变化。例如, 关键词“为什么”“鲨鱼”“一直”“游动”对应的内容可以是对这个问题的解答 的文字内容,还可以是通过动画视频呈现的解答。
抓取并输出这些内容指的是当关键词对应的内容为文字、图像、音频、视 频内容时,将他们从包含这些内容的地址里提取出来,使用图像显示器、音频、 视频播放器等向进行搜索的用户输出这些内容,其输出的设备可以与进行搜索 的设备为同一个,也可以是通过网络数据通信技术进行耦接的多个设备,具体 的输出形式和输出设备不影响本发明实施。
根据S200步骤进行的查找可能出现两种结果,一种是成功在选定的地址 中找到与关键词对应的内容,这时进入步骤S310,抓取并输出这些内容。基于 S310,进一步优选的,可以对查找获取的关键词对应的内容呈现形式进行判断, 优先输出通过动画视频呈现的解答。
当S200步骤中未查找到与所述关键词对应的内容时,进入步骤S320,弃用 当前进行查找的地址,在地址列表中选取另一个未经查找的地址中继续查找。 一般情况下,存储到地址列表中,通过关键词查找获得的地址都是包含与关键 词关联的内容的,但当这些地址发生变更、过期失效时,这个搜索就会失败。 当然,搜索失败还包括其他原因,例如网络连接失败,或者设备故障,具体的 搜索失败原因不影响本发明的实施,只要进行搜索的设备无法成功获取与关键 词对用的内容,本发明就会弃用当前进行搜索的地址,切换到另一个未经查找 的地址中继续查找,直到查找到与关键词对应的内容。
本发明的一些实施中,通过关键词理解用户的搜索意图获取其需要的内容, 当从一个地址获取内容失败时,自动切换至另一个地址进行搜索,实现对用户 意图的快速识别,并保证用户的搜索总能获得结果,相较传统方法,是搜索过 程效率更高。
本发明第二实施例,如图2所示还提供一种基于用户语料获取内容的方 法,包括:
S101解析所述语料中的语句的语义,转换为实体语义槽的形式;
S102提取所述实体语义槽中的关键词,作为所述语料的关键词;
S200依据所述关键词,获取提供与所述关键词对应的内容的地址列表, 并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;
S310当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对 应的内容;
S320当未查找到与所述关键词对应的内容时,弃用当前进行查找的地址, 返回至S200,切换至所述地址列表中的另一未经查找的地址中继续查找,直至 查找到与所述关键词对应的内容。
一些实施例中,用户的语料可以是用户使用键盘或者虚拟键盘输入的语料, 也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取 方式不影响本发明的实施。例如用户输入的语料为:“请问你能告诉我鲨鱼为什 么会一直不停地游动吗”。
在一些实施方式中,通过S101对用户的语料进行语义解析,理解用户的提 供的语料所表达的意图。解析过程中,对用户语料中的语句进行断句,例如, 疑问句“请问你能告诉我鲨鱼为什么会一直不停地游动吗?”是从用户输入的 语料中获取的语料中经过断句获得一句,句子文字内容语料,通过标点符号进 行断句,语音或图像内容语料通过语音识别或图像识别技术转化为文字内容语 料后进行断句,获取一个或多个句子,语料的具体呈现形式不影响本发明实施。 将这些句子按照句式结构分解成语义槽组成的形式,这里的语义槽包括该槽位 的词性以及该槽位在具体句式结构中的位置,将句子中的词语按照词性填充到 语义槽中。例如,“请问你能告诉我鲨鱼为什么会一直不停地游动吗?”句子中, 疑问句的语义槽包括疑问词、主语、状语、谓语。
获取句子以及句子的语义槽形式后,将句子中的关键词填充进去,例如, “请问你能告诉我鲨鱼为什么会一直不停地游动吗?”疑问句中,疑问词的语 义槽填充关键词“为什么”,主语的语义槽填充关键词“鲨鱼”,状语语义槽中 填充关键词“一直”,谓语的语义槽中填充关键词“游动”。
之后,通过S102,提取语义槽中填充进去的词语作为关键词,如此获得“为 什么”、“鲨鱼”、“一直”、“游动”为关键词。
在S200中,与所述关键词对应的内容的地址列表是提供与关键对用的内 容的网站、服务器、或者内部存储器的地址列表,其具体的存储方式不影响本 发明的实施。这些地址列表可以根据所有用户的搜索记录进行分类获得,也可 以由应用程序的开发人员人工预先分类后存储在各类设备的存储器中。地址列 表中,每一个地址都有关联的关键词,当进行查找的关键词与某一个或多个地 址关联时,某一个或多个地址就会被抓取,用来搜索关键词所对应的内容。例 如,“为什么”作为关键词关联到问答类网站地址中,相关联的地址就被提取出 来形成地址列表,例如“百度知道、知乎、维基百科”这些网站地址形成的地址列表,从这个地址列表中,再选取某一个地址,如“百度知道”查找与所述 关键词“为什么”“鲨鱼”“一直”“游动”对应的内容。由此,通过S200实现 通过用户语料的关键词进行对应内容的查找。
与关键词对应的内容可以是与关键词对应的文字、图像、音频、视频内容, 也可以是与关键词对应的操作,视提取的关键词具体含义对应发生变化。例如, 关键词“为什么”“鲨鱼”“一直”“游动”对应的内容可以是对这个问题的解答 的文字内容,还可以是通过动画视频呈现的解答。
抓取并输出这些内容指的是当关键词对应的内容为文字、图像、音频、视 频内容时,将他们从包含这些内容的地址里提取出来,使用图像显示器、音频、 视频播放器等向进行搜索的用户输出这些内容,其输出的设备可以与进行搜索 的设备为同一个,也可以是通过网络数据通信技术进行耦接的多个设备,具体 的输出形式和输出设备不影响本发明实施。
根据S200步骤进行的查找可能出现两种结果,一种是成功在选定的地址 中找到与关键词对应的内容,这时进入步骤S310,抓取并输出这些内容。基于 S310,进一步优选的,可以对查找获取的关键词对应的内容呈现形式进行判断, 优先输出通过动画视频呈现的解答。
当S200步骤中未查找到与所述关键词对应的内容时,进入步骤S320,弃用 当前进行查找的地址,返回至S200,在地址列表中选取另一个未经查找的地址 中继续查找。一般情况下,存储到地址列表中,通过关键词查找获得的地址都 是包含与关键词关联的内容的,但当这些地址发生变更、过期失效时,这个搜 索就会失败。当然,搜索失败还包括其他原因,例如网络连接失败,或者设备 故障,具体的搜索失败原因不影响本发明的实施,只要进行搜索的设备无法成 功获取与关键词对用的内容,本发明就会弃用当前进行搜索的地址,切换到另 一个未经查找的地址中继续查找,直到查找到与关键词对应的内容。
通过本发明的一些实施例,解决了具体如何提取用户的语料的关键词的问 题,在用户原始语料中过滤掉与用户意图无关的其他词语,得到可以代表用户 意图的关键词,为后续进行查找提供搜索词。
本发明第三实施例,如图3所示一种基于用户语料获取内容的方法,包括:
S100提取用户的语料的关键词;
S210提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第 三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大 到小的顺序进行排列;
S220根据排列的顺序,依次对所述地址进行编号,编号最大的优先被选取, 从编号最大的地址接入查找内容;
S310当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对 应的内容;
S320当未查找到与所述关键词对应的内容时,弃用当前进行查找的地址, 返回至S200,切换至所述地址列表中的另一未经查找的地址中继续查找,直至 查找到与所述关键词对应的内容。
一些实施例中,用户的语料可以是用户使用键盘或者虚拟键盘输入的语料, 也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取 方式不影响本发明的实施。例如用户输入的语料为:“请问你能告诉我鲨鱼为什 么会一直不停地游动吗”。
通过S100提取用户的语料的关键词,通过关键词理解用户的搜索意图,获 取用户需要的内容的特征。在一个施例中,关键词为“为什么”“鲨鱼”“一直” “游动”。
在S210中,与所述关键词对应的内容的地址列表是提供与关键对用的内 容的网站、服务器、或者内部存储器的地址列表,其具体的存储方式不影响本 发明的实施。这些地址列表可以根据所有用户的搜索记录进行分类获得,也可 以由应用程序的开发人员人工预先分类后存储在各类设备的存储器中。地址列 表中,每一个地址都有关联的关键词,当进行查找的关键词与某一个或多个地 址关联时,某一个或多个地址就会被抓取,用来搜索关键词所对应的内容。例 如,“为什么”作为关键词关联到问答类网站地址中,相关联的地址就被提取出 来形成地址列表,例如“百度知道、知乎、维基百科”这些网站地址形成的地址列表,在S210中,在进行搜索之前,已经统计了这些第三方内容网站的历史 被搜索记录,每个网站被搜索的次数,成功接入次数都已经记录下来,当这些 网站根据关键词从列表中被筛选出来时,将它们按照成功接入的次数从大到小 进行排列。例如,根据统计成功接入的次数发现从大到小是“知乎”、“百度知 道”、“维基百科”。之后,通过S220,对它们进行编号,即:
1、知乎
2、百度知道
3、维基百科
优先接入第一号网站“知乎”的地址,查找与关键词对应的内容。
根据S220步骤进行的查找可能出现两种结果,一种是成功在选定的地址 中找到与关键词对应的内容,这时进入步骤S310,抓取并输出这些内容。基于 S310,进一步优选的,可以对查找获取的关键词对应的内容呈现形式进行判断, 优先输出通过动画视频呈现的解答。
当S220步骤中未查找到与所述关键词对应的内容时,进入步骤S320,在一 些实施例中,S320中对其他未经查找的地址中继续查找也遵循编号顺序,如果 第一号网站“知乎”查找失败,那么接入第二号网站“百度知道”地址,如果 第二号网站“百度知道”查找失败,那么接入第三号网站“维基百科”地址, 依此类推,直到查找到所需的内容。一般情况下,存储到地址列表中,通过关 键词查找获得的地址都是包含与关键词关联的内容的,但当这些地址发生变更、 过期失效时,这个搜索就会失败。当然,搜索失败还包括其他原因,例如网络 连接失败,或者设备故障,具体的搜索失败原因不影响本发明的实施,只要进 行搜索的设备无法成功获取与关键词对用的内容,本发明就会弃用当前进行搜 索的地址,切换到另一个未经查找的地址中继续查找,直到查找到与关键词对 应的内容。
本发明一些实施例中,通过对地址列表进行编号,优先选取编号最大的地 址进行所述关键词对应的内容查找,基于大数据统计,进一步提高了查找的效 率,避免无序地选取地址列表中的地址增加额外的查找时间。
本发明第四实施例,如图4所示一种基于用户语料获取内容的方法,还 包括:
S230在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二 搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接 入网站查找内容。
本发明一些实施方式基于第一实施例,除了第一实施例所记载的步骤之外, 使用S230实现步骤代替S200,在一些实施例中,地址列表并不是预先存储好 的,而是使用S230在搜索引擎中搜索获得的。搜索引擎可以是百度、必应、谷 歌等常用的搜索引擎,也可以是一些专业行业的搜索引擎,例如智慧芽、佰腾 等专利搜索引擎,具体的搜索引擎不影响本发明的实施。用户的语料中的关键 词输入之后,通常搜索引擎会提供一些按顺序排列的网站,也即是本发明一些 实施方式中的第二搜索结果,将第二搜索结果中的网站顺序列表作为第三方网 站内容列表,从中接入网站查找与关键词对应的内容。
进一步优选地,在本发明另一些实施方式中,在用户成功接入搜索引擎提 供的网站获取与关键词对应的内容后,统计这些网站的地址和成功接入次数, 将成功接入次数多的地址存储起来。
本发明一些实施方式相对于第一实施例中的一些实施方式,通过在搜索引 擎搜索获取地址列表,避免了通过人工预设地址列表无法及时更新的问题。互 联网中的信息日新月异,通过现有的搜索引擎获取地址列表,一定程度上可以 保证获取的关键词对应的内容为及时更新的信息。
本发明第五实施例,如图5所示一种基于用户语料获取内容的方法,还包 括:
S240提取预先已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排 列的多个搜索引擎;
S250根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大 的优先被选取,从编号最大的所述搜索引擎的地址接入查找内容。
本发明一些实施方式基于第四实施例,除了第四实施例所记载的步骤之外, 使用S240和S250代替S230,并不预先设置搜索引擎,而是提供一些按优先级 排列的搜索引擎列表,这些搜索引擎列表通过S240按照一些关键词进行匹配, 例如:常规的搜索关键词对应的搜索引擎列表为:
1、百度搜索
2、必应搜索
3、搜狗搜索
而当关键词中出现专利搜索时,对应的搜索引擎列表为:
1、智慧芽搜索
2、佰腾搜索
以上举例并不代表本发明只包含这两种搜索引擎列表,而是为了说明本发 明中可以根据关键词匹配不同的搜索引擎。这些搜索引擎具体的匹配规则可以 根据实际情况进行调整和变更。
之后,通过S250,优先选择编号大的搜索引擎进行搜索。
本发明的一些实施方式相对于第四实施例中的一些实施方式,通过选择搜 索引擎,实现更专业更准确的搜索。目前很多专业领域都拥有本领域常用的搜 索引擎来获得更准确的查找结果,本发明的一些实施例通过根据关键词匹配不 同的搜索引擎,进一步提高了根据用户语料获取内容的准确性。
本发明第六实施例,如图6所示提供一种基于用户语料获取内容的装 置,包括:
提取模块100,用于提取用户的语料的关键词;
解析子模块110,解析所述语料中的语句的语义,转换为实体语义槽的形 式;
关键词子模块120,提取所述实体语义槽中的关键词,作为所述语料的关 键词。
查找模块200,获取提供与提取模块100得到的所述关键词对应的内容的 地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对 应的内容;
排序子模块210,提取预先已存储的与所述关键词相关的第三方内容网站 列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时, 接入次数从大到小的顺序进行排列;
编号子模块220,根据排序子模块210排列的顺序,依次对所述地址进行 编号,编号最大的优先被选取,从编号最大的地址接入查找内容。
搜索子模块230,在搜索引擎中输入所述语料的关键词,获取第二搜索结 果,所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列 表的顺序,接入网站查找内容。所述搜索子模块230还用于:获取已存储的搜 索引擎列表,所述搜索引擎列表包括按顺序排列的多个搜索引擎;根据排列的 顺序,依次对所述搜索引擎的地址进行编号,编号最大的优先被选取,从编号 最大的所述搜索引擎的地址接入查找内容。
抓取模块300,当查找模块200查找到与所述关键词对应的内容时,抓取 并输出与所述关键词对应的内容;
切换模块400,当查找模块200未查找到与所述关键词对应的内容时,则 自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到 与所述关键词对应的内容。
本发明一些实施例中,通过存储实现本发明的方法的计算机程序的一种 装置,实现通过用户的语料获取内容。用户的语料可以是用户使用键盘或者 虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取 的语料,具体的语料获取方式不影响本发明的实施。
使用提取模块100提取用户的语料的关键词,通过关键词理解用户的搜索 意图,获取用户需要的内容的特征。
在一些实施方式中,提取模块100包括解析子模块110和关键词子模块 120,通过解析子模块110对用户的语料进行语义解析,理解用户的提供的语料 所表达的意图。通过关键词子模块120提取语义槽中填充进去的词语作为关键 词。
之后,通过查找模块200获取提供与提取模块100得到的所述关键词对应 的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关 键词对应的内容。具体地,与所述关键词对应的内容的地址列表是提供与关键 对用的内容的网站、服务器、或者内部存储器的地址列表,其具体的存储方式 不影响本发明的实施。这些地址列表可以根据所有用户的搜索记录进行分类获 得,也可以由应用程序的开发人员人工预先分类后存储在各类设备的存储器中。 地址列表中,每一个地址都有关联的关键词,当进行查找的关键词与某一个或 多个地址关联时,某一个或多个地址就会被抓取,用来搜索关键词所对应的内 容。
在本发明一些实施方式中查找模块200还包括排序子模块210和编号子模 块220。排序子模块210用于提取预先已存储的与所述关键词相关的第三方内 容网站列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键 词时,接入次数从大到小的顺序进行排列;编号子模块220,根据排序子模块 210排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从编号 最大的地址接入查找内容。
在本发明一些实施例中查找模块200还包括搜索子模块230,在搜索引擎 中输入所述语料的关键词,获取第二搜索结果,所述第二搜索结果中的网站顺 序列表作为所述地址列表,依据所述顺序列表的顺序,接入网站查找内容。所 述搜索子模块230还用于:获取已存储的搜索引擎列表,所述搜索引擎列表包 括按顺序排列的多个搜索引擎;根据排列的顺序,依次对所述搜索引擎的地址 进行编号,编号最大的优先被选取,从编号最大的所述搜索引擎的地址接入查 找内容。
查找模块200进行的查找可能出现两种结果,一种是成功在选定的地址中 找到与关键词对应的内容,这时抓取模块300抓取并输出这些内容。进一步优 选的,抓取模块300还可以对查找获取的关键词对应的内容呈现形式进行判断, 优先输出通过动画视频呈现的解答。
当查找模块200未查找到与所述关键词对应的内容时,切换模块400进行 切换,重新调用查找模块200在地址列表中选取另一个未经查找的地址中继续 查找。一般情况下,存储到地址列表中,通过关键词查找获得的地址都是包含 与关键词关联的内容的,但当这些地址发生变更、过期失效时,这个搜索就会 失败。当然,搜索失败还包括其他原因,例如网络连接失败,或者设备故障, 具体的搜索失败原因不影响本发明的实施,只要进行搜索的设备无法成功获取 与关键词对用的内容,本发明就会弃用当前进行搜索的地址,切换到另一个未 经查找的地址中继续查找,直到查找到与关键词对应的内容。
本实施例是上述第一到第五方法实施例结合后的装置实施例,具体的技术 特征和技术效果与上述方法实施例相同,在此不一一赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明 的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不 脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰 也应视为本发明的保护范围。

Claims (10)

1.一种基于用户语料获取内容的方法,其特征在于,包括:
提取用户的语料的关键词;
依据所述关键词,获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;
当查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;
当未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。
2.根据权利要求1所述的一种基于用户语料获取内容的方法,其特征在于,所述提取用户的语料的关键词包括:
解析所述语料中的语句的语义,转换为实体语义槽的形式;
提取所述实体语义槽中的关键词,作为所述语料的关键词。
3.根据权利要求2所述的一种基于用户语料获取内容的方法,其特征在于,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:
提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大到小的顺序进行排列;
根据排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从编号最大的地址接入查找内容。
4.根据权利要求2所述的一种基于用户语料获取内容的方法,其特征在于,所述获取提供与所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容具体包括:
在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接入网站查找内容。
5.根据权利要求4所述的一种基于用户语料获取内容的方法,所述在搜索引擎中输入所述语料的关键词前包括:
提取预先已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排列的多个搜索引擎;
根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大的优先被选取,从编号最大的所述搜索引擎的地址接入查找内容。
6.一种基于用户语料获取内容的装置,其特征在于,包括:
提取模块,用于提取用户的语料的关键词;
查找模块,获取提供与所述提取模块得到的所述关键词对应的内容的地址列表,并从所述地址列表中选取某一地址查找是否存在与所述关键词对应的内容;
抓取模块,当所述查找模块查找到与所述关键词对应的内容时,抓取并输出与所述关键词对应的内容;
切换模块,当所述查找模块未查找到与所述关键词对应的内容时,则自动切换至所述地址列表中的另一未经查找的地址中继续查找,直至查找到与所述关键词对应的内容。
7.根据权利要求6所述的一种基于用户语料获取内容的装置,其特征在于,所述提取模块包括:
解析子模块,解析所述语料中的语句的语义,转换为实体语义槽的形式;
关键词子模块,提取所述实体语义槽中的关键词,作为所述语料的关键词。
8.根据权利要求6所述的一种基于用户语料获取内容的装置,其特征在于,所述查找模块包括:
排序子模块,提取预先已存储的与所述关键词相关的第三方内容网站列表,所述第三方内容网站列表中的地址依据历史搜索所述语料的关键词时,接入次数从大到小的顺序进行排列;
编号子模块,根据所述排序子模块排列的顺序,依次对所述地址进行编号,编号最大的优先被选取,从编号最大的地址接入查找内容。
9.根据权利要求6所述的一种基于用户语料获取内容的装置,其特征在于,所述查找模块还包括:
搜索子模块,在搜索引擎中输入所述语料的关键词,获取第二搜索结果,所述第二搜索结果中的网站顺序列表作为所述地址列表,依据所述顺序列表的顺序,接入网站查找内容。
10.根据权利要求9所述的一种基于用户语料获取内容的装置,其特征在于,所述搜索子模块还用于:
获取已存储的搜索引擎列表,所述搜索引擎列表包括按顺序排列的多个搜索引擎;
根据排列的顺序,依次对所述搜索引擎的地址进行编号,编号最大的优先被选取,从编号最大的所述搜索引擎的地址接入查找内容。
CN201910046976.5A 2019-01-18 2019-01-18 一种基于用户语料获取内容的方法和装置 Pending CN109783735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910046976.5A CN109783735A (zh) 2019-01-18 2019-01-18 一种基于用户语料获取内容的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910046976.5A CN109783735A (zh) 2019-01-18 2019-01-18 一种基于用户语料获取内容的方法和装置

Publications (1)

Publication Number Publication Date
CN109783735A true CN109783735A (zh) 2019-05-21

Family

ID=66501634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910046976.5A Pending CN109783735A (zh) 2019-01-18 2019-01-18 一种基于用户语料获取内容的方法和装置

Country Status (1)

Country Link
CN (1) CN109783735A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184794A1 (zh) * 2020-03-18 2021-09-23 思必驰科技股份有限公司 对话文本的技能领域确定方法及装置
CN114418533A (zh) * 2022-01-13 2022-04-29 北京声智科技有限公司 问卷处理方法、装置、设备、存储介质和计算机程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073879A (ja) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 順位決定装置、順位決定プログラム及び順位決定方法
CN103744853A (zh) * 2013-11-08 2014-04-23 北京奇虎科技有限公司 提供搜索引擎网页快照信息的方法及装置
CN104462216A (zh) * 2014-11-06 2015-03-25 上海南洋万邦软件技术有限公司 居委标准代码转换系统及方法
CN105528398A (zh) * 2015-10-22 2016-04-27 黄建东 一种浏览器中切换网址链接的方法及装置
CN105868356A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 语料检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073879A (ja) * 2010-09-29 2012-04-12 Mitsubishi Space Software Kk 順位決定装置、順位決定プログラム及び順位決定方法
CN103744853A (zh) * 2013-11-08 2014-04-23 北京奇虎科技有限公司 提供搜索引擎网页快照信息的方法及装置
CN104462216A (zh) * 2014-11-06 2015-03-25 上海南洋万邦软件技术有限公司 居委标准代码转换系统及方法
CN105528398A (zh) * 2015-10-22 2016-04-27 黄建东 一种浏览器中切换网址链接的方法及装置
CN105868356A (zh) * 2016-03-29 2016-08-17 乐视控股(北京)有限公司 语料检测方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184794A1 (zh) * 2020-03-18 2021-09-23 思必驰科技股份有限公司 对话文本的技能领域确定方法及装置
JP7481475B2 (ja) 2020-03-18 2024-05-10 エーアイ スピーチ カンパニー リミテッド 対話テキストの機能領域確定方法及び装置
CN114418533A (zh) * 2022-01-13 2022-04-29 北京声智科技有限公司 问卷处理方法、装置、设备、存储介质和计算机程序产品

Similar Documents

Publication Publication Date Title
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN102629246B (zh) 识别浏览器语音命令的服务器及浏览器语音命令识别方法
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN110147437A (zh) 一种基于知识图谱的搜索方法及装置
CN103914513A (zh) 一种实体输入方法和装置
CN107193843A (zh) 一种基于ac自动机和后缀表达式的字符串筛选方法及装置
CN101639857A (zh) 构建知识问答分享平台的方法、装置及系统
US20130290138A1 (en) Search Method, Apparatus and Server for Online Trading Platform
US9720982B2 (en) Method and apparatus for natural language search for variables
US20140330866A1 (en) Systems and methods for parsing search queries
CN112148701A (zh) 一种文件检索的方法及设备
CN105843882A (zh) 一种信息匹配方法及装置
CN109783735A (zh) 一种基于用户语料获取内容的方法和装置
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
EP4150523A1 (en) Systems and methods for retreiving videos using natural language description
CN112527963B (zh) 基于词典的多标签情感分类方法及装置、设备、存储介质
CN106919593A (zh) 一种搜索的方法和装置
US8121991B1 (en) Identifying transient paths within websites
CN112486947A (zh) 一种知识库构建方法、装置、电子设备及可读存储介质
EP4154174A1 (en) Systems and methods for retreiving images using natural language description
CN110442696B (zh) 查询处理方法及装置
CN110147358B (zh) 自动问答知识库的建设方法及建设系统
CN116361416A (zh) 基于语义分析及高维建模的语音检索方法、系统及介质
CN106776590A (zh) 一种获取词条译文的方法及系统
CN107229675B (zh) 列表型知识的问答库构建方法、作答方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521