CN106407332B - 基于人工智能的搜索方法和装置 - Google Patents

基于人工智能的搜索方法和装置 Download PDF

Info

Publication number
CN106407332B
CN106407332B CN201610801209.7A CN201610801209A CN106407332B CN 106407332 B CN106407332 B CN 106407332B CN 201610801209 A CN201610801209 A CN 201610801209A CN 106407332 B CN106407332 B CN 106407332B
Authority
CN
China
Prior art keywords
language
search
type
user
requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610801209.7A
Other languages
English (en)
Other versions
CN106407332A (zh
Inventor
信贤卫
付志宏
曾增烽
何径舟
石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610801209.7A priority Critical patent/CN106407332B/zh
Publication of CN106407332A publication Critical patent/CN106407332A/zh
Application granted granted Critical
Publication of CN106407332B publication Critical patent/CN106407332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提出一种基于人工智能的搜索方法和装置,其中,该基于人工智能的搜索方法,包括以下步骤:接收用户输入的搜索词;根据所述搜索词确定所述用户的语言需求类型;以及根据所述用户的语言需求类型获取所述搜索词对应的搜索结果,并提供给所述用户。本发明的实施例,通过对用户的特定语言类型的搜索需求的识别,对用户的搜索词从语言需求的维度进行划分,从而满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率,节省用户的搜索时间。

Description

基于人工智能的搜索方法和装置
技术领域
本发明涉及搜索技术领域,特别涉及一种基于人工智能的搜索方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着互联网的发展,越来越多的用户通过互联网搜索各种信息。但是,不同地域不同语言的搜索引擎都有各自的擅长领域。大多搜索引擎都是基于某种特定语言的,对于一个搜索引擎来说,对其相应的语言的搜索有较好的效果,而对其他语言的搜索效果的质量和相关性较低。例如,对于中国用户来说,中文搜索引擎比谷歌搜索引擎更懂中文,搜索结果更符合其需求,而对于美国用户来说,谷歌搜索引擎则比中文搜索引擎更懂英文,搜索结果更符合其需求。目前,为了满足不同语言类型的搜索需求,用户根据期望搜索的语言选择相应的搜索引擎进行搜索,但是这种方式,需要在分别擅长不同语言的搜索引擎之间进行切换,操作非常不便,搜索查询效率较低。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种基于人工智能的搜索方法,能够满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率。
本发明的第二个目的在于提出一种基于人工智能的搜索装置。
为达上述目的,根据本发明第一方面实施例提出了一种基于人工智能的搜索方法,包括以下步骤:接收用户输入的搜索词;根据所述搜索词确定所述用户的语言需求类型;以及根据所述用户的语言需求类型获取所述搜索词对应的搜索结果,并提供给所述用户。
本发明实施例的基于人工智能的搜索方法,通过根据用户输入的搜索词确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,能够通过对用户的特定语言类型的搜索需求的识别,对用户的搜索词从语言需求的维度进行划分,从而满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率,节省用户的搜索时间。
本发明第二方面实施例提出了一种基于人工智能的搜索装置,包括:接收模块,用于接收用户输入的搜索词;确定模块,用于根据所述搜索词确定所述用户的语言需求类型;以及获取模块,用于根据所述用户的语言需求类型获取所述搜索词对应的搜索结果;提供模块,用于提将所述搜索结果供给所述用户。
本发明实施例的基于人工智能的搜索装置,通过根据用户输入的搜索词确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,能够通过对用户的特定语言类型的搜索需求的识别,对用户的搜索词从语言需求的维度进行划分,从而满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率,节省用户的搜索时间。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于人工智能的搜索方法的流程图;
图2为根据本发明一个实施例的建立需求词典的流程图;
图3为根据本发明另一个实施例的基于人工智能的搜索方法的流程图;
图4为根据本发明另一个实施例的基于人工智能的搜索方法的流程图;
图5为根据本发明一个实施例的训练第一预设模型的流程图;
图6为根据本发明一个实施例的训练第二预设模型的流程图;
图7为根据本发明另一个实施例的基于人工智能的搜索方法的流程图;
图8为根据本发明一个实施例的基于人工智能的搜索装置的结构示意图;
图9为根据本发明另一个实施例的基于人工智能的搜索装置的结构示意图;
图10为根据本发明另一个实施例的基于人工智能的搜索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面参考附图描述根据本发明实施例的。
为了能够使搜索结果能够更加符合用户的需求,提高搜索效率,本发明提出了一种基于人工智能的搜索方法和装置。
本发明实施例的基于人工智能的搜索方法,包括以下步骤:接收用户输入的搜索词;根据所述搜索词确定所述用户的语言需求类型;以及根据所述用户的语言需求类型获取所述搜索词对应的搜索结果,并提供给所述用户。
图1为根据本发明一个实施例的基于人工智能的搜索方法的流程图。
如图1所示,根据本发明实施例的基于人工智能的搜索方法,包括以下步骤。
S101,接收用户输入的搜索词。
需要说明的是,本发明实施例的搜索词可理解为广义上的搜索词,可以是单个字、词语、词组甚至是句子。
本发明实施例中的搜索词可以是任意语言类型的汉字、数字、字母等。
其中,搜索引擎可通过但不限于搜索框、语音输入框等形式接收用户输入的搜索词。
S102,根据所述搜索词确定用户的语言需求类型。
其中,语言需求类型是指用户期望得到的搜索结果的语言类型。
举例来说,对于用户输入的搜索词“A”,一些用户希望得到中文的搜索结果,则这部分用户的语言需求类型为中文,另一些用户希望得到英文的搜索结果,则这部分用户的语言需求类型为英文。
在本发明的一个实施例中,可通过多种方式根据搜索词确定用户的语言需求类型。具体而言,可通过但不限于以下方式确定用户的语言需求类型:
方式一
根据搜索引擎的语言类型和搜索词所属的语言类型确定用户的语言需求类型。
其中,搜索引擎的语言类型是指搜索引擎擅长或主要处理的语言类型,或者开发语言类型。举例来说,中文搜索引擎的语言类型则为中文,谷歌搜索引擎的语言类型则为英文。
具体地,如果搜索引擎的语言类型与搜索词所属的语言类型一致,则用户的语言需求类型为搜索引擎的语言类型。如果搜索引擎的语言类型与搜索词所属的语言类型不一致,则用户的语言需求类型可能与搜索引擎的语言类型不同,需要进一步判断识别用户的语言需求类型。
方式二
根据搜索词查询预设的需求词典,以从需求词典中查询该搜索词对应的语言需求类型,并作为用户的语言需求类型。
其中,需求词典可为预先基于用户与搜索引擎的交互日志分析、识别得到。具体地,在本发明的一个实施例中,可根据图2所示实施例建立需求词典,如图2所示,可包括步骤S201和S202。
S201,获取用户与搜索引擎交互的日志信息。
其中,用户与搜索引擎交互的日志信息可包括本次发起搜索的用户与搜索引擎交互的日志信息,也可包括其他大量用户与搜索引擎交互的日志信息。
日志信息包括用户输入的搜索词、用户对搜索结果的点击、查看等行为日志。
S202,根据所述日志信息分析各个原始搜索词对应的语言需求类型,以建立所述需求词典。
具体地,可基于海量数据的日志信息,对历史搜索过程中用户输入搜索词后,根据经验、规则以及识别模型对用户点击或查看的搜索结果的语言类型进行分析,以识别出各个搜索词对应的语言需求类型,并根据对应关系建立需求词典。
具体而言,需求词典可针对不同语言类型分别建立。举例来说,对应中文搜索引擎,其中文搜索能力非常强大,因此,可针对其他各种不同语言分别建立需求词典。
以建立英文的需求词典为例,需求词典中可通过中英文的来标识搜索词的语言需求类型。例如,需求对比强度为0,则表示对英文结果的需求极低,对应的语言需求类型为中文需求类型;需求对比强度为1,则表示对英文结果和中文结果都存在需求,对应的语言需求类型为中文需求类型或英文需求类型;需求对比强度为2,则表示对英文结果的需求极高,对应的语言需求类型为英文需求类型。由此,可针对中文搜索引擎得到对于英文搜索需求具有高准确率、高召回率的需求识别结果,进而能够为用户提供更符合需求的搜索结果。
在本发明的实施例中,可预先基于海量的日志信息,进行分析,建立需求词典。由此建立的需求词典中可包括丰富、全面的搜索词与语言需求类型的对应关系。经过试验数据分析,至少85%以上的搜索词都可通过查询需求词典确定对应的语言需求类型。由此,通过查询需求词典的方式,能够快速、准确定用户的语言需求类型,进而后续能够高效、精准地为用户提供搜索结果,且能够针对用户的语言需求类型提供更符合用户需求的搜索结果,有效提升搜索效率和相关性。
方式三
将搜索词与预先建立的需求规则分别进行匹配,以确定用户的语言需求类型。
其中,需求规则为预先基于经验,根据各个语言需求类型对应搜索词的特征建立的。举例来说,对于11位的数字,虽然为字符类型,但是,大多11位数字为手机号码,一般不会作为英文的需求类型,而是作为中文的需求类型。因此,可建立“11位数字的搜索词对应的语言需求类型为中文类型”的规则。类似地,可根据一些专有名词、或者特定词、或者已知的常用搜索习惯建立相应的规则,从而,在确定用户的语言需求类型时,可根据搜索词与规则进行匹配确定用户的语言需求类型。
方式四
根据预设模型识别搜索词对应的语言需求类型,并作为用户的语言需求类型。
具体而言,可预先建立用于识别搜索词对应的语言需求类型的模型,进而,可通过建立的模型识别用户输入的搜索词对应的语言需求类型。
S103,根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给所述用户。
在根据搜索词进行搜索时,可有针对性地搜索符合用户的语言需求类型的搜索结果,并提供给用户,从而能够避免将不符合用户语言需求的搜索结果提供给用户,提升了搜索结果的质量和相关性。
本发明实施例的基于人工智能的搜索方法,通过根据用户输入的搜索词确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,能够通过对用户的特定语言类型的搜索需求的识别,对用户的搜索词从语言需求的维度进行划分,从而满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率,节省用户的搜索时间。
图3为根据本发明另一个实施例的基于人工智能的搜索方法的流程图。
如图3所示,根据本发明实施例的基于人工智能的搜索方法,包括以下步骤。
S301,接收用户输入的搜索词。
需要说明的是,本发明实施例的搜索词可理解为广义上的搜索词,可以是单个字、词语、词组甚至是句子。
本发明实施例中的搜索词可以是任意语言类型的汉字、数字、字母等。
其中,搜索引擎可通过但不限于搜索框、语音输入框等形式接收用户输入的搜索词。
S302,识别搜索词所属的第一语言类型。
在本发明的一个实施例中,可根据预设的语言模型识别搜索词属于哪种语言,即搜索词所属的语言类型,如中文、英文、泰文等。
举例来说,可识别搜索词是汉字、或者是字母、数字等ASCII码字符等,如果是汉字,则对应的语言类型为中文,如果是字母,则可进一步判断是否为拼音,如果是拼音,则对应的语言类型为中文,否则为英文。
S303,判断第一语言类型与搜索引擎的第二语言类型是否一致。
其中,搜索引擎的语言类型是指搜索引擎擅长或主要处理的语言类型,或者开发语言类型。举例来说,中文搜索引擎的语言类型则为中文,谷歌搜索引擎的语言类型则为英文。
S304,如果第一语言类型与搜索引擎的第二语言类型一致,则可确定用户的语言需求类型为第二语言类型。
S305,在第一语言类型与第二语言类型不一致时,根据搜索词确定用户的语言需求类型。
对于使用第二语言类型的搜索引擎的用户来说,其需求主要是基于第二语言类型的,但是,当用户输入的第一语言类型的搜索词时,用户的需求可能为第一语言类型,也可能为第二语言类型。因此,在此情况下,需要根据搜索词进一步确定用户的语言需求类型为第一语言类型还是第二语言类型。
在本发明的一个实施例中,可通过图4所示实施例确定用户的语言需求类型。
图4为根据本发明另一个实施例的基于人工智能的搜索方法的流程图。
如图4所示,根据搜索词确定用户的语言需求类型可包括以下步骤。
S401,根据所述搜索词查询预设的需求词典,以确定所述用户的语言需求类型。
其中,需求词典中包括海量的搜索词及其对应的语言需求类型,因此,可通过查询该需求词典,如果在需求词典中查询到搜索词,则可直接确定搜索词对应的语言需求类型,并作为用户本次搜索的语言需求类型。
上述需求词典可参照图2所示实施例建立,在此不再进行说明。
如果在需求词典中未查询到搜索词,则可基于预设规则和/或预设模型对所述搜索词进行识别,以确定所述用户的语言需求类型。具体可参见步骤S402和步骤S404。
S402,将所述搜索词与预设的需求规则库中的规则分别进行匹配,并将匹配到的规则对应的语言需求类型作为所述用户的语言需求类型。
其中,需求规则库中的规则可为预先基于经验,根据各个语言需求类型对应搜索词的特征建立的。举例来说,对于11位的数字,虽然为字符类型,但是,大多11位数字为手机号码,一般不会作为英文的需求类型,而是作为中文的需求类型。因此,可建立“11位数字的搜索词对应的语言需求类型为中文类型”的规则。类似地,可根据一些专有名词、或者特定词、或者已知的常用搜索习惯建立相应的规则,建立需求规则库。从而,在确定用户的语言需求类型时,可根据搜索词与需求规则库中的规则进行匹配,如果搜索词命中其中的规则,则可根据该规则对应的语言需求类型确定为用户的语言需求类型。
S403,如果所述需求规则库中不存在与所述搜索词匹配的规则,则进一步根据第一预设模型识别所述搜索词对应的语言需求类型。
在本发明的一个实施例中,步骤S403可包括:根据所述第一预设模型预测所述搜索词对应的语言需求类型为所述搜索词所属的第一语言类型的概率;如果所述概率大于预设概率阈值,则所述搜索词对应的语言需求类型为所述第一语言类型;如果所述概率不大于所述预设概率阈值,则所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型。
其中,第一预设模型为预先根据用户与搜索引擎交互的日志信息进行训练得到的。具体而言,第一预设模型可通过图5所示的实施例进行训练得到。如图5所示,包括步骤S501-S503。
S501,获取用户与搜索引擎交互的日志信息。
其中,用户与搜索引擎交互的日志信息可包括本次发起搜索的用户与搜索引擎交互的日志信息,也可包括其他大量用户与搜索引擎交互的日志信息。
日志信息包括用户输入的搜索词、用户对搜索结果的点击、查看等行为日志。
S502,通过所述日志信息,分析用户对各个原始搜索词对应的搜索结果的点击行为。
S503,根据所述点击行为,对各个原始搜索词对应的被点击的搜索结果的语言类型进行统计分析,并根据统计分析结果训练所述第一预设模型。
举例来说,以建立中英文需求识别的第一预设模型为例,对于每个原始搜索词,可分别统计用户点击搜索结果中的中文标题(title)和点击搜索结果中英文标题的行为分别进行统计,得到中文和英文分别对应的统计数据,进而可基于各个原始搜索词对应的统计数据使用预设的学习模型进行训练,得到第一预设模型。
需要说明的是,本发明对训练过程中所使用的学习模型不进行限定,举例来说,可使用神经网络模型进行训练等。
S404,如果根据第一预设模型识别所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型,则进一步根据第二预设模型识别所述搜索词对应的语言需求类型,并作为所述用户的语言需求类型。
在本发明的一个实施例中,S404可包括:对所述搜索词进行分词处理,得到所述搜索词的至少一个分词;分别根据所述至少一个分词查询所述需求词典,以分别确定所述至少一个分词对应的语言需求类型;根据所述第二预设模型对所述至少一个分词对应的语言需求类型进行拟合,得到所述搜索词对应的语言需求类型。
其中,第二预设模型为预先根据用户与搜索引擎交互的日志信息和需求词典进行训练得到的。具体而言,第二预设模型可通过图6所示的实施例进行训练得到。如图6所示,包括步骤S601-S605。
S601,获取用户与搜索引擎交互的日志信息。
其中,用户与搜索引擎交互的日志信息可包括本次发起搜索的用户与搜索引擎交互的日志信息,也可包括其他大量用户与搜索引擎交互的日志信息。
日志信息包括用户输入的搜索词、用户对搜索结果的点击、查看等行为日志。
S602,对所述日志信息中的各个原始搜索词进行分词处理,得到多个分词。
S603,根据所述多个分词生成搜索词的训练数据。
在得到多个分词后,可将两个或两个以上的分词之间分别进行组合,例如,对于A、B、C三个分词,可组合为AB、AC、BC、ABC等,由此,经过组合后可生成大量新的搜索词,形成搜索词的训练数据。
S604,根据所述搜索词训练数据查询所述需求词典,以确定所述搜索词训练数据对应的语言需求类型。
具体而言,可根据训练数据中的每个搜索词分别查询需求词典,以确定各个训练数据对应的语言需求类型。
S605,根据所述搜索词训练数据以及对应的语言需求类型训练所述第二预设模型。
需要说明的是,本发明对训练过程中所使用的学习模型不进行限定,举例来说,可使用神经网络模型进行训练等。
由此,通过图4所示的实施例,通过查询离线的需求词典可查询到大多数搜索词对应的用户的语言需求类型,时效快,并在需求词典无法查询到对应的语言需求类型时,可通过预设的规则或预设模型通过在线识别的方式确定用户的语言需求类型,进一步通过需求词典、在线规则和预设模型相结合的方式确定用户的语言需求类型,能够准确识别用户的语言需求类型,并提高与搜索引擎的语言类型不同的语言需求类型的召回率。
S306,根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户。
在根据搜索词进行搜索时,可有针对性地搜索符合用户的语言需求类型的搜索结果,并提供给用户,从而能够避免将不符合用户语言需求的搜索结果提供给用户,提升了搜索结果的质量和相关性。
本发明实施例的基于人工智能的搜索方法,通过识别用户输入的搜索词的语言类型,并在搜索词的语言类型与搜索引擎的语言类型不一致时,确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,从而能够高准确率、高召回率地确定出与搜索引擎语言类型不同用户需求语言类型,进而能够据此提升搜索结果的准确率和效率,节省用户的搜索时间。
图7为根据本发明另一个实施例的基于人工智能的搜索方法的流程图。
如图7所示,根据本发明实施例的基于人工智能的搜索方法,还可包括步骤S701-S707。
S701,针对多个语言需求类型分别建立对应的搜索数据库。
相关的信息检索中大多是混合式的搜索,即无论用户输入的是中文、还是英文、还是其他语言的搜索词,都基于搜索引擎的当前索引库进行搜索,这就存在类似于用户希望得到英文搜索结果,但是却提供给了用户中文结果的问题,难以符合用户的实际需求,导致搜索效率和准确率较低。
为此,在本发明的一个实施例中,可分别针对各个不同的语言需求类型分别建立对应的搜索数据库,从而,在后续确定用户的语言需求类型后,可在用户的语言需求类型对应的搜索数据库中进行搜索,由此得到的搜索结果具有更高的相关性,更加符合用户的实际需求。
其中,步骤S702-S706与图3所示实施例中步骤S301-S305相同。
S707,根据搜索词在所述语言需求类型对应的搜索数据库中进行搜索,以获取所述搜索词对应的搜索结果。
S708,将上述搜索结果提供给用户。
本发明实施例的基于人工智能的搜索方法,通过针对不同的语言需求类型分别建立搜索数据库,进而在确定用户的语言需求类型之后,可从该语言需求类型对于那个的搜索数据库中进行搜索,以获取符合用户需求的语言类型的搜索结果,提升搜索结果与用户需求的相关性和准确性,进一步提升搜索效率。
与上述基于人工智能的搜索方法实施例相对应,本发明还提出一种基于人工智能的搜索装置。
一种基于人工智能的搜索装置,包括:接收模块,用于接收用户输入的搜索词;确定模块,用于根据所述搜索词确定所述用户的语言需求类型;以及获取模块,用于根据所述用户的语言需求类型获取所述搜索词对应的搜索结果;提供模块,用于提将所述搜索结果供给所述用户。
图8为根据本发明一个实施例的基于人工智能的搜索装置的结构示意图。
如图8所示,根据本发明实施例的基于人工智能的搜索装置,包括:接收模块10、确定模块20、获取模块30和提供模块40。
具体地,接收模块10用于接收用户输入的搜索词。
需要说明的是,本发明实施例的搜索词可理解为广义上的搜索词,可以是单个字、词语、词组甚至是句子。
本发明实施例中的搜索词可以是任意语言类型的汉字、数字、字母等。
其中,接收模块10可通过但不限于搜索框、语音输入框等形式接收用户输入的搜索词。
确定模块20用于根据所述搜索词确定所述用户的语言需求类型。
其中,语言需求类型是指用户期望得到的搜索结果的语言类型。
举例来说,对于用户输入的搜索词“A”,一些用户希望得到中文的搜索结果,则这部分用户的语言需求类型为中文,另一些用户希望得到英文的搜索结果,则这部分用户的语言需求类型为英文。
在本发明的一个实施例中,确定模块20可通过多种方式根据搜索词确定用户的语言需求类型。具体而言,确定模块20可通过但不限于以下方式确定用户的语言需求类型:
方式一
根据搜索引擎的语言类型和搜索词所属的语言类型确定用户的语言需求类型。
其中,搜索引擎的语言类型是指搜索引擎擅长或主要处理的语言类型,或者开发语言类型。举例来说,中文搜索引擎的语言类型则为中文,谷歌搜索引擎的语言类型则为英文。
具体地,如果搜索引擎的语言类型与搜索词所属的语言类型一致,则用户的语言需求类型为搜索引擎的语言类型。如果搜索引擎的语言类型与搜索词所属的语言类型不一致,则用户的语言需求类型可能与搜索引擎的语言类型不同,需要进一步判断识别用户的语言需求类型。
方式二
根据搜索词查询预设的需求词典,以从需求词典中查询该搜索词对应的语言需求类型,并作为用户的语言需求类型。
其中,需求词典可为预先基于用户与搜索引擎的交互日志分析、识别得到。具体地,在本发明的一个实施例中,可根据图2所示实施例建立需求词典。
在本发明的实施例中,可预先基于海量的日志信息,进行分析,建立需求词典。由此建立的需求词典中可包括丰富、全面的搜索词与语言需求类型的对应关系。经过试验数据分析,至少85%以上的搜索词都可通过查询需求词典确定对应的语言需求类型。由此,通过查询需求词典的方式,能够快速、准确定用户的语言需求类型,进而后续能够高效、精准地为用户提供搜索结果,且能够针对用户的语言需求类型提供更符合用户需求的搜索结果,有效提升搜索效率和相关性。
方式三
将搜索词与预先建立的需求规则分别进行匹配,以确定用户的语言需求类型。
其中,需求规则为预先基于经验,根据各个语言需求类型对应搜索词的特征建立的。举例来说,对于11位的数字,虽然为字符类型,但是,大多11位数字为手机号码,一般不会作为英文的需求类型,而是作为中文的需求类型。因此,可建立“11位数字的搜索词对应的语言需求类型为中文类型”的规则。类似地,可根据一些专有名词、或者特定词、或者已知的常用搜索习惯建立相应的规则,从而,在确定用户的语言需求类型时,可根据搜索词与规则进行匹配确定用户的语言需求类型。
方式四
根据预设模型识别搜索词对应的语言需求类型,并作为用户的语言需求类型。
具体而言,可预先建立用于识别搜索词对应的语言需求类型的模型,进而,可通过建立的模型识别用户输入的搜索词对应的语言需求类型。
获取模块30用于根据所述用户的语言需求类型获取所述搜索词对应的搜索结果。
在根据搜索词进行搜索时,获取模块30可有针对性地搜索符合用户的语言需求类型的搜索结果,并提供给用户,从而能够避免将不符合用户语言需求的搜索结果提供给用户,提升了搜索结果的质量和相关性。
提供模块40用于提将所述搜索结果供给所述用户。
本发明实施例的基于人工智能的搜索装置,通过根据用户输入的搜索词确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,能够通过对用户的特定语言类型的搜索需求的识别,对用户的搜索词从语言需求的维度进行划分,从而满足用户对不同语言类型的搜索需求,提升搜索的准确率和效率,节省用户的搜索时间。
图9为根据本发明另一个实施例的基于人工智能的搜索装置的结构示意图。
如图9所示,根据本发明实施例的基于人工智能的搜索装置,包括:接收模块10、确定模块20、获取模块30、提供模块40、识别模块50和判断模块60。
其中,接收模块10、确定模块20、获取模块30和提供模块40与图8所示所述相同,可参照图8所示实施例。
识别模块50用于识别所述搜索词所属的第一语言类型。
在本发明的一个实施例中,识别模块50可根据预设的语言模型识别搜索词属于哪种语言,即搜索词所属的语言类型,如中文、英文、泰文等。
举例来说,识别模块50可识别搜索词是汉字、或者是字母、数字等ASCII码字符等,如果是汉字,则对应的语言类型为中文,如果是字母,则可进一步判断是否为拼音,如果是拼音,则对应的语言类型为中文,否则为英文。
判断模块60用于判断所述第一语言类型与搜索引擎的第二语言类型是否一致。
其中,搜索引擎的语言类型是指搜索引擎擅长或主要处理的语言类型,或者开发语言类型。举例来说,中文搜索引擎的语言类型则为中文,谷歌搜索引擎的语言类型则为英文。
如果第一语言类型与搜索引擎的第二语言类型一致,则确定模块20可确定用户的语言需求类型为第二语言类型。
确定模块20可用于在所述第一语言类型与所述第二语言类型不一致时,根据所述搜索词确定所述用户的语言需求类型。
对于使用第二语言类型的搜索引擎的用户来说,其需求主要是基于第二语言类型的,但是,当用户输入的第一语言类型的搜索词时,用户的需求可能为第一语言类型,也可能为第二语言类型。因此,在此情况下,需要根据搜索词进一步确定用户的语言需求类型为第一语言类型还是第二语言类型。
在本发明的一个实施例中,确定模块20可包括:查询单元21和识别单元22。
其中,查询单元21用于根据所述搜索词查询预设的需求词典,以确定所述用户的语言需求类型。
其中,需求词典中包括海量的搜索词及其对应的语言需求类型,因此,可通过查询该需求词典,如果在需求词典中查询到搜索词,则可直接确定搜索词对应的语言需求类型,并作为用户本次搜索的语言需求类型。
上述需求词典可参照图2所示实施例建立,在此不再进行说明。
如果在需求词典中未查询到搜索词,则可通过识别单元22基于预设规则和/或预设模型对所述搜索词进行识别,以确定所述用户的语言需求类型。
识别单元22用于如果在所述需求词典中未查询到所述搜索词,则基于预设规则和/或预设模型对所述搜索词进行识别,以确定所述用户的语言需求类型。
在本发明的一个实施例中,识别单元22可用于:将所述搜索词与预设的需求规则库中的规则分别进行匹配,并将匹配到的规则对应的语言需求类型作为所述用户的语言需求类型。如果所述需求规则库中不存在与所述搜索词匹配的规则,则进一步根据第一预设模型识别所述搜索词对应的语言需求类型;如果根据第一预设模型识别所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型,则进一步根据第二预设模型识别所述搜索词对应的语言需求类型,并作为所述用户的语言需求类型。
其中,需求规则库中的规则可为预先基于经验,根据各个语言需求类型对应搜索词的特征建立的。举例来说,对于11位的数字,虽然为字符类型,但是,大多11位数字为手机号码,一般不会作为英文的需求类型,而是作为中文的需求类型。因此,可建立“11位数字的搜索词对应的语言需求类型为中文类型”的规则。类似地,可根据一些专有名词、或者特定词、或者已知的常用搜索习惯建立相应的规则,建立需求规则库。从而,在确定用户的语言需求类型时,可根据搜索词与需求规则库中的规则进行匹配,如果搜索词命中其中的规则,则可根据该规则对应的语言需求类型确定为用户的语言需求类型。
在本发明的一个实施例中,识别单元22在根据第一预设模型识别所述搜索词对应的语言需求类型时,可用于:根据所述第一预设模型预测所述搜索词对应的语言需求类型为所述搜索词所属的第一语言类型的概率;如果所述概率大于预设概率阈值,则所述搜索词对应的语言需求类型为所述第一语言类型;如果所述概率不大于所述预设概率阈值,则所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型。
其中,第一预设模型为预先根据用户与搜索引擎交互的日志信息进行训练得到的。具体而言,第一预设模型可通过图5所示的实施例进行训练得到。
在本发明的一个实施例中,识别单元22在根据第二预设模型识别所述搜索词对应的语言需求类型时,可用于:对所述搜索词进行分词处理,得到所述搜索词的至少一个分词;分别根据所述至少一个分词查询所述需求词典,以分别确定所述至少一个分词对应的语言需求类型;根据所述第二预设模型对所述至少一个分词对应的语言需求类型进行拟合,得到所述搜索词对应的语言需求类型。
其中,第二预设模型为预先根据用户与搜索引擎交互的日志信息和需求词典进行训练得到的。具体而言,第二预设模型可通过图6所示的实施例进行训练得到。
由此,通过查询离线的需求词典可查询到大多数搜索词对应的用户的语言需求类型,时效快,并在需求词典无法查询到对应的语言需求类型时,可通过预设的规则或预设模型通过在线识别的方式确定用户的语言需求类型,进一步通过需求词典、在线规则和预设模型相结合的方式确定用户的语言需求类型,能够准确识别用户的语言需求类型,并提高与搜索引擎的语言类型不同的语言需求类型的召回率。
本发明实施例的基于人工智能的搜索装置,通过识别用户输入的搜索词的语言类型,并在搜索词的语言类型与搜索引擎的语言类型不一致时,确定用户的语言需求类型,进而根据用户的语言需求类型获取搜索词对应的搜索结果,并提供给用户,从而能够高准确率、高召回率地确定出与搜索引擎语言类型不同用户需求语言类型,进而能够据此提升搜索结果的准确率和效率,节省用户的搜索时间。
图10为根据本发明另一个实施例的基于人工智能的搜索装置的结构示意图。
如图10所示,根据本发明实施例的基于人工智能的搜索装置,包括:接收模块10、确定模块20、获取模块30、提供模块40、识别模块50、判断模块60和建立模块70。
其中,接收模块10、确定模块20、获取模块30、提供模块40、识别模块50和判断模块60与图9所示实施例相同,可参照图9所示实施例。
建立模块70用于针对多个语言需求类型分别建立对应的搜索数据库。
相关的信息检索中大多是混合式的搜索,即无论用户输入的是中文、还是英文、还是其他语言的搜索词,都基于搜索引擎的当前索引库进行搜索,这就存在类似于用户希望得到英文搜索结果,但是却提供给了用户中文结果的问题,难以符合用户的实际需求,导致搜索效率和准确率较低。
为此,在本发明的一个实施例中,建立模块70可分别针对各个不同的语言需求类型分别建立对应的搜索数据库,从而,在后续确定用户的语言需求类型后,可在用户的语言需求类型对应的搜索数据库中进行搜索,由此得到的搜索结果具有更高的相关性,更加符合用户的实际需求。
其中,获取模块30可用于:根据搜索词在所述语言需求类型对应的搜索数据库中进行搜索,以获取所述搜索词对应的搜索结果。
本发明实施例的基于人工智能的搜索装置,通过针对不同的语言需求类型分别建立搜索数据库,进而在确定用户的语言需求类型之后,可从该语言需求类型对于那个的搜索数据库中进行搜索,以获取符合用户需求的语言类型的搜索结果,提升搜索结果与用户需求的相关性和准确性,进一步提升搜索效率。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种基于人工智能的搜索方法,其特征在于,包括以下步骤:
接收用户输入的搜索词;
根据所述搜索词确定所述用户的语言需求类型;以及
根据所述用户的语言需求类型获取所述搜索词对应的搜索结果,并提供给所述用户;
其中,所述根据所述搜索词确定所述用户的语言需求类型,包括:
根据所述搜索词查询预设的需求词典,以确定所述用户的语言需求类型,其中,所述需求词典为预先基于用户与搜索引擎的交互日志分析、识别得到,所述需求词典包括各个搜索词对应的语言需求类型;
如果在所述需求词典中未查询到所述搜索词,则将所述搜索词与预设的需求规则库中的规则分别进行匹配,并将匹配到的规则对应的语言需求类型作为所述用户的语言需求类型;
如果所述需求规则库中不存在与所述搜索词匹配的规则,则进一步根据第一预设模型识别所述搜索词对应的语言需求类型,其中,第一预设模型为根据为预先根据用户与搜索引擎交互的日志信息进行训练得到;
如果根据第一预设模型识别所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型,则进一步根据第二预设模型识别所述搜索词对应的语言需求类型,并作为所述用户的语言需求类型,其中,所述第二预设模型为预先根据用户与搜索引擎交互的日志信息和需求词典进行训练得到的。
2.如权利要求1所述的方法,其特征在于,在接收用户输入的搜索词之后,包括:
识别所述搜索词所属的第一语言类型;以及
判断所述第一语言类型与搜索引擎的第二语言类型是否一致;
其中,在所述第一语言类型与所述第二语言类型不一致时,根据所述搜索词确定所述用户的语言需求类型。
3.如权利要求1所述的方法,其特征在于,所述根据第一预设模型识别所述搜索词对应的语言需求类型,包括:
根据所述第一预设模型预测所述搜索词对应的语言需求类型为所述搜索词所属的第一语言类型的概率;
如果所述概率大于预设概率阈值,则所述搜索词对应的语言需求类型为所述第一语言类型;
如果所述概率不大于所述预设概率阈值,则所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型。
4.如权利要求1所述的方法,其特征在于,所述根据第二预设模型识别所述搜索词对应的语言需求类型,包括:
对所述搜索词进行分词处理,得到所述搜索词的至少一个分词;
分别根据所述至少一个分词查询所述需求词典,以分别确定所述至少一个分词对应的语言需求类型;
根据所述第二预设模型对所述至少一个分词对应的语言需求类型进行拟合,得到所述搜索词对应的语言需求类型。
5.如权利要求2所述的方法,其特征在于,还包括:
获取用户与搜索引擎交互的日志信息;
根据所述日志信息分析各个原始搜索词对应的语言需求类型,以建立所述需求词典。
6.如权利要求4所述的方法,其特征在于,还包括:
获取用户与搜索引擎交互的日志信息;
通过所述日志信息,分析用户对各个原始搜索词对应的搜索结果的点击行为;
根据所述点击行为,对各个原始搜索词对应的被点击的搜索结果的语言类型进行统计分析,并根据统计分析结果训练所述第一预设模型。
7.如权利要求4所述的方法,其特征在于,还包括:
获取用户与搜索引擎交互的日志信息;
对所述日志信息中的各个原始搜索词进行分词处理,得到多个分词;
根据所述多个分词生成搜索词的训练数据;
根据所述搜索词训练数据查询所述需求词典,以确定所述搜索词训练数据对应的语言需求类型;
根据所述搜索词训练数据以及对应的语言需求类型训练所述第二预设模型。
8.如权利要求1-6任一项所述的方法,其特征在于,还包括:
针对多个语言需求类型分别建立对应的搜索数据库;
所述根据所述用户的语言需求类型获取所述搜索词对应的搜索结果,包括:
根据搜索词在所述语言需求类型对应的搜索数据库中进行搜索,以获取所述搜索词对应的搜索结果。
9.一种基于人工智能的搜索装置,其特征在于,包括:
接收模块,用于接收用户输入的搜索词;
确定模块,用于根据所述搜索词确定所述用户的语言需求类型;以及
获取模块,用于根据所述用户的语言需求类型获取所述搜索词对应的搜索结果;
提供模块,用于提将所述搜索结果供给所述用户;
所述确定模块包括:
查询单元,用于根据所述搜索词查询预设的需求词典,以确定所述用户的语言需求类型,其中,所述需求词典为预先基于用户与搜索引擎的交互日志分析、识别得到,所述需求词典包括各个搜索词对应的语言需求类型;
识别单元,用于如果在所述需求词典中未查询到所述搜索词,则将所述搜索词与预设的需求规则库中的规则分别进行匹配,并将匹配到的规则对应的语言需求类型作为所述用户的语言需求类型;
如果所述需求规则库中不存在与所述搜索词匹配的规则,则进一步根据第一预设模型识别所述搜索词对应的语言需求类型,其中,第一预设模型为根据为预先根据用户与搜索引擎交互的日志信息进行训练得到;
如果根据第一预设模型识别所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型,则进一步根据第二预设模型识别所述搜索词对应的语言需求类型,并作为所述用户的语言需求类型,其中,所述第二预设模型为预先根据用户与搜索引擎交互的日志信息和需求词典进行训练得到的。
10.如权利要求9所述的装置,其特征在于,还包括:
识别模块,用于识别所述搜索词所属的第一语言类型;以及
判断模块,用于判断所述第一语言类型与搜索引擎的第二语言类型是否一致;
其中,所述确定模块用于在所述第一语言类型与所述第二语言类型不一致时,根据所述搜索词确定所述用户的语言需求类型。
11.如权利要求9所述的装置,其特征在于,所述识别单元用于:
根据所述第一预设模型预测所述搜索词对应的语言需求类型为所述搜索词所属的第一语言类型的概率;
如果所述概率大于预设概率阈值,则所述搜索词对应的语言需求类型为所述第一语言类型;
如果所述概率不大于所述预设概率阈值,则所述搜索词对应的语言需求类型为所述搜索引擎的第二语言类型。
12.如权利要求9所述的装置,其特征在于,所述识别单元用于:
对所述搜索词进行分词处理,得到所述搜索词的至少一个分词;
分别根据所述至少一个分词查询所述需求词典,以分别确定所述至少一个分词对应的语言需求类型;
根据所述第二预设模型对所述至少一个分词对应的语言需求类型进行拟合,得到所述搜索词对应的语言需求类型。
13.如权利要求9-12任一项所述的装置,其特征在于,还包括:
建立模块,用于针对多个语言需求类型分别建立对应的搜索数据库;
所述获取模块用于:
根据搜索词在所述语言需求类型对应的搜索数据库中进行搜索,以获取所述搜索词对应的搜索结果。
CN201610801209.7A 2016-09-05 2016-09-05 基于人工智能的搜索方法和装置 Active CN106407332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610801209.7A CN106407332B (zh) 2016-09-05 2016-09-05 基于人工智能的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610801209.7A CN106407332B (zh) 2016-09-05 2016-09-05 基于人工智能的搜索方法和装置

Publications (2)

Publication Number Publication Date
CN106407332A CN106407332A (zh) 2017-02-15
CN106407332B true CN106407332B (zh) 2020-01-07

Family

ID=57999988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610801209.7A Active CN106407332B (zh) 2016-09-05 2016-09-05 基于人工智能的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN106407332B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092642A (zh) * 2017-03-06 2017-08-25 广州神马移动信息科技有限公司 一种信息搜索方法、设备、客户端设备及服务器
CN107526826B (zh) * 2017-08-31 2021-09-17 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN109783804B (zh) * 2018-12-17 2023-07-07 北京百度网讯科技有限公司 低质言论识别方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN102982156A (zh) * 2012-11-30 2013-03-20 北京奇虎科技有限公司 移动终端中实现搜索的系统和方法
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043833A (zh) * 2010-11-25 2011-05-04 北京搜狗科技发展有限公司 一种基于查询词进行搜索的方法和搜索装置
CN103294682A (zh) * 2012-02-24 2013-09-11 摩根全球购物有限公司 多语言检索方法、计算机可读储存媒体及网络搜寻系统
CN102982156A (zh) * 2012-11-30 2013-03-20 北京奇虎科技有限公司 移动终端中实现搜索的系统和方法

Also Published As

Publication number Publication date
CN106407332A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN106874441B (zh) 智能问答方法和装置
CN110390006B (zh) 问答语料生成方法、装置和计算机可读存储介质
CN104199965B (zh) 一种语义信息检索方法
US20150154286A1 (en) Method for disambiguated features in unstructured text
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
US10019492B2 (en) Stop word identification method and apparatus
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
EP3937029A2 (en) Method and apparatus for training search model, and method and apparatus for searching for target object
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110866093A (zh) 机器问答方法及装置
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN106407332B (zh) 基于人工智能的搜索方法和装置
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN110263121B (zh) 表格数据处理方法、装置、电子装置及计算机可读存储介质
CN117093698B (zh) 基于知识库的对话生成方法、装置、电子设备及存储介质
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN110309258A (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
EP4127957A1 (en) Methods and systems for searching and retrieving information
CN110941765A (zh) 搜索意图识别方法、信息搜索方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant