CN108073576A - 智能搜索方法、搜索装置以及搜索引擎系统 - Google Patents

智能搜索方法、搜索装置以及搜索引擎系统 Download PDF

Info

Publication number
CN108073576A
CN108073576A CN201610971694.2A CN201610971694A CN108073576A CN 108073576 A CN108073576 A CN 108073576A CN 201610971694 A CN201610971694 A CN 201610971694A CN 108073576 A CN108073576 A CN 108073576A
Authority
CN
China
Prior art keywords
mrow
msub
search
matrix
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610971694.2A
Other languages
English (en)
Inventor
严武
曹磊
王子剑
庞子龙
李震川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Connaught Intelligent Technology Co Ltd
Original Assignee
Shanghai Connaught Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Connaught Intelligent Technology Co Ltd filed Critical Shanghai Connaught Intelligent Technology Co Ltd
Priority to CN201610971694.2A priority Critical patent/CN108073576A/zh
Publication of CN108073576A publication Critical patent/CN108073576A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种智能搜索方法(200),该方法包括如下步骤:输入用户数据(201);将所述用户数据分词、计算词向量从而获取句矩阵(202);由所述句矩阵通过卷积神经网络模型获取输入数据特征信息(203);将所述输入数据特征信息与搜索库特征信息进行相似度计算(204);根据所述相似度计算结果,输出相应的搜索结果数据(205)。此外,本发明还涉及一种智能搜索装置和智能搜索装置系统。

Description

智能搜索方法、搜索装置以及搜索引擎系统
技术领域
本发明涉及智能搜索领域,具体地,本发明涉及一种基于语义意图的模糊输入智能搜索方法,以及相应的搜索装置以及搜索引擎系统。
背景技术
智能搜索引擎是结合人工智能技术的新一代搜索引擎。除了能提供传统的快速搜索、相关度排序等功能之外,还需要更准确地理解用户输入的信息,在此基础上快速搜索数据库,呈现最佳搜索结果。其中准确理解用户输入信息从而获取用户搜索意图是得出准确搜索的前提与关键,尤其是在用户输入信息不完整或者表达不清楚的情况下,能够准确理解搜索意图并提供准确搜索结果,能够很大地提高用户体验。
专利文献CN103106220B公开了一种搜索方法、一种搜索装置及一种搜索引擎系统,以解决现有技术在识别用户搜索意图时不够准确,进而影响搜索精度的问题。在所述方法中,首先接收实时搜索字符串,然后将实时搜索字符串与预生成的词典进行匹配,再依据预生成的模式确定匹配完成后的实时搜索字符串的特定搜索意图,并依据所得搜索意图返回搜索结果数据。此专利的关键在于词典匹配与意图模式匹配,而词典的构建与意图匹配模式的建立需要大量的前期工作,简单的匹配方法得到的意图准确度也有限,并不能十分准确地得到用户输入搜索信息的真实意图。
此外,专利文献CN106021626A公开一种基于数据挖掘的数据搜索方法,该方法首先对用户搜索词进行预处理,计算文本向量逆向词频和近似度矩阵,以得到对用户输入的搜索词的分类结果,然后根据分类结果进行搜索,利用搜索词的特征表示理解用户意图,并通过改进的索引机制提高搜索引擎的效率,增强了用户体验。此专利将用户输入文本进行分词然后进行逆向词频计算,这相比于基于关键词的搜索技术有所改进,但是没有考虑到整个搜索文本所表示的含义有时是单个或几个词无法表示清楚的,这就直接影响到用户搜索意图的理解,使得搜索结果不准确。
发明内容
本发明提出一种智能搜索方法,该方法包括如下步骤:输入用户数据;将用户数据分词、生成词向量从而获取句矩阵;由句矩阵通过卷积神经网络模型获取输入数据特征信息;将输入数据特征信息与搜索库特征信息进行相似度计算;根据相似度计算结果,输出相应的搜索结果数据。
本发明基于以下构思,为解决用户输入搜索数据表达不清楚、不完整而无法找到准确答案的问题,本发明以自然语言理解技术为基础,通过训练好的卷积神经网络对用户输入的用户数据诸如完整句子进行语义理解,从而能够准确理解用户输入的模糊搜索信息,给出准确搜索结果。
此外本发明还提出一种相应于智能搜索方法的智能搜索装置和包括上述智能搜索装置的智能搜索引擎系统。
在按照本发明提出的智能搜索引擎系统中,本发明将被搜索数据亦即用户输入的用户数据分为业务功能、帮助文档、Web数据三大类,并且以分栏的形式分别按与用户搜索意图的相关程度展示,从而用户可以尽可能方便地找到自己想要搜索的信息。由于本发明的智能搜索引擎系统用于专业领域信息搜索,搜索数据中业务功能类和帮助文档类的结果数量有限,通过训练好的卷积神经网络可以为每个供搜索的结果构建一个独有的语义意图特征信息,将这些特征信息存入数据库中从而可以提高搜索准确度。此外,第三类Web数据作为补充信息可以给用户提供额外的帮助,这部分可以直接调用百度搜索得到。
在按照本发明的智能搜索方法的一种实施方案中,可以利用开源工具Word2Vec,采用CBOW(Continuous Bag-Of-Words,连续词袋模型)模型和Skip-Gram模型生成词向量。其中,有利地采用Skip-Gram模型生成词向量。其中,为了保证句矩阵的结构固定,在此定义一个动态移动窗口,使得最终得到一个50*50的由词向量组成的句矩阵。动态移动窗口的大小根据以下公式决定:
其中,S表示移动窗口大小,A表示句子中所含词的数量,m为需要的固定词数即句矩阵的行数。
在获取句矩阵之后,将句矩阵通过卷积神经网络模型以便完成句子语义的深度特征提取。有利地,卷积神经网络模型为5层卷积神经网络并且依次包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层。
其中,卷积层采用以下公式:
其中x为二维输入矩阵,w为尺寸J×I卷积核,y为尺寸M×N的输出矩阵,函数f为激活函数,其中所述激活函数f采用如下拉伸的双曲正切函数。
f(a)=tan h(a)
此外,池化层采用如下计算公式:
其中,x为二维输入矩阵,y为尺寸M×N的输出矩阵,所述池化层的核尺寸为S1×S2
具体地,第一卷积层利用3*3的卷积核得到48*48的浅层特征矩阵,以便用于提取浅层特征;第一池化层采用大小为2*2核进行池化计算,经第一卷积层而获取的浅层特征矩阵通过第一池化层之后得到24*24的矩阵输入并进入到第三层的第二卷积层;第二卷基层采用大小为5*5的卷积核,用于提取深层特征,通过第二卷基层之后获取20*20的矩阵,随后该20*20的矩阵进入第二池化层,用大小为2*2的核进行池化计算,随后得到一个10*10的矩阵;紧接着通过第五层的全连接层之后,得到输入数据特征信息。在此,输入数据特征信息是100维的输出向量。
在按照本发明的方法的一个有利实施形式中,在相似度计算步骤中通过欧几里得距离公式进行相似度计算。因为通过卷积神经网络之后输出的输入数据特征信息为100维的语义向量,所以根据欧几里得距离公式,在n维空间中,两个点x和y的距离为:
亦即:
在本发明的一个实施方案中,在根据上述公式计算输入数据特征信息与搜索库特征信息的欧氏距离之后,该欧氏距离作为相似度计算值与特定的阈值进行比较,如果大于该阈值,那么不作为搜索结果数据输出;否则,按照所述计算值的大小由高至低作为搜索结果数据输出。优选地,该阈值选择为0.3。
在按照本发明提出的方法的一个实施例中,用于与输入数据特征信息进行比较的搜索库特征信息来自供搜索数据,其中供搜索数据由构建阶段生成。
其中,构建阶段是本发明提出的智能搜索引擎系统在业务功能与帮助文档类数据搜索方面的一个阶段。在构件阶段中建立供搜索数据库,供搜索数据来自于该供搜索数据库。具体来说,首先将供搜索数据库的输入数据进行分词,然后计算每个词对应的词向量,再将词向量构成完整句子的句矩阵,输入到卷积神经网络模型中提取出输入数据的特征信息,将所有句子的语义信息存入数据库中,完成供搜索数据语义库的建立工作。
例如:数据库中的输入数据是某个文档中的一句文本信息“请携带本人有效证件到营业厅办理”,经过分词处理后得到“请/携带/本人/有效证件/到/营业厅/办理”这些分词后的结果。对分词结果处理之后得到相应词向量,随后将词向量构造成句矩阵。将句矩阵送入训练好的卷积神经网络中之后,得到作为输入文本信息的语义特征的输出向量。然后将其存入数据库中。
因此,按照本发明提出的相应于智能搜索方法的智能搜索装置相应地包括:
输入单元,用于输入用户数据;
句矩阵获取单元,用于将所述用户数据分词、生成词向量从而获取句矩阵;
输入数据特征信息获取单元,用于由所述句矩阵通过卷积神经网络模型获取输入数据特征信息;
相似度计算单元,将所述输入数据特征信息与搜索库特征信息进行相似度计算;
输出单元,用于根据所述相似度计算结果,输出相应的搜索结果数据。
按照本发明提出的智能搜索引擎系统包括如上所述的智能搜索装置。
相比于现有技术,本发明具有以下优点:
本发明采用不同于依赖关键词的传统搜索技术,按照本发明的智能搜索方法和利用相应装置能够准确识别用户输入的模糊搜索问题(甚至不包含特定关键词的问题)。同时,本发明利用卷积神经网络能够对用户输入的完整句子进行意图理解与分析,而不仅仅限于关键词层次的分析,从而能够得到更准确的搜索意图。
按照本发明的智能搜索方法和相应装置以及智能搜索引擎系统能够适应更多语言环境。比如“我喜欢这个餐厅喜欢的不要不要的”与“我超级喜欢这个餐厅”若使用基于关键词的常规方法并不能找出其文本相似性,而在按照本发明提出的智能搜索方法中通过基于深度语义挖掘的相似性比较就可以获取这两个语句的相似性。
按照本发明提出智能搜索引擎系统,通过将搜索的数据分为三类:功能类、帮助文档类和Web网页类,搜索结果也按类别列成三列展现给用户,从而为用户提供更方便的选择。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅描述本发明的一部分实施例。这些附图对于本发明来说并不是限制性的,而是起示例性的作用。其中:
图1示意地示出按照本发明的智能搜索方法的示意流程图;
图2示意地示出按照本发明的智能搜索方法中的分词示意流程图;
图3示意地示出按照本发明的供搜索数据库的建立流程图;
图4示意地示出按照本发明的智能搜索装置的方框图;
图5示意地示出按照本发明的智能搜索引擎系统的方框图;
图6示意地示出利用按照本发明的智能搜索引擎系统进行具体搜索的一个例子。
具体实施形式
图1示意地示出按照本发明的智能搜索方法的示意流程图。
按照本发明的智能搜索方法包括如下步骤:
输入用户数据201;
将所述用户数据分词、生成词向量从而获取句矩阵202;
由所述句矩阵通过卷积神经网络模型获取输入数据特征信息203;
将所述输入数据特征信息与搜索库特征信息进行相似度计算204;
根据所述相似度计算结果,输出相应的搜索结果数据205。
在按照本发明的智能搜索方法中,在步骤201中输入用户数据之后,进入步骤202。
在步骤202中,首先,采用基于词典的逆向最大匹配法对输入的用户数据比如句子进行分词,具体分词流程如图2所述,输入的句子经分词处理之后,得到一连串的词语,作为下一处理步骤的输入;紧接着进行生成词向量处理,由于已经有成熟的将词语转化为词向量的开源工具,在此选择使用例如gensim工具包中的例如Word2Vec工具对现有字典进行训练,再将分好的词放入训练好的模型测试,输出词向量;随后,将转化完成的词向量组合成固定大小50*50的句矩阵。通过动态移动窗口的公式算出长度为S的窗口内所有词向量的平均值作为句矩阵的一行,每行维度为50。动态移动窗口的公式如下所示:
通过得到50个长度为S的窗口,将它们分行叠加之后得到一个50*50的句矩阵,作为之后步骤203中深度卷积神经网络的输入。
紧接着在方法步骤203中,本实施例中的卷积神经网络模型采用5层的深度卷积网络,将在方法步骤202中生成的50*50的句矩阵作为输入,用以输出一个100维的语义向量,这个100维向量代表输入句子的语义。
其中,第一层为第一卷积层(第一卷积层),用于使用一个3*3的卷积核提取浅层特征,根据相应卷积核将数据转化为48*48的矩阵;第二层是池化层(第一池化层),其采用2*2大小的核,用于得到24*24的矩阵;第三层为卷积层(第二卷积层),用于使用5*5卷积核提取特征,并根据相应卷积核将数据转化为20*20的特征矩阵;第四层为池化层(第二池化层),在此使用2*2内核输出10*10的特征向量;第五层是一个全连接层,由此得到一个100维的输出作为用户输入数据特征信息。
紧接着,在步骤204中,将上述100维向量形式的用户输入数据特征信息与来自供搜索数据库中的供搜索数据的搜索库特征信息进行欧式距离计算,计算公式如下:
其中d(V_user,V_(index_i))表示相似度计算结果。在该实施例中,如果d(V_user,V_(index_i))>0.3则认为用户输入数据与这条索引对应句子之间的距离较远、相似度低,那么不作为搜索结果数据输出;如果d(V_user,V_(index_i))<0.3则认为用户输入数据与这条索引对应句子之间的距离较近、相似度高,那么则按照所述计算值的大小由高至低作为搜索结果数据输出。
在按照本发明提出的方法步骤204中,用于与输入数据特征信息进行比较的搜索库特征信息来自供搜索数据,其中供搜索数据由构建阶段生成,亦即供搜索数据库的建立。
图3示意地示出按照本发明的构建阶段中供搜索数据库的建立流程图。
其中,构建阶段是本发明提出的智能搜索引擎系统在业务功能与帮助文档类数据搜索方面的一个阶段。在构件阶段中建立供搜索数据库,供搜索数据来自于该供搜索数据库。具体来说,在构建阶段中具有与按照本发明提出的搜索方法中的201、202、203、204相同的步骤,即首先将供搜索数据库的输入数据进行分词,然后计算每个词对应的词向量,再将词向量构成完整句子的句矩阵,输入到卷积神经网络模型中提取出输入数据的特征信息。不同之处在于,在步骤204之后将所有句子的语义信息存入数据库中,从而完成供搜索数据语义库的建立工作,如图3所示。
图4示意地示出按照本发明的智能搜索装置100的方框图。
按照本发明提出的智能搜索装置100相应于按照本发明提出的方法200,该装置包括:
输入单元101,用于输入用户数据;
句矩阵获取单元102,用于将用户数据分词、生成词向量从而获取句矩阵;
输入数据特征信息获取单元103,用于由句矩阵通过卷积神经网络模型获取输入数据特征信息;
相似度计算单元104,将输入数据特征信息与搜索库特征信息进行相似度计算;
输出单元105,用于根据相似度计算结果,输出相应的搜索结果数据。
关于按照本发明的智能搜索装置100的详细特征可以参照前述对按照本发明提出的智能搜索方法的描述,反之亦然。
图5示意地示出按照本发明的智能搜索引擎系统的方框图。按照本发明的智能搜索引擎系统包括按照本发明的智能搜索装置。
图5示出本发明提出的智能搜索引擎系统的总体架构,主要包括三类智能搜索装置,即功能业务类、帮助文档类和Web数据类,功能业务类、帮助文档类可以属于按照本发明提出的智能搜索装置,Web数据类比如为百度搜索引擎。通过三类不同数据源的搜索,为用户提供全面而清晰的搜索结果。
图6示意地示出利用按照本发明的智能搜索引擎系统进行具体搜索的一个例子,其中显示了用户输入“我的银行卡丢了”时的搜索结果的屏幕截图,通过三类即功能业务类、帮助文档类和Web数据类搜索引擎分别示出三类不同的信息,并且按照相似度的高低进行上下排列。
由此可见,当用户输入的内容目的模糊,用户自己也不知道该怎么办时,传统基于关键词的搜索引擎仅能抓取到输入的关键词为“银行卡”、“丢”,根据关键词“银行卡”、“丢”去数据库中搜索含有关键词的相关内容。传统关键词的搜索方法所得到的结果往往与用户真实想要的有一定差距。相比之下,按照本发明提出的方法首先对用户输入内容进行语义理解,得到用户输入内容背后的真实语义意图,在此亦即丢失银行卡的相关处理办法;然后再去数据库中找到与用户真实语义意图相近而不是直接和用户输入关键词相近的结果,由此可以更加准确地获取用户想要的搜索结果。
同时在本发明提出的智能搜索引擎系统中,用三大类别(功能业务类、帮助文档类和Web网页类)来综合呈现搜索结果。业务功能类能够将用户语义意图相关的功能业务的跳转链接直接给出,用户点击即可办理相关业务,提高用户效率。帮助文档类为用户展示语义意图相关的说明信息,给用户最为清晰的解释说明,为用户提供了有力的支持。Web网页类给出的是自身数据库之外的一些补充信息,能够在数据库中暂时缺失用户需要的搜索结果时,直接得到快速web相关搜索帮助,不用再进行二次搜索,为用户带来最佳的交互体验。
对所提出的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。应当理解,以上实施例中所公开的特征,除了有特别说明的情形外,都可以单独地或者相结合地使用。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本文所公开的本发明并不局限于所公开的具体实施例,而是意在涵盖如所附权利要求书所限定的本发明的精神和范围之内的修改。

Claims (10)

1.一种智能搜索方法(200),该方法包括如下步骤:
输入用户数据(201);
将所述用户数据分词、生成词向量从而获取句矩阵(202);
由所述句矩阵通过卷积神经网络模型获取输入数据特征信息(203);
将所述输入数据特征信息与搜索库特征信息进行相似度计算(204);
根据所述相似度计算结果,输出相应的搜索结果数据(205)。
2.根据权利要求1所述的方法(200),其中,在所述生成词向量步骤(202)中采用Skip-Gram模型生成词向量。
3.根据权利要求1所述的方法(200),其中,在所述获取输入数据特征信息步骤(203)中所述卷积神经网络模型为5层卷积神经网络并且包括第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层。
4.根据权利要求3所述的方法(200),其中,所述卷积层采用以下公式:
<mrow> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>J</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>I</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>+</mo> <mi>i</mi> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mi>j</mi> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>b</mi> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>&amp;le;</mo> <mi>m</mi> <mo>&amp;le;</mo> <mi>M</mi> <mo>,</mo> <mn>0</mn> <mo>&amp;le;</mo> <mi>n</mi> <mo>&amp;le;</mo> <mi>N</mi> </mrow> <mo>)</mo> </mrow> </mrow>
其中x为二维输入矩阵,w为尺寸J×I卷积核,y为尺寸M×N的输出矩阵,函数f为激活函数,其中所述激活函数f采用如下双曲正切函数。
f(a)=tanh(a)
5.根据权利要求3所述的方法(200),其中,所述池化层采用如下计算公式:
<mrow> <msub> <mi>y</mi> <mrow> <mi>m</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>S</mi> <mn>1</mn> </msub> <msub> <mi>S</mi> <mn>2</mn> </msub> </mrow> </mfrac> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>x</mi> <mrow> <mi>m</mi> <mo>&amp;times;</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>+</mo> <mi>i</mi> <mo>,</mo> <mi>n</mi> <mo>&amp;times;</mo> <msub> <mi>S</mi> <mn>2</mn> </msub> <mo>+</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>&amp;le;</mo> <mi>m</mi> <mo>&amp;le;</mo> <mi>M</mi> <mo>,</mo> <mn>0</mn> <mo>&amp;le;</mo> <mi>n</mi> <mo>&amp;le;</mo> <mi>N</mi> </mrow> <mo>)</mo> </mrow> </mrow>
其中,x为二维输入矩阵,y为尺寸M×N的输出矩阵,所述池化层的核尺寸为S1×S2
6.根据权利要求1所述的方法(200),其中,在所述相似度计算步骤(204)中通过欧几里得距离公式进行相似度计算。
7.根据权利要求1所述的方法(200),其中,如果所述相似度计算值大于阈值,那么不作为搜索结果数据输出;否则,按照所述计算值的大小由高至低作为搜索结果数据输出。
8.一种智能搜索装置(100),包括:
输入单元(101),用于输入用户数据;
句矩阵获取单元(102),用于将所述用户数据分词、生成词向量从而获取句矩阵;
输入数据特征信息获取单元(103),用于由所述句矩阵通过卷积神经网络模型获取输入数据特征信息;
相似度计算单元(104),将所述输入数据特征信息与搜索库特征信息进行相似度计算;
输出单元(105),用于根据所述相似度计算结果,输出相应的搜索结果数据。
9.一种智能搜索引擎系统(10),具有根据权利要求9所述的智能搜索装置(100)。
10.根据权利要求9所述的智能搜索引擎系统(10),其特征在于,所述智能搜索引擎系统包括功能业务类的智能搜索引擎、帮助文档类的智能搜索引擎以及Web搜索引擎。
CN201610971694.2A 2016-11-09 2016-11-09 智能搜索方法、搜索装置以及搜索引擎系统 Pending CN108073576A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610971694.2A CN108073576A (zh) 2016-11-09 2016-11-09 智能搜索方法、搜索装置以及搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610971694.2A CN108073576A (zh) 2016-11-09 2016-11-09 智能搜索方法、搜索装置以及搜索引擎系统

Publications (1)

Publication Number Publication Date
CN108073576A true CN108073576A (zh) 2018-05-25

Family

ID=62153245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610971694.2A Pending CN108073576A (zh) 2016-11-09 2016-11-09 智能搜索方法、搜索装置以及搜索引擎系统

Country Status (1)

Country Link
CN (1) CN108073576A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754822A (zh) * 2019-01-22 2019-05-14 平安科技(深圳)有限公司 建立阿兹海默症检测模型的方法和装置
CN109858017A (zh) * 2018-12-24 2019-06-07 北京天融信网络安全技术有限公司 一种数据处理方法及电子设备
CN111061774A (zh) * 2020-01-17 2020-04-24 深圳云天励飞技术有限公司 搜索结果准确性判断方法、装置、电子设备及存储介质
WO2020108608A1 (zh) * 2018-11-29 2020-06-04 腾讯科技(深圳)有限公司 搜索结果处理方法、装置、终端、电子设备及存储介质
WO2020258654A1 (zh) * 2019-06-27 2020-12-30 深圳前海微众银行股份有限公司 一种答案获取方法及装置
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN112989177A (zh) * 2019-12-12 2021-06-18 阿里巴巴集团控股有限公司 信息处理方法、装置、电子设备及计算机存储介质
CN113032641A (zh) * 2021-04-23 2021-06-25 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
US20210342552A1 (en) * 2020-05-01 2021-11-04 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates
CN113886435A (zh) * 2021-12-08 2022-01-04 国能大渡河大数据服务有限公司 一种基于循环神经网络的信息查询方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100969870B1 (ko) * 2010-02-01 2010-07-13 전자부품연구원 오디오 입력데이터 특성에 따른 가변 가중치 기반 음원 검색 시스템
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105930277A (zh) * 2016-07-11 2016-09-07 南京大学 一种基于缺陷报告分析的缺陷源代码定位方法
CN105956011A (zh) * 2016-04-21 2016-09-21 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100969870B1 (ko) * 2010-02-01 2010-07-13 전자부품연구원 오디오 입력데이터 특성에 따른 가변 가중치 기반 음원 검색 시스템
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN104657350A (zh) * 2015-03-04 2015-05-27 中国科学院自动化研究所 融合隐式语义特征的短文本哈希学习方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105956011A (zh) * 2016-04-21 2016-09-21 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN105930277A (zh) * 2016-07-11 2016-09-07 南京大学 一种基于缺陷报告分析的缺陷源代码定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈钊: "结合卷积神经网络和词语情感序列特征的中文情感分析", 《中文信息学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020108608A1 (zh) * 2018-11-29 2020-06-04 腾讯科技(深圳)有限公司 搜索结果处理方法、装置、终端、电子设备及存储介质
US11586637B2 (en) 2018-11-29 2023-02-21 Tencent Technology (Shenzhen) Company Limited Search result processing method and apparatus, and storage medium
CN109858017A (zh) * 2018-12-24 2019-06-07 北京天融信网络安全技术有限公司 一种数据处理方法及电子设备
CN109858017B (zh) * 2018-12-24 2023-07-07 北京天融信网络安全技术有限公司 一种数据处理方法及电子设备
CN109754822A (zh) * 2019-01-22 2019-05-14 平安科技(深圳)有限公司 建立阿兹海默症检测模型的方法和装置
WO2020258654A1 (zh) * 2019-06-27 2020-12-30 深圳前海微众银行股份有限公司 一种答案获取方法及装置
CN112989177A (zh) * 2019-12-12 2021-06-18 阿里巴巴集团控股有限公司 信息处理方法、装置、电子设备及计算机存储介质
CN111061774A (zh) * 2020-01-17 2020-04-24 深圳云天励飞技术有限公司 搜索结果准确性判断方法、装置、电子设备及存储介质
US20210342552A1 (en) * 2020-05-01 2021-11-04 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates
US11586829B2 (en) * 2020-05-01 2023-02-21 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates
CN112182154A (zh) * 2020-09-25 2021-01-05 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN112182154B (zh) * 2020-09-25 2023-10-10 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN113032641A (zh) * 2021-04-23 2021-06-25 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
CN113032641B (zh) * 2021-04-23 2021-12-07 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
CN113886435A (zh) * 2021-12-08 2022-01-04 国能大渡河大数据服务有限公司 一种基于循环神经网络的信息查询方法及系统

Similar Documents

Publication Publication Date Title
CN108073576A (zh) 智能搜索方法、搜索装置以及搜索引擎系统
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN106649275A (zh) 基于词性信息和卷积神经网络的关系抽取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
Dias et al. Using the Choquet integral in the pooling layer in deep learning networks
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN110413783A (zh) 一种基于注意力机制的司法文本分类方法及系统
CN111221962A (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN116992007B (zh) 基于问题意图理解的限定问答系统
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
CN113342950B (zh) 基于语义联合的答案选取方法及系统
Le Huy et al. Keyphrase extraction model: a new design and application on tourism information
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
CN116227486A (zh) 一种基于检索和对比学习的情感分析方法
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114238595A (zh) 一种基于知识图谱的冶金知识问答方法及系统
Postalcioglu et al. Comparison of Neural Network Models for Nostalgic Sentiment Analysis of YouTube Comments
CN114491033A (zh) 一种基于词向量和主题模型的用户兴趣模型构建的方法
CN106570138B (zh) 基于人工智能的信息搜索方法和装置
Vemulapalli et al. A comparative study of twitfeel and transformer-based techniques for the analysis of text data for sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525