CN106777236B - 基于深度问答的查询结果的展现方法和装置 - Google Patents
基于深度问答的查询结果的展现方法和装置 Download PDFInfo
- Publication number
- CN106777236B CN106777236B CN201611224370.9A CN201611224370A CN106777236B CN 106777236 B CN106777236 B CN 106777236B CN 201611224370 A CN201611224370 A CN 201611224370A CN 106777236 B CN106777236 B CN 106777236B
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- short
- query
- sentence
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种基于深度问答的查询结果的展现方法和装置,该方法包括:接收查询,所述查询为预设领域的预设类型的查询;获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;展现所述聚合结果的短观点。该方法能够提高用户检索效率,提升用户体验。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种基于深度问答的查询结果的展现方法和装置。
背景技术
深度问答(Deep question and answer),是指理解人类的语言,智能识别问题的含义,并从海量的互联网数据中提取问题的答案。
相关技术中,当用户检索一个医疗查询(query)的时候,搜索引擎可以提供给用户很多网页信息,用户需要一个一个点击进去才能获取这些网页内的信息,而且答案存在不同观点时,用户需要很长时间来阅读和比较才能获取想要的答案。上述情形用户检索效率偏低,用户体验较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种基于深度问答的查询结果的展现方法,该方法可以提高用户检索效率,提升用户体验。
本申请的另一个目的在于提出一种基于深度问答的查询结果的展现装置。
为达到上述目的,本申请第一方面实施例提出的基于深度问答的查询结果的展现方法,包括:接收查询,所述查询为预设领域的预设类型的查询;获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;展现所述聚合结果的短观点。
本申请第一方面实施例提出的基于深度问答的查询结果的展现方法,通过获取并展现查询对应的聚合结果的短观点,可以对网页进行聚合并提取其中的短观点,从而可以提高用户检索效率,提升用户体验。
为达到上述目的,本申请第二方面实施例提出的基于深度问答的查询结果的展现装置,包括:接收模块,用于接收查询,所述查询为预设领域的预设类型的查询;获取模块,用于获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;第一展现模块,用于展现所述聚合结果的短观点。
本申请第二方面实施例提出的基于深度问答的查询结果的展现装置,通过获取并展现查询对应的聚合结果的短观点,可以对网页进行聚合并提取其中的短观点,从而可以提高用户检索效率,提升用户体验。
本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。
本申请实施例还提出了一种非临时性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。
本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行本申请第一方面实施例任一项所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的基于深度问答的查询结果的展现方法的流程示意图;
图2是本申请实施例中一种查询结果的展现效果示意图;
图3是是本申请另一个实施例提出的基于深度问答的查询结果的展现方法的流程示意图;
图4是本申请实施例中用户选择一个聚合结果后的一种展现效果示意图;
图5是本申请实施例中获取与查询对应的聚合结果的短观点的方法流程示意图;
图6是本申请一个实施例提出的基于深度问答的查询结果的展现装置的结构示意图;
图7是本申请另一个实施例提出的基于深度问答的查询结果的展现装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的基于深度问答的查询结果的展现方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:接收查询(query),所述查询为预设领域的预设类型的查询。
例如,用户以语音、文本等形式在客户端中输入查询,之后客户端可以将用户输入的查询发送给搜索引擎,从而搜索引擎可以接收到客户端发送的查询。
搜索引擎在接收到客户端发送的查询后,可以先判断该查询是否为预设领域的预设类型的查询,在判断结果为是时执行后续流程,否则依照通常的检索流程进行。
预设领域例如为医疗领域,预设类型例如包括:“怎么办”、“为什么”、“症状”等。
具体可以采用字符串匹配的方式,比如预先设置医疗领域的词典,如果查询中包含该词典中的词或其近似词则表明查询为预设领域的查询;另外,如果查询中包括上述各类型的词,如包含“怎么办”、“为什么”、“症状”等词或其近似词,则表明查询为预设类型的查询。
S12:获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到。
搜索引擎在确定查询为预设领域的预设类型的查询后,可以先获取与查询对应的网页,再对网页进行处理得到聚合结果及其短观点。短观点是指用于代表聚合结果的一段文字且该一段文字包含的字数小于预设值,如小于20个字。
搜索结果获取聚合结果及其短观点的具体内容可以参见后续描述。
S13:展现所述聚合结果的短观点。
搜索引擎在获取到聚合结果及其短观点后,可以将其发送给客户端,从而由客户端展现给用户。
图2给出了一种查询结果的展现示意图,如图2所示,用户输入查询21后,搜索引擎可以获取到与查询对应的多个聚合结果,并确定每个聚合结果的短观点,之后搜索引擎可以将各个聚合结果的短观点发送给客户端,由客户端进行展现,如图2所示,客户端可以展现给用户多个聚合结果的短观点22。
进一步的,在得到聚合结果后,根据聚合结果的短观点生成摘要信息,并对应所述聚合结果展现对应的摘要信息。在具体实施时,可以每个聚合结果均展现摘要信息,或者也可以对应部分聚合结果展现摘要信息。例如,如图2所示,对应第一个聚合结果展现相应的摘要信息23。
在根据短观点生成摘要信息时,例如,获取短观点所在的文件片段,将该文件片段与所在的段首组合,形成摘要信息。
一些实施例中,如图3所示,基于深度问答的查询结果的展现方法还可以包括:
S14:接收到对聚合结果的选择指令后,展现选择的聚合结果对应的网页信息。
每个聚合结果的短观点可以分别位于一个可点击的展现项中,当用户点击某个聚合结果的短观点所在的展现项时,则表明用户选择了该展现项所对应的聚合结果,之后可以展现相应的网页信息。
例如,用户点击图2所示的“常见观点1”对应的展现项后,可以展现如图4所示的页面,该页面中包括“常见观点1”对应的网页信息41,也就是“常见观点1”所属的观点簇内的观点句所在的网页的信息。
本实施例中,通过获取并展现查询对应的聚合结果的短观点,可以对网页进行聚合并提取其中的短观点,从而可以提高用户检索效率,提升用户体验。
图5是本申请实施例中获取与查询对应的聚合结果的短观点的方法流程示意图。
如图5所示,本实施例的方法包括:
S51:对接收的查询进行识别,判断所述查询是否为预设领域的预设类型的查询,若是执行S53及其后续步骤,否则执行S52。
预设领域例如为医疗领域,预设类型例如包括:“怎么办”、“为什么”、“症状”等。
具体可以采用字符串匹配的方式,比如预先设置医疗领域的词典,如果查询中包含该词典中的词或其近似词则表明查询为预设领域的查询;另外,如果查询中包括上述各类型的词,如包含“怎么办”、“为什么”、“症状”等词或其近似词,则表明查询为预设类型的查询。
S52:按照通常检索方式进行检索。
例如,获取与查询对应的网页并在搜索结果页上展现一条一条的网页信息。
S53:在预先建立的网页资源库中获取与所述查询对应的网页。
本实施例中,网页资源库包括两个部分:
第一部分:通用网页资源库,也就是目前查询使用的网页资源库。
第一部分和通常检索时使用的网页资源库相同。
第二部分:所述预设领域的垂类网页资源库。
例如,第二部分为医疗领域的垂类网页资源库。
第二部分的网页资源库可以通过引入相关的资源方合作获取高质量数据。
这两部分数据中,第一部分是传统搜索的网页库,优点是网页资源很多,并且有经过用户长期点调之后的网页排序来保证top网页的质量,但是缺点是对于垂类而言,有些优质资源无法利用他的结构化信息来排序,从而导致有的优质资源其实排名靠后。第二部分垂类网页库可以通过合作引入高质量的数据。通过使用上述两部分的网页资源库,可以既保证资源数量,又可以保证资源质量。
进一步的,对于第二部分的网页,可以离线抽取网页中的短观点,并记录在正排检索库中,从而可以减少在线抽取短观点的时间,提升系统效率。
S54:在所述网页中抽取观点句。
以医疗领域的查询为例,不同类型的查询通常对应不同的观点句。例如,对于“怎么办”这种类型的查询,相应的观点句通常是“喂宝宝点妈咪爱试试”、“多锻炼身体”这种动作指引的句子;对于“为什么”这种类型的查询,相应的观点句通常是“因为吃多了”、“天冷导致的感冒”或者直接是疾病词,如“感冒”;对于“症状”这种类型的查询,相应的观点句是明确的疾病症状,通过症状词词典较好判断。
在网页中抽取观点句时,可以基于机器学习抽取观点句。
具体的,对于每个网页,对网页进行分句,得到网页中的句子,之后先判断句子是否为短句,如将字数小于预设值的句子确定为短句,再基于机器学习判断短句是否为观点句,从而得到网页中的观点句。对应非短句则可以不进行后续判断直接认为不是观点句。
在判断一个短句是否为观点句时,可以采用分类器进行,例如,可以预先对应每种类型建立一种分类器,如“怎么办”对应一种分类器,“为什么”对应一种分类器,“症状”对应一种分类器,之后选择与查询所属类型对应的分类器,提取短句的特征,将提取的特征作为选择的分类器的输入,分类器输出为短句的置信度,置信度通常是位于0~1之间的值,如果置信度大于预设值则表明相应的短句为观点句。
各类型的分类器可以预先通过训练生成。例如,收集各类型查询对应的答案句子,并对答案句子进行是否为观点句的标注,并提取答案句子的特征,依据提取的特征和标注结果进行训练,生成相应类型的分类器。
对于“怎么办”类型的问题,由于句式通常是动作指引类型,所以主要使用的特征包括临近的动词加名词组合、形容词加动词组合、副词加动词组合、一些模板(如“建议(.+?)”等)、弱模板加后面的动词(因为“多(.+?)$”单独匹配可能带来很多噪声,但是配合邻接的动词,如“多“加”运动”,则能减少很多噪声)、ngram特征、句首词、句尾词、上下文是否是引导句、以及一些宾语前置组合等特征。上述的“建议(.+?)”、“多(.+?)$”表示正则表达式匹配,当然也可以设置为其他匹配方式。
对于“为什么”类型的问题,根据句式特点,主要使用的特征有模板特征(如“因为”、“导致”等)、上下文是否为引导句、ngram特征、句首尾词、命中的一些疾病词、离线挖掘的疾病常见原因词典的匹配情况、基于word2vec的问答相关性计算等特征。
对于“症状”类型的问题,由于答案绝大部分都是一些名词,因此方法主要是利用症状词典匹配,以及症状模板。离线挖掘症状词词典的方法主要是利用一些症状的模板,比如“有(.+?)的症状”离线处理大批的数据,将命中的部分进行分词、统计,可以得到大量的症状词词典。
S55:对所述观点句进行聚合和归一化,得到观点簇及其短观点;
由于希望展现给用户的是网友观点的集合,而自然网页中这些网友观点虽然是一致的,但是文字却不尽相同,所以需要进行聚合和归一化。
聚合的方法大致是一个层次聚类的思路,首先计算观点句之间的相似度,基于相似度进行聚类,然后基于聚类得到的各类的关键词,对关键词相同的类进行合并,将合并后的每个类作为一个观点簇。在计算相似度时,可以基于观点句包含的字的字向量和分词的词向量进行相似度,取两者的最大值作为相似度数值,从而可以召回尽量多数量的相似内容。每个类的关键词可以根据类中词的TF-IDF值确定,比如将类中TF-IDF值最大的词作为该类的关键词,其中,TF值为局部信息,即词在相应的某个类中的出现频率,IDF值为全局信息,如根据所有类的信息确定一个词的IDF值。
归一化的目的是选取一个文字说法比较好的观点来代表整个簇,方法大致是对观点簇内的各观点句,判断各观点句的边界是否光滑,并且是否有一些冗余部分,如果观点簇内没有很好的观点句,则会已有的观点句进行处理,如去掉冗余的语气助词等成分,从而将边界光滑且没有冗余部分的内容作为相应观点簇的短观点。句子边界是否光滑主要依据句式模板判断,比如符合句式模板则表明句子边界光滑,句式模板如“建议…”,则相应的,如果一个句子是“建议你喝水”则表明边界光滑,否则,如果一个句子是“我个人建议你喝水”则表明句子边界不光滑。冗余部分的判断可以依据是否包含冗余词判断,即如果包含冗余词则表明句子有冗余部分,冗余词可以预先配置,如一些语气助词“啊”、“呢”等。
在得到观点簇的短观点后,还可以对观点簇内原有的观点句进行过滤,例如计算原有观点句与短观点之间的相似度,去除相似度数值小于预设值的原有观点句,从而将剩余的观点句用于后续运算。通过过滤可以保证观点簇内观点和观点簇的短观点语义相近。
S56:对所述观点簇进行簇外和簇内排序和选择,得到选择后的观点簇和选择后的观点簇内的观点句所在的网页,以及,将每个选择后的观点簇内的观点句所在的网页聚合成一个聚合结果,并将每个选择后的观点簇的短观点确定为对应的聚合结果的短观点。
在得到上述的观点簇后,可以先进行簇外排序,即对各观点簇之间进行排序,排序算法可以设置,例如根据观点簇内包括的观点句的输入、每个观点句的置信度、观点句是否有信息量等进行。在对各观点簇之间进行排序后,可以选择排序在前的预设个数的观点簇作为选择后的观点簇。
在得到选择后的观点簇后,可以对每个选择后的观点簇内的观点句所在的网页进行排序,排序算法可以设置,例如网页包含权威专家的问答、网页是质量高的网站提供的,则相应网页排序在前。在对各网页进行排序后,可以选择排序在前的预设个数的网页作为选择后的网页。其中,观点簇对应的预设个数与网页对应的预设个数相互独立,可以相同或不同。
对应每个观点簇得到选择后的网页后,可以将这些选择后的网页聚合得到一个聚合结果,并将该观点簇的短观点作为相应的聚合结果的短观点。
如上,搜索引擎可以得到各聚合结果及其短观点,之后搜索引擎可以将各聚合结果的短观点发送给客户端,以供客户端展现给用户,因此用户可以看到经过聚合和提取后的简短信息,以提高检索效率和用户体验。以及,用户在选择一个聚合结果后,搜索引擎可以将用户选择的聚合结果对应的网页信息发送给客户端,由客户端展现给用户,之后用户可以根据需要查看每种短观点对应的更详细的网页信息。
图6是本申请一个实施例提出的基于深度问答的查询结果的展现装置的结构示意图。
如图6所示,本实施例的装置60包括:接收模块61、获取模块62和第一展现模块63。
接收模块61,用于接收查询,所述查询为预设领域的预设类型的查询;
获取模块62,用于获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;
第一展现模块63,用于展现所述聚合结果的短观点。
一些实施例中,参见图7,该装置60还包括:
第二展现模块64,用于接收到对聚合结果的选择指令后,展现选择的聚合结果对应的网页信息。
一些实施例中,参见图7,所述获取模块62包括:
查询识别子模块621,用于对接收的查询进行识别,判断所述查询是否为预设领域的预设类型的查询,以便在所述查询为预设领域的预设类型的查询时,触发如下子模块执行;
检索子模块622,用于在预先建立的网页资源库中获取与所述查询对应的网页;
观点句抽取子模块623,用于在所述网页中抽取观点句;
观点句处理子模块624,用于对所述观点句进行聚合和归一化,得到观点簇及其短观点;
观点簇处理子模块625,用于对所述观点簇进行簇外和簇内排序和选择,得到选择后的观点簇和选择后的观点簇内的观点句所在的网页,以及,将每个选择后的观点簇内的观点句所在的网页聚合成一个聚合结果,并将每个选择后的观点簇的短观点确定为对应的聚合结果的短观点。
一些实施例中,所述观点簇处理子模块625还用于:在得到聚合结果后,根据聚合结果的短观点生成摘要信息;
所述第一展现模块623还用于:对应所述聚合结果展现摘要信息。
一些实施例中,所述网页资源库包括:
通用网页资源库;以及,
所述预设领域的垂类网页资源库。
一些实施例中,所述观点句抽取子模块623具体用于:
对所述网页进行分句,得到所述网页中的句子;
如果所述句子为短句,则基于机器学习判断所述短句是否为观点句;
如果所述短句为观点句,则将所述短句作为所述网页中的观点句。
一些实施例中,所述观点句处理子模块624具体用于:
计算观点句之间的相似度,并根据相似度对观点句进行聚类,得到多个类;确定每个类的关键词,并对关键词相同的类进行合并,将合并后的每个类作为一个观点簇;
对观点簇内的观点句进行归一化,得到观点簇的短观点。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过获取并展现查询对应的聚合结果的短观点,可以对网页进行聚合并提取其中的短观点,从而可以提高用户检索效率,提升用户体验。
本申请实施例还提出了一种设备,包括:一个或多个处理器;用于存储一个或多个程序的存储器;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行:接收查询,所述查询为预设领域的预设类型的查询;获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;展现所述聚合结果的短观点。
可以理解的是,如果该设备为用户侧的终端设备,则具体接收用户输入的查询,以及获取服务端发送的与所述查询对应的聚合结果的短观点,以及展现所述聚合结果的短观点。或者,如果该设备为服务端的设备时,则具体接收客户端发送的查询,获取与查询对应的聚合结果的短观点,以及将聚合结果的短观点发送给客户端,通过客户端展现所述聚合结果的短观点。
本申请实施例还提出了一种非临时性计算机可读存储介质,当所述存储介质中的一个或多个程序由设备的一个或多个处理器执行时,使得所述一个或多个处理器执行:接收查询,所述查询为预设领域的预设类型的查询;获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;展现所述聚合结果的短观点。
本申请实施例还提出了一种计算机程序产品,当所述计算机程序产品被设备中的一个或多个处理器执行时,使得所述一个或多个处理器执行:接收查询,所述查询为预设领域的预设类型的查询;获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;展现所述聚合结果的短观点。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于深度问答的查询结果的展现方法,其特征在于,包括:
接收查询,所述查询为预设领域的预设类型的查询;
获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;
展现所述聚合结果的短观点;
其中,所述获取与所述查询对应的聚合结果的短观点,包括:
对接收的查询进行识别,判断所述查询是否为预设领域的预设类型的查询;
在所述查询为预设领域的预设类型的查询时,执行如下内容:
在预先建立的网页资源库中获取与所述查询对应的网页;
在所述网页中抽取观点句;
对所述观点句进行聚合和归一化,得到观点簇及其短观点;
对所述观点簇进行簇外和簇内排序和选择,得到选择后的观点簇和选择后的观点簇内的观点句所在的网页,以及,将每个选择后的观点簇内的观点句所在的网页聚合成一个聚合结果,并将每个选择后的观点簇的短观点确定为对应的聚合结果的短观点;
其中,所述在所述网页中抽取观点句,包括:
对所述网页进行分句,得到所述网页中的句子;
如果所述句子为短句,则基于机器学习判断所述短句是否为观点句;
如果所述短句为观点句,则将所述短句作为所述网页中的观点句;
其中,所述基于机器学习判断所述短句是否为观点句包括:
提取所述短句的特征;
将所述短句的特征输入到预先建立的与所述查询所属类型对应的分类器中,获取所述短句的置信度;
如果所述置信度大于预设值,则确定所述短句为观点句;
其中,与所属述查询所类型对应的分类器是通过收集与所属述查询所类型对应的答案句子,并对所述答案句子进行是否为观点句的标注,并提取所述答案句子的特征,依据提取的特征和标注结果进行训练得到的;
其中,所述对所述观点句进行聚合和归一化,得到观点簇及其短观点,包括:
计算观点句之间的相似度,并根据相似度对观点句进行聚类,得到多个类;确定每个类的关键词,并对关键词相同的类进行合并,将合并后的每个类作为一个观点簇;
对观点簇内的观点句进行归一化,得到观点簇的短观点。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收到对聚合结果的选择指令后,展现选择的聚合结果对应的网页信息。
3.根据权利要求1所述的方法,其特征在于,还包括:
在得到聚合结果后,根据聚合结果的短观点生成摘要信息,并对应所述聚合结果展现摘要信息。
4.根据权利要求1所述的方法,其特征在于,所述网页资源库包括:
通用网页资源库;以及,
所述预设领域的垂类网页资源库。
5.一种基于深度问答的查询结果的展现装置,其特征在于,包括:
接收模块,用于接收查询,所述查询为预设领域的预设类型的查询;
获取模块,用于获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;
第一展现模块,用于展现所述聚合结果的短观点;
其中,所述获取模块包括:
查询识别子模块,用于对接收的查询进行识别,判断所述查询是否为预设领域的预设类型的查询,以便在所述查询为预设领域的预设类型的查询时,触发如下子模块执行;
检索子模块,用于在预先建立的网页资源库中获取与所述查询对应的网页;
观点句抽取子模块,用于在所述网页中抽取观点句;
观点句处理子模块,用于对所述观点句进行聚合和归一化,得到观点簇及其短观点;
观点簇处理子模块,用于对所述观点簇进行簇外和簇内排序和选择,得到选择后的观点簇和选择后的观点簇内的观点句所在的网页,以及,将每个选择后的观点簇内的观点句所在的网页聚合成一个聚合结果,并将每个选择后的观点簇的短观点确定为对应的聚合结果的短观点;
其中,所述观点句抽取子模块具体用于:
对所述网页进行分句,得到所述网页中的句子;
如果所述句子为短句,则基于机器学习判断所述短句是否为观点句;
如果所述短句为观点句,则将所述短句作为所述网页中的观点句;
其中,所述在所述网页中抽取观点句,包括:
对所述网页进行分句,得到所述网页中的句子;
如果所述句子为短句,则基于机器学习判断所述短句是否为观点句;
如果所述短句为观点句,则将所述短句作为所述网页中的观点句;
其中,所述基于机器学习判断所述短句是否为观点句包括:
提取所述短句的特征;
将所述短句的特征输入到预先建立的与所述查询所属类型对应的分类器中,获取所述短句的置信度;
如果所述置信度大于预设值,则确定所述短句为观点句;
其中,与所属述查询所类型对应的分类器是通过收集与所属述查询所类型对应的答案句子,并对所述答案句子进行是否为观点句的标注,并提取所述答案句子的特征,依据提取的特征和标注结果进行训练得到的;
所述观点句处理子模块具体用于:
计算观点句之间的相似度,并根据相似度对观点句进行聚类,得到多个类;确定每个类的关键词,并对关键词相同的类进行合并,将合并后的每个类作为一个观点簇;
对观点簇内的观点句进行归一化,得到观点簇的短观点。
6.根据权利要求5所述的装置,其特征在于,还包括:
第二展现模块,用于接收到对聚合结果的选择指令后,展现选择的聚合结果对应的网页信息。
7.根据权利要求5所述的装置,其特征在于,
所述观点簇处理子模块还用于:在得到聚合结果后,根据聚合结果的短观点生成摘要信息;
所述第一展现模块还用于:对应所述聚合结果展现摘要信息。
8.根据权利要求5所述的装置,其特征在于,所述网页资源库包括:
通用网页资源库;以及,
所述预设领域的垂类网页资源库。
9.一种设备,其特征在于,包括:
一个或多个处理器;
用于存储一个或多个程序的存储器;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行:
接收查询,所述查询为预设领域的预设类型的查询;
获取与所述查询对应的聚合结果的短观点,每个聚合结果根据同一个观点簇内的观点句所在的网页聚合得到,聚合结果的短观点根据对应的观点簇内的观点句得到;
展现所述聚合结果的短观点;
其中,所述获取与所述查询对应的聚合结果的短观点,包括:
对接收的查询进行识别,判断所述查询是否为预设领域的预设类型的查询;
在所述查询为预设领域的预设类型的查询时,执行如下内容:
在预先建立的网页资源库中获取与所述查询对应的网页;
在所述网页中抽取观点句;
对所述观点句进行聚合和归一化,得到观点簇及其短观点;
对所述观点簇进行簇外和簇内排序和选择,得到选择后的观点簇和选择后的观点簇内的观点句所在的网页,以及,将每个选择后的观点簇内的观点句所在的网页聚合成一个聚合结果,并将每个选择后的观点簇的短观点确定为对应的聚合结果的短观点;
其中,所述在所述网页中抽取观点句,包括:
对所述网页进行分句,得到所述网页中的句子;
如果所述句子为短句,则基于机器学习判断所述短句是否为观点句;
如果所述短句为观点句,则将所述短句作为所述网页中的观点句;
其中,所述基于机器学习判断所述短句是否为观点句包括:
提取所述短句的特征;
将所述短句的特征输入到预先建立的与所述查询所属类型对应的分类器中,获取所述短句的置信度;
如果所述置信度大于预设值,则确定所述短句为观点句;
其中,与所属述查询所类型对应的分类器是通过收集与所属述查询所类型对应的答案句子,并对所述答案句子进行是否为观点句的标注,并提取所述答案句子的特征,依据提取的特征和标注结果进行训练得到的;
其中,所述对所述观点句进行聚合和归一化,得到观点簇及其短观点,包括:
计算观点句之间的相似度,并根据相似度对观点句进行聚类,得到多个类;确定每个类的关键词,并对关键词相同的类进行合并,将合并后的每个类作为一个观点簇;
对观点簇内的观点句进行归一化,得到观点簇的短观点。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611224370.9A CN106777236B (zh) | 2016-12-27 | 2016-12-27 | 基于深度问答的查询结果的展现方法和装置 |
US15/649,090 US11334572B2 (en) | 2016-12-27 | 2017-07-13 | Method and device for displaying query results based on deep question and answer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611224370.9A CN106777236B (zh) | 2016-12-27 | 2016-12-27 | 基于深度问答的查询结果的展现方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106777236A CN106777236A (zh) | 2017-05-31 |
CN106777236B true CN106777236B (zh) | 2020-11-03 |
Family
ID=58927172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611224370.9A Active CN106777236B (zh) | 2016-12-27 | 2016-12-27 | 基于深度问答的查询结果的展现方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11334572B2 (zh) |
CN (1) | CN106777236B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423364B (zh) * | 2017-06-22 | 2024-01-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能的回答话术播报方法、装置及存储介质 |
CN108763535B (zh) * | 2018-05-31 | 2020-02-07 | 科大讯飞股份有限公司 | 信息获取方法及装置 |
KR20210062838A (ko) * | 2019-11-22 | 2021-06-01 | 엘지전자 주식회사 | 인공지능 기반의 음성처리 방법 |
CN112509690B (zh) * | 2020-11-30 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于控制质量的方法、装置、设备和存储介质 |
CN112905766A (zh) * | 2021-02-09 | 2021-06-04 | 长沙冉星信息科技有限公司 | 一种在主观答题文本中抽取核心观点的方法 |
CN113392308A (zh) * | 2021-06-22 | 2021-09-14 | 北京字节跳动网络技术有限公司 | 内容搜索方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
CN104965823A (zh) * | 2015-07-30 | 2015-10-07 | 成都鼎智汇科技有限公司 | 一种基于大数据的观点抽取方法 |
WO2016167424A1 (ko) * | 2015-04-16 | 2016-10-20 | 주식회사 플런티코리아 | 답변 추천 장치, 자동 문장 완성 시스템 및 방법 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3597697B2 (ja) * | 1998-03-20 | 2004-12-08 | 富士通株式会社 | 文書要約装置およびその方法 |
US20080256069A1 (en) * | 2002-09-09 | 2008-10-16 | Jeffrey Scott Eder | Complete Context(tm) Query System |
US9507858B1 (en) * | 2007-02-28 | 2016-11-29 | Google Inc. | Selectively merging clusters of conceptually related words in a generative model for text |
US8024332B2 (en) * | 2008-08-04 | 2011-09-20 | Microsoft Corporation | Clustering question search results based on topic and focus |
US20110112995A1 (en) * | 2009-10-28 | 2011-05-12 | Industrial Technology Research Institute | Systems and methods for organizing collective social intelligence information using an organic object data model |
WO2011148571A1 (ja) * | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 情報抽出システム、方法及びプログラム |
US9189550B2 (en) * | 2011-11-17 | 2015-11-17 | Microsoft Technology Licensing, Llc | Query refinement in a browser toolbar |
US8930187B2 (en) * | 2012-01-03 | 2015-01-06 | Nokia Corporation | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device |
US8762368B1 (en) * | 2012-04-30 | 2014-06-24 | Google Inc. | Context-based filtering of search results |
US20140354768A1 (en) * | 2013-05-30 | 2014-12-04 | Microsoft Corporation | Socialized Mobile Photography |
CN104063497B (zh) * | 2014-07-04 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 观点处理方法和装置以及搜索方法和装置 |
CN105338126B (zh) * | 2014-07-17 | 2018-10-23 | 阿里巴巴集团控股有限公司 | 远程查询信息的方法及服务器 |
US10176434B2 (en) * | 2014-09-30 | 2019-01-08 | Ebay Inc. | Mining textual feedback |
CN104462363B (zh) * | 2014-12-08 | 2018-10-23 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104881446A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
-
2016
- 2016-12-27 CN CN201611224370.9A patent/CN106777236B/zh active Active
-
2017
- 2017-07-13 US US15/649,090 patent/US11334572B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN104281607A (zh) * | 2013-07-08 | 2015-01-14 | 上海锐英软件技术有限公司 | 微博热点话题分析方法 |
WO2016167424A1 (ko) * | 2015-04-16 | 2016-10-20 | 주식회사 플런티코리아 | 답변 추천 장치, 자동 문장 완성 시스템 및 방법 |
CN104965823A (zh) * | 2015-07-30 | 2015-10-07 | 成都鼎智汇科技有限公司 | 一种基于大数据的观点抽取方法 |
Non-Patent Citations (1)
Title |
---|
《基于模式学习的中文问答系统答案抽取方法》;余正涛 等;《吉林大学学报(工学版)》;20080131(第1期);142-147 * |
Also Published As
Publication number | Publication date |
---|---|
US11334572B2 (en) | 2022-05-17 |
US20180181574A1 (en) | 2018-06-28 |
CN106777236A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777236B (zh) | 基于深度问答的查询结果的展现方法和装置 | |
CN106649786B (zh) | 基于深度问答的答案检索方法及装置 | |
US10169706B2 (en) | Corpus quality analysis | |
US10102254B2 (en) | Confidence ranking of answers based on temporal semantics | |
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
US10565533B2 (en) | Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
US8254699B1 (en) | Automatic large scale video object recognition | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
US20160140109A1 (en) | Generation of a semantic model from textual listings | |
US9720977B2 (en) | Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system | |
US9760828B2 (en) | Utilizing temporal indicators to weight semantic values | |
CN104102721A (zh) | 信息推荐方法和装置 | |
CN103299324A (zh) | 使用潜在子标记来学习用于视频注释的标记 | |
US10691734B2 (en) | Searching multilingual documents based on document structure extraction | |
CN109858626B (zh) | 一种知识库构建方法及装置 | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
US20210103622A1 (en) | Information search method, device, apparatus and computer-readable medium | |
US20180204106A1 (en) | System and method for personalized deep text analysis | |
CN106326386B (zh) | 搜索结果的展示方法和装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
US20210056261A1 (en) | Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |