CN104063497A - 观点处理方法和装置以及搜索方法和装置 - Google Patents
观点处理方法和装置以及搜索方法和装置 Download PDFInfo
- Publication number
- CN104063497A CN104063497A CN201410319166.XA CN201410319166A CN104063497A CN 104063497 A CN104063497 A CN 104063497A CN 201410319166 A CN201410319166 A CN 201410319166A CN 104063497 A CN104063497 A CN 104063497A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- answer
- fragment
- normalization
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种观点处理方法和装置以及搜索方法和装置。观点处理方法包括:基于预设策略从问答对资源中获取问题对应的观点;将问题所对应的观点进行聚合,形成问题观点库。本发明实施例提供的观点处理方法和装置,通过从问答对资源获取问题对应的观点,能从海量的问答对资源中得到问题对应的简短观点,并通过观点聚合,能得到问题对应的观点集合,从而能够建立问题观点库。本发明实施例提供的搜索方法和装置,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法形成的问题观点库中,匹配检索式,能够得到并直接呈现与检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。
Description
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种观点处理方法和装置以及搜索方法和装置。
背景技术
随着计算机技术的不断发展,用户通过搜索引擎的搜索框输入问题,希望获得与问题相关的一系列观点。常见的问题类别包括:原因类、怎么办类以及是什么类等。例如,用户输入的原因类问题为“新生儿打嗝是怎么回事”,希望获得相应的观点,如:“吃奶过急”、“受凉”、“消化不良”以及“乳食停滞不化”等。又如,用户输入的怎么办类问题为“小孩热感冒怎么办”,希望获得相应的观点,如,“尽量避免去人多的公共场所”、“不能盖得太厚太多”、“注意多喝水”以及“建议及早去医院”等。又如,用户输入的是什么类问题为“怀孕初期的症状”,希望获得相应的观点,如,“呕吐”、“月经没来”以及“饥饿感”等。
现有的搜索引擎采用的技术,一般是当用户通过搜索引擎的搜索框输入问题查找观点时,搜索引擎会在数据库中搜寻与问题中查询词关联的答案网页,并将答案网页对应的网页链接按相关度从高到低的顺序返回给用户。
上述搜索引擎采用的技术存在以下缺陷:用户需要从海量的答案网页中点击相关链接,查看页面内容,然后自行寻找和归纳观点,搜索效率低且不一定能找到所需的观点。
发明内容
本发明实施例提供一种观点处理方法和装置以及搜索方法和装置,以提高搜索效率。
第一方面,本发明实施例提供了一种观点处理方法,包括:
基于预设策略,从问答对资源中获取问题对应的观点;
将问题所对应的观点进行聚合,形成问题观点库。
第二方面,本发明实施例还提供了一种观点处理装置,包括:
观点获取模块,用于基于预设策略,从问答对资源中获取问题对应的观点;
问题观点库形成模块,用于将问题所对应的观点进行聚合,形成问题观点库。
第三方面,本发明实施例还提供了一种搜索方法,包括:
获取用户通过搜索框输入的检索式;
在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本发明任意实施例提供的观点处理方法形成;
显示所述观点。
第四方面,本发明实施例还提供了一种搜索装置,包括:
检索式获取模块,用于获取用户通过搜索框输入的检索式;
观点查找模块,用于在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本发明任意实施例提供的观点处理装置形成;
观点显示模块,用于显示所述观点。
本发明实施例提供的观点处理方法和装置,通过从问答对资源中获取问题对应的观点,能够从海量的问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
本发明实施例提供的搜索方法和装置,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户输入的检索式,能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种观点处理方法的流程图;
图2a为本发明实施例二提供的一种观点处理方法的流程图;
图2b为本发明实施例二提供的一种观点处理方法中一种基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段的方法的流程图;
图2c为本发明实施例二提供的一种观点处理方法中另一种基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段的方法的流程图;
图3为本发明实施例三提供的一种观点处理方法的流程图;
图4为本发明实施例四提供的一种观点处理方法的流程图;
图5a为本发明实施例五提供的一种观点处理方法的流程图;
图5b为本发明实施例五提供的一种观点处理方法中基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇的方法的流程图;
图6为本发明实施例六提供的一种观点处理方法的流程图;
图7为本发明实施例七提供的一种观点处理装置的结构示意图;
图8a为本发明实施例八提供的一种搜索方法的流程图;
图8b为采用本发明实施例八提供的搜索方法而呈现的观点图;
图8c为采用本发明实施例八提供的搜索方法而呈现的另一观点图;
图8d为采用本发明实施例八提供的搜索方法而呈现的又一观点图;
图9为本发明实施例九提供的一种搜索装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
请参阅图1,为本发明实施例一提供的一种观点处理方法的流程图。本发明实施例的方法可以由硬件和/或软件实现的观点处理装置来执行,该实现装置典型的是配置于能够进行数据处理的服务器中,也可以配置在搜索引擎服务器中。
如图1所示,所述方法包括:
110、基于预设策略,从问答对资源中获取问题对应的观点;
本操作具体是从问答对资源中提取问题对应的观点。问答对资源是以成对的问题-答案形式存在的数据资源,每个问题的答案中包括了解答该问题的观点,本操作以问答对资源作为获取观点的原始资源,提取各个问答对中问题的答案中所包含的观点。常见的问题类别包括:原因类、怎么办类以及是什么类等。
作为本操作的一种优选的实施方式,包括:获取问答日志;根据所述问答日志得到问答对资源;从所述问答对资源中获取问题对应的观点。
其中,问答日志可以包括点击日志、大搜索展现日志、以及特定垂搜站点展现日志等。点击日志是指设定的历史时间内(例如,一年)用户通过搜索引擎的搜索框输入查询式,即问题,搜索引擎展现与查询式关联的答案网页,用户从展现的大量答案网页中选择部分答案网页进行点击,被点击的答案网页以及对应的查询式即构成所述点击日志。大搜索展现日志是指设定的历史时间内用户通过搜索引擎的搜索框输入查询式,即问题,搜索引擎展现与查询式关联的答案网页,所述答案网页以及对应的查询式即构成大搜索展现日志。特定垂搜站点展现日志是指设定的历史时间内,现有的问答门户网站(例如,百度知道、新浪爱问、天涯问答、以及http://www.haodf.com/等)或专业学科论坛(例如CSDN论坛等)展现的用户问题以及对应的网友回答。
问答日志可以为源代码形式,也可以为URL(Uniform Resource Locator,统一资源定位符)地址形式等。
问答日志中包含的用户查询式与对应的被点击网页所包含的内容、对应的搜索引擎展现网页中的内容、或特定垂搜站点展现的回答内容,即为问答对资源。
问答对资源可以包括问答日志的URL地址对应的具体问答内容。
问答对资源中用户输入的查询式即为问题,答案内容中符合设定观点定位模板、设定语法结构或其他设定规则的部分即为问题对应的观点。
120、将问题所对应的观点进行聚合,形成问题观点库。
本操作具体是通过聚合操作,得到问题对应的观点的集合,也即问题观点库。换言之,一个问题可能对应多个观点,且相同的观点也可能以不同的表达方式存在于多个问答对中,所以将每个问题对应的观点进行聚合,即得到问题观点库。
问题观点库中包含原因类问题、怎么办类问题以及是什么类问题或其他问题类型所对应的全部观点。
示例性地,原因类问题“新生儿打嗝是怎么回事”相应的观点包括:“吃奶过急”、“受凉”、“消化不良”以及“乳食停滞不化”等。又如,怎么办类问题“小孩热感冒怎么办”相应的观点包括:“尽量避免去人多的公共场所”、“不能盖得太厚太多”、“注意多喝水”以及“建议及早去医院”等。再如,是什么类问题“怀孕初期的症状”相应的观点包括:“呕吐”、“月经没来”以及“饥饿感”等。
本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
实施例二
请参阅图2a,为本发明实施例二提供的一种观点处理方法的流程图。本实施例在上述实施例的基础上,提供了基于预设策略,从问答对资源中获取问题对应的观点的优选方案。
如图2a所示,所述观点处理方法优选包括:
210、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;
本操作具体是基于问答对资源中的问题以及对应的答案,从答案中得到符合设定规则的观点片段。
观点片段可以为一个词,也可以是多个词的组合,其中多个词的组合符合设定规则,例如设定的语法结构。
220、基于预设观点验证策略,确定所述观点片段中的观点;
本操作具体是将通过设定观点片段定位策略确定的观点片段进行进一步验证,将通过验证的观点片段中符合语义等规则的部分作为观点,或将通过边界调整的观点片段作为观点。
230、基于预设观点清除策略,从确定的观点中清除垃圾观点;
本操作具体是从操作220得到的观点中清除垃圾观点。具体地,可以将出现频次低于设定门限值的观点作为垃圾观点,进行清除。
240、将问题所对应的观点进行聚合,形成问题观点库。
本实施例的技术方案,通过观点片段定位,能够准确定位到答案中包含观点的部分,并通过观点验证得到通过验证的观点,能够调整观点的语义,提高观点的准确度,然后通过进一步清除垃圾观点,能够从海量的问答对资源中得到问题对应的简短观点,提高了观点的可信度,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。本领域技术人员可以理解,清除垃圾观点的操作为优选操作,也可以省略。
请参阅图2b,作为基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段的一种优选的实施方式,具体包括:
211、对问答对资源中的答案进行预处理,确定答案所包含的分句;
本操作具体是对问答对资源中的答案进行预处理,以去除不适合展现的字符,例如不能识别的乱码等,然后基于预处理后的答案,确定所述答案包含的分句。
本操作中,可以按照分隔符和标点确定分句。可以先根据换行符或分节符等分隔符确定答案包含的段落、行或分节;然后根据分号、句号等标点确定段落、行或分节中的分句,从而得到答案包含的分句。
本操作中,也可以直接按照标点确定答案包含的分句。
212、将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段。
本操作具体是通过将分句与观点定位模板进行匹配,以确定答案中的观点片段。
其中,答案可能包含多个分句,而观点可能只位于其中的部分分句中。观点定位模板的作用在于对答案中包含有观点的分句进行筛选,并将分句中匹配成功的部分作为观点片段。
观点定位模板是通过统计分析得到的。原因类问题对应的观点定位模板可以包括:“是[.*]原因导致”、“由于[.*]原因导致”、“由[.*]导致”以及“由[.*]引起”。怎么办类问题对应的观点定位模板可以包括:“[W:0-50][建议、要、不要、宜][W:1-50][标点:0-2][W:0-50]”等。是什么类问题对应的观点定位模板可以包括:“症状包括[.*]”以及“有[.*]症状”等。
其中,“.”表示包含了所有ASCII字符的字符集;“*”表示任意次数的连续重复。“[W:0-50][建议、要、不要、宜][W:1-50][标点:0-2][W:0-50]”表示在“建议”、“要”、“不要”或“宜”之前可以有由任意字符组成的0-50个中文文字,之后可以有由任意字符组成的1-50个中文文字,在此之后,可以有0-2个标点,在标点之后,可以有由任意字符组成的0-50个中文文字。
例如,分句“建议你多休息”与观点定位模板“[W:0-50][建议、要、不要、宜][W:1-50][标点:0-2][W:0-50]”匹配成功,则该分句可以作为答案中的观点片段。
需要说明的是,匹配失败的分句中不包含观点片段;匹配成功时,同一个分句中可能包含一个或多个观点片段。
例如,分句“可能由天气变化引起,建议你多休息。”中既包含观点片段“由天气变化引起”,又包含观点片段“建议你多休息”。
本优选的实施方式,通过将答案进行预处理,得到答案包含的分句,并以分句为单位进行与观点定位模板匹配的操作,将匹配成分的部分作为观点片段。由于观点定位模板是通过大量统计分析获得的,从而能够提高观点片段的可信度。
请参阅图2c,作为本操作的另一种优选的实施方式,在上述实施方式的基础上,在操作212之后,还可以包括:
213、选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模板;
本操作具体是通过从抽取出的观点片段中选取正确的种子,并抽取包含该种子的句子,分析新的观点定位模板。确定正确种子的操作可以由人工选择来完成。
例如,通过与原始观点定位模板“由[.*]导致”匹配操作,确定了多个观点片段,从中选取设定数量为1的观点片段,如,“由消化不良导致”,将其中的“消化不良”作为种子,查找到另外一个句子“可能是消化不良引起的”,则可以分析出扩展观点定位模板“可能是[.*]引起”。
214、如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定位模板存储到设定观点定位模板中。
本操作具体是在设定观点定位模板中匹配扩展观点定位模板,如果匹配失败,则将所述扩展观点定位模板存储到设定观点定位模板中,以修正设定观点定位模板。
本优选的实施方式,通过从抽取出的观点片段中获取扩展观点定位模板,并通过在原始设定观点定位模板中匹配所述扩展观点定位模板,在匹配失败时,执行存储操作,能够修正设定观点定位模板,从而在之后的观点片段操作中,能够扩大召回率。
实施例三
请参阅图3,为本发明实施例三提供的一种观点处理方法的流程图。本实施例在实施例二的基础上,提供了基于预设观点验证策略,确定所述观点片段中的观点这一操作的优选方案。
310、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;
本操作同样适用于实施例二中操作211和操作212提供的观点片段定位操作,或操作操作211、操作212、操作213和操作214提供的观点片段定位操作,此处不再赘述。
320、利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观点片段作为观点;
本操作具体是利用切词边界验证技术进行观点验证。
本操作中切词边界验证技术中标准切词边界的获得可以有多种实施方式,例如包括下述实施方式中的至少一种:
通过保留最高级别专用词汇,得到标准切词边界,最高级别专用词汇例如国家名称、地方名称等,保留原有的形式不做切分,例如“中国”、“河南省”、“百度”等;
通过权切词得到标准切词边界,基于搜索量的权重划分确定权切词,例如根据最近一个星期或者最近一天有效搜索量的总和,给每个词加权,权重高的优先切词;
通过切词库查询的方式得到标准切词边界,即第三方设备建立或更新的切词库,在所述切词库中存储有大量的切词,基于切词库进行切词,得到标准切词边界。
例如,如果抽取出来的观点片段为“刷牙方式不当引”,则该观点片段不符合标准切词边界“引起”;如果抽取出来的观点片段为“刷牙方式不当引起”,则该观点片段符合标准切词边界“引起”。
321、对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点;
本操作具体是利用词性以及语法结构进行观点验证。
对抽取的观点片段进行词性标注,之后对于以助词或介词结束的观点片段,可以将助词、介词去掉,比如去掉观点片段“发烧等”中的“等”,基于此可以得到设定观点语法结构。
对于原因类和是什么类的观点中存在一个实词(例如,名词、动词或形容词等),怎么办类的观点中包含动宾结构,以及宾语补足语,基于此,可以得到设定观点语法结构。例如,对于“鸡肉尽量不要吃”,需补出宾语“鸡肉”,也即得到“尽量不要吃鸡肉”,作为设定观点语法结构。
322、将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于第二门限值。红标字段一般是指在搜索结果中的关键词字段。
本操作具体是利用搜索结果中的红表字段进行观点验证。
例如,当观点片段为“刷牙方式不当而”,将该观点片段作为查询式通过百度搜索引擎进行搜索,根据搜索结果中的红标字段以及所述条件可以修正所述观点片段的边界,如,修正后得到“刷牙方式不当”。
需要说明的是,在本实施例中,操作320、操作321和操作322是相互独立的,都是基于预设观点验证策略,确定所述观点片段中的观点这一操作的优选实施方式。换言之,基于预设观点验证策略,确定所述观点片段中的观点这一操作包括操作320、操作321和操作322中的至少一项,当执行多项操作时,其执行顺序不限。
330、基于预设观点清除策略,从确定的观点中清除垃圾观点;
340、将问题所对应的观点进行聚合,形成问题观点库。
本实施例的技术方案,在确定问答对资源中问题对应的答案中的观点片段之后,通过切词边界验证技术、词性和语法结构验证技术、或基于搜索结果中的红标字段修正技术,能够调整观点的边界或语义,提高观点的准确度,然后通过进一步清除垃圾观点,能够从海量的问答对资源中得到问题对应的简短观点,提高了观点的可信度,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
实施例四
请参阅图4,为本发明实施例四提供的一种观点处理方法的流程图。本实施例在实施例二的基础上,提供了基于预设观点清除策略,从确定的观点中清除垃圾观点这一操作的优选方案。
如图4所示,该优选方法包括:
410、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;
本操作同样适用于实施例二中操作211和操作212提供的观点片段定位操作,或操作操作211、操作212、操作213和操作214提供的观点片段定位操作,此处不再赘述。
420、基于预设观点验证策略,确定所述观点片段中的观点;
本操作同样适用于前述实施例中操作320、操作321和操作322中的任一操作提供的观点验证操作,此处不再赘述。
430、将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限值的查询式中的观点;
本操作具体是利用搜索结果的共现频次判断垃圾观点,并进行过滤,以清除观点。
示例性地,将观点“着凉”与对应的问题“小孩肚子疼怎么回事”中的关键字段“小孩肚子疼”组成查询式“着凉小孩肚子疼”,然后通过百度搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,共现即“着凉”与“小孩肚子疼”同时出现,如果共现频次低于第三门限值,例如10%,则过滤掉该观点“着凉”;如果共现频次高于第三门限值,则保留该观点“着凉”,也即将观点“着凉”作为问题“小孩肚子疼怎么回事”对应的观点中的其中一个观点。
431、确定所述观点在问答对资源中的逆文档频率(inverse documentfrequency,IDF),过滤掉所述IDF高于第四门限值的观点。
本操作具体是利用观点的IDF判断垃圾观点,并进行过滤,以清除观点。
换言之,观点的IDF越高,则对应的出现频次越低,即成为垃圾观点的可能性越高;反之,观点的IDF越低,则对应的出现频次越高,即成为垃圾观点的可能性越小,即该观点的可信度越高。
需要说明的是,在本实施例中,操作430和操作431是相互独立的,都是基于预设观点清除策略,从确定的观点中清除垃圾观点这一操作的优选实施方式。换言之,基于预设观点清除策略,从确定的观点中清除垃圾观点这一操作包括操作430和操作431中的至少一项。
440、将问题所对应的观点进行聚合,形成问题观点库。
本实施例的技术方案,通过观点片段定位,能够准确定位到答案中包含观点的部分,并通过观点验证得到通过验证的观点,能够调整观点的语义,提高观点的准确度,然后利用搜索结果的共现频次或观点的IDF,进一步清除垃圾观点,能够从海量的问答对资源中得到问题对应的简短观点,提高了观点的可信度,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
实施例五
请参阅图5a,为本发明实施例五提供的一种观点处理方法的流程图。本实施例在上述各实施例的基础上提供了将问题所对应的观点进行聚合,形成问题观点库这一操作的优选方案。
如图5a所示,所述优选方法包括:
510、基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇;
本操作具体是对获取的观点中的表意相同、但说法不完全一致的观点进行合并,以得到观点簇。换言之,每个观点簇为表意相同、但说法不完全一致的观点的集合。
示例性地,根据观点“建议你不要乱用药”、观点“不可以自行用药”以及观点“不宜乱服用药”的相似度,通过聚合可以得到一个观点簇。
520、基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应的归一化观点集合;
本操作具体是在一个问题对应的每一个观点簇中分别确定一个代表性的观点,所述代表性的观点即为归一化观点,从而得到问题对应的所有代表性观点的集合。
本操作中基于预设观点归一化策略,从观点簇中确定一个归一化观点的操作可以有多种实施方式,例如包括下述实施方式中的至少一种:
方式A、根据观点中信息的覆盖率确定归一化观点;
换言之,将观点信息覆盖最全的观点作为观点簇的代表性观点。例如:某个观点簇中包括3个观点,分别为“不要吃凉性、辛辣食物”、“不要吃凉性食物”以及“不要吃辛辣食物”。其中包括的信息为“不要吃凉”、“不要吃辛辣食物”,那么,根据信息覆盖率,将观点“不要吃凉性、辛辣食物”作为该观点簇的归一化观点。
方式B、计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述归一化观点;
换言之,通过观点的IDF*log(IDF)值可以得到观点表述的简明程度,将表述最简明的观点作为归一化观点。例如:某个观点簇中包括2个观点,分别为“不要吃凉性、辛辣食物”和“切忌不要吃凉性、辛辣的食物”,选取IDF*log(IDF)结果值最小的观点“不要吃凉性、辛辣食物”作为该观点簇的归一化观点。
方式C、计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重值,将权重值最高的观点作为所述归一化观点;
方式D、将符合预设句型的观点中的一个作为所述归一化观点。
530、根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
本实施例的技术方案,在从问答对资源中获取问题对应的观点,也即从海量的问答对资源中得到问题对应的简短观点之后,通过观点相似度将问题所对应的观点进行聚合,得到问题对应的多个观点簇,并通过从每个观点簇中分别确定一个归一化观点,能够得到问题对应的所有归一化观点的集合,从而能够建立问题观点库。
请参阅图5b,作为基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇的一种优选的实施方式,具体包括:
511、将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量对应的IDF;
本操作具体是将观点转换为词向量,并确定词向量的IDF。
其中,将观点按基本词粒度转化为词向量,是将观点拆分为基本词。例如将观点“建议你不要乱用药”按基本词粒度转化,可以得到5个词向量,分别为“建议”、“你”、“不要”、“乱”以及“用药”。
将观点按基本词粒度和混排粒度转化为词向量,是基于基本词向量、以及基本词向量与相邻词向量的关联关系将观点进行拆分。例如将观点“建议你不要乱用药”按基本词粒度和混排粒度转化,可以得到4个词向量,分别为“建议”、“你”、“不要”、以及“乱用药”。
需要说明的是,基本词粒度和/或混排粒度是预先设定的,例如可以通过查询基本词词库和/或混排库确定相应的粒度。
观点包含的词向量对应的IDF为词向量在问题对应的答案文档中的出现频次的倒数。
512、将相邻词为否定词的词向量的IDF提高;
本操作具体是根据转化后的词向量的相邻词的词性,对词向量的IDF进行调整。
例如,观点“建议你不要乱用药”包含的“建议”、“你”、“不要”、以及“乱用药”4个词向量中,词向量“乱用药”相邻的词向量“不要”为否定词,则提高词向量“乱用药”的IDF。
513、将所述IDF高于第五门限值的词向量作为核心词向量;
本操作具体是根据词向量的IDF值确定核心词向量。优选地,将所述IDF最高的词向量作为核心词向量,也即一个观点中的核心词向量的数量为1。
核心词向量代表该词向量所属的观点的核心语义。
以观点“建议你不要乱用药”为例,由于观点包含的词向量对应的IDF为词向量在问题对应的答案文档中的出现频次的倒数,在所述答案文档中,词向量“建议”、“你”和“不要”的出现频次都比较高,对应的IDF较低;而词向量“乱用药”的出现频次较低,对应的IDF较高,而且通过操作512之后,进一步提高了词向量“乱用药”的IDF,因此在该观点包含的4个词向量中,词向量“乱用药”的IDF最高,因此将词向量“乱用药”确定为观点“建议你不要乱用药”的核心词向量。
类似地,可以得到观点“不可以自行用药”中的核心词向量为“自行用药”;观点“不宜乱服用药”中的核心词向量为“乱服用药”;观点“建议多休息”中的核心词向量为“多休息”;观点“保证充足休息”中的核心词向量为“休息”。
514、计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
本操作具体是确定同一个问题对应的一个观点中的核心词向量与该问题对应的另一个观点中的核心词向量的相似度,将相似度满足预设条件的核心词向量所属的观点进行聚合,从而得到一个问题对应的多个观点簇。
本操作采用cos夹角来衡量一个问题对应的多个观点中的任意两个核心词向量的距离,cos夹角越小,代表两个核心词向量的距离越近,即相似度越高,基于一个问题包含的观点中任意两个核心词向量的cos夹角,从而可以得到该问题包含的观点之间的相似度。
仍以上述操作中的实例进行说明。例如,经统计问题“头晕怎么办”对应的观点有5个,分别为“建议你不要乱用药”、“不可以自行用药”、“不宜乱服用药”、“建议多休息”以及“保证充足休息”,对应的核心词向量分别为“乱用药”、“自行用药”、“乱服用药”、“多休息”以及“休息”。通过本操作,得到核心词向量“乱用药”、“自行用药”和“乱用药”中的任意两个的cos夹角符合设定条件,因此可以将观点“建议你不要乱用药”、“不可以自行用药”和“不宜乱服用药”聚合,得到第一观点簇。类似地,可以将观点“建议多休息”以及“保证充足休息”聚合,得到第二观点簇。
本优选的实施方式,通过将观点转化为词向量,并根据词向量的IDF得到观点中核心词向量,然后通过同一个问题对应的一个观点中的核心词向量与该问题对应的另一个观点中的核心词向量的cos夹角,得到一个问题对应的观点中的任意两个观点之间的相似度,将相似度满足预设条件的核心词向量所属的观点进行聚合,从而能够得到一个问题对应的多个观点簇。
作为基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇的另一种优选的实施方式,具体包括:
计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的观点聚合到一个观点簇中。
与上述实施方式的区别在于,本实施例方式通过语义相似度确定观点相似度,然后将符合相似度条件的观点进行聚合,而上述实施方式基于观点中核心词向量的cos夹角确定观点相似度,然后将符合相似度条件的核心词向量所属的观点进行聚合。
实施例六
请参阅图6,为本发明实施例六提供的一种观点处理方法的流程图。该方法包括:
610、基于预设策略,从问答对资源中获取问题对应的观点;
本操作同样适用于实施例二中操作210、操作220和操作230提供的观点获取操作,此处不再赘述。
620、根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点;
其中,所述观点排序策略至少包括下述一项:
基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距离进行排序;
根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
根据观点在答案中的出现频次进行排序。
需要说明的是,本领域的技术人员可以通过设定的核心词确定策略,得到查询式中的核心词,例如将查询式按基本词粒度转化为词向量,并计算查询式包含的词向量的IDF,基于所述IDF,确定查询式中的核心词。
630、将问题所对应的观点进行聚合,形成问题观点库。
本操作同样适用于前述实施例中操作510、操作520和操作530提供的观点聚合操作,此处不再赘述。
本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的问答对资源中得到问题对应的简短观点,并通过观点排序,能够得到问题对应的观点的用户支持率,进一步提高了观点的可信度和观点质量,然后通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
实施例七
请参阅图7,为本发明实施例七提供的一种观点处理装置的结构示意图。该装置包括:观点获取模块710、问题观点库形成模块720。
其中,观点获取模块710用于基于预设策略,从问答对资源中获取问题对应的观点;问题观点库形成模块720用于将问题所对应的观点进行聚合,形成问题观点库。
本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
在上述方案中,观点获取模块710优选包括:观点片段确定单元、观点确定单元和垃圾观点清除单元。
其中,观点片段确定单元用于基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;观点确定单元用于基于预设观点验证策略,确定所述观点片段中的观点;垃圾观点清除单元用于基于预设观点清除策略,从确定的观点中清除垃圾观点。
在上述方案中,观点片段确定单元优选包括:分句确定子单元和分句匹配子单元。
其中,分句确定子单元用于对问答对资源中的答案进行预处理,确定答案所包含的分句;分句匹配子单元用于将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段。
进一步地,观点片段确定单元还可以包括:扩展观点定位模板获取子单元和扩展观点定位模板存储子单元。
其中,扩展观点定位模板获取子单元用于在将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段之后,选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模板;扩展观点定位模板存储子单元用于如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定位模板存储到设定观点定位模板中。
在上述方案中,观点确定单元优选包括下述至少一项:第一观点确定子单元、第二观点确定子单元和第三观点确定子单元。
其中,第一观点确定子单元用于利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观点片段作为观点;第二观点确定子单元用于对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点;第三观点确定子单元用于将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于第二门限值。
在上述方案中,垃圾观点清除单元优选包括下述至少一项:第一垃圾观点清除子单元和第二垃圾观点清除子单元。
其中,第一垃圾观点清除子单元用于将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限值的查询式中的观点;第二垃圾观点清除子单元用于确定所述观点在问答对资源中的逆文档频率IDF,过滤掉所述IDF高于第四门限值的观点。
在上述方案中,问题观点库形成模块720优选包括:观点簇获取单元、归一化单元和问题观点库形成单元。
其中,观点簇获取单元用于基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇;归一化单元用于基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应的归一化观点集合;问题观点库形成单元用于根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
作为观点簇获取单元的一种优选实施方式,该单元优选包括:词向量IDF确定子单元、词向量IDF处理子单元、核心词向量确定子单元和第一计算子单元。
其中,词向量IDF确定子单元用于将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量对应的IDF;词向量IDF处理子单元用于将相邻词为否定词的词向量的IDF提高;核心词向量确定子单元用于将所述IDF高于第五门限值的词向量作为核心词向量;第一计算子单元用于计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
作为观点簇获取单元的另一优选实施方式,该单元包括:第二计算子单元,用于计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的观点聚合到一个观点簇中。
在上述方案中,归一化单元优选包括下述至少一项:第一归一化子单元、第二归一化子单元、第二归一化子单元和第四归一化子单元。
其中,第一归一化子单元用于根据观点中信息的覆盖率确定归一化观点;第二归一化子单元用于计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述归一化观点;第二归一化子单元用于计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重值,将权重值最高的观点作为所述归一化观点;第四归一化子单元用于将符合预设句型的观点中的一个作为所述归一化观点。
作为本实施例的再一种优选的实施方式,该装置还包括:观点排序模块,用于在基于预设策略,从问答对资源中获取问题对应的观点之后,根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点;
其中,所述观点排序策略至少包括下述一项:
基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距离进行排序;
根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
根据观点在答案中的出现频次进行排序。
本发明实施例提供的观点处理装置可执行本发明任意实施例所提供的观点处理方法,具备执行方法相应的功能模块和有益效果。
实施例八
请参阅图8a,为本发明实施例八提供的一种搜索方法的流程图。本发明实施例的方法可以由硬件和/或软件实现的搜索装置来执行,该实现装置典型的是配置于能够提供搜索服务的服务器中,例如配置在搜索引擎中。
如图8a所示,该方法包括:
810、获取用户通过搜索框输入的检索式;
820、在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本发明任意实施例提供的观点处理方法形成;
830、显示所述观点。
本操作中显示所述观点可以有多种实施方式,例如包括下述实施方式中的至少一种:
方式一、将预设数量的观点组成观点列表,进行显示;
下面结合图8b进行说明。用户通过百度知道的搜索框输入的问题检索式为“鼻炎的症状”,采用观点列表的形式进行显示,观点列表中包括5个观点,分别为“鼻塞”、“流鼻涕”、“打喷嚏”、“呼吸不畅”和“鼻痒”,5个观点根据提到次数从高到底进行显示。
需要说明的是,采用观点列表的形式直观地展现出了与用户输入的问题检索式密切相关的多个观点结果。
方式二、将观点以及观点对应的答案组成观点列表,进行显示;
下面结合图8c进行说明。用户通过百度网页的搜索框输入的问题检索式为“刚刚怀孕吃吃母乳后吃奶粉拉肚子”,观点显示页面不仅显示观点“母乳性腹泻”并且还显示该观点对应的权威答案,此外,还显示观点“消化不良”以及对应的权威答案。
需要说明的是,该观点显示页面显示的权威答案为观点所属的答案内容的部分摘要,当用户点击该观点显示页面的“查看详情”时,执行页面跳转操作,从而用户可以查看完整的答案内容。
方式三、将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
下面结合图8d进行说明。用户通过百度知道的搜索框输入的问题检索式为“鼻炎的症状”,采用观点标签的形式进行显示,包括8个观点标签,分别为“全部(77608)”、“鼻塞(329)”、“咳嗽(2018)”、“打喷嚏(2886)”、“头疼(2389)”、“眼花(736)”、“鼻痒(193)”和“嗓子干(1635)”。
其中,观点标签“全部(77608)”为观点统计标签,不提供观点,而是提供观点统计数量。除观点标签“全部(77608)”之外的其他7个观点标签,一方面提供观点,另一方面提供观点的权重,例如被提到次数。需要说明的是,所述7个观点标签仅为全部观点中的权重较高的观点,全部观点中还可以包括“流鼻涕”或“呼吸不畅”以及其他观点,而这些权重值较低的观点在该观点显示页面中未显示。
还需要说明的是,如果获取到观点标签的选择操作,则显示与观点对应的答案。图8d为获取到观点标签“全部(77608)”的选择操作时的显示结果。
本实施例的技术方案,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户输入的检索式,能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。
实施例九
请参阅图9,为本发明实施例九提供的一种搜索装置的结构示意图,该装置包括:检索式获取模块910、观点查找模块920和观点显示模块930。
其中,检索式获取模块910用于获取用户通过搜索框输入的检索式;观点查找模块920用于在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本发明任意实施例提供的观点处理装置形成;观点显示模块930用于显示所述观点。
本实施例的技术方案,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户输入的检索式,能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。
在上述方案中,观点显示模块930优选包括下述至少一项:第一显示单元、第二显示单元和第三显示单元。
其中,第一显示单元用于将预设数量的观点组成观点列表,进行显示;第二显示单元用于将观点以及观点对应的答案组成观点列表,进行显示;第三显示单元用于将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
本发明实施例提供的搜索装置可执行本发明任意实施例所提供的搜索方法,具备执行方法相应的功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (26)
1.一种观点处理方法,其特征在于,包括:
基于预设策略,从问答对资源中获取问题对应的观点;
将问题所对应的观点进行聚合,形成问题观点库。
2.根据权利要求1所述的方法,其特征在于,基于预设策略,从问答对资源中获取问题对应的观点,包括:
基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;
基于预设观点验证策略,确定所述观点片段中的观点;
基于预设观点清除策略,从确定的观点中清除垃圾观点。
3.根据权利要求2所述的方法,其特征在于,基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段,包括:
对问答对资源中的答案进行预处理,确定答案所包含的分句;
将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段。
4.根据权利要求3所述的方法,其特征在于,在将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段之后,还包括:
选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模板;
如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定位模板存储到设定观点定位模板中。
5.根据权利要求2所述的方法,其特征在于,基于预设观点验证策略,确定所述观点片段中的观点,包括下述至少一项:
利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观点片段作为观点;
对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点;
将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于第二门限值。
6.根据权利要求2所述的方法,其特征在于,基于预设观点清除策略,从确定的观点中清除垃圾观点包括下述至少一项:
将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限值的查询式中的观点;
确定所述观点在问答对资源中的逆文档频率IDF,过滤掉所述IDF高于第四门限值的观点。
7.根据权利要求1所述的方法,其特征在于,将问题所对应的观点进行聚合,形成问题观点库,包括:
基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇;
基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应的归一化观点集合;
根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
8.根据权利要求7所述的方法,其特征在于,基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇,包括:
将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量对应的IDF;
将相邻词为否定词的词向量的IDF提高;
将所述IDF高于第五门限值的词向量作为核心词向量;
计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
9.根据权利要求7所述的方法,其特征在于,基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇,包括:
计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的观点聚合到一个观点簇中。
10.根据权利要求7所述的方法,其特征在于,基于预设观点归一化策略,从观点簇中确定一个归一化观点,包括下述至少一项:
根据观点中信息的覆盖率确定归一化观点;
计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述归一化观点;
计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重值,将权重值最高的观点作为所述归一化观点;
将符合预设句型的观点中的一个作为所述归一化观点。
11.根据权利要求1-10任一所述的方法,其特征在于,在基于预设策略,从问答对资源中获取问题对应的观点之后,还包括:
根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点;
其中,所述观点排序策略至少包括下述一项:
基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距离进行排序;
根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
根据观点在答案中的出现频次进行排序。
12.一种观点处理装置,其特征在于,包括:
观点获取模块,用于基于预设策略,从问答对资源中获取问题对应的观点;
问题观点库形成模块,用于将问题所对应的观点进行聚合,形成问题观点库。
13.根据权利要求12所述的装置,其特征在于,观点获取模块包括:
观点片段确定单元,用于基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段;
观点确定单元,用于基于预设观点验证策略,确定所述观点片段中的观点;
垃圾观点清除单元,用于基于预设观点清除策略,从确定的观点中清除垃圾观点。
14.根据权利要求13所述的装置,其特征在于,观点片段确定单元包括:
分句确定子单元,用于对问答对资源中的答案进行预处理,确定答案所包含的分句;
分句匹配子单元,用于将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段。
15.根据权利要求14所述的装置,其特征在于,观点片段确定单元还包括:
扩展观点定位模板获取子单元,用于在将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观点片段之后,选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模板;
扩展观点定位模板存储子单元,用于如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定位模板存储到设定观点定位模板中。
16.根据权利要求13所述的装置,其特征在于,观点确定单元包括下述至少一项:
第一观点确定子单元,用于利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观点片段作为观点;
第二观点确定子单元,用于对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点;
第三观点确定子单元,用于将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于第二门限值。
17.根据权利要求13所述的装置,其特征在于,垃圾观点清除单元包括下述至少一项:
第一垃圾观点清除子单元,用于将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限值的查询式中的观点;
第二垃圾观点清除子单元,用于确定所述观点在问答对资源中的逆文档频率IDF,过滤掉所述IDF高于第四门限值的观点。
18.根据权利要求12所述的装置,其特征在于,问题观点库形成模块包括:
观点簇获取单元,用于基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇;
归一化单元,用于基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应的归一化观点集合;
问题观点库形成单元,用于根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
19.根据权利要求18所述的装置,其特征在于,观点簇获取单元包括:
词向量IDF确定子单元,用于将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量对应的IDF;
词向量IDF处理子单元,用于将相邻词为否定词的词向量的IDF提高;
核心词向量确定子单元,用于将所述IDF高于第五门限值的词向量作为核心词向量;
第一计算子单元,用于计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
20.根据权利要求18所述的装置,其特征在于,观点簇获取单元包括:
第二计算子单元,用于计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的观点聚合到一个观点簇中。
21.根据权利要求18所述的装置,其特征在于,归一化单元包括下述至少一项:
第一归一化子单元,用于根据观点中信息的覆盖率确定归一化观点;
第二归一化子单元,用于计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述归一化观点;
第三归一化子单元,用于计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重值,将权重值最高的观点作为所述归一化观点;
第四归一化子单元,用于将符合预设句型的观点中的一个作为所述归一化观点。
22.根据权利要求12-21任一所述的装置,其特征在于,该装置还包括:
观点排序模块,用于在基于预设策略,从问答对资源中获取问题对应的观点之后,根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点;
其中,所述观点排序策略至少包括下述一项:
基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排序;
确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距离进行排序;
根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
根据观点在答案中的出现频次进行排序。
23.一种搜索方法,其特征在于,包括:
获取用户通过搜索框输入的检索式;
在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用权利要求1-11任一所述的观点处理方法形成;
显示所述观点。
24.根据权利要求23所述的方法,其特征在于,显示所述观点,包括:
将预设数量的观点组成观点列表,进行显示;或
将观点以及观点对应的答案组成观点列表,进行显示;或
将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
25.一种搜索装置,其特征在于,包括:
检索式获取模块,用于获取用户通过搜索框输入的检索式;
观点查找模块,用于在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用权利要求12-22任一所述的观点处理装置形成;
观点显示模块,用于显示所述观点。
26.根据权利要求25所述的装置,其特征在于,观点显示模块包括:
第一显示单元,用于将预设数量的观点组成观点列表,进行显示;或
第二显示单元,用于将观点以及观点对应的答案组成观点列表,进行显示;或
第三显示单元,用于将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410319166.XA CN104063497B (zh) | 2014-07-04 | 2014-07-04 | 观点处理方法和装置以及搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410319166.XA CN104063497B (zh) | 2014-07-04 | 2014-07-04 | 观点处理方法和装置以及搜索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063497A true CN104063497A (zh) | 2014-09-24 |
CN104063497B CN104063497B (zh) | 2018-03-06 |
Family
ID=51551211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410319166.XA Active CN104063497B (zh) | 2014-07-04 | 2014-07-04 | 观点处理方法和装置以及搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063497B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104881446A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN104933097A (zh) * | 2015-05-27 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 一种用于检索的数据处理方法和装置 |
CN105956181A (zh) * | 2016-05-31 | 2016-09-21 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106168962A (zh) * | 2016-06-30 | 2016-11-30 | 北京奇虎科技有限公司 | 基于自然搜索结果提供精确观点的搜索方法及装置 |
CN106777236A (zh) * | 2016-12-27 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于深度问答的查询结果的展现方法和装置 |
CN108804467A (zh) * | 2017-05-04 | 2018-11-13 | 上海颐为网络科技有限公司 | 图书多维阅读系统 |
CN108932289A (zh) * | 2018-05-23 | 2018-12-04 | 北京华建蓝海科技有限责任公司 | 一种基于信息抽取和深度学习的问题回答处理方法及系统 |
CN112905766A (zh) * | 2021-02-09 | 2021-06-04 | 长沙冉星信息科技有限公司 | 一种在主观答题文本中抽取核心观点的方法 |
US11144594B2 (en) | 2017-03-31 | 2021-10-12 | Beijing Sankuai Online Technology Co., Ltd | Search method, search apparatus and non-temporary computer-readable storage medium for text search |
CN114090746A (zh) * | 2021-10-09 | 2022-02-25 | 北京百分点科技集团股份有限公司 | 一种基于知识图谱的答案查询方法、装置及电子设备 |
WO2022267658A1 (zh) * | 2021-06-22 | 2022-12-29 | 北京字节跳动网络技术有限公司 | 内容搜索方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174259A (zh) * | 2007-09-17 | 2008-05-07 | 张琰亮 | 一种智能互动式问答系统 |
CN102637192A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种自然语言问答的方法 |
CN102903008A (zh) * | 2011-07-29 | 2013-01-30 | 国际商业机器公司 | 用于计算机问答的方法及系统 |
CN102902720A (zh) * | 2012-09-04 | 2013-01-30 | 昆山市万丰制衣有限责任公司 | 一种教学答疑方法 |
US20130263230A1 (en) * | 2012-03-30 | 2013-10-03 | Anchorfree Inc. | Method and system for statistical access control with data aggregation |
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
-
2014
- 2014-07-04 CN CN201410319166.XA patent/CN104063497B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174259A (zh) * | 2007-09-17 | 2008-05-07 | 张琰亮 | 一种智能互动式问答系统 |
CN102903008A (zh) * | 2011-07-29 | 2013-01-30 | 国际商业机器公司 | 用于计算机问答的方法及系统 |
CN102637192A (zh) * | 2012-02-17 | 2012-08-15 | 清华大学 | 一种自然语言问答的方法 |
US20130263230A1 (en) * | 2012-03-30 | 2013-10-03 | Anchorfree Inc. | Method and system for statistical access control with data aggregation |
CN102902720A (zh) * | 2012-09-04 | 2013-01-30 | 昆山市万丰制衣有限责任公司 | 一种教学答疑方法 |
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
Non-Patent Citations (3)
Title |
---|
梁正平 等: "基于语义模板的问答系统研究", 《深圳大学学报(理工版)》 * |
范颖婷: ""面向金融问答的论坛观点挖掘"", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 * |
董燕举 等: "面向事实性问题的答案选择技术研究综述", 《中文信息学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462363A (zh) * | 2014-12-08 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 评论点的展现方法和装置 |
CN104881446A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN104933097A (zh) * | 2015-05-27 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 一种用于检索的数据处理方法和装置 |
CN104933097B (zh) * | 2015-05-27 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 一种用于检索的数据处理方法和装置 |
CN105956181A (zh) * | 2016-05-31 | 2016-09-21 | 北京百度网讯科技有限公司 | 搜索方法及装置 |
CN106168962B (zh) * | 2016-06-30 | 2020-02-21 | 北京奇虎科技有限公司 | 基于自然搜索结果提供精确观点的搜索方法及装置 |
CN106168962A (zh) * | 2016-06-30 | 2016-11-30 | 北京奇虎科技有限公司 | 基于自然搜索结果提供精确观点的搜索方法及装置 |
CN106777236A (zh) * | 2016-12-27 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于深度问答的查询结果的展现方法和装置 |
US20180181574A1 (en) * | 2016-12-27 | 2018-06-28 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for displaying query results based on deep question and answer |
US11334572B2 (en) * | 2016-12-27 | 2022-05-17 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for displaying query results based on deep question and answer |
US11144594B2 (en) | 2017-03-31 | 2021-10-12 | Beijing Sankuai Online Technology Co., Ltd | Search method, search apparatus and non-temporary computer-readable storage medium for text search |
CN108804467A (zh) * | 2017-05-04 | 2018-11-13 | 上海颐为网络科技有限公司 | 图书多维阅读系统 |
CN108932289A (zh) * | 2018-05-23 | 2018-12-04 | 北京华建蓝海科技有限责任公司 | 一种基于信息抽取和深度学习的问题回答处理方法及系统 |
CN112905766A (zh) * | 2021-02-09 | 2021-06-04 | 长沙冉星信息科技有限公司 | 一种在主观答题文本中抽取核心观点的方法 |
WO2022267658A1 (zh) * | 2021-06-22 | 2022-12-29 | 北京字节跳动网络技术有限公司 | 内容搜索方法、装置、设备及介质 |
CN114090746A (zh) * | 2021-10-09 | 2022-02-25 | 北京百分点科技集团股份有限公司 | 一种基于知识图谱的答案查询方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104063497B (zh) | 2018-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104063497A (zh) | 观点处理方法和装置以及搜索方法和装置 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
US10565533B2 (en) | Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches | |
Arasu et al. | Extracting structured data from web pages | |
US20180268038A1 (en) | Systems and Methods for Similarity and Context Measures for Trademark and Service Mark Analysis and Repository Searches | |
CN108121829A (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
CN105279252A (zh) | 挖掘相关词的方法、搜索方法、搜索系统 | |
CN103902652A (zh) | 自动问答系统 | |
CN103823824A (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
US20150006528A1 (en) | Hierarchical data structure of documents | |
CN104063387A (zh) | 在文本中抽取关键词的装置和方法 | |
US20150081654A1 (en) | Techniques for Entity-Level Technology Recommendation | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
CN102236654A (zh) | 基于内容相关性的Web无效链接过滤方法 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
WO2017000659A1 (zh) | 一种富集化url的识别方法和装置 | |
Ritze | Web-scale web table to knowledge base matching | |
Medelyan | Automatic keyphrase indexing with a domain-specific thesaurus | |
WO2019222787A1 (en) | A computer implemented method and a computer system for determining a set of citations related to an electronic document edited by a user on a computing device | |
JP2006529044A (ja) | 定義付けシステムおよび方法 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |