CN104714954A - 基于上下文理解的信息搜索方法和系统 - Google Patents

基于上下文理解的信息搜索方法和系统 Download PDF

Info

Publication number
CN104714954A
CN104714954A CN201310681977.XA CN201310681977A CN104714954A CN 104714954 A CN104714954 A CN 104714954A CN 201310681977 A CN201310681977 A CN 201310681977A CN 104714954 A CN104714954 A CN 104714954A
Authority
CN
China
Prior art keywords
expression formula
search expression
user
current search
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310681977.XA
Other languages
English (en)
Inventor
杨震
柯卫
夏艳
王建青
罗晓东
熊静
王桢
俞惠华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201310681977.XA priority Critical patent/CN104714954A/zh
Publication of CN104714954A publication Critical patent/CN104714954A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开一种基于上下文理解的信息搜索方法和系统。其中在信息搜索方法中,在与用户的会话过程中,当接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式,利用当前搜索表达式在网络中进行搜索,判断当前搜索结果是否达到相应的置信度,若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户,若当前搜索结果没有达到相应的置信度,则利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式,然后重复执行利用当前搜索表达式在网络中进行搜索。通过针对对话语境,基于会话的上下文理解进行信息搜索,解决用户搜索表达不准、节约用户重复输入类似问题的问题,提高了用户体验。

Description

基于上下文理解的信息搜索方法和系统
技术领域
本发明涉及通信领域,特别涉及一种基于上下文理解的信息搜索方法和系统。
背景技术
搜索是指根据一定的策略、运用特定的计算机程序从互联网上搜集与用户检索信息相关的信息。由于互联网上具有海量信息,因此若搜索表达式不完整,则往往会得到大量的无关结果。因此需要用户输入完整的搜索表达式,才有可能得到所期望的结果。
例如,在诸如呼叫中心的服务环境下,当用户向服务平台提供搜索信息,服务平台根据用户提供的搜索信息进行搜索,并将搜索结果发送给用户。若用户询问北京明天的天气如何,服务平台会搜索北京明天的天气状况,并将搜索结果发送给用户。若用户接着询问上海明天的天气如何,服务平台会搜索上海明天的天气状况,并将搜索结果发送给用户。但用户往往不会这样表达,在询问北京明天的天气后而仅简单地询问:上海呢?此时服务平台若仅针对用户该询问信息进行搜索,无法搜索到用户所希望的信息。
发明内容
本发明实施例提供一种基于上下文理解的信息搜索方法和系统。通过基于会话的上下文理解进行信息搜索,从而可实现智能搜索,解决了用户搜索表达不准、节约用户重复输入类似问题的问题,提高了用户体验。
根据本发明的一个方面,提供一种基于上下文理解的信息搜索方法,包括:
在与用户的会话过程中,当接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式;
利用当前搜索表达式在网络中进行搜索;
判断当前搜索结果是否达到相应的置信度;
若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户;
若当前搜索结果没有达到相应的置信度,则提取用户的历史会话记录;
利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式;
然后执行利用当前搜索表达式在网络中进行搜索的步骤。
优选的,利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的步骤包括:
利用用户的历史会话记录,重新确定搜索表达概念;
根据重新确定的搜索表达概念,对当前搜索表达式进行扩展;
将扩展后的搜索表达式作为当前搜索表达式。
优选的,若当前搜索结果没有达到相应的置信度,还包括:
判断搜索次数是否小于预定的搜索次数阈值;
若搜索次数小于预定的搜索次数阈值,则执行提取用户的历史会话记录的步骤;
若搜索次数不小于预定的搜索次数阈值,则将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
优选的,利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的步骤后,还包括:
判断当前搜索表达式的扩展度是否大于预定的扩展阈值;
若当前搜索表达式的扩展度不大于预定的扩展阈值,则执行利用当前搜索表达式在网络中进行搜索的步骤;
若当前搜索表达式的扩展度大于预定的扩展阈值,则将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
优选的,用户提供的会话信息为文本信息或语音信息;
当接收到用户提供的会话信息为语音信息时,利用会话信息生成当前搜索表达式的步骤包括:
对语音信息进行识别,以得到语音识别信息;
利用用户会话的上下文确定搜索表达概念;
利用搜索表达概念和语音识别信息生成当前搜索表达式。
根据本发明的另一方面,提供一种基于上下文理解的信息搜索系统,包括接收单元、搜索表达式生成单元、搜索单元、第一识别单元、发送单元、提取单元和表达式扩展单元,其中:
接收单元,用于在与用户的会话过程中接收用户提供的会话信息;
搜索表达式生成单元,用于当接收单元接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式;
搜索单元,用于利用当前搜索表达式在网络中进行搜索;
第一识别单元,用于判断当前搜索结果是否达到相应的置信度;
发送单元,用于根据第一识别单元的判断结果,若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户;
提取单元,用于根据第一识别单元的判断结果,若当前搜索结果没有达到相应的置信度,则提取用户的历史会话记录;
表达式扩展单元,用于利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式;然后指示搜索单元执行利用当前搜索表达式在网络中进行搜索的操作。
优选的,表达式扩展单元具体包括概念确定模块、扩展模块和更新模块,其中:
概念确定模块,用于利用用户的历史会话记录,重新确定搜索表达概念;
扩展模块,用于根据重新确定的搜索表达概念,对当前搜索表达式进行扩展;
更新模块,用于将扩展后的搜索表达式作为当前搜索表达式。
优选的,上述系统还包括第二识别单元,其中:
第二识别单元,用于根据第一识别单元的判断结果,若当前搜索结果没有达到相应的置信度,判断搜索次数是否小于预定的搜索次数阈值;若搜索次数小于预定的搜索次数阈值,则指示提取单元执行提取用户的历史会话记录的操作;若搜索次数不小于预定的搜索次数阈值,则指示发送单元将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
优选的,上述系统还包括第三识别单元,其中:
第三识别单元,用于表达式扩展单元在利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的操作后,判断当前搜索表达式的扩展度是否大于预定的扩展阈值;若当前搜索表达式的扩展度不大于预定的扩展阈值,则指示搜索单元执行利用当前搜索表达式在网络中进行搜索的操作;若当前搜索表达式的扩展度大于预定的扩展阈值,则指示发送单元将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
优选的,用户提供的会话信息为文本信息或语音信息;
搜索表达式生成单元还用于当接收到用户提供的会话信息为语音信息时,对语音信息进行识别,以得到语音识别信息,利用用户会话的上下文确定搜索表达概念,利用搜索表达概念和语音识别信息生成当前搜索表达式。
本发明通过针对对话语境,基于会话的上下文理解进行信息搜索,从而可实现智能搜索,解决了用户搜索表达不准、节约用户重复输入类似问题的问题,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明信息搜索方法一个实施例的示意图。
图2为本发明搜索表达式扩展一个实施例的示意图。
图3为本发明信息搜索方法另一实施例的示意图。
图4为本发明信息搜索系统一个实施例的示意图。
图5为本发明信息搜索系统另一实施例的示意图。
图6为本发明表达式扩展单元一个实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本发明信息搜索方法一个实施例的示意图。如图1所示,本实施例的方法步骤如下:
步骤101,在与用户的会话过程中,当接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式。
优选的,用户提供的会话信息为文本信息或语音信息。
当接收到用户提供的会话信息为语音信息时,对语音信息进行识别,以得到语音识别信息,利用用户会话的上下文确定搜索表达概念,利用搜索表达概念和语音识别信息生成当前搜索表达式。
其中,语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。首先通过特征提取技术、模式匹配技术,识别出特定的声学模型;然后通过模型训练形成一定的语言模型。在实现过程中,在声学模型和语言模型组成的空间进行快速寻优,实现对语音信号的文字转变。
语义理解技术是对文本形式的信息表达进行针对的理解,理解以文本表达信息的准确含义,以便相应的系统可以根据理解结果进行后续动作操作执行。
由于语音识别和语义理解是本领域技术人员常用的技术手段,因此这里不展开描述。
另外需要说明的是,考虑到在进行语音识别时会产生同音词,而同音词的出现往往会对搜索造成干扰。例如当用户询问北京明天天气如何时,“北京”和“背景”同音,显然利用“背景”来生成搜索表达式,无法得到用户所希望的结果。为此,本发明通过利用确定的搜索表达概念,对语音识别信息中可能出现的错误信息进行纠正,根据搜索表达概念修正语音识别信息中不准确的部分,例如可对同音词进行修正,从而有助于搜索表达式的形成。在上述示例中,由于用户询问的是天气,因此应确定识别的信息应与地面相关,从而确定识别信息为“北京”而非“背景”。同时,通过利用搜索表达概念,可根据信息资源的情况,采用信息资源内的信息表达进行搜索,从而实现近义词或同义词的搜索。
步骤102,利用当前搜索表达式在网络中进行搜索。
步骤103,判断当前搜索结果是否达到相应的置信度。若当前搜索结果达到相应的置信度,则执行步骤104;若当前搜索结果没有达到相应的置信度,则执行步骤105。
步骤104,将当前搜索结果提供给用户。之后,不再执行本实施例的其它步骤。
步骤105,提取用户的历史会话记录。
步骤106,利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式。然后执行步骤102。
基于本发明上述实施例提供的基于上下文理解的信息搜索方法,通过针对对话语境,基于会话的上下文理解进行信息搜索,从而可实现智能搜索,解决了用户搜索表达不准、节约用户重复输入类似问题的问题,提高了用户体验。
这里需要说明的是,在本发明中置信度是一种综合的计算方法,即系统判断搜索结果是否是用户需要答案的概率,或是系统判断是否可以把答案提供给用户的概率。考虑以下因素综合给出:1、搜索表达式与后台结果的语义相关程度。2、搜索结果的个数。
1、语义相关程度,在信息检索领域有多种计算方法。例如计算搜索表达式词向量,与搜索结果形成的词向量之间的关系,这种关系有多种公式可以应用,如可以计算两个向量的夹角。也可以采用欧式语义距离等语义距离的计算公式得出;采用词和类别的互信息量、词汇和类别之间的x2-统计量、词熵等。也可以采用其他算法,如计算词频,词与词之间的位置关系等模型;还可以采用人工智能的其他算法,如抽象成概念网络、神经网络模型等的计算方法;还可以利用最新的自然语言理解的研究结果,如基于本体论的语义相似度计算方法等。
2、搜索结果的个数。
因为自然语言理解是一个复杂的过程,而且给用户提供服务的界面有可能不能展现多个结果,因此1个或是有限的几个结果,可能更符合用户的使用需求和习惯。当获得达到语义相似度一定门槛值之上的很多结果时,往往不能满足用户要求。因此需要再次迭代搜索,以达到一定门槛值的有限个数。我们认为有限的结果,在某些场景下更符合用户要求。
图2为本发明搜索表达式扩展一个实施例的示意图。如图2所示,上述步骤106可具体为:
步骤201,利用用户的历史会话记录,重新确定搜索表达概念。
例如,通过采用分词、去重、语义提取等方法与概念网络的方法结合,联合确定新的搜索表达概念。
步骤202,根据重新确定的搜索表达概念,对当前搜索表达式进行扩展。
当搜索表达概念确定之后,进行搜索表达元素的同义词、近义词扩展,或基于概念网络获得的服务内容相关知识进行表达扩展。
优选的,概念可以有多个,同一概念的表达式可以有多个。
在一个实施例中,如果用户提供的会话信息为语音信息时,还可以根据重新确定的搜索表达概念对语音信息的识别结果进行修改,使得语音识别结果能够符合所确定概念的表达。例如对同音词的进一步修正。
步骤203,将扩展后的搜索表达式作为当前搜索表达式。
这里需要说明的是,概念网络是一种高级自然语言处理技术,针对不同领域信息的特征、信息表达的特征,统计出针对这个领域的信息表达,并使信息表达之间产生某种关系。概念网络是在理论和实践的基础上对人工智能研究的一种表达,它从认知心理学的角度解释了思维活动的基础结构,提出了思维活动的心理模型假说。基本表达单元(概念可以是词、短语、同义词、近义词、类似短语、或集中几种形式的组合),关系包括这些基本表达单元之间的前后关系、指向关系、推理关系等。
概念网络依靠概念之间的各种关系形成语义主体相互作用的网络。从构造方式来说,概念网络本身是一个知识表达框架体系。概念网络的目标不仅仅是对高水平认知的某种侧面的描述,而是将认知、理解、推理和行为集成为一体,从而能指导智能系统对非预期行为进行预判和处理,因此概念网络也是一种认知体系结构。
应用概念网络的方法,同时对信息搜索结果置信度的判断,可以实现基于上下文的信息搜索及答案理解。
例如,通过与语音识别相结合,概念网络方法可以形成一种好的,可针对垂直领域进行实现的语言识别表达方式。其超越传统的语言模型构造方法,如概率统计方法,使得语音识别更具备针对性。同时,语音识别的结果也与信息服务系统的知识搜索结合更加紧密,可以再识别的过程中,不断的调整语音识别系统对于对话内容的理解,使得理解更具针对性。
图3为本发明信息搜索方法另一实施例的示意图。与图1所示实施例相比,在图3所示实施例中,进一步增加对搜索次数和扩展度的判断。
步骤301,在与用户的会话过程中,当接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式。
步骤302,利用当前搜索表达式在网络中进行搜索。
步骤303,判断当前搜索结果是否达到相应的置信度。若当前搜索结果达到相应的置信度,则执行步骤304;若当前搜索结果没有达到相应的置信度,则执行步骤305。
步骤304,将当前搜索结果提供给用户。之后,不再执行本实施例的其它步骤。
步骤305,判断搜索次数是否小于预定的搜索次数阈值。若搜索次数不小于预定的搜索次数阈值,则执行步骤306;若搜索次数小于预定的搜索次数阈值,则执行步骤307。
步骤306,将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。之后,不再执行本实施例的其它步骤。
若搜索次数过多,表明当前可能找不到用户所需要的信息。为了节省资源,并避免用户长时间等待,可适时终止搜索。
优选的,当将多个结果提供给用户时,可按置信度由高到低的顺序进行排列,从而提高用户体验。
步骤307,提取用户的历史会话记录。
步骤308,利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式。
步骤309,判断当前搜索表达式的扩展度是否大于预定的扩展阈值。若当前搜索表达式的扩展度不大于预定的扩展阈值,则执行步骤302;若当前搜索表达式的扩展度大于预定的扩展阈值,则执行步骤306。
随着循环次数的增加,搜索表达式的扩展度也随之增加。例如随着循环次数的增加,搜索表达式中包括的关键词和关键词之间的逻辑关系也随之增加,这就增加了搜索的系统开销。若搜索表达式的扩展度超过预定阈值,表明当前可能找不到用户所需要的信息。为了节省资源,并避免用户长时间等待,可适时终止搜索。
通过本发明,可以有效利用对话语境中的上下文理解,提高搜索准确度,并提高了用户体验。
例如,在背景技术部分给出的示例中,若用户询问北京明天的天气如何,服务平台会搜索北京明天的天气状况,并将搜索结果发送给用户。若用户接着询问:上海呢?服务平台此时仅针对“上海”进行搜索,必然无法得到用户希望的结果。根据本发明提供的方案,由于在历史会话记录中曾询问北京明天的天气,因此服务平台可将搜索表达式进行扩展,当将搜索表达式扩展为“上海+明天+天气”时,则可得到上海明天的天气状况。通过基于上下文理解,从而提高了搜索的针对性,使搜索结果更加准确。
图4为本发明信息搜索系统一个实施例的示意图。如图4所示,该系统包括接收单元401、搜索表达式生成单元402、搜索单元403、第一识别单元404、发送单元405、提取单元406和表达式扩展单元407。其中:
接收单元401,用于在与用户的会话过程中接收用户提供的会话信息。
搜索表达式生成单元402,用于当接收单元401接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式。
搜索单元403,用于利用当前搜索表达式在网络中进行搜索。
第一识别单元404,用于判断当前搜索结果是否达到相应的置信度。
发送单元405,用于根据第一识别单元404的判断结果,若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户。
提取单元406,用于根据第一识别单元404的判断结果,若当前搜索结果没有达到相应的置信度,则提取用户的历史会话记录。
表达式扩展单元407,用于利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式;然后指示搜索单元403执行利用当前搜索表达式在网络中进行搜索的操作。
基于本发明上述实施例提供的基于上下文理解的信息搜索系统,通过针对对话语境,基于会话的上下文理解进行信息搜索,从而可实现智能搜索,解决了用户搜索表达不准、节约用户重复输入类似问题的问题,提高了用户体验。
优选的,用户提供的会话信息为文本信息或语音信息。
搜索表达式生成单元402还用于当接收到用户提供的会话信息为语音信息时,对语音信息进行识别,以得到语音识别信息,利用用户会话的上下文确定搜索表达概念,利用搜索表达概念和语音识别信息生成当前搜索表达式。
在一个实施例中,可根据搜索表达概念修正语音识别信息中不准确的部分,例如可对同音词进行修正,从而有助于搜索表达式的形成。
图5为本发明信息搜索系统另一实施例的示意图。与图4所示实施例相比,在图5所示实施例中,该系统还包括第二识别单元501。其中:
第二识别单元501,用于根据第一识别单元404的判断结果,若当前搜索结果没有达到相应的置信度,判断搜索次数是否小于预定的搜索次数阈值;若搜索次数小于预定的搜索次数阈值,则指示提取单元406执行提取用户的历史会话记录的操作;若搜索次数不小于预定的搜索次数阈值,则指示发送单元405将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
优选的,该系统还包括第三识别单元502,用于表达式扩展单元407在利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的操作后,判断当前搜索表达式的扩展度是否大于预定的扩展阈值;若当前搜索表达式的扩展度不大于预定的扩展阈值,则指示搜索单元403执行利用当前搜索表达式在网络中进行搜索的操作;若当前搜索表达式的扩展度大于预定的扩展阈值,则指示发送单元405将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
图6为本发明表达式扩展单元一个实施例的示意图。如图6所示,表达式扩展单元407具体包括概念确定模块601、扩展模块602和更新模块603。其中:
概念确定模块601,用于利用用户的历史会话记录,重新确定搜索表达概念。
扩展模块602,用于根据重新确定的搜索表达概念,对当前搜索表达式进行扩展。
当搜索表达概念确定之后,可进行搜索表达元素的同义词、近义词扩展,或基于概念网络获得的服务内容相关知识进行表达扩展。
优选的,概念可以有多个,同一概念的表达式可以有多个。
在一个实施例中,如果用户提供的会话信息为语音信息时,还可以根据重新确定的搜索表达概念对语音信息的识别结果进行修改,使得语音识别结果能够符合所确定概念的表达。例如对同音词的进一步修正。
更新模块603,用于将扩展后的搜索表达式作为当前搜索表达式。
本发明可以应用在互联网及移动互联网、搜索引擎、呼叫中心、个人终端、手持终端的信息搜索理解相关技术服务领域。涉及在语音输入过程中、对话过程中,针对特定用户个人、对话过程的语音识别、语义理解、及相应服务领域的信息搜索、结果推荐。
同时,可以针对语音识别及信息搜索推荐的结果,优化概念网络中的概念特征表达,积累可用信息,使得语音识别针对特定领域的识别效果更好,同时识别结果的搜索结果更加准确。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种基于上下文理解的信息搜索方法,其特征在于,包括:
在与用户的会话过程中,当接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式;
利用当前搜索表达式在网络中进行搜索;
判断当前搜索结果是否达到相应的置信度;
若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户;
若当前搜索结果没有达到相应的置信度,则提取用户的历史会话记录;
利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式;
然后执行利用当前搜索表达式在网络中进行搜索的步骤。
2.根据权利要求1所述的方法,其特征在于,
利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的步骤包括:
利用用户的历史会话记录,重新确定搜索表达概念;
根据重新确定的搜索表达概念,对当前搜索表达式进行扩展;
将扩展后的搜索表达式作为当前搜索表达式。
3.根据权利要求1或2所述的方法,其特征在于,
若当前搜索结果没有达到相应的置信度,还包括:
判断搜索次数是否小于预定的搜索次数阈值;
若搜索次数小于预定的搜索次数阈值,则执行提取用户的历史会话记录的步骤;
若搜索次数不小于预定的搜索次数阈值,则将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
4.根据权利要求1或2所述的方法,其特征在于,
利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的步骤后,还包括:
判断当前搜索表达式的扩展度是否大于预定的扩展阈值;
若当前搜索表达式的扩展度不大于预定的扩展阈值,则执行利用当前搜索表达式在网络中进行搜索的步骤;
若当前搜索表达式的扩展度大于预定的扩展阈值,则将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
5.根据权利要求1或2所述的方法,其特征在于,
用户提供的会话信息为文本信息或语音信息;
当接收到用户提供的会话信息为语音信息时,利用会话信息生成当前搜索表达式的步骤包括:
对语音信息进行识别,以得到语音识别信息;
利用用户会话的上下文确定搜索表达概念;
利用搜索表达概念和语音识别信息生成当前搜索表达式。
6.一种基于上下文理解的信息搜索系统,其特征在于,包括接收单元、搜索表达式生成单元、搜索单元、第一识别单元、发送单元、提取单元和表达式扩展单元,其中:
接收单元,用于在与用户的会话过程中接收用户提供的会话信息;
搜索表达式生成单元,用于当接收单元接收到用户提供的会话信息时,利用会话信息生成当前搜索表达式;
搜索单元,用于利用当前搜索表达式在网络中进行搜索;
第一识别单元,用于判断当前搜索结果是否达到相应的置信度;
发送单元,用于根据第一识别单元的判断结果,若当前搜索结果达到相应的置信度,则将当前搜索结果提供给用户;
提取单元,用于根据第一识别单元的判断结果,若当前搜索结果没有达到相应的置信度,则提取用户的历史会话记录;
表达式扩展单元,用于利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式;然后指示搜索单元执行利用当前搜索表达式在网络中进行搜索的操作。
7.根据权利要求6所述的系统,其特征在于,表达式扩展单元具体包括概念确定模块、扩展模块和更新模块,其中:
概念确定模块,用于利用用户的历史会话记录,重新确定搜索表达概念;
扩展模块,用于根据重新确定的搜索表达概念,对当前搜索表达式进行扩展;
更新模块,用于将扩展后的搜索表达式作为当前搜索表达式。
8.根据权利要求6或7所述的系统,其特征在于,还包括第二识别单元,其中:
第二识别单元,用于根据第一识别单元的判断结果,若当前搜索结果没有达到相应的置信度,判断搜索次数是否小于预定的搜索次数阈值;若搜索次数小于预定的搜索次数阈值,则指示提取单元执行提取用户的历史会话记录的操作;若搜索次数不小于预定的搜索次数阈值,则指示发送单元将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
9.根据权利要求6或7所述的系统,其特征在于,还包括第三识别单元,其中:
第三识别单元,用于表达式扩展单元在利用用户的历史会话记录,对当前搜索表达式进行扩展,将扩展后的搜索表达式作为当前搜索表达式的操作后,判断当前搜索表达式的扩展度是否大于预定的扩展阈值;若当前搜索表达式的扩展度不大于预定的扩展阈值,则指示搜索单元执行利用当前搜索表达式在网络中进行搜索的操作;若当前搜索表达式的扩展度大于预定的扩展阈值,则指示发送单元将当前搜索结果中置信度最高的m个结果提供给用户,m为大于0的正整数。
10.根据权利要求6或7所述的系统,其特征在于,
用户提供的会话信息为文本信息或语音信息;
搜索表达式生成单元还用于当接收到用户提供的会话信息为语音信息时,对语音信息进行识别,以得到语音识别信息,利用用户会话的上下文确定搜索表达概念,利用搜索表达概念和语音识别信息生成当前搜索表达式。
CN201310681977.XA 2013-12-13 2013-12-13 基于上下文理解的信息搜索方法和系统 Pending CN104714954A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310681977.XA CN104714954A (zh) 2013-12-13 2013-12-13 基于上下文理解的信息搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681977.XA CN104714954A (zh) 2013-12-13 2013-12-13 基于上下文理解的信息搜索方法和系统

Publications (1)

Publication Number Publication Date
CN104714954A true CN104714954A (zh) 2015-06-17

Family

ID=53414298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681977.XA Pending CN104714954A (zh) 2013-12-13 2013-12-13 基于上下文理解的信息搜索方法和系统

Country Status (1)

Country Link
CN (1) CN104714954A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
CN105955949A (zh) * 2016-04-29 2016-09-21 华南师范大学 基于大数据搜索的幽默型机器人对话控制方法和系统
CN106653006A (zh) * 2016-11-17 2017-05-10 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN106663128A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种聊天对话系统的扩充学习方法及聊天对话系统
CN107526774A (zh) * 2017-07-17 2017-12-29 北京赛时科技有限公司 作品全文查找方法和装置以及存储介质
CN110472021A (zh) * 2018-05-11 2019-11-19 微软技术许可有限责任公司 会话中推荐新闻的技术
CN110832831A (zh) * 2017-06-29 2020-02-21 株式会社OPTiM 呼叫中心会话内容显示系统、方法以及程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN102542012A (zh) * 2010-12-15 2012-07-04 微软公司 分类搜索查询的结果
CN102750311A (zh) * 2011-03-31 2012-10-24 微软公司 扩充的对话理解体系结构
CN102902738A (zh) * 2004-07-29 2013-01-30 雅虎公司 使用内联上下文查询的搜索系统及方法
CN103279508A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902738A (zh) * 2004-07-29 2013-01-30 雅虎公司 使用内联上下文查询的搜索系统及方法
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN102542012A (zh) * 2010-12-15 2012-07-04 微软公司 分类搜索查询的结果
CN102750311A (zh) * 2011-03-31 2012-10-24 微软公司 扩充的对话理解体系结构
CN103279508A (zh) * 2012-12-31 2013-09-04 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何秀等: ""上下文对用户搜索行为的影响"", 《情报杂志》 *
宋巍等: ""基于检索历史上下文的个性化查询重构技术研究"", 《中文信息学报》 *
田萱等: ""上下文信息检索研究综述"", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
WO2017041370A1 (zh) * 2015-09-07 2017-03-16 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
CN105955949A (zh) * 2016-04-29 2016-09-21 华南师范大学 基于大数据搜索的幽默型机器人对话控制方法和系统
CN105955949B (zh) * 2016-04-29 2018-05-29 华南师范大学 基于大数据搜索的幽默型机器人对话控制方法和系统
CN106663128A (zh) * 2016-06-29 2017-05-10 深圳狗尾草智能科技有限公司 一种聊天对话系统的扩充学习方法及聊天对话系统
CN106653006A (zh) * 2016-11-17 2017-05-10 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN106653006B (zh) * 2016-11-17 2019-11-08 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN110832831A (zh) * 2017-06-29 2020-02-21 株式会社OPTiM 呼叫中心会话内容显示系统、方法以及程序
CN110832831B (zh) * 2017-06-29 2022-09-02 株式会社OPTiM 呼叫中心会话内容显示系统、方法以及计算机可读记录介质
CN107526774A (zh) * 2017-07-17 2017-12-29 北京赛时科技有限公司 作品全文查找方法和装置以及存储介质
CN107526774B (zh) * 2017-07-17 2020-01-21 北京赛时科技有限公司 作品全文查找方法和装置以及存储介质
CN110472021A (zh) * 2018-05-11 2019-11-19 微软技术许可有限责任公司 会话中推荐新闻的技术

Similar Documents

Publication Publication Date Title
CN104714954A (zh) 基于上下文理解的信息搜索方法和系统
CN112100349B (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN110288979B (zh) 一种语音识别方法及装置
CN108694940B (zh) 一种语音识别方法、装置及电子设备
CN107240398B (zh) 智能语音交互方法及装置
WO2019076286A1 (zh) 一种语句的用户意图识别方法和装置
CN110890093B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN103956169A (zh) 一种语音输入方法、装置和系统
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN110097886B (zh) 意图识别方法及装置、存储介质、终端
CN104916283A (zh) 语音识别方法和装置
CN111161726B (zh) 一种智能语音交互方法、设备、介质及系统
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
CN111402861A (zh) 一种语音识别方法、装置、设备及存储介质
CN111402894A (zh) 语音识别方法及电子设备
CN113868427A (zh) 一种数据处理方法、装置及电子设备
WO2012004955A1 (ja) テキスト補正方法及び認識方法
CN112100339A (zh) 用于智能语音机器人的用户意图识别方法、装置和电子设备
CN109545203A (zh) 语音识别方法、装置、设备和存储介质
CN112115244A (zh) 对话交互方法、装置、存储介质及电子设备
CN105469801A (zh) 一种修复输入语音的方法及其装置
CN109933773A (zh) 一种多重语义语句解析系统及方法
KR102280439B1 (ko) 질의의도를 분석하기 위한 장치 및 방법
CN114360510A (zh) 一种语音识别方法和相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150617