CN110377745B - 信息处理方法、信息检索方法、装置及服务器 - Google Patents
信息处理方法、信息检索方法、装置及服务器 Download PDFInfo
- Publication number
- CN110377745B CN110377745B CN201810321143.0A CN201810321143A CN110377745B CN 110377745 B CN110377745 B CN 110377745B CN 201810321143 A CN201810321143 A CN 201810321143A CN 110377745 B CN110377745 B CN 110377745B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- matching
- knowledge graph
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种信息处理方法、信息检索方法、信息推荐方法、装置、终端及服务器。本申请实施例中,基于训练样本创建知识图谱,该知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中两个节点的边为句法结构关系、句子关联关系或者父子生成关系;将命中训练样本的节点与其命中的训练样本的应答内容建立映射关系。将待处理文本在该知识图谱中进行匹配,可以确定待处理文本命中的匹配节点,该匹配节点对应的应答内容即作为待处理文本的推荐内容,本申请实施例提高了信息检索的效率以及准确度。
Description
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种信息检索方法及装置、一种信息处理方法及装置、一种信息推荐方法及装置、一种终端以及一种服务器。
背景技术
随着人机交互技术的发展,智能问答在诸多场景中得到了广泛应用,比如机器人客服、聊天机器人等场景中,所谓智能问答也即是基于用户输入语句,智能确定应答内容的计算机技术。智能问答可以实现用户与设备之间的自动对话,此外还可以辅助人工客服实现与用户的对话,以提高对话效率,比如将智能确定的应答内容推荐给人工客服,由人工客服决定是否作为回复内容输出给用户。
目前实现智能问答的方案,主要是基于预先创建的语聊库,其中,语聊库中存在大量的<Q,A>数据,Q为语料样本,A为该语料样本对应的应答内容,查找与用户输入语句匹配的语料样本,从而即可以确定相应的应答内容。
但是,现有技术中主要是基于计算文本相似度的方式来确定与用户输入语句匹配的语料样本,检索效率较低、准确度也不高,从而影响智能问答效果。
发明内容
本申请实施例提供一种信息处理方法、信息推荐方法、信息检索方法、装置、终端及服务器,用以解决现有技术中信息检索效率低、准确度低的技术问题。
第一方面,本申请实施例中提供了一种信息处理方法,包括:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第二方面,本申请实施例中提供了一种信息处理方法,包括:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第三方面,本申请实施例中提供了一种信息检索方法,包括:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
第四方面,本申请实施例中提供了一种信息推荐方法,包括:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
第五方面,本申请实施例中提供了一种信息推荐方法,包括:
接收服务端发送的所述推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
输出所述推荐内容。
第六方面,本申请实施例中提供了一种信息处理装置,包括:
第一节点创建模块,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
第二节点创建模块,用于如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
第一边创建模块,用于针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边;
第一映射建立模块,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第七方面,本申请实施例中提供了一种信息处理装置,包括:
第三节点创建模块,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
第二边创建模块,用于针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
第二映射建立模块,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第八方面,本申请实施例中提供了一种信息检索装置,包括:
匹配模块,用于将待处理文本在知识图谱中进行匹配;
节点确定模块,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
第九方面,本申请实施例中提供了一种信息推荐装置,包括:
匹配模块,用于将待处理文本在知识图谱中进行匹配;
节点确定模块,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
内容发送模块,用于将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
第十方面,本申请实施例中提供了一种信息推荐装置,包括:
内容接收模块,用于接收服务端发送的所述推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
内容输出模块,用于输出所述推荐内容。
第十一方面,本申请实施例中提供了一种服务器,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、句子关联关系或者父子生成关系,建立所述两个节点之间的边;
建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第十二方面,本申请实施例中提供了一种服务器,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
第十三方面,本申请实施例中提供了一种服务器,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
第十四方面,本申请实施例中提供了一种服务器,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
第十五方面,本申请实施例中提供了一种终端,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
接收服务端发送的所述推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
输出所述推荐内容。
本申请实施例中,基于训练样本创建知识图谱,该知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中两个节点的边为句法结构关系、句子关联关系或者父子生成关系;将命中训练样本的节点与其命中的训练样本的应答内容建立映射关系。从而进行信息检索时通过在知识图谱中进行匹配,可以准确确定待处理文本命中的匹配节点,该匹配节点映射的应答内容即作为待处理文本的推荐内容。本申请实施例中通过句法分析以及主干分析、去除了训练样本中的冗余信息和噪声,基于训练样本的核心信息来构建,从而通过本申请实施例的知识图谱可以快速、准确的查找待处理文本命中的匹配节点,进而即可以确定待处理文本的推荐内容,提高了信息检索的效率以及准确度。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种信息处理方法一个实施例的流程图;
图2示出了本申请实施例中一种知识图谱的部分结构示意图;
图3示出了本申请提供的一种信息检索方法一个实施例的流程图;
图4示出了本申请提供的一种信息推荐方法一个实施例的流程图;
图5示出了本申请提供的一种信息推荐方法又一个实施例的流程图;
图6示出了本申请提供的一种信息推荐方法又一个实施例的流程图;
图7示出了本申请实施例在一个实际应用中信息处理交互示意图;
图8示出了本申请提供的一种信息处理装置一个实施例的结构示意图;
图9示出了本申请提供的一种服务器一个实施例的结构示意图;
图10示出了本申请提供的一种信息处理装置又一个实施例的结构示意图;
图11示出了本申请提供的一种信息检索装置一个实施例的结构示意图;
图12示出了本申请提供的一种服务器又一个实施例的结构示意图;
图13示出了本申请提供的一种信息推荐装置一个实施例的结构示意图;
图14示出了本申请提供的一种服务器又一个实施例的结构示意图;
图15示出了本申请提供的一种信息推荐装置又一个实施例的结构示意图;
图16示出了本申请提供的一种终端一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以应用于基于人机交互技术实现的智能问答场景中,比如聊天机器人、机器人客服等人机对话场景中,在一个实际应用中还可以应用于辅助实现人工客服对话场景中。
本申请实施例中的待处理文本在实际应用中即可以是指用户输入语句,训练样本可以是指语聊库中的语料样本Q,在智能问答场景中,Q可以是指问题样本,训练样本的应答内容可以是指语聊库中的应答内容A。例如语料样本Q可以为“你喜欢的电影是什么”,应答内容A为“我最喜欢的电影当然是《XXX》了,啥时候咱俩一起去看”。该语聊库可以基于历史对话记录预先创建。
以向人工客服推荐应答内容的场景为例,用户输入语句为待处理文本,通过从语聊库中查找与待处理文本匹配的目标文本,该目标文本对应的应答内容即作为待处理文本的推荐内容,将推荐内容输出至人工客服端,人工客服即可以确定是否将该推荐内容作为回复内容发送至用户,由于现有技术中通常是采用文本相似度的方式查找与待处理文本匹配的目标文本,而由于用户输入语句通常语义复杂、信息冗余且描述方式多样化,语聊库中的语料样本数量非常庞大,仅通过文本相似度的方式查找不够准确、效率也较低。
为了提高检索效率以及检索准确度,发明人经过一系列研究提出了本申请实施例的技术方案,在本申请实施例中,采用句法分析及主干分析技术,基于训练样本创建知识图谱(Mapping Knowledge Domain),该知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中两个节点的边为句法结构关系、句子关联关系或者父子生成关系;之后,将命中训练样本的节点与其命中的训练样本的应答内容建立映射关系。从而进行信息检索时通过在知识图谱中进行匹配,可以准确确定待处理文本命中的匹配节点,该匹配节点对应的应答内容即作为待处理文本的推荐内容。本申请实施例中通过句法分析以及主干分析、去除了训练样本中的冗余信息,基于句法关系将训练样本构建成知识图谱,从而通过本申请实施例的知识图谱可以快速、准确的查找待处理文本命中的匹配节点,从而可以提高信息检索的效率以及准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种信息处理方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:提取训练样本中的主干词并将所述主干词作为知识图谱的节点。
其中,该训练样本可以是指语聊库中存储的<Q,A>中的语料样本Q,包括多个,每一个训练样本对应一个应答内容,该应答内容也即可以是指<Q,A>中语料样本Q对应的应答内容A。
该训练样本以及训练样本对应的应答内容可以基于历史对话记录统计获得。
由于每一个训练样本通常是一个句子,句子是由词或短语构成,具有一定语调并表达一个完整意思的语言运用单位,下面对句子涉及的基于概念进行解释,以便于理解本申请的技术方案:
其中,按照句子的语气可以将句子划分为多个句类,例如陈述句、疑问句、祈使句和感叹句等。
句子的组成成分称为句子成分,句子成分例如可以包括主语、谓语、宾语、动语,定语、状语,补语和中心语等。
句子主干是指句子中起主要作用的句子成分,句子主干提取之后需保证不破坏句子的主要意思。可以通过删减附加成分(如定语、状语、补语等)的词语获得,句子主干通常包括句子中的主语、谓语、宾语的中心语。
当然也可以根据实际需求除了删减预定删减成分和/或预定删减词性的词语,当然也可以是保留预定保留成分和/或预定保留词性的词语,例如在一个实际应用,可以不关注具有名词词性的主语成分,假设一个句子为“我要申请退款但是我不退货”,其中,“我”是句子的主语且词性为名词,则提取出的句子主干可以为“申请退款不退货”。
句子中的词与词之间存在着一定的结构关系,称为句法结构关系,句法结构关系可以基于词在词组中的结构地位确定,例如句法结构关系可以包括:主谓关系(词组中前一个词表示动作的施事者或说明、描写的对象,后一个词是对前一项的叙述说明或描写)、动宾关系(词组中前一个词表示动作行为或判断等,后一个词表示动作行为、判断等所涉及的事物)、联合关系(词组中的各个词地位是平等的)、补充关系(词组中的前一个词表示动作行为或性质状态,后一个词主要说明动作状态的结果)、偏正关系(词组中的前一个词用以修饰后一个词)等等,其中,偏正关系可以包括状中关系以及定中关系。
如果一个句子为一个复合句,例如通过关联词语组成的复合句,因此该句子中通过关联词语连接的两个分句可以具有句子关联关系,该句子关联关系例如可以包括并列关系、转折关系、递进关系、承接关系、上下文关系等。
因此,本实施例中,通过对训练样本进行句法分析以及主干分析,从而可以确定训练样本的句子主干,并可以确定构成训练样本的主干词。
可选地,可以首先训练样本进行分词;
之后再将所述训练样本进行句法分析以及主干分析,删减所述训练样本中属于预定成分和/或预定词性的分词词语,以获得构成句子主干的主干词。
其中,主干词即可以作为知识图谱的节点。
知识图谱也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱本质上是一种语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。通过知识图谱可以将不同种类的信息连接在一起获得一个关系网络。
本申请实施例中也即通过知识图谱将多个训练样本连接在一起形成一个关系网络。
首先,即可以将训练样本提取的主干词作为知识图谱的节点。
102:如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点。
对于知识图谱中的任意两个节点,如果训练样本中存在由该任意两个节点合并生成的词组,即也可以将该词组作为知识图谱的节点,新获得的节点会继续参与步骤102的操作,直至节点构建完成也即基于各个训练样本确定不存在需要进行合并的节点。
因此,该任意两个节点可以是指主干词,也可以是指由主干词形成的短语、或者由短语形成的短句等,生成的词组也即可以是指短语或者短句等。
为了方便理解,以一个训练样本为“我想要申请退款不退货,可以吗?”为例,通过句法分析以及主干分析,假设获得的句子主干为“申请退款不退货”,主干词包括“申请”、“退款”、“不”、“退货”。其中,“申请”、“退款”、“不”、“退货”可以分别作为知识图谱的节点。
对于任意两个节点合并获得词组如果在训练样本中存在,则也即作为知识图谱的节点,例如节点[申请]以及节点[退款],合并获得的“申请退款”;节点[不]以及节点[退货]合并获得的“不退货”;节点[申请退款[以及节点[不退货]合并获得的“申请退款不退货”;因此对于该训练样本“我想要申请退款不退货,可以吗?”可以解析获得7个节点,具体参见图2中本申请实施例提供的知识图谱的部分结构图。
需要说明的是,尽管节点[退款]、[不]合并形成的字符串也在训练样本中出现,但是其无法构成一个词组,因此不作为知识图谱中节点,词组可以是指短语或者短句等,具有独立意思。
对于主干词来说,任意两个主干词可以依据句法结构关系合并获得词组,该词组即可以是指一个短语,例如“申请”以及“退款”构成的短语“申请退款”。对于短语来说,任意两个短语可以依据句子关联关系合并获得词组,该词组即可以是指一个短句,例如“申请退款”以及“不退货”构成的短语“申请退款不退货”。
其中,步骤102也可以是如果所述训练样本的句子主干中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点。例如对于一个训练样本“我申请必须退款但是我不退货”,其句子主干与“我想要申请退款不退货,可以吗?”的句子主干相同,为“申请退款不退货”,同样对应图2中所示的7个节点,因此如果训练样本的句子主干中存在由任意两个节点合并获得的词组,该词组也即可以作为知识图谱的节点。
103:针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边。
由于知识图谱是表示关系的网络,其包括节点也包括边,边即表示节点之间的关系,通过步骤101以及步骤102构建知识图谱的节点之后,即可以确定任意两个节点之间是否存在边,在本申请实施例中,知识图谱中的边可以包括句法结构关系、句子关联关系或者父子生成关系。
可选地,针对所述知识图谱中任意的两个节点,如果所述两个节点在所述训练样本中存在句法结构关系,将所述句法结构关系作为所述两个节点的边;
如果所述两个节点在所述训练样本中存在句子关联关系,将所述句子关联关系作为所述两个节点的边;
如果所述两个节点中的一个节点由另一个节点与其它节点合并生成,确定两个节点存在父子生成关系,并将所述父子生成关系作为所述两个节点的边。
其中,句法结构关系可以通过对两个节点在训练样本中构成的词组中的结构地位获得,两个节点均为主干词时,具有句法结构关系,仍以图2为例,通过句法分析可知,节点[申请]与节点[退款]即为“动宾关系”;节点[不]与节点[退款]即为“状中关系”。
句子关联关系可以通过在所述训练样本中连接任意两个节点的关联词语确定,例如表示转折关系的关联词语例如包括“但是、可是……等”、表示递进关系的关联词语例如可以包括“并且、而且、还……等”等,与现有技术相同,在此不再赘述。如果任意两个节点在训练样本的句子主干中存在合并获得的词组,但是在训练样本中未由关联词语连接且不是并列关系,该任意两个节点的句子关联关系可以是指“上下文关系”,例如对于图2所示的结构,如果训练样本为“我想要申请退款不退货,可以吗?”,则节点[申请退款]与节点[不退货]的句子关联关系即“上下文关系”,如果训练样本为“我想要申请退款但是我不退货”,则节点[申请退款]与节点[不退货]即为“转折关系”。
如果两个节点中的一个节点由另一个节点与其它节点合并生成,则确定两个节点存在父子生成关系,父子生成关系即作为任意两个节点的边,仍以图2为例,例如对于节点[申请]、节点[退款]分别与节点[申请退款]之间,即为父子生成关系。
需要说明的是,由于知识图谱基于多个训练样本构建,不同训练样本的句子主干可能相同,因此两个节点之间可以不仅具有一种关系。
需要说明的是,本申请实施例中两个节点之间的边具有方向性,表示的是前一个节点与后一个节点的关系,而不是后一个节点与前一个节点的关系,例如节点[申请]指向节点[退款]为“动宾关系”,反之则可能不成立。节点[申请]指向节点[申请退款]为父子生成关系,反之则不成立。
104:建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
其中,本申请实施例中,目标节点是指知识图谱中命中训练样本的节点。
构建知识图谱的节点以及边之后即可以获得该知识图谱。通过建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
在进行信息推荐时,所述知识图谱即可以用以查询与待处理文本满足匹配要求的匹配节点,所述映射关系即用以确定所述匹配节点对应的应答内容。
其中,目标节点命中的训练样本可以是指句子主干与该目标节点相同的训练样本,如果目标节点未命中任一训练样本,则该目标节点不具有映射关系。仍以图2为例,对于训练样本“我想要申请退款不退货,可以吗?”,句子主干为“申请退款不退货”,则节点[申请退款不退货]命中该训练样本;对于训练样本“我想申请退款”,句子主干为“申请退款“,则节点[申请退款]命中该训练样本。
可选地,目标节点命中的训练样本还可以是指与该目标节点满足匹配要求的训练样本,也即可以将训练样本在知识图谱中进行匹配,满足匹配要求的节点即可以作为命中该训练样本的节点,该满足匹配要求的节点也即是训练样本命中的节点。
本申请实施例中,通过对训练样本进行句法分析以及主干分析,去除了冗余信息和噪声,获得训练样本的核心信息,据此建立的知识图谱可以实现快速、准确的查找待处理文本的匹配节点,从而可以快速、准确的获得待处理文本对应的应答内容,提高了信息检索的效率以及准确度。
此外,作为又一个实施例,还本申请实施例还提供了一种信息处理方法,所述方法可以包括:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
所述知识图谱用以查询与待处理文本满足匹配要求的匹配节点,所述映射关系用以确定所述匹配节点对应的应答内容。
本实施例与图1所示实施例不同之处在于,仅将训练样本的主干词作为知识图谱的节点,从根据句法结构关系或者句子关联关系,即可以建立两个节点的边,由于也是对训练样本进行了句法分析以及主干分析,去除了冗余信息和噪声,获得了训练样本的核心信息,据此建立的知识图谱同样可以实现快速、准确的查找待处理文本的匹配节点,从而可以快速、准确的获得待处理文本对应的应答内容,提高了信息检索的效率以及准确度。
为了进一步提高信息推荐的准确度,在某些实施例中,所述建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系可以包括:
确定所述知识图谱中目标节点对应其命中的任一训练样本的属性信息;
建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系;
其中,所述知识图谱用以查询待处理文本命中的匹配节点,所述映射关系用以确定与所述待处理文本匹配的目标属性信息以及所述目标属性信息对应的应答内容。
可选地,属性信息可以包括至少一个属性因子,该至少一个属性因子例如可以包括句类属性、成分属性和/或业务属性等;
因此,在某些实施例中,所述确定所述知识图谱中的目标节点对应其命中的任一训练样本的属性信息可以包括:
将所述目标节点命中的任一训练样本的句类作为所述目标节点对应所述任一训练样本的句类属性;
如果所述目标节点所属的主干词或词组在所述任一训练样本中的句子成分为预设成分,将所述预设成分作为所述目标节点对应所述任一训练样本的成分属性;
和/或,
如果所述目标节点所属的主干词或词组属于核心业务词,将所述核心业务词作为所述目标节点对应所述任一训练样本的业务属性。
例如,如果目标节点命中的任一训练样本的句类为疑问句,则该目标节点对应该任一训练样本的句类属性即为疑问句;
假设预设成分为主语成分,如果目标节点所属的主干词或词组在所述任一训练样本中的句子成分为主语成分,则该目标节点对应该任一训练样本具有成分属性,否则如果目标节点所属的主干词或词组在所述任一训练样本中的句子成分为非主语成分,则该目标节点对应该任一训练样本不具有成分属性;例如仍以图2为例,假设预设成分为主语成分,对于训练样本“申请退款行不行?”以及“我想要申请退款”,节点[申请退款]分别命中这两个训练样本。其中,节点[申请退款]在训练样本“申请退款行不行?”为主语,则而节点[申请退款]对应该训练样本“申请退款行不行?”即具有成分属性;节点[申请退款]在训练样本“我想要申请退款”为宾语不具有成分属性。
其中,核心业务词可以预先设置,如果目标节点所属的主干词或词组属于核心业务词,可以标记其具有业务属性,例如核心业务词为“七天无理由退换货”,如果知识图谱中的一个节点为[七天无理由退换货],则其即具有业务属性。
需要说明的是,一个目标节点可以命中多个训练样本,因此可以具有分别对应多个训练样本的属性信息。
每一个训练样本的应答内容即分别与该目标节点以及该目标节点对应该训练样本的属性信息建立映射关系。
从而映射关系即可以具体用于确定与待处理文本匹配的目标属性信息,该目标属性信息对应的训练样本的应答内容,即作为该待处理文本的推荐内容。
通过结合属性信息,可以进一步提高信息检索的准确度。
由上述描述可知,一个目标节点可以命中多个训练样本,而每一个训练样本均会对应一个应答内容,因此一个目标节点可能会对应多个应答内容,为了方便进行推荐,在某些实施例中,所述建立所述目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系可以包括:
如果所述目标节点命中多个训练样本,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述目标节点与所述满足映射要求的应答内容之间的映射关系。
其中,从所述多个应答内容中选择满足映射要求的应答内容可以通过对多个应答内容进行聚类分析获得。
可选地,在某些实施例中,所述从所述多个应答内容中选择满足映射要求的应答内容可以包括:
针对所述多个应答内容,提取每一个应答内容中的关键信息;
计算每一个应答内容的关键信息的局部出现频次以及全局出现频次;
基于每一个应答内容的关键信息的局部出现频次以及全局出现频次,计算获得每一个应答内容的关键得分;
按照所述关键得分的大小将所述多个应答内容排序,并按照排列顺序选择预设数量个应答内容作为满足映射要求的应答内容。
其中,每一个应答内容的关键信息的局部出现频次以及全局出现频次可以是指每个应答内容的关键信息在所述多个应答内容中的局部出现频次以及全局出现频次。
其中,提取每一个应答内容中的关键信息可以采用textrank算法实现。
其中,基于每一个应答内容的关键信息的局部出现频次以及全局出现频次,计算获得每一个应答内容的关键得分可以是指计算每一个应答内容的关键信息的局部出现频次以及全局出现频次的熵,将获得的熵值作为关键得分。
如果关键得分越高,表明应答内容与该目标节点越匹配,因此可以按照关键得分从大到小的顺序,选择预设数量个应答内容作为满足映射要求的应答内容。
在人机对话场景中,该预设数量可以为1,也即一个目标节点可以对应一个应答内容。
在人工对话辅助场景中,该预设数量可以包括多个,例如3个,从而方便用户从多个应答内容进行筛选。
由于训练样本的应答内容除了与目标节点相对应,还与目标节点对应所述训练样本的至少一个属性信息的相对应,因此,在某些实施例中,所述建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的至少一个属性信息的映射关系;
如果所述目标节点命中多个训练样本,且分别对应所述多个训练样本的属性信息相同,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述满足映射要求的应答内容与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息之间的映射关系。
其中,从所述多个应答内容中选择满足映射要求的应答内容可以是:
针对所述多个应答内容,提取每一个应答内容中的关键信息;
计算每一个应答内容的关键信息的局部出现频次以及全局出现频次;
基于每一个应答内容的关键信息的局部出现频次以及全局出现频次,计算获得每一个应答内容的关键得分;
按照所述关键得分的大小将所述多个应答内容排序,并按照排列顺序选择预设数量个应答内容作为满足映射要求的应答内容。
其中,提取每一个应答内容中的关键信息可以采用textrank算法实现。
此外,由于用户输入语句具有丰富的多样性,一个意思往往具有多种表达方式,因此在某些实施例中,所述建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系之后,所述方法还包括:
采用实体对齐方式确定所述知识图谱中与所述目标节点相似的节点;
建立所述目标节点相似的节点与所述目标节点映射的应答内容之间的映射关系。
也通过实体对齐方式,可以获得知识图谱中彼此相似的节点,从而可以将彼此相似的节点共享相同的应答内容,以方便进行信息检索和信息推荐。
其中,采用实体对齐方式确定所述知识图谱中与所述目标节点相似的节点可以通过计算节点之间分别对应的主干词或词组的字符相似度来确定,当然也可以采用其它实体对齐方式,以获得表述相同意思的多个节点,将该多个节点聚合在一起,共享相同的应答内容。
通过本申请实施例构建的知识图谱以及训练样本的应答内容与知识图谱中至少部分节点的映射关系,即可以进行应答内容的快速、准确的查找。
图3为本申请实施例提供的一种信息检索方法一个实施例的流程图,该方法可以包括以下几个步骤:
301:将待处理文本在知识图谱中进行匹配。
其中,作为一种可选方式,所述知识图谱中可以包括基于训练样本的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中任意两个节点的边为句法结构关系、句子关联关系或者父子生成关系;
作为另一种可选方式,所述知识图谱包括基于训练样本中的主干词建立的节点;所述知识图谱中的边包括句法结构关系或者句子关联关系。
该知识图谱具体构建方式可以参见上述实施例中所述,在此不再赘述。
该待处理文本在实际应用中即可以是指用户输入语句。
302:确定与所述待处理文本满足匹配要求的匹配节点。
303:将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容。
其中,所述映射关系可以基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
其中,在人机对话场景中,该推荐内容可以作为回复内容输出给用户;
在辅助人工客服场景中,该推荐内容可以输出给人工客服查看,以便于人工客服决定是否作为回复内容输出给用户。其中,与匹配节点具有映射关系的应答内容可以包括多个,从而可以便于人工客服从中选择一个推荐内容作为回复内容输出给用户。
本申请实施例中,通过基于训练样本构建的知识图谱,可以快速、准确的查找与待处理文本相匹配的匹配节点,该匹配节点对应的应答内容即可以作为待处理文本的推荐内容,从而提高了信息检索的效率以及准确度。
在某些实施例中,所述将待处理文本在知识图谱中进行匹配可以包括:
提取待处理文本中的主干词;
将所述主干词在所述知识图谱中进行匹配。
其中,提取待处理文本的主干词与提取训练样本的主干词的方式相同。
可选地,可以是首先将所述待处理文本进行分词;
将所述待处理文本进行句法分析以及主干分析,删减所述待处理文本中属于预定成分和/或预定词性的分词词语,以获得构成所述待处理文本的句子主干的主干词。
可选地,可以具体是删减所述待处理文本中具有预定词性且属于预定成分的分词词语。
其中,预定词性例如可以是指属于虚词词性,虚拟词性例如可以包括副词、介词、连词、助词、语气词、拟声词、叹词等,以去除冗余信息。
在某些实施例中,所述确定所述待处理文本命中的匹配节点可以包括:
依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分;
将匹配得分满足匹配要求的节点作为所述待处理文本命中的匹配节点。
例如该匹配要求可以为匹配得分最高,因此可以是将匹配得分最高的节点作为所述待处理文本命中的匹配节点。匹配得分越高,待处理文本与节点匹配程度即越高。
在某些实施例中,所述依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分可以包括:
如果任一节点与所述待处理文本的任一主干词相同,确定所述任一节点与所述待处理文本的匹配得分为预设分数;
如果所述待处理文本中存在与任意两个节点具有父子生成关系的节点对应的词组,将所述任意两个节点的匹配得分相加以获得所述待处理文本和与所述任意两个节点具有父子生成关系的节点的匹配得分。
也即与待处理文本的主干词相同的节点,其与待处理文本的匹配得分即为预设分数,例如该预设分数为1。
而对于任意两个节点,如果待处理文本中存在与该任意两个节点具有父子生成关系的节点对应的词组,则将该任意两个节点的匹配得分相加,获得待处理文本和与所述任意两个节点具有父子生成关系的节点的匹配得分。
为了方便理解,下面仍以图2所示的知识图谱为例,假设待处理文本为“我想申请退款但不退货行不行?”
将待处理文本进行分词,并通过句法分析以及主干分析,去除属于预定成分和/预定词性的分词词语之后,获得的句子主干为“申请退款不退货”,主干词包括“申请”、“退款”、“不”、“退货”。
将各个主干词依次在图2所述知识图谱中进行匹配,与各个主干词分别相同的各节点的匹配得分即为1,从而各节点匹配得分为:
[申请](+1),[退款](+1),[不](+1),[退货](+1);
其中“[]”内表示节点,“()”内表示得分。
由于图2所示的知识图谱中,[申请退款]与[申请]以及[退款]具有父子生成关系,且待处理文本中存在“申请退款”的词组,因此[申请退款]与待处理文本的匹配得分即可以为[申请]与[退款]的匹配得分之后,即为2分,从而进一步得到的各节点匹配得分为:
[申请](+1),[退款](+1),[申请退款](+2),[不](+1),[退货](+1),[不退货](+2);
而由于[申请退款不退货] 与[申请退款]以及[不退货]也具有父子生成关系,且待处理文本中存在“申请退款不退货”的词组,因此进一步得到各节点的匹配得分为:
[申请](+1),[退款](+1),[申请退款](+2),[不](+1),[退货](+1),[不退货](+2);[申请退款不退货](+4)。
可知,匹配得分最高的节点为[申请退款不退货],匹配得分为4,其即作为待处理文本的匹配节点。
此外,为了进一步提高准确度,在某些实施例中,所述方法还可以包括:
如果所述待处理文本中任意两个主干词的句法结构关系和与所述任意两个主干词相同的任意两个节点的句法结构关系相同,增加所述待处理文本与所述任意两个节点中任一个节点的匹配得分。
可选地,如果任意两个节点如果存在句法结构关系,该句法结构关系具有方向性,是指任意两个节点中的前一个节点指向后一个节点的句法结构关系,例如节点[申请]指向节点[退款]具有句法结构关系,反之则可能不成立,因此为了方便计算,可以是增加待处理文本与所述任意两个节点中后一个节点的匹配得分。
可选地,可以是将所述待处理文本与所述任意两个节点中任一个节点的匹配得分增加所述预设分数。
因此仍以图2所示的知识图谱为例,假设待处理文本为“我想申请退款但不退货行不行?”
将各个主干词依次在图2所述知识图谱中进行匹配,与各个主干词分别相同的各节点的匹配得分即为1,从而各节点匹配得分为:
[申请](+1),[退款](+1),[不](+1),[退货](+1);
由于待处理文本中的“申请”与“退款”和节点[申请]与节点[退款]的句法结构关系相同,因此进一步获得各节点匹配得分为:
[申请](+1),[退款](+2),[不](+1),[退货](+2);
由于图2所示的知识图谱中,[申请退款]与[申请]以及[退款]具有父子生成关系,且待处理文本中存在“申请退款”的词组,因此[申请退款]与待处理文本的匹配得分即可以为[申请]与[退款]的匹配得分之后,即为2分,从而进一步得到的各节点匹配得分为:
[申请](+1),[退款](+2),[申请退款](+3),[不](+1),[退货](+2),[不退货](+3);
而由于[申请退款不退货] 与[申请退款]以及[不退货]也具有父子生成关系,且待处理文本中存在“申请退款不退货”的词组,因此进一步得到各节点的匹配得分为:
[申请](+1),[退款](+2),[申请退款](+3),[不](+1),[退货](+2),[不退货](+3);[申请退款不退货](+6)。
可知,匹配得分最高的节点为[申请退款不退货],匹配得分为6,其即作为待处理文本的匹配节点。
本申请实施例中,获得待处理文本的匹配节点之后,该匹配节点映射的应答内容即可以作为待处理文本推荐内容。
作为另一种可选方式,训练样本的应答内容不仅与节点具有映射关系,还与节点对应该训练样本的属性信息具有映射关系。
因此,在某些实施例中,所述将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容包括:
从所述匹配节点的属性信息中确定与所述待处理文本相匹配的目标属性信息;
确定所述目标属性信息对应的应答内容;
将所述目标属性信息对应的应答内容作为所述待处理文本的推荐内容。
其中,匹配节点可能命中多个训练样本,因此可以对应多个应答内容,因此是从匹配节点对应的多个应答内容中确定目标属性信息对应的应答内容。
本申请实施例中,通过属性信息的判断可以进一步提高检索的准确度。
其中,确定与所述待处理文本相匹配的目标属性信息可以首先确定待处理文本的属性信息,再从匹配节点对应属性信息中确定与待处理文本的属性信息相同的目标属性信息。
若不存在与待处理文本相匹配的目标属性信息,作为一种可选方式,可以确定不存在待处理文本的推荐内容。作为另一种可选方式,还可以预先建立匹配节点与预设内容的对应关系,从而如果不存在待处理文本相匹配的目标属性信息,可以将匹配节点对应的该预设内容作为待处理文本的推荐内容。
其中,所述属性信息包括至少一个属性因子,该至少一个属性因子可以包括句类属性、成分属性和/或业务属性;
假设属性信息包括句类属性,知识图谱中节点中对应不同句类属性具有不同应答内容。
例如假设一个训练样本为“申请退款不退货行不行?”,该训练样本的句类属性为疑问句,句子主干为“申请退款不退货”,其对应的应答内容为“您为什么要申请退款呢?”,节点[申请退款不退货]命中该训练样本,则该应答内容“您为什么要申请退款呢?”分别与该节点[申请退款不退货]以及疑问句具有映射关系。
假设另一个训练样本为“我需要申请退款不退货。”该训练样本的句类属性为陈述句,句子主干为“申请退款不退货”,其对应的应答内容为“稍等,马上帮您办理”。节点[申请退款不退货]命中该训练样本,则该应答内容“稍等,马上帮您办理”分别与该节点[申请退款不退货]以及陈述句具有映射关系。
假设待处理文本为“我想要申请退款不退货可以吗?”,句子主干为“申请退款不退货”,与匹配节点[申请退款不退货]满足匹配要求,该匹配节点对应两个应答内容“稍等,马上帮您办理”以及“您为什么要申请退款呢?”,此时通过判断该待处理文本的句类属性为疑问句,则可以确定待处理文本的推荐内容为匹配节点中疑问句对应的应答内容“您为什么要申请退款呢?”。
由上述描述可知,尽管句子主干相同,但是对应的应答内容完全不同,因此通过加入属性信息,可以进一步提高检索准确度。
在一个实际应用中,本申请实施例的技术方案可以应用于人机对话场景中,服务端确定所述待处理文本的推荐内容之后,可以将该推荐内容作为回复内容发送至用户端,由用户端输出,从而用户即可以获得该回复内容,实现自动对话功能。
图4为本申请实施例提供的一种信息推荐方法一个实施例的流程图,该方法可以包括以下几个步骤:
401:将待处理文本在知识图谱中进行匹配。
其中,该知识图谱的构建方式可以参见图1对应实施例中所述,在此不再赘述。
402:确定与所述待处理文本满足匹配要求的匹配节点;
403:将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容。
其中,步骤401~步骤403的操作可以参见图3所示实施例中的步骤301~步骤303。
404:将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
在人机对话场景中,该第一客户端即可以为用户端,从而第一客户端输出该推荐内容,用户即可以查看,实现人机对话效果。
此外,在又一个实际应用中,本申请实施例的技术方案还可以应用于辅助人工客服对话场景中,获得所述待处理文本的推荐内容之后,可以将该推荐内容作为回复内容发送至人工客服端,由人工客服端输出,从而人工客服端通过响应于用户选择操作,可以从推荐内容中确定回复内容,通过服务端将回复内容发送至用户端,由用户端输出,以实现自动对话功能。
因此,如图5所示,为本申请实施例提供的一种信息推荐方法又一个实施例的流程图,该方法可以包括以下几个步骤:
501:将待处理文本在知识图谱中进行匹配。
502:确定与所述待处理文本满足匹配要求的匹配节点;
503:将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容。
504:将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
505:确定所述第一客户端从所述推荐内容中选择的回复内容。
其中,知识图谱中的节点可以对应多个应答内容,因此根据待处理文本可以对应多个推荐内容。
第一客户端可以输出多个推荐内容,通过响应于针对所述多个推荐内容的选择操作,可以将被选择的一个推荐内容作为回复内容。
506:将所述回复内容发送至第二客户端,以供所述第二客户端输出所述目标内容。
在辅助人工客服对话场景中,第一客户端即是指人工客服端,第二客户端即可以是指用户端,通过向人工客服推送推荐内容,可以提高对话效率以及对话效果,提升用户满意度。
图6为本申请实施例提供的一种信息推荐方法又一个实施例的流程图,本实施例从第一客户端角度进行描述,该方法可以包括以下几个步骤:
601:接收服务端发送的推荐内容。
所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容。
其中,在人机对话场景中,该第一客户端可以为用户端,所述方法还可以包括:发送待处理文本至服务端。从而服务端即可以将待处理文本在知识图谱中进行匹配,获得与所述待处理文本满足匹配要求的匹配节点,并确定与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
在辅助人工客服对话场景中,该第一客户端可以为人工客户端,该待处理文本为第二客户端发送至服务端的,同时服务端还可以将该待处理文本发送至第一客户端,以供第一客户端输出该待处理文本,方便人工客服查看。
602:输出所述推荐内容。
可选地,在辅助人工客服对话场景中,所述方法还可以包括:
响应于针对所述推荐内容的选择操作,从所述推荐内容中确定回复内容;
发送所述回复内容至服务端,以供所述服务端将所述回复内容发送至第二客户端。
下面以辅助人工客服实现与用户对话的场景为例,对本申请的技术方案进行描述,待处理文本即是指用户输入语句。
语聊库可以基于人工客服与用户的历史对话记录生成,包括大量的语聊数据<Q,A>,训练样本即可以具体为<Q,A>中的Q(Question,问题),训练样本的应答内容为<Q,A>中的A(Answer,答案)。
如图7中所示,服务端70可以首先基于语聊库中的Q构建知识图谱中的节点701,进行分词、句法分析、主干分析等,获得主干词,并将主干词作为知识图谱的节点,且如果语聊库中的Q存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组也所述知识图谱的节点。
之后服务端70构建知识图谱中节点之间的边702,通过句法分析等可以获得任意的两个节点之间是否存在句法结构关系、句子关联关系或者父子生成关系,
之后服务端70建立目标节点与所述目标节点命中的Q对应的A之间的映射关系703。
第一客户端80为人工客服端,第二客户端90为用户端。
第二客户端90向服务端70发送用户输入语句704,服务端70可以将该用户输入语句发送至第一客户端80,以供第一客户端80输出。
服务端70基于该用户输入语句可以在知识图谱中进行匹配,获得与用户输入语句匹配的匹配节点,并确定与匹配节点具有映射关系的应答内容作为用户输入语句的推荐内容705;
服务端70向第一客户端80发送该推荐内容706;第一客户端80获得该推荐内容之后,即可以输出推荐内容。
第一客户端80响应于针对推荐内容的选择操作,可以确定回复内容707,之后向服务端70发送回复内容708,以通过服务端70向第二客户端90发送该回复内容709,第二客户端90即可以输出该回复内容。
通过本申请实施例,可以提高信息检索的效率以及准确度,从而可以保证信息推荐的效率以及准确度。
图8为本申请实施例提供的一种信息处理装置一个实施例的结构示意图,该装置可以包括:
第一节点创建模块801,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
第二节点创建模块802,用于如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
第一边创建模块803,用于针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边;
第一映射建立模块804,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
其中,目标节点是指知识图谱中的命中任意训练样本的节点。
其中,所述知识图谱用以查询与待处理文本满足匹配要求的匹配节点,所述映射关系用以确定所述匹配节点对应的应答内容。
可选地,所述第二节点创建模块可以是如果所述训练样本的句子主干中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点。
在某些实施例中,所述第一映射建立模块具体用于确定所述知识图谱中目标节点对应其命中的任一训练样本的属性信息;建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系;
则所述知识图谱具体用以查询待处理文本命中的匹配节点,所述映射关系具体用以确定与所述待处理文本匹配的目标属性信息,以及所述目标属性信息对应的应答内容。
可选地,所述属性信息包括至少一个属性因子,所述至少一个属性因子包括句类属性、成分属性和/或业务属性;
所述第一映射建立模块确定目标节点对应其命中的任一训练样本的属性信息可以具体是:将所述目标节点命中的任一训练样本的句类作为所述目标节点对应所述任一训练样本的句类属性;如果所述目标节点所属的主干词或词组在所述任一训练样本中的句子成分为预设成分,将所述预设成分作为所述目标节点对应所述任一训练样本的成分属性;和/或,如果所述目标节点所属的主干词或词组属于核心业务词,将所述核心业务词作为所述目标节点对应所述任一训练样本的业务属性。
在某些实施例中,所述第一映射建立模块具体用于确定句子主干与目标节点相同的训练样本作为所述目标节点命中的训练样本;建立所述目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
在某些实施例中,所述第一映射建立模块具体用于如果目标节点命中多个训练样本,确定所述多个训练样本对应的多个应答内容;从所述多个应答内容中选择满足映射要求的应答内容;建立所述目标节点与所述满足映射要求的应答内容之间的映射关系。
在某些实施例中,所述第一映射建立模块可以具体用于如果所述目标节点命中多个训练样本且分别对应所述多个训练样本的属性信息相同,确定所述多个训练样本对应的多个应答内容;从所述多个应答内容中选择满足映射要求的应答内容;建立所述满足映射要求的应答内容与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息之间的映射关系。
可选地,所述第一映射建立模块从所述多个应答内容中选择满足映射要求的应答内容可以具体是:
针对所述多个应答内容,提取每一个应答内容中的关键信息;
计算每一个应答内容的关键信息的局部出现频次以及全局出现频次;
基于每一个应答内容的关键信息的局部出现频次以及全局出现频次,计算获得每一个应答内容的关键得分;
按照所述关键得分的大小将所述多个应答内容排序,并按照排列顺序选择预设数量个应答内容作为满足映射要求的应答内容。
在某些实施例中,所述第一节点创建模块可以具体用于将所述训练样本进行分词;将所述训练样本进行句法分析以及主干分析,删减所述训练样本中属于预定删减成分和/或预定删减词性的分词词语,以获得构成所述训练样本的句子主干的主干词。
在某些实施例中,所述第一边创建模块可以具体用于:
针对所述知识图谱中的任意两个节点,如果所述任意两个节点在所述训练样本中存在句法结构关系,将所述句法结构关系作为所述任意两个节点的边;
如果所述任意两个节点在所述训练样本中存在句子关联关系,将所述句子关联关系作为所述任意两个节点的边;
如果所述任意两个节点中的一个节点由另一个节点与其它节点合并生成,确定任意两个节点存在父子生成关系,并将所述父子生成关系作为所述任意两个节点的边。
在某些实施例中,该装置还可以包括:
第一实体对齐模块,用于采用实体对齐方式确定所述知识图谱中与所述目标节点相似的节点;建立所述目标节点相似的节点与所述目标节点映射的应答内容之间的映射关系。
图8所述的信息处理装置可以执行图1所示实施例所述的信息处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图8所示的信息处理装置可以实现为一服务器,如图9所示,该服务器可以包括存储组件901以及处理组件902,所述存储组件901存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件902调用并执行;
所述处理组件902用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
根据所述知识图谱中任意两个节点的句法结构关系、句子关联关系或者父子生成关系,建立所述任意两个节点之间的边;
建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
其中,处理组件902可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。存储组件被配置为存储各种类型的数据以支持在XX设备的操作。
存储组件901可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,服务器必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如和客户端的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1所示实施例的信息处理方法。
此外,本申请实施例还提供了一种信息处理装置,如图10所示,该装置可以包括:
第三节点创建模块1001,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
第二边创建模块1002,用于针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
第二映射建立模块1003,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
在某些实施例中,所述第二映射建立模块具体用于确定所述知识图谱中的目标节点对应其命中的任一训练样本的属性信息;
建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系;
其中,所述知识图谱用以查询待处理文本命中的匹配节点,所述映射关系用以确定与所述待处理文本匹配的目标属性信息,以及所述目标属性信息对应的应答内容。
在某些实施例中,所述属性信息包括至少一个属性因子,所述至少一个属性因子包括句类属性、成分属性和/或业务属性;
所述第二映射建立模块确定所述知识图谱中的目标节点对应其命中的任一训练样本的属性信息具体是:
将所述目标节点命中的任一训练样本的句类作为所述目标节点对应所述任一训练样本的句类属性;
如果所述目标节点所属的主干词或词组在所述任一训练样本中的句子成分为预设成分,将所述预设成分作为所述目标节点对应所述任一训练样本的成分属性;
和/或,
如果所述目标节点所属的主干词或词组属于核心业务词,将所述核心业务词作为所述目标节点对应所述任一训练样本的业务属性。
在某些实施例中,所述第二映射建立模块具体用于确定句子主干与所述目标节点相同的训练样本作为所述目标节点命中的训练样本;
建立所述目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
在某些实施例中,所述第二映射建立模块具体用于如果所述知识图谱中的目标节点命中多个训练样本,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述目标节点与所述满足映射要求的应答内容之间的映射关系。
在某些实施例中,所述第二映射建立模块所述建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系具体是:
如果所述目标节点命中多个训练样本且分别对应所述多个训练样本的属性信息相同,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述满足映射要求的应答内容与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息之间的映射关系。
在某些实施例中,所述第二边创建模块具体用于:
如果所述知识图谱中的两个节点在所述训练样本中存在句法结构关系,将所述句法结构关系作为所述两个节点的边;
如果所述知识图谱中的两个节点在所述训练样本中存在句子关联关系,将所述句子关联关系作为所述两个节点的边。
在某些实施例中,该装置还可以包括:
第二实体对齐模块,用于采用实体对齐方式确定所述知识图谱中与所述目标节点相似的节点;建立所述目标节点相似的节点与所述目标节点映射的应答内容之间的映射关系。
在一个可能的设计中,图10所示的信息处理装置可以实现为一服务器,该服务器可以包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
图11为本申请实施例提供的一种信息检索装置一个实施例的结构示意图,该装置可以包括:
匹配模块1101,用于将待处理文本在知识图谱中进行匹配;其中,所述知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中任意两个节点的边为句法结构关系、句子关联关系或者父子生成关系;
节点确定模块1102,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块1103,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
在某些实施例中,所述匹配模块可以具体用于提取待处理文本中的主干词;将所述主干词在所述知识图谱中进行匹配;
所述节点确定模块可以具体用于依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分;将匹配得分满足匹配要求的节点作为所述待处理文本命中的匹配节点。
在某些实施例中,所述节点确定模块依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分可以具体包括:
确定所述待处理文本和与所述待处理文本的主干词相同的各节点的匹配得分分别为预设分数;
如果所述待处理文本存在与任意两个节点具有父子生成关系的节点对应的词组,将所述任意两个节点的得分相加,获得所述待处理文本和与所述任意两个节点具有父子生成关系的节点的匹配得分。
可选地,所述节点确定模块将匹配得分满足匹配要求的节点作为所述待处理文本命中的匹配节点可以具体是将匹配得分最高的节点作为所述待处理文本命中的匹配节点。
在某些实施例中,所述节点确定模块依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分还可以包括:
如果任意两个主干词的句法结构关系与所述任意两个主干词相同的任意两个节点的句法结构关系相同,增加所述待处理文本与所述任意两个节点中任一个节点的匹配得分。
可选地可以是所述待处理文本与所述任意两个节点中任一个节点的匹配得分增加预设分数。
在某些实施例中,所述内容确定模块可以具体用于从所述匹配节点的属性信息中确定与所述待处理文本相匹配的目标属性信息;确定所述目标属性信息对应的应答内容;将所述目标属性信息对应的应答内容作为所述待处理文本的推荐内容。
图11所述的信息检索装置可以执行图3所示实施例所述的信息检索方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息检索装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图11所示的信息检索装置可以实现为一服务器,如图12中所示,该服务器可以包括存储组件1201以及处理组件1202,所述存储组件1201存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件1202调用并执行;
所述处理组件1202用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容。
其中,所述知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中任意两个节点的边为句法结构关系、句子关联关系或者父子生成关系;
其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立。
其中,处理组件1202可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。存储组件被配置为存储各种类型的数据以支持在XX设备的操作。
存储组件1201可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,服务器必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如和客户端的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图3所示实施例的信息检索方法。
图13为本申请实施例提供的一种信息推荐装置一个实施例的结构示意图,该装置可以包括:
匹配模块1301,用于将待处理文本在知识图谱中进行匹配;
节点确定模块1302,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块1303,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
内容发送模块1304,用于将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
可选地,在某些实施例中,该装置还可以包括:
回复确定模块,用于确定所述第一客户端从所述推荐内容中确定的回复内容;
回复触发模块,用于将所述回复内容发送至第二客户端,以供所述第二客户端输出所述回复内容。
图13所述的信息推荐装置可以执行图4或图5所示实施例所述的信息推荐方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息推荐装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图13所示的信息推荐装置可以实现为一服务器,如图14中所示,该服务器可以包括存储组件1401以及处理组件1402,所述存储组件1401存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件1402调用并执行;
所述处理组件1402用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容。
其中,处理组件1402可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。存储组件被配置为存储各种类型的数据以支持在XX设备的操作。
存储组件1401可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,服务器必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于服务器和其他设备之间有线或无线方式的通信,例如和客户端的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图4或图5所示实施例的信息推荐方法。
图15为本申请实施例提供的一种信息推荐装置又一个实施例的结构示意图,该装置可以包括:
内容接收模块1501,用于接收服务端发送的所述推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
内容输出模块1502,用于输出所述推荐内容。
其中,图15所述的信息推荐装置可以执行图6所示实施例所述的信息推荐方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息推荐装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图15所示的信息推荐装置可以实现为一终端,该终端可以为计算机、手机、平板电脑等,如图16所示,该装置可以包括存储组件1601以及处理组件1602,所述存储组件1601存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件1602调用并执行;
所述处理组件1602用于:
接收服务端发送的所述推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
输出所述推荐内容。
其中,处理组件1602可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。存储组件被配置为存储各种类型的数据以支持在XX设备的操作。
存储组件1601可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,终端必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于终端和其他设备之间有线或无线方式的通信,例如和服务器的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图6所示实施例的信息处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (35)
1.一种信息处理方法,其特征在于,包括:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱用以查询与待处理文本满足匹配要求的匹配节点,所述映射关系用以确定所述匹配节点对应的应答内容。
3.根据权利要求1所述的方法,其特征在于,所述建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系包括:
确定所述知识图谱中的目标节点对应其命中的任一训练样本的属性信息;
建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系;
其中,所述知识图谱用以查询待处理文本命中的匹配节点,所述映射关系用以确定与所述待处理文本匹配的目标属性信息,以及所述目标属性信息对应的应答内容。
4.根据权利要求3所述的方法,其特征在于,所述属性信息包括至少一个属性因子,所述至少一个属性因子包括句类属性、成分属性和/或业务属性;
所述确定所述知识图谱中的目标节点对应其命中的任一训练样本的属性信息包括:
将所述目标节点命中的任一训练样本的句类作为所述目标节点对应所述任一训练样本的句类属性;
如果所述目标节点所属的主干词或词组在所述任一训练样本中的句子成分为预设成分,将所述预设成分作为所述目标节点对应所述任一训练样本的成分属性;
和/或,
如果所述目标节点所属的主干词或词组属于核心业务词,将所述核心业务词作为所述目标节点对应所述任一训练样本的业务属性。
5.根据权利要求1所述的方法,其特征在于,所述建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系包括:
确定句子主干与所述目标节点相同的训练样本作为所述目标节点命中的训练样本;
建立所述目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
6.根据权利要求1所述的方法,其特征在于,所述建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系包括:
如果所述知识图谱中的目标节点命中多个训练样本,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述目标节点与所述满足映射要求的应答内容之间的映射关系。
7.根据权利要求3所述的方法,其特征在于,所述建立所述任一训练样本的应答内容分别与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息的映射关系包括:
如果所述目标节点命中多个训练样本且分别对应所述多个训练样本的属性信息相同,确定所述多个训练样本对应的多个应答内容;
从所述多个应答内容中选择满足映射要求的应答内容;
建立所述满足映射要求的应答内容与所述目标节点以及所述目标节点对应所述任一训练样本的属性信息之间的映射关系。
8.根据权利要求1所述的方法,其特征在于,所述提取训练样本中的主干词并将所述主干词作为知识图谱的节点包括:
将所述训练样本进行分词;
将所述训练样本进行句法分析以及主干分析,删减所述训练样本中属于预定删减成分和/或预定删减词性的分词词语,以获得构成所述训练样本的句子主干的主干词。
9.根据权利要求1所述的方法,其特征在于,针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边包括:
如果所述知识图谱中的两个节点在所述训练样本中存在句法结构关系,将所述句法结构关系作为所述两个节点的边;
如果所述知识图谱中的两个节点在所述训练样本中存在句子关联关系,将所述句子关联关系作为所述两个节点的边;
如果所述知识图谱中的两个节点中的一个节点由另一个节点与其它节点合并生成,确定所述两个节点存在父子生成关系,并将所述父子生成关系作为所述两个节点的边。
10.根据权利要求6所述的方法,其特征在于,所述从所述多个应答内容中选择满足映射要求的应答内容包括:
针对所述多个应答内容,提取每一个应答内容中的关键信息;
计算每一个应答内容的关键信息的局部出现频次以及全局出现频次;
基于每一个应答内容的关键信息的局部出现频次以及全局出现频次,计算获得每一个应答内容的关键得分;
按照所述关键得分的大小将所述多个应答内容进行排序,并按照排列顺序选择预设数量个应答内容作为满足映射要求的应答内容。
11.根据权利要求1所述的方法,其特征在于,所述如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点包括:
如果所述训练样本的句子主干中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点。
12.根据权利要求1所述的方法,其特征在于,所述建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系之后,所述方法还包括:
采用实体对齐方式确定所述知识图谱中所述目标节点相似的节点;
建立所述目标节点相似的节点与所述目标节点映射的应答内容之间的映射关系。
13.一种信息处理方法,其特征在于,包括:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;所述主干词,通过对训练样本进行语法分析以及主干分析确定;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
14.一种信息检索方法,其特征在于,包括:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立;
其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
15.根据权利要求14所述的方法,其特征在于,所述知识图谱包括基于训练样本中的主干词建立的节点以及存在于所述训练样本中且由所述知识图谱中的任意两个节点合并获得词组建立的节点;所述知识图谱中的边包括句法结构关系、句子关联关系或者父子生成关系。
16.根据权利要求14所述的方法,其特征在于,所述知识图谱包括基于训练样本中的主干词建立的节点;所述知识图谱中的边包括句法结构关系或者句子关联关系。
17.根据权利要求14所述的方法,其特征在于,所述将待处理文本在知识图谱中进行匹配包括:
提取待处理文本中的主干词;
将所述主干词在所述知识图谱中进行匹配;
所述确定与所述待处理文本满足匹配要求的匹配节点包括:
依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分;
将匹配得分满足匹配要求的节点作为所述待处理文本命中的匹配节点。
18.根据权利要求17所述的方法,其特征在于,所述依据匹配结果,计算所述待处理文本与所述知识图谱中各个节点的匹配得分包括:
确定所述待处理文本和与所述待处理文本的主干词相同的各节点的匹配得分分别为预设分数;
如果所述待处理文本存在与任意两个节点具有父子生成关系的节点对应的词组,将所述任意两个节点的得分相加,获得所述待处理文本和与所述任意两个节点具有父子生成关系的节点的匹配得分。
19.根据权利要求18所述的方法,其特征在于,所述将匹配得分满足匹配要求的节点作为所述待处理文本命中的匹配节点包括:
将匹配得分最高的节点作为所述待处理文本命中的匹配节点。
20.根据权利要求18所述的方法,其特征在于,所述确定所述待处理文本和与所述待处理文本的主干词相同的节点的匹配得分为预设分数之后,所述方法还包括:
如果任意两个主干词的句法结构关系与所述任意两个主干词相同的任意两个节点的句法结构关系相同,增加所述待处理文本与所述任意两个节点中任一个节点的匹配得分。
21.根据权利要求14所述的方法,其特征在于,所述将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容包括:
从所述匹配节点的属性信息中确定与所述待处理文本相匹配的目标属性信息;
确定所述目标属性信息对应的应答内容;
将所述目标属性信息对应的应答内容作为所述待处理文本的推荐内容。
22.一种信息推荐方法,其特征在于,包括:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
23.根据权利要求22所述的方法,其特征在于,还包括:
确定所述第一客户端从所述推荐内容中确定的回复内容;
将所述回复内容发送至第二客户端,以供所述第二客户端输出所述回复内容。
24.一种信息推荐方法,其特征在于,包括:
接收服务端发送的推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
25.根据权利要求24所述的方法,其特征在于,还包括:
响应于针对所述推荐内容的选择操作,从所述推荐内容中确定回复内容;
发送所述回复内容至服务端,以供所述服务端将所述回复内容发送至第二客户端。
26.一种信息处理装置,其特征在于,包括:
第一节点创建模块,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
第二节点创建模块,用于如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
第一边创建模块,用于针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、所述句子关联关系或者所述父子生成关系,建立所述两个节点之间的边;
第一映射建立模块,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
27.一种信息处理装置,其特征在于,包括:
第三节点创建模块,用于提取训练样本中的主干词并将所述主干词作为知识图谱的节点;所述主干词,通过对训练样本进行语法分析以及主干分析确定;
第二边创建模块,用于针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
第二映射建立模块,用于建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
28.一种信息检索装置,其特征在于,包括:
匹配模块,用于将待处理文本在知识图谱中进行匹配;
节点确定模块,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
29.一种信息推荐装置,其特征在于,包括:
匹配模块,用于将待处理文本在知识图谱中进行匹配;
节点确定模块,用于确定与所述待处理文本满足匹配要求的匹配节点;
内容确定模块,用于将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
内容发送模块,用于将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
30.一种信息推荐装置,其特征在于,包括:
内容接收模块,用于接收服务端发送的推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
内容输出模块,用于输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
31.一种服务器,其特征在于,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;
如果所述训练样本中存在由任意两个节点合并获得的词组,将所述任意两个节点合并获得的词组作为所述知识图谱的节点;
针对所述知识图谱中存在句法结构关系、句子关联关系或者父子生成关系的两个节点,按照所述句法结构关系、句子关联关系或者父子生成关系,建立所述两个节点之间的边;
建立所述知识图谱中目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
32.一种服务器,其特征在于,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
提取训练样本中的主干词并将所述主干词作为知识图谱的节点;所述主干词,通过对训练样本进行语法分析以及主干分析确定;
针对所述知识图谱中存在句法结构关系或者句子关联关系的两个节点,按照所述句法结构关系或者所述句子关联关系,建立所述两个节点之间的边;
建立所述知识图谱中的目标节点与所述目标节点命中的训练样本的应答内容之间的映射关系。
33.一种服务器,其特征在于,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;其中,所述映射关系基于所述知识图谱的目标节点与所述目标节点命中的训练样本的应答内容建立;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
34.一种服务器,其特征在于,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
将待处理文本在知识图谱中进行匹配;
确定与所述待处理文本满足匹配要求的匹配节点;
将与所述匹配节点具有映射关系的应答内容作为所述待处理文本的推荐内容;
将所述推荐内容发送至第一客户端,以供所述第一客户端输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
35.一种终端,其特征在于,包括存储组件以及处理组件,所述存储组件存储一条或多条计算机指令,所述一条或多条计算机指令供所述处理组件调用并执行;
所述处理组件用于:
接收服务端发送的推荐内容;所述推荐内容为所述服务端将待处理文本在知识图谱中进行匹配,获得的与所述待处理文本满足匹配要求的匹配节点具有映射关系的应答内容;
输出所述推荐内容;其中,所述知识图谱中的节点与节点对应的应答内容之间的映射关系,采用权利要求1-13任一项所述的方法创建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810321143.0A CN110377745B (zh) | 2018-04-11 | 2018-04-11 | 信息处理方法、信息检索方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810321143.0A CN110377745B (zh) | 2018-04-11 | 2018-04-11 | 信息处理方法、信息检索方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377745A CN110377745A (zh) | 2019-10-25 |
CN110377745B true CN110377745B (zh) | 2023-08-18 |
Family
ID=68242960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810321143.0A Active CN110377745B (zh) | 2018-04-11 | 2018-04-11 | 信息处理方法、信息检索方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377745B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062612B (zh) * | 2019-12-17 | 2022-08-19 | 联想(北京)有限公司 | 一种辅助处理流的构建方法和电子设备 |
CN111209411B (zh) * | 2020-01-03 | 2023-12-12 | 北京明略软件系统有限公司 | 一种文档分析的方法及装置 |
CN111967601B (zh) * | 2020-06-30 | 2024-02-20 | 北京百度网讯科技有限公司 | 事件关系的生成方法、事件关系规则的生成方法和装置 |
CN112148884B (zh) * | 2020-08-21 | 2023-09-22 | 北京阿叟阿巴科技有限公司 | 用于孤独症干预的系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10496749B2 (en) * | 2015-06-12 | 2019-12-03 | Satyanarayana Krishnamurthy | Unified semantics-focused language processing and zero base knowledge building system |
CN107526799B (zh) * | 2017-08-18 | 2021-01-08 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107688667A (zh) * | 2017-09-30 | 2018-02-13 | 平安科技(深圳)有限公司 | 智能机器人客服方法、电子装置及计算机可读存储介质 |
CN107895037B (zh) * | 2017-11-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 一种问答数据处理方法、装置、设备和计算机可读介质 |
-
2018
- 2018-04-11 CN CN201810321143.0A patent/CN110377745B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110377745A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200301954A1 (en) | Reply information obtaining method and apparatus | |
CN106919655B (zh) | 一种答案提供方法和装置 | |
CN110377745B (zh) | 信息处理方法、信息检索方法、装置及服务器 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
US9740677B2 (en) | Methods and systems for analyzing communication situation based on dialogue act information | |
TW202009749A (zh) | 人機對話方法、裝置、電子設備及電腦可讀媒體 | |
CN108829682B (zh) | 计算机可读存储介质、智能问答方法及智能问答装置 | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
US20130246392A1 (en) | Conversational System and Method of Searching for Information | |
CN103593412B (zh) | 一种基于树形结构问题的应答方法及系统 | |
KR101971582B1 (ko) | 사용자 대화 의도 추출 기능 구비 채트봇을 활용한 헬스케어 지침 제공 방법 및 이를 위한 장치 | |
JP7204801B2 (ja) | ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 | |
CN110187780B (zh) | 长文本预测方法、装置、设备和存储介质 | |
WO2018195783A1 (en) | Input method editor | |
CN105912629A (zh) | 一种智能问答方法及装置 | |
CN110532354A (zh) | 内容的检索方法及装置 | |
WO2024011813A1 (zh) | 一种文本扩展方法、装置、设备及介质 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
JP7096172B2 (ja) | キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法 | |
US11797594B2 (en) | Systems and methods for generating labeled short text sequences | |
JP6994289B2 (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |