CN110309271A - 智能知识学习及问答技术 - Google Patents

智能知识学习及问答技术 Download PDF

Info

Publication number
CN110309271A
CN110309271A CN201810185049.7A CN201810185049A CN110309271A CN 110309271 A CN110309271 A CN 110309271A CN 201810185049 A CN201810185049 A CN 201810185049A CN 110309271 A CN110309271 A CN 110309271A
Authority
CN
China
Prior art keywords
predicate
triple
word
entity
predicates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810185049.7A
Other languages
English (en)
Inventor
田阳
王建勇
陈鹏
王玮
孙婷
张捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN201810185049.7A priority Critical patent/CN110309271A/zh
Priority to PCT/US2019/019696 priority patent/WO2019173085A1/en
Priority to US16/975,373 priority patent/US11954097B2/en
Priority to EP19710553.9A priority patent/EP3762876A1/en
Publication of CN110309271A publication Critical patent/CN110309271A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文公开的智能知识学习及问答技术,涉及了从语料中提取知识内容以及基于提取的知识内容向用户提供问答服务。

Description

智能知识学习及问答技术
背景技术
随着人工智能技术的发展,智能机器人被广泛应用于各种操作系统中,为用户提供各类辅助操作,并能够与用户进行一定程度的沟通交流。与智能机器人的交流,也成为用户获取各种知识和信息的重要渠道。因此,需要智能机器人能够更好地获取知识内容,并能够更加准确和全面地向用户提供用户想要了解的知识内容。
发明内容
提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
本文公开的智能知识学习及问答技术,涉及了从语料中提取知识内容以及基于提取的知识内容向用户提供问答服务。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
图1为本发明实施例的知识内容的处理装置之一的应用示例框图;
图2为本发明实施例的知识内容的处理方法的流程之一的示意图;
图3为本发明实施例的应用实例之一的处理流程示意框图;
图4为本发明实施例的知识内容的处理装置之二的应用示例框图;
图5为本发明实施例的知识内容的处理装置之三的应用示例框图;
图6为本发明实施例的知识内容的处理方法的流程之二的示意图;
图7为本发明实施例的知识内容的处理方法的流程之三的示意图;
图8为本发明实施例的知识内容的处理装置之四的应用示例框图;
图9为本发明实施例的知识内容的处理方法的流程之四的示意图;
图10为本发明实施例的知识内容的处理装置之五的应用示例框图;
图11为本发明实施例的知识内容的处理方法的流程之五的示意图;
图12为本发明实施例的应用实例之二的处理流程示意框图;
图13为本发明实施例的电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本文中,术语“技术”可以指代例如(一个或多个)系统、(一个或多个)方法、计算机可读指令、(一个或多个)模块、算法、硬件逻辑(例如,现场可编程门阵列(FPGA))、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)和/或上述上下文以及在本文档通篇中所允许的(一项或多项)其它技术。
目前的知识库系统中,知识内容会以多种形式存在,常见的形态有:段落、句子(可以视为段落的一种特殊形式),三元组,问答对(QA对),表格等。
其中,三元组形式的知识内容应用较为广泛,三元组(triple)是以主谓宾格式存储的信息片段,三元组可以用来描述任何事情,并可以基于三元组来推断任务、空间、机构和其他实体之间的关系。在本发明中的三元组采用如下定义,三元组包括:实体(主)、谓词(谓)、属性(宾)。
三元组中的实体(entity)可以理解为知识库中涉及的概念(concept)或者话题(topic),其作为知识点所直接描述或者说明的对象。三元组中的谓词:描述实体与属性之间的关系的词。三元组中的属性:描述实体特征或者内容相关的内容。
针对三元组形式的知识内容的查询处理
现有技术中,针对三元组形式的知识内容的查询处理如下:
输入用户查询后,系统会将用户查询进行分词处理,提取出其中的实体和谓词;
对提取出的谓词进行扩展,列出该谓词可能的变形,这里的谓词扩展处理是:基于预先设置的谓词变形规则或者谓词变形的词典来获取谓词扩展;
基于用户查询中的谓词以及可能的谓词变形以及用户查询中的实体,去知识库中检索知识内容。如果在知识库中存在与用户查询中的谓词或者与谓词变形对应的三元组,则提取出该三元组作为查询结果提供给用户,如果知识库中不存在与用户查询中的谓词或者与谓词变形对应的三元组,则向用户返回查询结果为空。
在上述的处理过程中,由于谓词的变形是根据预设规则或者词典来获取的,其本质上获取到的谓词变形非常有限,而用户查询的内容又存在很大的不确定性,使用的语言也会有很多变化,很难找到匹配较好的谓词变形,因此,很可能会出现查询不到的情形,或者由于谓词变形的有限性,而导致查询的结果不理想。另外,基于谓词变形的方式进行知识检索,并非从语义角度去理解用户查询,因此,在查询结果方面,会存在与用户的查询目的不匹配或者匹配度较差的情形。
针对上述情形,本发明实施例提出了一种知识内容的处理方法及装置,在进行三元组的知识内容的查询过程中,针对谓词的处理方面进行了改进。在本发明实施例中,不再基于预先设置的谓词变形规则或者谓词变形的词典来对谓词进行扩展,而是先根据用户查询中的实体,去知识库中找到与该实体相关的全部谓词,然后,再判断这些谓词与用户查询中的谓词之间的相关性,从中选择较为优选的谓词,最后再进行知识内容的获取。
通过上述的处理方式,使得谓词的处理不再拘泥于预设的规则以及有限的谓词变形的词典,从而提高知识查询的灵活性和全面性,找到更加符合用户查询意图的知识内容。
下面将将详细介绍一下知识内容的处理方法及装置的详细技术方案。
如图1所示,其为本发明实施例的知识内容的处理装置之一的应用示例框图100。该处理装置101用于向用户提供基于三元组的知识内容的查询处理。图中的处理装置101可以被实现为小型因素便携式(或移动)电子装置或者设置于小型因素便携式(或移动)电子装置中。这里所说的小型因素便携式(或移动)电子装置可以是:例如,蜂窝电话、个人数据助理(PDA)、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。处理装置101还可以被实现为台式计算机、笔记本电脑、平板电脑、专用服务器等计算机设备,或者设置于这些计算机设备中。另外,处理装置101还可以被实现为通信网络中的服务器或者设置于该服务器之中,该服务器可以通过一个或多个计算机系统实现(分布式服务器),处理装置101也可以实现为基于云架构的云服务器或者设置于云服务器之中,该云服务器可以通过通信网络与用户终端连接,为用户提供基于云的知识内容的查询服务。
作为一种示例,图1所示的处理装置101设置于服务器102中,服务器102通信网络104与用户终端103连接,用户终端103通过通信网络104向服务器102发送用户查询,服务器102接收到用户终端103发送来的用户查询后,交给处理装置101进行处理,生成查询结果后,再通过通信网络104返回给用户终端103。本发明实施例所涉及到的知识库105可以存储于服务器102的本地存储介质中,也可以存储于与服务器102连接的另一服务器或者数据库中,其中,存储知识库的服务器或者数据库可以是分布式服务器或者数据库,也可以是基于云架构的服务器或者数据库。上述的服务器102可以是用于支持聊天机器人的智能聊天功能的服务器,上述的处理装置101可以嵌入到聊天机器人的处理模块中,或者作为与聊天机器人进行通信连接的程序模块。上述的服务器102可以是用于提供检索服务的检索服务器,该检索服务器用于向用户终端103提供知识内容。
本发明实施例的知识内容的处理装置101具体包括提取模块106、谓词查询模块107、谓词筛选模块108以及知识内容获取模块109:
提取模块106,用于提取用户查询中的实体和第一谓词。用户查询的一般形式是疑问句的形式,实体和谓词在整个用户查询中是较为关键的部分,具体的提取方式,可以通过对用户查询进行分词处理而获取到实体和谓词,为了与后面提到的谓词进行区分,这里称作“第一谓词”。
谓词查询模块107,用于根据用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词。
在本发明实施例中,第二谓词不是根据第一谓词扩展得到的,而是根据用户查询中的实体检索获得的,通过谓词查询模块处理,可以将知识库与用户查询中的实体有匹配关系的全部谓词都找出来,然后再进行后续的谓词筛选。当然,也可以根据实际需要查找出一定比例的谓词,然后再进行后续的谓词筛选。在以三元组形式存储知识内容的知识库中,实体和谓词的存储方式都比较清晰,因此,很容易可以获得到与用户查询中的实体匹配的全部谓词。上述的与用户查询中的实体匹配的谓词也就是与用户查询中的实体处于同一三元组中的谓词。
谓词筛选模块108,用于计算第一谓词和多个第二谓词的之间的相关度,并根据相关度对多个第二谓词进行筛选,确定出第一个或多个第三谓词。其中,这里的相关度可以是基于语义分析的相关度,该相关度可以是将谓词转换为词向量后,在给定的语义空间中计算向量间的距离而获得的相关度。基于词向量的距离而确定的相关度能够突破现有技术中预设的谓词变形规则或者谓词变形的词典的限制,从语义学和词向量空间的角度找到在语义上关联性较大的谓词。
具体地,谓词筛选模块108可以进一步包括语义关联性分析模块110和谓词确定模块111。
语义关联性分析模块110,用于将第一谓词和多个第二谓词转换为语义向量,并进行语义关联性分析,生成多个第二谓词和第一谓词之间相关度的排序和/或相关度。其中,上述的可以语义关联性分析可以基于神经网络模型来完成。
谓词确定模块111,用于根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。该第三谓词将会作为用于检索知识内容的谓词。
知识内容获取模块109,用于基于第三谓词和用户查询中的实体,在知识库中进行检索,获取知识内容。
在上述技术方案中,处理装置101先根据查询向量中的实体找到知识库中与该实体匹配的谓词,然后通过语义关联性分析的方式,确定与用户查询中的谓词关联性较高的一个或多个谓词,然后再获取知识内容,通过这样的处理方式,在谓词匹配方面更加灵活和全面,能够更加准确和全面地找到用户查询的相关知识内容,从而更好的满足用户的需求。
上述图1的处理装置101所执行的针对三元组形式的知识内容的查询处理流程可以如图2所示,图2为本发明实施例的知识内容的处理方法的流程之一的示意图200。该处理方法可以包括:
S201:提取用户查询中的实体和第一谓词。该步骤的处理可以由上述的提取模块106执行。
S202:根据用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词。该步骤的处理可以由上述的谓词查询模块107执行。
S203:计算第一谓词和多个第二谓词的之间的相关度,并根据相关度对多个第二谓词进行筛选,确定出第一个或多个第三谓词。该步骤的处理可以由上述的谓词筛选模块108执行。
其中,该步骤的处理可以进一步包括:
S2031:将第一谓词和多个第二谓词转换为语义向量,并进行语义关联性分析,生成多个第二谓词和第一谓词之间相关度的排序和/或相关度。该步骤中的语义关联性分析可以基于神经网络模型进行。步骤S2031的处理可以由上述的语义关联性分析模块110来执行。
S2032:根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。步骤S2032的处理可以由上述的谓词确定模块111执行。
S204:基于第三谓词和用户查询中的实体,在知识库中进行检索,获取知识内容。该步骤的处理可以由上述的知识内容获取模块109执行。
以上介绍了本发明实施例针对三元组的知识内容的查询处理流程,其技术细节以及相应的技术效果在之前针对处理装置的介绍中进行了详细说明,在此不再赘述。
下面以一个简单的应用实例来进一步说明一下针对三元组的知识内容的查询处理技术。
针对三元组形式的知识内容的查询处理示例
以用户输入的用户查询为“梅西在哪个俱乐部”为例来说明一下本发明实施例的处理过程,整个处理过程如图3所示,其为本发明实施例的应用实例之一的处理流程示意框图300。
步骤a1:用户输入的用户查询301为“梅西在哪个俱乐部”;
步骤b1:对该用户查询进行分词及识别处理302,分词的结果为“梅西/在/哪个/俱乐部”,对分词结果进行识别后,可以得到实体303为“梅西”、谓词304为“在”。
步骤c1:根据确定的实体303“梅西”,在知识库305中找到与“梅西”搭配的谓词306,如下表一,该表一列出了知识库中的有关实体“梅西”的谓词以及对应的三元组:
表一:
步骤d1:将找到的知识库305中的谓词306和用户查询中自带的谓词304进行词嵌入处理307,生成词向量(包括知识库的谓词的词向量308和用户查询的谓词的词向量309)。由于在生成词向量的过程中,会提取相关特征,这些特征会与该谓词的上下文有关,因此,用户查询中的“在”与知识库中的“在”,对应的词向量可能是不同的词向量。
步骤e1:将知识库中的谓词对应的词向量308和用户查询的谓词对应的词向量309输入到神经网络模型310中进行处理,输出用户查询中的谓词“在”与知识库中的各个谓词之前的关联性打分并进行排名,生成谓词关联性排名信息311,这些关联性主要是利用词向量之间的向量距离进行判定。需要说明的是,这里的神经网络模型基于大量的语料库进行了训练,其中语料库至少包括了当前的知识库305。
步骤f1:根据谓词关联性排名信息311(包含了谓词间的关联性的排名以及关联性的打分)进行谓词筛选312,选择靠前的谓词和/或关联性的打分超过预设阈值的谓词,并件筛选后的谓词313和上述的实体303“梅西”一起去知识库305中进行检索,获取相关的三元组作为查询结果314。
步骤g1:将获得查询结果314提供给用户。
以上介绍了基于已经构建的三元组形式的知识库,进行知识内容查询的处理。此外,在本发明实施例中,还在如何创建三元组形式的知识内容方面提出了改进。
针对三元组形式的知识内容的构建处理
在一般情况下,三元组是从已有的语料中提取出来的,这些语料可以来自于网络中的文章或者用户提供的一些语料内容,比如,这些语料可以是网络中的微博上的信息,也可以是博客或者论坛上的文章等,也可以是用户主动提供给服务器102的文章,或者是在用户与聊天机器人进行聊天时上下文内容。三元组的提取主要是识别语料中的实体(主)、谓词(谓)、属性(宾)的元素,然后构建成三元组。对于语法结构较为明显的语料,可以直接提取出三元组的信息,但是,在很多语料中,其包含的知识内容可能并没有以明显的“主谓宾”的语法结构呈现,而是将谓词进行了省略或者隐含。例如,在句子“北京的故宫迎来了今年冬天的第一场雪”中,“故宫”作为主语和实体,“迎来了”最为谓词,“第一场雪”作为宾语和属性,这是一个明显的三元组关系,但是,在该句子中,还隐含了“故宫位于(或者在)北京”这样的知识内容,该知识内容实际上也是一个三元组,只不过,在句子中,谓词“位于”或者“在”被隐含了。基于现有技术中的三元组的提取方式,这样的知识内容可能就会被忽略掉了。
针对上述的情形,本发明实施例提出了一种针对隐性的三元组的知识内容进行提取的处理机制,先识别出语料中可能作为三元组中的实体和属性的词语对,然后根据预设的谓词的语义规则,确定可能的谓词,从而形成三元组。
通过上述的提取隐性三元组的处理技术,能够识别出语料中包含的隐含三元组信息,从而能够更加深入地从语料中提取出有价值的知识点。
具体地,如图4所示,其为本发明实施例的知识内容的处理装置之二的应用示例框图400。图中的处理装置401用于提取隐性的三元组。处理装置401可以被实现为小型因素便携式(或移动)电子装置或者设置于小型因素便携式(或移动)电子装置中。这里所说的小型因素便携式(或移动)电子装置可以是:例如,蜂窝电话、个人数据助理(PDA)、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。处理装置401还可以被实现为台式计算机、笔记本电脑、平板电脑、专用服务器等计算机设备,或者设置于这些计算机设备中。另外,处理装置401还可以被实现为通信网络中的服务器或者设置于该服务器之中,该服务器可以通过一个或多个计算机系统实现(分布式服务器),处理装置401也可以实现为基于云架构的云服务器或者设置于云服务器之中,该云服务器可以通过通信网络与用户终端连接,为用户提供基于云的知识库的构建服务,还可以同时提供基于知识库的知识内容的查询服务。
作为一种示例,图4所示的处理装置401设置于服务器404中,服务器402通过通信网络404与用户终端403以及用于提供内容服务(例如网站、博客以及论坛等)的内容服务器406连接。服务器402可以从用户终端402处获取用于构建知识内容的语料(例如,用户主动上传的文章,或者聊天机器人与用户之间的聊天记录等),也可以从内容服务器406处获取语料(例如微博上的信息;网站、博客以及论坛上的文章;其他的公开的知识内容(例如维基百科)等)。服务器402将获取到的语料交给处理装置401进行处理,以生成的三元组信息,并存储于知识库405中。本发明实施例所涉及到的知识库405可以存储于服务器402的本地存储介质中,也可以存储于与服务器402连接的另一服务器或者数据库中,其中,存储知识库的服务器或者数据库可以是分布式服务器或者数据库,也可以是基于云架构的服务器或者数据库。上述的服务器402可以是用于支持聊天机器人的智能聊天功能的服务器,上述的处理装置401可以嵌入到聊天机器人的处理模块中,或者作为与聊天机器人进行通信连接的程序模块。上述的服务器402可以是用于提供检索服务的检索服务器,该检索服务器用于向用户终端403提供知识内容。
具体地,上述的处理装置401可以包括词语对识别模块406、隐含谓词确定模块407以及隐性三元组生成模块408:
词语对识别模块406,用于从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体。
隐含谓词确定模块407,用于根据预设的谓词的语义规则,识别词语对中的词语之间的关系,并确定词语对中隐含谓词。这里所说的谓词的语义规则可以是基于语义学对大量的谓词进行统计和抽象出的规则,例如常见的语法关系中,如果词语对的两个词语是同位语的关系,则其相当于“是”的谓词关系,再例如,如果是词语对的两个词语中有一个是表示地理位置的词语,另一个是表示建筑物的词语,词语对之间的连接词是例如“的”这样的修饰关系词,则这两个词语之间可能是隐含了表示地理位置关系的“位于”或者“在”这样的谓词。关于谓词的语义规则在本发明实施例中并不做限定,可以根据实际的需要(例如语料的不同)或者经验来灵活设定。
隐性三元组生成模块408,用于基于隐含谓词和词语对,生成隐性的三元组。
需要说明的是,以上的处理装置401所包含的模块主要是用来从语料中提取隐含三元组的,但是,上述的处理装置401仍然可以包含用于从语料中提取显性三元组的处理模块,从而构成一个完备的用于提取三元组的处理装置。提取显性三元组的处理机制,可以采用现有技术中的处理手段即可,在此不再赘述。
此外,如图5所示,其为本发明实施例的知识内容的处理装置之三的应用示例框图500,作为一种变形的示例,与图4中的处理装置401不同之处在于,处理装置501还可以包括:
词语对筛选模块502,用于根据词语对的出现率,对一个或多个词语对进行筛选,将筛选后的一个或多个词语对提供给隐含谓词确定模块407进行处理。通过词语对筛选模块502的处理,可以将出现率较低的词语对在形成三元组之前就筛除掉,从而避免出现错误或者价值较低的三元组。
上述的处理装置101和处理装置401(或者处理装置501)可以设置在同一服务器中,也可以融合为同一处理装置,在向用户提供知识内容的查询的同时还构建知识库中的知识内容,即在同一处理装置中包含上述处理装置101和处理装置401(或者处理装置501)所包含的功能模块,其中,上述处理装置101和处理装置401(或者处理装置501)所包含的功能模块可以分别并行执行相应的功能。
上述图4中的处理装置401所执行的针对三元组形式的知识内容的构建处理流程可以如图6所示,图6为本发明实施例的知识内容的处理方法的流程之二的示意图600。该处理方法可以包括:
S601:从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体。该步骤的处理可以由上述的词语对识别模块406执行。
S602:根据预设的谓词的语义规则,识别词语对中的词语之间的关系,并确定词语对中隐含谓词。该步骤的处理可以由上述的隐含谓词确定模块407执行。
S603:基于隐含谓词和词语对,生成隐性的三元组。该步骤的处理可以由上述的隐性三元组生成模块408执行。
上述的步骤S601至步骤S603的处理可以附加于图2的处理流程中,可以先与图2所示的流程执行,也可以与图2所示的流程并行执行。
上述图5中的处理装置501所执行的针对三元组形式的知识内容的构建处理流程可以如图7所示,图7为本发明实施例的知识内容的处理方法的流程之三的示意图700。该处理方法可以包括:
S701:从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体。该步骤的处理可以由上述的词语对识别模块406执行。
S702:根据词语对的出现率,对一个或多个词语对进行筛选。该步骤的处理可以由上述的词语对筛选模块502执行。
S703:根据预设的谓词的语义规则,识别筛选后的词语对中的词语之间的关系,并确定词语对中隐含谓词。该步骤的处理可以由上述的隐含谓词确定模块407执行。
S704:基于隐含谓词和词语对,生成隐性的三元组。该步骤的处理可以由上述的隐性三元组生成模块408执行。
上述的步骤S701至步骤S704的处理可以附加于图2的处理流程中,可以与图2所示的流程以任意的先后顺序执行,也可以与图2所示的流程并行执行。
以上介绍了本发明实施例针对三元组的知识内容的构建处理流程,其技术细节以及相应的技术效果在之前针对处理装置的介绍中进行了详细说明,在此不再赘述。
下面以一个简单的应用实例来进一步说明一下针对隐性三元组的知识内容的构建处理技术。
隐性三元组的知识内容的构建的示例一
文章中包括“昨晚7点在工人体育场举行了北京国安队的比赛,国安主教练曼萨洛亲临现场进行指挥”的句子。
基于语义分析,发现“国安主教练曼萨洛”中,“国安主教练”和“曼萨罗”是并列关系,通过大量的统计发现,“国安主教练曼萨洛”这种组合(通过分词发现是两个词)大量出现,基于谓词“是”的语义规则,判断这个词语对中,很可能隐含包含了“是”这样的谓词,从而提取出<国安主教练,是,曼萨罗>这样的三元组。
隐性三元组的知识内容的构建的示例二
文章中包括:“北京的故宫迎来了今年冬天的第一场雪”的句子。
基于语义分析,发现“北京”和“故宫”这样的词语对,并且词语之间的连接词是“的”,属于修饰关系,其中,“北京”是地理位置信息,“故宫”是实体。在文章中,也发现存在大量的北京的故宫的组合,则根据“位于”的谓词判定规则,认为可能隐含了“位于”的谓词,因此,提取出<故宫,位于,北京>这样的三元组。
针对三元组形式的知识内容进行去噪音处理
以上介绍了用户提取隐性以及显性三元组的处理机制。无论以何种方式提取的三元组,其都可能存在一定的错误知识内容或者是低质量的知识内容,这是由于语料本身的质量以及语言表达的灵活性所造成的,也是很难避免的。
针对上述的问题,本发明实施例提出了一种对三元组形式的知识内容进行去除噪音的处理机制,将提取出的三元组中的实体和谓词转换为词向量,然后计算实体与谓词之间的向量距离,向量距离体现了相关度的高低,根据向量距离选择保留的三元组。
通过上述的去除噪声的处理,能够去除掉知识库中错误的三元组的知识内容或者是低质量的三元组的知识内容,从而使得后续查询到的知识内容更加准确和有效。
如图8所示,其为本发明实施例的知识内容的处理装置之四的应用示例框图800,该处理装置801用于对三元组进行去除噪音的处理。该处理装置801可以与上述的图1至图3中的处理装置设置于同一服务器中,也可以与图1、图4以及图5中的任意一个处理装置融合为同一处理装置,在向用户提供知识内容的查询和/或在构建知识库中的知识内容的同时,对知识库中的三元组进行除去噪声的处理。当然,该处理装置801也可以独立设置在与图1、图4以及图5具有相同环境的服务器802(如图8中所示)中,对已经生成的知识库803中的三元组进行去除噪音的处理。
具体地,该处理装置801可以包括词向量转换模块804、向量距离计算模块805以及三元组筛选模块806。
词向量转换模块804,用于从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量。具体地,可以基于给定的语料库,将多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
向量距离计算模块805,用于计算各个三元组中实体与谓词对应的词向量之间的向量距离。
三元组筛选模块806,用于根据向量距离对多个三元组进行筛选。
上述图8中的处理装置801所执行的针对三元组形式的知识内容的筛选处理流程可以如图9所示,图9为本发明实施例的知识内容的处理方法的流程之四的示意图900。该处理方法可以包括:
S901:从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量。具体地,可以基于给定的语料库,将多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。该步骤的处理可以由上述的词向量转换模块804执行。
S902:计算各个三元组中实体与谓词对应的词向量之间的向量距离。该步骤的处理可以由上述的向量距离计算模块805执行。
S903:根据向量距离对多个三元组进行筛选。该步骤的处理可以由上述的三元组筛选模块806执行。
上述的步骤S901至步骤S904的处理可以附加于图2或者图6或者图7的处理流程中,可以与图2或者图6或者图7所示的流程以任意的先后顺序执行,也可以并行执行。
以上介绍了本发明实施例针对三元组的知识内容的筛选处理流程,其技术细节以及相应的技术效果在之前针对处理装置的介绍中进行了详细说明,在此不再赘述。
下面以一个简单的应用实例来进一步说明一下针对三元组的知识内容的筛选处理技术。
三元组的知识内容的筛选示例
表二:针对某个实体(XX球员),从文章中抽取了如下的三元组:
步骤a2:从表二的几个句子中,提取出一些三元组,并存入了知识库中。其中,一段原文可能会提取出多个三元组。
步骤b2:基于给定的语料库(该语料库至少包含当前文章),将各个实体以及谓词进行基于神经网络的词嵌入处理,生成词向量。
步骤c2:计算实体对应的词向量与各个谓词对应的词向量之间的词向量距离(体现了实体与各个谓词之间的相关度)。
步骤c2:基于词向量的距离进行排序,根据预设规则,选择相关度较高的实体与谓词的组合,作为保留的三元组。例如,经过排序发现,“XX队员打入”和“XX队员破门”的组合排名前两位并且得分较高(向量距离较小,相关度较高),“XX队员晃开”得分中等,“XX队员成立于”的得分最低。基于这样的结果,可以将“XX队员打入”和“XX队员破门”相关的三元组保留在知识库中,其他的作为噪音去掉。如果设置的筛选策略较为宽松(相关度的阈值设定低一些),也可以保留“XX队员晃开”对应的三元组,具体的策略可以根据实际需要而调整。
以上介绍了针对三元组的知识内容的查询、知识内容的构建以及噪声处理的相关技术。在知识库中,除了三元组形式的知识内容之外,还存在以段落形式存在的知识内容,段落形式的知识内容可以包括由多个句子构成的知识内容,也可以包括单个句子构成的知识内容,也就是说,在本发明实施例中,句子是段落的特殊形式。
针对段落形式的知识内容的处理
在现有技术中,针对段落形式的知识内容的查询处理,主要是基于用户查询中的关键词在知识库中进行直接的匹配检索,并将找到的匹配内容提供用户,通过直接的匹配检索所获得的查询结果,受限于用户查询中的关键词,其找到的答案很可能不全面,甚至会因为语言表达形式的多变性和丰富性,导致查询到的知识内容不全面或者错误。
针对上述的问题,本发明实施例提出了针对段落形式的知识内容的查询处理技术,其主要的处理方式如下:将用户查询分词后,在知识库中找到包含这些分词的段落(这些分词作为查找段落的查询词),形成多个<用户查询,段落>的组合(称作查询对)。对于每个查询对进行特征提取,生成与查询对对应的查询对向量,然后将查询对向量输入到相关度排序模型中进行相关度排序处理,输出关于用户查询与各个段落之间的相关度的排序(或者也输出相关度),然后基于相关度的排序选择作为查询结果输出的段落。需要说明的是,在本发明实施例中,句子是段落的一种特殊形式,包含在段落的范畴内。
其中,在生成查询对向量之前,还可以对基于用户查询分层找到的全部<用户查询,段落>的组合(即全部查询对)进行筛选。基于分词作为查找段落的查询词进行段落查询的过程中,由于包含具体某个查询词或者相似关键词的段落可能特别多,为了避免后续计算中的巨大开销,查询过程中可以利用一些匹配方面的特征(例如BM25等特征)对针对某一个用户查询所有找到的全部查询对进行综合打分排序,然后基于排序结果进行筛选,这个阶段可以称为L1阶段。
然后把L1阶段保留下来查询对进行特征提取,生成与查询对对应的查询对向量,然后将查询对向量输入到相关度排序模型中进行相关度排序处理,输出关于用户查询与各个段落之间的相关度的排序(或者也输出相关度),然后基于相关度的排序选择作为查询结果输出的段落。需要说明的是,在本发明实施例中,句子是段落的一种特殊形式,包含在段落的范畴内。
其中,对于每个<用户查询,段落>组合提取的特征,形成查询对向量中的各项特征,具体可以包括:
1)匹配方面的特征,例如BM25(Best Match25,最佳匹配25)、LDA(LatentDirichlet Allocation,潜在狄利克雷分配)等;
2)根据用户查询与段落间语义相关性的特征,将用户查询和段落转换为词向量后,输入到深度神经网络模型而得到的语义相关度方面的特征,这里的深度神经网络模型是经过大量的问答语料库训练后的模型,这些语料库不限于知识库本身,也可以是网络上的资源,例如知识百科或者网络中常用的FAQ(常见问题解答)知识库等。其中,将用户查询和段落转化为词向量也可以通过神经网络模型来处理。
在上述处理过程中,先获取满足L1阶段要求的全部段落,并通过对<用户查询,段落>组合进行特征提取而形成了特征向量,然后再通过排序模型,对各个段落与用户查询之间进行相关度的综合排序,从而最终确定输出段落。通过这种方式,能够更加深入和全面的对相关的段落进行分析,从而能够找到更加符合用户查询期望的查询结果。
如图10所示,其为本发明实施例的知识内容的处理装置之五的结构示意框图1000。该处理装置1001可以被实现为小型因素便携式(或移动)电子装置或者设置于小型因素便携式(或移动)电子装置中。这里所说的小型因素便携式(或移动)电子装置可以是:例如,蜂窝电话、个人数据助理(PDA)、个人媒体播放器装置、无线网络观看装置、个人头戴装置、专用装置或包括以上功能中的任何一个的混合装置。处理装置1001还可以被实现为台式计算机、笔记本电脑、平板电脑、专用服务器等计算机设备,或者设置于这些计算机设备中。另外,处理装置1001还可以被实现为通信网络中的服务器或者设置于该服务器之中,该服务器可以通过一个或多个计算机系统实现(分布式服务器),处理装置1001也可以实现为基于云架构的云服务器或者设置于云服务器之中,该云服务器可以通过通信网络与用户终端连接,为用户提供基于云的知识内容的查询服务。
下面将将详细介绍一下针对段落形式知识内容的查询处理方法及装置的详细技术方案。
作为一种示例,处理装置1001设置于与图1相似的应用环境中,即图10所示的处理装置1001设置于服务器1002中,服务器1002通过通信网络1004与用户终端1003连接,用户终端1004通过通信网络1004向服务器1002发送用户查询,服务器1002接收到用户终端发送来的用户查询后,交给处理装置1001进行处理,生成查询结果后,在通过通信网络1004返回给用户终端1004。本发明实施例所涉及到的知识库1005可以存储于服务器1002的本地存储介质中,也可以存储于与服务器1002连接的另一服务器或者数据库中,其中,存储知识库的服务器或者数据库可以是分布式服务器或者数据库,也可以是基于云架构的服务器或者数据库。上述的服务器1002可以是用于支持聊天机器人的智能聊天功能的服务器,上述的处理装置1001可以嵌入到聊天机器人的处理模块中,或者作为与聊天机器人进行通信连接的程序模块。上述的服务器1002可以是用于提供检索服务的检索服务器,该检索服务器用于向用户提供知识内容。
当然,该处理装置1001也可以与上述的图1至图4中的处理装置设置于同一服务器中,也可以与图1至图3中的任意一个处理装置融合为同一处理装置,在向用户提供知识内容的查询和/或在构建知识库中的知识内容和/或进行三元组的噪音去除的同时,提供基于段落形式的知识内容的查询处理。
具体地,该处理装置1001包括分词模块1006、查询对生成模块1007、特征提取模块1008、相关度排序模块1009以及查询结果生成模块1010:
分词模块1006,用于将用户查询进行分词处理,生成多个查询词。
查询对生成模块1007,用于分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成多个由用户查询与各个段落组合而成的查询对。
其中,为了提高处理效率,在生成查询对的过程中,可以利用匹配方面的特征(例如BM25等特征)对针对用户查询所有找到的查询对进行综合打分排序,并根据排序结果进行筛选,将筛选后的查询对提供给特征提取模块1008进行后续的处理。
特征提取模块1008,用于对各个查询对进行特征提取,生成多个查询对向量。其中,对于查询对的特征提取可以具体包括:对查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。进一步地,提取用户查询和段落之间的语义相关度特征可以具体为:将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。
相关度排序模块1009,用于将多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度;
查询结果生成模块1010,用于根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。
上述图10中的处理装置1001所执行的针对段落形式的知识内容的查询处理流程可以如图11所示,图11为本发明实施例的知识内容的处理方法的流程之五的示意图1100。该处理方法可以包括:
S1101:将用户查询进行分词处理,生成多个查询词。该步骤的处理可以由上述的分词模块1006执行。
S1102:分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成由用户查询与各个段落组合而成的查询对。该步骤的处理可以由上述的查询对生成模块1007执行。
其中,为了提高处理效率,在生成查询对的过程中,可以利用匹配方面的特征(例如BM25等特征)对针对用户查询所有找到的查询对进行综合打分排序,并根据排序结果进行筛选,然后基于筛选后的查询对进行后续的处理。
S1103:对各个查询对进行特征提取,生成多个查询对向量。其中,对于查询对的特征提取可以具体包括:对查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。进一步地,提取用户查询和段落之间的语义相关度特征可以具体为:将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。该步骤的处理可以由上述的特征提取模块1008执行。
S1104:将多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度。该步骤的处理可以由上述的相关度排序模块1009执行。
S1105:根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。该步骤的处理可以由上述的查询结果生成模块1010执行。
上述的步骤S1101至步骤S1105的处理可以附加于图2或者图6或者图7或者图9的处理流程中,可以与图2或者图6或者图7或者图9所示的流程以任意的先后顺序执行,也可以并行执行。
以上介绍了本发明实施例针对段落形式的知识内容的查询处理流程,其技术细节以及相应的技术效果在之前针对处理装置的介绍中进行了详细说明,在此不再赘述。
段落形式的知识内容的查询处理示例
本例中,以用户查询为“梅西在哪个俱乐部”为例进行说明,整个处理过程如图12所示,其为本发明实施例的应用实例之二的处理流程示意框图1200。
步骤a3:用户输入的用户查询1201为“梅西在哪个俱乐部”。
步骤b3:对用户查询1201进行分词处理1202,得到“梅西/在/哪个/俱乐部”这样的分词结构1203。
步骤c3:在知识库1204中将分词作为查询词进行检索,找到包含一个或多个分词的段落,并与用户查询构成<用户查询,段落>这样的查询对1205。
需要说明的是,在进行检索时,为了缩小范围,也可以去掉一些对于检索目的没有意义的分词或者组合,比如,可以将疑问词“哪里”去掉,只检索包含“梅西”、“在”、“俱乐部”。再例如,可以只检索包含“梅西”和“俱乐部”以及“梅西”和“在”以及“在”和“俱乐部”这样的组合的段落。此外,在这个阶段生成的查询对可以进行基于匹配方面的特征(例如BM25)进行筛选,针对筛选后的查询对再进行特征提取1206的处理。
在本发明中,段落是经过预先处理的,每个段落对应一个知识点。一个句子也可以作为一个段落,即句子是段落的特殊形式。例如,从知识库1204中找到的段落如下表三,为了简化描述而更多采用句子作为段落的示例。
表三
步骤d3:对这些查询对1205进行特征提取1206,生成查询对的语义向量1207。提取的特征包括匹配方面的特征(BM25特征、LDA特征等),用户查询和段落之间的语义相关度特征,将这些特征进行整合生成查询对的语义向量。
步骤e3:将查询对的语义向量1207输入到排序模型1208中进行处理,生成基于用户查询与各个段落的相关度的排名1209。
步骤f3:根据相关度排名1209进行段落筛选1210,选择相关度排名靠前的段落作为查询结,1211进行输出。
具体实现示例
在一些例子中,上述图1至图12涉及的一个或多个模块或者一个或多个步骤或者一个或多个处理过程,可以通过软件程序、硬件电路,也可以通过软件程序和硬件电路相结合的方式来实现。例如,上述各个组件或者模块以及一个或多个步骤都可在芯片上系统(SoC)中实现。SoC可包括:集成电路芯片,该集成电路芯片包括以下一个或多个:处理单元(如中央处理单元(CPU)、微控制器、微处理单元、数字信号处理单元(DSP)等)、存储器、一个或多个通信接口、和/或用于执行其功能的进一步的电路和可任选的嵌入的固件。
如图13所示,其为发明实施例的电子设备1300的结构框图。电子设备1300包括:存储器1301和处理器1302。
存储器1301,用于存储程序。除上述程序之外,存储器1301还可被配置为存储其它各种数据以支持在电子设备1300上的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
存储器1301耦合至处理器1302并且包含存储于其上的指令,所说的指令在由处理器1302执行时使电子设备执行动作,作为一种电子设备的实施例,该动作可以包括:
提取用户查询中的实体和第一谓词;
根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
其中,计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出一个或多个第三谓词可以包括:
将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成所述多个第二谓词和第一谓词之间相关度的排序和/或相关度;
根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
其中,所述进行语义关联性分析可以包括:基于神经网络模型进行语义关联性分析。
其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括提取隐性的三元组的处理,该处理可以包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
其中,在识别具有关联关系的词语对后还可以包括:
根据所述词语对的出现率,对所述一个或多个词语对进行筛选,然后,针对筛选后的一个或多个词语对执行确定隐含谓词的处理。
其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括针对提取的多个三元组进行去除噪音的处理,该处理可以包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
作为另一种电子设备的实施例,所说的指令在由处理器1302执行时使电子设备执行动作,该动作可以包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
作为又一种电子设备的实施例,所说的指令在由处理器1302执行时使电子设备执行动作,该动作可以包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
作为又一种电子设备的实施例,所说的指令在由处理器1302执行时使电子设备执行动作,该动作可以包括:
将用户查询进行分词处理,生成多个查询词;
分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成用户查询与各个段落组合而成的查询对;
对各个查询对进行特征提取,生成多个查询对向量;
将所述多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度;
根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。
其中,为了提高处理效率,在生成查询对的过程中,可以利用匹配方面的特征(例如BM25等特征)对针对用户查询所有找到的查询对进行综合打分排序,并根据排序结果进行筛选,,然后基于筛选后的查询对进行后续的处理。
其中,对各个查询对进行特征提取可以包括:
对所述查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。
其中,提取用户查询和段落之间的语义相关度特征可以包括:
将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。
对于上述的处理操作,在前面方法和装置的实施例中已经进行了详细说明,对于上述的处理操作的详细内容同样也适用于电子设备1300中,即可以将前面实施例中提到的具体处理操作,以程序的方式写入在存储器1301,并通过处理器1302来进行执行。
进一步,如图13所示,电子设备1300还可以包括:通信组件1303、电源组件1304、音频组件1305、显示器1306、芯片组1307等其它组件。图13中仅示意性给出部分组件,并不意味着电子设备1300只包括图13所示组件。
通信组件1303被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1303经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件1303还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件1304,为电子设备的各种组件提供电力。电源组件1304可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件1305被配置为输出和/或输入音频信号。例如,音频组件1305包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1301或经由通信组件1303发送。在一些实施例中,音频组件1305还包括一个扬声器,用于输出音频信号。
显示器1306包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述的存储器1301、处理器1302、通信组件1303、电源组件1304、音频组件1305以及显示器1306可以与芯片组1307连接。芯片组1307可以提供处理器1302与电子设备1300中的其余组件之间的接口。此外,芯片组1307还可以提供电子设备1300中的各个组件对存储器1301的访问接口以及各个组件间相互访问的通讯接口。
示例条款
A:一种方法,包括:
提取用户查询中的实体和第一谓词;
根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
B:根据段落A所述的方法,其中,计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出一个或多个第三谓词包括:
将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成所述多个第二谓词和第一谓词之间相关度的排序和/或相关度;
根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
C:根据段落B所述的方法,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
D:根据段落A所述的方法,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括提取隐性的三元组的处理,该处理包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
E:根据段落D所述的方法,其中,在识别具有关联关系的词语对后还包括:
根据所述词语对的出现率,对所述一个或多个词语对进行筛选,然后,针对筛选后的一个或多个词语对执行确定隐含谓词的处理。
F:根据段落A所述的方法,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括针对提取的多个三元组进行去除噪音的处理,该处理包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
G:根据段落F所述的方法,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
H:一种装置,包括:
提取模块,用于提取用户查询中的实体和第一谓词;
谓词查询模块,用于根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
谓词筛选模块,用于计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
知识内容获取模块,用于基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
I:根据段落H所述的装置,其中,所述谓词筛选模块包括:
语义关联性分析模块,用于将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成多个第二谓词和第一谓词之间相关度的排序和/或相关度;
谓词确定模块,用于根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
J:根据段落I所述的装置,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
K:根据段落H所述的装置,其中,所述知识库中知识内容以三元组的形式存储,所述装置还包括:
词语对识别模块,用于从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
隐含谓词确定模块,用于根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
隐性三元组生成模块,用于基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
L:根据段落K所述的装置,其中,还包括:
词语对筛选模块,用于根据所述词语对的出现率,对所述一个或多个词语对进行筛选,将筛选后的一个或多个词语对提供给隐含谓词确定模块进行处理。
M:根据段落H所述的装置,其中,所述知识库中知识内容以三元组的形式存储,所述装置还包括:
词向量转换模块,用于从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
向量距离计算模块,用于计算各个三元组中实体与谓词对应的词向量之间的向量距离;
三元组筛选模块,用于根据所述向量距离对所述多个三元组进行筛选。
N:根据段落M所述的装置,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
O:一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
提取用户查询中的实体和第一谓词;
根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
P:根据段落O所述的电子设备,其中,计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出一个或多个第三谓词包括:
将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成所述多个第二谓词和第一谓词之间相关度的排序和/或相关度;
根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
Q:根据段落P所述的电子设备,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
R:根据段落O所述的电子设备,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括提取隐性的三元组的处理,该处理包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
S:根据段落R所述的电子设备,其中,在识别具有关联关系的词语对后还包括:
根据所述词语对的出现率,对所述一个或多个词语对进行筛选,然后,针对筛选后的一个或多个词语对执行确定隐含谓词的处理。
T:根据段落O所述的电子设备,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括针对提取的多个三元组进行去除噪音的处理,该处理包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
U:根据段落T所述的电子设备,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
V:一种方法,包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
W:一种装置,包括:
词语对识别模块,用于从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
隐含谓词确定模块,用于根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
隐性三元组生成模块,用于基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
X:一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
Y:一种方法,包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
Z:一种装置,包括:
词向量转换模块,用于从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
向量距离计算模块,用于计算各个三元组中实体与谓词对应的词向量之间的向量距离;
三元组筛选模块,用于根据所述向量距离对所述多个三元组进行筛选。
A1:一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
B1:一种方法,包括:
将用户查询进行分词处理,生成多个查询词;
分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成由各个用户查询与各个段落组合而成的查询对;
对各个查询对进行特征提取,生成多个查询对向量;
将所述多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度;
根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。
C1:根据段落B1所述的方法,其中,对各个查询对进行特征提取包括:
对所述查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。
D1:根据段落C1所述的方法,其中,提取用户查询和段落之间的语义相关度特征包括:
将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。
E1:根据段落B1所述的方法,其中,在生成查询对的过程中,利用匹配方面的特征对查询对进行综合打分排序,并进行筛选,然后基于筛选后的查询对进行后续的处理。
F1:一种装置,包括:
分词模块,用于将用户查询进行分词处理,生成多个查询词;
查询对生成模块,用于分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成由查询向量与各个段落组合而成的查询对;
特征提取模块,用于对各个查询对进行特征提取,生成多个查询对向量;
相关度排序模块,用于将所述多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度;
查询结果生成模块,用于根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。
G1:根据段落F1所述的装置,其中,对各个查询对进行特征提取包括:
对所述查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。
H1:根据段落G1所述的装置,其中,提取用户查询和段落之间的语义相关度特征包括:
将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。
I1:根据段落F1所述的装置,其中,在生成查询对的过程中,利用匹配方面的特征对查询对进行综合打分排序,并进行筛选,将筛选后的查询对提供给所述特征提取模块进行处理。
J1:一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
将用户查询进行分词处理,生成多个查询词;
分别根据各个查询词,在知识库中获取包含各个查询词的多个段落,并生成由用户查询与各个段落组合而成的查询对;
对各个查询对进行特征提取,生成多个查询对向量;
将所述多个查询对向量输入到相关度排序模型中进行排序,生成关于用户查询与各个段落之间的相关度的排序和/或相关度;
根据预设的相关度阈值和/或相关度排序筛选策略,确定出一个或多个段落进行作为查询结果。
K1:根据段落J1所述的电子设备,其中,对各个查询对进行特征提取包括:
对所述查询对提取BM25特征、LDA特征、用户查询和段落之间的语义相关度特征中的一个或多个特征。
L1:根据段落K1所述的电子设备,其中,提取用户查询和段落之间的语义相关度特征包括:
将用户查询和段落转换为词向量,并输入到深度神经网络模型进行处理,生成用户查询与段落之间的语义相关度特征。
M1:根据段落J1所述的电子设备,其中,在生成查询对的过程中,利用匹配方面的特征对查询对进行综合打分排序,并进行筛选,然后基于筛选后的查询对进行后续的处理。
结语
系统的多个方面的硬件与软件实现之间区别不大;使用硬件还是软件通常(但并不总是,因为在某些背景下,硬件与软件之间的选择可以变得显著)是表示成本与效率权衡的设计选择。存在可以实现在此描述的处理和/或系统和/或其它技术(例如,硬件、软件,以及/或固件)的各种承载工具,并且优选承载工具将随着部署该处理和/或系统和/或其它技术的背景而改变。例如,如果实现方确定速度和准确度最重要,则该实现方可以选择主要硬件和/或固件承载工具;如果灵活性最重要,则该实现方可以选择主要软件实现;或者,此外又另选地,该实现方可以选择硬件、软件,以及/或固件的一些组合。
前述详细描述已经经由使用框图、流程图,以及/或示例阐述了该装置和/或处理的各种实施方式。至于这种框图、流程图,以及/或示例包含一个或更多个功能和/或操作,本领域技术人员应当明白,这种框图、流程图,或示例内的每一个功能和/或操作可以单独地和/或共同地,通过宽范围的硬件、软件、固件,或者实际上其任何组合来实现。在一个实施方式中,在此描述的主旨的几个部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP),或其它集成格式来实现。然而,本领域技术人员应当认识到,在此公开的实施方式的一些方面整个地或者部分地可以等同地在集成电路中实现,实现为运行在一个或更多个计算机上的一个或更多个计算机程序(例如,实现为运行在一个或更多个计算机系统上的一个或更多个程序),实现为运行在一个或更多个处理器上的一个或更多个程序(例如,实现为运行在一个或更多个微处理器上的一个或更多个程序),实现为固件,或者实际上实现为其任何组合,并且根据本公开,设计电路和/或编写用于软件和/或固件的代码完全处于本领域技术人员的技术内。另外,本领域技术人员应当清楚的是,在此描述的主题的机制能够按多种形式作为程序产品分配,并且在此描述的主题的例示性实施方式适用,而与被用于实际执行该分配的特定类型的信号承载介质无关。信号承载介质的示例包括但不限于,以下:可记录型介质,如软盘、硬盘驱动器(HDD)、质密盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等;和传输型介质,如数字和/或模拟通信媒介(例如,光纤线缆、波导管、有线通信链路、无线通信链路等)。
本领域技术人员应当认识到,按在此阐述的方式来描述装置和/或处理,并且此后,使用工程实践将这样描述的装置和/或处理集成到数据处理系统中是本领域内常见的。即,在此描述的装置和/或处理的至少一部分可以经由合理量的实验而集成到数据处理系统中。本领域技术人员应当认识到的是,通常的数据处理系统通常包括以下中的一个或更多个:系统单元外壳、视频显示装置、诸如易失性和非易失性存储器的存储器、诸如微处理器和数字信号处理器的处理器、诸如操作系统、驱动器、图形用户接口,以及应用程序的计算实体、诸如触摸板或触摸屏的一个或更多个交互式装置,以及/或包括反馈回路和控制电动机的控制系统(例如,用于感测位置和/或速度的反馈;用于移动和/或调节组件和/或数量的控制马达)。通常的数据处理系统可以利用任何合适商业可获组件来实现,如通常在数据计算/通信和/或网络通信/计算系统中找到的那些。
在此描述的主题有时例示了包含在不同的其它组件内或与其相连接的不同组件。要明白的是,这样描绘的架构仅仅是示例性的,并且实际上,可以实现获得相同功能的许多其它架构。在概念意义上,用于获得相同功能的组件的任何排布结构都有效地“关联”,以使获得希望功能。因此,在此为获得特定功能而组合的任两个组件都可以被看作彼此“相关联”,以使获得希望功能,而与架构或中间组件无关。同样地,这样关联的任两个组件还可以被视作彼此“可操作地连接”,或“可操作地耦接”,以获得希望功能,并且能够这样关联的任两个组件也可以被视作可彼此“操作地耦接”,以获得希望功能。可操作地耦接的具体示例包括但不限于,物理上可配合和/或物理上交互的组件和/或可无线地交互和/或无线地交互的组件和/或逻辑上交互和/或逻辑上可交互组件。
针对在此实质上使用的任何复数和/或单数术语,本领域技术人员可以针对背景和/或应用在适当时候从复数翻译成单数和/或从单数翻译成复数。为清楚起见,各种单数/多数置换在此可以确切地阐述。
本领域技术人员应当明白,一般来说,在此使用的,而且尤其是在所附权利要求书中(例如,所附权利要求书的主体)使用的术语通常旨在作为“开放式”措辞(例如,措辞“包括(including)”应当解释为“包括但不限于”,措辞“具有(having)”应当解释为“至少具有”,措辞“包括(include)”应当解释为“包括但不限于”等)。本领域技术人员还应当明白,如果想要特定数量的介绍权利要求列举,则这种意图将明确地在该权利要求中陈述,并且在没有这些列举的情况下,不存在这种意图。例如,为帮助理解,下面所附权利要求书可以包含使用介绍性短语“至少一个”和“一个或更多个”来介绍权利要求列举。然而,使用这种短语不应被认作,暗示由不定冠词“一(a)”或“一(an)”介绍的权利要求列举将包含这种介绍权利要求列举的任何特定权利要求限制于仅包含一个这种列举的发明,即使同一权利要求包括介绍性短语“一个或更多个”或“至少一个”以及诸如“一(a)”或“一(an)”的不定冠词(例如,“一(a)”或“一(an)”通常应当被解释成意指“至少一个”或“一个或更多个”);其对于使用为介绍权利要求列举而使用的定冠词来说同样保持为真。另外,即使明确地陈述特定数量的介绍权利要求列举,本领域技术人员也应当认识到,这种列举通常应当被解释成,至少意指所陈述数量(例如,“两个列举”的仅有的列举在没有其它修饰语的情况下通常意指至少两个列举,或者两个或更多个列举)。而且,在使用类似于“A、B,以及C等中的至少一个”的惯例的那些实例中,一般来说,这种句法结构希望本领域技术人员在意义上应当理解这种惯例(例如,“具有A、B,以及C中的至少一个的系统”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起,以及/或A、B以及C一起等的系统)。在使用类似于“A、B,或C等中的至少一个”的惯例的那些实例中,一般来说,这种句法结构希望本领域技术人员在意义上应当理解这种惯例(例如,“具有A、B,或C中的至少一个的系统”应当包括但不限于具有单独A、单独B、单独C、A和B一起、A和C一起、B和C一起,以及/或A、B以及C一起等的系统)。本领域技术人员还应当明白的是,实际上,呈现两个或更多个另选术语的任何转折词和/短语(无论处于描述、权利要求书中,还是在附图中)应当被理解成,设想包括这些术语、这些术语中的任一个,或者两个术语的可能性。例如,短语“A或B”应当被理解成,包括“A”或“B”或“A和B”的可能性。
本说明书中针对“实现方式”、“一个实现方式”、“一些实现方式”,或“其它实现方式”的引用可以意指,结合一个或更多个实现方式描述的特定特征、结构,或特性可以被包括在至少一些实现方式中,但不必被包括在所有实现方式中。前述描述中不同出现的“实现方式”、“一个实现方式”,或“一些实现方式”不必全部针对同一实现方式而引用。
虽然利用不同方法和系统描述和示出了特定示例性技术,但本领域技术人员应当明白,在不脱离要求保护的主题的情况下,可以进行各种其它修改,并且可以代替等同物。另外,在不脱离在此描述的中心概念的情况下,可以进行许多修改以使适应针对要求保护的主题的教导的特定情况。因此,要求保护的主题不限于所公开的特定示例,而是这种要求保护的主题还可以包括落入所附权利要求书及其等同物的范围内的所有实现。
尽管已经用结构特征和/或方法动作专用的语言描述了本主题,但要理解,所附权利要求书中定义的主题不必限于所描述的具体特征或动作。而是,这些具体特征和动作是作为实现该权利要求的解说性形式而公开的。
除非另外具体声明,否则在上下文中可以理解并一般地使用条件语言(诸如“能”、“能够”、“可能”或“可以”)表示特定示例包括而其他示例不包括特定特征、元素和/或步骤。因此,这样的条件语言一般并非旨在暗示对于一个或多个示例以任何方式要求特征、元素和/或步骤,或者一个或多个示例必然包括用于决定的逻辑、具有或不具有用户输入或提示、在任何特定实施例中是否要包括或要执行这些特征、元素和/或步骤。
除非另外具体声明,应理解联合语言(诸如短语“X、Y或Z中至少一个”)表示项、词语等可以是X、Y或Z中的任一者、或其组合。
本文所述和/或附图中描述的流程图中任何例行描述、元素或框应理解成潜在地表示包括用于实现该例程中具体逻辑功能或元素的一个或多个可执行指令的代码的模块、片段或部分。替换示例被包括在本文描述的示例的范围内,其中各元素或功能可被删除,或与所示出或讨论的顺序不一致地执行,包括基本上同步地执行或按相反顺序执行,这取决于所涉及的功能,如本领域技术人也将理解的。
应当强调,可对上述示例作出许多变型和修改,其中的元素如同其他可接受的示例那样应被理解。所有这样的修改和变型在此旨在包括在本公开的范围内并且由以下权利要求书保护。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (21)

1.一种方法,包括:
提取用户查询中的实体和第一谓词;
根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
2.根据权利要求1所述的方法,其中,计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出一个或多个第三谓词包括:
将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成所述多个第二谓词和第一谓词之间相关度的排序和/或相关度;
根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
3.根据权利要求2所述的方法,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
4.根据权利要求1所述的方法,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括提取隐性的三元组的处理,该处理包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
5.根据权利要求4所述的方法,其中,在识别具有关联关系的词语对后还包括:
根据所述词语对的出现率,对所述一个或多个词语对进行筛选,然后,针对筛选后的一个或多个词语对执行确定隐含谓词的处理。
6.根据权利要求1所述的方法,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括针对提取的多个三元组进行去除噪音的处理,该处理包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
7.根据权利要求6所述的方法,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
8.一种装置,包括:
提取模块,用于提取用户查询中的实体和第一谓词;
谓词查询模块,用于根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
谓词筛选模块,用于计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
知识内容获取模块,用于基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
9.根据权利要求8所述的装置,其中,所述谓词筛选模块包括:
语义关联性分析模块,用于将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成多个第二谓词和第一谓词之间相关度的排序和/或相关度;
谓词确定模块,用于根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
10.根据权利要求9所述的装置,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
11.根据权利要求8所述的装置,其中,所述知识库中知识内容以三元组的形式存储,所述装置还包括:
词语对识别模块,用于从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
隐含谓词确定模块,用于根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
隐性三元组生成模块,用于基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
12.根据权利要求11所述的装置,其中,还包括:
词语对筛选模块,用于根据所述词语对的出现率,对所述一个或多个词语对进行筛选,将筛选后的一个或多个词语对提供给隐含谓词确定模块进行处理。
13.根据权利要求8所述的装置,其中,所述知识库中知识内容以三元组的形式存储,所述装置还包括:
词向量转换模块,用于从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
向量距离计算模块,用于计算各个三元组中实体与谓词对应的词向量之间的向量距离;
三元组筛选模块,用于根据所述向量距离对所述多个三元组进行筛选。
14.根据权利要求13所述的装置,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
15.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
提取用户查询中的实体和第一谓词;
根据所述用户查询中的实体,在知识库中查找与该实体匹配的多个第二谓词;
计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出第一个或多个第三谓词;
基于所述第三谓词和所述用户查询中的实体,在知识库中进行检索,获取知识内容。
16.根据权利要求15所述的电子设备,其中,计算所述第一谓词和多个所述第二谓词的之间的相关度,并根据相关度对多个所述第二谓词进行筛选,确定出一个或多个第三谓词包括:
将所述第一谓词和多个所述第二谓词转换为语义向量,并进行语义关联性分析,生成所述多个第二谓词和第一谓词之间相关度的排序和/或相关度;
根据预设相关度阈值和/或相关度排序筛选策略,确定出一个或多个第三谓词。
17.根据权利要求16所述的电子设备,其中,所述进行语义关联性分析包括:基于神经网络模型进行语义关联性分析。
18.根据权利要求15所述的电子设备,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括提取隐性的三元组的处理,该处理包括:
从输入的语料中,识别具有关联关系的一个或多个词语对,在该词语对中,至少存在一个词语能够作为三元组中的实体;
根据预设的谓词的语义规则,识别所述词语对中的词语之间的关系,并确定所述词语对中隐含谓词;
基于所述隐含谓词和所述词语对,生成所述隐性的三元组。
19.根据权利要求18所述的电子设备,其中,在识别具有关联关系的词语对后还包括:
根据所述词语对的出现率,对所述一个或多个词语对进行筛选,然后,针对筛选后的一个或多个词语对执行确定隐含谓词的处理。
20.根据权利要求15所述的电子设备,其中,所述知识库中知识内容以三元组的形式存储,所述方法还包括针对提取的多个三元组进行去除噪音的处理,该处理包括:
从知识库的多个三元组中提取实体和谓词,并将该实体和谓词转换为词向量;
计算各个三元组中实体与谓词对应的词向量之间的向量距离;
根据所述向量距离对所述多个三元组进行筛选。
21.根据权利要求20所述的电子设备,其中,将提取的所述多个三元组中的实体和谓词转换为词向量包括:
基于给定的语料库,将所述多个三元组中的实体和谓词进行基于神经网络的词嵌入处理,生成词向量。
CN201810185049.7A 2018-03-06 2018-03-06 智能知识学习及问答技术 Pending CN110309271A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810185049.7A CN110309271A (zh) 2018-03-06 2018-03-06 智能知识学习及问答技术
PCT/US2019/019696 WO2019173085A1 (en) 2018-03-06 2019-02-27 Intelligent knowledge-learning and question-answering
US16/975,373 US11954097B2 (en) 2018-03-06 2019-02-27 Intelligent knowledge-learning and question-answering
EP19710553.9A EP3762876A1 (en) 2018-03-06 2019-02-27 Intelligent knowledge-learning and question-answering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810185049.7A CN110309271A (zh) 2018-03-06 2018-03-06 智能知识学习及问答技术

Publications (1)

Publication Number Publication Date
CN110309271A true CN110309271A (zh) 2019-10-08

Family

ID=65729462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810185049.7A Pending CN110309271A (zh) 2018-03-06 2018-03-06 智能知识学习及问答技术

Country Status (4)

Country Link
US (1) US11954097B2 (zh)
EP (1) EP3762876A1 (zh)
CN (1) CN110309271A (zh)
WO (1) WO2019173085A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991183A (zh) * 2019-12-06 2020-04-10 北京百度网讯科技有限公司 问题的谓词确定方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668332A (zh) * 2019-09-30 2021-04-16 北京国双科技有限公司 一种三元组抽取方法、装置、设备及存储介质
US11514334B2 (en) * 2020-02-07 2022-11-29 International Business Machines Corporation Maintaining a knowledge database based on user interactions with a user interface
CN116932911B (zh) * 2023-07-24 2023-12-15 山东翰林科技有限公司 一种基于ChatGPT的电力知识问答助手构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226846A1 (en) * 2012-02-24 2013-08-29 Ming Li System and Method for Universal Translating From Natural Language Questions to Structured Queries
US20150339577A1 (en) * 2014-05-22 2015-11-26 Ulli Waltinger Generating a Classifier for Performing a Query to a Given Knowledge Base
WO2018029696A1 (en) * 2016-08-10 2018-02-15 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for semantic knowledge transfer
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454393B2 (en) 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7454430B1 (en) 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8630961B2 (en) 2009-01-08 2014-01-14 Mycybertwin Group Pty Ltd Chatbots
US9110882B2 (en) 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
US9092802B1 (en) 2011-08-15 2015-07-28 Ramakrishna Akella Statistical machine learning and business process models systems and methods
EP2570974B1 (en) 2011-09-13 2018-11-28 ExB Asset Management GmbH Automatic crowd sourcing for machine learning in information extraction
WO2019090318A1 (en) * 2017-11-06 2019-05-09 Cornell University Verifying text summaries of relational data sets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130226846A1 (en) * 2012-02-24 2013-08-29 Ming Li System and Method for Universal Translating From Natural Language Questions to Structured Queries
US20150339577A1 (en) * 2014-05-22 2015-11-26 Ulli Waltinger Generating a Classifier for Performing a Query to a Given Knowledge Base
WO2018029696A1 (en) * 2016-08-10 2018-02-15 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for semantic knowledge transfer
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHIWEN XIE等: ""Topic enhanced deep structured semantic models for knowledge base question answering"", 《SCIENCE CHINA INFORMATION SCIENCES》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991183A (zh) * 2019-12-06 2020-04-10 北京百度网讯科技有限公司 问题的谓词确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20200394185A1 (en) 2020-12-17
WO2019173085A1 (en) 2019-09-12
US11954097B2 (en) 2024-04-09
EP3762876A1 (en) 2021-01-13

Similar Documents

Publication Publication Date Title
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
JP2021108183A (ja) 意図推薦方法、装置、機器及び記憶媒体
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
US9785671B2 (en) Template-driven structured query generation
CN107851092A (zh) 个人实体建模
WO2021139247A1 (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN103455487B (zh) 一种搜索词的提取方法及装置
KR20160144384A (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
CN110309271A (zh) 智能知识学习及问答技术
CN107111608A (zh) 从语言输入数据自动生成n‑元和概念关系
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
WO2023065211A1 (zh) 一种信息获取方法以及装置
US9418145B2 (en) Method and system for visualizing documents
US10482146B2 (en) Systems and methods for automatic customization of content filtering
CN112889043A (zh) 以用户为中心的浏览器位置
CN106663117A (zh) 构造支持提供探索性建议的图
CN105981005A (zh) 使用统计语言模型改进文本输入
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
KR20200009117A (ko) 텍스트 데이터 수집 및 분석을 위한 시스템
US10198497B2 (en) Search term clustering
CN109986569A (zh) 具有角色化和性格化的聊天机器人
CN110019675A (zh) 一种关键词提取的方法及装置
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113656587A (zh) 文本分类方法、装置、电子设备及存储介质
EP3721354A1 (en) Systems and methods for querying databases using interactive search paths

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination