CN107967285A - 数据处理方法和数据处理装置 - Google Patents

数据处理方法和数据处理装置 Download PDF

Info

Publication number
CN107967285A
CN107967285A CN201610917225.2A CN201610917225A CN107967285A CN 107967285 A CN107967285 A CN 107967285A CN 201610917225 A CN201610917225 A CN 201610917225A CN 107967285 A CN107967285 A CN 107967285A
Authority
CN
China
Prior art keywords
triple
answer
candidate
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610917225.2A
Other languages
English (en)
Inventor
缪庆亮
孟遥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201610917225.2A priority Critical patent/CN107967285A/zh
Publication of CN107967285A publication Critical patent/CN107967285A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理方法和数据处理装置。根据本发明的数据处理方法包括:基于语义知识库构建问题语句的语义图;根据所述语义图确定所述问题语句的答案类型;根据所述答案类型从所述语义图中确定候选语义子图;根据所述候选语义子图确定一个或者多个候选三元组;根据所述问题语句确定问题三元组;以及基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。使用根据本发明的数据处理方法和数据处理装置,能够快速可靠地根据语义知识库确定问题语句的答案。

Description

数据处理方法和数据处理装置
技术领域
本发明的实施例涉及数据处理领域,具体地涉及可以根据语义知识库确定问题答案的数据处理方法和数据处理装置。
背景技术
这个部分提供了与本发明有关的背景信息,这不一定是现有技术。
问答系统是信息检索系统的一种高级形式。当用户用自然语言提出问题时,问答系统可以通过在语义知识库中进行检索匹配来用自然语言回答用户提出的问题。然而,随着语义知识库的快速增长,从海量的语义知识库中快速准确地寻找到问题的答案也越来越困难。
RDF(Resource Description Framework,资源描述框架)是一个典型的资源库。在传统的处理方法中,问答系统首先对自然语言问句进行句法分析和语义角色标注,从而将自然语言问句翻译为标准的查询语句,例如SPARQL(Simple Protocol And RDF QueryLanguage,简单协议和RDF查询语言),然后根据标准的查询语句在整个资源库中寻找问题语句的答案。
在传统的处理方法中,需要对问句进行句法分析和语义角色标注,并且需要转换标准查询语句,增大了处理的难度,延长了处理的时间。进一步,在传统的处理方法中,需要根据标准的查询语句在整个资源库中寻找问题语句的答案,随着资源库的逐渐增大,搜索问题答案的时间也将越来越长。
针对以上技术问题,本发明希望提出一种方案,能够快速可靠地根据语义知识库确定问题语句的答案。
发明内容
这个部分提供了本发明的一般概要,而不是其全部范围或其全部特征的全面披露。
本发明的目的在于提供一种数据处理方法和数据处理装置,能够快速可靠地根据语义知识库确定问题语句的答案。
根据本发明的一方面,提供了一种数据处理方法,包括:基于语义知识库构建问题语句的语义图;根据所述语义图确定所述问题语句的答案类型;根据所述答案类型从所述语义图中确定候选语义子图;根据所述候选语义子图确定一个或者多个候选三元组;根据所述问题语句确定问题三元组;以及基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
根据本发明的另一方面,提供了一种数据处理装置,包括:语义图构建单元,用于基于语义知识库构建问题语句的语义图;答案类型确定单元,用于根据所述语义图确定所述问题语句的答案类型;语义子图确定单元,用于根据所述答案类型从所述语义图中确定候选语义子图;候选三元组确定单元,用于根据所述候选语义子图确定一个或者多个候选三元组;问题三元组确定单元,用于根据所述问题语句确定问题三元组;以及答案确定单元,用于基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
根据本发明的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本发明的数据处理方法。
根据本发明的另一方面,提供了一种机器可读存储介质,其上携带有根据本发明的程序产品。
使用根据本发明的数据处理方法和数据处理装置,将问题语句转换为问题三元组,通过问题三元组和候选三元组的相似度来确定问题的答案,无需对问题语句进行句法分析和语义角色标注,也不需要转换标准查询语句。这样一来,降低了处理的难度,提高了处理的效率,节约搜索时间。进一步,可以根据问题语句的答案类型从语义图中确定候选语义子图,并根据候选语义子图确定候选三元组,从而确定问题语句的答案。这样一来,将语义知识库中的语义图缩小到候选语义子图,无需在整个语义知识库中搜索问题的答案,大大减小了搜索的范围,从而缩短检索的时间并提高答案的准确性。综上,根据本发明的数据处理方法和数据处理装置能够快速可靠地根据语义知识库确定问题语句的答案。
这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本发明的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示出了根据本发明的实施例的数据处理方法的流程图;
图2示出了根据本发明的实施例的数据处理方法中构建问题语句的语义图的流程图;
图3示出了根据本发明的实施例的构建的语义图的一个示例;
图4示出了根据本发明的实施例的构建的语义图的另一个示例;
图5示出了根据本发明的实施例的构建的语义图的又一个示例;
图6示出了根据本发明的实施例的数据处理方法中确定问题语句的答案类型的流程图;
图7示出了根据本发明的实施例的数据处理方法中确定候选语义子图的流程图;
图8示出了根据本发明的实施例的数据处理方法中确定问题三元组的流程图;
图9示出了根据本发明的另一个实施例的数据处理方法的流程图;
图10示出了根据本发明的实施例的数据处理装置的结构框图;以及
图11为其中可以实现根据本发明的数据处理方法的通用个人计算机的示例性结构的框图。
虽然本发明容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本发明限制到公开的具体形式,而是相反地,本发明目的是要覆盖落在本发明的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本发明的示例。以下描述实质上只是示例性的,而不旨在限制本发明、应用或用途。
下面提供了示例实施例,以便本发明将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定单元、装置和方法的示例,以提供对本发明的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本发明的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
在本发明中,语义知识库是一种以描述型方法来存贮和管理知识的数据库。语义知识库形成一个语义知识域,是帮助计算机了解人类语言的一个媒介和手段。在语义知识库中的词被划分为实体词、概念词和属性词。实体词例如“中国”和“北京”等等,概念词表示包括多个实体词的概念,也可以说概念词是一种类别,概念词例如“水果”,其包括了实体词“苹果”、“香蕉”和“梨”等等,属性词表示连接实体词和概念词之间的媒介,例如在表述“中国的首都是北京”中,“首都”就是一个属性词。在语义知识库中,存储语义知识通常采用“主谓宾”的结构,也就是说,将任何一个语义知识都表示成主语-谓语-宾语的结构,从而便于存储和检索。
在本发明中,语义图是一种表示语义知识库中的语义知识的图形,语义图是数据处理领域中常用的一种图形表示。在语义图中包括多个节点和节点之间的路径。其中,节点表示语义知识库中的实体词和概念词,通常用于表示语义知识中的主语和宾语,节点之间的路径表示语义知识库中的属性词,通常用于表示语义知识中的谓语。在语义图中,一个节点(代表实体词或者概念词A)能够通过一条路径(代表属性词B)到达另一个节点(代表实体词或者概念词C)表示词A的属性B是词C,这里的词A是主语,属性B是谓语,词C是宾语。
下面结合图1来描述根据本发明的数据处理方法。图1示出了根据本发明的实施例的数据处理方法的流程图。
如图1所示,在步骤S110中,基于语义知识库构建问题语句的语义图。这里,语义知识库可以是本领域中公知的任何一种语义知识库。问题语句是用户输入的用自然语言描述的问题语句,例如“中国的首都在哪?”、“由姜文导演葛优主演的电影有哪些?”和“含维生素C最高的水果是什么?”等等。在步骤S110中,可以获取语义知识库和问题语句,从而基于语义知识库构建问题语句的语义图。
接下来,在步骤S120中,根据语义图确定问题语句的答案类型。在本发明中,问题语句的答案类型指的是能够表示该问题语句的答案的类型的信息,亦即,能够表示该问题语句的答案所属的类别的信息。例如,地点、水果、电影等等。
接下来,在步骤S130中,根据答案类型从语义图中确定候选语义子图。根据本发明的实施例,候选语义子图是问题语句的语义图的一部分。也就是说,在步骤S120确定了答案类型之后,在步骤S130中,根据答案类型从语义图中选取一部分作为候选语义子图。
接下来,在步骤S140中,根据候选语义子图确定一个或者多个候选三元组。三元组是一种常见的数据结构。在本发明中,候选三元组采用主语-谓语-宾语的结构形式。也就是说,三元组中的第一个词语表示主语,第二个词语表示谓语,第三个词语表示宾语。根据本发明的实施例,根据候选语义子图中的节点和节点之间的路径可以确定一个或者多个候选三元组。
接下来,在步骤S150中,根据问题语句确定问题三元组。前文中提到,问题语句是用户输入的用自然语言描述的问题语句,这里,根据用户输入的问题语句确定一个或者多个问题三元组。在本发明中,问题三元组也采用主语-谓语-宾语的结构形式。
接下来,在步骤S160中,基于一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度来确定问题语句的答案。根据本发明的实施例,在步骤S140获取了候选三元组,在步骤S150获取了问题三元组,从而在步骤S160可以通过比较候选三元组和问题三元组来获取问题的答案。在本发明中,问题的答案也采用自然语言的形式。
由此可见,根据本发明的实施例的数据处理方法,当用户输入一个问题语句时,可以输出该问题语句的答案。具体地,根据问题的答案类型对语义图进行“剪枝”,从而获得语义图的一部分作为候选语义子图,大大减小了搜索的范围,从而缩短检索的时间并提高答案的准确性。同时,通过问题三元组和候选三元组的相似度来确定问题的答案,无需对问题语句进行句法分析和语义角色标注,也不需要转换标准查询语句。这样一来,降低了处理的难度,提高了处理的效率,节约搜索时间。综上,根据本发明的数据处理方法和数据处理装置能够快速可靠地根据语义知识库确定问题语句的答案。
根据本发明的实施例,构建问题语句的语义图包括:确定问题语句的一个或者多个中心词;以及当中心词链接到语义知识库中的实体词时,基于语义知识库根据中心词构建语义图,并且当中心词链接到语义知识库中的概念词时,基于语义知识库根据概念词包括的实体词构建语义图。
这里,由于问题语句可以包括一个或者多个中心词,因此可以构建与每个中心词相关联的那部分语义图,然后组合与每个中心词相关联的语义图以获得问题语句的语义图。
下面结合图2来描述步骤S110。图2示出了根据本发明的实施例的数据处理方法中构建问题语句的语义图的流程图。
如图2所示,在步骤S111中,确定问题语句的一个或者多个中心词。
根据本发明的实施例,中心词是问题语句中的词语,一个问题语句可以有一个或者多个中心词。
根据本发明的实施例,确定问题语句的一个或者多个中心词可以包括:对问题语句进行分词和词性标注;根据问题语句中标注为名词、动词、名词短语和动词短语的那些词确定问题语句的中心词。具体地,可以将问题语句中标注为名词、动词、名词短语和动词短语的词语链接到语义知识库中的词语,将链接到语义知识库中的实体词和概念词的名词、动词、名词短语和动词短语确定为问题语句的中心词。
以问题语句“中国的首都在哪?”为例对本发明的实施例进行说明。首先,对该问题语句进行分词和词性标注。分词操作是将问题语句划分为一个或者多个词语,例如,将问题语句“中国的首都在哪?”划分为“中国”、“的”、“首都”、“在”、“哪”和“?”六个词语。接下来,对问题语句的一个或者多个词语进行词性标注。在本发明中,词性可以包括本领域中常用的那些词性:名词、动词、介词、副词、形容词等等。进一步,词性还可以包括更加明细的那些词性:名词短语、人名等等。这里,可以根据实际需要和经验来设定词性集合。以问题语句“中国的首都在哪?”为例,进行分词和词性标注后如表1所示:
表1
中国 首都
ns u n p r wp
其中,ns表示名词短语,u表示助词,n表示名词,p表示介词,r表示疑问代词,wp表示标点。
接下来,将该问题语句中标注为名词、动词、名词短语和动词短语的词语链接到语义知识库中的词语。也就是说,将“中国”和“首都”链接到语义知识库中的词语。这里,将问题语句中的词语“中国”链接到语义知识库中的实体词“中国”,将问题语句中的词语“首都”链接到语义知识库中的属性词“首都”。
接下来,将链接到语义知识库中的实体词和概念词的名词、动词、名词短语和动词短语确定为问题语句的中心词。也就是说,由于名词短语“中国”链接到语义知识库中的实体词“中国”,因此将“中国”作为问题语句“中国的首都在哪?”的中心词。
值得注意的是,在问题语句“中国的首都在哪?”中,仅仅存在一个中心词“中国”,并且该词链接到语义知识库中的实体词。而在实际操作中,一个问题语句可能会存在多个中心词,并且链接到语义知识库中的概念词的词语也可以作为中心词。
例如,对于问题语句“由姜文导演葛优主演的电影有哪些?”,由于人名“姜文”链接到语义知识库中的实体词“姜文”,人名“葛优”链接到语义知识库中的实体词“葛优”,名词“电影”链接到语义知识库中的概念词“电影”,因而该问题语句的中心词为“姜文”、“葛优”和“电影”。
现在返回图2,在步骤S112中,选择下一个中心词。这里,在开始时,选择问题语句的第一个中心词,选取可以按照一定的顺序,也可以随机选取。例如,针对问题语句“中国的首都在哪?”,选取中心词“中国”。
接下来,在步骤S113中,判断该中心词是否链接到语义知识库中的实体词。前文中提到,将链接到语义知识库中的实体词和概念词的名词、动词、名词短语和动词短语确定为问题语句的中心词。也就是说,中心词链接到语义知识库中的实体词或者概念词。在步骤S113中,如果判断结果为是,则说明中心词链接到语义知识库中的实体词;如果判断结果为否,则说明中心词链接到语义知识库中的概念词。
接下来,如果在步骤S113中判断结果为是,则在步骤S114中,基于语义知识库构建与该中心词相关联的语义图。根据本发明的实施例,可以将语义知识库中存储的到该中心词节点的距离满足一定条件的节点和路径的集合构建为与该中心词相关联的语义图。例如,与一个中心词相关联的语义图中的节点和路径满足以下条件:语义图中的节点与中心词节点之间的距离小于等于第一阈值;以及语义图中的路径和与该路径代表的属性词相关联的中心词节点之间的距离小于等于第二阈值。优选地,第一阈值为1。优选地,第二阈值为2。
在本发明的实施例中,语义图中两个节点之间的距离表示两个节点之间的路径的个数,语义图中路径与节点之间的距离表示该路径与该节点之间的节点(包括该节点本身)的数目。
如果在步骤S113中判断结果为否,则在步骤S115中,基于语义知识库根据概念词包括的实体词构建与该中心词相关联的语义图。这里,由于概念词表示一个类别,因而可以包括很多个实体词。根据本发明的实施例,可以将语义知识库中存储的到概念词下面的任意一个实体词的距离满足一定条件的节点和路径的集合构建为与该中心词相关联的语义图。这里的条件可以采用与前文中所述的构建与链接到实体词的中心词相关联的语义图相同的条件。例如,与一个中心词相关联的语义图中的节点和路径满足以下条件:语义图中的节点与概念词下面的实体词节点之间的距离小于等于第一阈值;以及语义图中的路径和与该路径代表的属性词相关联的概念词下面的实体词节点之间的距离小于等于第二阈值。优选地,第一阈值为1。优选地,第二阈值为2。
在步骤S114和步骤S115中确定了与一个中心词相关联的语义图。接下来,在步骤S116中,判断是否存在下一个中心词。如果判断结果为是,则返回步骤S112重复执行前面所述的操作。也就是说,当问题语句存在多个中心词时,依次构建与每个中心词相关联的语义图。
在步骤S116中判断为否时,说明问题语句的所有中心词都已经构建了语义图。接下来,在步骤S117中,组合与每个中心词相关联的语义图以获得最终的语义图作为问题语句的语义图。
图3-5示出了根据本发明的实施例的构建的语义图的三个示例。其中,图3为根据问题语句“中国的首都在哪?”构建的语义图,图4为根据问题语句“由姜文导演葛优主演的电影有哪些?”构建的语义图,图5为根据问题语句“含维生素C最高的水果是什么?”构建的语义图。
值得注意的是,为了便于说明,图3-5只示出了构建的语义图的一部分。在实际操作中,构建的语义图可能会比图3-5示出的图大得多。如图3-5所示,在语义图中,圆圈表示节点,圆圈中的词语表示节点所代表的实体词或者概念词,箭头表示路径,箭头上的词语表示路径所代表的属性词。在图3中,节点“中国”为中心词节点,当第一阈值为1,第二阈值为2时,节点“北京”距离中心词节点距离为1,路径“首都”距离中心词节点距离为1,因而节点“北京”和路径“首都”都满足前面所述的条件。在图5中,节点“水果”为中心词节点,所包括的实体词节点为“苹果”、“香蕉”、“西瓜”和“桃”。这里仅仅示出了“水果”包括的部分实体词节点。在图5中,中间没有词语的圆圈表示空节点,一个空节点所连接的多个节点之间是相互关联的。以节点“苹果”下面的空节点为例,路径“成分”连接的节点为“Vc”,路径“含量”连接的节点为“0.2mg”,节点“Vc”和节点“0.2mg”是关联的。也就是说,苹果的Vc含量是0.2mg。在本发明中,计算两个节点之间的距离以及计算节点与路径之间的距离时不计算空节点,并且空节点两边的路径计算为一条路径。在图5中,当第一阈值为1,第二阈值为2时,节点“0.2mg”距离节点“苹果”为1,路径“含量”距离节点“苹果”为2,因而满足上面所述的条件。
上面详细叙述了步骤S110。经过步骤S110,构建了问题语句的语义图,该语义图由表示语义知识库中的部分实体词和概念词的节点以及表示语义知识库中的部分属性词的路径构成,路径用于连接节点。接下来将详细描述步骤S120。
根据本发明的实施例,确定问题语句的答案类型包括:根据语义图确定候选答案类型集合;将问题语句输入到答案类型识别模型获得输出的答案类型;以及如果输出的答案类型属于候选答案类型集合,则将输出的答案类型作为问题语句的答案类型。
图6示出了根据本发明的实施例的数据处理方法中确定问题语句的答案类型的流程图。
如图6所示,在步骤S121中,根据语义图确定候选答案类型集合。前文中提到,中心词可以链接到语义知识库中的实体词或者概念词。因此,当中心词链接到实体词时,根据语义图中的实体词节点确定候选答案类型集合。具体地,根据语义图确定该实体词作主语和宾语的三元组,在该实体词作主语的情况下,统计宾语的类型并存入宾语类型集合中,并且在该实体词作宾语的情况下,统计主语的类型并存入主语类型集合中。接下来,将宾语类型集合和主语类型集合的并集作为候选答案类型集合。当中心词链接到概念词时,根据该概念词包括的一个或者多个实体词节点确定候选答案类型集合。具体地,针对概念词包括的一个或者多个实体词节点中的每一个实体词节点:根据语义图确定该实体词作主语和宾语的三元组,在该实体词作主语的情况下,统计宾语的类型并存入宾语类型集合中,并且在该实体词作宾语的情况下,统计主语的类型并存入主语类型集合中。接下来,将宾语类型集合和主语类型集合的并集作为该实体词的候选答案类型集合。接下来,将所有实体词的候选答案类型集合的并集作为最终的候选答案类型集合。
接下来,在步骤S122中,将问题语句输入到答案类型识别模型获取输出的答案类型。根据本发明的实施例,可以通过训练的方式训练出答案类型识别模型,这里的训练可以采用本领域中公知的任何一种训练和学习的方法,本发明对此不做限定。对于训练好的答案类型识别模型,其输入为用户输入的自然语言的问题语句,输出为该问题语句的答案类型。
接下来,在步骤S123中,判断输出的答案类型是否属于候选答案类型集合,如果输出的答案类型属于候选答案类型集合,则将输出的答案类型作为问题语句的答案类型。
根据本发明的实施例,可以仅仅通过步骤S122来确定问题语句的答案类型,也就是说,将答案类型识别模型输出的答案类型作为问题语句的答案类型。进一步,为了提高答案类型的准确率,可以通过语义图来验证该答案类型是否正确。也就是说,在步骤S121中根据语义图确定候选答案类型集合,在步骤S123中判断答案类型识别模型输出的答案类型是否属于该集合,只有在验证了输出的答案类型属于该集合的情况下,才将输出的答案类型作为问题语句的答案类型,由此可以提高答案类型的准确度。
在本发明的实施例中,可以根据实际需要设定答案类型的数目和名称。以图3-5所示的语义图为例,问题语句“中国的首都在哪?”的答案类型为地点,问题语句“由姜文导演葛优主演的电影有哪些?”的答案类型为电影,问题语句“含维生素C最高的水果是什么?”的答案类型为水果。这里仅仅示出了三个答案类型的示例,当然答案类型也可以是其它的示例。
上面详细描述了步骤S120。下面将详细描述步骤S130。在步骤S110构建了问题语句的语义图,步骤S120确定了问题语句的答案类型之后,在步骤S130中,可以根据答案类型从语义图中确定候选语义子图。根据本发明的实施例,候选语义子图是语义图的一部分。也就是说,根据问题语句的答案类型对语义图进行了“剪枝”操作(即去掉一些不需要的节点和路径),从而确定候选语义子图。
根据本发明的实施例,确定候选语义子图包括:当中心词链接到语义知识库中的实体词时,根据语义图确定实体词作为主语或者宾语的三元组,并且在实体词作为主语的情况下,保留语义图中类型与答案类型一致的宾语节点,在实体词作为宾语的情况下,保留语义图中类型与答案类型一致的主语节点;以及当中心词链接到语义知识库中的概念词时,保留概念词节点、概念词节点包括的所有实体词节点以及实体词节点的子节点。
图7示出了根据本发明的实施例的数据处理方法中确定候选语义子图的流程图。
如图7所示,在步骤S131中,获取下一个中心词。在第一步中,这里可以获取问题语句的第一个中心词。在本发明中,可以按照一定的顺序选取中心词,也可以随机选取中心词。
接下来,在步骤S132中,判断中心词是否链接到实体词。当步骤S132判断为是时,说明中心词链接到实体词,当步骤S132判断为否时,说明中心词链接到概念词。
接下来,在步骤S132判断为是的情况下,在步骤S133中,根据语义图确定实体词作为主语或者宾语的三元组。接下来,在步骤S134中,在实体词作为主语的情况下,保留语义图中类型与答案类型一致的宾语节点,在实体词作为宾语的情况下,保留语义图中类型与答案类型一致的主语节点。以图4所示的语义图为例,实体词“葛优”作为主语的三元组<葛优,类型,演员>的宾语节点为“演员”,其类型与该问题语句的答案类型“电影”不一致,因此这个宾语节点应该被去掉。进一步,与这个宾语节点连接的路径“类型”也可以被去掉。
在步骤S132判断为否的情况下,在步骤S135中,保留概念词节点、概念词节点包括的所有实体词节点以及实体词节点的子节点。以图5所示的语义图为例,在确定候选语义子图时,保留概念词节点“水果”、概念词节点“水果”包括的所有实体词节点“苹果”、“香蕉”、“西瓜”和“桃”以及这些实体词节点下面的子节点“0.2mg”、“0.1mg”、“0.5mg”、“0.3mg”和“Vc”。
接下来,在步骤S136中,判断是否存在下一个中心词。在判断为是的情况下,返回步骤S131重复执行上面的操作,直到没有下一个中心词为止。也就是说,可以针对所有中心词中的每个中心词对语义图进行处理,以获得最后的候选语义子图。
在步骤S136判断为否的情况下,说明已经根据所有的中心词对语义图进行了“剪枝”,则在步骤S137中,将语义图中剩下的部分作为候选语义子图。
根据本发明的实施例,在确定候选语义子图时,可以针对问题语句的一个或者多个中心词中的每一个中心词,根据答案类型从语义图中去掉一部分节点和路径,这种操作可以被称为“剪枝”,最后将语义图中剩下的部分作为候选语义子图。通过这样的方式,将语义图缩小为候选语义子图,大大减小了搜索答案的范围。
上面详细描述了步骤S130。在步骤S130确定了候选语义子图的情况下,在步骤S140中,可以根据候选语义子图确定一个或者多个候选三元组。根据语义图来确定三元组是本领域中常规的方式,本发明可以采用本领域中公知的任何方法来确定候选三元组,本发明对此不做限定。
在本发明的实施例中,由图3所示的语义图确定的候选语义子图可以得到候选三元组:<中国,首都,北京>;由图4所示的语义图确定的候选语义子图可以得到候选三元组:<姜文,导演,电影1>、<姜文,导演,电影2>、<姜文,导演,电影3>、<葛优,主演,电影1>、<葛优,主演,电影2>和<葛优,主演,电影4>;由图5所示的语义图确定的候选语义子图可以得到候选三元组:<苹果,含量,Vc>、<香蕉,含量,Vc>、<西瓜,含量,Vc>和<桃,含量,Vc>。
下面将详细说明根据本发明的实施例的步骤S150。
根据本发明的实施例,确定问题三元组包括根据问题的答案类型确定问题三元组。
根据本发明的实施例,根据问题的答案类型确定问题三元组包括:当问题语句包括一个中心词时,根据问题的答案类型确定一个问题三元组;以及当问题语句包括多个中心词时,确定问题语句的逻辑关系,并根据问题语句的逻辑关系和问题的答案类型确定多个问题三元组。
图8示出了根据本发明的实施例的数据处理方法中确定问题三元组的流程图。
如图8所示,在步骤S151中,判断问题语句是否包括一个中心词。前文中提到,问题语句可以包括一个或者多个中心词。因此,当步骤S151判断为是时,说明问题语句只包括一个中心词,当步骤S151判断为否时,说明问题语句包括多个中心词。
接下来,在步骤S151判断为是的情况下,在步骤S152中,根据问题的答案类型确定一个问题三元组。
根据本发明的实施例,在问题三元组中向问题语句的答案类型添加标识符以表示该词语是问题语句的答案类型。优选地,添加的标识符可以为问号。
以问题语句“含维生素C最高的水果是什么?”为例,该问题语句的答案类型为水果,因此可以向“水果”这个词语添加问号以表示“水果”是该问题语句的答案类型。因而确定该问题语句的问题三元组为<?水果,含量,Vc>。再以问题语句“中国的首都在哪?”为例,该问题语句的答案类型为地点,因此将“地点”这个词语添加到三元组中,并且向该词语添加问号以表示“地点”是该问题语句的答案类型。因此,确定该问题语句的问题三元组为<中国,首都,?地点>。
在步骤S151判断为否的情况下,在步骤S153中,确定问题语句的逻辑关系。根据本发明的实施例,可以将问题语句输入到逻辑关系识别模型从而得到问题语句的逻辑关系。这里的逻辑关系可以包括“与”和“或”等等。这里,可以通过训练的方式来获得逻辑关系识别模型。同样地,可以采用本领域中公知的训练和学习的方法来训练模型,本发明对此不做限定。对于该逻辑关系识别模型,输入为用户输入的问题语句,输出为逻辑关系。
接下来,在步骤S154中,根据逻辑关系和问题的答案类型确定多个问题三元组。根据本发明的实施例,确定的多个问题三元组之间存在逻辑关系。在确定多个问题三元组中的每个问题三元组时,可以采用与步骤S152中类似的方法。也就是说,在每个问题三元组中向问题语句的答案类型添加标识符以表示该词语是问题语句的答案类型。优选地,添加的标识符可以为问号。
以问题语句“由姜文导演葛优主演的电影有哪些?”为例,通过步骤S153确定该问题语句的逻辑关系为“与”,并且该问题语句的答案类型为电影,因此可以向“电影”这个词语添加问号以表示“电影”是该问题语句的答案类型。由此可以确定该问题语句的问题三元组有两个:<姜文,导演,?电影>和<葛优,主演,?电影>,这两个问题三元组是“与”的逻辑关系。
如上所述,在步骤S140中确定了一个或者多个候选三元组,并且在步骤S150中确定了问题三元组,因而在步骤S160中可以基于步骤S140和步骤S150的结果来确定问题的答案。下面将详细描述步骤S160。
根据本发明的实施例,确定问题语句的答案包括:根据与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的答案。
前文中提到,可能存在一个问题三元组,也可能存在有逻辑关系的多个问题三元组。根据本发明的实施例,在步骤S160中,当存在一个问题三元组时,根据与这一个问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的答案。也就是说,可以计算一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度,并选取相似度最高的一个或者多个候选三元组来确定答案。
在确定一个问题三元组与一个候选三元组的相似度时,将问题三元组中除答案类型以外的词语与候选三元组中的相应词语相比较,并且根据问题三元组中除答案类型以外的词语与候选三元组中的相应词语的相似度来确定该问题三元组与候选三元组的相似度。优选地,当问题三元组中的词语与候选三元组中的相应词语完全一致时,该词语的相似度为100%。
在本发明的实施例中,问题三元组与候选三元组的相似度可以为问题三元组中除答案类型以外的词语与候选三元组中的相应词语的相似度的均值。问题三元组中包括三个词语,除代表答案类型的词语以外的词语有两个,因而可以得到这两个词语的相似度,对这两个相似度取均值可以得到问题三元组与候选三元组的相似度。
以问题语句“中国的首都在哪?”为例,问题三元组为<中国,首都,?地点>,候选三元组为<中国,首都,北京>。这里,问题三元组中代表答案类型的词语为“地点”,除代表答案类型的词语以外的词语为“中国”和“首都”。其中,“中国”是问题三元组中的主语,将其与候选三元组中的主语“中国”相比较,相似度为100%,“首都”是问题三元组中的谓语,将其与候选三元组中的谓语“首都”相比较,相似度为100%。因此,确定问题三元组为<中国,首都,?地点>与候选三元组为<中国,首都,北京>的相似度为100%。
根据本发明的实施例,根据与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的答案可以包括:将相似度最高的一个或者多个候选三元组的每个候选三元组中的与该问题三元组中代表答案类型的词语相对应的词语作为问题语句的答案。
根据本发明的实施例,由于与问题三元组相似度最高的候选三元组可能有多个,因而问题语句的答案也可以有多个。也就是说,问题语句的答案可以是集合的形式,该集合中包括一个或者多个元素。
以上面的示例为例,与问题三元组为<中国,首都,?地点>相似度最高的候选三元组为<中国,首都,北京>,其中与问题三元组中代表答案类型的词语“地点”相对应的词语为“北京”,因而确定问题语句“中国的首都在哪?”的答案为北京。
根据本发明的实施例,当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和问题语句的逻辑关系来确定问题语句的答案。也就是说,可以计算一个或者多个候选三元组中的每个候选三元组与多个问题三元组中的每个问题三元组的相似度,针对每个问题三元组都确定出与其相似度最高的一个或者多个候选三元组,再根据与每个问题三元组相似度最高的一个或者多个候选三元组以及问题语句的逻辑关系确定问题语句的答案。
这里,前文中所述的确定问题三元组与候选三元组的相似度的实施例同样适用于此。也就是说,在计算每个候选三元组与每个问题三元组的相似度时可以采用前文所述的方法。
以问题语句“由姜文导演葛优主演的电影有哪些?”为例,问题三元组有两个:<姜文,导演,?电影>和<葛优,主演,?电影>,这两个问题三元组是“与”的逻辑关系,候选三元组为:<姜文,导演,电影1>、<姜文,导演,电影2>、<姜文,导演,电影3>、<葛优,主演,电影1>、<葛优,主演,电影2>和<葛优,主演,电影4>。采用根据本发明的实施例的方法,可以确定与问题三元组<姜文,导演,?电影>相似度为100%的候选三元组为<姜文,导演,电影1>、<姜文,导演,电影2>和<姜文,导演,电影3>,与问题三元组<葛优,主演,?电影>相似度为100%的候选三元组为<葛优,主演,电影1>、<葛优,主演,电影2>和<葛优,主演,电影4>。
根据本发明的实施例,根据与每个问题三元组相似度最高的一个或者多个候选三元组和问题语句的逻辑关系来确定问题语句的答案可以包括:根据与每个问题三元组相似度最高的一个或者多个候选三元组确定每个问题三元组的答案;以及根据所有问题三元组的答案和问题语句的逻辑关系来确定问题语句的答案。
根据本发明的实施例,每个问题三元组的答案可以是一个包括一个或者多个元素的答案集合,从而问题语句的答案也可以是集合的形式。
根据本发明的实施例,根据所有问题三元组的答案和问题语句的逻辑关系来确定问题语句的答案可以包括:当问题语句的逻辑关系为“与”时,问题语句的答案为所有问题三元组的答案的交集;当问题语句的逻辑关系为“或”时,问题语句的答案为所有问题三元组的答案的并集。
根据本发明的实施例,确定每个问题三元组的答案可以包括:将与该问题三元组相似度最高的一个或者多个候选三元组的每个候选三元组中的与该问题三元组中代表答案类型的词语相对应的词语作为该问题三元组的答案。
以上面的示例为例,与问题三元组为<姜文,导演,?电影>相似度最高的候选三元组为<姜文,导演,电影1>、<姜文,导演,电影2>和<姜文,导演,电影3>,其中这三个候选三元组中与问题三元组中代表答案类型的词语“电影”相对应的词语分别为“电影1”、“电影2”和“电影3”,因而确定问题三元组为<姜文,导演,?电影>的答案为电影1、电影2和电影3。以类似的方式可以确定问题三元组<葛优,主演,?电影>的答案为电影1、电影2和电影4。接下来,由于该问题语句的逻辑关系为“与”,从而确定包括元素电影1”、“电影2”和“电影3”的集合与包括元素“电影1”、“电影2”和“电影4”的集合的交集包括元素“电影1”和“电影2”。因此,确定问题语句“由姜文导演葛优主演的电影有哪些?”的答案为电影1和电影2。
以上详细描述了如何确定问题语句的答案。然而,在实际操作中,存在一类特殊的问题语句,例如“含维生素C最高的水果是什么?”和“世界上最高的前三个山是什么?”等等。这类问题的特点是其答案是一个有序的集合,例如针对问题语句“含维生素C最高的水果是什么?”,其答案集合包括了一个元素,针对问题语句“世界上最高的前三个山是什么?”,其答案集合包括了三个元素,这三个元素是有顺序的。
下面将详细描述确定这类问题语句的答案的实施例。
根据本发明的实施例,数据处理方法还包括:确定问题语句的答案类别,答案类别指示由问题语句的答案构成的集合是无序集合还是有序集合。其中,确定问题语句的答案包括:基于一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度和答案类别来确定问题语句的答案。
图9示出了根据本发明的另一个实施例的数据处理方法的流程图。如图9所示,在步骤S150确定了问题三元组之后,在步骤S170中,确定问题语句的答案类别,该答案类别指示由问题语句的答案构成的集合是无序集合还是有序集合。
根据本发明的实施例,可以通过将问题语句输入到答案类别识别模型的方式来获取问题语句的答案类别。这里,可以通过训练的方式来获取答案类别识别模型,例如采用本领域中公知的训练方法或者学习方法来得到答案类别识别模型。该答案类别识别模型的输入为用户输入的问题语句,输出为问题语句的答案类别。
在本发明中,答案类型与答案类别是不同的概念。答案类型指的是能够表示该问题语句的答案的类型的信息,亦即,能够表示该问题语句的答案所属的类别的信息。例如,地点、水果、电影等等。答案类别指的是由问题语句的答案构成的集合是无序集合还是有序集合。例如,问题语句“中国的首都在哪?”的答案类型为地点,答案类别为无序集合,问题语句“含维生素C最高的水果是什么?”的答案类型是水果,答案类别是有序集合。
返回图9,接下来,在步骤S160中,基于每个候选三元组与问题三元组的相似度和答案类别来确定问题语句的答案。
根据本发明的实施例,当答案类别指示由问题语句的答案构成的集合是无序集合时,可以如前文所述,根据与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的答案。优选地,当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和问题语句的逻辑关系来确定问题语句的答案。前文中所述的各个实施例都适用于此,在此不再赘述。
根据本发明的实施例,当答案类别指示由问题语句的答案构成的集合是有序集合时,基于与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的候选答案,根据与相似度最高的一个或者多个候选三元组中的每个候选三元组相关联的数字对候选答案进行排序,并根据排序后的候选答案来确定问题语句的答案。
也就是说,可以计算一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度,并选取相似度最高的一个或者多个候选三元组来确定候选答案。这里,在确定一个问题三元组与一个候选三元组的相似度时可以采用前文中所述的方法,在此不再赘述。
根据本发明的实施例,根据与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的候选答案可以包括:将相似度最高的一个或者多个候选三元组的每个候选三元组中的与该问题三元组中代表答案类型的词语相对应的词语作为问题语句的候选答案。
根据本发明的实施例,由于与问题三元组相似度最高的候选三元组可能有多个,因而问题语句的候选答案也可以有多个。也就是说,候选答案可以是集合的形式,该集合中包括一个或者多个元素。
以问题语句“含维生素C最高的水果是什么?”为例,问题三元组为:<?水果,含量,Vc>,候选三元组为:<苹果,含量,Vc>、<香蕉,含量,Vc>、<西瓜,含量,Vc>和<桃,含量,Vc>。与该问题三元组相似度为100%的候选三元组为:<苹果,含量,Vc>、<香蕉,含量,Vc>、<西瓜,含量,Vc>和<桃,含量,Vc>。从而确定该问题语句的候选答案为苹果、香蕉、西瓜和桃。
接下来,根据与相似度最高的一个或者多个候选三元组中的每个候选三元组相关联的数字对候选答案进行排序,并根据排序后的候选答案来确定问题语句的答案。
根据本发明的实施例,可以根据问题语句的候选语义子图来确定与相似度最高的一个或者多个候选三元组中的每个候选三元组相关联的数字。例如,由问题语句“含维生素C最高的水果是什么?”的候选语义子图可以确定与候选三元组<苹果,含量,Vc>相关联的数字为0.2mg,与候选三元组<香蕉,含量,Vc>相关联的数字为0.1mg,与候选三元组<西瓜,含量,Vc>相关联的数字为0.5mg,以及与候选三元组<桃,含量,Vc>相关联的数字为0.3mg。
接下来,根据这些数字对候选答案苹果、香蕉、西瓜和桃进行排序,从而获得排序后的候选答案:西瓜、桃、苹果和香蕉。因此,确定问题语句“含维生素C最高的水果是什么?”的答案为西瓜。
上面示出了答案的有序集合中包括一个元素的情形。在实际操作中,答案的有序集合中可能包括多个有顺序的元素,例如问题语句世界上最高的前三个山是什么?”的答案集合中包括三个元素:山A、山B和山C。其中,山A的高度是世界上最高,山B的高度是世界上第二高,山C的高度是世界上第三高。
如上所述,根据本发明的数据处理方法,可以针对有序答案集合和无序答案集合这两种问题语句执行不同的处理,从而可以获得答案集合为有序集合的问题语句的答案。
以上描述了根据本发明的数据处理方法。下面结合图10来描述根据本发明的数据处理装置1000。
图10示出了根据本发明的实施例的数据处理装置的结构框图。如图10所示,根据本发明的数据处理装置1000包括语义图构建单元1010、答案类型确定单元1020、语义子图确定单元1030、候选三元组确定单元1040、问题三元组确定单元1050和答案确定单元1060。
根据本发明的实施例,语义图构建单元1010可以基于语义知识库构建问题语句的语义图。这里,语义图构建单元1010可以获取语义知识库,并可以将构建的语义图传输到答案类型确定单元1020和语义子图确定单元1030。
根据本发明的实施例,答案类型确定单元1020可以根据语义图确定问题语句的答案类型。这里,答案类型确定单元1020可以从语义图构建单元1010获取问题语句的语义图,并可以将确定的问题语句的答案类型传输到语义子图确定单元1030。
根据本发明的实施例,语义子图确定单元1030可以根据答案类型从语义图中确定候选语义子图。这里,语义子图确定单元1030可以从语义图构建单元1010获取问题语句的语义图,从答案类型确定单元1020获取问题语句的答案类型,从而根据答案类型从语义图中确定候选语义子图。进一步,语义子图确定单元1030可以将候选语义子图传输到候选三元组确定单元1040。
根据本发明的实施例,候选三元组确定单元1040可以根据候选语义子图确定一个或者多个候选三元组。这里,候选三元组确定单元1040可以从语义子图确定单元1030获取候选语义子图,并可以将确定的候选三元组传输到答案确定单元1060。
根据本发明的实施例,问题三元组确定单元1050可以根据问题语句确定问题三元组。这里,问题三元组确定单元1050可以将确定的问题三元组传输到答案确定单元1060。
根据本发明的实施例,答案确定单元1060可以基于一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度来确定问题语句的答案。这里,答案确定单元1060可以从候选三元组确定单元1040获取候选三元组,从问题三元组确定单元1050获取问题三元组,从而确定问题语句的答案。
优选地,语义图构建单元1010包括:中心词确定单元,用于确定问题语句的一个或者多个中心词;以及构建单元,用于当中心词链接到语义知识库中的实体词时,基于语义知识库根据中心词构建所述语义图,并且当中心词链接到语义知识库中的概念词时,基于语义知识库根据概念词包括的实体词构建语义图。
优选地,答案类型确定单元1020包括:候选答案类型确定单元,用于根据语义图确定候选答案类型集合;输出答案类型确定单元,用于将问题语句输入到答案类型识别模型获得输出的答案类型;以及判断单元,用于在输出的答案类型属于候选答案类型集合的情况下将输出的答案类型作为问题语句的答案类型。
优选地,语义子图确定单元1030包括:第一剪枝单元,用于当中心词链接到语义知识库中的实体词时,根据语义图确定实体词作为主语或者宾语的三元组,并且在实体词作为主语的情况下,保留语义图中类型与答案类型一致的宾语节点,在实体词作为宾语的情况下,保留语义图中类型与答案类型一致的主语节点;以及第二剪枝单元,用于当中心词链接到语义知识库中的概念词时,保留概念词包括的所有实体词节点以及实体词节点的子节点。
优选地,问题三元组确定单元1050根据问题的答案类型确定问题三元组。
优选地,问题三元组确定单元1050包括:第一确定单元,用于当问题语句包括一个中心词时,根据问题的答案类型确定一个问题三元组;以及第二确定单元,用于当问题语句包括多个中心词时,确定问题语句的逻辑关系,并根据问题语句的逻辑关系和问题的答案类型确定多个问题三元组。
优选地,答案确定单元1060根据与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的答案。
优选地,答案确定单元1060通过以下方式来确定问题语句的答案:当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和问题语句的逻辑关系来确定问题语句的答案。
优选地,数据处理装置还包括答案类别确定单元,用于确定问题语句的答案类别,答案类别指示由问题语句的答案构成的集合是无序集合还是有序集合,并且其中,答案确定单元1060基于一个或者多个候选三元组中的每个候选三元组与问题三元组的相似度和答案类别来确定问题语句的答案。
优选地,答案确定单元1060通过以下方式确定问题语句的答案:当答案类别指示由问题语句的答案构成的集合是有序集合时,基于与问题三元组相似度最高的一个或者多个候选三元组来确定问题语句的候选答案,根据与相似度最高的一个或者多个候选三元组中的每个候选三元组相关联的数字对候选答案进行排序,并根据排序后的候选答案来确定问题语句的答案。
前面所描述的数据处理方法可以由根据本发明的实施例的数据处理装置1000来实现,因此,前面所描述的数据处理方法的各种实施方式都适用于数据处理装置1000,在此不再重复说明。
由此可见,使用根据本发明的数据处理方法和数据处理装置,将问题语句转换为问题三元组,通过问题三元组和候选三元组的相似度来确定问题的答案,无需对问题语句进行句法分析和语义角色标注,也不需要转换标准查询语句。这样一来,降低了处理的难度,提高了处理的效率,节约搜索时间。进一步,可以根据问题语句的答案类型从语义图中确定候选语义子图,并根据候选语义子图确定候选三元组,从而确定问题语句的答案。这样一来,将语义知识库中的语义图缩小到候选语义子图,无需在整个语义知识库中搜索问题的答案,大大减小了搜索的范围,从而缩短检索的时间并提高答案的准确性。综上,根据本发明的数据处理方法和数据处理装置能够快速可靠地根据语义知识库确定问题语句的答案。
显然,根据本发明的数据处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明的技术方案。
图11为其中可以实现根据本发明的数据处理方法的通用个人计算机的示例性结构的框图。
如图11所示,CPU 1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的示例包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本发明的系统和方法中,显然,各单元或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种数据处理方法,包括:
基于语义知识库构建问题语句的语义图;
根据所述语义图确定所述问题语句的答案类型;
根据所述答案类型从所述语义图中确定候选语义子图;
根据所述候选语义子图确定一个或者多个候选三元组;
根据所述问题语句确定问题三元组;以及
基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
附记2.根据附记1所述的数据处理方法,其中,构建问题语句的语义图包括:
确定所述问题语句的一个或者多个中心词;以及
当中心词链接到所述语义知识库中的实体词时,基于所述语义知识库根据所述中心词构建所述语义图,并且当中心词链接到所述语义知识库中的概念词时,基于所述语义知识库根据所述概念词包括的实体词构建所述语义图。
附记3.根据附记1所述的数据处理方法,其中,确定所述问题语句的答案类型包括:
根据所述语义图确定候选答案类型集合;
将所述问题语句输入到答案类型识别模型获得输出的答案类型;以及
如果所述输出的答案类型属于所述候选答案类型集合,则将所述输出的答案类型作为所述问题语句的答案类型。
附记4.根据附记2所述的数据处理方法,其中,确定候选语义子图包括:
当中心词链接到所述语义知识库中的实体词时,根据所述语义图确定所述实体词作为主语或者宾语的三元组,并且在所述实体词作为主语的情况下,保留所述语义图中类型与所述答案类型一致的宾语节点,在所述实体词作为宾语的情况下,保留所述语义图中类型与所述答案类型一致的主语节点;以及
当中心词链接到所述语义知识库中的概念词时,保留所述概念词包括的所有实体词节点以及所述实体词节点的子节点。
附记5.根据附记1所述的数据处理方法,其中,确定问题三元组包括:
根据所述问题的答案类型确定所述问题三元组。
附记6.根据附记5所述的数据处理方法,其中,根据所述问题的答案类型确定所述问题三元组包括:
当所述问题语句包括一个中心词时,根据所述问题的答案类型确定一个问题三元组;以及
当所述问题语句包括多个中心词时,确定所述问题语句的逻辑关系,并根据所述问题语句的逻辑关系和所述问题的答案类型确定多个问题三元组。
附记7.根据附记6所述的数据处理方法,其中,确定所述问题语句的答案包括:
根据与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的答案。
附记8.根据附记7所述的数据处理方法,其中,根据与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的答案包括:
当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和所述问题语句的逻辑关系来确定所述问题语句的答案。
附记9.根据附记1所述的数据处理方法,其中,所述数据处理方法还包括:
确定所述问题语句的答案类别,所述答案类别指示由所述问题语句的答案构成的集合是无序集合还是有序集合,并且
其中,确定所述问题语句的答案包括:基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度和所述答案类别来确定所述问题语句的答案。
附记10.根据附记9所述的数据处理方法,其中,基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度和所述答案类别来确定所述问题语句的答案包括:
当所述答案类别指示由所述问题语句的答案构成的集合是有序集合时,基于与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的候选答案,根据与相似度最高的一个或者多个候选三元组中的每个候选三元组相关联的数字对所述候选答案进行排序,并根据排序后的候选答案来确定所述问题语句的答案。
附记11.一种数据处理装置,包括:
语义图构建单元,用于基于语义知识库构建问题语句的语义图;
答案类型确定单元,用于根据所述语义图确定所述问题语句的答案类型;
语义子图确定单元,用于根据所述答案类型从所述语义图中确定候选语义子图;
候选三元组确定单元,用于根据所述候选语义子图确定一个或者多个候选三元组;
问题三元组确定单元,用于根据所述问题语句确定问题三元组;以及
答案确定单元,用于基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
附记12.根据附记11所述的数据处理装置,其中,所述语义图构建单元包括:
中心词确定单元,用于确定所述问题语句的一个或者多个中心词;以及
构建单元,用于当中心词链接到所述语义知识库中的实体词时,基于所述语义知识库根据所述中心词构建所述语义图,并且当中心词链接到所述语义知识库中的概念词时,基于所述语义知识库根据所述概念词包括的实体词构建所述语义图。
附记13.根据附记11所述的数据处理装置,其中,所述答案类型确定单元包括:
候选答案类型确定单元,用于根据所述语义图确定候选答案类型集合;
输出答案类型确定单元,用于将所述问题语句输入到答案类型识别模型获得输出的答案类型;以及
判断单元,用于在所述输出的答案类型属于所述候选答案类型集合的情况下将所述输出的答案类型作为所述问题语句的答案类型。
附记14.根据附记12所述的数据处理装置,其中,所述语义子图确定单元包括:
第一剪枝单元,用于当中心词链接到所述语义知识库中的实体词时,根据所述语义图确定所述实体词作为主语或者宾语的三元组,并且在所述实体词作为主语的情况下,保留所述语义图中类型与所述答案类型一致的宾语节点,在所述实体词作为宾语的情况下,保留所述语义图中类型与所述答案类型一致的主语节点;以及
第二剪枝单元,用于当中心词链接到所述语义知识库中的概念词时,保留所述概念词包括的所有实体词节点以及所述实体词节点的子节点。
附记15.根据附记11所述的数据处理装置,其中,所述问题三元组确定单元根据所述问题的答案类型确定所述问题三元组。
附记16.根据附记15所述的数据处理装置,其中,所述问题三元组确定单元包括:
第一确定单元,用于当所述问题语句包括一个中心词时,根据所述问题的答案类型确定一个问题三元组;以及
第二确定单元,用于当所述问题语句包括多个中心词时,确定所述问题语句的逻辑关系,并根据所述问题语句的逻辑关系和所述问题的答案类型确定多个问题三元组。
附记17.根据附记16所述的数据处理装置,其中,所述答案确定单元根据与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的答案。
附记18.根据附记17所述的数据处理装置,其中,所述答案确定单元通过以下方式来确定所述问题语句的答案:当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和所述问题语句的逻辑关系来确定所述问题语句的答案。
附记19.根据附记11所述的数据处理装置,其中,所述数据处理装置还包括答案类别确定单元,用于确定所述问题语句的答案类别,所述答案类别指示由所述问题语句的答案构成的集合是无序集合还是有序集合,并且
其中,所述答案确定单元基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度和所述答案类别来确定所述问题语句的答案。
附记20.一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记1-10中任何一项所述的数据处理方法。

Claims (10)

1.一种数据处理方法,包括:
基于语义知识库构建问题语句的语义图;
根据所述语义图确定所述问题语句的答案类型;
根据所述答案类型从所述语义图中确定候选语义子图;
根据所述候选语义子图确定一个或者多个候选三元组;
根据所述问题语句确定问题三元组;以及
基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
2.根据权利要求1所述的数据处理方法,其中,构建问题语句的语义图包括:
确定所述问题语句的一个或者多个中心词;以及
当中心词链接到所述语义知识库中的实体词时,基于所述语义知识库根据所述中心词构建所述语义图,并且当中心词链接到所述语义知识库中的概念词时,基于所述语义知识库根据所述概念词包括的实体词构建所述语义图。
3.根据权利要求1所述的数据处理方法,其中,确定所述问题语句的答案类型包括:
根据所述语义图确定候选答案类型集合;
将所述问题语句输入到答案类型识别模型获得输出的答案类型;以及
如果所述输出的答案类型属于所述候选答案类型集合,则将所述输出的答案类型作为所述问题语句的答案类型。
4.根据权利要求2所述的数据处理方法,其中,确定候选语义子图包括:
当中心词链接到所述语义知识库中的实体词时,根据所述语义图确定所述实体词作为主语或者宾语的三元组,并且在所述实体词作为主语的情况下,保留所述语义图中类型与所述答案类型一致的宾语节点,在所述实体词作为宾语的情况下,保留所述语义图中类型与所述答案类型一致的主语节点;以及
当中心词链接到所述语义知识库中的概念词时,保留所述概念词包括的所有实体词节点以及所述实体词节点的子节点。
5.根据权利要求1所述的数据处理方法,其中,确定问题三元组包括:
根据所述问题的答案类型确定所述问题三元组。
6.根据权利要求5所述的数据处理方法,其中,根据所述问题的答案类型确定所述问题三元组包括:
当所述问题语句包括一个中心词时,根据所述问题的答案类型确定一个问题三元组;以及
当所述问题语句包括多个中心词时,确定所述问题语句的逻辑关系,并根据所述问题语句的逻辑关系和所述问题的答案类型确定多个问题三元组。
7.根据权利要求6所述的数据处理方法,其中,确定所述问题语句的答案包括:
根据与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的答案。
8.根据权利要求7所述的数据处理方法,其中,根据与所述问题三元组相似度最高的一个或者多个候选三元组来确定所述问题语句的答案包括:
当存在多个问题三元组时,分别确定与每个问题三元组相似度最高的一个或者多个候选三元组,并根据与每个问题三元组相似度最高的一个或者多个候选三元组和所述问题语句的逻辑关系来确定所述问题语句的答案。
9.根据权利要求1所述的数据处理方法,其中,所述数据处理方法还包括:
确定所述问题语句的答案类别,所述答案类别指示由所述问题语句的答案构成的集合是无序集合还是有序集合,并且
其中,确定所述问题语句的答案包括:基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度和所述答案类别来确定所述问题语句的答案。
10.一种数据处理装置,包括:
语义图构建单元,用于基于语义知识库构建问题语句的语义图;
答案类型确定单元,用于根据所述语义图确定所述问题语句的答案类型;
语义子图确定单元,用于根据所述答案类型从所述语义图中确定候选语义子图;
候选三元组确定单元,用于根据所述候选语义子图确定一个或者多个候选三元组;
问题三元组确定单元,用于根据所述问题语句确定问题三元组;以及
答案确定单元,用于基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。
CN201610917225.2A 2016-10-20 2016-10-20 数据处理方法和数据处理装置 Pending CN107967285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610917225.2A CN107967285A (zh) 2016-10-20 2016-10-20 数据处理方法和数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610917225.2A CN107967285A (zh) 2016-10-20 2016-10-20 数据处理方法和数据处理装置

Publications (1)

Publication Number Publication Date
CN107967285A true CN107967285A (zh) 2018-04-27

Family

ID=61996436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610917225.2A Pending CN107967285A (zh) 2016-10-20 2016-10-20 数据处理方法和数据处理装置

Country Status (1)

Country Link
CN (1) CN107967285A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287304A (zh) * 2019-06-30 2019-09-27 联想(北京)有限公司 问答信息处理方法、装置及计算机设备
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110609995A (zh) * 2018-06-15 2019-12-24 中央民族大学 构建藏语问答语料库的方法及装置
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112579795A (zh) * 2020-12-28 2021-03-30 重庆邮电大学 一种基于知识图谱嵌入表示的智能问答方法
CN113704445A (zh) * 2021-10-28 2021-11-26 北京明略昭辉科技有限公司 知识库问答方法、装置、电子设备和存储介质
CN114391142A (zh) * 2019-09-03 2022-04-22 国际商业机器公司 使用结构化和非结构化数据的解析查询

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903008A (zh) * 2011-07-29 2013-01-30 国际商业机器公司 用于计算机问答的方法及系统
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104915340A (zh) * 2014-03-10 2015-09-16 北京大学 自然语言问答方法及装置
CN105760462A (zh) * 2016-02-05 2016-07-13 首都师范大学 基于关联数据查询的人机交互方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102903008A (zh) * 2011-07-29 2013-01-30 国际商业机器公司 用于计算机问答的方法及系统
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104915340A (zh) * 2014-03-10 2015-09-16 北京大学 自然语言问答方法及装置
CN105760462A (zh) * 2016-02-05 2016-07-13 首都师范大学 基于关联数据查询的人机交互方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609995A (zh) * 2018-06-15 2019-12-24 中央民族大学 构建藏语问答语料库的方法及装置
CN110609995B (zh) * 2018-06-15 2023-06-27 中央民族大学 构建藏语问答语料库的方法及装置
CN110287304A (zh) * 2019-06-30 2019-09-27 联想(北京)有限公司 问答信息处理方法、装置及计算机设备
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110399457B (zh) * 2019-07-01 2023-02-03 吉林大学 一种智能问答方法和系统
CN114391142A (zh) * 2019-09-03 2022-04-22 国际商业机器公司 使用结构化和非结构化数据的解析查询
US11841883B2 (en) 2019-09-03 2023-12-12 International Business Machines Corporation Resolving queries using structured and unstructured data
CN112256847A (zh) * 2020-09-30 2021-01-22 昆明理工大学 融合事实文本的知识库问答方法
CN112256847B (zh) * 2020-09-30 2023-04-07 昆明理工大学 融合事实文本的知识库问答方法
CN112579795A (zh) * 2020-12-28 2021-03-30 重庆邮电大学 一种基于知识图谱嵌入表示的智能问答方法
CN113704445A (zh) * 2021-10-28 2021-11-26 北京明略昭辉科技有限公司 知识库问答方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN107967285A (zh) 数据处理方法和数据处理装置
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN106815252B (zh) 一种搜索方法和设备
CN105843875B (zh) 一种面向智能机器人的问答数据处理方法及装置
US7028250B2 (en) System and method for automatically classifying text
CN109255031A (zh) 基于知识图谱的数据处理方法
CN109408811B (zh) 一种数据处理方法及服务器
CN107451153A (zh) 输出结构化查询语句的方法和装置
CN106202543A (zh) 基于机器学习的本体匹配方法和系统
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
US8583669B2 (en) Query suggestion for efficient legal E-discovery
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Charron et al. Extracting semantic information for e-commerce
CN112100343A (zh) 一种扩充知识图谱的方法、电子设备及存储介质
US11321580B1 (en) Item type discovery and classification using machine learning
CN112597316A (zh) 一种可解释性推理问答方法及装置
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
JPH0816620A (ja) データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
US11288266B2 (en) Candidate projection enumeration based query response generation
CN112686025A (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN114840685A (zh) 一种应急预案知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180427