CN112463992B

CN112463992B - 基于麻将领域知识图谱的决策辅助自动问答方法及系统

Info

Publication number: CN112463992B
Application number: CN202110150992.6A
Authority: CN
Inventors: 李一华; 王凯; 王嘉旸; 张辉; 叶祎果; 黄伟; 熊唤亮; 王命延
Original assignee: Zhongzhi Jiangxi Intelligent Technology Co ltd
Current assignee: Zhongzhi Jiangxi Intelligent Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-11
Anticipated expiration: 2041-02-04
Also published as: CN112463992A

Abstract

本发明公开了一种基于麻将领域知识图谱的决策辅助自动问答方法及系统，该方法包括：构建麻将领域百科知识本体和麻将领域辅助决策知识本体；构建麻将领域知识标注语料库；根据关系抽取技术对麻将领域知识标注语料库进行抽取，并将抽取后的数据填充至麻将领域百科知识本体和麻将领域辅助决策知识本体中，以得到麻将领域知识图谱；通过深度学习训练得到命名实体识别模型和意图识别模型，并利用命名实体识别模型和意图识别模型对问句进行解析，形成结构化的查询语句；根据查询语句在麻将领域知识图谱中进行检索。本发明能够解决现有技术只包含浅层且无用的知识，无法回答较细粒度领域问题的技术问题。

Description

基于麻将领域知识图谱的决策辅助自动问答方法及系统

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于麻将领域知识图谱的决策辅助自动问答方法及系统。

背景技术

自动问答是指用户与计算机进行交互，由用户提出问题计算机自动返回答案的技术。对用户来说，自动问答是最佳的人机交互方式，其比搜索引擎更友好，更能满足用户操作简单化和知识精准化的需求。

目前，麻将领域相关知识只是在一些百科类知识图谱中有涉及，如CN-Dbpedia。但是其麻将本体规模非常小，通常只包括麻将的地区，外文名等浅层且无用的知识，无法回答较细粒度的领域问题，更无法完成对智能模型决策的辅助解释问答。

发明内容

为此，本发明的一个目的在于提出一种基于麻将领域知识图谱的决策辅助自动问答方法，以解决现有技术只包含浅层且无用的知识，无法回答较细粒度领域问题的技术问题。

本发明提供一种基于麻将领域知识图谱的决策辅助自动问答方法，所述方法包括：

构建麻将领域百科知识本体和麻将领域辅助决策知识本体，所述麻将领域百科知识本体作为知识框架，用于形成结构化的知识表达体系，所述麻将领域辅助决策知识本体用于归纳出决策相关的节点以及节点与节点之间的联系；

构建麻将领域知识标注语料库；

基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，以得到麻将领域知识图谱；

通过深度学习训练得到命名实体识别模型和意图识别模型，并利用所述命名实体识别模型和所述意图识别模型对问句进行解析，形成结构化的查询语句；

根据所述查询语句在所述麻将领域知识图谱中进行检索，将检索出来的节点作为答案候选项，并从所述答案候选项中选取目标选项作为答案返回。

根据本发明提供的基于麻将领域知识图谱的决策辅助自动问答方法，先构建麻将领域知识图谱，然后依赖该麻将领域知识图谱进行自动问答，其中，通过构建麻将领域百科知识本体和麻将领域辅助决策知识本体，以及构建麻将领域知识标注语料库，根据关系抽取技术对麻将领域知识标注语料库进行抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，能够得到高质量、细粒度的麻将领域知识图谱，在自动问答时，通过命名实体识别模型和意图识别模型，可以利用知识图谱节点之间的关联，实现细粒度的决策问答，此外，本发明能够减少人工标注成本。

另外，根据本发明上述的基于麻将领域知识图谱的决策辅助自动问答方法，还可以具有如下附加的技术特征：

进一步地，构建麻将领域知识标注语料库的步骤具体包括：

通过爬取技术爬取得到初始文本；

对所述初始文本进行数据清洗，并在命名实体识别任务上，将相同实体对之间的描述抽取，形成模板；

利用所述实体对和所述模板进行训练得到语料库建设模型，以通过语料库建设模型构建所述麻将领域知识标注语料库。

进一步地，基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取的步骤具体包括：

基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取，先预测头实体，再预测关系和尾实体。

进一步地，所述命名实体识别模型采用bilstm+crf模型，所述意图识别模型采用cnn、lstm、bilstm混合模型。

进一步地，构建麻将领域百科知识本体的步骤具体包括：

确定麻将领域百科知识本体的专业领域和范畴；

列出麻将领域百科知识本体中专业术语；

定义类和类的等级体系；

定义类的属性；

定义属性的分面；

创建实例。

本发明的另一个目的在于提出一种基于麻将领域知识图谱的决策辅助自动问答系统，以解决现有技术只包含浅层且无用的知识，无法回答较细粒度领域问题的技术问题。

本发明提供一种基于麻将领域知识图谱的决策辅助自动问答系统，包括：

第一构建模块，用于构建麻将领域百科知识本体和麻将领域辅助决策知识本体，所述麻将领域百科知识本体作为知识框架，用于形成结构化的知识表达体系，所述麻将领域辅助决策知识本体用于归纳出决策相关的节点以及节点与节点之间的联系；

第二构建模块，用于构建麻将领域知识标注语料库；

抽取填充模块，用于基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，以得到麻将领域知识图谱；

识别解析模块，用于通过深度学习训练得到命名实体识别模型和意图识别模型，并利用所述命名实体识别模型和所述意图识别模型对问句进行解析，形成结构化的查询语句；

检索返回模块，用于根据所述查询语句在所述麻将领域知识图谱中进行检索，将检索出来的节点作为答案候选项，并从所述答案候选项中选取目标选项作为答案返回。

根据本发明提供的基于麻将领域知识图谱的决策辅助自动问答系统，先构建麻将领域知识图谱，然后依赖该麻将领域知识图谱进行自动问答，其中，通过构建麻将领域百科知识本体和麻将领域辅助决策知识本体，以及构建麻将领域知识标注语料库，根据关系抽取技术对麻将领域知识标注语料库进行抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，能够得到高质量、细粒度的麻将领域知识图谱，在自动问答时，通过命名实体识别模型和意图识别模型，可以利用知识图谱节点之间的关联，实现细粒度的决策问答，此外，本发明能够减少人工标注成本。

另外，根据本发明上述的基于麻将领域知识图谱的决策辅助自动问答系统，还可以具有如下附加的技术特征：

进一步地，所述第二构建模块具体用于：

通过爬取技术爬取得到初始文本；

进一步地，所述抽取填充模块具体用于：

进一步地，所述第一构建模块具体用于：

确定麻将领域百科知识本体的专业领域和范畴；

列出麻将领域百科知识本体中专业术语；

定义类和类的等级体系；

定义类的属性；

定义属性的分面；

创建实例。

本发明还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一实施例的基于麻将领域知识图谱的决策辅助自动问答方法的流程图；

图2是图1中步骤S102的详细流程图；

图3是根据本发明一实施例的基于麻将领域知识图谱的决策辅助自动问答系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明一实施例提出的基于麻将领域知识图谱的决策辅助自动问答方法，包括步骤S101~S105。

S101，构建麻将领域百科知识本体和麻将领域辅助决策知识本体，所述麻将领域百科知识本体作为知识框架，用于形成结构化的知识表达体系，所述麻将领域辅助决策知识本体用于归纳出决策相关的节点以及节点与节点之间的联系。

其中，麻将领域百科知识本体作为麻将领域的知识框架，用以清楚的描述麻将各个概念和概念之间的关系，实体与实体之间的关系，形成结构化的知识表达体系。在麻将领域百科知识本体为框架的基础上，以知识数据进行填充，从而形成麻将领域知识图谱。

构建麻将领域百科知识本体的步骤具体包括：

（1）确定麻将领域百科知识本体的专业领域和范畴：指要构建的本体涉及什么领域，要用这个本体来做什么，本实施例中，要构建的本体涉及麻将领域，用该本体来进行知识图谱的构建。

（2）考查复用现有麻将领域百科知识本体的可能性：指的是调研是否由类似的本体可以直接或者是简单修改后使用，以此节省成本和精力。由于本实施例中要构建的麻将领域本体没有其他本体可以复用，因此要重新构建本体。

（3）列出麻将领域百科知识本体中专业术语：思考要构建该本体需要哪些术语并列出，比如麻将领域的麻将番数、麻将牌、麻将口诀、计分方法等。

（4）定义类和类的等级体系：定义各个类之间的等级关系，比如说麻将种类下面是麻将牌，麻将牌下面是牌型。

（5）定义类的属性：定义某一个类由哪些属性，比如麻将牌就有牌数，花型等属性。

（6）定义属性的分面：建立麻将领域的分类关系后，将分类概念的属性值添加到分类概念中。

（7）创建实例：每个实例选择类，建立实例，填入属性值。比如大四喜属于番种类，其属性值为番数88番、不计碰碰胡等。

此外，对于麻将领域辅助决策知识本体，通过对可解释智能决策系统的解释节点的拆解，归纳出决策相关的节点以及节点与节点之间的联系。

通过对麻将语料库的聚合分析，利用上述七步法，统计出相应的麻将知识点，形成了较为完备的麻将知识框架。支持麻将内容的有效，细粒度问答。

归纳出决策相关的节点是指利用节点的相关信息进行决策解释，比如获取手牌信息这个节点，这个节点包含着向听数、胡牌难度等决策信息，故而可以在具体的决策中，回答用户手牌信息相关的问题——为什么不打平和，我手牌的平和向听数是多少等。

S102，构建麻将领域知识标注语料库。

请参阅图2，步骤S102具体包括步骤S1021~S1023：

S1021，通过爬取技术爬取得到初始文本。

例如，从专业网站或博客中爬取高质量的文本。

S1022，对所述初始文本进行数据清洗，并在命名实体识别任务上，将相同实体对之间的描述抽取，形成模板。

其中，可以少量标注+模板抽取+替换的迭代方法进行数据清洗，人为标注是获取基本的数据，模板抽取和替换迭代是为了半自动化扩充数据，降低人工成本。

S1023，利用所述实体对和所述模板进行训练得到语料库建设模型，以通过语料库建设模型构建所述麻将领域知识标注语料库。

其中，可以将数据清洗后进行少量的人工标注，在命名实体识别任务上，将相同实体对之间的描述抽取，形成语料库建设模板，将同类实体及模板进行随机替换。由于所设计的实体粒度细，替换后的语句仍保持着高质量。用此部分数据（即上述的实体对和模板）进行训练，得到语料库建设模型，用所得模型进行新文本的标注，人工进行修改后再替换，由此迭代产生了大量的高质量，覆盖面广的非完备信息博弈（麻将）领域命名实体识别及关系抽取语料库。

下面以一实例进行说明：

在“大四喜在国标麻将中计88番”这一文本中，将“大四喜”、“88番”抽取出来，此时形成的模板为“MJS在国标麻将中计SCORE”，在“三杠的番种为32番”中把“三杠”、“32番”抽取出来，此时形成的模板为“MJS的番种为SCORE”。MJS指番种，SCORE指番数，而类似“大四喜”和“88番”，“三杠”和“32番”的实体对有“大三元”和“88番”、“清幺九”和“64番”等。此时由两个类似实体对和两个模板，将该实体对与模板进行随机替换，形成“大三元在国标麻将中计88番”、“清幺九在国标麻中计64番”、“大三元的番种为88番”、“清幺九的番种为32番”等新的数据。

S103，基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，以得到麻将领域知识图谱。

其中，利用领域知识标注语料库根据关系抽取技术来实现三元组的抽取。

对于关系抽取来说，麻将数据具有“一对多”或者“多对多”的特点，比如“绿一色不加计四归一，可加计七对、混一色”，那么要抽出”绿一色-不加计-四归一”、“绿一色-加计-七对”、“绿一色-加计-混一色”这三个三元组。

常规的方案是依据句法依存来进行关系抽取或者是先进行实体识别，然后对识别出来的实体进行关系分类，但这两个方法不能很好的体现麻将数据存在的“一对多”或“多对多”的特点，因此，本实施例中使用端到端的思路，基于DGCNN和概率图来对麻将领域知识标注语料库进行麻将数据的关系抽取，先预测头实体，再预测关系和尾实体，对于麻将数据的关系抽取具有很好的效果。

S104，通过深度学习训练得到命名实体识别模型和意图识别模型，并利用所述命名实体识别模型和所述意图识别模型对问句进行解析，形成结构化的查询语句。

其中，命名实体识别模型用于识别出问句中的实体，意图识别模型用于识别出问题所问的意图，比如问句“大四喜不计什么”，命名实体识别模型识别出实体：“大四喜”，意图识别模型识别出意图：“不计”。利用“大四喜”和“不计”可以轻松的构建出结构化的查询语句，系统将通过返回的结果作为答案返回给用户。

本实施例中，所述命名实体识别模型采用bilstm+crf模型，将生成的麻将领域命名实体识别语料数据投入模型进行训练。

所述意图识别模型采用cnn、lstm、bilstm混合模型，将生成的麻将领域意图识别语料数据投入模型进行训练。

S105，根据所述查询语句在所述麻将领域知识图谱中进行检索，将检索出来的节点作为答案候选项，并从所述答案候选项中选取目标选项作为答案返回。

其中，可以依据问句解析模块反馈的意图与实体进行图谱查询，将检索出来的节点作为答案候选项，选取可能性最高的选项作为答案返回。

上述方法实现了麻将领域的细粒度自动问答。本实施例还提出了针对智能决策模型决策的决策辅助解释自动问答方案，对决策系统的决策可以进行细粒度的问答，降低高风险黑盒决策模型的风险。

综上，根据本实施例提供的基于麻将领域知识图谱的决策辅助自动问答方法，先构建麻将领域知识图谱，然后依赖该麻将领域知识图谱进行自动问答，其中，通过构建麻将领域百科知识本体和麻将领域辅助决策知识本体，以及构建麻将领域知识标注语料库，根据关系抽取技术对麻将领域知识标注语料库进行抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，能够得到高质量、细粒度的麻将领域知识图谱，在自动问答时，通过命名实体识别模型和意图识别模型，可以利用知识图谱节点之间的关联，实现细粒度的决策问答，此外，本发明能够减少人工标注成本。

请参阅图3，本发明一实施例提出的基于麻将领域知识图谱的决策辅助自动问答系统，包括：

第二构建模块，用于构建麻将领域知识标注语料库；

本实施例中，所述第二构建模块具体用于：

通过爬取技术爬取得到初始文本；

本实施例中，所述抽取填充模块具体用于：

本实施例中，所述命名实体识别模型采用bilstm+crf模型，所述意图识别模型采用cnn、lstm、bilstm混合模型。

本实施例中，所述第一构建模块具体用于：

确定麻将领域百科知识本体的专业领域和范畴；

列出麻将领域百科知识本体中专业术语；

定义类和类的等级体系；

定义类的属性；

定义属性的分面；

创建实例。

根据本实施例提供的基于麻将领域知识图谱的决策辅助自动问答系统，先构建麻将领域知识图谱，然后依赖该麻将领域知识图谱进行自动问答，其中，通过构建麻将领域百科知识本体和麻将领域辅助决策知识本体，以及构建麻将领域知识标注语料库，根据关系抽取技术对麻将领域知识标注语料库进行抽取，并将抽取后的数据填充至所述麻将领域百科知识本体和所述麻将领域辅助决策知识本体中，能够得到高质量、细粒度的麻将领域知识图谱，在自动问答时，通过命名实体识别模型和意图识别模型，可以利用知识图谱节点之间的关联，实现细粒度的决策问答，此外，本发明能够减少人工标注成本。

此外，本发明的实施例还提出一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例中所述方法的步骤。

此外，本发明的实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例中所述方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于麻将领域知识图谱的决策辅助自动问答方法，其特征在于，包括：

构建麻将领域百科知识本体和麻将领域辅助决策知识本体，所述麻将领域百科知识本体作为知识框架，用于形成结构化的知识表达体系，所述麻将领域辅助决策知识本体用于归纳出决策相关的节点以及节点与节点之间的联系，对于麻将领域辅助决策知识本体，通过对可解释智能决策系统的解释节点的拆解，归纳出决策相关的节点以及节点与节点之间的联系；

构建麻将领域知识标注语料库；

根据所述查询语句在所述麻将领域知识图谱中进行检索，将检索出来的节点作为答案候选项，并从所述答案候选项中选取目标选项作为答案返回；

构建麻将领域知识标注语料库的步骤具体包括：

通过爬取技术爬取得到初始文本；

利用所述实体对和所述模板进行训练得到语料库建设模型，以通过语料库建设模型构建所述麻将领域知识标注语料库；

所述命名实体识别模型采用bilstm+crf模型，所述意图识别模型采用cnn、lstm、bilstm混合模型；

构建麻将领域百科知识本体的步骤具体包括：

确定麻将领域百科知识本体的专业领域和范畴；

列出麻将领域百科知识本体中专业术语；

定义类和类的等级体系；

定义类的属性；

定义属性的分面；

创建实例；

基于DGCNN和概率图对所述麻将领域知识标注语料库进行麻将数据的关系抽取的步骤具体包括：

基于DGCNN和概率图来对所述麻将领域知识标注语料库进行麻将数据的关系抽取，先预测头实体，再预测关系和尾实体。

2.一种基于麻将领域知识图谱的决策辅助自动问答系统，其特征在于，包括：

第一构建模块，用于构建麻将领域百科知识本体和麻将领域辅助决策知识本体，所述麻将领域百科知识本体作为知识框架，用于形成结构化的知识表达体系，所述麻将领域辅助决策知识本体用于归纳出决策相关的节点以及节点与节点之间的联系，对于麻将领域辅助决策知识本体，通过对可解释智能决策系统的解释节点的拆解，归纳出决策相关的节点以及节点与节点之间的联系；

第二构建模块，用于构建麻将领域知识标注语料库；

检索返回模块，用于根据所述查询语句在所述麻将领域知识图谱中进行检索，将检索出来的节点作为答案候选项，并从所述答案候选项中选取目标选项作为答案返回；

所述第二构建模块具体用于：

通过爬取技术爬取得到初始文本；

所述第一构建模块具体用于：

确定麻将领域百科知识本体的专业领域和范畴；

列出麻将领域百科知识本体中专业术语；

定义类和类的等级体系；

定义类的属性；

定义属性的分面；

创建实例；

所述抽取填充模块具体用于：