CN114090762A

CN114090762A - 一种期货领域的自动问答方法和系统

Info

Publication number: CN114090762A
Application number: CN202210074609.8A
Authority: CN
Inventors: 杨胜利; 吴福文; 康维鹏
Original assignee: Zheshang Futures Co ltd
Current assignee: Zheshang Futures Co ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-02-25
Anticipated expiration: 2042-01-21
Also published as: CN114090762B

Abstract

本申请涉及一种期货领域的自动问答方法和系统，其中，该方法包括：通过获取问题语句，根据期货实体列表对问题语句进行实体识别，根据连续的若干问题语句的实体识别结果，对问题语句进行上下文补充，得到补充后的问题语句，对补充后的问题语句进行问句子块划分，从问句子块中通过焦点识别得到权重最大的问句主子块，通过深度学习算法对问句主子块进行问句类型识别，得到问题语句的类别标签，根据问题语句的类别标签分别进行相应的深层语义理解，进而从期货问答知识库数据中查询获取到相关数据进行答案封装，通过本申请，解决了相关技术中期货领域的自动应答精确度低的问题，实现了对期货领域中多种类别的问题进行精准应答。

Description

一种期货领域的自动问答方法和系统

技术领域

本申请涉及自动问答技术领域，特别是涉及一种期货领域的自动问答方法和系统。

背景技术

随着互联网技术的发展，信息呈爆炸速度增长，信息的采集、传播速度和规模达到空前水平。因此，如何从浩如烟海的信息海洋中准确高效地获取所需知识成为亟需解决的问题。传统的信息检索方式，类似百度、谷歌等搜索引擎，通过对资讯数据进行分词、倒排索引，最后细分排序等处理方式，只能提供可供参考的信息，而并不能直接给出精准答案，这种方式使得人们获得知识的时间较长，获取知识的精确度也不足。

就期货领域而言，用户期望通过简要的自然语言问句就能查询获取到关于行情交易、现货仓储、期货资讯、研报分析和交易规则等各方面的精准信息与答案。这些涉及到期货领域各方面数据，既包括资讯、研报等非结构化数据信息，也包括到期货品种合约交易、现货仓库等结构化数据，同时还包括经过人工整理各种期货常见问答知识数据。由于期货领域所涉数据的多样性及复杂性，传统的信息检索技术手段不能实现精准理解用户查询的目标。

目前针对相关技术中期货领域的自动应答精确度低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种期货领域的自动问答方法和系统，以至少解决相关技术中期货领域的自动应答精确度低的问题。

第一方面，本申请实施例提供了一种期货领域的自动问答方法，所述方法包括：

获取问题语句，根据期货实体列表对所述问题语句进行实体识别，其中，所述期货实体列表是根据期货问答知识库数据构建得到的；

根据连续时序上若干所述问题语句的实体识别结果，对所述问题语句进行上下文补充，得到补充后的问题语句；

对所述补充后的问题语句进行问句子块划分，从所述问句子块中通过焦点识别得到权重最大的问句主子块；

通过深度学习算法对所述问句主子块进行问句类型识别，得到所述问题语句的类别标签；

根据所述问题语句的类别标签分别进行相应的深层语义理解，进而从所述期货问答知识库数据中查询获取到相关数据进行答案封装。

在其中一些实施例中，根据期货问答知识库数据构建期货实体列表，根据所述期货实体列表对所述问题语句进行实体识别包括：

根据期货问答知识库数据中的期货实体语义类别、期货实体同义表述和期货实体语义属性，构建期货实体列表；

根据SQL字段同义表述和SQL查询关键字，构建SQL查询列表；

根据所述期货实体列表和所述SQL查询列表，构建字典树对所述问题语句进行最大前缀匹配识别；

通过正则表达式对所述问题语句进行时间数字识别，并通过预设开源分词工具对所述问题语句进行分词识别。

在其中一些实施例中，根据所述问题语句的类别标签分别进行相应的深层语义理解，进而从所述期货问答知识库数据中查询获取到相关数据进行答案封装包括：

若所述问题语句的类别标签为资讯研报类，则根据所述问题语句的实体识别结果，将所述问题语句解析成若干类型的查询Query，根据所述查询Query从所述期货问答知识库数据中获取最佳候选文档，并进行段落摘要按预设图标样式完成答案封装；

若所述问题语句的类别标签为结构化查询类，则根据所述问题语句通过相似匹配模型确定对应的数据库表，根据所述问题语句和所述数据库表中的字段确定SQL查询字段和SQL查询条件，进而组合得到SQL查询语句从所述期货问答知识库数据中获取最佳候选数据，按预设图标样式完成答案封装；

若所述问题语句的类别标签为常见客服类，则通过TextCNN分类模型确定所述问题语句在所述常见客服类中的候选类别，再通过K-NRM相似模型计算得到所述候选类别下相似度最大的候选问题，从所述期货问答知识库数据中获取最佳答案，按预设图标样式完成答案封装。

在其中一些实施例中，通过深度学习算法对所述问句主子块进行问句类型识别，得到所述问题语句的类别标签包括：

通过word2vec词向量工具计算得到所述问题语句的问句主子块的词向量；

根据资讯研报类词表、结构化查询类词表和常见客服类词表，构建TextCNN分类模型并迭代训练；

根据所述词向量通过训练好的所述TextCNN分类模型进行问句分类，得到所述问题语句的类别标签，其中，所述类别标签包括资讯研报类、结构化查询类和常见客服类。

在其中一些实施例中，根据连续时序上若干所述问题语句的实体识别结果，对所述问题语句进行上下文补充包括：

根据连续时序上当前问题语句的实体识别结果，判断所述当前问题语句是否满足预设句式规则；

若满足，则遍历所述连续时序上其他问题语句的实体识别结果，判断所述其他问题语句与所述当前问题语句是否存在省略关系；

若存在，则对所述当前问题语句进行上下文补充。

在其中一些实施例中，对所述补充后的问题语句进行问句子块划分，从所述问句子块中通过焦点识别得到权重最大的问句主子块包括：

通过CRF序列标注法对所述问题语句进行Chunk切分得到若干问句子块，并计算所述问句子块的权重信息，按所述权重信息排序得到权重最大的问句主子块。

在其中一些实施例中，根据所述问题语句的实体识别结果，将所述问题语句解析成若干类型的查询Query，根据所述查询Query从所述期货问答知识库数据中获取最佳候选文档包括：

根据所述问题语句的实体识别结果，将所述问题语句解析成时间查询Query、研报查询Query、品种查询Query、意向查询Query、标题查询Query和内容查询Query；

将若干所述查询Query按OR逻辑组装成最终查询Query，从所述期货问答知识库数据中获取候选文档；

通过K-NRM模型计算所述候选文档与所述最终查询Query的相似度，得到相似度最大的最佳候选文档。

在其中一些实施例中，根据所述问题语句通过相似匹配模型确定对应的数据库表，根据所述问题语句和所述数据库表中的字段确定SQL查询字段和SQL查询条件，进而组合得到SQL查询语句从所述期货问答知识库数据中获取最佳候选数据包括：

通过Biaffine双仿射模型计算所述问题语句与数据库表的对齐语义特征信息并判断是否关联匹配，确定对应的数据库表；

根据问题语句中的实体与所述数据库表中的字段确定SQL查询字段；

通过Biaffine双仿射模型计算所述问题语句中的实体与所述数据库表中的字段的对齐分值确定SQL查询条件；

根据SQL语法规则，将所述数据库表、所述SQL查询字段和所述SQL查询条件组合得到SQL查询语句，从所述期货问答知识库数据中获取最佳候选数据。

在其中一些实施例中，在根据期货问答知识库数据构建期货实体列表之前，所述方法还包括：

获取用于对期货和现货的市场行情、产能结构和未来走势进行分析研究的资讯研报类数据，获取期货交易中产生的结构化数据，获取基础知识性的常见客服类数据；

根据所述资讯研报类数据、结构化数据和常见客服类数据，建立期货问答知识库数据。

第二方面，本申请实施例提供了一种期货领域的自动问答系统，所述系统包括获取模块、浅层语义理解模块、深层语义理解模块和回复响应模块；

所述获取模块获取问题语句；

所述浅层语义理解模块根据期货实体列表对所述问题语句进行实体识别，其中，所述期货实体列表是根据期货问答知识库数据构建得到的；再根据连续时序上若干所述问题语句的实体识别结果，对所述问题语句进行上下文补充，得到补充后的问题语句，对所述补充后的问题语句进行问句子块划分，从所述问句子块中通过焦点识别得到权重最大的问句主子块，通过深度学习算法对所述问句主子块进行问句类型识别，得到所述问题语句的类别标签；

所述深层语义理解模块根据所述问题语句的类别标签分别进行相应的深层语义理解；

所述回复响应模块从所述期货问答知识库数据中查询获取到相关数据进行答案封装。

相比于相关技术，本申请实施例提供的一种期货领域的自动问答方法和系统，通过获取问题语句，根据期货实体列表对问题语句进行实体识别，其中，期货实体列表是根据期货问答知识库数据构建得到的，再根据连续时序上若干问题语句的实体识别结果，对问题语句进行上下文补充，得到补充后的问题语句，对补充后的问题语句进行问句子块划分，从问句子块中通过焦点识别得到权重最大的问句主子块，通过深度学习算法对问句主子块进行问句类型识别，得到问题语句的类别标签，根据问题语句的类别标签分别进行相应的深层语义理解，进而从期货问答知识库数据中查询获取到相关数据进行答案封装，解决了相关技术中期货领域的自动应答精确度低的问题，实现了对期货领域中多种类别的问题进行精准应答。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的期货领域的自动问答方法的步骤流程图；

图2是期货领域的问题语句实体识别方法的步骤流程图；

图3是期货领域的多类型问题语句自动应答的步骤流程图；

图4是K-NRM模型的整体模型结构的示意图；

图5是根据本申请实施例的期货领域的自动问答系统的结构框图；

图6是根据本申请实施例的电子设备的内部结构示意图。

附图说明：51、获取模块；52、浅层语义理解模块；53、深层语义理解模块；54、回复响应模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

实施例1

本申请实施例提供了一种期货领域的自动问答方法，图1是根据本申请实施例的期货领域的自动问答方法的步骤流程图，如图1所示，该方法包括以下步骤：

步骤S102，获取问题语句，根据期货实体列表对问题语句进行实体识别，其中，期货实体列表是根据期货问答知识库数据构建得到的；

步骤S104，根据连续时序上若干问题语句的实体识别结果，对问题语句进行上下文补充，得到补充后的问题语句；

步骤S106，对补充后的问题语句进行问句子块划分，从问句子块中通过焦点识别得到权重最大的问句主子块；

步骤S108，通过深度学习算法对问句主子块进行问句类型识别，得到问题语句的类别标签；

步骤S110，根据问题语句的类别标签分别进行相应的深层语义理解，进而从期货问答知识库数据中查询获取到相关数据进行答案封装。

通过本申请实施例中的步骤S102至步骤S110，解决了相关技术中期货领域的自动应答精确度低的问题，实现了对期货领域中多种类别的问题进行精准应答。

在其中一些实施例中，图2是期货领域的问题语句实体识别方法的步骤流程图，如图2所示，步骤S102，根据期货问答知识库数据构建期货实体列表，根据期货实体列表对问题语句进行实体识别包括：

步骤S202，根据期货问答知识库数据中的期货实体语义类别、期货实体同义表述和期货实体语义属性，构建期货实体列表；

具体地，期货问答知识库数据中的期货实体语义类别，主要包括期货品种、期货合约代码、期货交易所、国家地区、行业人物和期货数据指标等类别；而不同期货实体语义类别具有不同的期货实体语义属性，如期货品种具有品种名称、品种代码、交易所、所属一级大类等属性；此外，期货实体具有期货实体同义表述，即一个实体具有多个同义表述。综上所述，表1是期货品种-实体列表，表2是期货交易所-实体列表，如表1和表2所示，按照语义类别（Type）、归一词（Normal）、同义词（Words）和语义属性（ProductCode/ExchCode）的方式整理构建期货实体列表。

步骤S204，根据SQL字段同义表述和SQL查询关键字，构建SQL查询列表；

具体地，SQL查询关键字包括SELECT、IN、MAX、MIN和AVG等应用在数据库查询中的单词，且SQL字段具有同义表述，因此表3是字段-SQL关键字表，如表3所示，按照类别类别（Type）、归一词（Normal）、同义词（Words）和SQL关键字（Sql）的方式整理构建SQL查询列表。

步骤S206，根据期货实体列表和SQL查询列表，构建字典（Trie）树对问题语句进行最大前缀匹配识别；

步骤S208，通过正则表达式对问题语句进行时间数字识别，并通过预设开源分词工具对问题语句进行分词识别。

具体地，基于正则表达式规则，通过正则表达式对问题语句中数字和时间等进行规则识别；最后对于问题语句中的非实体部分，采用Jieba和LTP等开源分词工具进行分词识别，并结合上述最大前缀匹配识别和时间数字识别完成对期货领域问句的词法分析。

在其中一些实施例中，图3是期货领域的多类型问题语句自动应答的步骤流程图，如图3所示，步骤S110，根据问题语句的类别标签分别进行相应的深层语义理解，进而从期货问答知识库数据中查询获取到相关数据进行答案封装包括：

步骤S302，若问题语句的类别标签为资讯研报类，则根据问题语句的实体识别结果，将问题语句解析成若干类型的查询Query，根据查询Query从期货问答知识库数据中获取最佳候选文档，并进行段落摘要按预设图标样式完成答案封装；

具体地，进行段落摘要按预设图标样式完成答案封装，其具体方式是：将最佳候选文档进行句段划分，并与文档标题、整个文档原始摘要一起形成句段集合，将每个句段视为一个docment采用步骤S302获取最佳候选文档的方法，获取最终答案句段作为段落摘要，并按资讯研报类的图标样式完成答案封装。

步骤S304，若问题语句的类别标签为结构化查询类，则根据问题语句通过相似匹配模型确定对应的数据库表，根据问题语句和数据库表中的字段确定SQL查询字段和SQL查询条件，进而组合得到SQL查询语句从期货问答知识库数据中获取最佳候选数据，按预设图标样式完成答案封装；

步骤S306，若问题语句的类别标签为常见客服类，则通过TextCNN分类模型确定问题语句在常见客服类中的候选类别，再通过K-NRM相似模型计算得到候选类别下相似度最大的候选问题，从期货问答知识库数据中获取最佳答案，按预设图标样式完成答案封装。

具体地，对于FAQ常见客服类的问题语句的解析，可以逐级细分的原则进行。即先通过TextCNN等分类模型确定在常见客服类问题中的候选类别，然后再通过K-NRM相似模型计算该问题大类下最相似匹配问句。

在其中一些实施例中，步骤S108，通过深度学习算法对问句主子块进行问句类型识别，得到问题语句的类别标签包括：

通过word2vec词向量工具计算得到问题语句的问句主子块的词向量；

根据词向量通过训练好的TextCNN分类模型进行问句分类，得到问题语句的类别标签，其中，类别标签包括资讯研报类、结构化查询类和常见客服类。

具体地，期货问答对话系统主要包含3大类问题：资讯研报类问题、结构化查询类问题和常见客服类问题，因此需要将问题语句基本划分成这三大类问题，将不同问题划分到不同的深层理解部分进行处理，在问题语句的类型划分上采用TextCNN分类模型。

建立资讯研报类词表（标题、内容）、结构化查询类词表（数据库库表名、字段名、记录文本值）和常见客服类词表（标准问句、相似问句、答案）作为数据来源；

采用google提供的word2vec词向量工具训练问题语句的问句主子块的词向量，将问句转化为向量表示（对问句主子块进行补0操作，变成等长向量化表示）；

根据资讯研报类词表、结构化查询类词表和常见客服类词表，构建TextCNN模型并迭代训练，用验证集进行准确率测试以得到最佳模型；

根据词向量通过训练好的TextCNN分类模型进行问句分类，得到问题语句的类别标签。

在其中一些实施例中，步骤S104，根据连续时序上若干问题语句的实体识别结果，对问题语句进行上下文补充包括：

根据连续时序上当前问题语句的实体识别结果，判断当前问题语句是否满足预设句式规则；

若满足，则遍历连续时序上其他问题语句的实体识别结果，判断其他问题语句与当前问题语句是否存在省略关系；

若存在，则对当前问题语句进行上下文补充。

具体地，在智能对话系统中，经常会出现上下文拼写省略的情况。在期货领域中为了实现自动问答，需要解决期货品种、期货合约和时间等实体的拼写补全问题，表4是连续时序上的问题语句示例表，以表4为示例，具体举例如下：

表4

根据连续时序上当前问题语句的实体识别结果，判断是否满足特定的句式规则，如句式规则：(那|那嚒|那么...) ($DATE | $NUM | $PRODUCT | $LOCAL | $PERSON ...)(呢|的呢|的呐|...)；

若满足，则依次遍历当前问题语句的上文N条(N可以取3)问题语句，并根据分词与实体进行对齐匹配，进一步判断上下文之间是否存在实体替换或省略关系，如用户问句2对比用户问句1存在“铜”和“研报”的实体省略关系；

若存在，则将上文问题语句中的词语与实体按照实体对齐匹配的关系补全到当前问题语句中，如将用户问句2“那9月的呢” 补全改写后为“铜9月的研报”。

在其中一些实施例中，步骤S106，对补充后的问题语句进行问句子块划分，从问句子块中通过焦点识别得到权重最大的问句主子块包括：

通过CRF序列标注法对问题语句进行Chunk切分得到若干问句子块，并计算问句子块的权重信息，按权重信息排序得到权重最大的问句主子块。

具体地，无论对期货资讯或研报询问，还是对品种合约的实时行情数据查询，又或在期货开户或软件使用等遇到问题，用户都可能用较长文本语句来描述问题信息，若是要提高自动应答的精准度，就需要重点识别比较关键的问句子块，即识别长问句中的问句焦点。例如：“昨天我在你们APP上委托下单买入了5手铜，后来发现保证金不足怎么不交保证金”，问句有两个子块，其中焦点是后半句“保证金不足怎么不交保证金”，

采用CRF序列标注方式，对识别出来的字句进行词语权重计算从而确定问句焦点。CRF主要是采用“BI”序列标注体系对问句中的每个位置的词语进行标签分类，其中“B-Chunk”表示问句子块开始、“I-Chunk”表示问句子块中间位置。在CRF句块识别中，采用Unigram特征模板进行特征抽取，主要的特征有：当前词语、当前词性和上下文窗口的词语|词性组合等。经过CRF识别之后，我们进一步根据长问句中的逻辑关联词语（“但是”、“并且”、“导致”等），以及问句子块中的TF-IDF权重信息全部问句子块进行排序，从而获取得到权重最大的问句主子块。

在其中一些实施例中，步骤S302，根据问题语句的实体识别结果，将问题语句解析成若干类型的查询Query，根据查询Query从期货问答知识库数据中获取最佳候选文档包括：

根据问题语句的实体识别结果，将问题语句解析成时间查询Query、研报查询Query、品种查询Query、意向查询Query、标题查询Query和内容查询Query；

将若干查询Query按OR逻辑组装成最终查询Query，从期货问答知识库数据中获取候选文档；

通过K-NRM模型计算候选文档与最终查询Query的相似度，得到相似度最大的最佳候选文档。

具体地，期货领域的资讯研报是采用Solr或ES索引工具，按照发布时间、发布来源、标题、内容、作者、期货品种、看涨看跌等标签进行索引构建的。因此，在深层理解阶段，也是从这几方面进行解析并组装成索引的Query查询语句，从而获取到候选文档，最后再进行候选文档排序，并对文档进行摘要从而进行精准回答；

以“铜铝今年8月月报”作为问题语句（资讯研报类），具体举例如下：

根据问题语句的实体识别结果，得到“今年8月”是时间，其时间范围为“2021-08-01 到 2021-08-31”，将其解析成时间查询Query可表示为：PUBLISHU_TIME: ['2021-08-01' TO '2021-08-31']；“月报”是研报类型词语，将其解析成研报查询Query可以表示成：PUBLISHU_TYPE: '月报'；“铜铝”是期货品种词语，由于是“铜”、“铝”都属于有色金属，为了将相关有色金属也检索，品种查询Query可以表示成：PRODUCT_TYPE:( '铜铝' or '有色金属')。该问题语句没有实质性的看涨看跌偏好用户需求，因此不需要生成意向查询Query，若存在看涨看等分类标签性字段，则采用步骤S108中的标签分类方式进行识别，并组装成相应的意向查询Query。此外，由于问题语句一般是直接查询的是标题或正文内容上的，因此，解析生成的标题查询Query可表示为：TITLE:('铜铝' or '今年' or '8月' or '月报')，内容查询Query可表示为：CONTENT: ('铜铝' or '今年' or '8月' or '月报')。

从期货问答知识库数据中获取到Top-N（N一般取值50或100）的候选文档，就需要采用相关模型对候选文档进行排序。在期货领域，自有的研报数据要比资讯更为重要，期货品种类型的匹配也比普通实体词语更为重要，再就是时间的匹配度与时效性等。因此此处的排序方法是先将候选文章与问题语句都转为向量化表示，具体也可采用Word2Vec向量化工具，然后采用K-NRM模型分别计算最终查询Query与Top-N中的每个候选文档Document的相似度。

图4是K-NRM模型的整体模型结构的示意图，如图4所示，K-NRM模型整体分为3层：翻译层（translation layer）、K个核心池化层（kernel pooling layer）和最终排序层（rank layer）。在翻译层上，其输入的最终查询Query和候选文档Doc的词语个数分别为n和m，它们组成了长度分别为n和m的两个向量，翻译层主要计算问题语句和候选文档的Cosine相似度，最终得到M_nxm的矩阵并输入到K核池化层。在K核池化层上引入k个RBF径向基核函数，将M_nxm矩阵每一行（m长度）经过k个核函数转化成长度为k的核特征向量，即将M_nxm矩阵转化为M_nxk矩阵；最后在排序层将M_nxk矩阵，通过一个线性映射后求和后得到长度为k的一维向量，最终通过指双曲正切tanh函数进行计算得到最终的分数。在经过上述精确相似排序计算后，最终得到了问题语句和各个候选文档相似度，从而获取得到最相关的最佳候选文档。

在其中一些实施例中，步骤S304，根据问题语句通过相似匹配模型确定对应的数据库表，根据问题语句和数据库表中的字段确定SQL查询字段和SQL查询条件，进而组合得到SQL查询语句从期货问答知识库数据中获取最佳候选数据包括：

通过Biaffine双仿射模型计算问题语句与数据库表的对齐语义特征信息并判断是否关联匹配，确定对应的数据库表；

根据问题语句中的实体与数据库表中的字段确定SQL查询字段；

通过Biaffine双仿射模型计算问题语句中的实体与数据库表中的字段的对齐分值确定SQL查询条件；

根据SQL语法规则，将数据库表、SQL查询字段和SQL查询条件组合得到SQL查询语句，从期货问答知识库数据中获取最佳候选数据。

具体地，期货领域中有相当一部分问题语句是对期货行情交易等结构化数据的查询，例如“9月28日铜的收盘价”，就是精确化查询。因此需要生成与此类问题语句对应的SQL查询语句进行答案获取，用到的符号语义主要来自于三方面：业务化数据库表、SQL关键字和当前问题语句。即需要根据问句浅层语义解析结果，分析确定用户所查询的数据库表、数据库表字段、查询限定条件，并用SQL关键字将这些组装起来。

采用相似匹配模型选择确定当前用户想查询询问的数据库表，具体为，根据问题语句的实体识别结果，将问题语句进行Word2Vec向量化，主要将实体分词、实体属性等信息进行向量化表示。如上述问题语句“9月28日铜的收盘价”，我们得到“9月28日”是日期型时间，“收盘价”是INDEX数据指标，“铜”是期货品种；同时分别将各个数据库表的候选字段进行向量化表示，即将表名、库表描述和重要存储字段等信息进行向量化表示，采用Biaffine双仿射模型，将问题语句中的实体与数据库表字段进行语义对齐，抽取对齐语义特征信息，然后将对齐信息通过线性映射转化为1维变量，再通过指双曲正切tanh函数确定问句与数据库表是否关联匹配，确定对应的数据库表。如上述问题语句“9月28日铜的收盘价”，可以最终确定用户查询的是期货历史行情交易行情数据表。

根据问题语句中的词语与该数据库表字段的匹配信息，进一步确定需要返回的SQL查询字段。数据库表的候选字段中还包括SQL查询关键字，如COUNT(*)、MAX、MIN和AVG等。与确定数据库表类似，将SQL查询关键字的字段名称、字段描述等进行Embedding，从而获取语义向量表示。此外，由于问题语句查询返回的SQL查询字段可能是多个，因此对于每个SQL查询字段都采用二分法进行判别是否是当前查询字段，最终将判断为“是”的字段集合进行返回。

从问题语句中识别出SQL查询条件，主要是将问题语句中的实体与库表中具体字段进行关系绑定，即对问句中的每个实体在当前库表中寻找最佳匹配的字段，表5是问句实体-表字段匹配表，如表5所示，对于这种绑定对齐关系的实现，可以采用双仿射网络（如Biaffine）进行语义对齐。将问题语句的实体和数据库表的具体字段进行向量化，通过双仿射网络计算每个<实体, 字段>的对齐分值，确定绑定对齐关系，即得到SQL查询条件。

表5

根据SQL语法规则，将上述确定好的数据库表、SQL查询字段和SQL查询条件组合得到SQL查询语句，如SELECT close_price FROM history_trade_info WHERE product_name=’铜’ and trade_date=’2021-09-28’，从期货问答知识库数据中获取最佳候选数据。

在其中一些实施例中，在步骤S102，根据期货问答知识库数据构建期货实体列表之前还包括：

根据资讯研报类数据、结构化数据和常见客服类数据，建立期货问答知识库数据。

具体地，一、资讯研报类数据准备。

期货资讯类数据主要是通过财经网站或者行业网站进行发布。可以先采用人工方式对权威及较大影响力的期货财经及行业网站进行URL整理，表6是整理好的期货资讯类数据来源URL的示例表，并采用智能爬虫进行定向定时抓取；然后针对各网站HTML网页文档结构特点，编写对应的Xpath路径规则对文档进行资讯标题、发布时间、发布渠道、创作者、资讯正文内容和涉及的期货品种标签等信息进行抽取。

表6

除了从互联网抓取的公开资讯类数据外，期货公司一般都有自身发布的投资研报类数据，这些数据一般是关于某期货品种在一定时间周期（日、周、月等）的期货及现货市场行情、产能结构、未来走势等进行的分析研究。对于投资研报类数据，同样需结构化出研报的标题、研报类型、摘要、发布时间、期货品种和一级类别等标签信息字段，采用Solr和ElasticSearchde等开源工具，按标题、正文、时间、期货品种、标签等进行分别索引。结合上述期货资讯类数据从而构建起资讯研报类数据。

二、期货现货行情交易等结构化数据准备。

结构化数据最主要是期货现货行情交易类数据，其获取方式主要是机构自产数据，也包括从万得和彭博等第三方接入是数据。具体内容包括日盘和夜盘的实时交易数据、历史交易数据、K线数据、仓库数据、商品合约数据、期货主力和外盘交易数据等各类数据。对于不同类型的结构化数据，建立起单独的数据表，每张表都具有期货品种名称、期货品种代码（或期货合约代码）、交易时间、及开盘价、收盘价、最高价、最低价和结算价等内容数字。结构化数据采用Mysql等关系数据表进行存储。由于后继需要对问题语句进行精准应答，需要进行数据库表SQL查询，因此需要刻画出数据库表的Schema信息，表7期货结构化数据的示例表，表8是数据表字段信息的示例表，具体如表7和表8所示：

表7

表8

三、常见客服类数据准备。

期货业务中还需要通过人工梳理基础知识性及客服性常见问答知识，涵盖开户资讯、软件使用、期货交易交割规则、银期签约、账号密码等各细分类别问题。对于人工整理的期货问答知识对。表9是常见客服类数据的示例表，如表9所示，按照业务分类、标题问题、答案、相似文法列表等信息进行知识准备梳理。

表9

根据上述资讯研报类数据、结构化数据和常见客服类数据，建立期货问答知识库数据。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供了一种期货领域的自动问答系统，图5是根据本申请实施例的期货领域的自动问答系统的结构框图，如图5所示，通过下述若干模块可以实现实施例1中记载的方步骤，该系统包括获取模块51、浅层语义理解模块52、深层语义理解模块53和回复响应模块54；

获取模块51获取问题语句；

浅层语义理解模块52根据期货实体列表对问题语句进行实体识别，其中，期货实体列表是根据期货问答知识库数据构建得到的；再根据连续时序上若干问题语句的实体识别结果，对问题语句进行上下文补充，得到补充后的问题语句，对补充后的问题语句进行问句子块划分，从问句子块中通过焦点识别得到权重最大的问句主子块，通过深度学习算法对问句主子块进行问句类型识别，得到问题语句的类别标签；

深层语义理解模块53根据问题语句的类别标签分别进行相应的深层语义理解；

回复响应模块54从期货问答知识库数据中查询获取到相关数据进行答案封装。

通过本申请实施例中的获取模块51、浅层语义理解模块52、深层语义理解模块53和回复响应模块54，解决了相关技术中期货领域的自动应答精确度低的问题，实现了对期货领域中多种类别的问题进行精准应答。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

实施例3

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的期货领域的自动问答方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种期货领域的自动问答方法。

实施例4

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种期货领域的自动问答方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图6是根据本申请实施例的电子设备的内部结构示意图，如图6所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种期货领域的自动问答方法，数据库用于存储数据。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种期货领域的自动问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据期货问答知识库数据构建期货实体列表，根据所述期货实体列表对所述问题语句进行实体识别包括：

根据SQL字段同义表述和SQL查询关键字，构建SQL查询列表；

3.根据权利要求1所述的方法，其特征在于，根据所述问题语句的类别标签分别进行相应的深层语义理解，进而从所述期货问答知识库数据中查询获取到相关数据进行答案封装包括：

4.根据权利要求1所述的方法，其特征在于，通过深度学习算法对所述问句主子块进行问句类型识别，得到所述问题语句的类别标签包括：

5.根据权利要求1所述的方法，其特征在于，根据连续时序上若干所述问题语句的实体识别结果，对所述问题语句进行上下文补充包括：

若存在，则对所述当前问题语句进行上下文补充。

6.根据权利要求1所述的方法，其特征在于，对所述补充后的问题语句进行问句子块划分，从所述问句子块中通过焦点识别得到权重最大的问句主子块包括：

7.根据权利要求3所述的方法，其特征在于，根据所述问题语句的实体识别结果，将所述问题语句解析成若干类型的查询Query，根据所述查询Query从所述期货问答知识库数据中获取最佳候选文档包括：

8.根据权利要求1所述的方法，其特征在于，根据所述问题语句通过相似匹配模型确定对应的数据库表，根据所述问题语句和所述数据库表中的字段确定SQL查询字段和SQL查询条件，进而组合得到SQL查询语句从所述期货问答知识库数据中获取最佳候选数据包括：

9.根据权利要求1所述的方法，其特征在于，在根据期货问答知识库数据构建期货实体列表之前，所述方法还包括：

10.一种期货领域的自动问答系统，其特征在于，所述系统包括获取模块、浅层语义理解模块、深层语义理解模块和回复响应模块；

所述获取模块获取问题语句；