CN111897934A - 问答对生成方法及装置 - Google Patents

问答对生成方法及装置 Download PDF

Info

Publication number
CN111897934A
CN111897934A CN202010740577.1A CN202010740577A CN111897934A CN 111897934 A CN111897934 A CN 111897934A CN 202010740577 A CN202010740577 A CN 202010740577A CN 111897934 A CN111897934 A CN 111897934A
Authority
CN
China
Prior art keywords
question
sample
answer
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010740577.1A
Other languages
English (en)
Other versions
CN111897934B (zh
Inventor
周辉阳
闫昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010740577.1A priority Critical patent/CN111897934B/zh
Publication of CN111897934A publication Critical patent/CN111897934A/zh
Application granted granted Critical
Publication of CN111897934B publication Critical patent/CN111897934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本申请的实施例提供了一种问答对生成方法及装置。该问答对生成方法包括:识别待处理文本中包含的多个实体词;将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。本申请实施例的技术方案能够实现问答对的自动生成,且生成问答对的准确度高。

Description

问答对生成方法及装置
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种问答对生成方法及装置。
背景技术
随着问答技术广泛应用于智能客服,智能机器人以及智能音箱等多个领域,如何构建问答体系成为了一个热门问题,在信息爆炸的时代,每天新增的信息量无可估计,每天新增的文档文件不可计数,这些里面都含有海量的问答对的数据。
而相关技术中构建问答对的方式大多需要人工参与,覆盖面窄。人工分析处理大量的文档,耗时耗力,所需代价较大,质量较差。
发明内容
本申请的实施例提供了一种问答对生成方法及装置,进而至少在一定程度上能够从文本中提取问答对,实现问答对的自动生成,且生成问答对的准确度高。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种问答对生成方法,包括:识别待处理文本中包含的多个实体词;将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
根据本申请实施例的一个方面,提供了一种问答对生成装置,包括:识别单元,配置为识别待处理文本中包含的多个实体词;第一输入单元,配置为将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;第二输入单元,配置为将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;生成单元,配置为根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
在本申请的一些实施例中,基于前述方案,所述生成单元还配置为:如果所述多个实体词对应的问题语句中存在第一问题语句,所述第一问题语句对应的实体词为所述第一问题语句对应的答案语句的子集,则根据所述第一问题语句和所述第一问题语句对应的答案语句,生成问答对;如果所述多个实体词对应的问题语句中存在第二问题语句,所述第二问题语句对应的答案语句为所述第二问题语句对应的实体词的子集,则根据所述第二问题语句和所述第二问题语句对应的实体词,生成问答对。
在本申请的一些实施例中,基于前述方案,所述第一输入单元还配置为:将所述各个实体词作为答案,与所述待处理文本中包含所述各个实体词的子文本输入所述问题生成模型,所述子文本包含的字符长度不超过预设长度。
在本申请的一些实施例中,基于前述方案,所述第一输入单元还配置为:根据所述各个实体词在所述待处理文本中的位置,将所述待处理文本分成包含所述各个实体词的子文本。
在本申请的一些实施例中,基于前述方案,所述问题生成模型是通过如下方式训练得到的:获取第一训练样本集,所述第一训练样本集中每个训练样本包括文本样本和标注问题,所述文本样本中包含答案样本,所述标注问题为所述答案样本对应的问题;通过所述问题生成模型中的编码器对所述答案样本进行编码,得到所述答案样本的编码表示,并通过所述问题生成模型中的解码器对所述答案样本的编码表示进行解码,得到所述答案样本对应的预测问题;确定所述预测问题和所述标注问题之间的损失,并根据所述损失对所述问题生成模型的参数进行调整。
在本申请的一些实施例中,基于前述方案,所述阅读理解模型是通过如下方式训练得到的:获取第二训练样本集,所述第二训练样本集中每个训练样本包括问题样本、文本样本和标注位置,所述文本样本中包含所述问题样本对应的答案样本,所述标注位置为所述答案样本在所述文本样本中的位置;通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,并预测所述答案样本在所述样本的向量序列中的位置,得到所述答案样本的预测位置;确定所述预测位置与所述标注位置之间的损失,根据所述损失对所述阅读理解模型中的参数进行调整。
在本申请的一些实施例中,基于前述方案,通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,包括:通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列;通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列;通过所述阅读理解模型对所述问题样本的词向量序列和所述文本样本的词向量序列中的每一个词向量进行交叉编码,得到编码后的所述样本的向量序列。
在本申请的一些实施例中,基于前述方案,通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列,包括:通过所述阅读理解模型对所述问题样本中每一个分词、所述问题样本中每一个分词所在句子以及所述问题样本中每一个分词在所在句子中的位置进行表征,分别得到所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量;通过所述阅读理解模型对所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量相加,得到所述问题样本中每一个分词的词向量;通过所述阅读理解模型对所述问题样本的词向量进行排列得到所述问题样本的词向量序列。
在本申请的一些实施例中,基于前述方案,通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列,包括:通过所述阅读理解模型对所述文本样本中每一个分词、所述文本样本中每一个分词所在句子以及所述文本样本中每一个分词在所在句子中的位置进行表征,分别得到所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量;通过所述阅读理解模型对所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量相加,得到所述文本样本中每一个分词的词向量;通过所述阅读理解模型对所述文本样本的词向量进行排列得到所述文本样本的词向量序列。
在本申请的一些实施例所提供的技术方案中,在识别待处理文本中包含的多个实体词后,将各个实体词分别作为答案,并与待处理文本输入问题生成模型,得到问题生成模型输出的各个实体词对应的问题语句,然后将各个问题语句分别与待处理文本输入阅读理解模型,得到阅读理解模型输出的各个问题语句对应的答案语句,进而根据各个问题语句对应的答案语句以及各个问题语句对应的实体词,生成问答对。上述过程中,由于各个实体词对应的问题语句以及各个问题语句对应的答案语句均是通过模型得到的,实现了问答对的自动生成,极大减少了人工参与和人工工作量,提升了问答对生成效率,降低问答对生成成本。同时,基于实体词与模型输出的答案语句进行筛选,以使得最终确定的问题语句和答案语句之间能够具备较高的匹配度,准确度高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的一个示例性系统架构的示意图;
图2A-2D示出了根据本申请的一个实施例的问答对生成方法应用在知识图谱应用场景下的界面示意图;
图3示出了根据本申请的一个实施例的问答对生成方法的流程图;
图4示出了根据本申请的一个实施例的步骤S340的详细流程图;
图5示出了根据本申请的一个实施例的问题生成模型训练的流程图;
图6示出了根据本申请的一个实施例的阅读理解模型训练的流程图;
图7示出了根据本申请的一个实施例的通过编码得到样本的向量序列的流程图;
图8示出了根据本申请的一个实施例的问答对生成装置的框图;
图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
需要说明的是,本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例,并不旨在限制本申请的范围。应该理解的是,术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组,但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。
将进一步理解的是,尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本发明的范围的情况下,第一元件可以被称为第二元件。类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例涉及到的一些名词进行解释说明。
人工智能(Artificial Intelligence,AI):利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术、机器学习/深度学习、情境感知技术、手势控制技术和虚拟个人助理等几大方向。
自然语言处理技术(Natural Language Processing,NLP):自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
模型:语义分类器,用深度学习学习出来的预测语料属于某个领域、意图的分类器。
阅读理解:Reading Comprehension,是自然语言处理的核心任务之一,也是评价模型理解文本能力的一项重要任务,其本质可以看作是一种句子关系匹配任务,其具体的预测结果与具体任务有关。
问题生成:根据一段文字,系统自动生成相应问题的技术。
问答对:Frequently Asked Question and Answer Pair,是由问题和对应的答案组成的对。
在问答对的生成过程中,一般会采用三种途径:第一种是基于规则的方案,比如会先识别出文本中的实体,然后把实体替换掉,专门针对实体进行提问。(比如,“刘德华的女儿是刘向惠”,识别出实体“刘德华”,“刘向惠”,针对其提问:“谁的女儿是刘向惠”,“刘德华的女儿是谁啊”),第二种是人工撰写,采用外包人力针对具体的文章和段落撰写问题。第三种是采用结构树的形式分解文章。比如假设有一份保险的合同书或者解说书,该种方法会按照数的形式把所有的标题栏知识点进行分解:然后针对这个结构树进行提问与回答,比如结构树中的父节点就是问题,其直接关联的子节点就是对应的答案。
对于非结构化文本问答对的生成方案具体包括:首先让开发同学来制定一些规则,利用一些现有的自然语言处理技术来辅助制定规则,利用规则进行挖掘。其次,利用人力进行人力挖掘问答对,比如每人每天处理100篇非结构化的文档,输出其中的问答对数据。再次,采用知识树的结构,来对一些结构化的文本进行树结构的解析,然后利用获得的树结构依据规则,生成对应的问答对问题。最后,每一个步骤的结果都不可能是完全准确的,还需要进行问答对质量的审核,审核通过的可以发布到线上进行线上体验。
然而,上述方式存在的问题在于,(1)人力、物力需求大,一个人一天只能处理有限数量的非结构化文档,对于海量的非结构化文档来说只是杯水车薪,消耗了大量人力物力;(2)基于规则的处理显然只能处理规则以内的东西,特别是依赖于实体的识别,基本上只能回答关于实体的问题,局限性非常大。(3)基于知识树结构的方法应用范围有限,这是因为想要运用这种方法是有前提条件的,那就是,这些文本必须满足标题栏必须满足树结构的形状,其余的场景这种方法也很难适用。
对此,本申请实施例中提供了一种问答对生成方法,首先,识别待处理文本中包含的多个实体词;然后,将各个实体词分别作为答案,并与待处理文本输入问题生成模型,得到问题生成模型输出的各个实体词对应的问题语句;其次,将各个问题语句分别与待处理文本输入阅读理解模型,得到阅读理解模型输出的各个问题语句对应的答案语句;进而根据各个问题语句对应的答案语句以及各个问题语句对应的实体词,生成问答对。本申请实施例提出的这种问答对生成方法,整个生成过程没有人工干预,实现了问答对的自动生成,同时,利用问题生成模型和阅读理解模型的输出结果提取问答对,相较于人工方式准确率更高,效率更快。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构100可以包括终端101、网络102、服务器103和待处理文本104。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括但不限于:无线网络、有线网络,有线网络包括但不限于以下至少之一:广域网、城域网、局域网。无线网络包括但不限于以下至少之一:蓝牙、WI-FI、近场通信(Near FieldCommunication,简称NFC)、蜂窝移动通信网络。用户可以使用终端101通过网络102与服务器103进行交互,以接收或发送消息等。
终端101可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。
服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本领域技术人员应能理解上述终端101和服务器103仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
应该理解,图1中的终端101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端101、网络102和服务器103。比如服务器103可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,用户可以通过终端101上的应用程序上传待处理文本104,并通过终端101和服务器103之间的网络102将待处理文本104发送到服务器103。相应的,服务器103在接收到待处理文本104后,识别待处理文本104中包含的多个实体词,然后服务器103将各个实体词分别作为答案,并与待处理文本104输入问题生成模型,得到问题生成模型输出的各个实体词对应的问题语句,其次服务器103将各个问题语句分别与待处理文本输入阅读理解模型,得到阅读理解模型输出的各个问题语句对应的答案语句,进而服务器103根据各个问题语句对应的答案语句以及各个问题语句对应的实体词,生成问答对。服务器103在生成问答对之后,可以将生成的问答对通过网络102返回给终端101,进而终端101可以向用户展示问答对的结果。
本申请实施例所提供的问答对生成方法一般由服务器103执行,服务器103用于接收终端101所上传的待处理文本104,并基于待处理文本104生成问答对,相应地,问答对生成装置一般设置于服务器103中。但本领域技术人员容易理解的是,本申请实施例所提供的问答对生成方法也可以由终端101执行,相应地,问答对生成装置也可以设置于终端101中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,终端101用于接收用户上传的待处理文本104,进而基于待处理文本104生成问答对。
图2A-2D示出了根据本申请的一个实施例的问答对生成方法应用在知识图谱应用场景下的界面示意图。
图2A-图2B为用户通过终端的应用程序上传待处理文本的界面示意图,在如图2A所示的界面上,用户可以首先点击“上传文件”控件,以上传待处理文本,在点击之后,该界面上会弹出上传文件的小窗口,如图2B所示,在上传文件的小窗口上,用户可以选择待处理文本的格式,待处理文本的格式包括“结构化数据”和“非结构化数据”两种文件格式两种选择,然后,用户可以通过点击“提交”控件完成上传。
接下来,用户再点击图2A所示界面上的“构建图谱”控件,就会看到如图2C所示的界面,即进入生成问答对的流程,在流程结束后,生成的问答对就会显示在界面上,用户可以看到如图2D所示的界面。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图3示出了根据本申请的一个实施例的问答对生成方法的流程图,该问答对生成方法可以由服务器来执行,该服务器可以是图1中所示的服务器103,当然该问答对生成方法也可以由终端来执行,比如可以由图1中所示的终端101来执行。参照图3所示,所述方法包括:
步骤S310、识别待处理文本中包含的多个实体词;
步骤S320、将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;
步骤S330、将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;
步骤S340、根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
下面对这些步骤进行详细描述。
在步骤S310中,识别待处理文本中包含的多个实体词。
本实施例中的待处理文本一般为常见的自然语言形式的文本数据,可以是非结构化数据,也可以是结构化数据。待处理文本的获取来源可以是从互联网上抓取、从数据库中下载或直接从本地存储器中读取等。待处理文本中包含有多个实体词。
实体词是指描述某个物体或者事务的固定名词,例如产品名称、型号、公司名称、品牌名称等等。
本申请实施例不限定实体词的识别方法,例如,可以采用现有的任一种命名实体识别方法进行实施,也可以采用基于词表的实体标注方法。
本申请实施例中,在获取到待处理文本之后,可以先利用命名实体识别方法(或基于词表的实体标注方法),识别出待处理文本中的多个实体词。
其中,命名实体识别(NER,Named Entity Recognition):又称作专名识别,是指识别文本中具有特定意义的实体,命名实体主要包括人名、地名、机构名及专有名词等,还可包括时间、数量、货币及比例数值等文字。命名实体识别使用但不限于斯坦福的开源工具CoreNLP中的NER。
在步骤S320中,将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句。
应当理解的是,预先训练问题生成模型,该问题生成模型可以根据输入的答案语句和文本,输出答案语句对应的问题语句。
在本实施例中,将步骤S310中识别得到的各个实体词分别作为答案,并与待处理文本输入问题生成模型,从而可以得到问题生成模型输出的各个实体词对应的问题语句。其中,问题生成模型输出的各个实体词对应的问题语句可以是一个实体词对应一个或多个问题语句。
举例说明,假设待处理文本为:“刘德华出生于香港新界,在家中排行老四,幼时随家人搬到了九龙钻石山的木屋区居住,并和姐弟一起帮助家里打理卖稀饭的生意。1973年,刘德华随家人搬入香港蓝田邨第15座14楼。刘德华从黄大仙天主教小学毕业后升读可立中学。在可立中学读书期间,刘德华积极参加校内学校剧社的表演,在老师杜国威的指导下学习戏剧方面的知识。此外,他还参与包括编剧在内的幕后制作。刘德华在中五会考获得1B3D2E(中文读本A)的成绩。中六上学期后,他到香港电视广播有限公司的艺员训练班受训,从而开始了演艺之路。”
以实体词“杜国威”作为答案,将“杜国威”和前述待处理文本输入问题生成模型,那么问题生成模型可以输出问题语句——“刘德华在戏剧方面的老师是谁?”
在本申请的一个实施例中,将各个实体词分别作为答案,并与待处理文本输入问题生成模型的方式可以具体包括:
将所述各个实体词作为答案,与所述待处理文本中包含所述各个实体词的子文本输入所述问题生成模型,所述子文本包含的字符长度不超过预设长度。
在该实施例中,在识别待处理文本中包含的多个实体词后,可以对待处理文本进行分段处理,得到子文本,子文本包含的字符长度不超过预设长度。其中,预设长度可以根据问题生成模型的输入限制进行设置,可以理解,有些模型对输入文本的字符具有明确限制,如果超过限制的字符长度,文本就会被截断,当然,预设长度也可以根据其他实际需要进行设置,本申请实施例在此不做具体限定。
在对待处理文本进行分段处理后,将各个实体词作为答案,并与包含各个实体的子文本输入问题生成模型,从而可以得到问题生成模型输出的各个实体词对应的问题。
在本申请的一个实施例中,为了避免在对待处理文本进行分段处理时出现将某个实体词拆分的情况,因此,可以根据各个实体词在待处理文本中的位置,对待处理文本进行分段处理,在该实施例中,具体包括:
根据所述各个实体词在所述待处理文本中的位置,将所述待处理文本分成包含所述各个实体词的子文本。
该实施例中,每个实体词在待处理文本中具有固定的位置,因此,可以根据各个实体词的位置,将待处理文本分成包含各个实体词的子文本。
具体的,可以以各个实体词的位置为中心,在该中心的相邻两边分别获取字符,从而得到包含各个实体词的子文本,也可以是在该中心的任一相邻的一边获取字符,从而得到包含各个实体的子文本。
基于该实施例对待处理文本进行分段处理,保证了实体词的完整性,避免实体词在分段处理时被拆分,从而使得后续能够进行有效地处理,进而生成准确的问答对。
需要进一步说明的是,前述实施例中是先识别待处理文本中包含的多个实体词,然后再对待处理文本进行分段处理,在本申请的另一个实施例中,还可以是先对待处理文本进行分段处理,得到多个子文本,然后,识别各个子文本中包含的实体词。
步骤S330、将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句。
阅读理解模型是预先训练的,阅读理解模型用于根据输入的问题语句和文本,输出问题语句对应的答案语句。
在通过步骤S320得到问题生成模型输出的各个实体词对应的问题语句后,可以将各个问题语句分别与待处理文本输入阅读理解模型,阅读理解模型根据输入的各个问题语句与待处理文本,输出各个问题语句对应的答案语句。
继续以上述举例进行说明,将问题语句“刘德华在戏剧方面的老师是谁?”和待处理文本输入阅读理解模型,则阅读理解模型可以输出该问题语句的答案语句。
步骤S340、根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
在通过上述过程得到各个问题语句、各个问题语句对应的答案语句之后,进一步根据各个问题语句对应的答案语句以及各个问题语句对应的实体词进行筛选,生成问答对。
基于以上实施例中的技术方案,由于各个实体词对应的问题语句以及各个问题语句对应的答案语句的生成均是通过模型来完成,实现了问答对的自动生成,极大减少了人工参与和人工工作量,提升了问答对生成效率,降低问答对生成成本。同时,基于实体词与模型输出的答案进行筛选,以使得最终确定的问题和答案之间能够具备较高的匹配度,准确度高。
在本申请的一个实施例中,如图4所示,步骤S340具体包括步骤S3401-步骤S3402,现详细说明如下:
步骤S3401、如果所述多个实体词对应的问题语句中存在第一问题语句,所述第一问题语句对应的实体词为所述第一问题语句对应的答案语句的子集,则根据所述第一问题语句和所述第一问题语句对应的答案语句,生成问答对。
具体的,对多个实体词分别对应的问题语句进行判断,如果多个实体词对应的问题语句中存在第一问题语句,该第一问题语句对应的实体词是第一问题语句对应的答案语句的子集,则可以根据第一问题语句和第一问题语句对应的答案语句,生成答案对。
容易理解,第一问题语句对应的实体词是由多个字符组成的,第一问题语句对应的答案语句同样是由多个字符组成的,若组成第一问题语句对应的答案语句的字符中包含有组成第一问题语句对应的实体词的字符,例如,第一问题语句对应的实体词为“光明集团”,第一问题语句对应的答案语句为“光明集团股份公司”,则可以认为第一问题语句对应的实体词是第一问题语句对应的答案语句的子集。
步骤S3402、如果所述多个实体词对应的问题语句中存在第二问题语句,所述第二问题语句对应的答案语句为所述第二问题语句对应的实体词的子集,则根据所述第二问题语句和所述第二问题语句对应的实体词,生成问答对。
如果通过对多个实体词分别对应的问题语句进行判断,可以确定多个实体词对应的问题语句中存在第二问题语句,与第一问题语句不同的是,第二问题语句对应的答案语句为第二问题语句对应的实体词的子集,则说明组成第一问题语句对应的实体词的字符中包含有组成第一问题语句对应的答案语句的字符,则可以将字符长度较长的作为第二问题语句的答案,也即根据第二问题语句和第二问题语句对应的实体词,生成问答对。
在本申请的一个实施例中,还提供一种问题生成模型的训练方法,如图5所示,问题生成模型的训练方法可以具体包括步骤S510-步骤S530,现详细说明如下:
步骤S510、获取第一训练样本集,所述第一训练样本集中每个训练样本包括文本样本和标注问题,所述文本样本中包含答案样本,所述标注问题为所述答案样本对应的问题。
在模型训练之前,需构建用于训练模型的第一训练样本集,第一训练样本集中每个训练样本包括文本样本和标注问题,文本样本中包含答案样本,标注问题为答案样本对应的问题。
需要说明的是,本申请实施例对第一训练样本集的构建过程不加以限定,可以根据问题生成模型的应用领域选择相应的样本构建训练样本集。示例性地,对于将问题生成模型应用在法律领域,以生成法律方面相关的问答对,训练样本集可以为法律文本和标注问题,每个法律文本包含答案样本。
应当理解的是,在模型训练之前,除需构建用于训练模型的第一训练样本集之外,还需获取问题生成模型,问题生成模型是还未利用训练样本进行训练的模型,问题生成模型包括编码器和解码器。在对问题生成模型进行训练之前,可以对问题生成模型进行初始化处理。在设置好问题生成模型的结构和初始参数,并且对问题生成模型进行初始化处理后,服务器获取到问题生成模型。
示意性地,问题生成模型可以是采用双向转换编码器(Bidirectional EncoderRepresentation from Transformer,BERT),Transformer解码器的seq2seq(Sequence toSequence,序列到序列)模型,也可以是编码器和解码器均采用循环神经网络(RecurrentNeural Networks,RNN)的seq2seq模型,也可以是编码器和解码器均采用卷积神经网络(Convolutional Neural Networks,CNN)的seq2seq模型,本申请实施例在此不做具体限定。
步骤S520、通过所述问题生成模型中的编码器对所述答案样本进行编码,得到所述答案样本的编码表示,并通过所述问题生成模型中的解码器对所述答案样本的编码表示进行解码,得到所述答案样本对应的预测问题。
通过编码器对输入问题生成模型的答案样本进行编码获得答案样本的编码表示,通过解码器将答案样本的编码表示进行解码以便生成答案样本对应的预测问题。
在具体实现时,可以基于词嵌入模型确定答案样本的词嵌入表示,然后根据词嵌入表示通过双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)编码得到隐藏层状态表示,将隐藏层状态表示作为答案样本的编码表示。
步骤S530、确定所述预测问题和所述标注问题之间的损失,并根据所述损失对所述问题生成模型的参数进行调整。
具体的,问题生成模型中还包括损失函数(Loss Function),损失函数用于表征预测问题和标注问题的不一致程度。可以理解,损失函数具有多种类型,在实际应用时可以根据需求选择相应类型的损失函数。
进一步,通过确定出的损失对问题生成模型中的模型参数进行调整,使模型参数调整后的问题生成模型预测得到的预测问题与标注问题之间的损失趋于收敛。
在本申请的一个实施例中,还提供一种阅读理解模型训练方法,如图6所示,阅读理解模型的训练方法可以具体包括步骤S610-步骤S630,现详细说明如下:
步骤S610、获取第二训练样本集,所述第二训练样本集中每个训练样本包括问题样本、文本样本和标注位置,所述文本样本中包含所述问题样本对应的答案样本,所述标注位置为所述答案样本在所述文本样本中的位置。
具体而言,在对阅读理解模型训练前,获取用于训练阅读理解模型的第二训练样本集,每个训练样本集包括问题样本、文本样本和标注位置。
文本样本中包含问题样本对应的答案样本,标注位置是答案样本在文本样本中的位置。其中,标注位置可以包括起始标注位置和终止标注位置,起始标注位置是答案样本在文本样本中的起始位置,终止标注位置是答案样本在文本样本中的终止位置。
步骤S620、通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,并预测所述答案样本在所述样本的向量序列中的位置,得到所述答案样本的预测位置。
其中,阅读理解模型中包括编码器,该编码器可以包括卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、语义表示模型(Embeddings fromLanguage Models,ELMO)、双向转换编码器(Bidirectional Encoder Representationfrom Transformer,BERT)中的至少一种。通过阅读理解模型的编码器对问题样本与文本样本进行编码得到样本的向量序列。
进一步,通过阅读理解模型预测答案样本在样本的向量序列中的位置,得到答案样本的预测位置。可选地,答案样本的预测位置包括答案样本的起始预测位置和终止预测位置,其中,起始预测位置是阅读理解模型预测得到的答案样本在样本的向量序列中的起始位置,终止预测位置是阅读理解模型预测得到的答案样本在样本的向量序列中的终止位置。
示意性的,阅读理解模型的输出层中包括归一化函数,归一化函数也就是softmax函数,通过调用阅读理解模型中的softmax函数对样本的向量序列中的每一个词向量进行概率计算,根据得到的概率值预测答案样本在样本的向量序列中的位置,得到答案样本的预测位置,即答案样本的起始预测位置和终止预测位置。
步骤S630、确定所述预测位置与所述标注位置之间的损失,根据所述损失对所述阅读理解模型中的参数进行调整。
具体的,阅读理解模型中还包括损失函数(Loss Function),通过损失函数确定出预测得到的答案样本的位置与标注位置之间的损失,即预测得到的答案样本的位置与标注位置之间的一致性。
可选地,损失函数可以包括0-1损失(Zero-one Loss)函数、感知损失(PerceptronLoss)函数、铰链损失(Hinge Loss)函数、交叉熵损失函数、平方误差损失(Square Loss)函数、绝对值损失(Absolute Loss)函数、指数误差(Exponential Loss)函数和正则函数中的任意一种。
进一步,通过上述损失对阅读理解模型中的模型参数进行调整,使模型参数调整后的阅读理解模型预测得到的答案样本在样本的向量序列中的位置与标注位置之间的损失更小。
示意性的,可以采用反向传播算法将上述损失反向传播,在反向传播的过程中,根据上述损失对阅读理解模型中的模型参数的值进行调整。
在本申请的一个实施例中,如图7所示,通过阅读理解模型对问题样本与文本样本进行编码,得到样本的向量序列的方法可以具体包括步骤S710-步骤S730,现详细说明如下:
步骤S710、通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列。
在对问题样本中每一个分词进行词嵌入之前,通过阅读理解模型对问题样本进行分词处理,得到问题样本的分词序列。其次,通过阅读理解模型对分词序列中的每一个分词进行词嵌入。其中,分词序列中分词是按照分词在句子中位置的先后顺序进行排列的。
在本申请的一个实施例中,步骤S710可以具体包括:
通过所述阅读理解模型对所述问题样本中每一个分词、所述问题样本中每一个分词所在句子以及所述问题样本中每一个分词在所在句子中的位置进行表征,分别得到所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量;
通过所述阅读理解模型对所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量相加,得到所述问题样本中每一个分词的词向量;
通过所述阅读理解模型对所述问题样本的词向量进行排列得到所述问题样本的词向量序列。
在该实施例中,首先,通过阅读理解模型对问题样本中每一个分词、每一个分词所在句子以及每一个分词所在句子中的位置进行表征,分别得到样本分词的字符向量、段表征向量以及位置表征向量。然后,通过阅读理解模型将上述样本分词的字符向量、样本分词的段表征向量和样本分词的位置表征向量相加,得到问题样本中每一个分词的词向量。再次,通过阅读理解模型将问题样本中分词的词向量按照分词序列中分词的排列顺序对应排列,得到顺序排列后的问题样本的词向量序列。
继续参见图7,在步骤S720中,通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列。
步骤S720通过阅读理解模型对文本样本进行词嵌入与步骤S710通过阅读理解模型对问题样本进行词嵌入的过程类似,故在此不再赘述。
在本申请的一个实施例中,步骤S720可以具体包括:
通过所述阅读理解模型对所述文本样本中每一个分词、所述文本样本中每一个分词所在句子以及所述文本样本中每一个分词在所在句子中的位置进行表征,分别得到所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量;
通过所述阅读理解模型对所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量相加,得到所述文本样本中每一个分词的词向量;
通过所述阅读理解模型对所述文本样本的词向量进行排列得到所述文本样本的词向量序列。
在该实施例中,首先,通过阅读理解模型对文本样本中每一个分词、每一个分词所在句子以及每一个分词在所在句子中的位置进行表征,得到样本分词的字符向量、段表征向量以及位置表征向量;然后,通过阅读理解模型对上述样本分词的字符向量、样本分词的段表征向量和样本分词的位置表征向量相加,得到答案样本中每一个分词的词向量;最后,通过阅读理解模型对文本样本的词向量进行排列得到文本样本的词向量序列。
继续参见图7,在步骤S730中,通过所述阅读理解模型对所述问题样本的词向量序列和所述文本样本的词向量序列中的每一个词向量进行交叉编码,得到编码后的所述样本的向量序列。
可选地,阅读理解模型中包括注意力机制,基于阅读理解模型的注意力机制对问题样本的词向量序列和文本样本的词向量序列中的每一个词向量进行交叉编码,得到编码后的样本的向量序列。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的图像处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的图像处理方法的实施例。
图8示出了根据本申请的一个实施例的问答对生成装置的框图,参照图8所示,根据本申请的一个实施例的问答对生成装置800,包括:识别单元802、第一输入单元804、第二输入单元806和生成单元808。
其中,识别单元802,配置为识别待处理文本中包含的多个实体词;第一输入单元804,配置为将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;第二输入单元806,配置为将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;生成单元808,配置为根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
在本申请的一些实施例中,所述生成单元808还配置为:如果所述多个实体词对应的问题语句中存在第一问题语句,所述第一问题语句对应的实体词为所述第一问题语句对应的答案语句的子集,则根据所述第一问题语句和所述第一问题语句对应的答案语句,生成问答对;如果所述多个实体词对应的问题语句中存在第二问题语句,所述第二问题语句对应的答案语句为所述第二问题语句对应的实体词的子集,则根据所述第二问题语句和所述第二问题语句对应的实体词,生成问答对。
在本申请的一些实施例中,所述第一输入单元804还配置为:将所述各个实体词作为答案,与所述待处理文本中包含所述各个实体词的子文本输入所述问题生成模型,所述子文本包含的字符长度不超过预设长度。
在本申请的一些实施例中,所述第一输入单元804还配置为:根据所述各个实体词在所述待处理文本中的位置,将所述待处理文本分成包含所述各个实体词的子文本。
在本申请的一些实施例中,所述问题生成模型是通过如下方式训练得到的:获取第一训练样本集,所述第一训练样本集中每个训练样本包括文本样本和标注问题,所述文本样本中包含答案样本,所述标注问题为所述答案样本对应的问题;通过所述问题生成模型中的编码器对所述答案样本进行编码,得到所述答案样本的编码表示,并通过所述问题生成模型中的解码器对所述答案样本的编码表示进行解码,得到所述答案样本对应的预测问题;确定所述预测问题和所述标注问题之间的损失,并根据所述损失对所述问题生成模型的参数进行调整。
在本申请的一些实施例中,所述阅读理解模型是通过如下方式训练得到的:获取第二训练样本集,所述第二训练样本集中每个训练样本包括问题样本、文本样本和标注位置,所述文本样本中包含所述问题样本对应的答案样本,所述标注位置为所述答案样本在所述文本样本中的位置;通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,并预测所述答案样本在所述样本的向量序列中的位置,得到所述答案样本的预测位置;确定所述预测位置与所述标注位置之间的损失,根据所述损失对所述阅读理解模型中的参数进行调整。
在本申请的一些实施例中,通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,包括:通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列;通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列;通过所述阅读理解模型对所述问题样本的词向量序列和所述文本样本的词向量序列中的每一个词向量进行交叉编码,得到编码后的所述样本的向量序列。
在本申请的一些实施例中,通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列,包括:通过所述阅读理解模型对所述问题样本中每一个分词、所述问题样本中每一个分词所在句子以及所述问题样本中每一个分词在所在句子中的位置进行表征,分别得到所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量;通过所述阅读理解模型对所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量相加,得到所述问题样本中每一个分词的词向量;通过所述阅读理解模型对所述问题样本的词向量进行排列得到所述问题样本的词向量序列。
在本申请的一些实施例中,通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列,包括:通过所述阅读理解模型对所述文本样本中每一个分词、所述文本样本中每一个分词所在句子以及所述文本样本中每一个分词在所在句子中的位置进行表征,分别得到所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量;通过所述阅读理解模型对所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量相加,得到所述文本样本中每一个分词的词向量;通过所述阅读理解模型对所述文本样本的词向量进行排列得到所述文本样本的词向量序列。
图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(Central Processing Unit,CPU)901,其可以根据存储在只读存储器(Read-Only Memory,ROM)902中的程序或者从存储部分908加载到随机访问存储器(Random Access Memory,RAM)903中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 903中,还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output,I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分908;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种问答对生成方法,其特征在于,所述方法包括:
识别待处理文本中包含的多个实体词;
将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;
将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;
根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
2.根据权利要求1所述的方法,其特征在于,根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对,包括:
如果所述多个实体词对应的问题语句中存在第一问题语句,所述第一问题语句对应的实体词为所述第一问题语句对应的答案语句的子集,则根据所述第一问题语句和所述第一问题语句对应的答案语句,生成问答对;
如果所述多个实体词对应的问题语句中存在第二问题语句,所述第二问题语句对应的答案语句为所述第二问题语句对应的实体词的子集,则根据所述第二问题语句和所述第二问题语句对应的实体词,生成问答对。
3.根据权利要求1所述的方法,其特征在于,将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,包括:
将所述各个实体词作为答案,与所述待处理文本中包含所述各个实体词的子文本输入所述问题生成模型,所述子文本包含的字符长度不超过预设长度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述各个实体词在所述待处理文本中的位置,将所述待处理文本分成包含所述各个实体词的子文本。
5.根据权利要求1所述的方法,其特征在于,所述问题生成模型是通过如下方式训练得到的:
获取第一训练样本集,所述第一训练样本集中每个训练样本包括文本样本和标注问题,所述文本样本中包含答案样本,所述标注问题为所述答案样本对应的问题;
通过所述问题生成模型中的编码器对所述答案样本进行编码,得到所述答案样本的编码表示,并通过所述问题生成模型中的解码器对所述答案样本的编码表示进行解码,得到所述答案样本对应的预测问题;
确定所述预测问题和所述标注问题之间的损失,并根据所述损失对所述问题生成模型的参数进行调整。
6.根据权利要求1所述的方法,其特征在于,所述阅读理解模型是通过如下方式训练得到的:
获取第二训练样本集,所述第二训练样本集中每个训练样本包括问题样本、文本样本和标注位置,所述文本样本中包含所述问题样本对应的答案样本,所述标注位置为所述答案样本在所述文本样本中的位置;
通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,并预测所述答案样本在所述样本的向量序列中的位置,得到所述答案样本的预测位置;
确定所述预测位置与所述标注位置之间的损失,根据所述损失对所述阅读理解模型中的参数进行调整。
7.根据权利要求6所述的方法,其特征在于,通过所述阅读理解模型对所述问题样本与所述文本样本进行编码,得到样本的向量序列,包括:
通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列;
通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列;
通过所述阅读理解模型对所述问题样本的词向量序列和所述文本样本的词向量序列中的每一个词向量进行交叉编码,得到编码后的所述样本的向量序列。
8.根据权利要求7所述的方法,其特征在于,通过所述阅读理解模型对所述问题样本进行词嵌入,得到所述问题样本的词向量序列,包括:
通过所述阅读理解模型对所述问题样本中每一个分词、所述问题样本中每一个分词所在句子以及所述问题样本中每一个分词在所在句子中的位置进行表征,分别得到所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量;
通过所述阅读理解模型对所述问题样本分词的字符向量、所述问题样本分词的段表征向量以及所述问题样本分词的位置表征向量相加,得到所述问题样本中每一个分词的词向量;
通过所述阅读理解模型对所述问题样本的词向量进行排列得到所述问题样本的词向量序列。
9.根据权利要求7所述的方法,其特征在于,通过所述阅读理解模型对所述文本样本进行词嵌入,得到所述文本样本的词向量序列,包括:
通过所述阅读理解模型对所述文本样本中每一个分词、所述文本样本中每一个分词所在句子以及所述文本样本中每一个分词在所在句子中的位置进行表征,分别得到所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量;
通过所述阅读理解模型对所述文本样本分词的字符向量、所述文本样本分词的段表征向量以及所述文本样本分词的位置表征向量相加,得到所述文本样本中每一个分词的词向量;
通过所述阅读理解模型对所述文本样本的词向量进行排列得到所述文本样本的词向量序列。
10.一种问答对生成装置,其特征在于,所述装置包括:
识别单元,配置为识别待处理文本中包含的多个实体词;
第一输入单元,配置为将各个实体词分别作为答案,并与所述待处理文本输入问题生成模型,得到所述问题生成模型输出的所述各个实体词对应的问题语句;
第二输入单元,配置为将各个问题语句分别与所述待处理文本输入阅读理解模型,得到所述阅读理解模型输出的所述各个问题语句对应的答案语句;
生成单元,配置为根据所述各个问题语句对应的答案语句以及所述各个问题语句对应的实体词,生成问答对。
CN202010740577.1A 2020-07-28 2020-07-28 问答对生成方法及装置 Active CN111897934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010740577.1A CN111897934B (zh) 2020-07-28 2020-07-28 问答对生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010740577.1A CN111897934B (zh) 2020-07-28 2020-07-28 问答对生成方法及装置

Publications (2)

Publication Number Publication Date
CN111897934A true CN111897934A (zh) 2020-11-06
CN111897934B CN111897934B (zh) 2024-03-29

Family

ID=73182308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010740577.1A Active CN111897934B (zh) 2020-07-28 2020-07-28 问答对生成方法及装置

Country Status (1)

Country Link
CN (1) CN111897934B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100340A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 问题内容匹配方法及装置
CN112541052A (zh) * 2020-12-01 2021-03-23 北京百度网讯科技有限公司 确定问题的答案的方法、装置、设备及存储介质
CN113010657A (zh) * 2021-03-31 2021-06-22 腾讯科技(深圳)有限公司 基于解答文本的答案处理方法和答案推荐方法
CN113821616A (zh) * 2021-08-09 2021-12-21 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
CN114036921A (zh) * 2020-12-18 2022-02-11 京东科技控股股份有限公司 一种政策信息匹配方法和装置
CN115080722A (zh) * 2022-08-19 2022-09-20 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20180239811A1 (en) * 2017-02-21 2018-08-23 International Business Machines Corporation Question-answer pair generation
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
WO2020135124A1 (zh) * 2018-12-27 2020-07-02 阿里巴巴集团控股有限公司 会话质量评价方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US20180239811A1 (en) * 2017-02-21 2018-08-23 International Business Machines Corporation Question-answer pair generation
WO2020135124A1 (zh) * 2018-12-27 2020-07-02 阿里巴巴集团控股有限公司 会话质量评价方法、装置及电子设备
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100340A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 问题内容匹配方法及装置
CN112541052A (zh) * 2020-12-01 2021-03-23 北京百度网讯科技有限公司 确定问题的答案的方法、装置、设备及存储介质
CN112541052B (zh) * 2020-12-01 2023-11-03 北京百度网讯科技有限公司 确定问题的答案的方法、装置、设备及存储介质
CN114036921A (zh) * 2020-12-18 2022-02-11 京东科技控股股份有限公司 一种政策信息匹配方法和装置
CN113010657A (zh) * 2021-03-31 2021-06-22 腾讯科技(深圳)有限公司 基于解答文本的答案处理方法和答案推荐方法
CN113010657B (zh) * 2021-03-31 2024-02-06 腾讯科技(深圳)有限公司 基于解答文本的答案处理方法和答案推荐方法
CN113821616A (zh) * 2021-08-09 2021-12-21 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
CN113821616B (zh) * 2021-08-09 2023-11-14 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
WO2023125335A1 (zh) * 2021-12-28 2023-07-06 华为技术有限公司 问答对生成的方法和电子设备
CN115080722A (zh) * 2022-08-19 2022-09-20 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质
CN115080722B (zh) * 2022-08-19 2023-02-17 科大讯飞股份有限公司 问题生成方法、问题生成设备及存储介质

Also Published As

Publication number Publication date
CN111897934B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
Hadi et al. Large language models: a comprehensive survey of its applications, challenges, limitations, and future prospects
CN111897934B (zh) 问答对生成方法及装置
Rothman Transformers for Natural Language Processing: Build, train, and fine-tune deep neural network architectures for NLP with Python, Hugging Face, and OpenAI's GPT-3, ChatGPT, and GPT-4
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN111339255B (zh) 目标情感分析的方法、模型训练方法、介质和设备
JP2023539532A (ja) テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN111666500A (zh) 文本分类模型的训练方法及相关设备
CN115222066A (zh) 模型训练方法和装置、行为预测方法、设备及存储介质
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
Malode Benchmarking public large language model
CN114519356A (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
Zhang et al. Design and application of intelligent classroom for English language and literature based on artificial intelligence technology
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
Roesler et al. Special topics in multimedia, IoT and web technologies
CN113569068B (zh) 描述内容生成方法、视觉内容的编码、解码方法、装置
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
Yadav et al. An Empirical Study of Design Techniques of Chatbot, a Review
Lamons et al. Python Deep Learning Projects: 9 projects demystifying neural network and deep learning models for building intelligent systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant