CN113821609A - 一种答案文本的获取方法及装置、计算机设备和存储介质 - Google Patents

一种答案文本的获取方法及装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113821609A
CN113821609A CN202110662968.0A CN202110662968A CN113821609A CN 113821609 A CN113821609 A CN 113821609A CN 202110662968 A CN202110662968 A CN 202110662968A CN 113821609 A CN113821609 A CN 113821609A
Authority
CN
China
Prior art keywords
text
target
matched
probability
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110662968.0A
Other languages
English (en)
Inventor
刘艾婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110662968.0A priority Critical patent/CN113821609A/zh
Publication of CN113821609A publication Critical patent/CN113821609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种答案文本的获取方法及装置、计算机设备和存储介质,包括:获取目标问题文本以及待匹配文本,待匹配文本包括多个文本单元,根据目标问题文本确定目标文本类别,目标文本类别表示与目标问题文本关联的问题类型,根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率,根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。通过上述方法,能够提升在待匹配文本中获取目标答案文本的准确度。

Description

一种答案文本的获取方法及装置、计算机设备和存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种答案文本的获取方法及装置、计算机设备和存储介质。
背景技术
随着视频分享平台的不断发展,针对片段抽取式的机器阅读理解问题,经历了从无监督到有监督,从传统机器学习到深度学习的技术演进。基于规则的阅读理解问答系统可以使用词袋模型对句子信息进行表示,即可以接收一个故事并且挑选出一个最合适的句子作为相应问题的答案。其次,基于规则的中文阅读理解问答系统也可以通过启发式规则查找故事和问题中的词汇和语义线索来给出答案。但是基于规则或手工构建特征的方式依赖人工,模型迁移能力差。
目前,随着大规模阅读理解数据的出现,数据驱动的方法逐渐占据了主导位置,基于深层神经网络的端到端模型成为机器阅读理解研究的主流方法。通过问题信息与篇章信息的交互,得到综合问题与篇章信息的表示,最后通过答案预测层选择或生成一个正确答案。近年来,深度学习算法取得了突破性进展,深度学习在机器阅读理解任务上的应用日益受到更多的关注。然而,端到端的深度学习模型虽然具备答案抽取能力,但是不是每个篇章中都具备问题所对应的答案,因此对全部篇章进行答案抽取可能出现获取不到答案的情况,因此,如何更为准确地获取问题对应的答案成为亟需解决的问题。
发明内容
本申请实施例提供了一种答案文本的获取方法及装置、计算机设备和存储介质,由于目标文本类别能够表示与所述目标问题文本关联的问题类型,因此基于目标问题文本以及待匹配文本,并引入目标文本类别对目标问题文本的目标答案文本进行获取,能够提升在待匹配文本中获取目标答案文本的准确度。
有鉴于此,本申请一方面提供了一种答案文本的获取方法,包括:
获取目标问题文本以及待匹配文本,其中,待匹配文本包括多个文本单元;
根据目标问题文本确定目标文本类别,其中,目标文本类别表示与目标问题文本关联的问题类型;
根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,其中,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率;
根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。
本申请另一方面提供了一种答案文本的获取装置,包括:
获取模块,用于获取目标问题文本以及待匹配文本,其中,待匹配文本包括多个文本单元;
确定模块,用于根据目标问题文本确定目标文本类别,其中,目标文本类别表示与目标问题文本关联的问题类型;
获取模块,还用于根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,其中,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率;
确定模块,还用于根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。
在一个可能的实施方式中,在本申请实施例的另一方面的一种实现方式中,答案文本的获取装置还包括生成模块以及处理模块;
生成模块,用于根据目标问题文本、待匹配文本以及目标文本类别生成目标文本序列,其中,目标文本序列包括目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列;
处理模块,用于对目标文本序列进行编码处理,得到目标文本序列的特征信息;
获取模块,具体用于根据目标文本序列的特征信息,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,生成模块,具体用于:
对目标问题文本进行分词处理,得到目标问题文本的文本序列;
对待匹配文本进行分词处理,得到待匹配文本的文本序列;
对目标文本类别进行分词处理,得到目标文本类别的文本序列;
对目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列进行拼接处理,得到目标文本序列。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,处理模块,具体用于:
对目标文本序列进行词嵌入处理,得到词向量集合;
基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息,其中,K为大于1的整数。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,获取模块,具体用于:
针对于词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,其中,i为大于或等于1,且小于K的整数;
根据词向量集合中的每个词向量的第K个特征向量,得到目标文本序列的特征信息。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,获取模块,具体用于:
基于目标文本序列的特征信息,通过第一全连接层获取每个文本单元所对应的第一概率;
基于目标文本序列的特征信息,通过第二全连接层获取每个文本单元所对应的第二概率。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,确定模块,具体用于:
根据每个文本单元所对应的第一概率确定开始文本单元,其中,开始文本单元所对应的第一概率在待匹配文本包括的所有文本单元所对应的第一概率中最大;
根据每个文本单元所对应的第二概率确定结束文本单元,其中,结束文本单元所对应的第二概率在待匹配文本包括的所有文本单元所对应的第二概率中最大;
根据开始文本单元以及结束文本单元,在待匹配文本中确定目标问题文本对应的目标答案文本。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,每个文本单元所对应的第一概率大于第一阈值,且每个文本单元所对应的第二概率大于第二阈值;
当目标答案文本包括一个文本单元时,开始文本单元在待匹配文本的位置与结束文本单元在待匹配文本的位置相同;
当目标答案文本包括多个文本单元时,开始文本单元在待匹配文本的位置先于结束文本单元在待匹配文本的位置。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,确定模块,具体用于:
基于目标问题文本,通过分类模型输出多个文本类别对应的概率,其中,文本类别对应的概率表示目标问题文本属于文本类别的概率;
将多个文本类别对应的概率中数值最高的概率确定为目标文本类别对应的概率;
基于目标文本类别对应的概率确定目标文本类别。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,获取模块,具体用于:
基于目标问题文本、待匹配文本以及目标文本类别,通过文本匹配模型获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,答案文本的获取装置还包括训练模块;
获取模块,还用于获取问题文本样本集合,待匹配文本样本集合以及真实答案样本集合,其中,问题文本样本集合包括多个问题文本样本,待匹配文本样本集合包括多个待匹配文本样本,真实答案样本集合包括多个答案样本,每个待匹配文本样本均包括多个文本单元,问题文本样本,待匹配文本样本以及真实答案样本一一对应;
确定模块,还用于根据问题文本样本集合确定目标文本类别样本集合;
获取模块,还用于基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,其中,第一概率集合包括多个第一概率,第一概率表示待匹配文本的文本单元作为答案文本开始位置的概率,第二概率集合包括多个第二概率,第二概率表示待匹配文本样本的文本单元作为答案文本结束位置的概率;
获取模块,还用于根据每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,获取预测答案样本集合,其中,预测答案样本集合包括从每个待匹配文本样本中确定的与问题文本样本对应的预测答案样本;
训练模块,用于基于预测答案样本集合以及真实答案样本集合,对待训练文本匹配模型进行训练,得到文本匹配模型。
在一个可能的实施方式中,在本申请实施例的另一方面的另一种实现方式中,获取模块,具体用于:
基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型的输入层获取目标文本序列集合,其中,目标文本序列集合包括多个目标文本序列;
基于目标文本序列集合,通过待训练文本匹配模型的编码交互层获取目标文本序列集合的特征信息;
基于目标文本序列集合的特征信息,通过待训练文本匹配模型的全连接层获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合;
训练模块,具体用于基于预测答案样本集合以及真实答案样本集合,根据目标损失函数更新待训练文本匹配模型的模型参数;
根据最后一次对模型参数进行更新后获得的模型参数生成文本匹配模型。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个方面的各种可选实现方式中提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种答案文本的获取方法,首先,获取目标问题文本以及包括多个文本单元的待匹配文本,然后根据目标问题文本确定目标文本类别,该目标文本类别表示与目标问题文本关联的问题类型,再根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率,最后,根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。采用上述方式,由于目标文本类别能够表示与所述目标问题文本关联的问题类型,因此基于目标问题文本以及待匹配文本,并引入目标文本类别对目标问题文本的目标答案文本进行获取,能够提升在待匹配文本中获取目标答案文本的准确度。
附图说明
图1为本申请实施例中答案文本的获取系统的一个架构示意图;
图2为本申请实施例中答案文本的获取方法一个实施例示意图;
图3为本申请实施例中获取目标问题文本以及待匹配文本一个实施例示意图;
图4为本申请实施例中展示目标答案文本一个界面示意图;
图5为本申请实施例中获取第一概率以及第二概率一个实施例示意图;
图6为本申请实施例中进行词嵌入处理一个实施例示意图;
图7为本申请实施例中获取目标文本序列的特征信息一个实施例示意图;
图8为本申请实施例中获取第一概率与第二概率的一个实施例示意图;
图9为本申请实施例中文本匹配模型的一个架构示意图;
图10为本申请实施例中答案文本的获取装置一个实施例示意图;
图11为本申请实施例中服务器一个实施例示意图;
图12为本申请实施例中终端设备一个实施例示意图。
具体实施方式
本申请实施例提供了一种答案文本的获取方法及装置、计算机设备和存储介质,由于目标文本类别能够表示与所述目标问题文本关联的问题类型,因此基于目标问题文本以及待匹配文本,并引入目标文本类别对目标问题文本的目标答案文本进行获取,能够提升在待匹配文本中获取目标答案文本的准确度。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着视频分享平台的不断发展,针对片段抽取式的机器阅读理解问题,经历了从无监督到有监督,从传统机器学习到深度学习的技术演进。早期的机器阅读理解(machinereading comprehension,MRC)系统采用基于规则的方法,其中深度阅读(Deep Read)可以自动读取一个故事并回答相应的问题,具体采用信息抽取的方法,分别将问题和故事中的关键信息抽取出来,然后采用匹配的方式从故事中搜索出问题查询的信息。而基于规则的阅读理解问答系统可以使用词袋模型对句子信息进行表示,即可以接收一个故事并且挑选出一个最合适的句子作为相应问题的答案,具体通过启发式规则查找故事和问题中的词汇和语义线索。在中文领域中,基于规则的中文阅读理解问答系统也可以通过启发式规则查找故事和问题中的词汇和语义线索来给出答案。但是基于规则或手工构建特征的方式依赖人工,模型迁移能力差。
虽然深度学习算法取得了突破性进展,深度学习在机器阅读理解任务上的应用日益受到更多的关注。然而,端到端的深度学习模型虽然具备答案抽取能力,但是不是每个篇章中都具备问题所对应的答案,因此对全部篇章进行答案抽取可能出现获取不到答案的情况,因此,如何更为准确地获取问题对应的答案成为亟需解决的问题。基于此,本申请实施例提供了一种答案文本的获取方法,可以提升在篇章中获取答案的准确度。
为了便于理解,对本申请实施例涉及到的一些术语或概念进行解释。
一、机器阅读理解(machine reading comprehension,MRC)
阅读理解问答,要求机器阅读并理解人类自然语言文本,在此基础上,解答跟文本相关的问题。衡量机器理解自然语言的能力,帮助人类从大量文本中快速聚焦相关信息,降低人工信息获取成本。在文本问答、信息抽取、对话系统等领域具有极强的应用价值,是自然语言处理领域的研究热点之一。
二、片段抽取式阅读理解
片段抽取式阅读理解是机器阅读理解任务的一个重要分支。片段抽取式阅读理解任务要求从篇章中抽取一个片段作为问题的答案,可能是一个词、一个词组,也可能是一个句子。
进一步地,下面对本申请实施例的应用场景进行介绍,可以理解的,本申请实施例提供的答案文本的获取方法可以由终端设备来执行,也可以由服务器来执行。本申请提供的答案文本的获取方法应用于如图1所示的答案文本的获取系统,请参阅图1,图1为本申请实施例中答案文本的获取系统的一个架构示意图,如图1所示,答案文本的获取系统包括终端设备以及服务器。具体地,终端设备在获取到目标问题文本后,能够通过本申请实施例所提供的方法从待匹配文本中确定与目标问题文本对应的目标答案文本。进一步地,终端设备还能够将与目标问题文本对应的目标答案文本保存于区块链上。或者,终端设备在获取到目标问题文本之后,可以选择将目标问题文本向服务器发送,服务器通过本申请实施例所提供的方法从待匹配文本中确定与目标问题文本对应的目标答案文本,然后将该目标答案文本发送给终端设备。进一步地,服务器还能够将与目标问题文本对应的目标答案文本保存于区块链上。
本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑(personal computer,PC)等,但不局限于此。且终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。
虽然图1中仅示出了五个终端设备和一个服务器,但应当理解,图1中的示例仅用于理解本方案,具体终端设备和服务器的数量均应当结合实际情况灵活确定。
由于本申请实施例还可以基于人工智能领域来实现,在对本申请实施例提供的答案文本的获取方法开始介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。其次,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
结合上述介绍,本申请实施例提供的方案涉及人工智能的自然语言处理技术以及机器学习技术,下面对本申请中答案文本的获取方法进行介绍,请参阅图2,图2为本申请实施例中答案文本的获取方法一个实施例示意图,如图2所示,本申请实施例中答案文本的获取方法一个实施例包括:
101、获取目标问题文本以及待匹配文本,其中,待匹配文本包括多个文本单元;
本实施例中,获取目标问题文本(query)以及待匹配文本,该待匹配文本包括多个文本单元。前述文本单元可以为中文字,例如,“我”,“你”,“好”等,或者,前述文本单元还可以为英文词汇,例如,“I”,“blue”以及“good”等。若执行本申请实施例方法的装置部署于终端设备,此时终端设备将存储有问题文本以及多个待匹配文本的映射关系,该映射关系可以是从区块链下载的,或者是服务器向终端设备发送的,具体此处不做限定。基于此,在获取到目标问题文本之后,需要通过映射关系从多个待匹配文本中确定当前需要进行答案获取的待匹配文本。若为服务器,那么在终端设备在获取到目标问题文本之后,直接向服务器发送目标问题文本,服务器再通过问题文本以及多个待匹配文本的映射关系确定待匹配文本,或者,在终端设备在获取到目标问题文本之后,终端设备通过前述介绍类似方式确定待匹配文本,再向服务器发送目标问题文本以及待匹配文本。具体此处不做限定。
具体地,本实施例中的待匹配文本可以为篇章(paragraph),还可以为篇章以及篇章题目(title),还可以为篇章以及篇章作者(writer),或者还可以为篇章,篇章题目以及篇章作者,即待匹配文本能够包括篇章以及与篇章相关的信息,具体此处不对待匹配文本进行限定。
为了便于理解,以为终端设备作为示例进行介绍,请参阅图3,图3为本申请实施例中获取目标问题文本以及待匹配文本一个实施例示意图,如图3所示,用户在终端设备A1的显示界面输入目标问题文本A2,目标问题文本A2为“天为什么是蓝色的呢”,此时终端设备通过所存储的映射关系可以得到对应的两个待匹配文本,待匹配文本A31具体为“天是蓝色的原理”以及待匹配文本A32具体为“天更蓝了水更清了”,终端设备可以选择其中任一进行答案获取。
102、根据目标问题文本确定目标文本类别,其中,目标文本类别表示与目标问题文本关联的问题类型;
本实施例中,通过步骤101所获取的目标问题文本确定目标文本类别(querytype),该目标文本类别表示与目标问题文本关联的问题类型。具体地,与目标问题文本关联的问题类型包括但不限于事实类、评价类、询问时间类、询问地址类、询问人物类以及询问数值类。其中,事实类以及评价类用“what”指示,询问时间类用“when”指示,询问地址类用“where”指示,询问人物类用“who”指示,询问数值类用“numeric”指示。
示例性地,若目标问题文本为“天为什么是蓝色的呢”,那么能够确定目标文本类别为事实类。若目标问题文本为“电视剧A好看么”,那么能够确定目标文本类别属于评价类。若目标问题文本为“中国大陆地区的教师节是什么时候”,那么能够确定目标文本类别属于询问时间类。若目标问题文本为“X大厦在什么地方”,那么能够确定目标文本类别属于询问地址类。若目标问题文本为“A国家的第一届领导人是谁”,那么能够确定目标文本类别属于询问人物类。若目标问题文本为“1+1等于几”,那么能够确定目标文本类别属于询问数值类。应理解,前述示例用于理解问题类型,不应理解为本申请实施例的限定。
103、根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,其中,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率;
本实施例中,根据步骤101所获取的目标问题文本以及待匹配文本,和步骤102所确定的目标文本类别,能够获取待匹配文本中每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,第一概率表示该文本单元作为答案文本开始位置的概率,而第二概率表示该文本单元作为答案文本结束位置的概率。
示例性地,若待匹配文本为“各国各地区教师节的节日日期不同,中华人民共和国大陆地区为9月10日”,该待匹配文本中包括32个文本单元,32个文本单元分别为[各],[国],[各],[地],[区]至[9],[月],[1],[0],[日]。基于此,能够获取32个文本单元所对应的第一概率,以及32个文本单元所对应的第二概率。例如,若文本单元[9]所对应的第一概率为92%,且文本单元[9]所对应的第二概率为32%,由此可知,文本单元[9]作为答案文本开始位置的概率为92%,而文本单元[9]作为答案文本结束位置的概率为32%。应理解,前述示例用于理解第一概率以及第二概率,不应理解为本申请实施例的限定。
104、根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。
本实施例中,根据步骤103所获取的每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。例如,若目标问题文本为“中国大陆地区的教师节是什么时候”,且待匹配文本为“各国各地区教师节的节日日期不同,中华人民共和国大陆地区为9月10日”,那么可以确定目标答案文本为“9月10日”。
进一步地,在获取目标答案文本之后,若为终端设备,此时可以直接在终端设备上展示所得到的目标答案文本,若为服务器,那么服务器可以向发送目标问题文本的终端设备发送答案文本,从而使得终端设备上展示接收到的目标答案文本。为了便于理解,基于前述示例进行介绍,请参阅图4,图4为本申请实施例中展示目标答案文本一个界面示意图,如图4的(A)图所示,当用户在终端设备B1输入目标问题文本B2,目标问题文本B2为“中国大陆地区的教师节是什么时候”,且待匹配文本B3为“各国各地区教师节的节日日期不同,中华人民共和国大陆地区为9月10日”。若确定目标答案文本为“9月10日”,那么如图4的(B)图所示,终端设备B1将会显示目标问题文本B2对应的目标答案文本B4“9月10日”。前述示例仅用于理解本方案,不应理解为本方案的限定。
本申请实施例中,提供了一种答案文本的获取方法,首先,获取目标问题文本以及包括多个文本单元的待匹配文本,然后根据目标问题文本确定目标文本类别,该目标文本类别表示与目标问题文本关联的问题类型,再根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率,最后,根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。采用上述方式,由于目标文本类别能够表示与所述目标问题文本关联的问题类型,因此基于目标问题文本以及待匹配文本,并引入目标文本类别对目标问题文本的目标答案文本进行获取,能够提升在待匹配文本中获取目标答案文本的准确度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,具体包括如下步骤:
根据目标问题文本、待匹配文本以及目标文本类别生成目标文本序列,其中,目标文本序列包括目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列;
对目标文本序列进行编码处理,得到目标文本序列的特征信息;
根据目标文本序列的特征信息,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
本实施例中,能够根据目标问题文本、待匹配文本以及目标文本类别生成目标文本序列,此时,目标文本序列包括目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列,可以理解的是,本实施例不对目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列在目标文本序列的顺序进行限定。基于此,再对所得到的目标文本序列进行编码处理,以得到目标文本序列的特征信息,由此根据目标文本序列的特征信息,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
为了便于理解,请参阅图5,图5为本申请实施例中获取第一概率以及第二概率一个实施例示意图,如图5所示,首先根据目标问题文本C1,待匹配文本C2以及目标文本类别C3生成目标文本序列C4,然后对目标文本序列C4进行编码处理,得到目标文本序列C4的特征信息C5,根据目标文本序列C4的特征信息C5,能够得到每个文本单元所对应的第一概率与每个文本单元所对应的第二概率C6。应理解,图5仅便于理解得到每个文本单元所对应的第一概率与每个文本单元所对应的第二概率的流程,具体方式此处不进行限定。
本申请实施例中,提供了一种获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率的方法,采用上述方式,由于由于特征信息能够更为准确的反映目标文本序列所携带的多种信息以及多种信息之间的关联关系,因此通过目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列,以及他们之间的关联关系,能够更为准确的指示待匹配文本中每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,由此提升第一概率以及第二概率的准确度,从而提升后续确定目标答案文本的准确度。
由于分词是自然语言处理的基础,分词准确度直接决定了后续的词性标注、句法分析、词向量以及文本分析的质量。英文语句通常能够使用空格将单词进行分隔,除了某些特定词,如“how many”以及“New York”等特殊情况,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,我们需要先进行分词处理。
目前,不同的切分结果会有不同的含义,具体包含如下三种情况:
一、组合型歧义
分词粒度不同导致的不同切分结果。比如“中华人民共和国”,粗粒度的分词结果为“中华人民共和国”,细粒度的分词结果为“中华/人民/共和国”,此时进行分词需要根据实际应用场景来选择粗粒度还是细粒度。另外,有时候汉字串AB中,AB,A以及B可以同时成词,这个时候也容易产生组合型歧义,例如,“他/将/来/网商银行”,“他/将来/想/应聘/网商银行”,此时需要通过整句话进行分词处理。
二、交集型歧义
不同切分结果共用相同的字,前后组合的不同导致不同的切分结果。例如,“商务处女干事”,可以划分为“商务处/女干事”,也可以划分为“商务/处女/干事”,此时也需要通过整句话,甚至结合上下文进行分词处理。
三、真歧义
本身语法或语义没有问题,即使人工切分也会产生歧义。比如“下雨天留客天天留人不留”,可以划分为“下雨天/留客天/天留/人不留”,也可以划分为“下雨天/留客天/天留人不/留”。此时通过整句话还没法准确切分,只能通过上下文语境来进行切分。如果是不想留客,则切分为前一个。否则切分为后一个。
可以理解的是,前述示例仅用于对分词进行理解,所示例的分词结果均不应理解为本方案的限定。
进一步地,当前的分词算法主要分为两类,一种为基于词典的规则匹配方法,基于词典的分词算法就是字符串匹配。将待匹配的字符串基于一定的算法策略,和一个足够大的词典进行字符串匹配,如果匹配命中,则可以分词。根据不同的匹配策略,又分为正向最大匹配法,逆向最大匹配法,双向匹配分词,全切分路径选择等,具体此处不进行穷举。另一种为基于统计的机器学习方法,基于统计的分词算法就是一个序列标注问题。通过将语句中的字,按照他们在词中的位置进行标注。这类算法基于机器学习或者深度学习,主要包括但不限于隐马尔科夫模型(hidden markov model,HMM),条件随机场(conditional randomfields,CRF),支持向量机(support vector machine,SVM)以及深度学习等。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据目标问题文本、待匹配文本以及目标文本类别生成目标文本序列,具体包括如下步骤:
对目标问题文本进行分词处理,得到目标问题文本的文本序列;
对待匹配文本进行分词处理,得到待匹配文本的文本序列;
对目标文本类别进行分词处理,得到目标文本类别的文本序列;
对目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列进行拼接处理,得到目标文本序列。
本实施例中,对目标问题文本进行分词处理,得到目标问题文本的文本序列,例如,将目标问题文本进行分词处理后,可以得到L个问题文本的文本序列,即L为目标问题文本的词序列的长度。基于此,目标问题文本的词序列形式化的表示为:
Q=q1q2...qL
其中,Q为目标问题文本的文本序列,q1为第一个问题文本的文本序列,q2为第二个问题文本的文本序列,qL为第L个问题文本的文本序列。
其次,对待匹配文本进行分词处理,得到待匹配文本的文本序列。由于待匹配文本可以为篇章,还可以为篇章以及篇章题目,还可以为篇章以及篇章作者,或者还可以为篇章,篇章题目以及篇章作者,若待匹配文本仅为篇章,那么将待匹配文本进行分词处理后,可以得到M个待匹配文本的文本序列,即M为待匹配文本的词序列的长度。基于此,待匹配文本的词序列形式化的表示为:
P=p1p2...pM
其中,P为待匹配文本的文本序列,p1为第一个待匹配文本的文本序列,p2为第二个待匹配文本的文本序列,pM为第M个待匹配文本的文本序列。
若待匹配文本包括篇章以及篇章题目,那么将待匹配文本进行分词处理后,可以得到(M+N)个待匹配文本的文本序列,即(M+N)为目标问题文本的词序列的长度,或者说可以得到M个篇章的文本序列以及N个篇章题目的文本序列,那么M为篇章的词序列的长度,而N为篇章题目的词序列的长度。基于此,待匹配文本的词序列形式化的表示为:
P=p1p2...pMt1t2...tN
其中,P为待匹配文本的文本序列,p1为第一个篇章的文本序列,p2为第二个篇章的文本序列,pM为第M个篇章的文本序列,t1为第一个篇章题目的文本序列,t2为第二个篇章题目的文本序列,tN为第N个篇章题目的文本序列。
再次,对目标文本类别进行分词处理,得到目标文本类别的文本序列,由于一个目标问题文本对应一个目标文本类别,因此此时直接将目标文本类别作为一个分词。例如,本实施例中以问题类型包括事实类、评价类、询问时间类、询问地址类、询问人物类以及询问数值类。基于前述介绍可知,当目标文本类别为事实类或者评价类时,目标文本类别的序列化表示为[what]。同理可知,当目标文本类别为询问时间类时,目标文本类别的序列化表示为[when]。当目标文本类别为询问地址类时,目标文本类别的序列化表示为[where]。当目标文本类别为询问人物类时,目标文本类别的序列化表示为[who]。当目标文本类别为询问数值类时,目标文本类别的序列化表示为[numeric]。
最后,为了构建标准的输入,将前述所得到的对目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列进行拼接处理,得到目标文本序列。例如,若待匹配文本仅包括篇章,那么目标文本序列的词序列形式化的一种表示为:
X=[CLS]type[SEP]q1q2...qL[SEP]p1p2...pM[SEP];
或者,目标文本序列的词序列形式化的另一种表示为:
X=[CLS]type[SEP]p1p2...pM[SEP]q1q2...qL[SEP];
其中,X为目标文本序列,type为目标文本类别的文本序列,q1至qL为目标问题文本的文本序列,p1至pM为待匹配文本的文本序列。应理解,目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列能够通过不同的拼接顺序进行拼接处理,此处不做限定。
若待匹配文本仅包括篇章以及篇章题目,那么目标文本序列的词序列形式化的一种表示为:
X=[CLS]type[SEP]q1q2...qL[SEP]t1t2...tN[SEP]t1p1p2...pM[SEP];
或者,目标文本序列的词序列形式化的另一种表示为:
X=[CLS]type[SEP]t1t2...tN[SEP]t1p1p2...pM[SEP]q1q2...qL[SEP];
其中,X为目标文本序列,type为目标文本类别的文本序列,q1至qL为目标问题文本的文本序列,p1至pM为篇章的文本序列,t1至tN为篇章题目的文本序列。且此时目标文本序列X的总长度R=L+M+N+6。应理解,目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列能够通过不同的拼接顺序进行拼接处理,此处不做限定。
本申请实施例中,提供了一种生成目标文本序列的方法,采用上述方式,通过分词处理能够结合上下文以及语义与每个文本进行更为准确的切分,使得每个文本序列能够更为准确的反映对应文本的语义,并将不同的文本序列进行拼接,保证标准的输入能够提升获取后续性特征信息的准确度,由于不限定各文本序列的拼接顺序,由此还能能够提升本方案的灵活度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,对目标文本序列进行编码处理,得到目标文本序列的特征信息,具体包括:
对目标文本序列进行词嵌入处理,得到词向量集合;
基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息,其中,K为大于1的整数。
本实施例中,对前述所得到的目标文本序列进行词嵌入处理(Word Embeddings),得到词向量集合,然后基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息,前述K为大于1的整数。词嵌入处理就是指将一个词语(word)转换为一个词向量(WordVectors)表示,而进行词嵌入处理可以为机器学习中的独热(one-hot)编码方式,或者是基于神经网络的词嵌入技术。
具体地,以基于神经网络的词嵌入技术进行词嵌入处理,且具体以双向编码表征模型(bidirectional encoder representations from transformers,BERT)进行词嵌入处理来介绍。BERT的嵌入层包括标记嵌入层(token embeddings),拼接嵌入层(segmentembeddings)以及位置嵌入层(position embeddings)。请参阅图6,图6为本申请实施例中进行词嵌入处理一个实施例示意图,如图6所示,将目标文本序列作为嵌入层的输入,首先token embedding将目标文本序列中的各个词转换成固定维度的向量,在BERT中,目标文本序列中的每个词会被转换成768维的向量表示。得到固定维度的向量后,由于[SEP]能够将目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列分割开,因此通过segment embeddings能够把A赋给目标文本类别的token,即拼接嵌入层中的EA,然后把B赋给目标问题文本的文本序列中的各个token,即拼接嵌入层中的EB,以此类推,把C赋给待匹配文本中篇章题目的文本序列中的各个token,即拼接嵌入层中的EC,把D赋给待匹配文本中篇章的文本序列中的各个token,即拼接嵌入层中的ED。进一步地,由于前述嵌入层并未关注其目标文本序列的顺序特征,因此需要通过position embeddings学习到目标文本序列的顺序属性,再输出词向量集合。
为了便于理解,基于实施例中所介绍的目标文序列进行介绍,目标文本序列为X=[CLS]type[SEP]q1q2...qL[SEP]t1t2...tN[SEP]t1p1p2...pM[SEP],且目标文本序列X的总长度R=L+M+N+6,此时可以得到X=x1x2...xR,然后将X=x1x2...xR输入至BERT模型的嵌入层,BERT模型的嵌入层将输出能够得到词向量集合(也可以称为词向量矩阵):
Figure BDA0003115818130000131
其中,
Figure BDA0003115818130000132
表示为第i个词的词向量,d表示词向量的维度。
前述实施例中所出现的E,基于公式(1)得到:
E=Embedding(X); (1)
其中,E表示词向量。
进一步地,在得到词向量集合之后,能够基于词向量集合通过多种方式获取目标文本序列的特征信息,例如通过BERT模型的堆栈层(Transformer)获取目标文本序列的特征信息,或者通过ALBERT模型以及长短期记忆网络(long short-term memory,LSTM)等进行目标文本序列的特征信息。本实施例以通过BERT模型的堆栈层(Transformer)获取目标文本序列的特征信息进行介绍,将词向量集合作为多个堆栈层的输入,通过多个堆栈层输出目标文本序列的特征信息。
本申请实施例中,提供了一种获取目标文本序列的特征信息的方法,采用上述方式,通过词嵌入处理得到词向量集合,减少了向量的维度,并将多个文本单元分割开,但保留每个文本单元之间的关系以及顺序特征,因此基于该词向量集合所得到的目标文本序列的特征信息能够更为准确的反映目标文本序列之间的关系特征,提升本方案的准确度,且减少向量维度能够提升后续步骤的效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息,具体包括:
针对于词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,其中,i为大于或等于1,且小于K的整数;
根据词向量集合中的每个词向量的第K个特征向量,得到目标文本序列的特征信息。
本实施例中,针对于词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,其中,i为大于或等于1,且小于K的整数,然后根据词向量集合中的每个词向量的第K个特征向量,得到目标文本序列的特征信息。
具体地,堆栈层能够通过自注意力机制获取词向量集合的每个词向量之间的长期依赖信息,长期依赖指的是距离当前文本较远的文本与当前文本之间长期依赖,例如目标文本序列长100,第1个文本是一个主语,比如“刘德华”,第90个词是一个指示代词,比如“他”,这时候就可以认为第1个词和第90个词有长期依赖。然后堆栈层基于词向量集合以及每个词向量之间的长期依赖信息获取目标文本序列的特征信息。
进一步地,对于词向量集合
Figure BDA0003115818130000141
第i层堆栈层输出的词向量集合的特征向量为:
Figure BDA0003115818130000142
其中,Hi为第i层堆栈层输出的词向量集合的特征向量,
Figure BDA0003115818130000143
为第i层堆栈层输出的词向量集合中第j个文本的特征向量,N为目标文本特征的长度,j属于N。
基于此,第(i+1)层堆栈层将基于第i层堆栈层输出的词向量集合的特征向量,造次进行堆栈,从而得到第(i+1)层堆栈层输出的词向量集合的特征向量,K个堆栈层对一个文本可以通过公式(2)进行操作:
Figure BDA0003115818130000144
Qi=HiWi Q,Ki=HiWi K,Vi=HiWi V
其中,Hi+1为第(i+1)层堆栈层输出的词向量集合的特征向量,Hi为第i层堆栈层输出的词向量集合的特征向量,Wi Q为第一预设参数矩阵,Wi K为第二预设参数矩阵,Wi V为第三预设参数矩阵。
为了便于理解,以K为12作为示例进行介绍,请参阅图7,图7为本申请实施例中获取目标文本序列的特征信息一个实施例示意图,如图7所示,将词向量集合中每个词向量均输入至第一个堆栈层,词向量1输入至第一个堆栈层,第一个堆栈层将输出词向量1的第一个特征向量,同理可知,词向量N输入至第一个堆栈层,第一个堆栈层将输出词向量N的第一个特征向量。基于此,将词向量1的第一个特征向量输入至第二个堆栈层,第二个堆栈层将输出词向量1的第二个特征向量,同理可知,将词向量N的第一个特征向量输入至第二个堆栈层,第二个堆栈层将输出词向量N的第二个特征向量。以此类推,第十二个堆栈层能够基于词向量1的第十一个特征向量输出词向量1的第十二个特征向量,且基于词向量N的第十一个特征向量输出词向量N的第十二个特征向量后,即第十二个堆栈层能够输出词向量集合中每个词向量的特征向量,而词向量集合中每个词向量的特征向量进行聚合即能够得到目标文本序列的特征信息。
本申请实施例中,提供了另一种获取目标文本序列的特征信息的方法,采用上述方式,通过堆栈层逐级获取词向量集合中每个词向量的特征向量,能够更为准确且全面的获取每个词向量得特征信息,最后通过聚合最后一个堆栈层输出的特性向量,所获取的目标文本序列的特征信息能够包括更多的特征信息,由此提升本方案的可行性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据目标文本序列的特征信息,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,具体包括:
基于目标文本序列的特征信息,通过第一全连接层获取每个文本单元所对应的第一概率;
基于目标文本序列的特征信息,通过第二全连接层获取每个文本单元所对应的第二概率。
本实施例中,基于目标文本序列的特征信息,通过第一全连接层获取每个文本单元所对应的第一概率,并基于目标文本序列的特征信息,通过第二全连接层获取每个文本单元所对应的第二概率。
具体地,第一全连接层通过公式(3)获取文本单元所对应的第一概率:
Figure BDA0003115818130000151
其中,Pstart为文本单元所对应的第一概率,
Figure BDA0003115818130000152
为预设起始参数矩阵,HL-1为第K个堆栈层的输出(即文本单元的特征向量),
Figure BDA0003115818130000153
为预设起始参数向量。
其次,第二全连接层通过公式(4)获取文本单元所对应的第二概率:
Figure BDA0003115818130000154
其中,Pend为文本单元所对应的第一概率,
Figure BDA0003115818130000155
为预设终止参数矩阵,HL-1为第K个堆栈层的输出(即文本单元的特征向量),
Figure BDA0003115818130000156
为预设终止参数向量。
为了便于理解,请参阅图8,图8为本申请实施例中获取第一概率与第二概率的一个实施例示意图,如图8所示,将目标文本序列的特征信息作为第一全连接层以及第二全连接层的输入,第一全连接层通过公式(3)能够获取目标文本序列中每个文本单元所对应的第一概率,同理可知。第二全连接层通过公式(4)能够获取目标文本序列中每个文本单元所对应的第二概率。
本申请实施例中,提供了另一种获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率的方法,采用上述方式,通过全连接层把通过堆栈层所提取到文本序列的特征信息综合起来,通过前述得到的更为全面的特征信息能够得到更接近真实情况的概率,提升所得到第一概率以及第二概率的准确性,从而提升本方案的准确度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本,具体包括:
根据每个文本单元所对应的第一概率确定开始文本单元,其中,开始文本单元所对应的第一概率在待匹配文本包括的所有文本单元所对应的第一概率中最大;
根据每个文本单元所对应的第二概率确定结束文本单元,其中,结束文本单元所对应的第二概率在待匹配文本包括的所有文本单元所对应的第二概率中最大;
根据开始文本单元以及结束文本单元,在待匹配文本中确定目标问题文本对应的目标答案文本。
本实施例中,通过前述实施例可以获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,那么能够在每个文本单元所对应的第一概率中选择数值最大的第一概率对应的文本单元作为开始文本单元,并且在每个文本单元所对应的第二概率中选择数值最大的第二概率对应的文本单元作为结束文本单元。然后将包括开始文本单元,开始文本单元,以及开始文本单元至开始文本单元之间的所有文本单元确定为目标问题文本对应的目标答案文本。
为了便于理解,以目标问题文本为“中国大陆地区的教师节是什么时候”,且待匹配文本为“各国各地区教师节的节日日期不同,中华人民共和国大陆地区为9月10日”作为示例,若文本单元[9]对应的第一概率为92%,且92%为在待匹配文本为中多个文本单元中数值最大的第一概率,那么将[9]确定为开始文本单元,其次,若最后一个[日]对应的第二概率为89%,且89%为在待匹配文本为中多个文本单元中数值最大的第二概率,那么将最后一个[日]确定为结束文本单元。基于此,将开始文本单元[9],结束文本单元“最后一个[日]”,以及开始文本单元[9]至结束文本单元“最后一个[日]”之间的文本单元“月10”共同确定了目标答案文本,即目标答案文本为“9月10日”。前述示例仅用于理解本方案,具体目标答案文本需要根据开始文本单元以及结束文本单元实际情况灵活确定,因此不应理解为本申请的限定。
本申请实施例中,提供了一种确定目标问题文本对应的目标答案文本的方法,采用上述方式,由于开始文本单元所对应的第一概率在待匹配文本包括的所有文本单元所对应的第一概率中最大,而结束文本单元所对应的第二概率在待匹配文本包括的所有文本单元所对应的第二概率中最大,因此开始文本单元是最有可能作为答案文本开始位置的,而结束文本单元是最有可能作为答案文本结束位置的,基于此所确定的目标答案文本能够更接近真实答应,提升答案文本获取的准确度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,每个文本单元所对应的第一概率大于第一阈值,且每个文本单元所对应的第二概率大于第二阈值;
当目标答案文本包括一个文本单元时,开始文本单元在待匹配文本的位置与结束文本单元在待匹配文本的位置相同;
当目标答案文本包括多个文本单元时,开始文本单元在待匹配文本的位置先于结束文本单元在待匹配文本的位置。
本实施例中,每个文本单元所对应的第一概率大于第一阈值,且每个文本单元所对应的第二概率大于第二阈值,第一阈值与第二阈值可以相同或不同。具体地,当每个文本单元所对应的第一概率均小于或等于第一阈值,且每个文本单元所对应的第二概率均小于或等于第二阈值时,说明待匹配文本中不存在目标问题文本所对应的目标答案文本。
进一步地,当目标答案文本仅包括一个文本单元时,例如,“3”,此时结束文本单元与开始文本单元为同一个,即结束文本单元为“3”且开始文本单元也为“3”。或者,当目标答案文本仅包括多个文本单元时,开始文本单元在待匹配文本的位置将先于结束文本单元在待匹配文本的位置,即不会出现在待匹配文本中所确定的开始文本单元后于结束文本单元的情况。
本申请实施例中,提供了另一种答案文本的获取方法,采用上述方式,能够筛选掉所对应的第一概率小于第一阈值或第二阈值的文本单元,即避免在待匹配文本中不存在目标答案文本的情况下,确定错误的目标答案文本。其次,通过限定开始文本单元以及结束文本单元的位置,也能够避免在特殊情况下发送目标答案文本获取错误的情况,进一步地提升了目标答案文本获取的准确度。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据目标问题文本确定目标文本类别,具体包括:
基于目标问题文本,通过分类模型输出多个文本类别对应的概率,其中,文本类别对应的概率表示目标问题文本属于文本类别的概率;
将多个文本类别对应的概率中数值最高的概率确定为目标文本类别对应的概率;
基于目标文本类别对应的概率确定目标文本类别。
本实施例中,将目标问题文本作为分类模型的输入,分类模型输出多个文本类别对应的概率,该文本类别对应的概率表示目标问题文本属于文本类别的概率。示例性地,以目标问题文本为“中国大陆地区的教师节是什么时候”,且问题类型包括事实类、询问时间类、询问地址类、询问人物类以及询问数值类作为示例进行介绍,那么分类模型可以分别输出目标问题文本为事实类的概率,目标问题文本为评价类的概率,目标问题文本为询问时间类的概率,目标问题文本为询问地址类的概率,目标问题文本为询问人物类的概率以及目标问题文本为询问数值类的概率。
进一步地,将多个文本类别对应的概率中数值最高的概率确定为目标文本类别对应的概率。基于前述示例进行进一步地介绍,若分类模型所输出的目标问题文本为事实类的概率为“10”,目标问题文本为询问时间类的概率为“80”,目标问题文本为询问地址类的概率为“5”以及目标问题文本为询问人物类的概率为“5”,即询问时间类的概率为目标文本类别对应的概率,由此能够得到询问时间类即为目标文本类别。
本申请实施例中,提供了一种确定目标文本类别的方法,采用上述方式,通过分类模型获取目标问题文本分别属于不同文本类别的概率,并且将概率最大的类别确定为目标文本类别,提升本方案的可行性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,具体包括:
基于目标问题文本、待匹配文本以及目标文本类别,通过文本匹配模型获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
本实施例中,将目标问题文本、待匹配文本以及目标文本类别作为文本匹配模型的输入,文本匹配模型输出每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
为了便于理解,下面对文本匹配模型的具体架构进行介绍,请参阅图9,图9为本申请实施例中文本匹配模型的一个架构示意图,如图9所示,先分别对目标文本类别,目标问题文本以及待匹配文本进行分词处理,得到目标文本类别的文本序列,目标问题文本的文本序列以及待匹配文本的文本序列,对目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列进行拼接处理,得到目标文本序列。然后通过前述实施例介绍的类似方法对目标文本序列进行词嵌入处理,得到词向量集合,再通过前述实施例介绍的类似方法基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息。进一步地,通过前述实施例介绍的方法,基于目标文本序列的特征信息,通过第一全连接层获取每个文本单元所对应的第一概率,并基于目标文本序列的特征信息,通过第二全连接层获取每个文本单元所对应的第二概率。
本申请实施例中,提供了另一种答案文本的获取方法,采用上述方式,通过文本匹配模型输出第一概率以及第二概率,由此提升本方案的可行性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,答案文本的获取方法还可以包括如下步骤:
获取问题文本样本集合,待匹配文本样本集合以及真实答案样本集合,其中,问题文本样本集合包括多个问题文本样本,待匹配文本样本集合包括多个待匹配文本样本,真实答案样本集合包括多个答案样本,每个待匹配文本样本均包括多个文本单元,问题文本样本,待匹配文本样本以及真实答案样本一一对应;
根据问题文本样本集合确定目标文本类别样本集合;
基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,其中,第一概率集合包括多个第一概率,第一概率表示待匹配文本的文本单元作为答案文本开始位置的概率,第二概率集合包括多个第二概率,第二概率表示待匹配文本样本的文本单元作为答案文本结束位置的概率;
根据每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,获取预测答案样本集合,其中,预测答案样本集合包括从每个待匹配文本样本中确定的与问题文本样本对应的预测答案样本;
基于预测答案样本集合以及真实答案样本集合,对待训练文本匹配模型进行训练,得到文本匹配模型。
本实施例中,首先获取已经过标注的真实答案样本,然后基于真实答案样本与基于问题文本样本集合对待训练文本匹配模型的模型进行更新。具体地,需要根据问题文本样本集合确定目标文本类别样本集合,并且将问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合作为待训练文本匹配模型的输入,待训练文本匹配模型输出每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,在获取到每个待匹配文本样本的第一概率集合的一个第一概率以及每个待匹配文本样本的第二概率集合的第二概率之后,可以获取一个对应的预测答案样本。
本申请实施例中,提供了一种文本匹配模型训练的方法,采用上述方式,基于预测答案样本集合以及真实答案样本集合,对待训练文本匹配模型进行训练,得到文本匹配模型,保证所得到文本匹配模型的可靠性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的答案文本的获取方法一个可选实施例中,基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,具体包括:
基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型的输入层获取目标文本序列集合,其中,目标文本序列集合包括多个目标文本序列;
基于目标文本序列集合,通过待训练文本匹配模型的编码交互层获取目标文本序列集合的特征信息;
基于目标文本序列集合的特征信息,通过待训练文本匹配模型的全连接层获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合;
基于预测答案样本集合以及真实答案样本集合,对待训练文本匹配模型进行训练,得到文本匹配模型,具体包括:
基于预测答案样本集合以及真实答案样本集合,根据目标损失函数更新待训练文本匹配模型的模型参数;
根据最后一次对模型参数进行更新后获得的模型参数生成文本匹配模型。
本实施例中,通过与前述实施例类似方式,基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型的输入层获取目标文本序列集合,并基于目标文本序列集合,通过待训练文本匹配模型的编码交互层获取目标文本序列集合的特征信息,再基于目标文本序列集合的特征信息,通过待训练文本匹配模型的全连接层获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合没最后根据目标损失函数更新待训练文本匹配模型的模型参数。
具体地,此时可以根据预测答案样本以及与之对应的真实答案样本之间的差异确定目标损失函数的损失值,根据目标损失函数的损失值判断目标损失函数是否达到收敛条件,若未达到收敛条件,则利用目标损失函数的损失值更新待训练文本匹配模型的模型参数。在待训练文本匹配模型每得到问题文本样本集合中每个问题样本所对应的预测答案,确定目标损失函数的损失值,直至目标损失函数达到收敛条件,则根据最后一次对模型参数进行更新后获得的模型参数生成文本匹配模型。
本实施例中目标损失函数为:
L=Lstart+Lend
Lstart=CE(Pstart,Ystart)=-ΣlogPstart(Ystart);
Lend=CE(Pend,Yend)=-ΣlogPend(Yend)
其中,Lstart为第一概率的损失函数,Lend为第二概率的损失函数,Pstart为真实第一概率,Ystart预测第一概率,Pend为真实第二概率,Yend预测第二概率。
其次,目标损失函数的收敛条件可以为目标损失函数的值小于或等于第一预设阈值,作为示例,例如第一预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值。也可以为目标损失函数的相邻两次的值的差值小于或等于第二预设阈值,第二阈值的取值可以与阈值的取值相同或不同,作为示例,例如第二预设阈值的取值可以为0.005、0.01、0.02或其它趋近于0的数值等,还可以采用其它收敛条件等,此处不做限定。
本申请实施例中,提供了另一种文本匹配模型训练的方法,采用上述方式,在目标损失函数达到收敛时停止对待训练文本匹配模型的模型参数进行更新,即完成对待训练文本匹配模型训练,从而得到能够用于答案本文获取的文本匹配模型,使得前述实施例所介绍的答案文本的获取方法能够基于模型实现,保证本方案的可靠性以及可行性。
下面对本申请中的答案文本的获取装置进行详细描述,请参阅图10,图10为本申请实施例中答案文本的获取装置一个实施例示意图,如图所示,答案文本的获取装置200包括:
获取模块201,用于获取目标问题文本以及待匹配文本,其中,待匹配文本包括多个文本单元;
确定模块202,用于根据目标问题文本确定目标文本类别,其中,目标文本类别表示与目标问题文本关联的问题类型;
获取模块201,还用于根据目标问题文本、待匹配文本以及目标文本类别,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率,其中,第一概率表示文本单元作为答案文本开始位置的概率,第二概率表示文本单元作为答案文本结束位置的概率;
确定模块202,还用于根据每个文本单元所对应的第一概率,以及每个文本单元所对应的第二概率,从待匹配文本中确定与目标问题文本对应的目标答案文本。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,答案文本的获取装置200还包括生成模块203以及处理模块204;
生成模块203,用于根据目标问题文本、待匹配文本以及目标文本类别生成目标文本序列,其中,目标文本序列包括目标问题文本的文本序列,待匹配文本的文本序列以及目标文本类别的文本序列;
处理模块204,用于对目标文本序列进行编码处理,得到目标文本序列的特征信息;
获取模块201,具体用于根据目标文本序列的特征信息,获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,生成模块203,具体用于:
对目标问题文本进行分词处理,得到目标问题文本的文本序列;
对待匹配文本进行分词处理,得到待匹配文本的文本序列;
对目标文本类别进行分词处理,得到目标文本类别的文本序列;
对目标问题文本的文本序列、待匹配文本的文本序列以及目标文本类别的文本序列进行拼接处理,得到目标文本序列。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,处理模块204,具体用于:
对目标文本序列进行词嵌入处理,得到词向量集合;
基于词向量集合,通过K个堆栈层获取目标文本序列的特征信息,其中,K为大于1的整数。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,获取模块201,具体用于:
针对于词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,其中,i为大于或等于1,且小于K的整数;
根据词向量集合中的每个词向量的第K个特征向量,得到目标文本序列的特征信息。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,获取模块201,具体用于:
基于目标文本序列的特征信息,通过第一全连接层获取每个文本单元所对应的第一概率;
基于目标文本序列的特征信息,通过第二全连接层获取每个文本单元所对应的第二概率。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,确定模块202,具体用于:
根据每个文本单元所对应的第一概率确定开始文本单元,其中,开始文本单元所对应的第一概率在待匹配文本包括的所有文本单元所对应的第一概率中最大;
根据每个文本单元所对应的第二概率确定结束文本单元,其中,结束文本单元所对应的第二概率在待匹配文本包括的所有文本单元所对应的第二概率中最大;
根据开始文本单元以及结束文本单元,在待匹配文本中确定目标问题文本对应的目标答案文本。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,每个文本单元所对应的第一概率大于第一阈值,且每个文本单元所对应的第二概率大于第二阈值;
当目标答案文本包括一个文本单元时,开始文本单元在待匹配文本的位置与结束文本单元在待匹配文本的位置相同;
当目标答案文本包括多个文本单元时,开始文本单元在待匹配文本的位置先于结束文本单元在待匹配文本的位置。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,确定模块202,具体用于:
基于目标问题文本,通过分类模型输出多个文本类别对应的概率,其中,文本类别对应的概率表示目标问题文本属于文本类别的概率;
将多个文本类别对应的概率中数值最高的概率确定为目标文本类别对应的概率;
基于目标文本类别对应的概率确定目标文本类别。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,获取模块201,具体用于:
基于目标问题文本、待匹配文本以及目标文本类别,通过文本匹配模型获取每个文本单元所对应的第一概率与每个文本单元所对应的第二概率。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,答案文本的获取装置还包括训练模块205;
获取模块201,还用于获取问题文本样本集合,待匹配文本样本集合以及真实答案样本集合,其中,问题文本样本集合包括多个问题文本样本,待匹配文本样本集合包括多个待匹配文本样本,真实答案样本集合包括多个答案样本,每个待匹配文本样本均包括多个文本单元,问题文本样本,待匹配文本样本以及真实答案样本一一对应;
确定模块202,还用于根据问题文本样本集合确定目标文本类别样本集合;
获取模块201,还用于基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,其中,第一概率集合包括多个第一概率,第一概率表示待匹配文本的文本单元作为答案文本开始位置的概率,第二概率集合包括多个第二概率,第二概率表示待匹配文本样本的文本单元作为答案文本结束位置的概率;
获取模块201,还用于根据每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,获取预测答案样本集合,其中,预测答案样本集合包括从每个待匹配文本样本中确定的与问题文本样本对应的预测答案样本;
训练模块205,用于基于预测答案样本集合以及真实答案样本集合,对待训练文本匹配模型进行训练,得到文本匹配模型。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的答案文本的获取装置200的另一实施例中,获取模块201,具体用于:
基于问题文本样本集合,待匹配文本样本集合以及目标文本类别样本集合,通过待训练文本匹配模型的输入层获取目标文本序列集合,其中,目标文本序列集合包括多个目标文本序列;
基于目标文本序列集合,通过待训练文本匹配模型的编码交互层获取目标文本序列集合的特征信息;
基于目标文本序列集合的特征信息,通过待训练文本匹配模型的全连接层获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合;
训练模块205,具体用于基于预测答案样本集合以及真实答案样本集合,根据目标损失函数更新待训练文本匹配模型的模型参数;
根据最后一次对模型参数进行更新后获得的模型参数生成文本匹配模型。
本申请实施例还提供了另一种答案文本的获取装置,答案文本的获取装置都可以部署于服务器,也可以部署于终端设备,本申请中以答案文本的获取装置部署于服务器为例进行说明,请参阅图11,图11为本申请实施例中服务器一个实施例示意图,如图所示,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
该服务器所包括的CPU 1122用于执行如图2所示实施例以及图2对应的各个实施例。
本申请还提供了一种终端设备,用于执行图2所示实施例以及图2对应的各个实施例中答案文本的获取装置执行的步骤。如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。以终端设备为手机为例进行说明:
图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12,手机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1210可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1280处理;另外,将设计上行的数据发送给基站。通常,RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1230可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1280,并能接收处理器1280发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231,输入单元1230还可以包括其他输入设备1232。具体地,其他输入设备1232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1241。进一步的,触控面板1231可覆盖显示面板1241,当触控面板1231检测到在其上或附近的触摸操作后,传送给处理器1280以确定触摸事件的类型,随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图12中,触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1250,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1241和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,此处不做赘述。
音频电路1260、扬声器1261,传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号,传输到扬声器1261,由扬声器1261转换为声音信号输出;另一方面,传声器1262将收集的声音信号转换为电信号,由音频电路1260接收后转换为音频数据,再将音频数据输出处理器1280处理后,经RF电路1210以发送给比如另一手机,或者将音频数据输出至存储器1220以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270,但是可以理解的是,其并不属于手机的必须构成。
处理器1280是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1280可包括一个或多个处理单元;优选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
手机还包括给各个部件供电的电源1290(比如电池),优选的,电源可以通过电源管理系统与处理器1280逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,此处不做赘述。
在本申请实施例中,该终端所包括的处理器1280用于执行如图2所示实施例以及图2对应的各个实施例。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述图2所示实施例描述的方法以及图2对应的各个描述的方法中答案文本的获取装置所执行的步骤。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图2所示实施例描述的方法中答案文本的获取装置所执行的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种答案文本的获取方法,其特征在于,包括:
获取目标问题文本以及待匹配文本,其中,所述待匹配文本包括多个文本单元;
根据所述目标问题文本确定目标文本类别,其中,目标文本类别表示与所述目标问题文本关联的问题类型;
根据所述目标问题文本、所述待匹配文本以及所述目标文本类别,获取每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率,其中,所述第一概率表示文本单元作为答案文本开始位置的概率,所述第二概率表示文本单元作为答案文本结束位置的概率;
根据所述每个文本单元所对应的第一概率,以及所述每个文本单元所对应的第二概率,从所述待匹配文本中确定与所述目标问题文本对应的目标答案文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标问题文本、所述待匹配文本以及所述目标文本类别,获取每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率,包括:
根据所述目标问题文本、所述待匹配文本以及所述目标文本类别生成目标文本序列,其中,所述目标文本序列包括所述目标问题文本的文本序列,所述待匹配文本的文本序列以及所述目标文本类别的文本序列;
对所述目标文本序列进行编码处理,得到所述目标文本序列的特征信息;
根据所述目标文本序列的特征信息,获取所述每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标问题文本、所述待匹配文本以及所述目标文本类别生成目标文本序列,包括:
对所述目标问题文本进行分词处理,得到所述目标问题文本的文本序列;
对所述待匹配文本进行分词处理,得到所述待匹配文本的文本序列;
对所述目标文本类别进行分词处理,得到所述目标文本类别的文本序列;
对所述目标问题文本的文本序列、所述待匹配文本的文本序列以及所述目标文本类别的文本序列进行拼接处理,得到所述目标文本序列。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标文本序列进行编码处理,得到所述目标文本序列的特征信息,包括:
对所述目标文本序列进行词嵌入处理,得到词向量集合;
基于所述词向量集合,通过K个堆栈层获取所述目标文本序列的特征信息,其中,所述K为大于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述词向量集合,通过K个堆栈层获取所述目标文本序列的特征信息,包括:
针对于所述词向量集合中的每个词向量,基于第i个特征向量,通过第i个堆栈层输出第(i+1)个特征向量,直至得到第K个特征向量,其中,所述i为大于或等于1,且小于或等于所述K的整数;
根据所述词向量集合中的每个词向量的第K个特征向量,得到所述目标文本序列的特征信息。
6.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本序列的特征信息,获取所述每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率,包括:
基于所述目标文本序列的特征信息,通过第一全连接层获取所述每个文本单元所对应的第一概率;
基于所述目标文本序列的特征信息,通过第二全连接层获取所述每个文本单元所对应的第二概率。
7.根据权利要求1所述的方法,其特征在于,所述根据所述每个文本单元所对应的第一概率,以及所述每个文本单元所对应的第二概率,从所述待匹配文本中确定与所述目标问题文本对应的目标答案文本,包括:
根据所述每个文本单元所对应的第一概率确定开始文本单元,其中,所述开始文本单元所对应的第一概率在所述待匹配文本包括的所有文本单元所对应的第一概率中最大;
根据所述每个文本单元所对应的第二概率确定结束文本单元,其中,所述结束文本单元所对应的第二概率在所述待匹配文本包括的所有文本单元所对应的第二概率中最大;
根据所述开始文本单元以及结束文本单元,在所述待匹配文本中确定所述目标问题文本对应的目标答案文本。
8.根据权利要求7所述的方法,其特征在于,所述每个文本单元所对应的第一概率大于第一阈值,且所述每个文本单元所对应的第二概率大于第二阈值;
当所述目标答案文本包括一个文本单元时,所述开始文本单元在所述待匹配文本的位置与所述结束文本单元在所述待匹配文本的位置相同;
当所述目标答案文本包括多个文本单元时,所述开始文本单元在所述待匹配文本的位置先于所述结束文本单元在所述待匹配文本的位置。
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标问题文本确定目标文本类别,包括:
基于所述目标问题文本,通过分类模型输出多个文本类别对应的概率,其中,所述文本类别对应的概率表示所述目标问题文本属于所述文本类别的概率;
将所述多个文本类别对应的概率中数值最高的概率确定为目标文本类别对应的概率;
基于所述目标文本类别对应的概率确定所述目标文本类别。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述根据所述目标问题文本、所述待匹配文本以及所述目标文本类别,获取每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率,包括:
基于所述目标问题文本、所述待匹配文本以及所述目标文本类别,通过文本匹配模型获取所述每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取问题文本样本集合,待匹配文本样本集合以及真实答案样本集合,其中,所述问题文本样本集合包括多个问题文本样本,所述待匹配文本样本集合包括多个待匹配文本样本,所述真实答案样本集合包括多个答案样本,每个待匹配文本样本均包括多个文本单元,所述问题文本样本,所述待匹配文本样本以及所述真实答案样本一一对应;
根据所述问题文本样本集合确定目标文本类别样本集合;
基于所述问题文本样本集合,所述待匹配文本样本集合以及所述目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,其中,所述第一概率集合包括多个第一概率,所述第一概率表示所述待匹配文本的文本单元作为答案文本开始位置的概率,所述第二概率集合包括多个第二概率,所述第二概率表示所述待匹配文本样本的文本单元作为答案文本结束位置的概率;
根据所述每个待匹配文本样本的第一概率集合与所述每个待匹配文本样本的第二概率集合,获取预测答案样本集合,其中,所述预测答案样本集合包括从每个待匹配文本样本中确定的与问题文本样本对应的预测答案样本;
基于所述预测答案样本集合以及所述真实答案样本集合,对所述待训练文本匹配模型进行训练,得到所述文本匹配模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述问题文本样本集合,所述待匹配文本样本集合以及所述目标文本类别样本集合,通过待训练文本匹配模型获取每个待匹配文本样本的第一概率集合与每个待匹配文本样本的第二概率集合,包括:
基于所述问题文本样本集合,所述待匹配文本样本集合以及所述目标文本类别样本集合,通过所述待训练文本匹配模型的输入层获取目标文本序列集合,其中,所述目标文本序列集合包括多个所述目标文本序列;
基于所述目标文本序列集合,通过所述待训练文本匹配模型的编码交互层获取所述目标文本序列集合的特征信息;
基于所述目标文本序列集合的特征信息,通过所述待训练文本匹配模型的全连接层获取所述每个待匹配文本样本的第一概率集合与所述每个待匹配文本样本的第二概率集合;
所述基于所述预测答案样本集合以及所述真实答案样本集合,对所述待训练文本匹配模型进行训练,得到所述文本匹配模型,包括:
基于所述预测答案样本集合以及所述真实答案样本集合,根据目标损失函数更新所述待训练文本匹配模型的模型参数;
根据最后一次对模型参数进行更新后获得的模型参数生成文本匹配模型。
13.一种答案文本的获取装置,其特征在于,包括:
获取模块,用于获取目标问题文本以及待匹配文本,其中,所述待匹配文本包括多个文本单元;
确定模块,用于根据所述目标问题文本确定目标文本类别,其中,目标文本类别表示与所述目标问题文本关联的问题类型;
所述获取模块,还用于根据所述目标问题文本、所述待匹配文本以及所述目标文本类别,获取每个文本单元所对应的第一概率与所述每个文本单元所对应的第二概率,其中,所述第一概率表示文本单元作为答案文本开始位置的概率,所述第二概率表示文本单元作为答案文本结束位置的概率;
所述确定模块,还用于根据所述每个文本单元所对应的第一概率,以及所述每个文本单元所对应的第二概率,从所述待匹配文本中确定与所述目标问题文本对应的目标答案文本。
14.一种计算机设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,以实现权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
CN202110662968.0A 2021-06-15 2021-06-15 一种答案文本的获取方法及装置、计算机设备和存储介质 Pending CN113821609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662968.0A CN113821609A (zh) 2021-06-15 2021-06-15 一种答案文本的获取方法及装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662968.0A CN113821609A (zh) 2021-06-15 2021-06-15 一种答案文本的获取方法及装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113821609A true CN113821609A (zh) 2021-12-21

Family

ID=78923885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662968.0A Pending CN113821609A (zh) 2021-06-15 2021-06-15 一种答案文本的获取方法及装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113821609A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840648A (zh) * 2022-03-21 2022-08-02 阿里巴巴(中国)有限公司 答案生成方法、装置及计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840648A (zh) * 2022-03-21 2022-08-02 阿里巴巴(中国)有限公司 答案生成方法、装置及计算机程序产品

Similar Documents

Publication Publication Date Title
KR102646667B1 (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
CN110490213B (zh) 图像识别方法、装置及存储介质
CN111553162B (zh) 一种意图识别的方法以及相关装置
CN109145303A (zh) 命名实体识别方法、装置、介质以及设备
CN111985240B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
CN110599557A (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN113821589B (zh) 一种文本标签的确定方法及装置、计算机设备和存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN111177371A (zh) 一种分类方法和相关装置
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
WO2022257840A1 (zh) 信息显示方法、装置、电子设备及可读存储介质
CN112214605A (zh) 一种文本分类方法和相关装置
CN113761122A (zh) 一种事件抽取方法、相关装置、设备及存储介质
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN112749252A (zh) 一种基于人工智能的文本匹配方法和相关装置
CN113220848A (zh) 用于人机交互的自动问答方法、装置和智能设备
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN113822038A (zh) 一种摘要生成方法和相关装置
CN113821609A (zh) 一种答案文本的获取方法及装置、计算机设备和存储介质
CN112328783A (zh) 一种摘要确定方法和相关装置
CN112488157A (zh) 一种对话状态追踪方法、装置、电子设备及存储介质
US20240038223A1 (en) Speech recognition method and apparatus
CN114840563B (zh) 一种字段描述信息的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination