CN113010657A - 基于解答文本的答案处理方法和答案推荐方法 - Google Patents

基于解答文本的答案处理方法和答案推荐方法 Download PDF

Info

Publication number
CN113010657A
CN113010657A CN202110348792.1A CN202110348792A CN113010657A CN 113010657 A CN113010657 A CN 113010657A CN 202110348792 A CN202110348792 A CN 202110348792A CN 113010657 A CN113010657 A CN 113010657A
Authority
CN
China
Prior art keywords
answer
text
type
question
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110348792.1A
Other languages
English (en)
Other versions
CN113010657B (zh
Inventor
王唯康
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110348792.1A priority Critical patent/CN113010657B/zh
Publication of CN113010657A publication Critical patent/CN113010657A/zh
Application granted granted Critical
Publication of CN113010657B publication Critical patent/CN113010657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种人工智能技术领域,提供了一种基于解答文本的答案处理方法、装置、计算机设备和存储介质。方法包括:获取目标问句以及与目标问句匹配的解答文本,基于目标问句的语句特征,确定目标问句对应的答案类型,采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案。采用本方法能够提高答案的精确性。此外,本申请还提供了一种答案推荐方法、装置、计算机设备和存储介质,实现答案的精准推送。

Description

基于解答文本的答案处理方法和答案推荐方法
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于解答文本的答案处理方法、装置、计算机设备和存储介质,以及一种答案推荐方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的快速发展,快速便捷地获取信息已成为用户的重要需求,从而快速便捷地为用户提供所需的信息也成为了需要解决的重要难题。
为了方便用户快速精准地找到想要的信息,搜索引擎一般会提供智能问答服务。目前搜索引擎的智能问答服务一般是基于用户输入的问题,通过在已有的问答数据库中进行查找匹配,获取到与用户输入的问题匹配的解答文本,并反馈给用户。但通过上述方式反馈的解答文本包含了较多的无用信息,用户无法直观地获得想要的重点信息,存在反馈的答案精确度不高的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高答案精确度的基于解答文本的答案处理方法、装置、计算机设备和存储介质。
一种基于解答文本的答案处理方法,所述方法包括:
获取目标问句以及与所述目标问句匹配的解答文本;
基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
一种基于解答文本的答案处理装置,所述装置包括:
答案类型确定模块,用于获取目标问句以及与所述目标问句匹配的解答文本,基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
定位模块,用于采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
答案提取模块,用于基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标问句以及与所述目标问句匹配的解答文本;
基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标问句以及与所述目标问句匹配的解答文本;
基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
上述基于解答文本的答案处理方法、装置、计算机设备和存储介质,通过获取目标问句以及与目标问句匹配的解答文本,以明确处理对象,实现对匹配的解答文本的进一步处理,基于目标问句的语句特征,确定目标问句对应的答案类型,便于按照不同的答案类型进行针对性的处理,通过采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,能够针对不同答案类型采用不同的答案定位方式实现准确的答案定位,然后基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的准确答案,从而提高了答案的精确性。
一种答案推荐方法,所述方法包括:
显示在问题搜索区域输入的问题;
显示与所述问题匹配的目标问句;
显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
一种答案推荐装置,所述装置包括:
输入问题显示模块,用于显示在问题搜索区域输入的问题;
目标问句显示模块,用于显示与所述问题匹配的目标问句;
答案显示模块,用于显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
显示在问题搜索区域输入的问题;
显示与所述问题匹配的目标问句;
显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
显示在问题搜索区域输入的问题;
显示与所述问题匹配的目标问句;
显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
上述答案推荐方法、装置、计算机设备和存储介质,通过显示在问题搜索区域输入的问题,显示与问题匹配的目标问句,使得用户了解到与匹配到的问句与输入的问题之间的关联性,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,使得用户能够直观地获取到需要了解的与输入的问题相对应的信息,其中,答案的答案类型与目标问句匹配,答案是基于解答文本并按照起始定位对象与结束定位对象提取的,起始定位对象与结束定位对象各自的对象类型与答案类型相匹配,使得在答案提取过程中能够针对不同答案类型实现准确的定位,确保了显示的答案的精确性。
附图说明
图1为一个实施例中基于解答文本的答案处理方法和答案推荐方法的应用环境图;
图2为一个实施例中基于解答文本的答案处理方法的流程示意图;
图3为一个实施例中描述型答案、实体型答案以及判断型答案的示意图;
图4为另一个实施例中基于解答文本的答案处理方法的流程示意图;
图5为一个实施例中序列型答案的示意图;
图6为一个实施例中实体型答案的答案提取流程示意图;
图7为一个实施例中描述型答案的答案提取流程示意图;
图8为另一个实施例中基于解答文本的答案处理方法的流程示意图;
图9为一个实施例中答案推荐方法的流程示意图;
图10为一个实施例中实体型答案的显示界面示意图;
图11为一个实施例中描述型答案的显示界面示意图;
图12为另一个实施例中基于解答文本的答案处理方法的流程示意图;
图13为一个实施例中基于解答文本的答案处理装置的结构框图;
图14为一个实施例中答案推荐装置的结构框图;
图15为一个实施例中计算机设备的内部结构图;
图16为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的方案可以涉及人工智能(Artificial Intelligence,简称为AI)、机器学习(Machine Learning,简称为ML)等技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。基于人工智能和机器学习等技术,能够获取目标问句以及与目标问句匹配的解答文本,基于目标问句的语句特征,确定目标问句对应的答案类型,采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案,从而提高答案的精确性。基于人工智能和机器学习等技术,还能够在终端显示在问题搜索区域输入的问题,显示与问题匹配的目标问句,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,其中,答案的答案类型与目标问句匹配;答案是基于解答文本并按照起始定位对象与结束定位对象提取的;起始定位对象与结束定位对象各自的对象类型与答案类型相匹配,使得在答案提取过程中,能够基于人工智能和机器学习等技术针对不同答案类型实现准确的定位,确保了显示的答案的精确性。
本申请提供的基于解答文本的答案处理方法和答案推荐方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取基于用户在终端102输入的问题得到的目标问句、以及与目标问句匹配的解答文本,服务器104基于目标问句的语句特征,确定目标问句对应的答案类型,采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案,并将提取的答案推送至终端102。
本申请提供的答案推荐方法,也可以应用于如图1所示的应用环境中。在终端102中,显示在问题搜索区域输入的问题,显示与问题匹配的目标问句,显示基于与目标问句匹配的解答文本进行答案提取得到的答案;其中,答案的答案类型与目标问句匹配;答案是基于解答文本并按照起始定位对象与结束定位对象提取的;起始定位对象与结束定位对象各自的对象类型与答案类型相匹配,答案的提取过程可以基于与终端102连接的服务器104或是终端102的处理器来实现。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点。
在一个实施例中,该基于解答文本的答案处理方法所涉及的数据可保存于区块链上,例如目标问句、与目标问句匹配的解答文本、与答案类型对应的答案定位方式所对应的相关参数或相关模型等数据均可保存于区块链上。
在一个实施例中,如图2所示,提供了一种基于解答文本的答案处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取目标问句以及与目标问句匹配的解答文本。
目标问句是需要进行相应的答案提取的对象,目标问句是提出的问题所对应的文本表示。一般来说,一次答案处理过程,所针对的目标问句的数量为1个。对于多个目标问句,可以采用多线程并行处理的方式实现,以提高数据处理效率,也可以采用单线程串行处理的方式实现,以实现资源节约。
解答文本,是用于解答目标问句所提出的问题的文本。解答文本中用于解答目标问句的内容的表达形式具有多样性,例如解答文本同时包括解答问题的内容以及问题的相关扩展内容,扩展内容能够帮助理解问题的答案,但也会影响到用户获取的信息的直观性,例如,在解答文本中,首先针对对应的问题进行了较长篇幅的分析,在问答文本的结尾句给出了问题的答案,但用户在获取到解答文本时,需要通篇浏览解答文本之后,才能明确输入的问题对应的答案。
进一步地,用户通过终端输入需要解答的问题,通过将输入的问题与数据库中的问句进行匹配,将数据库中匹配成功的问句作为目标问句。在数据库中,包括多个由问句和问句对应解答文本组成的问答数据对。当确定了目标问句时,基于该目标问句所在的问答数据对,可以确定与目标问句匹配的解答文本。
其中,数据库中与输入的问题匹配的目标问句,可以是与输入的问题完全一致的问句,也可以是表达意思相同表达方式存在不同的问句,例如,输入的问题为“吃米线胃疼的原因”,与输入的问题匹配的目标问句是“吃米线胃疼是什么原因”。具体地,输入的问题与数据库中问句的匹配可以通过关键字匹配、语义相似度分析等方式实现。
其中,数据库中的问答数据对,可以是从CP(Content Provider,内容提供方)站点获取的CP数据,CP站点是指内容提供方维护的垂直域站点,例如北京本地宝和有来医生等特定领域或垂直域下的权威站点。CP数据是内容提供方提供的CP站点网页数据,这类网页数据的特点是标题为一个问题,网页内容为对该问题的详细解答。通过从CP站点获得的CP数据,从内容上提供了问句和解答文本,在格式上提供了包括问句和解答文本的问答数据对,便于在应用过程中,快速确定与输入的问题匹配的目标问句以及与目标问句匹配的解答文本。
进一步地,与用户输入的问题匹配的目标问句可以是匹配度最高的一个问句,也可以是符合匹配要求的多个问句。针对每一个与用户输入的问题匹配的目标问句,都具有与目标问句匹配的解答问句,均可以采用本申请中的基于解答文本的答案处理方式提取出与目标问句对应的答案。
步骤204,基于目标问句的语句特征,确定目标问句对应的答案类型。
其中,目标问句是一个完整的语句,语句特征用于表征目标问句的语句特点,语句特征具体可以是包括语句中的每一个字符的字符特征的特征组合,也可以是基于语句中的每一个字符的字符特征进行特征融合得到的结果。
语句中的字符可以是通过对语句进行字符切分得到的结果。字符切分可以是字切分,也可以是词切分,具体可以根据实际需要进行切分方式的配置。其中,字切分是指将语句按单个汉字进行切分的数据处理过程。例如,针对“中秋节为什么要吃月饼”这一句话,通过字切分得到的结果为“中/秋/节/为/什/么/要/吃/月/饼”,切分后的字符是单个的字。通过字切分的方式,能够以单个字为单位进行特征分析,获取到更全面的特征表示。
词切分是指将语句按单个词语进行切分的数据处理过程。例如,针对“中秋节为什么要吃月饼”这一句话,通过词切分得到的结果为“中秋节/为什么/要/吃/月饼”,切分后的字符是单个的词语,通过词切分的方式,能够保留每一个词语的固定表达,得到更合理有效的特征表示。
进一步地,基于目标问句的语句特征,可以对目标问句进行分类分析,以确定目标问句对应的答案类型,目标问句的答案类型与目标问句的问句类型相对应。
具体来说,如图3所示,文本框中问题是目标问句,正文是指目标问句对应的解答文本,正文中加粗的字体以及问题后面的括号中的内容,是基于解答文本提取的答案。答案类型包括描述型答案、实体型答案以及判断型答案。其中,描述型答案是指需要详细描述才能回答清楚的问题所对应的答案,一般答案长度超过14个字符。例如“生病的原因”和“疾病的缓解方法”等。实体型答案是指答案的形式为较短的实体片段,例如答案为人名、地名、组织机构名、地址、时间、货币和数字等。判断型答案是指需要通过肯定或否定的词语来进行回答的问题对应的答案。例如“怀孕了能吃西瓜吗”,需要“能”或“不能”来回答。
在一个实施例中,基于目标问句的语句特征,确定目标问句对应的答案类型,包括:对目标问句进行字符切分处理,得到目标问句的语句特征;基于问句分类模型,按照目标问句的语句特征,对目标问句进行分类处理,得到目标问句对应的答案类型。
其中,问句分类模型,是基于标注有答案类型的样本问句进行训练得到的模型。样本问句是指预先按照问句对应答案的答案类型对问句进行分类,并标注有答案类型对应类别标记的问句。
进一步地,样本问句对应的答案类型具体可以分为“实体型答案”、“描述型答案”和“判断型答案”三种类型。在一个实施例中,为了训练问题分类模块,将标注有答案类型对应类别标记的样本问句划分为训练集、开发集(或验证集)和测试集对初始的问句分类模型进行训练。训练集、开发集(或验证集)和测试集分别对应的样本问句的数量具体可以根据需要或是样本问句的总数量进行设定,例如可以按比例设定为训练集:验证集:测试集=6:2:2,或是按比例设定为训练集:验证集:测试集=8:1:1。可以理解,在其他实施例中,也可以将标注有答案类型对应类别标记的样本问句划分为训练集和验证集对初始的问句分类模型进行训练,得到问句分类模型。
在本实施例中,通过问句分类模型对目标问句进行分类,能够利用机器学习快速准确的分析能力,简化分析过程,快速准确得到目标问句对应的答案类型。
步骤206,采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象。
答案定位方式是指定位答案在解答文本中的起始定位对象和结束定位对象所采用的方法,答案定位方式与答案类型对应、例如,答案类型可以分为三类,则可以对应三种不同的答案定位方式,每一种答案定位方式与对应的答案类型相匹配。例如,实体型答案对应实体答案定位方式、描述型答案对应描述答案定位方式、判断型答案对应证据语句定位方式。具体来说,不同的答案定位方式可以基于不同的定位对象类型以及不同的定位分析参数来进行区分。其中,定位对象类型可以分为定位解答文本中的字符或是语句,定位分析参数是在定位分析过程中每一个待定位对象对应的分析参数。
答案定位方式可以通过人工智能的语言模型来实现。具体来说,人工智能的语言模型可以是BERT(Bidirectional Encoder Representations from Transformers,是谷歌发布的预训练语言模型)模型、SDNet(基于上下文注意力机制的深度神经网络模型)等模型中的任意一种。
以BERT模型为例,不同的答案类型对应的答案定位方式,对应的BERT模型具有不同的权重和偏置参数。以使得在针对不同答案类型的解答文本进行对象定位时,能够得到与相应答案类型相匹配的定位结果。
进一步地,以答案类型包括实体型答案、描述型答案以及判断型答案为例,实体型答案对应的答案定位方式的定位对象类型为字符、描述型答案和判断型答案对应的答案定位方式的定位对象类型均为语句。字符是指按照设定的切分方式(如字切分或是词切分)对解答文本进行切分得到的结果。语句是指基于设定的标点符号,对解答文本进行切分得到的结果,预设的标点符号包括逗号、句号、问号以及感叹号等符号中的至少一个。
需要说明的是,描述型答案和判断型答案对应的答案定位方式的定位对象类型相同,但描述型答案和判断型答案对应的答案定位方式的具体对象定位数据处理过程是存在差异的,具体可以体现为具有不同的定位分析参数,从而使得在描述型答案和判断型答案的答案定位过程中,具有不同的数据处理过程。
起始定位对象是指答案在解答文本中的起始点对应的对象,结束定位对象是指答案在解答文本中的结束点对应的对象。例如,实体型答案对应的起始定位对象和结束定位对象均为字符,描述型答案和判断型答案对应的起始定位对象和结束定位对象均为语句。
目标问句对应答案在解答文本中的起始定位对象和结束定位对象,是根据实际的语境分析定位得到的。起始定位对象和结束定位对象可以是不同的对象,也可以是相同的对象。例如,实体型答案对应的起始定位对象和结束定位对象为同一字符,描述型答案对应的起始定位对象和结束定位对象为同一语句,判断型答案对应的起始定位对象和结束定位对象为同一语句。
步骤208,基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案。
其中,答案提取是基于起始定位对象与结束定位对象,从解答文本中将从起始定位对象到结束定位对象的文本提取出来的过程。其中,提取的文本可以是解答文本中的一部分,也可以是解答文本的全部内容。例如,当起始定位对象为解答文本中的第一个字符或第一个语句,结束定位对象为解答文本中的最后一个字符或最后一个语句,提取的文本是解答文本的全部内容。
答案需要符合目标问句对应的答案类型。例如,若目标问句对应的答案类型为实体型答案,则符合答案类型的答案是包括至少一个字符的答案,由于实体型答案对应的起始定位对象与结束定位对象均为字符,因此,从答案提取得到的文本即为符合答案类型的答案。
若目标问句对应的答案类型为描述型答案,则符合答案类型的答案是包括至少一个语句的答案,由于描述型答案对应的起始定位对象与结束定位对象均为语句,因此,从答案提取得到的文本即为符合答案类型的答案。
若目标问句对应的答案类型为判断型答案,则符合答案类型的答案包括证据语句和判断结果,由于描述型答案对应的起始定位对象与结束定位对象均为语句,因此,从答案提取得到的文本为证据语句,符合答案类型的答案还包括与证据语句对应的判断结果。其中,判断结果可以基于证据语句分析得到,也可以基于解答文本分析得到,具体可以根据需要进行选择。
上述基于解答文本的答案处理方法,通过获取目标问句以及与目标问句匹配的解答文本,以明确处理对象,实现对匹配的解答文本的进一步处理,基于目标问句的语句特征,确定目标问句对应的答案类型,便于按照不同的答案类型进行针对性的处理,通过采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,能够针对不同答案类型采用不同的答案定位方式实现准确的答案定位,然后基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的准确答案,从而提高了答案的精确性。
在一个实施例中,如图4所示,基于解答文本的答案处理方法还包括步骤402。
步骤402,当解答文本中存在与序列型模板匹配的关键字时,基于解答文本,按照关键字进行答案提取,得到与目标问句对应的答案;
其中,序列型模板是指序列型答案中答案的表现形式。序列型答案是用多个连续的序号分别表示每一个语句的起始位置的文本。序列型模板中的关键字可以是序号表征符,序号表征符具有多种表现方式,例如,用一|二|三|四|五|六|七|八|九|…、或是①|②|③|④|⑤|⑥|⑦|⑧|⑨|…、或是1|2|3|4|5|6|7|8|9|…等方式来表示。
进一步地,列表型模板中包括序号表征符,还可以包括其他待匹配内容,例如序列型模板具体可以是以下形式的模板:
第一种:(?:①|②|③|④|⑤|⑥|⑦|⑧|⑨).+?[。.,,;;、!!]
第二种,第(?:一|二|三|四|五|六|七|八|九)步.+?
其中,“(?:a|b)”表示文本中存在匹配a或b的模式,“.+?”表示匹配任意字符至少一次,“[abc]”表示文本中存在匹配字符集abc中任意字符的模式。例如“缓解焦虑的方法有如下几种:第一步深呼吸,第二步早休息,第三步…”能够匹配第二种序列型模板。如图5所示的例子,即为一个序列型答案,“目标问句为:基础护肤的顺序是什么?解答文本为:1、卸妆:晚上护肤要先把妆卸掉;2、清洁:接着用洗面奶洗脸;3、补水:洗干净后涂上爽肤水即可;4、眼霜:用食指沾上眼霜涂到眼睛周围,画圈按摩到眼部吸收;5、精华:把精华液挤到手上,再从T区开始把精华涂满脸部;6、乳液:把乳液挤到手上,从下往上拍打即可;7、防晒:建议白天都要涂抹防晒霜。”基于列表型模板,提取的答案可以是1、卸妆;2、清洁;3、补水;4、眼霜;5、精华;6、乳液;7、防晒。
按照关键字匹配到的内容进行答案提取,得到列表型答案。通过将解答文本与序列型模板进行匹配,能够快速确定目标问句的答案是否为序列型答案,从而实现答案的快速提取。
基于目标问句的语句特征,确定目标问句对应的答案类型,即步骤204包括步骤404。
步骤404,当解答文本中不存在与序列型模板匹配的关键字时,基于目标问句的语句特征,确定目标问句对应的答案类型。
由于序列型答案的提取过程相较与基于不同的答案类型进行答案定位和提取的方式更为简单。当解答文本中存在与序列型模板匹配的关键字,直接基于与序列型模板匹配的关键字进行答案提取,得到目标问句对应的答案,不需要执行基于不同的答案类型进行答案定位和提取的过程。
在本实施例中,通过将基于目标问句的语句特征,确定目标问句对应的答案类型的执行条件限定为解答文本中不存在与序列型模板匹配的关键字,使得只有当判定了答案不为序列型答案的前提下,才会基于不同的答案类型进行答案定位和提取,能够简化数据处理过程。
在一个实施例中,序列型答案作为描述型答案中的一种特殊情况,也可以基于目标问句的语句特征,确定目标问句对应的答案类型,当答案类型为描述型答案时,判断解答文本中是否存在与序列型模板匹配的关键字,若判断结果为是,则基于解答文本,按照关键字进行答案提取,得到与目标问句对应的序列型答案。若判断结果为否,则采用与描述型答案对应的答案定位方式,确定目标问句对应答案在解答文本中的起始定位语句和结束定位语句,基于解答文本,按照起始定位语句与结束定位语句,进行答案提取,得到与目标问句对应的描述型答案。
在本实施例中,通过限定描述型答案对应的答案定位方式的应用条件,能够将描述型答案单独进行提取,以确保描述型答案的准确提取,并且能够提高描述型答案的提取速度。
在一个实施例中,基于所述目标问句的语句特征,确定所述目标问句对应的答案类型包括:基于所述目标问句的语句特征,确定所述目标问句对应的答案类型、以及所述目标问句对应的信息类别;
所述采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象,包括:采用与所述答案类型以及所述信息类别对应的答案提取模型,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;其中,所述答案提取模型,是基于对应信息类别中标注有对应答案类型的解答文本进行训练得到的模型。
其中,信息类别具体可以是细分的多个垂直领域。例如健康、本地生活服务、游戏等。垂直领域是指在一个大领域下,垂直细分出的小领域。垂直指纵向延伸,而不是横向扩展,细分则是在垂直行业板块里面,再挑选主要的业务深度发展,比如健康是一个垂直领域,然后在其下面,可以延伸出更具体的二级领域,例如养生、疾病、医疗等。
进一步地,通过对训练样本进行按信息类别进行分类后,可以针对在每一个信息类别,对多个答案类型的答案提取模型进行训练,以得到与信息类别对应的多个答案提取模型。例如,针对健康这一信息类别,可以基于医疗信息类别的问答数据对中,不同答案类别的样本问句所对应的解答文本,训练得到实体型答案、描述型答案以及判断型答案分别对应的答案提取模型。其他信息类别的处理过程与健康这一信息类别相同,不再赘述。
进一步地,在应用过程中,先基于目标问句的语句特征,确定其对应的信息类别以及答案类型,从而基于与该信息类别中与答案类型匹配的答案提取模型,确定起始定位对象和结束定位对象,从而基于解答文本,按照起始定位对象和结束定位对象进行答案提取,得到与目标问句对应且符合答案类型的答案。
在本实施例中,通过按不同的信息类别进行处理,能够基于信息类别实现更为精准可靠的答案定位,得到精准的答案。
在一个实施例中,采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,包括:
获取拼接字符序列;对拼接字符序列中的每个字符进行特征提取,基于答案定位方式对应的定位对象类型,确定解答文本中的候选定位对象的隐含特征;
基于解答文本中的候选定位对象的隐含特征,采用与答案类型对应的答案定位方式,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象。
其中,拼接字符序列包括目标问句对应的字符序列、解答文本对应的字符序列以及多个分隔符;分隔符用于标识每个字符序列的起始位置或结束位置。
具体地,分隔符包括[CLS]和[SEP],拼接字符序列中包括一个[CLS]和两个[SEP]。[CLS]为拼接字符序列中的第一个字符,用于表示目标问句对应的字符序列的起始位置。在[CLS]之后紧接着的是目标问句中的各个字符按顺序排列构成的字符序列,目标问句中的各个字符是按照预设的切分方式切分得到的字符,可以是单个字,也可以是多个字组成的词。第一个[SEP]分隔符,位于目标问句对应字符序列中的最后一个字符与解答文本对应字符序列中的第一个字符的中间,第二个[SEP]分隔符,位于解答文本对应字符序列中的最后一个字符的后面。
举例来说,目标问句的字符序列用(x1,x2,...,xM)表示,解答文本的字符序列用(y1,y2,...,yN)表示。然后,对于拼接得到的拼接字符序列可以表示为:
[CLS],x1,...,xM,[SEP],y1,...,yN,[SEP]
进一步地,拼接字符序列中的每个字符会通过编码矩阵转换为相应的字符特征。接着,将每一个字符对应的字符特征输入到一个预训练的双向语言模型BERT中提取每个字符对应的隐含特征,隐含特征是结合每一个字符的上下文特征通过特征提取得到的多维特征表示。
具体地,可以采用以下公式计算每个字符的隐含特征,最终得到输出矩阵H∈R(M +N+3)×d
H=BERT([CLS],x1,...,xM,[SEP],y1,...,yN,[SEP])
其中M和N分别表示目标问句和解答文本中切分的字符个数,[CLS]和[SEP]表示特殊的分隔符号,d表示BERT隐含层的维度,每个字符对应的隐含特征为d维的特征。
进一步地,定位对象类型包括字符以及包括多个字符的语句。若答案定位方式对应的定位对象类型为字符,则解答文本中的候选定位对象为解答文本中每一个字符,若答案定位方式对应的定位对象类型为语句,则解答文本中的候选定位对象为解答文本中每一个语句。
在对拼接字符序列中的每个字符进行特征提取之后,可以得到拼接字符序列中的每个字符的隐含特征,对于答案定位方式对应的定位对象类型为字符的情况,由于拼接字符序列中包括目标问句的字符、分隔符以及解答文本对应字符,通过字符筛选,可以直接得到解答文本中的候选字符的隐含特征。对于答案定位方式对应的定位对象类型为语句的情况,可以基于解答文本中的候选语句包含的字符,通过特征融合,得到候选语句的隐含特征。
在本实施例中,基于解答文本中的候选定位对象的隐含特征,能够跟全面准确地表征各个候选对象的特征,从而能够实现准确的定位,提高确定的起始定位对象和结束定位对象的准确性。
在一个实施例中,基于解答文本中的候选定位对象的隐含特征,采用与答案类型对应的答案定位方式,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,包括:
基于每一候选定位对象对应的隐含特征,按照与答案类型对应的对象定位参数和与答案类型对应的损失函数,确定每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率;
基于每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始定位对象和结束定位对象。
其中,不同答案类型对应的答案定位方式具有不同的处理参数,处理参数具体包括对象定位参数和损失函数,其中,对象定位参数包括权重和偏置参数。答案定位方式具体可以通过神经网络模型来实现。权重和偏置参数,可以是通过训练样本对相应的神经网络模型进行训练得到的参数。
基于每一候选定位对象对应的隐含特征,按照与答案类型对应的对象定位参数和与答案类型对应的损失函数,可以计算出每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率。
以实体型答案为例,如图6所示,为实体型答案的答案提取流程示意图。其中,第i个token预测为起始定位对象的概率以及为结束定位对象的概率由下面的公式计算得到:
Figure BDA0003001600760000171
Figure BDA0003001600760000172
其中,
Figure BDA0003001600760000173
表示实体类答案的答案提取模型的权重和偏置参数,sshort和eshort分别表示实体类答案的起始定位对象的位置和结束定位对象的位置,softmax(*)是归一化函数。实体类答案的损失函数由下面公式得到:
Figure BDA0003001600760000174
其中,
Figure BDA0003001600760000175
表示指示函数,只有当括号中条件成立时该函数的值才为1,否则为0。
在本实施例中,通过隐含特征、对象定位参数和损失函数,能够计算出每一个字符作为起始定位对象的概率以及为结束定位对象的概率,从而准确地得到解答文本中的起始定位对象和结束定位对象。
在一个实施例中,答案类型为包括至少一个字符的实体型答案;实体型答案所对应的定位对象类型为字符。对拼接字符序列中的每个字符进行特征提取,基于答案定位方式对应的定位对象类型,确定解答文本中的候选定位对象的隐含特征,包括:
对拼接字符序列中的每个字符进行特征提取和字符筛选,得到解答文本中的每个字符的隐含特征。
进一步地,对拼接字符序列中的每个字符进行编码矩阵转换,得到拼接字符序列中每个字符对应的字符特征;基于每个字符对应的字符特征,通过特征提取和字符筛选,得到解答文本中每个候选字符的隐含特征。
其中,编码矩阵转换是按照编码矩阵对字符进行编码,得到字符对应的字符特征的数据处理过程。特征提取是指基于每一个字符在拼接字符序列中的位置,通过上下文分析,得到多维的隐含特征的过程。例如,将拼接字符序列中每一个字符的字符特征通过BERT模型进行分析处理,得到每一个字符对应的d维隐含特征,d是BERT模型中隐含层的维度。字符筛选是指从拼接字符序列的多个字符中筛选出解答文本中各个候选字符的过程,以得到解答文本中每个候选字符的隐含特征。
进一步地,基于每一字符对应的隐含特征,按照与实体型答案对应的对象定位参数和与实体型答案对应的损失函数,确定每一字符为起始定位对象的概率以及为结束定位对象的概率,基于每一字符为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始字符和结束字符,从而得到从起始字符到结束字符的文本,即为目标问句对应的实体型答案。
在本实施例中,通过对字符进行编码矩阵转换、特征提取和字符筛选,能够得到解答文本中每个候选字符对应的全面准确的隐含特征,便于实现准确地定位起始字符和结束字符,得到目标问句对应的准确实体型答案。
在一个实施例中,答案类型为包括至少一个语句的描述型答案;描述型答案所对应的定位对象类型为语句;对拼接字符序列中的每个字符进行特征提取,基于答案定位方式对应的定位对象类型,确定解答文本中的候选定位对象的隐含特征,包括:
对拼接字符序列中的每个字符进行特征提取和字符筛选,得到解答文本中的每个字符的隐含特征;
针对解答文本中每个字符,基于相应的隐含特征,依次进行多层感知处理和基于打分函数的打分处理,得到每个字符对应的多层感知特征和打分结果;
针对解答文本中的每一候选语句,基于对应候选语句包含的每一个字符所对应的多层感知特征和打分结果,进行特征融合,得到每一候选语句对应的隐含特征。
其中,多层感知处理是指基于多层感知机进行的特征处理。打分函数是针对特定的对象进行评分的函数。在抽取描述型答案时,解答文本可以表示为由逗号、句号、问号和感叹号分隔的语句集合。如图7所示,对于语句中的每个字符,在BERT层采用公式H=BERT([CLS],x1,...,xM,[SEP],y1,...,yN,[SEP])得到其隐含特征之后,通过句子表征层对每个语句中的字符对应的隐含特征进行融合,得到每个语句的隐含特征。最后,基于答案预测层,按照每个语句的隐含特征进行起始语句和结束语句的定位,得到从起始语句到结束语句的文本,即为目标问句对应的描述型答案。
具体来说,基于字符对应的隐含特征的融合得到语句的隐含特征,可以采用多种不同的方法实现。例如自注意力机制、最大池化和平均池化等。下面以自注意力机制为例进行说明。
对于解答文本中第p个语句(yp,1,yp,2,...,yp,N),通过BERT层计算隐含特征后,假设该语句中各个字符的隐含特征为(ep,1,ep,2,...,ep,N)。通过如下公式进行多层感知处理,并用打分函数估计语句中每个字符的重要性程度:
ap,i=MLP(ep,i)
scorep,i=softmax(ap,i)
其中,MLP表示多层感知机。第p个短句的隐含特征通过以下公式得到:
Figure BDA0003001600760000191
在本实施例中,通过多层感知处理和基于打分函数的打分处理,准确实现语句中各个字符的特征融合,进而准确得到每一候选语句对应的隐含特征。
进一步地,基于每一候选语句对应的语句特征,按照与描述型答案对应的对象定位参数和与描述型答案对应的损失函数,确定每一候选语句为起始定位对象的概率以及为结束定位对象的概率,基于每一语句为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始语句和结束语句,从而准确地得到与目标问句对应的描述型答案。
具体来说,对于描述型答案,可以采用以下公式得到每一候选语句为起始定位对象的以及为结束定位对象的概率分布:
Figure BDA0003001600760000192
Figure BDA0003001600760000193
其中,
Figure BDA0003001600760000194
表示描述型答案预测模块的权重和偏置参数,slong和elong表示描述型答案的起始语句位置和结束语句位置。描述型答案的答案提取模型的损失函数定义为:
Figure BDA0003001600760000195
其中,P表示解答文本中语句的总数。
在一个实施例中,答案类型为判断型答案;判断型答案包括判断结果以及证据语句;基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案,包括:
基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的证据语句。
基于拼接字符序列中目标分隔符所对应的隐含特征,按照与判断结果对应的损失函数,对解答文本进行分类,得到与解答文本对应的判断结果;其中,目标分隔符,是拼接字符序列中用于标识目标问句对应字符序列的起始位置的分隔符。
证据语句,是解答文本中表征目标问句的答案判断结果的语句。判断结果,是基于解答文本得到的对目标问题的进行答案判断处理得到的结果。例如,目标问句为“哺乳期吃八角会回奶吗”,解答文本中的证据语句为“不回奶的”,与判断证据语句对应的判断结果为“不会”。
进一步地,判断结果包括肯定结果和否定结果,例如“会”和“不会”,“能”和“不能”,“可以”和“不可以”等。其中,“会”“能”“可以”等表示肯定意思的表达为肯定结果,“不会”“不能”“不可以”等表示否定意思的表达为否定结果。此外,判断结果还可以包括不确定结果,例如“不确定”、“无答案”等。
证据语句的提取方式与描述型答案的提取方式类似,两者的区别在于,在进行起始语句和结束语句的定位过程中,采用的是不同的对象定位参数。判断型答案的对象定位参数是基于判断型答案对应的训练样本对答案提取模型进行训练得到的,从而使得定位的起始语句和结束语句能够与判断型答案对应。
目标分隔符可以是拼接字符序列中的第一个字符。通过BERT模型对拼接字符序列中每一个字符进行特征提取,使得拼接字符序列中的目标分隔符,能够学习到整个拼接字符序列的特征信息,从而能够实现对解答文本的分类,得到与解答文本对应的判断结果。基于与判断结果对应的损失函数进行分类,能够确保得到的判断结果的准确性。
在一个实施例中,判断型答案所对应答案定位方式的定位对象类型为语句;基于解答文本中的候选定位对象的隐含特征,采用与答案类型对应的答案定位方式,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象,包括:
基于解答文本中每一候选语句对应的隐含特征,按照与判断型答案对应的对象定位参数和与证据语句对应的损失函数,确定每一候选语句为起始定位对象的概率以及为结束定位对象的概率;基于每一候选语句为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始定位对象和结束定位对象。
其中,判断型答案包括证据语句和判断结果,得到证据语句和得到判断结果所采用的也是不同的损失函数。其中,证据语句对应的损失函数与描述型答案对应的损失函数可以是一样的,判断结果对应的损失函数可以是描述型答案对应的损失函数与判断型答案的分类模型预测为正确答案的负对数似然的结合。
具体来说,在抽取判断型答案时,除了要抽取出判断型答案的证据语句,还要给出问句精确的判断结果,“是”、“否”和“不确定”的答案。因此,对于判断型答案,除了使用和描述型答案对应的答案提取模型相同的方式抽取证据语句之外,还通过分类模型给出其精准的判断结果。具体而言,判断型答案的判断结果的标签由以下公式得到:
p(answer)=softmax(MLP(ecls))
其中,ecls表示BERT中[CLS]符号的隐含特征。
判断结果的损失函数由以下公式定义:
Lboolean=Llong+Lclassify
其中,Lclassify=-logp(answer=aboolean)是判断型答案的分类模型预测为正确答案aboolean的负对数似然。
在一个实施例中,获取目标问句以及与目标问句匹配的解答文本,包括:获取与输入的问题匹配的待处理问句;基于问句筛选条件对待处理问句进行筛选处理,得到符合问句筛选条件的目标问句以及与目标问句匹配的解答文本。
其中,输入的问题可以是用户在问题搜索区域输入的问题,与输入的问题匹配的待处理问句,是从数据库中查找到的与输入的问题匹配符合匹配条件的问句。匹配条件具体可以是输入的问题与数据库中问句的相似度符合设定的相似度阈值范围等。
问句筛选条件是对待处理问句进行筛选,以判断是否适用执行基于解答文本进行答案提取的数据处理过程的判断条件。当待处理问句不符合问句筛选条件时,不对该问题对应的解答文本进行答案提取,例如直接将与待处理问句以及与待处理问句匹配的解答文本进行显示。但待处理问句符合问句筛选条件时,将待处理问句作为目标问句,并获取与目标问句匹配的解答文本,以基于解答文本进行答案提取。
进一步地,问句筛选条件包括问句长度条件和问答意图条件中的至少一种;问句长度条件,是待处理问句的字符长度满足长度阈值范围,问答意图条件,是待处理问句具有问答的意图,并且待处理问句中的意图个数满足数量阈值范围。
具体来说,基于问句筛选条件,可通过如下几个过滤策略进行问句筛选:
(1)问题过长:如果待处理问句中字数超过30个字符则需要过滤。
(2)问题过短:如果待处理问句中字数少于5个字符则需要过滤。
(3)问题不包含问答意图:例如“跳一跳”不确定与问句匹配的答案是关于“跳一跳”的什么内容,因此需要被过滤掉。
(4)问题包含多个意图。例如“糖尿病的原因是什么怎么治疗”这个问题包含“问原因”和“问治疗方法”两个意图,因此需要被过滤掉。
在一个实施例中,基于解答文本的答案处理方法还包括问句分类模型以及与答案类型对应的答案提取模型的训练过程。
问句分类模型的训练过程包括:获取标注有答案类型对应标签的样本问句,基于样本问句,对初始的问句分类模型进行训练,得到问句分类模型。
其中,问句分类模型可以是三分类模型,基于训练后的问句分类模型,可以将输入的问句按问题类型分为实体型答案、描述型答案以及判断型答案对应的问句。
具体来说,为了训练问句分类模块,标注了20000条CP数据中的问句作为训练的样本问句。
其中,每类数据的规模如表1所示:
训练集 开发集 测试集
实体型答案 3271 822 877
描述型答案 7309 1854 1835
判断型答案 2900 699 677
表1训练数据中每类数据的规模
基于训练集、开发集以及测试集,对初始的问句分类模型进行训练,得到问句分类模型。具体来说,问句分类模型可以采用FastText(一种神经网络模型)工具包实现。例如,首先对获取的CP数据的文章标题(即问句)采用了QQseg(一种分词工具)分词工具进行词切分,然后基于标注的样本数据训练FastText三分类模型。如果模型预测相应标签的概率为0.7以上,则保留该样本问句,并为该样本问句对应的解答文本打上相应的答案类型标签,以便后续进行与答案类型匹配的答案提取模型的训练。
与答案类型匹配的答案提取模型的训练过程包括:
基于问句分类模型对样本问句的分类结果以及问句与解答文本的匹配关系,得到每一答案类型对应的样本解答文本;针对每一答案类型的样本解答文本,对初始的答案提取模型进行训练,得到每一答案类型对应的答案提取模型,其中,每一答案类型对应的答案提取模型包括与相应答案类型对应的对象定位参数。
在本实施例中,基于样本数据,训练得到问句分类模型以及与答案类型对应的答案提取模型,使得各个模型具有相应的模型参数,从而实现准确的问句分类以及答案提取。
在一个实施例中,如图8所示,提供了一种基于解答文本的答案处理方法,包括以下步骤802至步骤834。
步骤802,获取与输入的问题匹配的待处理问句,基于问句筛选条件对待处理问句进行筛选处理,得到符合问句筛选条件的目标问句以及与目标问句匹配的解答文本。
步骤804,当解答文本中存在与序列型模板匹配的关键字时,基于解答文本,按照关键字进行答案提取,得到与目标问句对应的答案。
步骤806,当解答文本中不存在与序列型模板匹配的关键字时,对目标问句进行字符切分处理,得到目标问句的语句特征。
步骤808,基于问句分类模型,按照目标问句的语句特征,对目标问句进行分类处理,得到目标问句对应的答案类型,其中,问句分类模型,是基于标注有答案类型的样本问句进行训练得到的模型。
步骤810,获取拼接字符序列;拼接字符序列包括目标问句对应的字符序列、解答文本对应的字符序列以及多个分隔符;分隔符用于标识每个字符序列的起始位置或结束位置。
步骤812,对拼接字符序列中的每个字符进行编码矩阵转换,得到拼接字符序列中每个字符对应的字符特征。
步骤814,当答案类型为包括至少一个字符的实体型答案时,基于每个字符对应的字符特征,通过特征提取和字符筛选,得到解答文本中每个候选字符的隐含特征。
步骤816,基于每一候选字符对应的隐含特征,按照与实体型答案对应的对象定位参数和与实体型答案对应的损失函数,确定每一候选字符为起始字符的概率以及为结束字符的概率,得到解答文本中的起始字符和结束字符。
步骤818,基于解答文本,按照起始字符和结束字符进行答案提取,得到与目标问句对应实体型答案。
步骤820,当答案类型为包括至少一个语句的描述型答案时,针对解答文本中每个字符,基于相应的隐含特征,依次进行多层感知处理和基于打分函数的打分处理,得到每个字符对应的多层感知特征和打分结果。
步骤822,针对解答文本中的每一候选语句,基于对应候选语句包含的每一个字符所对应的多层感知特征和打分结果,进行特征融合,得到每一候选语句对应的隐含特征。
步骤824,基于每一候选语句对应的隐含特征,按照与描述型答案对应的对象定位参数和与描述型答案对应的损失函数,确定每一候选语句为起始语句的概率以及为结束语句的概率,得到解答文本中的起始语句和结束语句。
步骤826,基于解答文本,按照起始语句和结束语句进行答案提取,得到与目标问句对应的描述型答案。
步骤828,当答案类型为包括判断结果以及证据语句的判断型答案时,针对解答文本中每个字符,基于相应的隐含特征,依次进行多层感知处理和基于打分函数的打分处理,得到每个字符对应的多层感知特征和打分结果。
步骤830,针对解答文本中的每一候选语句,基于对应候选语句包含的每一个字符所对应的多层感知特征和打分结果,进行特征融合,得到每一候选语句对应的隐含特征。
步骤832,基于每一候选语句对应的隐含特征,按照与判断型答案对应的对象定位参数和与判断型答案对应的损失函数,确定每一候选语句为起始语句的概率以及为结束语句的概率,得到解答文本中从起始语句到结束语句的证据语句。
步骤934,基于拼接字符序列中目标分隔符所对应的隐含特征,按照与判断结果对应的损失函数,对解答文本进行分类,得到与解答文本对应的判断结果;其中,目标分隔符,是拼接字符序列中用于标识目标问句对应字符序列的起始位置的分隔符。
在一个实施例中,如图9所示,提供了一种基于解答文本的答案处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤902至步骤906。
步骤902,显示在问题搜索区域输入的问题。
其中,问题搜索区域是终端提供搜索功能的应用程序或是网页中的搜索栏对应的区域。用户可以在问题搜索区域输入问题,通过搜索确认操作,发起搜索处理请求,并得到与输入的问题相匹配的搜索结果。例如,浏览器提供的问题搜索区域,微信中搜一搜功能对应的问题搜索区域等。
进一步地,问题搜索区域在页面中的显示位置可以基于应用程序或是网页的页面参数来确定,在此不作限定。例如,在页面顶端显示问题搜索区域,比如顶端的菜单栏区域,再例如,在应用程序的首页的固定位置显示问题搜索区域等。
步骤904,显示与问题匹配的目标问句。
目标问句,是基于输入的问题搜索得到的与问题具有匹配关系的问句。具体可以是与输入的问题完全一致的问句,也可以是表达意思相同表达方式存在不同的问句,例如,输入的问题为“吃米线胃疼的原因”,与输入的问题匹配的目标问句是“吃米线胃疼是什么原因”。具体地,输入的问题与问句的匹配可以通过关键字匹配、语义相似度分析等方式实现。
进一步地,目标问句的显示区域可以与问题搜索区域对应。例如,在问题搜索区域的下方或是其他设定位置显示目标问句。
进一步地,目标问句的显示方式具体可以包括,将目标问句中与用户输入的问题中相同的字符用预设格式进行显示,预设格式具体可以通过设定字体、颜色、大小、字形、加底色、加下划线等方式中的至少一种来实现,其中,字形可以是字体加粗、字体倾斜等。通过设定目标问句的显示方式,能够准确直观地表示出目标问句与输入的问题的匹配程度,以使得用户快速了解和判断出与目标问句的答案是否为输入的问题对应的答案。
步骤906,显示基于与目标问句匹配的解答文本进行答案提取得到的答案。其中,答案的答案类型与目标问句匹配;答案是基于解答文本并按照起始定位对象与结束定位对象提取的;起始定位对象与结束定位对象各自的对象类型与答案类型相匹配。
其中,解答文本是用于解答目标问句所提出的问题的文本。解答文本中用于解答目标问句的内容的表达形式具有多样性,例如解答文本同时包括解答问题的内容以及问题的相关扩展内容,扩展内容能够帮助理解问题的答案,但也会影响到用户获取的信息的直观性,例如,在解答文本中,首先针对对应的问题进行了较长篇幅的分析,在问答文本的结尾句给出了问题的答案,但用户在获取到解答文本时,需要通篇浏览解答文本之后,才能明确输入的问题对应的答案。
答案是基于解答文本得到的与目标问题对应的答案类型相匹配的结果,答案可以是解答文本中的至少一部分,也可以是基于解答文本进行信息提取得到的结果。例如,实体型答案包括解答文本中的至少一个字符;描述型答案包括解答文本中的至少一个语句;判断型答案包括基于解答文本得到的判断结果,还可以包括解答文本中与判断结果对应的证据语句。
答案对应的起始定位对象与结束定位对象是与答案类型对应的。答案的提取是基于起始定位对象与结束定位对象,确定解答文本中将从起始定位对象到结束定位对象的文本。其中,提取的文本可以是解答文本中的一部分,也可以是解答文本的全部内容。例如,当起始定位对象为解答文本中的第一个字符或第一个语句,结束定位对象为解答文本中的最后一个字符或最后一个语句,提取的文本是解答文本的全部内容。
答案需要符合目标问句对应的答案类型。例如,若目标问句对应的答案类型为实体型答案,则符合答案类型的答案是包括至少一个字符的答案,由于实体型答案对应的起始定位对象与结束定位对象均为字符,因此,从答案提取得到的文本即为符合答案类型的答案。
若目标问句对应的答案类型为描述型答案,则符合答案类型的答案是包括至少一个语句的答案,由于描述型答案对应的起始定位对象与结束定位对象均为语句,因此,从答案提取得到的文本即为符合答案类型的答案。
若目标问句对应的答案类型为判断型答案,则符合答案类型的答案包括证据语句和判断结果,由于描述型答案对应的起始定位对象与结束定位对象均为语句,因此,从答案提取得到的文本为证据语句,符合答案类型的答案还包括与证据语句对应的判断结果。其中,判断结果可以基于证据语句分析得到,也可以基于解答文本分析得到,具体可以根据需要进行选择。
进一步地,答案的显示方式,具体可以是,显示标记有答案的解答文本,也可以是将答案与解答文本分开显示,还可以是将答案与标记有答案的解答文本分开显示。具体的显示方式可以根据实际需要统一进行配置,也可以根据按照答案类型进行配置。
进一步地,答案的显示位置,具体可以是问答文本推荐区域中的顶部区域,通过置顶显示答案,可以便于用户直观地获取到输入的问题对应的答案。
上述答案推荐方法,通过显示在问题搜索区域输入的问题,显示与问题匹配的目标问句,使得用户了解到与匹配到的问句与输入的问题之间的关联性,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,使得用户能够直观地获取到需要了解的与输入的问题相对应的信息,其中,答案的答案类型与目标问句匹配,答案是基于解答文本并按照起始定位对象与结束定位对象提取的,起始定位对象与结束定位对象各自的对象类型与答案类型相匹配,使得在答案提取过程中能够针对不同答案类型实现准确的定位,确保了显示的答案的精确性。
在一个实施例中,答案推荐方法包括:
显示在问题搜索区域输入的问题;
显示问答文本推荐区域;
在问答文本推荐区域中,排序显示问句展示子区域、答案展示子区域以及解答文本展示子区域;
在问句展示子区域中,显示与输入的问题匹配的目标问句;
在解答文本展示子区域,显示与目标问句匹配的解答文本;
在答案展示子区域中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案。
通过将输入的问题、目标问句、答案以及解答文本分区域进行展示,可以便于用户直观地获取到各项信息,提高信息获取的便捷性。
进一步地,问答文本推荐区域可以是排序显示的多个问答文本推荐区域,每一个问答文本推荐区域对应一个与输入的问题匹配的目标问句,在每一个问答文本推荐区域中,排序显示问句展示子区域、答案展示子区域以及解答文本展示子区域。通过显示多个问答文本推荐区域,能够使得用户快速便捷地了解到多个与输入的问题匹配的目标问句、对应的答案以及对应的解答文本,实现答案的快速准确获取。
在一个实施例中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,包括:
显示答案展示区域和解答文本展示区域;在答案展示区域中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案;在解答文本展示区域中,显示解答文本或解答文本中的至少一部分文本。其中,解答文本中的至少一部分文本,包括基于与目标问句匹配的解答文本进行答案提取得到的答案。
通过将解答文本与答案分开展示,能够使用户准确直观地得到与输入的问题对应的答案,在需要查看更为详细的信息时,可以基于解答文本进行查看,提高了答案获取的直观性和准确性。
其中,在解答文本展示区域中,显示解答文本,能够便于用户对解答文本进行查看,而且不需要对解答文本进行处理,节约了数据处理资源。在解答文本展示区域中,显示解答文本中包括答案的至少一部分文本,能够使用户了解到展示的答案是从解答文本中获取的,如果有需要,可以通过解答文本查看更为详细的信息。
在一个实施例中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,包括:
显示解答文本展示区域;在解答文本展示区域中,显示与目标问句匹配的解答文本中的至少一部分文本;
其中,解答文本中的至少一部分文本,包括基于与目标问句匹配的解答文本进行答案提取得到的答案。
通过显示解答文本中包括答案的至少一部分文本,一方面,能够使用户了解到展示的答案是从解答文本中获取的,如果有需要,可以通过解答文本查看更为详细的信息。另一方面,节省了展示答案所占用的空间,以使得能够展示更多与输入的问题匹配的目标问句对应的答案。
在一个实施例中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案,包括:
若答案类型为实体型答案,则显示与目标问句匹配的解答文本,并显示基于解答文本进行答案提取得到的实体型答案。
若答案类型为描述型答案,则显示与目标问句匹配的解答文本中的至少一部分文本,至少一部分文本包括基于解答文本进行答案提取得到的描述型答案。
若答案类型为判断型答案,则显示与目标问句匹配的解答文本中的至少一部分文本,至少一部分文本包括基于解答文本进行答案提取得到的证据语句,并显示与证据语句对应的判断结果。
在本实施例中,针对不同的答案类型,利用答案的特点,采用了不同的答案显示方式,能够实现更为合理有效的答案展示,如图10所示,对于实体型答案,由于答案的字符数一般相对较少,通过将实体型答案与解答文本分来进行显示,能够使得用户直观准确地获取到与输入的问题对应的答案,如图11所示,对于描述型答案,由于答案的篇幅相对较长,通过显示解答文本中包括答案的至少一部分文本,能够减小所需占用的空间,避免信息的冗余展示。对于判断型答案,由于判断结果相对简洁,通过将判断结果与证据语句分开显示,一方面,能够使得用户直观准确地获取到与输入的问题对应的答案,另一方面,能够通过显示解答文本中包括证据语句的至少一部分文本,向用户展示判断结果相对应的描述,增加用户对判断结果的信赖度。
本申请还提供一种应用场景,该应用场景应用上述的基于解答文本的答案处理方法和答案推荐方法。具体地,该基于解答文本的答案处理方法和答案推荐方法在该应用场景的应用如下:
以微信的搜一搜功能为例,主要包括数据过滤模块、序列抽取模块、问题分类模块和答案抽取模块。在应用之前,各个模块需要基于样本数据进行参数训练。
从CP站点获取CP数据,每一组CP数据为一个样本,CP数据包括一个问题和一个与问题对应的段落,该问题即为问句,该段落即为与问句对应的解答文本。如图12所示,首先,过滤模块会过滤CP数据中问题不含问答意图的样本。然后,列表抽取模块会判断段落中是否存在序列表达。如果存在序列表达,列表抽取模块会通过模板匹配的方式抽取其中的序列型答案。值得注意的是,序列型答案是描述型答案的一种特例,因为存在比较明显的特征所以单独对其进行处理。如果不存在序列型答案,问题分类模块则按照答案类型对CP数据进行分类。分类结束后,答案抽取模块会按照问题类型的不同采用不同的抽取策略。下面详细描述各个模块。
一、数据过滤模块
数据过滤模块主要用于过滤低质量的CP站点数据。具体而言,可通过如下几个过滤策略:问题过长:如果CP数据中的问题字数超过30个字符则需要过滤。问题过短:如果CP数据中的问题字数少于5个字符则需要过滤。问题包含多个意图。例如“糖尿病的原因是什么怎么治疗”这个问题包含“问原因”和“问治疗方法”两个意图,因此需要被过滤掉。在过滤结束后,从微信搜一搜提供的1200w CP站点数据中保留了1046w包含问答意图的数据。
二、序列抽取模块
序列抽取模块用于抽取序列型答案,需要注意的是序列型答案是描述型答案的一种特例,所以可以通过特征匹配的方式进行抽取。下面给出了几个匹配模式实例。值得注意的是,实际应用所使用的匹配模版并不限于本申请给出的匹配模式:
(1)(?:①|②|③|④|⑤|⑥|⑦|⑧|⑨).+?[。.,,;;、!!]
(2)第(?:一|二|三|四|五|六|七|八|九)步.+?
其中,“(?:a|b)”表示文本中存在匹配a或b的模式,“[abc]”表示文本中存在匹配字符集abc中任意字符的模式,“.+?”表示匹配任意字符至少一次。例如“缓解焦虑的方法有如下几种:第一步深呼吸,第二步早休息...”能够匹配第2个模板。匹配到的内容直接作为序列型答案。经过该模块,能够得到324w序列型答案,剩下的数据则输入到问题分类模块得到相应的问题类型标签。
三、问题分类模块
问题分类模块用于判断当前CP数据所抽取出的答案的具体形式是哪一种,具体包括“实体型答案”、“描述型答案”和“判断型答案”三类。
问题分类模块采用FastText工具包实现。具体而言,首先对该CP数据的文章标题采用了QQseg分词工具进行词切分,然后基于标注的数据训练FastText三分类模型。如果模型预测相应标签的概率为0.7以上,则保留该样本,并为该样本打上相应的标签。在通过问题分类模块后,1046w包含问答意图的数据总共有128w实体型答案样本、322w描述型答案样本和146w判断型答案样本。这些样本将分别基于训练不同答案类型的答案抽取模型。
四、答案抽取模块
对于实体型答案而言,其答案抽取方法采用了基于BERT的答案抽取模型。假设CP数据中的问题由(x1,x2,...,xM)表示,段落由(y1,y2,...,yN)表示。然后,对于拼接得到的词序列[CLS]x1,...,xM[SEP]y1,...,yN[SEP],采用公式1计算每个词的隐含表征,即隐含特征,最终得到输出矩阵H∈R(M+N+3)×d
H=BERT([CLS],x1,...,xM,[SEP],y1,...,yN,[SEP]) (1)
其中M和N分别表示问题和段落中词的个数,[CLS]和[SEP]表示特殊的分隔符号,d表示BERT隐含层的维度。
对于实体型答案抽取模型而言,直接在BERT隐含表示的基础上预测答案的开始位置和结束位置。具体而言,第i个token预测为答案片段开始位置的概率和答案片段结束位置的概率由下面的公式(2)计算得到:
Figure BDA0003001600760000321
其中,
Figure BDA0003001600760000322
表示实体型答案抽取模型中答案预测模块的权重和偏置参数,答案预测模块的权重和偏置参数可以通过样本对模型进行训得到,sshort和eshort分别表示实体型答案的开始位置和结束位置,softmax(*)是归一化函数。最终实体型答案抽取的损失函数由下面公式(3)得到:
Figure BDA0003001600760000323
其中,
Figure BDA0003001600760000324
表示指示函数,只有当括号中条件成立时该函数的值才为1,否则为0。
对于描述型答案而言,采用上述实体型答案抽取方法抽取得到的答案往往存在漏抽取的问题,即抽取出的答案片段不完整。因此,对于描述型答案样本而言,通过公式(1)计算出每个词的隐含表征之后,不直接使用答案预测模块去计算答案的开始和结束位置,而是在得到每个词的隐含表征之后,采用句子表征层计算每个短句对应的隐含表征。
在抽取描述型答案时,段落可以表示为由逗号、句号、问号和感叹号分隔的短句集合。对于短句中的每个词,采用公式(1)中的方法得到其表征之后,又通过句子表征层得到每个短句的隐含表征。具体而言,句子表征层可以采用多种不同的方法实现,例如自注意力机制、最大池化和平均池化等。下面,以自注意力机制为例给出句子表征层的实现细节。
对于段落中第p个短句(yp,1,yp,2,...,yp,N),通过BERT计算隐含表征后,假设其隐含表征为(ep,1,ep,2,...,ep,N)。通过如下公式(4)所示的打分函数估计短句中每个词的重要性程度:
Figure BDA0003001600760000325
其中,MLP表示多层感知机。第p个短句的表征通过公式(5)得到:
Figure BDA0003001600760000331
最终,对于描述型答案,采用公式(6)得到描述型答案开始短句位置和结束短句位置的概率分布:
Figure BDA0003001600760000332
其中,
Figure BDA0003001600760000333
表示描述型答案抽取模型的答案预测模块的权重和偏置参数,slong和elong表示描述型答案的开始位置和结束位置。描述型答案抽取模型的损失函数定义为:
Figure BDA0003001600760000334
其中,P表示段落中短句的总数。
在抽取判断型答案时,除了要抽取出判断型答案的证据语句,还要给出问句精确的“yes”、“no”和“uncertain”的判断结果。因此,对于判断型答案,除了使用和描述型长答案抽取模型相同的方式抽取证据语句之外,还通过分类模型给出其精准的判断结果。具体而言,判断型答案的判断结果标签由公式(8)得到:
p(answer)=softmax(MLP(ecls)) (8)
其中,ecls表示BERT中[CLS]符号的表征。最终,判断型答案的损失函数由公式(9)定义:
Lboolean=Llong+Lclassify (9)
其中,Lclassify=-log p(answer=aboolean)是判断型答案抽取模型的分类模型预测为正确答案aboolean的负对数似然。
应该理解的是,虽然图2、图4、图8、图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4、图8、图9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种基于解答文本的答案处理装置1300,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:答案类型确定模块1302、定位模块1304和答案提取模块1306,其中:
答案类型确定模块1302,用于获取目标问句以及与目标问句匹配的解答文本,基于目标问句的语句特征,确定目标问句对应的答案类型。
定位模块1304,用于采用与答案类型对应的答案定位方式,按照答案定位方式对应的定位对象类型,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象。
答案提取模块1306,用于基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的答案。
在一个实施例中,基于解答文本的答案处理装置还包括序列型答案提取模块,用于当解答文本中存在与序列型模板匹配的关键字时,基于解答文本,按照关键字进行答案提取,得到与目标问句对应的答案;答案类型确定模块,还用于当解答文本中不存在与序列型模板匹配的关键字时,基于目标问句的语句特征,确定目标问句对应的答案类型。
在一个实施例中,答案类型确定模块还包括字符切分模块和分类模块,字符切分模块用于对目标问句进行字符切分处理,得到目标问句的语句特征;分类模块,用于基于问句分类模型,按照目标问句的语句特征,对目标问句进行分类处理,得到目标问句对应的答案类型;其中,问句分类模型,是基于标注有答案类型的样本问句进行训练得到的模型。
在一个实施例中,定位对象类型为字符或包括多个字符的语句;定位模块,包括拼接字符序列获取模块,特征提取模块以及对象定位模块;拼接字符序列获取模块,用于获取拼接字符序列;拼接字符序列包括目标问句对应的字符序列、解答文本对应的字符序列以及多个分隔符;分隔符用于标识每个字符序列的起始位置或结束位置;特征提取模块,用于对拼接字符序列中的每个字符进行特征提取,基于答案定位方式对应的定位对象类型,确定解答文本中的候选定位对象的隐含特征;对象定位模块,用于基于解答文本中的候选定位对象的隐含特征,采用与答案类型对应的答案定位方式,确定目标问句对应答案在解答文本中的起始定位对象和结束定位对象。
在一个实施例中,对象定位模块,包括概率确定模块和对象定位子模块;概率确定模块,用于基于每一候选定位对象对应的隐含特征,按照与答案类型对应的对象定位参数和与答案类型对应的损失函数,确定每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率;对象定位子模块,用于基于每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始定位对象和结束定位对象。
在一个实施例中,答案类型为包括至少一个字符的实体型答案;实体型答案所对应的定位对象类型为字符;特征提取模块包括编码矩阵转换模块和字符特征提取模块;编码矩阵转换模块,用于对拼接字符序列中的每个字符进行编码矩阵转换,得到拼接字符序列中每个字符对应的字符特征;候选字符隐含特征提取模块,用于基于每个字符对应的字符特征,通过特征提取和字符筛选,得到解答文本中每个候选字符的隐含特征。
在一个实施例中,答案类型为包括至少一个语句的描述型答案;描述型答案所对应的定位对象类型为字符为语句;特征提取模块包括字符隐含特征提取模块、隐含特征处理模块以及特征融合模块;字符隐含特征提取模块,用于对拼接字符序列中的每个字符进行特征提取和字符筛选,得到解答文本中的每个字符的隐含特征;隐含特征处理模块,用于针对解答文本中每个字符,基于相应的隐含特征,依次进行多层感知处理和基于打分函数的打分处理,得到每个字符对应的多层感知特征和打分结果;特征融合模块,用于针对解答文本中的每一候选语句,基于对应候选语句包含的每一个字符所对应的多层感知特征和打分结果,进行特征融合,得到每一候选语句对应的隐含特征。
在一个实施例中,答案类型为判断型答案;判断型答案包括判断结果以及证据语句;答案提取模块包括证据语句提取模块和判断结果确定模块;证据语句提取模块,用于基于解答文本,按照起始定位对象与结束定位对象,进行答案提取,得到与目标问句对应且符合答案类型的证据语句;判断结果确定模块,用于基于拼接字符序列中目标分隔符所对应的隐含特征,按照与判断结果对应的损失函数,对解答文本进行分类,得到与解答文本对应的判断结果;其中,目标分隔符,是拼接字符序列中用于标识目标问句对应字符序列的起始位置的分隔符。
在一个实施例中,判断型答案所对应答案定位方式的定位对象类型为语句;对象定位模块包括概率确定模块和对象定位子模块;概率确定模块,用于基于解答文本中每一候选语句对应的隐含特征,按照与判断型答案对应的对象定位参数和与证据语句对应的损失函数,确定每一候选语句为起始定位对象的概率以及为结束定位对象的概率;对象定位子模块,用于基于每一候选语句为起始定位对象的概率以及为结束定位对象的概率,确定解答文本中的起始定位对象和结束定位对象。
在一个实施例中,答案类型确定模块还用于获取与输入的问题匹配的待处理问句,基于问句筛选条件对待处理问句进行筛选处理,得到符合问句筛选条件的目标问句以及与目标问句匹配的解答文本。
在一个实施例中,问句筛选条件包括问句长度条件和问答意图条件中的至少一种;问句长度条件,是待处理问句的字符长度满足长度阈值范围,问答意图条件,是待处理问句具有问答的意图,并且待处理问句中的意图个数满足数量阈值范围。
在一个实施例中,如图14所示,提供了一种答案推荐装置1400,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:输入问题显示模块1402、目标问句显示模块1404和答案显示模块1406,其中:
输入问题显示模块1402,用于显示在问题搜索区域输入的问题;
目标问句显示模块1404,用于显示与问题匹配的目标问句;
答案显示模块1406,用于显示基于与目标问句匹配的解答文本进行答案提取得到的答案;
其中,答案的答案类型与目标问句匹配;答案是基于解答文本并按照起始定位对象与结束定位对象提取的;起始定位对象与结束定位对象各自的对象类型与答案类型相匹配。
在一个实施例中,答案显示模块包括第一显示模块、第二显示模块和第三显示模块;第一显示模块,用于显示答案展示区域和解答文本展示区域;第二显示模块,用于在答案展示区域中,显示基于与目标问句匹配的解答文本进行答案提取得到的答案;第三显示模块,用于在解答文本展示区域中,显示解答文本或解答文本中的至少一部分文本,其中,解答文本中的至少一部分文本,包括基于与目标问句匹配的解答文本进行答案提取得到的答案。
在一个实施例中,答案显示模块包括解答文本展示区域显示模块、文本显示模块;解答文本展示区域显示模块,用于显示解答文本展示区域;文本显示模块,用于在解答文本展示区域中,显示与目标问句匹配的解答文本中的至少一部分文本;其中,解答文本中的至少一部分文本,包括基于与目标问句匹配的解答文本进行答案提取得到的答案。
在一个实施例中,答案显示模块包括实体型答案显示模块、描述型答案显示模块和判断型答案显示模块;实体型答案显示模块,用于若答案类型为实体型答案,则显示与目标问句匹配的解答文本,并显示基于解答文本进行答案提取得到的实体型答案;描述型答案显示模块,用于若答案类型为描述型答案,则显示与目标问句匹配的解答文本中的至少一部分文本,至少一部分文本包括基于解答文本进行答案提取得到的描述型答案;判断型答案显示模块,用于若答案类型为判断型答案,则显示与目标问句匹配的解答文本中的至少一部分文本,至少一部分文本包括基于解答文本进行答案提取得到的证据语句,并显示与证据语句对应的判断结果。
关于基于解答文本的答案处理装置和答案推荐装置的具体实施例可以参见上文中对于基于解答文本的答案处理方法和答案推荐方法的实施例,在此不再赘述。上述基于解答文本的答案处理装置和答案推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与答案类型对应的对象定位方式所需的参数数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于解答文本的答案处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种答案推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15和图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (19)

1.一种基于解答文本的答案处理方法,其特征在于,所述方法包括:
获取目标问句以及与所述目标问句匹配的解答文本;
基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述解答文本中存在与序列型模板匹配的关键字时,基于所述解答文本,按照所述关键字进行答案提取,得到与所述目标问句对应的答案;
所述基于所述目标问句的语句特征,确定所述目标问句对应的答案类型,包括:
当所述解答文本中不存在与序列型模板匹配的关键字时,基于所述目标问句的语句特征,确定所述目标问句对应的答案类型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标问句的语句特征,确定所述目标问句对应的答案类型,包括:
对所述目标问句进行字符切分处理,得到所述目标问句的语句特征;
基于问句分类模型,按照所述目标问句的语句特征,对所述目标问句进行分类处理,得到所述目标问句对应的答案类型;
其中,所述问句分类模型,是基于标注有答案类型的样本问句进行训练得到的模型。
4.根据权利要求1所述的方法,其特征在于,所述定位对象类型为字符或包括多个字符的语句;
所述采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象,包括:
获取拼接字符序列;所述拼接字符序列包括所述目标问句对应的字符序列、所述解答文本对应的字符序列以及多个分隔符;所述分隔符用于标识每个字符序列的起始位置或结束位置;
对所述拼接字符序列中的每个字符进行特征提取,基于所述答案定位方式对应的定位对象类型,确定所述解答文本中的候选定位对象的隐含特征;
基于所述解答文本中的候选定位对象的隐含特征,采用与所述答案类型对应的答案定位方式,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象。
5.根据权利要求4所述的方法,其特征在于,所述基于所述解答文本中的候选定位对象的隐含特征,采用与所述答案类型对应的答案定位方式,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象,包括:
基于每一候选定位对象对应的隐含特征,按照与所述答案类型对应的对象定位参数和与所述答案类型对应的损失函数,确定每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率;
基于每一候选定位对象为起始定位对象的概率以及为结束定位对象的概率,确定所述解答文本中的起始定位对象和结束定位对象。
6.根据权利要求4所述的方法,其特征在于,所述答案类型为包括至少一个字符的实体型答案;所述实体型答案所对应的定位对象类型为字符;
所述对所述拼接字符序列中的每个字符进行特征提取,基于所述答案定位方式对应的定位对象类型,确定所述解答文本中的候选定位对象的隐含特征,包括:
对所述拼接字符序列中的每个字符进行编码矩阵转换,得到所述拼接字符序列中每个字符对应的字符特征;
基于每个字符对应的字符特征,通过特征提取和字符筛选,得到所述解答文本中每个候选字符的隐含特征。
7.根据权利要求4所述的方法,其特征在于,所述答案类型为包括至少一个语句的描述型答案;所述描述型答案所对应的定位对象类型为字符为语句;
所述对所述拼接字符序列中的每个字符进行特征提取,基于所述答案定位方式对应的定位对象类型,确定所述解答文本中的候选定位对象的隐含特征,包括:
对所述拼接字符序列中的每个字符进行特征提取和字符筛选,得到所述解答文本中的每个字符的隐含特征;
针对所述解答文本中每个字符,基于相应的隐含特征,依次进行多层感知处理和基于打分函数的打分处理,得到每个字符对应的多层感知特征和打分结果;
针对所述解答文本中的每一候选语句,基于对应候选语句包含的每一个字符所对应的多层感知特征和打分结果,进行特征融合,得到每一候选语句对应的隐含特征。
8.根据权利要求4所述的方法,其特征在于,所述答案类型为判断型答案;所述判断型答案包括判断结果以及证据语句;
所述基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案,包括:
基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的证据语句;
基于所述拼接字符序列中目标分隔符所对应的隐含特征,按照与所述判断结果对应的损失函数,对所述解答文本进行分类,得到与所述解答文本对应的判断结果;
其中,所述目标分隔符,是所述拼接字符序列中用于标识所述目标问句对应字符序列的起始位置的分隔符。
9.根据权利要求8所述的方法,其特征在于,所述判断型答案所对应答案定位方式的定位对象类型为语句;
所述基于所述解答文本中的候选定位对象的隐含特征,采用与所述答案类型对应的答案定位方式,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象,包括:
基于所述解答文本中每一候选语句对应的隐含特征,按照与所述判断型答案对应的对象定位参数和与所述证据语句对应的损失函数,确定每一候选语句为起始定位对象的概率以及为结束定位对象的概率;
基于每一候选语句为起始定位对象的概率以及为结束定位对象的概率,确定所述解答文本中的起始定位对象和结束定位对象。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述获取目标问句以及与所述目标问句匹配的解答文本,包括:
获取与输入的问题匹配的待处理问句;
基于问句筛选条件对所述待处理问句进行筛选处理,得到符合所述问句筛选条件的目标问句以及与所述目标问句匹配的解答文本。
11.根据权利要求10所述的方法,其特征在于,所述问句筛选条件包括问句长度条件和问答意图条件中的至少一种;
所述问句长度条件,是待处理问句的字符长度满足长度阈值范围;所述问答意图条件,是待处理问句具有问答的意图且待处理问句中的意图个数满足数量阈值范围。
12.根据权利要求1-9中任一项所述的方法,其特征在于,所述基于所述目标问句的语句特征,确定所述目标问句对应的答案类型,包括:
基于所述目标问句的语句特征,确定所述目标问句对应的答案类型、以及所述目标问句对应的信息类别;
所述采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象,包括:
采用与所述答案类型以及所述信息类别对应的答案提取模型,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
其中,所述答案提取模型,是基于对应信息类别中标注有对应答案类型的解答文本进行训练得到的模型。
13.一种答案推荐方法,其特征在于,所述方法包括:
显示在问题搜索区域输入的问题;
显示与所述问题匹配的目标问句;
显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
14.根据权利要求13所述的方法,其特征在于,所述显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案,包括:
显示答案展示区域和解答文本展示区域;在所述答案展示区域中,显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;在所述解答文本展示区域中,显示所述解答文本或所述解答文本中的至少一部分文本;或,
显示与所述目标问句匹配的解答文本中的至少一部分文本;
其中,所述至少一部分文本,包括基于与所述目标问句匹配的解答文本进行答案提取得到的答案。
15.根据权利要求13所述的方法,其特征在于,所述显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案,包括:
若所述答案类型为实体型答案,则显示与所述目标问句匹配的解答文本,并显示基于所述解答文本进行答案提取得到的实体型答案;
若所述答案类型为描述型答案,则显示与所述目标问句匹配的解答文本中的至少一部分文本,所述至少一部分文本包括基于所述解答文本进行答案提取得到的描述型答案;
若所述答案类型为判断型答案,则显示与所述目标问句匹配的解答文本中的至少一部分文本,所述至少一部分文本包括基于所述解答文本进行答案提取得到的证据语句,并显示与所述证据语句对应的判断结果。
16.一种基于解答文本的答案处理装置,其特征在于,所述装置包括:
答案类型确定模块,用于获取目标问句以及与所述目标问句匹配的解答文本,基于所述目标问句的语句特征,确定所述目标问句对应的答案类型;
定位模块,用于采用与所述答案类型对应的答案定位方式,按照所述答案定位方式对应的定位对象类型,确定所述目标问句对应答案在所述解答文本中的起始定位对象和结束定位对象;
答案提取模块,用于基于所述解答文本,按照所述起始定位对象与所述结束定位对象,进行答案提取,得到与所述目标问句对应且符合所述答案类型的答案。
17.一种答案推荐装置,其特征在于,所述装置包括:
输入问题显示模块,用于显示在问题搜索区域输入的问题;
目标问句显示模块,用于显示与所述问题匹配的目标问句;
答案显示模块,用于显示基于与所述目标问句匹配的解答文本进行答案提取得到的答案;
其中,所述答案的答案类型与所述目标问句匹配;所述答案是基于所述解答文本并按照起始定位对象与结束定位对象提取的;所述起始定位对象与所述结束定位对象各自的对象类型与所述答案类型相匹配。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。
19.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。
CN202110348792.1A 2021-03-31 2021-03-31 基于解答文本的答案处理方法和答案推荐方法 Active CN113010657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110348792.1A CN113010657B (zh) 2021-03-31 2021-03-31 基于解答文本的答案处理方法和答案推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110348792.1A CN113010657B (zh) 2021-03-31 2021-03-31 基于解答文本的答案处理方法和答案推荐方法

Publications (2)

Publication Number Publication Date
CN113010657A true CN113010657A (zh) 2021-06-22
CN113010657B CN113010657B (zh) 2024-02-06

Family

ID=76387529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110348792.1A Active CN113010657B (zh) 2021-03-31 2021-03-31 基于解答文本的答案处理方法和答案推荐方法

Country Status (1)

Country Link
CN (1) CN113010657B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372215A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索结果展示、搜索请求处理方法及装置
CN114547270A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 文本处理方法、文本处理模型的训练方法、装置和设备
CN114661891A (zh) * 2022-04-11 2022-06-24 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111737443A (zh) * 2020-08-14 2020-10-02 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法
CN111897934A (zh) * 2020-07-28 2020-11-06 腾讯科技(深圳)有限公司 问答对生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111897934A (zh) * 2020-07-28 2020-11-06 腾讯科技(深圳)有限公司 问答对生成方法及装置
CN111737443A (zh) * 2020-08-14 2020-10-02 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372215A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索结果展示、搜索请求处理方法及装置
CN114547270A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 文本处理方法、文本处理模型的训练方法、装置和设备
CN114661891A (zh) * 2022-04-11 2022-06-24 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN113010657B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN113010657B (zh) 基于解答文本的答案处理方法和答案推荐方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN108182177A (zh) 一种数学试题知识点自动化标注方法和装置
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
CN110297893B (zh) 自然语言问答方法、装置、计算机装置及存储介质
CN108984655A (zh) 一种客服机器人智能客服引导方法
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN111898374A (zh) 文本识别方法、装置、存储介质和电子设备
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN113724882A (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
CN113590783A (zh) 基于nlp自然语言处理的中医养生智能问答系统
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
CN112711666B (zh) 期货标签抽取方法及装置
CN110795544A (zh) 内容搜索方法、装置、设备和存储介质
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
JP6802332B1 (ja) 情報処理方法および情報処理装置
CN112084312A (zh) 一种基于知识图构建的智能客服系统
CN116911286A (zh) 词典构建方法、情感分析方法、装置、设备及存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN112765353B (zh) 一种基于科研文本的生物医学学科分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047317

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant