CN111309887A - 一种训练文本关键内容提取模型的方法和系统 - Google Patents

一种训练文本关键内容提取模型的方法和系统 Download PDF

Info

Publication number
CN111309887A
CN111309887A CN202010114332.8A CN202010114332A CN111309887A CN 111309887 A CN111309887 A CN 111309887A CN 202010114332 A CN202010114332 A CN 202010114332A CN 111309887 A CN111309887 A CN 111309887A
Authority
CN
China
Prior art keywords
answer
question
text key
key content
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010114332.8A
Other languages
English (en)
Other versions
CN111309887B (zh
Inventor
杨明晖
崔恒斌
陈晓军
陈显玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010114332.8A priority Critical patent/CN111309887B/zh
Publication of CN111309887A publication Critical patent/CN111309887A/zh
Application granted granted Critical
Publication of CN111309887B publication Critical patent/CN111309887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种训练文本关键内容提取模型的方法及系统,所述方法包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。

Description

一种训练文本关键内容提取模型的方法和系统
技术领域
本申请涉及计算机技术领域,特别涉及一种训练文本关键内容提取模型的方法和系统。
背景技术
随着互联网和人工智能等领域的不断发展,客服机器人在客户服务中扮演了重要的角色,客服机器人在为客户解答时,一般是从预先整理好的、包含了大量问题和问题答案的知识库中去寻找客户的答案。为了尽可能详尽地解决用户的问题,知识库中的答案一般需要涉及用户问题相关的多个方面,通常有比较长,冗余信息较多。
因此,亟需一种对知识库中答案提取关键内容的方法。
发明内容
本说明书一个方面提供一种训练文本关键内容提取模型的方法。所述方法包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。
本说明书另一个方面提供一种训练文本关键内容提取模型的系统。所述系统包括:第一获取模块,用于获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;选择模块,用于从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;训练样本生成模块,用于拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;模型生成模块,用于基于多组所述训练样本训练得到文本关键内容提取模型。
本说明书另一个方面提供一种训练文本关键内容提取模型的装置,包括至少一个存储介质和至少一个处理器,所述存储介质用于存储计算机指令;所述处理器用于执行训练文本关键内容提取模型的方法。
本说明书另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行训练文本关键内容提取模型的方法。
附图说明
本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的训练文本关键内容提取模型系统的应用场景示意图;
图2是根据本说明书一些实施例所示的训练文本关键内容提取模型的方法的示例性流程图;
图3是根据本说明书一些实施例所示的文本关键内容提取模型提取文本关键内容的方法的示例性流程图;
图4是根据本说明书一些实施例所示的基于询问内容从知识库中获取候选答案的方法的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书的一些实施例所示的示例性训练文本关键内容提取模型系统的应用场景示意图。
训练文本关键内容提取模型系统100可以通过实施本申请中披露的方法和/或过程来训练得到文本关键内容提取模型,以及基于文本关键内容提取模型提取用户输入的问题的文本关键内容,并将其作为展示用户。训练文本关键内容提取模型系统100可以用于互联网服务的线上服务平台。在一些实施例中,该系统可以用于包含智能答复系统的线上服务平台。例如,电商平台、线上咨询平台、公共服务平台等。
如图1所示,训练文本关键内容提取系统100可以包括服务器110、网络120、用户端130、数据库140。服务器110可以包含处理设备112。
在一些实施例中,服务器110可以用于处理与数据处理相关的信息和/或数据。在一些实施例中,服务器110可以直接与数据库140和/或用户端130连接以访问存储于其中的信息和/或资料。例如,服务器110可以通过网络120获取数据库中的多个问题答案对。又例如,服务器110可以通过网络120访问用户端130输入的询问内容。又例如,服务器110可以通过网络120基于该询问内容从数据库中的知识库中获取候选答案,并将该询问内容和候选答案输入到文本关键内容提取中确定该询问内容的文本关键内容。服务器110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如:服务器110可以是分布系统)。在一些实施例中,服务器110可以是区域的或者远程的。在一些实施例中,服务器110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
在一些实施例中,服务器110可包含处理设备112。该处理设备112可处理数据和/或信息以执行一个或多个本申请中描述的功能。例如,处理设备112可以基于文本关键内容模型提取出与用户询问的文本关键内容。在一些实施例中,处理设备112可包含一个或多个子处理设备(例如,单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理设备112可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
在一些实施例中,网络120可促进数据和/或信息的交换,数据或信息可以包括用户端130输入的询问内容、数据库140中存储的问题答案对、服务器110中的文本关键提取模型的参数等。在一些实施例中,系统100中的一个或多个组件(例如,服务器110、用户端130、数据库140)可通过网络120发送数据和/或信息给系统100中的其他组件。在一些实施例中,网络120可是任意类型的有线或无线网络。例如,网络120可包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。在一些实施例中,网络120可包括一个或多个网络进出点。例如,网络120可包含有线或无线网络进出点,如基站和/或网际网络交换点120-1、120-2、…,通过这些进出点系统100的一个或多个组件可连接到网络120上以交换数据和/或信息。
在一些实施例中,用户端130可以是一台计算设备或计算设备组。在一些实施例中,用户端130具体输入的功能,可以用于用户输入询问内容。例如,打字输入、语音输入等。所述计算设备可以包括手机130-1、平板电脑130-2、笔记本电脑130-3、台式计算机130-4等中的一种或其任意组合。所述计算设备组可以是集中式或分布式的。在一些实施例中,用户端130可以将输入的内容发送到服务器110。相应地,服务器110可以将对输入内容的预测结果(即,内容的标记)发送到客户端130。
在一些实施例中,数据库140可以用于存储知识库、带标记的训练样本等。数据库140可以在在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。数据库140可以由多个个人设备和云服务器生成。在一些实施例中,数据库140可以用于提供所需要数据的器件或原始媒体,还可以用于数据的存储、加密等操作。在一些实施例中,数据库140可存储供服务器110执行或使用的信息和/或指令,以执行本申请中描述的示例性方法。在一些实施例中,数据库140可包括大容量存储器、可移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或以上任意组合。在一些实施例中,数据库140可在云平台上实现。例如,该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等或以上任意组合。
训练文本关键内容提取模型的系统100可以包括:
第一获取模块,用于获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案。
选择模块,用于从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案。
训练样本生成模块,用于拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置。
模型生成模块,用于基于多组所述训练样本训练得到文本关键内容提取模型。关于文本关键内容提取模型的更多细节参见图2及其相关描述,此处不再赘述。
第二获取模块,用于获取实体对象的询问内容。
候选答案确定模块,用于基于所述询问内容从知识库中获取至少一个候选答案。在一些实施例中,所述候选答案确定模块还用于基于所述询问内容从所述知识库中召回至少一个初始候选问题答案对;基于所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度确定至少一个候选问题答案对,将所述至少一个候选问题答案对中的答案作为所述至少一个候选答案。
在一些实施例中,所述候选答案确定模块还用于,基于相似度模型确定所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度。在一些实施例中,所述相似度模型为ESIM模型。获取候选答案的更多细节参见图4及其相关内容,此处不再赘述。
预测模块,用于将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容。在一些实施例中,文本关键内容提取模型包含机器阅读理解模型和用于分类的多层神经网络;其中,所述机器阅读理解模型基于所述询问内容和/或所述至少一个候选答案中词的上下文确定所述词的向量;所述用于分类的多层神经网络基于所述词的向量计算所述词属于不同位置类别的概率,所述位置类别包括:属于所述文本关键内容的起点、属于所述文本关键内容的终点以及属于所述文本关键内容的起点和终点以外的其他位置。关于文本关键内容提取模型的更多细节参见图2和图3及其相关描述,此处不再赘述。在一些实施例中,所述机器阅读理解模型为BERT模型或BiDAF模型。在一些实施例中,所述预测模块还用于:将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第一预设条件的词分别作为第一文本关键内容的起点或终点;将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第二预设条件的词分别作为第二文本关键内容的起点或终点;将所述第一文本关键内容和所述第二文本关键内容分别以第一方式和第二方式展示给所述实体对象。在一些实施例中,第一方式或所述第二方式分别为单独输出所述文本关键内容或在所述至少一个候选答案中高亮展示。关于基于文本关键内容提取模型提取文本关键内容的更多细节参见图3及其相关描述,此处不再赘述。
图2是根据本说明书的一些实施例所示的训练文本关键内容提取模型的方法的示例性流程图。如图2所示,该训练文本关键内容提取模型的方法200可以包括:
步骤210,获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案。具体的,该步骤210可以由第一获取模块执行。
在一些实施例中,一个问题答案对,可以包括一个问题及其对应的答案。例如,一个问题答案对可以包括一个问题“如何用手机号注册会员”,及其对应的答案“填写手机号-获取验证码-输入验证码点击注册”。在一些实施例中,获取的多个问题答案对中的问题可以存在语义差异,例如,问题答案对1的问题为“如何注册会员”,问题答案对2中的问题为“如何用手机号注册会员”。
在一些实施例中,问题答案对可以来自于服务方预先设置,也可以来自于用户的历史提问。例如,问题答案对可利用人工客服的服务记录来获取,用户的提问为问题答案对中的问题,客服的回答为与该问题对应的答案。又例如,可以预先设置知识库,该知识库可以包含大量的问题答案对,其中,知识库中的问题答案对可以是基于服务记录整理而来。关于知识库的更多细节参见步骤320,此处不再赘述。
步骤220,从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案。具体的,该步骤220可以由选择模块执行。
目标问题答案对可以是获取的多个问题答案对中的任意一个问题答案对。其中,目标问题答案对中包括的问题可以为目标答案,目标问题答案对中的答案可以为目标答案。
干扰答案可以是多个问题答案对中除目标问题答案对以外一个或多个其他问题答案对中的答案。例如,多个问题对分别为q1-a1,q2-a2、q3-a3、q4-a4、其中q代表问题答案对中的问题,a代表问题答案中的答案。若目标问题答案对q2-a2,则干扰答案可以是a1、a3、a4中的一个或者多个。
步骤230,拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置。具体的,该步骤230可以由训练样本生成模块执行。
拼接可以是指将两段或两段以上的文本连接在一起,拼接后的连续文本即为拼接文本。在一些实施例中,拼接时是在一段文本的起点或终点与其他段文本进行连接,而非在一段文本中间与其他段文本连接。例如,两段文本分别为“输入手机号码即可注册”“今天天不错”,拼接时是将“今天天气不错”放于“输入手机号码即可注册”的起点之前,即“今天天气不错输入手机号码即可注册”,或将“今天天气不错”放于“输入手机号码即可注册”的终点之后,即“输入手机号码即可注册今天天气不错”。
在一些实施例中,可以将目标答案和干扰答案拼接得到拼接答案。具体地,可以在目标答案起点和/或终点处分别拼接干扰答案作为目标答案的上下文。继续步骤220的示例为例,可以将a1、a3、a4中一个或多个与a2拼接构成拼接答案,例如,“a2a1”、“a1a2”、“a2a3”、“a3a2”、“a4a2”、“a2a4”、“a2a1a3”、“a2a3a1”、“a1a2a3”、“a1a2a3a4”等。
在一些实施例中,文本关键内容可以是能够回答问题的关键内容。文本关键内容提取模型可以根据问题和该问题答案确定与该问题对应的文本关键内容。
为了训练文本关键内容提取模型,需要大量的训练样本。在一些实施例中,目标问题以及拼接答案可以作为用于训练文本关键内容提取模型的一组训练样本。可以理解,可以对多个问题答案对中的每一个问题答案对进行上述处理,从而得到多组训练样本。
在一些实施例中,训练样本的标识为目标问题对应的文本关键内容的位置,包括起点和终点位置。在一些实施例中,可以将目标答案作为目标问题的文本关键内容,进一步的,训练样本的标识为目标答案在拼接答案中的起点和终点位置。在一些实施例中,可以在目标答案的起点位置添加代表起点的标识,例如,用“s”代表起点,在目标答案的终点位置添加代表终点的标识,例如,用“e”代表终点。以上述目标问题答案对为q2-a2,拼接答案为“a1a2a3a4”为例,则问题q2和拼接答案“a1a2a3a4”可以构成一组训练样本,且该训练样本的标识为:“a1a2a3a4”中a2起点位置添加“s”标识,a2终点位置添加“e”标识,例如“a1[s]a2[e]a3a4”。
目标问题和目标问题对应的带有标识的拼接答案可以作为一组训练样本数据输入文本关键内容提取模型,例如,将q2和带有“s”“e”标识的拼接答案“a1a2a3a4”,即,q2和“a1[s]a2[e]a3a4”,可以作为一组训练样本输入文本关键提取模型进行训练。
示例地,目标问题是“如何注册账号”,目标答案“填写手机号-获取验证码-输入验证码”,拼接答案是“同一个身份证的认证账户总数不能超过3个填写手机号-获取验证码-输入验证码点击注册打开支付宝-转账-转账到银行卡-填写姓名、卡号、金额、备注-确认转出”,则组成的一组训练样本为目标问题“如何注册账号”和带有起点终点标识的拼接答案,例如,“同一个身份证的认证账户总数不能超过3个[s]填写手机号-获取验证码-输入验证码[e]点击注册打开支付宝-转账-转账到银行卡-填写姓名、卡号、金额、备注-确认转出”。
步骤240,基于多组所述训练样本训练得到文本关键内容提取模型。具体的,该步骤340可以由模型生成模块执行。
在一些实施例中,可以基于步骤230得到的多种训练样本训练得到文本关键内容提取模型。具体的,将多组训练样本输入未训练的初始文本关键内容提取模型中进行训练,当训练的模型满足预设要求时则训练完成,预设条件可以是损失函数值小于预设阈值或者收敛等。在一些实施例中,训练文本关键内容提取模型时,可以通过反向传播、多次迭代或其它模型方法进行优化模型参数,令模型的性能更好。
在一些实施例中,初始文本关键内容提取模型可以包含机器阅读理解模型和用于分类的神经网络。
机器阅读理解模型是指一种对自然语言进行处理,从而理解文本的一种模型或算法。在一些实施例中,机器阅读理解模型可以对输入的文本中的词进行编码,得到该输入的文本中词的向量。在一些实施例中,机器阅读理解模型在对输出的文本中的词进行编码时,结合词的上下文的信息,包括语义信息、位置信息等,可以理解,得到的词的向量包含了词的文本信息以及上下文的信息。在一些实施例中,机器阅读模型可以是BERT(Bidirectional Encoder Representations from Transformers)、BiDAF(Bi-Directional Attention Flow)、ELMo(Embedding from Language Models)模型或其它功能相似的模型,本实施例不做限制。
BERT模型是基于双向Transformer的大规模预训练语言模型,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。在将每组训练样本输入文本关键内容提取模型中时,可以在样本的文本之前添加[CLS]代表需要对文本进行分类,在问题和拼接答案之间通过分隔符[sep]分割,以区分问题和答案。以上述目标答案对为q2-a2、拼接答案为例“a1a2a3a4”为例,将“[CLS]q2[SEP]a1[s]a2[e]a3”输入BERT模型。
BiDAF是双向注意流网络,该模型是一个分阶段的多层过程,主要由6层网络组成,分别为Character embedding layer(字符嵌入层)、Word embedding layer(词嵌入层)、Contextual embedding layer(上下文嵌入层)、Attention flow layer(注意流层)、Modeling layer(模型层)、Output layer(输出层)。模型通过使用双向注意流机制,可以在不同的粒度级别上,获得的词的向量中包含了上下文的信息。
用于分类的神经网络可以基于词的向量计算该词属于不同位置类别的概率。其中,用于分类的神经网络可以由一层或者多层神经网络构成。具体地,分类的神经网络可以基于机器阅读理解模型确定词的向量,得到各个词属于不同位置类别的概率,其中,每个词对应每一个位置类型都会存在一个概率值。
在一些实施例中,用于分类的神经网络可以采用MLP、NN、PNN、RBF或其它功能相似的神经网络或例如逻辑回归等用于分类的模型。以用于分类的神经网络为MLP(即,多层感知器)为例,多层感知器由多层神经网络组成,每一层的输入和输出都是向量,上一层的输出是下一层的输入,将词的向量输入第一层隐藏层后,可以基于第一层隐藏层的参数(例如公式y=Wx+b,W和b为该层的参数,x为词的向量),确定该层的输出,并输入下一层隐藏层,直到最后一层隐藏层,并将最后一层隐藏层的输出输入到softmax函数,得到该词属于不同位置类别的概率。通过机器阅读模型的得到的词向量中包含了词的含义、词的位置信息及词与上下文的关系等特征,因此,在上述计算过程中,这些特征都会影响每个词属于不同类别的概率值。
在一些实施例中,位置类别可以包括:属于文本关键内容的起点、属于文本关键内容的终点以及属于文本关键内容的起点和终点以外的其他位置。其中,文本关键内容的起点可以是指文本关键内容的一个端点文本,文本关键内容的终点可以是指文本关键内容的另一个端点文本,文本关键内容的起点和终点以外的其他位置可以是指文本关键内容的其他位置或文本中除了文本关键内容的其它文本位置。以上述目标问题是“如何注册账号”、拼接答案为“同一个身份证的认证账户总数不能超过3个填写手机号-获取验证码-输入验证码点击注册打开支付宝-转账-转账到银行卡-填写姓名、卡号、金额、备注-确认转出”为例,文本关键内容即为目标答案“填写手机号-获取验证码-输入验证码”,文本关键内容的起点为“填写手机号-获取验证码-输入验证码”的开始位置,即“填写”,文本关键内容的终点为“填写手机号-获取验证码-输入验证码”的结束位置,即第二个“验证码”。拼接答案中“填写”到第二个“验证码”之间的文本、“同一个身份证”到“填写”之间的文本或第二个“验证码”到“转出”之间的文本可以为其它文本位置。
训练过程中,可以根据包含上下文信息的词的向量和标识,学习每个词属于不同类别的概率。
在一些实施例中,在基于多组训练样本对初始文本关键内容提取模型进行训练之前,可以对机器阅读理解模型进行预训练,使得机器阅读理解模型能够逐渐调整模型参数,使得其输出的文本语义表示能够刻画语言的本质。预训练之后,再基于训练样本及其标识训练得到文本关键内容提取模型,学习不同训练文本中词属于不同位置类型的概率。
在一些实施例中,预训练方式可以是Masked LM(MLM),即随机掩盖部分输入词,然后对那些被掩盖的词进行预测,也可以是Next Sentence Prediction,即给定一篇文章中的两句话,判断第二句话在文本中是否紧跟在第一句话之后,还可以通过其他方式进行预训练,本实施例不做限制。
训练得到的文本关键内容提取模型可以基于输入的问题和该问题的答案,从该答案中确定该问题的文本关键内容。关于文本关键内容提取模型应用的更多细节参见图2及其相关描述,此处不再赘述。
通过上述实施例训练初始文本关键内容提取模型,得到文本关键内容提取模型,可以无需人工标注训练样本的标签,降低人工成本。因为构建训练样本时,是将问题对应的答案作为该问题的文本关键内容,因此,可以从知识库或客服服务日志中取目标问题答案对,将目标问题答案对以外的一个或多个问题答案对中的答案作为干扰答案,并将干扰答案与目标答案进行拼接,因为知识库或服务日志中目标问题与目标答案对应,则系统可以在拼接答案中对目标答案中进行标识,整个过程无需人工参与。
而且,将问题的答案标记为该问题的文本关键内容,可以使初始文本关键内容提取模型以问题的答案作为文本关键内容为学习目的,换言之,将某问题及某段文本输入文本关键内容提取模型后,文本关键内容提取模型可以从该段文本中提取与问题的答案更接近的文本内容作为文本关键内容。
图3根据本说明书的一些实施例所示的文本关键内容提取模型提取文本关键内容的示例性流程图。如图3所示,该文本关键内容提取模型提取文本关键内容的方法300可以包括:
步骤310,获取实体对象的询问内容。具体的,该步骤310可以由第二获取模块执行。
实体对象可以是对现实世界中具体的业务实体的抽象,在一些实施例中,实体对象是任一可以被描述的个体,例如,用户或者商家等。在一些实施例中,实体对象可以是智能客服机器人服务的用户,其中,智能客服机器人可以应用于不同的客服场景,例如,即时通信场景或者智能导航场景等。
询问内容是指实体对象所提供的问题数据,例如客服机器人上用户输入的问题文本,又例如计算机从数据库中获取的用户问题。在一些实施例中,用户可以手动输入或者语音输入询问内容,其中,对于用户语音输入的询问内容,可以通过语音识别技术获取对应的问题文本。在一些实施例中,可以通过读取存储的数据、调用相关接口或其他方式获取实体对象的询问内容。例如,通过网络传输或者直接上传等方式,本实施例不做限制。
步骤320,基于所述询问内容从知识库中获取至少一个候选答案。具体的,该步骤320可以由候选答案确定模块执行。
知识库是指知识点的集合,其中,知识点可以是与询问内容相关的内容,可以为询问内容提供答案。在一些实施例中,知识点可以由标题和正文组成,且一个知识点的正文与标题存在对应关系。在一些实施例中,标题是是与问题相关的内容,例如,标题可以是问题。示例的,最近流行的穿衣风格是什么?又例如,标题还可以是对问题整理后的概括表达,示例的,最近流行的穿衣风格。又例如,标题还可以由问题的关键词组成,例如,最近、流行、穿衣风格。在一些实施例中,正文可以是与标题的答案相关的内容。例如,正文可以是一个问题的答案。又例如,正文可以对同一个问题的所有答案的组合,这些答案可能是不同实体对象询问该问题时,客服或智能机器人给的回答。为了给客户提供全面的回答,知识点中的正文内容通常涉及的内容比较广泛,可能存在一些不属于问题关键内容的文本。问题为“今天天气怎么样”,答案为“今天星期五,天气晴,最高温度15摄氏度,最低温度8摄氏度,外出时建议短袖加薄外套,携带太阳伞防晒”。
候选答案是指询问内容可能正确的答案。获取的候选答案可以是一个,也可以是多个,本实施例不做限制。
如前所述,知识库包含了询问内容可能相关的知识点,所以候选答案可以从知识库中获取,具体的,候选答案来源于知识库中某个知识点中正文。关于基于询问内容从知识库中获取候选答案的方法的更多细节可以参见图4及其相关描述,此处不再赘述。
步骤330,将所述询问内容和所述至少一个候选答案输入文本关键内容提取模型,得到与所述询问内容对应的文本关键内容。具体的,该步骤330可以由预测模块执行。
文本关键内容提取模型用于对待回答的询问内容和询问内容对应的候选答案进行分析,预测得到该询问内容对应的文本关键内容。在一些实施例中,将询问内容和该询问内容对应的候选答案输入文本关键内容提取模型中,机器阅读理解模型先可以基于询问内容和/或候选答案中词的上下文,对询问内容和候选答案中的词进行向量表示,即词的向量中包含了询问内容或/和候选答案的上下文信息,然后用于分类的神经网络可以基于得到各个词的向量,确定该词的位置类别,即属于文本关键内容起点、属于文本关键内容终点、属于所述文本关键内容的终点以及属于所述文本关键内容的起点和终点以外的其他位置三个类别的概率。
进一步,可以根据每个词属于不同位置类别的概率,从候选答案中提取该询问内容的文本关键内容。例如,可以将属于文本关键内容起点的概率最高的词、属于文本关键内容终点的概率最高的词分别作为文本关键内容的起点和终点,将起点和终点词之间的文本内容(可以包含起点和终点的词)作为询问内容的文本关键内容。
以询问内容为“如何注册会员”举例,从知识库中选取的一个候选答案为“注册会员有多种方式,您可以根据自身情况选择,可以通过输入手机号、身份证号、邮箱号任意一种完成。会员可以参与各种优惠活动和返积分活动,为您提供优质的服务。”为例,将该询问内容和候选答案输入文本关键内容提取模型,得到属于文本关键内容的起点的概率最大的词是“注册会员”,属于文本关键内容的终点的概率最大的一个词是“完成”,即可以将“注册会员有多种方式,您可以根据自身情况选择,可以通过输入手机号、身份证号、邮箱号任意一种完成”作为询问内容“如何注册会员”的关键内容片段。
在一些实施例中,若候选答案为一个,则将该答案的文本关键内容作为询问内容的文本关键内容。在一些实施例中,若候选答案为多个,则分别确定每个候选答案的文本关键内容,将所有的文本关键内容的组合作为询问内容对应的文本关键内容。
如前所述,候选答案通常内容很多,篇幅较长,将其直接发送给客户后,客户无法快速获取关键信息,需要花较长的时间确定答案是否合适、是否需要进一步再提问。通过该实施方式,将询问内容对应的文本关键内容提供给客户,客户可以快速确定当前的答案中是否可以解决问题,是否需要进行下一步询问,提高了用户体验。
如前所述,训练文本关键内容提取模型时,将问题对应的答案作为文本关键内容,从而,在实际预测过程中,基于文本关键内容提取模型确定文本关键内容为与询问内容的答案最接近的内容,从而,客户可以通过查看文本关键内容进行准确判断。
在一些实施例中,提取的文本关键内容可以是多个。在一些实施例中,可以根据候选答案中词属于不同位置类别的概率值确定多个文本关键内容,具体的,设置不同的条件,基于不同的条件确定不同的文本关键内容。
在一些实施例中,提取的文本关键内容可以为两个。具体的,将候选答案中属于文本关键内容的起点或属于文本关键内容的终点的概率满足第一预设条件的词分别作为第一文本关键内容的起点或终点,将候选答案中属于文本关键内容的起点或属于文本关键内容的终点的概率满足第二预设条件的词分别作为第二文本关键内容的起点或终点。
在一些实施例中,第一预设条件和/或第二预设条件可以是指概率阈值或者概率经过进一步计算满足的条件,还可以是概率排名。在一些实施例中,第一预设条件和第二预设条件可以是自行设置的或者模型推荐的。在一些实施例中,第一预设条件和第二预设条件可以是不同的。可以理解,预设条件不同,会导致得到的文本关键内容存在差异,例如,第一文本关键内容的篇幅会大于或者小于第二文本关键内容。
在一些实施例中,可以将第一预设条件设置为属于起点的概率最大的词作为第一文本关键内容的起点,属于终点的概率最大的词作为第一文本关键内容的终点,将第二预设条件设置为属于起点的概率大于预设阈值的词作为第二文本关键内容的起点,属于终点的概率大于预设阈值的词作为第二文本关键内容的终点。可以理解,若满足预设阈值的词可能是多个,则第二文本关键内容可以由候选答案中的多个文本片段组成。
例如,问题“如何用手机号注册账号”,其候选答案为“通过手机号注册账号的步骤包括:使用本人手机-填写本人手机号-获取验证码-输入验证码注册-注册后设置密码-使用手机号和密码登录,除了使用手机号注册以外,还推荐您使用邮箱注册,若您需要了解通过邮箱注册账号的操作,请输入邮箱继续咨询。祝您生活愉快!”,设置第一预设条件为概率最大,第二预设条件为概率大于概率阈值60%,候选答案中属于文本关键内容的起点的概率最大的一词是“填写本人手机号”中“填写”,概率为90%,属于文本关键内容的终点的概率最大的一个词是“输入验证码注册”中的注册,概率为95%,即可以将“填写手机号-获取验证码-输入验证码点击注册”作为该问题对应的第一文本关键内容。属于起点的概率大于60%的词有“填写本人手机号”中“填写”、“使用手机号注册以外”中的“使用”,属于终点的概率大于60%的词有“输入验证码注册”中的“注册”、“使用邮箱注册”中的“注册”,因此,将“填写本人手机号-获取验证码-输入验证码注册”和“除了使用手机号注册以外,还推荐您使用邮箱注册”作为该问题的第二文本关键内容。
在一些实施例中,可以将第一文本关键内容和第二文本关键内容分别以第一方式和第二方式展示给实体对象,能够帮助用户快速找到关键内容,提升用户体验。第一方式和第二方式可以不同,便于区别第一文本关键内容和第二文本关键内容的不同。
在一些实施例中,第一方式或第二方式可以分别为单独输出所述文本关键内容或在所述至少一个候选答案中高亮展示。例如,可以根据第一预设条件和第二预设条件要求高低,确定第一方式和第二方式,可以将满足更高要求的文本关键内容单独输出,将满足较低要求的文本内容在候选答案中高亮展示。从而,可以使客户更方便地查看最重要的关键内容,通过在候选答案中高亮次要的关键内容,不仅可以保留候选答案的更多内容,还可以减少由于缺乏上下文带来的误解。
图4是根据本说明书的一些实施例所示的基于询问内容从知识库中获取候选答案的示例性流程图。如图4所示,该基于询问内容从知识库中获取候选答案的方法400可以包括:
步骤410,基于所述询问内容从所述知识库中召回至少一个初始候选问题答案对。具体的,该步骤410可以由候选答案确定模块执行。
初始候选问题答案对可以是与询问内容存在相关的问题答案对。在一些实施例中,初始候选问题答案对中的答案可能为该询问内容的答案。在一些实施例中,可以基于询问内容与知识库中的问题答案对中的问题确定初始候选问题答案对,例如,可以将知识库中与询问内容存在一定个数相同或相近的词的问题答案对作为初始候选问题答案对。
在一些实施例中,可以通过召回引擎获取至少一个初始候选问题答案对。具体的,召回引擎可以在知识库中召回与询问内容有交集的问题答案对。例如包含询问内容相同文本的问题答案对,或者包含询问内容中部分文本的问题答案对(例如询问内容为“如何用手机号注册会员”,召回一个的问题答案对中包含文本“如何注册会员”),或者包含与询问内容语义相同或相近的文本的问题答案对(例如询问内容为“如何注册会员”,召回的一个问题答案对中包含文本“怎么成为会员”)。
在一些实施例中,召回引擎可以包括但不限于以下至少之一:ElasticSearch引擎、Sphinx引擎以及Xapian引擎。优选地,可以使用ElasticSearch引擎。该引擎是一个广泛应用的全文搜索引擎,可以快速地储存、搜索和分析海量数据。可以在该引擎中输入询问内容,由该引擎基于全文搜索返回相关知识点。
步骤420,基于所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度确定至少一个候选问题答案对,并将所述至少一个候选问题答案对中的答案作为所述至少一个候选答案。具体的,该步骤420可以由候选答案确定模块执行。
在一些实施例中,计算询问内容与初始候选问题答案对中问题的相似度,可以通过计算询问内容的向量与初始候选问题答案对中问题的向量的相似度而获得。在一些实施例中,可以通过Word2Vec或TF-IDF等提取询问内容的向量以及初始候选问题答案对中问题的向量。在一些实施例中,还可以基于word embedding和BiLSTM提取询问内容的向量以及初始候选问题答案对中问题的向量。其中,word embedding先对询问内容中的词进行向量表示,BiLSTM基于得到的词向量得到询问内容的句向量。
在一些实施例中,可以通过相似度模型计算询问内容的向量与初始候选问题答案对中问题的向量的相似度。具体的,将编码后的询问内容和候选问题对中的问题输入相似度模型中,输出询问内容与候选问题答案对中的答案的相似度。
在一些实施例中,相似度模型可以是ESIM(Enhanced LSTM for NaturalLanguage Inference)模型,ESIM是一种专为自然语言推断设计的加强版长短期记忆网络模型。在一些实施例中,相似度模型也可以是其他模型,本实施例不作限制。
在一些实施例中,可以根据相似度模型可以输出的实体对象询问内容和所述至少一个初始候选问题答案对中问题的相似度确定至少一个候选问题答案对,例如,可以根据相似度排名或者根据相似度是否大于预设阈值确定。在一些实施例中,确定了候选问题答案对后,将候选问题答案对中的答案作为实体对象的询问内容的候选答案。
本说明书实施例还提供一种装置,其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时,导致所述装置实现前述的训练文本关键内容提取模型的方法。所述方法可以包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。
本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机实现前述的训练文本关键内容提取模型的方法。所述方法可以包括:获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;基于多组所述训练样本训练得到文本关键内容提取模型。
本说明书实施例可能带来的有益效果包括但不限于:(1)避免人工标注训练样本的标识,降低了人工成本;(2)从答案中提取出与用户提问最相关的内容展示给用户,用户可以快速确定是否对答案满意。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有土20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (20)

1.一种训练文本关键内容提取模型的方法,包括:
获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;
从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;
拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;
基于多组所述训练样本训练得到文本关键内容提取模型。
2.如权利要求1所述的方法,所述方法还包括:
获取实体对象的询问内容;
基于所述询问内容从知识库中获取至少一个候选答案;
将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容。
3.如权利要求2所述的方法,所述文本关键内容提取模型包含机器阅读理解模型和用于分类的神经网络;
其中,所述机器阅读理解模型基于所述询问内容和/或所述至少一个候选答案中词的上下文确定所述词的向量;
所述用于分类的神经网络基于所述词的向量计算所述词属于不同位置类别的概率,所述位置类别包括:属于所述文本关键内容的起点、属于所述文本关键内容的终点以及属于所述文本关键内容的起点和终点以外的其他位置。
4.如权利要求3所述的方法,所述机器阅读理解模型为BERT模型或BiDAF模型。
5.如权利要求3所述的方法,所述将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容包括:
将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第一预设条件的词分别作为第一文本关键内容的起点或终点;将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第二预设条件的词分别作为第二文本关键内容的起点或终点;
将所述第一文本关键内容和所述第二文本关键内容分别以第一方式和第二方式展示给所述实体对象。
6.如权利要求5所述的方法,所述第一方式或所述第二方式分别为单独输出所述文本关键内容或在所述至少一个候选答案中高亮展示。
7.如权利要求2所述的方法,所述基于所述询问内容从知识库中获取至少一个候选答案包括:
基于所述询问内容从所述知识库中召回至少一个初始候选问题答案对;
基于所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度确定至少一个候选问题答案对;
将所述至少一个候选问题答案对中的答案作为所述至少一个候选答案。
8.如权利要求7所述的方法,基于相似度模型确定所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度。
9.如权利要求8所述的方法,所述相似度模型为ESIM模型。
10.一种训练文本关键内容提取模型的系统,包括:
第一获取模块,用于获取多个问题答案对,所述问题答案对包括问题和所述问题对应的答案;
选择模块,用于从所述多个问题答案对中选取目标问题答案对,并选取其他与所述目标问题答案对不同的问题答案对中的答案作为干扰答案;
训练样本生成模块,用于拼接所述目标问题答案对中的目标答案与所述干扰答案得到拼接答案,将所述拼接答案与所述目标问题答案对中的目标问题作为一组训练样本;所述目标答案为与所述目标问题对应的文本关键内容;所述训练样本的标识为所述目标答案在所述拼接答案中的起点和终点位置;
模型生成模块,用于基于多组所述训练样本训练得到文本关键内容提取模型。
11.如权利要求10所述的系统,所述系统还包括:
第二获取模块,用于获取实体对象的询问内容;
候选答案确定模块,用于基于所述询问内容从知识库中获取至少一个候选答案;
预测模块,用于将所述询问内容和所述至少一个候选答案输入所述文本关键内容提取模型,得到与所述询问内容对应的文本关键内容。
12.如权利要求11所述的系统,所述文本关键内容提取模型包含机器阅读理解模型和用于分类的神经网络;
其中,所述机器阅读理解模型基于所述询问内容和/或所述至少一个候选答案中词的上下文确定所述词的向量;
所述用于分类的神经网络基于所述词的向量计算所述词属于不同位置类别的概率,所述位置类别包括:属于所述文本关键内容的起点、属于所述文本关键内容的终点以及属于所述文本关键内容的起点和终点以外的其他位置。
13.如权利要求12所述的系统,所述机器阅读理解模型为BERT模型或BiDAF模型。
14.如权利要求12所述的系统,所述预测模块用于:
将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第一预设条件的词分别作为第一文本关键内容的起点或终点;将所述至少一个候选答案中属于所述文本关键内容的起点或属于所述文本关键内容的终点的概率满足第二预设条件的词分别作为第二文本关键内容的起点或终点;
将所述第一文本关键内容和所述第二文本关键内容分别以第一方式和第二方式展示给所述实体对象。
15.如权利要求14所述的系统,所述第一方式或所述第二方式分别为单独输出所述文本关键内容或在所述至少一个候选答案中高亮展示。
16.如权利要求11所述的系统,所述候选答案确定模块用于:
基于所述询问内容从所述知识库中召回至少一个初始候选问题答案对;
基于所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度确定至少一个候选问题答案对,将所述至少一个候选问题答案对中的答案作为所述至少一个候选答案。
17.如权利要求16所述的系统,所述候选答案确定模块用于:
基于相似度模型确定所述询问内容与所述至少一个初始候选问题答案对中的问题之间的相似度。
18.如权利要求17所述的系统,所述相似度模型为ESIM模型。
19.一种训练文本关键内容提取模型的装置,包括至少一个存储介质和至少一个处理器,所述存储介质用于存储计算机指令;所述处理器用于执行训练文本关键内容提取模型的方法。
20.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行训练文本关键内容提取模型的方法。
CN202010114332.8A 2020-02-24 2020-02-24 一种训练文本关键内容提取模型的方法和系统 Active CN111309887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010114332.8A CN111309887B (zh) 2020-02-24 2020-02-24 一种训练文本关键内容提取模型的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010114332.8A CN111309887B (zh) 2020-02-24 2020-02-24 一种训练文本关键内容提取模型的方法和系统

Publications (2)

Publication Number Publication Date
CN111309887A true CN111309887A (zh) 2020-06-19
CN111309887B CN111309887B (zh) 2023-04-14

Family

ID=71158360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010114332.8A Active CN111309887B (zh) 2020-02-24 2020-02-24 一种训练文本关键内容提取模型的方法和系统

Country Status (1)

Country Link
CN (1) CN111309887B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737443A (zh) * 2020-08-14 2020-10-02 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法
CN111949769A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置
CN112328777A (zh) * 2021-01-05 2021-02-05 北京金山数字娱乐科技有限公司 一种答案检测方法及装置
CN112347760A (zh) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 意图识别模型的训练方法及装置、意图识别方法及装置
CN113159187A (zh) * 2021-04-23 2021-07-23 北京金山数字娱乐科技有限公司 分类模型训练方法及装置、目标文本确定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307435A1 (en) * 2010-05-14 2011-12-15 True Knowledge Ltd Extracting structured knowledge from unstructured text
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109816111A (zh) * 2019-01-29 2019-05-28 北京金山数字娱乐科技有限公司 阅读理解模型训练方法以及装置
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置
CN110543631A (zh) * 2019-08-23 2019-12-06 上海深芯智能科技有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110307435A1 (en) * 2010-05-14 2011-12-15 True Knowledge Ltd Extracting structured knowledge from unstructured text
CN108959396A (zh) * 2018-06-04 2018-12-07 众安信息技术服务有限公司 机器阅读模型训练方法及装置、问答方法及装置
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109816111A (zh) * 2019-01-29 2019-05-28 北京金山数字娱乐科技有限公司 阅读理解模型训练方法以及装置
CN110543631A (zh) * 2019-08-23 2019-12-06 上海深芯智能科技有限公司 机器阅读理解的实现方法、装置、存储介质及电子设备
CN110516059A (zh) * 2019-08-30 2019-11-29 腾讯科技(深圳)有限公司 基于机器学习的问题答复方法、问答模型训练方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737443A (zh) * 2020-08-14 2020-10-02 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法
CN111737443B (zh) * 2020-08-14 2020-11-20 支付宝(杭州)信息技术有限公司 答案文本的处理方法和装置、关键文本的确定方法
CN111949769A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置
CN111949769B (zh) * 2020-08-23 2024-03-12 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置
CN112347760A (zh) * 2020-11-16 2021-02-09 北京京东尚科信息技术有限公司 意图识别模型的训练方法及装置、意图识别方法及装置
CN112328777A (zh) * 2021-01-05 2021-02-05 北京金山数字娱乐科技有限公司 一种答案检测方法及装置
CN112328777B (zh) * 2021-01-05 2021-04-23 北京金山数字娱乐科技有限公司 一种答案检测方法及装置
CN113159187A (zh) * 2021-04-23 2021-07-23 北京金山数字娱乐科技有限公司 分类模型训练方法及装置、目标文本确定方法及装置

Also Published As

Publication number Publication date
CN111309887B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN111309887B (zh) 一种训练文本关键内容提取模型的方法和系统
CN109493166B (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
CN110175227B (zh) 一种基于组队学习和层级推理的对话辅助系统
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN107330130A (zh) 一种向人工客服推荐回复内容的对话机器人的实现方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN107071193B (zh) 互动应答系统接入用户的方法和装置
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN108804677A (zh) 结合多层级注意力机制的深度学习问题分类方法及系统
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN111353033B (zh) 一种训练文本相似度模型的方法和系统
CN111159367B (zh) 一种信息处理方法及相关设备
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN107609185A (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN111339309B (zh) 一种用户意图的语料扩展方法和系统
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN109325780A (zh) 一种面向电子政务领域的智能客服系统的交互方法
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN114491023A (zh) 一种文本处理方法、装置、电子设备和存储介质
CN111353290B (zh) 一种自动响应用户询问的方法和系统
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN112395887A (zh) 对话应答方法、装置、计算机设备和存储介质
CN111324722B (zh) 一种训练词语权重模型的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant