CN111143454B - 一种文本输出方法、装置及可读存储介质 - Google Patents

一种文本输出方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111143454B
CN111143454B CN201911364668.3A CN201911364668A CN111143454B CN 111143454 B CN111143454 B CN 111143454B CN 201911364668 A CN201911364668 A CN 201911364668A CN 111143454 B CN111143454 B CN 111143454B
Authority
CN
China
Prior art keywords
text
target
attribute
word unit
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911364668.3A
Other languages
English (en)
Other versions
CN111143454A (zh
Inventor
闫昭
刘绩刚
张士卫
张倩汶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911364668.3A priority Critical patent/CN111143454B/zh
Publication of CN111143454A publication Critical patent/CN111143454A/zh
Application granted granted Critical
Publication of CN111143454B publication Critical patent/CN111143454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本申请实施例公开了一种文本输出方法、装置及可读存储介质;本申请实施例可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。该方案能够提高文本输出的准确度。

Description

一种文本输出方法、装置及可读存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本输出方法、装置及可读存储介质。
背景技术
信息抽取技术是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的技术,例如,可以从给定的文档中抽取出一系列<实体、属性、属性值>信息,并将抽取到的信息采用文本的方式进行表示。
现有的信息抽取的方法大致有两类:第一类是流水线型的方法,即把提取“实体”与“属性值”当成其中一个子任务,把识别“属性”类型当成是判断“实体”与“属性值”之间关系的另一个子任务,最后通过一个流水线,将两个子任务串行起来,实现元组的抽取;第二类是基于联合模型的方法,即通过一个多任务学习模型,同时实现“实体”与“属性值”的抽取,以及“属性”类型的判断,进而实现元组的抽取,这类方法中,目前是使用两个或者多个神经网络,其中一个进行实体和属性值的抽取,另一个进行属性类型的识别。
在对现有技术的研究和实践过程中,本发明的发明人发现,采用目前的信息抽取方法,难以从给定文档中准确地抽取信息。比如,采用上述第一类方法时,由于两个子任务是通过流水线进行连接,因此,前序任务中的错误会传导至后续任务,使得整体的信息抽取质量不高,从而导致对抽取信息进行文本输出的准确度不高。
发明内容
本申请实施例提供一种文本输出方法、装置及可读存储介质,可以提高文本输出的准确度。
本申请实施例提供一种文本输出方法,包括:
获取目标文本、以及所述目标文本对应的目标内容属性;
生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;
根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;
将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;
根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;
将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。
相应的,本申请实施例还提供了一种文本输出装置,包括:
获取单元,用于获取目标文本、以及所述目标文本对应的目标内容属性;
生成单元,用于生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;
第一确定单元,用于根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;
问题融合单元,用于将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;
第二确定单元,用于根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;
答案融合单元,用于将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。
在一些实施例中,所述生成单元,具体用于:
获取第一映射关系集合和第二映射关系集合,所述第一映射关系集合包括文本与实体问题文本之间的映射关系,所述第二映射关系集合包括内容属性与至少一个属性问题文本之间的映射关系;
通过所述第一映射关系集合和所述目标文本,确定所述目标文本对应的目标实体问题文本;
通过所述第二映射关系集合和所述目标内容属性,确定所述目标内容属性对应的至少一个候选属性问题文本。
在一些实施例中,所述目标实体问题文本包括至少一个子目标实体问题文本,所述第一确定单元,包括:
确定子单元,用于根据所述目标文本、以及所述至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本;
融合子单元,用于将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
在一些实施例中,所述确定子单元,用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、每个子目标实体问题文本中实体问题文本字单元的实体问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述实体问题文本字单元的实体问题文本字单元向量,预测所述目标文本字单元的目标文本字单元概率、所述实体问题文本字单元的实体问题文本字单元概率,其中,所述目标文本字单元概率为所述目标文本字单元为候选实体起止字单元的概率,所述实体问题文本字单元概率为所述实体问题文本字单元为候选实体起止字单元的概率;
基于所述目标文本字单元的目标文本字单元概率、以及所述实体问题文本字单元的实体问题文本字单元概率,确定每个子目标实体问题文本对应的实体文本。
在一些实施例中,所述确定子单元,具体用于:
根据所述目标文本字单元概率和所述实体问题文本字单元概率,从所述目标文本字单元和所述实体问题文本字单元中,确定实体起始字单元和实体终止字单元;
根据实体起始字单元和实体终止字单元,构建每个子目标实体问题文本对应的实体文本。
在一些实施例中,所述融合子单元,具体用于:
获取目标实体问题文本中每个子目标实体问题文本的权重;
基于每个子目标实体问题文本的权重,设置每个实体文本的权重;
根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
在一些实施例中,所述融合子单元,具体用于:
从所有实体文本中确定文本内容相同的相同实体文本;
对相同实体文本进行文本去重以及权重融合,得到去重后实体文本、以及去重后实体文本对应的权重;
根据去重后实体文本对应的权重,从去重后实体文本中确定目标实体问题文本对应的目标实体文本。
在一些实施例中,所述第二确定单元,具体用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,标注所述目标文本字单元的字单元类别、所述属性问题文本字单元的字单元类别,其中,字单元类别包括:属性答案字单元类别、非属性答案字单元类别;
基于所述目标文本字单元的字单元类别、以及所述属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本。
具体地,所述第二确定单元,具体用于:
根据所述目标文本字单元的字单元类别和所述属性问题文本字单元的字单元类别,从所述目标文本字单元和所述属性问题文本字单元中,确定作为候选属性答案的字单元;
根据所述候选属性答案的字单元,构建每个目标属性问题文本对应的候选属性答案文本。
在一些实施例中,所述第二确定单元,还可以用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,预测所述目标文本字单元的目标文本字单元概率、所述属性问题文本字单元的属性问题文本字单元概率,其中,所述目标文本字单元概率为所述目标文本字单元为参考属性答案起止字单元的概率,所述属性问题文本字单元概率为所述属性问题文本字单元为参考属性答案起止字单元的概率;
基于所述目标文本字单元的目标文本字单元概率、以及所述属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本。
具体地,所述第二确定单元,具体用于:
根据所述目标文本字单元概率和所述属性问题文本字单元概率,从所述目标文本字单元和所述属性问题文本字单元中,确定候选属性答案起始字单元和候选属性答案终止字单元;
根据候选属性答案起始字单元和候选属性答案终止字单元,构建每个目标属性问题文本对应的候选属性答案文本。
在一些实施例中,所述答案融合单元,包括:
获取子单元,用于获取所述至少一个候选属性问题文本对应的权重;
设置子单元,用于基于每个候选属性问题文本的权重,设置每个候选属性答案文本的权重;
答案融合子单元,用于根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
在一些实施例中,所述答案融合子单元,用于:
从所有候选属性答案文本中确定文本内容相同的相同候选属性答案文本;
对相同候选属性答案文本进行文本去重以及权重融合,得到去重后候选属性答案文本、以及去重后候选属性答案文本对应的权重;
根据去重后候选属性答案文本对应的权重,从所述去重后候选属性答案文本中确定并输出目标内容属性对应的目标属性答案文本。
相应的,本申请还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本申请实施例提供的任一种文本输出方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的任一种文本输出方法中的步骤。
本申请实施例可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。由于该方案能够根据目标文本以及目标内容属性对应的至少一个目标属性问题文本,得到所有目标属性问题文本对应的候选属性答案文本,然后,通过将所有候选属性答案文本进行融合从而得到目标属性对应的目标属性答案文本,也即:通过将针对属性的多种问法所产生的多个属性答案文本进行融合,使得输出的目标属性答案文本的准确度大大提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的文本输出方法的场景示意图;
图1b是本申请实施例提供的文本输出方法的流程示意图;
图1c是本申请实施例提供的机器阅读理解模型的结构示意图;
图1d是本申请实施例提供的机器阅读理解模型的另一结构示意图;
图1e是本申请实施例提供的文本输出方法中采用机器阅读理解模型抽取信息的示例图;
图1f是本申请实施例提供的文本输出方法中知识抽取的流程示意图;
图2a是本申请实施例提供的文本输出方法的另一流程示意图;
图2b是本申请实施例提供的文本输出方法中设置属性值的场景示意图;
图2c是本申请实施例提供的文本输出方法中显示抽取结果的场景示意图;
图2d是本申请实施例提供的文本输出方法中知识抽取的场景示意图;
图2e是本申请实施例提供的区块链的结构示意图;
图2f是本申请实施例提供的区块链的另一结构示意图;
图3a是本申请实施例提供的文本输出装置的结构示意图;
图3b是本申请实施例提供的文本输出装置的另一结构示意图;
图3c是本申请实施例提供的文本输出装置的另一结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种文本输出方法、装置、计算机设备和计算机可读存储介质。其中,该文本输出装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例提供的文本输出方案涉及人工智能的自然语言处理(NLP,NatureLanguage processing)。可以通过人工智能的自然语言处理技术实现从问题文本和特定文本中提取并输出问题文本对应的答案文本。
其中,自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器阅读理解、机器翻译、机器人问答、知识图谱等技术。
例如,参见图1a,以该文本输出装置集成在计算机设备中为例,该计算机设备可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从文本输出装置的角度进行描述,该文本输出装置具体可以集成在计算机设备中,例如,文本输出装置可以是设置于计算机设备中的实体装置,或者文本输出装置可以以客户端的形式集成在计算机设备中。该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、个人计算机(PC,Personal Computer)、微型处理盒子、或者其他设备等。
如图1b所示,该文本输出方法的具体流程可以如下:
101、获取目标文本、以及目标文本对应的目标内容属性。
其中,目标文本是指需要从中抽取特定信息的文本,该目标文本可以为描述不同文化领域的文本,比如,可以为描述人物的文本、也可以为描述文化旅游的文本、或者可以为描述城市地理的文本,等等,所抽取的特定信息可以表现为目标文本中所包含的一系列<实体,属性,属性值>等信息,其中,实体可以为某个文档所描述或反映的主题,属性则是与该主题相关联的一系列特性,属性值是用来定义属性的特征或参数。
其中,目标内容属性可以为表征目标文本的文本内容具有反映某一主题领域特征的信息,是用来描述与刻画该领域的知识结构,比如,对于描述人物领域,其属性可以包括“姓名”、“性别”、“年龄”以及“出生日期”等,而对于描述文化旅游领域,其属性可以包括“景点名称”、“地理位置”、“门票价格”、“景区等级”、“开放时间”,等等。
例如,以描述文化旅游领域的一段文本为例:“北京故宫是中国明清两代的皇家宫殿,旧称紫禁城,位于北京中轴线的中心,是中国古代宫廷建筑之精华。北京故宫以三大殿为中心,占地面积72万平方米,建筑面积约15万平方米,有大小宫殿七十多座,房屋九千余间。是世界上现存规模最大、保存最为完整的木质结构古建筑之一。”该段文本中包含一组<实体,属性,属性值>信息如表1所示:
实体 属性 属性值
北京故宫 构建年代 明清
北京故宫 别称 紫禁城
北京故宫 占地面积 72万平方米
北京故宫 建筑类型 木质结构古建筑
表1
其中,获取目标文本的方式可以有多种,比如,具体可以是接收用户在某一知识提取管理工具中通过网络上传的文本,也可以是在给定多个文本(即文本集合)的情况下,通过用户对任一文本所执行的选择操作获取得到,等等。
其中,目标内容属性可以是由用户设置,也可以是由标注人员预设的内容属性,即可以是由标注人员针对不同领域主题预先设计的内容属性。获取目标文本对应的目标内容属性可以有多种,例如,可以是获取用户在知识提取管理工具中设置的目标内容属性,也可以当接收到用户上传的指定某一主题领域的目标文本后,获取针对该领域所预设的目标内容属性;或者,当接收到目标文本后,对目标文本进行检测,当检测到目标文本所属的主题领域后,从预设的内容属性库中,获取针对该主题领域所预设的目标内容属性,等等。其中,预设的内容属性可以根据实际需求进行设置。
102、生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本。
其中,目标实体问题文本是指包含实体问题信息的文本,是将针对目标文本中的实体所提出的问题采用文本表示,比如,“上文描述的是什么(谁、哪里、啥)?”、“这段文字说的是哪个人(景区、地方)?”,等等。候选属性问题文本为包含有属性问题信息的文本,是将针对目标内容属性所提出的问题采用文本表示,例如,针对文化旅游领域中“地理位置”这一属性,可以提出多种不同的问法如“[实体名称]在什么位置”、“[实体名称]在哪里”,“[实体名称]位于什么地方”,等等,其中,[实体名称]为目标文本的一组<实体,属性,属性值>中待确定的实体的名称。
在一实施例中,生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本,可以采用预先设置的问题文本生成,具体地,步骤“生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本”,可以包括:
获取第一映射关系集合和第二映射关系集合,第一映射关系集合包括文本与实体问题文本之间的映射关系,第二映射关系集合包括内容属性与至少一个属性问题文本之间的映射关系;
通过第一映射关系集合和目标文本,确定目标文本对应的目标实体问题文本;
通过第二映射关系集合和目标内容属性,确定目标内容属性对应的至少一个候选属性问题文本。
其中,实体问题文本与属性问题文本可以为预设的问题文本,比如,可以是由标注人员预先对针对实体、以及属性的不同问法进行收集得到。其中,针对实体、以及属性所提出的不同问法,可以是由标注人员预先分别针对实体、以及属性所撰写的一组(即至少一种)不同的问法。例如,针对实体可以撰写出“上文描述的是什么(谁、哪里、啥)?”、“这段文字说的是哪个人(景区、地方)?”等问法;针对内容属性如“地理位置”,可以撰写出“在什么位置”、“在哪里”,“位于什么地方”等问法。
在一实施例中,为了应对目标内容属性是由用户自行设置的情况,目标内容属性对应的至少一个候选属性问题文本还可以采用预设的通用问法自动生成,例如,“[实体名称]的[属性名称]是什么”、“[实体名称]的[属性名称]是啥”,其中,[属性名称]可以是在已给定目标内容属性的情况下,使用给定的实际的属性名称替换通用问法中的[属性名称],如“[实体名称]的地理位置是什么”、“[实体名称]的地理位置是啥”,等等。
103、根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本。
其中,目标实体问题文本包括至少一个子目标实体问题文本,例如,“上文描述的是什么(谁、哪里、啥)?”、“这段文字说的是哪个人(景区、地方)?”,等等。具体地,步骤“根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本”可以包括:
根据目标文本、以及至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本;
将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
其中,确定每个子目标实体问题文本对应的实体文本的过程,可以理解为根据问题从给定的文本中确定该问题所对应的答案的过程。本申请实施例可以基于机器阅读理解技术(MRC,Machine Reading Comprehension)从给定的文本中进行信息的抽取,比如,在给出特定文本和问题文本的情况下,可以采用机器阅读理解模型(即MRC模型)从特定文本(即目标文本)和问题文本中抽取出问题文本对应的答案文本,参见图1c。具体地,步骤“根据所述目标文本、以及所述至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本”,可以包括:
生成目标文本中目标文本字单元的目标文本字单元向量、每个子目标实体问题文本中实体问题文本字单元的实体问题文本字单元向量;
根据目标文本字单元的目标文本字单元向量和实体问题文本字单元的实体问题文本字单元向量,预测目标文本字单元的目标文本字单元概率、实体问题文本字单元的实体问题文本字单元概率,其中,目标文本字单元概率为目标文本字单元为候选实体起止字单元的概率,实体问题文本字单元概率为实体问题文本字单元为候选实体起止字单元的概率;
基于目标文本字单元的目标文本字单元概率、以及实体问题文本字单元的实体问题文本字单元概率,确定每个子目标实体问题文本对应的实体文本。
其中,字单元可以为文本中的每一个字或是每一个词,在本申请实施例中,可以分别以目标文本、每个子目标实体问题文本中的每个字(或词)为单元进行字单元切分,从而得到目标文本的目标文本字单元(即目标文本中的每个字或词)、以及每个子目标实体问题文本的实体问题文本字单元(即子目标实体问题文本中的每个字或词)。
本申请实施例可以采用神经网络编码器对目标文本的目标文本字单元、以及每个子目标实体问题文本的实体问题文本字单元进行编码,从而生成目标文本中目标文本字单元的目标文本字单元向量、以及子目标实体问题文本中实体问题文本字单元的实体问题文本字单元向量。
其中,神经网络编码器为基于神经网络进行编码的编码器。神经网络编码器可以为基于变压器的双向编码器表征模型(BERT,Bidirectional Encoder Representationsfrom Transformers)、ELMO模型、或R-Net模型,等等。神经网络编码器可以对输入的文本进行编码,从而生成文本对应的词或字向量的表示。如图1c所示,其中,输入的问题文本中的每个字单元可以表示为Tokq1、Tokq2……Tokqn,目标文本中的每个字字单元可以表示为Tokd1、Tokd2……Tokdn。首先,将问题文本中的每个字单元采用向量表示为Eq1、Eq2……Eqn,将目标文本字单元中的每个字单元采用向量表示为Ed1、Ed2……Edn,使用神经网络编码器对采用向量表示后的实体问题文本字单元和目标文本字单元分别进行编码,得到问题文本中字单元的字单元向量为Tq1、Tq2……Tqn、以及目标文本中目标文本字单元的字单元向量为Td1、Td2……Tdn。其中,为对实体问题文本字单元和目标文本字单元进行分类标志,可以在二者的首尾和中间位置加入特殊符号(如开始字符[cls]和分隔字符[sep])进行拼接,共同作为模型的输入,需要说明的是,输入的问题文本和目标文本的拼接方式可以根据选用模型的不同作相应的改变。
本申请实施例可以在生成目标文本的目标文本字单元向量、以及每个子目标实体问题文本的实体问题文本字单元向量后,可以采用答案位置预测神经网络来预测目标文本字单元的目标文本字单元概率、以及实体问题文本字单元的实体问题文本字单元概率,参见图1c。具体地,可以采用全连接网络分别对目标文本字单元向量、以及实体问题文本字单元向量进行线性变换,得到变换后的目标文本字单元向量、以及变换后的实体问题文本字单元向量,然后,通过全连接网络分别对变换后的目标文本字单元向量、以及变换后的实体问题文本字单元向量进行分类,从而得到目标文本字单元中每个字单元作为候选实体起始字的概率和终止字的概率,以及实体问题文本字单元中每个字单元为候选实体起始字的概率和终止字的概率。
例如,以子目标实体问题文本“上文描述的是什么”为例,该文本中的每一个字都会对应输出两个概率,即作为候选实体起始字的概率和作为候选实体终止字的概率。
在一实施例中,可以通过目标文本字单元概率、以及实体问题文本字单元概率确定每个子目标实体问题文本对应的实体文本。具体的,步骤“基于目标文本字单元的目标文本字单元概率、以及实体问题文本字单元的实体问题文本字单元概率,确定每个子目标实体问题文本对应的实体文本”,可以包括:
根据目标文本字单元概率和实体问题文本字单元概率,从目标文本字单元和实体问题文本字单元中,确定实体起始字单元和实体终止字单元;
根据实体起始字单元和实体终止字单元,构建每个子目标实体问题文本对应的实体文本。
例如,在得到目标文本字单元和实体问题文本字单元中每个字单元作为实体起止字单元的概率分布情况后,可以选取起始位置概率最高的字单元作为实体的起始字单元、以及选取终止位置概率最高的字单元作为实体的终止字单元,然后,抽取出起始字单元与终止字单元之间(包括起始字单元和终止字单元)连续的字单元序列作为子目标实体问题文本对应的实体文本。如图1c所示,答案位置预测神经网络层的输出结果即是由作为实体起始字单元的Tokd1和作为实体终止字单元的Tokd2构成的实体文本。需要说明的是,在此过程中,排除实体的起始字单元的位置在终止字单元之后,和/或实体的起始字单元和终止字单元均为特殊符号的情况。
目标文本分别与每个子目标实体问题文本作为神经网络编码器的输入,继而通过答案位置预测神经网络确定每个子目标实体问题文本对应的实体文本。在一实施例中,得到目标实体问题对应的目标实体文本,可以将每个实体文本进行融合得到,具体地,步骤“将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本”,可以包括:
获取目标实体问题文本中每个子目标实体问题文本的权重;
基于每个子目标实体问题文本的权重,设置每个实体文本的权重;
根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
其中,子目标实体问题文本对应的权重可以为预设第一权重,例如,预设第一权重可以是基于对部分样本文本进行测试得到,比如,可以是在对样本文本的实体信息进行抽取的过程中,根据每种问法所得结果的正确率来设置每种问法的权重,比如,针对问法“上文描述的是什么”所得的实体结果有60%是正确的,则该问法对应的权重为0.6。其中,预设第一权重可以根据实际应用的需求进行设置。
在一实施例中,目标实体问题文本包括至少一个子目标实体问题文本,每个子目标实体问题文本对应一个实体文本,因此,目标实体问题文本对应的目标实体文本可以是将所有的实体文本进行融合得到,步骤“根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本”,可以包括:
从所有实体文本中确定文本内容相同的相同实体文本;
对相同实体文本进行文本去重以及权重融合,得到去重后实体文本、以及去重后实体文本对应的权重;
根据去重后实体文本对应的权重,从去重后实体文本中确定目标实体问题文本对应的目标实体文本。
104、将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本。
其中,融合的方式可以有多种,例如,具体可以将目标实体文本分别嵌入到至少一个候选属性问题文本的预设位置中,从而生成目标内容属性对应的至少一个目标属性问题文本。
例如,以文化旅游领域中“地理位置”这一属性为目标内容属性为例,可以提出多种不同的问法如“[实体名称]在什么位置”、“[实体名称]在哪里”,“[实体名称]位于什么地方”等。假设目标实体文本的文本内容为“北京故宫”,则将其与“地理位置”属性的多种问法进行融合后,可以生成至少一个目标属性问题文本如“北京故宫在什么位置”、“北京故宫在哪里”、“北京故宫位于什么地方”,等等。
其中,预设位置可以由标注人员根据实际应用的需求进行设置。
105、根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本。
其中,目标属性问题文本为目标内容属性对应的至少一个目标属性问题文本,在一实施例中,每个目标属性问题文本对应的候选属性答案文本包括单一片段文本(即单值)和多个片段文本(即多值)。其中,候选属性答案文本为单一片段文本,或者是多个片段文本取决于目标内容属性为单值属性或多值属性,而目标内容属性为单值属性或是多值属性,可以通过用户在设置目标内容属性的过程中指定,也可以是由标注人员预先设定。
其中,根据目标文本、以及至少一个目标属性问题文本,确定目标属性问题文本对应的候选属性答案文本,可以理解为根据问题从给定的文本中确定该问题所对应的答案的过程。本申请实施例可以基于机器阅读理解技术从给定的文本中进行信息的抽取,比如,MRC模型还可以为如图1d所示的结构,可以在给出特定文本和问题文本的情况下,从特定文本(即目标文本)和问题文本中抽取出问题文本对应的答案文本。
在一实施例中,当目标内容属性为多值属性时,步骤“根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本”,可以包括:
生成目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据目标文本字单元的目标文本字单元向量和属性问题文本字单元的属性问题文本字单元向量,标注目标文本字单元的字单元类别、属性问题文本字单元的字单元类别,其中,字单元类别包括:属性答案字单元类别、非属性答案字单元类别;
基于目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本。
本申请实施例可以采用神经网络编码器如BERT模型对目标文本的目标文本字单元、以及每个目标属性问题文本的属性问题文本字单元进行编码,从而生成目标文本中目标文本字单元的目标文本字单元向量、以及目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量,参见图1d。
在一实施例中,在生成目标文本字单元向量、以及属性问题文本字单元向量后,可以采用序列标注模型分别对目标文本字单元向量、以及属性问题文本字单元向量进行类别标注,从而得到目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别。
其中,序列标注模型可以为条件随机场模型(CRF,Conditional Random Field)、最大熵模型(The Maximum Entropy Principle)或隐马尔可夫模型(HMM,Hidden MarkovModel)等。序列标注模型可以对输入文本(如问题文本、目标文本等)中的每个字单元的进行类别标注,从而得到每个字单元的类别,例如,可以采用类别标签“B”、“I”、“E”、“O”、“S”对字单元进行标注。其中,标签“B”代表该字单元作为答案的开始字符,标签“M”代表该字单元作为答案的中间字符,标签“E”代表该字单元是答案的结束字符,标签“S”代表该字单元即为答案,标签“O”则表示该字单元不为答案。如图1d所示,序列标注模型的输出结果即是对问题文本和目标文本中每个字单元的类别表示。
在一实施例中,根据目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别,可以确定目标属性问题文本对应的候选属性答案文本,具体地,步骤“基于目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本”,可以包括:
根据目标文本字单元的字单元类别和属性问题文本字单元的字单元类别,从目标文本字单元和属性问题文本字单元中,确定作为候选属性答案的字单元;
根据候选属性答案的字单元,构建每个目标属性问题文本对应的候选属性答案文本。
如图1d所示,序列标注模型的输出为问题文本与目标文本中每个字单元对应的字单元类别,其中,答案文本即是由采用类别标签“B”和类别标签“E”表示的字单元Tokd1和字单元Tokd2组成。
在一实施例中,当目标内容属性为单值属性时,则步骤“根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本”,可以包括:
生成目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据目标文本字单元的目标文本字单元向量和属性问题文本字单元的属性问题文本字单元向量,预测目标文本字单元的目标文本字单元概率、属性问题文本字单元的属性问题文本字单元概率,其中,目标文本字单元概率为目标文本字单元为参考属性答案起止字单元的概率,属性问题文本字单元概率为属性问题文本字单元为参考属性答案起止字单元的概率;
基于目标文本字单元的目标文本字单元概率、以及属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本。
例如,可以采用神经网络编码器生成目标文本字单元的目标文本字单元向量、以及属性问题文本字单元的属性问题文本字单元向量。在一实施例中,在生成字单元向量后,可以采用答案位置预测神经网络如全连接网络预测目标文本字单元的目标文本字单元概率、以及属性问题文本字单元的属性问题文本字单元概率,具体地,可以采用全连接网络分别对目标文本字单元向量、以及属性问题文本字单元向量进行线性变换,得到变换后的目标文本字单元向量、以及变换后的属性问题文本字单元向量,然后,使用全连接网络分别对变换后的目标文本字单元向量、以及变换后的属性问题文本字单元向量进行分类,从而得到目标文本字单元中每个字单元的作为参考属性答案起止字单元的概率、以及属性问题文本字单元中每个字单元作为参考属性答案起止字单元的概率。
在一实施例中,通过目标文本字单元概率、以及属性问题文本字单元概率可以确定目标属性问题文本对应的候选属性答案文本,具体地,步骤“基于目标文本字单元的目标文本字单元概率、以及属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本”,可以包括:
根据目标文本字单元概率和属性问题文本字单元概率,从目标文本字单元和属性问题文本字单元中,确定候选属性答案起始字单元和候选属性答案终止字单元;
根据候选属性答案起始字单元和候选属性答案终止字单元,构建每个目标属性问题文本对应的候选属性答案文本。
例如,在得到目标文本字单元和属性问题文本字单元中每个字单元作为候选属性答案起止字单元的概率分布情况后,可以选取起始位置概率最高的字单元作为候选属性答案的起始字单元、以及选取终止位置概率最高的字单元作为候选属性答案的终止字单元,然后,抽取出起始字单元与终止字单元之间(包括起始字单元和终止字单元)连续的字单元序列作为目标属性问题文本对应的候选属性答案文本。需要说明的是,在此过程中,排除实体的起始字单元的位置在终止字单元之后,和/或实体的起始字单元和终止字单元均为特殊符号的情况。
106、将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
其中,融合的方式可以有多种,比如,可以采用加权融合的方式将所有候选属性答案文本进行融合,具体可以如下:
获取至少一个候选属性问题文本对应的权重;
基于每个候选属性问题文本的权重,设置每个候选属性答案文本的权重;
根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
其中,至少一个候选属性问题文本对应的权重可以为预设权重,例如,可以是基于对部分样本文本进行测试的过程中得到,比如,可以是在对样本文本的一组<实体、属性、属性值>中属性值(即目标属性答案文本)进行抽取的过程中,根据每种问法所得结果的正确率来设置每种问法的权重,比如,针对问法“[实体名称]在哪里”所得到的答案有80%是正确的,则该问法对应的权重为0.8。其中,预设第二权重可以根据实际应用的需求进行设置。
其中,目标内容属性对应的目标属性答案文本,可以理解为目标文本的一组<实体,属性,属性值>中属性对应的属性值。由于每个属性对应多个属性问题,因此属性对应的属性值可以是将多个属性问题对应的属性答案进行融合,从而最终得到属性对应的属性值(即目标属性答案)。具体地,步骤“根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本”,可以包括:
从所有候选属性答案文本中确定文本内容相同的相同候选属性答案文本;
对相同候选属性答案文本进行文本去重以及权重融合,得到去重后候选属性答案文本、以及去重后候选属性答案文本对应的权重;
根据去重后候选属性答案文本对应的权重,从去重后候选属性答案文本中确定并输出目标内容属性对应的目标属性答案文本。
例如,给定一段描述故宫的文本、以及“景点位置”的属性,对关于“景点位置”属性的不同问法的抽取结果如表2所示,问法“[实体名称]在哪里”的权重为0.8、“[实体名称]在什么地方”对应的权重为0.75、“[实体名称]的地址是什么”对应的权重为0.7,每个问法分别对应抽取结果“北京”、“北京市”、“北京”,在对相同抽取结果文本进行加权求和后,抽取结果“北京”的最终权值是0.8+0.7=1.5;“北京市”的最终权值是0.75,因此,将“北京”作为“景点位置”这一属性的最终结果(即目标属性答案文本)。
“景点位置”对应问法 投票权重 结果
[实体名称]在哪里 0.8 北京
[实体名称]在什么地方 0.75 北京市
[实体名称]的地址是什么 0.7 北京
表2
在一实施例中,在采用神经网络编码器生成输入文本中字单元的字单元向量后,还可以引入匹配特征向量以增强文本输出的精准度,即将匹配特征向量与字单元向量进行融合(如拼接)。其中,匹配特征向量是将文本相关的特征(如:领域特征、词性特征、和/或词汇重叠特征等)采用向量进行表示,其中,领域特征向量为表征文本所属领域的特征如人物领域特征、文化旅游领域特征等;词性特征用来标志文本中字单元的词性,包括名词、动词和形容词等词性类别;词汇重叠特征用来标志问题文本中的字单元是否出现在目标文本的字单元中,或目标文本中的字单元是否出现在问题文本的字单元中。在一实施例中,为提高MRC模型对文本信息抽取的准确度,MRC模型还可以包括高速路网络层(HighwayNetworks)、双向门控循环(BiGRU,BidirectionalGated Recurrent Unit)神经网络层等,用来对融合匹配特征向量后的字单元向量进行特征提取,以提高MRC模型对输入文本的信息抽取的准确性。参见图1e,为MRC模型对关于“北京故宫”的一段简介文本的实体与属性对应的属性值进行抽取的过程,其中,将简介本文与实体对应的问题文本(如:这篇文章讲的是什么地方)作为模型的输入,可以输出(即抽取出)实体问法对应的实体名称即“北京故宫”,在得到实体名称后,将实体名称“北京故宫”与属性“面积”对应的多个问法(如:[实体]的面积是多少、[实体]面积有多大、[实体]占地范围是多大等)进行融合,生成属性对应的多个融合后属性问题(如:北京故宫的面积是多少、北京故宫面积有多大、北京故宫占地范围是多大等),将简介文本分别与属性对应的每个融合后属性问题文本输入至MRC模型,可抽取出每个融合后属性问题对应的属性值文本(如:72万平方米、72万平方米、南北长961米等),将抽取出的多个属性值文本进行融合,可以得到每个属性对应的属性值,得到一组<实体,属性,属性值>信息如<北京故宫,面积,72万平方米>。
在一实施例中,本申请实施例提供的文本输出方案可以以知识抽取工具的形式实现,具体地,抽取的流程如图1f所示,其中模型的输入包括待抽取的属性列表1和文档集合5,输出是一系列<实体,属性,属性值>的集合7。整个抽取过程包括:问法收集过程、实体抽取过程、问题生成过程、属性值抽取过程以及属性值融合过程。
由上可知,本申请实施例可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。由于该方案能够生成目标内容属性对应的至少一个候选属性问题文本,并从目标文本和至少一个候选属性问题文本中确定所有候选属性问题文本对应的候选属性答案文本,然后通过将所有候选属性答案文本进行融合,得到目标内容属性对应的目标属性答案文本,也即:通过将属性对应的多个问法所产生的属性答案进行融合以得到属性对应的目标属性答案,从而使得最终输出的目标属性答案文本的准确度大大提升。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本输出装置具体集成在计算机设备中为例进行说明。
如图2a所示,一种文本输出方法,具体流程可以如下:
201、计算机设备获取目标文本、以及目标文本对应的目标内容属性。
其中,计算机设备获取目标文本的方式可以有多种,比如,具体可以是接收用户在某一知识提取管理工具中通过网络上传的文本,也可以是在给定多个文本(即文本集合)的情况下,通过用户对任一文本所执行的选择操作获取得到,等等。
其中,目标内容属性可以是由用户设置,也可以是由标注人员预设的内容属性,即可以是由标注人员针对不同领域主题预先设计的内容属性。获取目标文本对应的目标内容属性可以有多种,例如,可以是获取用户在知识提取管理工具中设置的目标内容属性,也可以当接收到用户上传的指定某一主题领域的目标文本后,获取针对该领域所预设的目标内容属性;或者,当计算机设备接收到目标文本后,对目标文本进行检测,当检测到目标文本所属的主题领域后,从预设的内容属性库中,获取针对该主题领域所预设的目标内容属性,等等。其中,预设的内容属性可以根据实际需求进行设置。
202、计算机设备生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本。
其中,目标实体问题文本是指包含实体问题信息的文本,是将针对目标文本中的实体所提出的问题采用文本表示,比如,“上文描述的是什么(谁、哪里、啥)?”、“这段文字说的是哪个人(景区、地方)?”,等等。候选属性问题文本为包含有属性问题信息的文本,是将针对目标内容属性所提出的问题采用文本表示,例如,针对文化旅游领域中“地理位置”这一属性,可以提出多种不同的问法如“[实体名称]在什么位置”、“[实体名称]在哪里”,“[实体名称]位于什么地方”,等等,其中,[实体名称]为目标文本的一组<实体,属性,属性值>中待确定的实体的名称。
在一实施例中,计算机设备生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本,可以是采用预先设置的问题文本生成,具体地,步骤“生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本”,可以包括:
获取第一映射关系集合和第二映射关系集合,第一映射关系集合包括文本与实体问题文本之间的映射关系,第二映射关系集合包括内容属性与至少一个属性问题文本之间的映射关系;
通过第一映射关系集合和目标文本,确定目标文本对应的目标实体问题文本;
通过第二映射关系集合和目标内容属性,确定目标内容属性对应的至少一个候选属性问题文本。
其中,实体问题文本与属性问题文本可以为预设的问题文本,比如,可以是由标注人员预先对针对实体、以及属性的不同问法进行收集得到。其中,针对实体、以及属性所提出的不同问法,可以是由标注人员预先分别针对实体、以及属性所撰写的一组(即至少一种)不同的问法。例如,针对实体可以撰写出“上文描述的是什么(谁、哪里、啥)?”、“这段文字说的是哪个人(景区、地方)?”等问法;针对内容属性如“地理位置”,可以撰写出“在什么位置”、“在哪里”,“位于什么地方”等问法。
在一实施例中,为了应对目标内容属性是由用户自行设置的情况,目标内容属性对应的至少一个候选属性问题文本还可以采用预设的通用问法自动生成,例如,“[实体名称]的[属性名称]是什么”、“[实体名称]的[属性名称]是啥”,其中,[属性名称]可以是在已给定目标内容属性的情况下,使用给定的实际的属性名称替换通用问法中的[属性名称],如“[实体名称]的地理位置是什么”、“[实体名称]的地理位置是啥”,等等。
203、目标实体问题文本包括至少一个子目标实体问题文本,计算机设备根据目标文本、以及至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本。
例如,参见图1c,计算机设备可以采用神经网络编码器如BERT模型生成目标文本中目标文本字单元的目标文本字单元向量、以及每个子目标实体问题文本中实体问题文本字单元的实体问题文本字单元向量,然后,采用答案位置预测神经网络如全连接网络,来预测目标文本字单元的目标文本字单元概率、以及实体问题文本字单元的实体问题文本字单元概率。在得到目标文本字单元和实体问题文本字单元中每个字单元作为实体起止字单元的概率分布情况后,选取起始位置概率最高的字单元作为实体的起始字单元、以及选取终止位置概率最高的字单元作为实体的终止字单元,然后,抽取出起始字单元与终止字单元之间(包括起始字单元和终止字单元)连续的字单元序列作为子目标实体问题文本对应的实体文本。需要说明的是,在此过程中,排除实体的起始字单元的位置在终止字单元之后,和/或实体的起始字单元和终止字单元均为特殊符号的情况。
204、计算机设备将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
其中,计算机设备目标文本分别与每个子目标实体问题文本作为神经网络编码器的输入,继而通过答案位置预测神经网络确定每个子目标实体问题文本对应的实体文本。在一实施例中,得到目标实体问题对应的目标实体文本,可以将每个实体文本进行融合得到,具体地,步骤“将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本”,可以包括:
获取目标实体问题文本中每个子目标实体问题文本的权重;
基于每个子目标实体问题文本的权重,设置每个实体文本的权重;
根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
其中,子目标实体问题文本对应的权重可以为预设第一权重,例如,预设第一权重可以是基于对部分样本文本进行测试得到,比如,可以是在对样本文本的实体信息进行抽取的过程中,根据每种问法所得结果的正确率来设置每种问法的权重,比如,针对问法“上文描述的是什么”所得的实体结果有60%是正确的,则该问法对应的权重为0.6。其中,预设第一权重可以根据实际应用的需求进行设置。
在一实施例中,目标实体问题文本包括至少一个子目标实体问题文本,每个子目标实体问题文本对应一个实体文本,因此,目标实体问题文本对应的目标实体文本可以是将所有的实体文本进行融合得到,步骤“根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本”,可以包括:
从所有实体文本中确定文本内容相同的相同实体文本;
对相同实体文本进行文本去重以及权重融合,得到去重后实体文本、以及去重后实体文本对应的权重;
根据去重后实体文本对应的权重,从去重后实体文本中确定目标实体问题文本对应的目标实体文本。
205、计算机设备将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本。
其中,融合的方式可以有多种,例如,计算机设备可以将目标实体文本分别嵌入到至少一个候选属性问题文本的预设位置中,从而生成目标内容属性对应的至少一个目标属性问题文本。
例如,以文化旅游领域中“地理位置”这一属性为目标内容属性为例,可以提出多种不同的问法如“[实体名称]在什么位置”、“[实体名称]在哪里”,“[实体名称]位于什么地方”等。假设目标实体文本的文本内容为“北京故宫”,则将其与“地理位置”属性的多种问法进行融合后,可以生成至少一个目标属性问题文本如“北京故宫在什么位置”、“北京故宫在哪里”、“北京故宫位于什么地方”,等等。
其中,预设位置可以由标注人员根据实际应用的需求进行设置。
206、计算机设备根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本。
其中,每个目标属性问题文本对应的候选属性答案文本包括单一片段文本(即单值)和多个片段文本(即多值),候选属性答案文本为单一片段文本,或者是多个片段文本取决于目标内容属性为单值属性或多值属性,而目标内容属性为单值属性或是多值属性,可以通过用户在设置目标内容属性的过程中指定,也可以是由标注人员预先设定。参见图2b,在知识抽取工具中,用户可以通过“知识定义”模块对“城市”主题领域中的每个属性的值进行设置,可以设置属性值为单值属性或是多值属性,其中,用户还可以通过“添加属性”控件添加新的属性。
当目标内容属性为多值属性时,参见图1d,可以采用神经网络编码器如BERT模型对目标文本的目标文本字单元、以及每个目标属性问题文本的属性问题文本字单元进行编码,从而生成目标文本中目标文本字单元的目标文本字单元向量、以及目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;然后,采用序列标注模型对分别对目标文本字单元向量、以及属性问题文本字单元向量进行类别标注,从而得到目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别;根据目标文本字单元的字单元类别、以及属性问题文本字单元的字单元类别,从目标文本以及目标属性问题文本中确定每个目标属性问题文本对应的候选属性答案文本,如图1d所示,序列标注模型的输出为问题文本与目标文本中每个字单元对应的字单元类别,其中,答案文本即是由采用类别标签“B”和类别标签“E”表示的字单元Tokd1和字单元Tokd2组成。
当目标内容属性为单值属性时,参见图1c,所示可以采用神经网络编码器如BERT模型对目标文本的目标文本字单元、以及每个目标属性问题文本的属性问题文本字单元进行编码,从而生成目标文本中目标文本字单元的目标文本字单元向量、以及目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;然后,可以采用答案预测神经网络如全连接网络,预测目标文本字单元的目标文本字单元概率、以及属性问题文本字单元的属性问题文本字单元概率;在得到目标文本字单元和属性问题文本字单元中每个字单元作为候选属性答案起止字单元的概率分布情况后,可以选取起始位置概率最高的字单元作为候选属性答案的起始字单元、以及选取终止位置概率最高的字单元作为候选属性答案的终止字单元,然后,抽取出起始字单元与终止字单元之间(包括起始字单元和终止字单元)连续的字单元序列作为目标属性问题文本对应的候选属性答案文本。在此过程中,排除实体的起始字单元的位置在终止字单元之后,和/或实体的起始字单元和终止字单元均为特殊符号的情况。
如图2c所示,是对城市“上海”的一段简介文本中属性的属性值的抽取结果显示,其中,当属性为单值属性时,可以抽取单一片段属性值,如单值属性“面积”对应的属性值为6340.5平方公里、“所属地区”对应的属性值为“中国华东地区”等,多值属性“相邻地区”对应的属性值为“江苏”、“浙江”,等等。
207、计算机设备将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
其中,融合的方式可以有多种,比如,可以采用加权融合的方式将所有候选属性答案文本进行融合,具体可以如下:
获取至少一个候选属性问题文本对应的权重;
基于每个候选属性问题文本的权重,设置每个候选属性答案文本的权重;
根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
其中,至少一个候选属性问题文本对应的权重可以为预设权重,例如,可以是基于对部分样本文本进行测试的过程中得到,比如,可以是在对样本文本的一组<实体、属性、属性值>中属性值(即目标属性答案文本)进行抽取的过程中,根据每种问法所得结果的正确率来设置每种问法的权重,比如,针对问法“[实体名称]在哪里”所得到的答案有80%是正确的,则该问法对应的权重为0.8。其中,预设第二权重可以根据实际应用的需求进行设置。
其中,目标内容属性对应的目标属性答案文本,可以理解为目标文本的一组<实体,属性,属性值>中属性对应的属性值。由于每个属性对应多个属性问题,因此属性对应的属性值可以是将多个属性问题对应的属性答案进行融合,从而最终得到属性对应的属性值(即目标属性答案)。具体地,步骤“根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本”,可以包括:
从所有候选属性答案文本中确定文本内容相同的相同候选属性答案文本;
对相同候选属性答案文本进行文本去重以及权重融合,得到去重后候选属性答案文本、以及去重后候选属性答案文本对应的权重;
根据去重后候选属性答案文本对应的权重,从去重后候选属性答案文本中确定并输出目标内容属性对应的目标属性答案文本。
例如,参见表2,为从给定一段描述故宫的文本,对“景点位置”属性的不同问法对应的属性值的抽取结果为:“[实体名称]在哪里”的权重为0.8、“[实体名称]在什么地方”对应的权重为0.75、“[实体名称]的地址是什么”对应的权重为0.7,每个问法分别对应抽取结果“北京”、“北京市”、“北京”,在对相同抽取结果文本进行加权求和后,抽取结果“北京”的最终权值为0.8+0.7=1.5;“北京市”的最终权值是0.75,因此,将“北京”作为“景点位置”这一属性的最终结果(即目标属性答案文本)。
在确定目标内容属性对应的目标属性答案文本后,将目标属性答案文本进行输出,以便计算机设备如终端显示目标属性答案文本。在一实施例中,还可以将目标实体文本进行输出,以便终端对应显示目标实体文本。如图2d所示,为对旅游景点黄山的一段介绍文本,以及对该文本<实体,属性,属性值>的抽取结果显示。其中,“我的图谱”模块可以显示对该文本的实体的提取结果为“安徽黄山”,属性的属性值的抽取结果为:“地址”对应的属性值为“安徽省南部黄山市”、“别名”对应的属性值为“黟山”等;其中,“上传文件”控件可以为用户提供上传文件的功能,当用户触发(如点击或滑动)该控件,并对待上传文件执行确认操作后,可以上传用于抽取信息的目标文本;“添加知识”控件用于添加新的知识结构如添加新的属性;“文件管理”模块可以用于对上传的文件进行管理如删除或添加文件等。
在一实施例中,本申请实施例还可以将本申请实施例提供的文本输出方案以云服务的形式实现,具体地,可以在云服务器上实现。在实际应用中,云服务可以提供应用程序接口(API,Application Programming Interface)供用户终端使用,以调用云服务侧的文本输出方法来实现问题的答案文本输出等。在一些实施例中,为了便于使用,可以将API集成至某个软件开发工具包(SDK,Software Development Kit)中。
其中,API的输入参数和输出参数可以根据实际需求来设定,比如,参考表3,为一实施例中提供的API输入参数的描述。例如,作为API时的输入参数可以为:
Figure BDA0002338088750000281
Figure BDA0002338088750000291
表3
参考表4,为一实施例中提供的API输出参数的描述,例如,作为API时的输出参数可以为:
Figure BDA0002338088750000292
表4
计算机设备如终端可以将问题文本和检测文本作为API的输入,从而通过API实现问题文本所对应的答案文本的输出。
在一实施例中,步骤207中得到的目标属性答案文本还可以存储至区块链中。其中,区块链系统可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式系统。参见图2e,图2e是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,TransmissionControl Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
参见图2e示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
参见图2f,图2f是本发明实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
由上可知,本申请实施例可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。由于该方案能够生成目标内容属性对应的至少一个候选属性问题文本,并从目标文本和至少一个候选属性问题文本中确定所有候选属性问题文本对应的候选属性答案文本,然后通过将所有候选属性答案文本进行融合,得到目标内容属性对应的目标属性答案文本,也即:通过将属性对应的多个问法所产生的属性答案进行融合以得到属性对应的目标属性答案,从而使得最终输出的目标属性答案文本的准确度大大提升。
本申请实施例方法,经过实验得到的实验结果较之在本领域中的其他方法效果更佳,如表5所示,为在英文评测数据(CoNLL04)上的测试结果,采用本申请实施例方法进行信息抽取实验,所得到的实验结果在P值、R值、以及F1值上均高于其他方法。其中,P为精确率(Precision),R为召回率(Recall),F1为F1值,F1=2*P*R/(P+R)。
Figure BDA0002338088750000311
Figure BDA0002338088750000321
表5
为便于更好地实施以上方法,本申请实施例还提供了一种文本输出装置,该文本输出装置可以集成在计算机设备,比如服务器或终端等设备中。
例如,如图3a所示,该文本输出装置可以包括获取单元301、生成单元302、第一确定单元303、问题融合单元304、第二确定单元305和答案融合单元306,如下:
获取单元301,用于获取目标文本、以及所述目标文本对应的目标内容属性;
生成单元302,用于生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;
第一确定单元303,用于根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;
问题融合单元304,用于将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;
第二确定单元305,用于根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;
答案融合单元306,用于将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。
在一些实施例中,所述生成单元302,具体用于:
获取第一映射关系集合和第二映射关系集合,所述第一映射关系集合包括文本与实体问题文本之间的映射关系,所述第二映射关系集合包括内容属性与至少一个属性问题文本之间的映射关系;
通过所述第一映射关系集合和所述目标文本,确定所述目标文本对应的目标实体问题文本;
通过所述第二映射关系集合和所述目标内容属性,确定所述目标内容属性对应的至少一个候选属性问题文本。
在一实施例中,参考图3b,所述目标实体问题文本包括至少一个子目标实体问题文本,所述第一确定单元303,包括:
确定子单元3031,用于根据所述目标文本、以及所述至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本;
融合子单元3032,用于将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
在一些实施例中,所述确定子单元3031,可以具体用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、每个子目标实体问题文本中实体问题文本字单元的实体问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述实体问题文本字单元的实体问题文本字单元向量,预测所述目标文本字单元的目标文本字单元概率、所述实体问题文本字单元的实体问题文本字单元概率,其中,所述目标文本字单元概率为所述目标文本字单元为候选实体起止字单元的概率,所述实体问题文本字单元概率为所述实体问题文本字单元为候选实体起止字单元的概率;
基于所述目标文本字单元的目标文本字单元概率、以及所述实体问题文本字单元的实体问题文本字单元概率,确定每个子目标实体问题文本对应的实体文本。
具体地,所述确定子单元3031,可以具体用于:
根据所述目标文本字单元概率和所述实体问题文本字单元概率,从所述目标文本字单元和所述实体问题文本字单元中,确定实体起始字单元和实体终止字单元;
根据实体起始字单元和实体终止字单元,构建每个子目标实体问题文本对应的实体文本。
在一些实施例中,所述融合子单元3032,具体用于:
获取目标实体问题文本中每个子目标实体问题文本的权重;
基于每个子目标实体问题文本的权重,设置每个实体文本的权重;
根据每个实体文本的权重,将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
具体地,所述融合子单元3032,可以具体用于:
从所有实体文本中确定文本内容相同的相同实体文本;
对相同实体文本进行文本去重以及权重融合,得到去重后实体文本、以及去重后实体文本对应的权重;
根据去重后实体文本对应的权重,从去重后实体文本中确定目标实体问题文本对应的目标实体文本。
在一些实施例中,所述第二确定单元305,具体用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,标注所述目标文本字单元的字单元类别、所述属性问题文本字单元的字单元类别,其中,字单元类别包括:属性答案字单元类别、非属性答案字单元类别;
基于所述目标文本字单元的字单元类别、以及所述属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本。
具体地,所述第二确定单元305,可以具体用于:
根据所述目标文本字单元的字单元类别和所述属性问题文本字单元的字单元类别,从所述目标文本字单元和所述属性问题文本字单元中,确定作为候选属性答案的字单元;
根据所述候选属性答案的字单元,构建每个目标属性问题文本对应的候选属性答案文本。
在一些实施例中,所述第二确定单元305,还可以用于:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,预测所述目标文本字单元的目标文本字单元概率、所述属性问题文本字单元的属性问题文本字单元概率,其中,所述目标文本字单元概率为所述目标文本字单元为参考属性答案起止字单元的概率,所述属性问题文本字单元概率为所述属性问题文本字单元为参考属性答案起止字单元的概率;
基于所述目标文本字单元的目标文本字单元概率、以及所述属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本。
具体地,所述第二确定单元305,可以具体用于:
根据所述目标文本字单元概率和所述属性问题文本字单元概率,从所述目标文本字单元和所述属性问题文本字单元中,确定候选属性答案起始字单元和候选属性答案终止字单元;
根据候选属性答案起始字单元和候选属性答案终止字单元,构建每个目标属性问题文本对应的候选属性答案文本。
在一些实施例中,参考图3c,所述答案融合单元306,包括:
获取子单元3061,用于获取所述至少一个候选属性问题文本对应的权重;
设置子单元3062,用于基于每个候选属性问题文本的权重,设置每个候选属性答案文本的权重;
答案融合子单元3063,用于根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
在一些实施例中,所述答案融合子单元3063,可以具体用于:
从所有候选属性答案文本中确定文本内容相同的相同候选属性答案文本;
对相同候选属性答案文本进行文本去重以及权重融合,得到去重后候选属性答案文本、以及去重后候选属性答案文本对应的权重;
根据去重后候选属性答案文本对应的权重,从所述去重后候选属性答案文本中确定并输出目标内容属性对应的目标属性答案文本。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例的文本输出装置可以通过获取单元301获取目标文本、以及所述目标文本对应的目标内容属性;由生成单元302生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;由第一确定单元303根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;由问题融合单元304将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;由第二确定单元305根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;由答案融合单元306将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。由于该方案能够根据目标文本以及目标内容属性对应的至少一个目标属性问题文本,得到所有目标属性问题文本对应的候选属性答案文本,然后,通过将所有候选属性答案文本进行融合从而得到目标属性对应的目标属性答案文本,使得输出的目标属性答案文本的准确度大大提升。
本申请实施例还提供一种计算机设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
以上各个操作具体可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例的计算机设备可以获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。由于该方案能够生成目标内容属性对应的至少一个候选属性问题文本,并从目标文本和至少一个候选属性问题文本中确定所有候选属性问题文本对应的候选属性答案文本,然后通过将所有候选属性答案文本进行融合,得到目标内容属性对应的目标属性答案文本,从而使得最终输出的目标属性答案文本的准确度大大提升。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种文本输出方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取目标文本、以及目标文本对应的目标内容属性;生成目标文本对应的目标实体问题文本、以及目标内容属性对应的至少一个候选属性问题文本;根据目标文本和目标实体问题文本,确定目标实体问题文本对应的目标实体文本;将目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;根据目标文本、以及至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本输出方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本输出方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本输出方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本输出方法,其特征在于,包括:
获取目标文本、以及所述目标文本对应的目标内容属性;
生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;
根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;
将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;
根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;
将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。
2.根据权利要求1所述的方法,其特征在于,所述生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本,包括:
获取第一映射关系集合和第二映射关系集合,所述第一映射关系集合包括文本与实体问题文本之间的映射关系,所述第二映射关系集合包括内容属性与至少一个属性问题文本之间的映射关系;
通过所述第一映射关系集合和所述目标文本,确定所述目标文本对应的目标实体问题文本;
通过所述第二映射关系集合和所述目标内容属性,确定所述目标内容属性对应的至少一个候选属性问题文本。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本,包括:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,标注所述目标文本字单元的字单元类别、所述属性问题文本字单元的字单元类别,其中,字单元类别包括:属性答案字单元类别、非属性答案字单元类别;
基于所述目标文本字单元的字单元类别、以及所述属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标文本字单元的字单元类别、以及所述属性问题文本字单元的字单元类别,确定每个目标属性问题文本对应的候选属性答案文本,包括:
根据所述目标文本字单元的字单元类别和所述属性问题文本字单元的字单元类别,从所述目标文本字单元和所述属性问题文本字单元中,确定作为候选属性答案的字单元;
根据所述候选属性答案的字单元,构建每个目标属性问题文本对应的候选属性答案文本。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本,包括:
生成所述目标文本中目标文本字单元的目标文本字单元向量、以及每个目标属性问题文本中属性问题文本字单元的属性问题文本字单元向量;
根据所述目标文本字单元的目标文本字单元向量和所述属性问题文本字单元的属性问题文本字单元向量,预测所述目标文本字单元的目标文本字单元概率、所述属性问题文本字单元的属性问题文本字单元概率,其中,所述目标文本字单元概率为所述目标文本字单元为参考属性答案起止字单元的概率,所述属性问题文本字单元概率为所述属性问题文本字单元为参考属性答案起止字单元的概率;
基于所述目标文本字单元的目标文本字单元概率、以及所述属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本字单元的目标文本字单元概率、以及所述属性问题文本字单元的属性问题文本字单元概率,确定每个目标属性问题文本对应的候选属性答案文本,包括:
根据所述目标文本字单元概率和所述属性问题文本字单元概率,从所述目标文本字单元和所述属性问题文本字单元中,确定候选属性答案起始字单元和候选属性答案终止字单元;
根据候选属性答案起始字单元和候选属性答案终止字单元,构建每个目标属性问题文本对应的候选属性答案文本。
7.根据权利要求1所述的方法,其特征在于,所述将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本,包括:
获取所述至少一个候选属性问题文本对应的权重;
基于每个候选属性问题文本的权重,设置每个候选属性答案文本的权重;
根据每个候选属性答案文本的权重,将所有候选属性答案文本进行融合,得到并输出目标内容属性对应的目标属性答案文本。
8.根据权利要求1所述的方法,其特征在于,所述目标实体问题文本包括至少一个子目标实体问题文本,所述根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本,包括:
根据所述目标文本、以及所述至少一个子目标实体问题文本,确定每个子目标实体问题文本对应的实体文本;
将所有实体文本进行融合,得到目标实体问题文本对应的目标实体文本。
9.一种文本输出装置,其特征在于,包括:
获取单元,用于获取目标文本、以及所述目标文本对应的目标内容属性;
生成单元,用于生成所述目标文本对应的目标实体问题文本、以及所述目标内容属性对应的至少一个候选属性问题文本;
第一确定单元,用于根据所述目标文本和所述目标实体问题文本,确定所述目标实体问题文本对应的目标实体文本;
问题融合单元,用于将所述目标实体文本与目标内容属性对应的至少一个候选属性问题文本进行融合,得到目标内容属性对应的至少一个目标属性问题文本;
第二确定单元,用于根据所述目标文本、以及所述至少一个目标属性问题文本,确定每个目标属性问题文本对应的候选属性答案文本;
答案融合单元,用于将所有候选属性答案文本进行融合,得到并输出所述目标内容属性对应的目标属性答案文本。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述方法的步骤。
CN201911364668.3A 2019-12-26 2019-12-26 一种文本输出方法、装置及可读存储介质 Active CN111143454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911364668.3A CN111143454B (zh) 2019-12-26 2019-12-26 一种文本输出方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911364668.3A CN111143454B (zh) 2019-12-26 2019-12-26 一种文本输出方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111143454A CN111143454A (zh) 2020-05-12
CN111143454B true CN111143454B (zh) 2021-08-03

Family

ID=70520418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911364668.3A Active CN111143454B (zh) 2019-12-26 2019-12-26 一种文本输出方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111143454B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131881B (zh) * 2020-09-27 2023-11-21 腾讯科技(深圳)有限公司 信息抽取方法及装置、电子设备、存储介质
CN113593557B (zh) * 2021-07-27 2023-09-12 中国平安人寿保险股份有限公司 分布式会话方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
US10083213B1 (en) * 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109753557A (zh) * 2018-12-26 2019-05-14 出门问问信息科技有限公司 问答系统的答案输出方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424000B2 (en) * 2009-05-30 2019-09-24 Edmond K. Chow Methods and systems for annotation of digital information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083213B1 (en) * 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
CN108052577A (zh) * 2017-12-08 2018-05-18 北京百度网讯科技有限公司 一种通用文本内容挖掘方法、装置、服务器及存储介质
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109753557A (zh) * 2018-12-26 2019-05-14 出门问问信息科技有限公司 问答系统的答案输出方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111143454A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN110929162B (zh) 基于兴趣点的推荐方法、装置、计算机设备和存储介质
Hedges et al. Academic crowdsourcing in the humanities: Crowds, communities and co-production
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN111274815A (zh) 用于挖掘文本中的实体关注点的方法和装置
CN111309887B (zh) 一种训练文本关键内容提取模型的方法和系统
CN110727761B (zh) 对象信息获取方法、装置及电子设备
CN111046158B (zh) 问答匹配方法及模型训练方法、装置、设备、存储介质
CN110750987A (zh) 文本处理方法、装置及存储介质
CN111143454B (zh) 一种文本输出方法、装置及可读存储介质
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN115687647A (zh) 公证文书生成方法、装置、电子设备及存储介质
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN116956116A (zh) 文本的处理方法和装置、存储介质及电子设备
CN114330476A (zh) 用于媒体内容识别的模型训练方法及媒体内容识别方法
CN113255327B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN114281931A (zh) 文本匹配方法、装置、设备、介质及计算机程序产品
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN111414609B (zh) 一种对象验证方法和装置
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
CN113392294B (zh) 样本标注方法及装置
CN116775815A (zh) 对话数据的处理方法、装置、电子设备及存储介质
CN112052674B (zh) 一种实体定义抽取方法、系统及存储介质和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant