CN115344674A - 问答方法、装置与电子设备 - Google Patents

问答方法、装置与电子设备 Download PDF

Info

Publication number
CN115344674A
CN115344674A CN202110529809.3A CN202110529809A CN115344674A CN 115344674 A CN115344674 A CN 115344674A CN 202110529809 A CN202110529809 A CN 202110529809A CN 115344674 A CN115344674 A CN 115344674A
Authority
CN
China
Prior art keywords
document
slice
target
matching degree
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110529809.3A
Other languages
English (en)
Inventor
张士卫
闫昭
饶孟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110529809.3A priority Critical patent/CN115344674A/zh
Publication of CN115344674A publication Critical patent/CN115344674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种问答方法、装置与电子设备,该方法包括:获取目标问题;在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与目标问题之间的第一匹配度;根据每个第一文档切片与目标问题之间的第一匹配度,从N个第一文档切片中确定出目标问题的答案切片。本申请实施例以文档的切片作为答案的最小粒度,在文档切片库中自动查询目标问题的答案切片,提高了问答效率,降低了问答成本。

Description

问答方法、装置与电子设备
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种问答方法、装置与电子设备。
背景技术
在政务领域,用户对于自己关切的问题可以在政务系统上进行提问,政务系统针对用户的问题,给出相应的答案。例如,用户在政务系统上提出“业务A的办理流程”,政务系统可以在展示页面上向用户展示办理业务A的具体流程以及注意事项等,进而方便用户各业务的办理效率。
目前解答用户问题的方式是通过人工客服的方式实现,例如政务系统的客服在预设的资料库中查询用户的问题对应的答案,并将查询到的答案通过政务系统展示给用户。
由上述可知,通过人工客服查询答案的方式,其效率低,且成本高。
发明内容
本申请实施例提供一种问答方法、装置与电子设备,用以提高答案查询的效率。
第一方面,本申请实施例提供一种问答方法,包括:
获取目标问题;
在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档切片的特征值,所述N为正整数;
根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片。
在一些实施例中,所述根据所述目标问题中每个词在所述第一文档切片中的第一特征值,确定所述目标问题中每个词的第一特征值,包括:
针对所述目标问题中的每个词,若所述第一文档切片中包含所述词,则从所述文档切片库中获取所述词在所述第一文档切片中的第一特征值;
若所述第一文档切片中不包含所述词,则确定所述词在所述第一文档切片中的第一特征值为第一数值。
在一些实施例中,所述根据所述目标问题中每个词在所述第一文档切片中的第一特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度,包括:
根据所述目标问题中每个词在所述第一文档切片中的第一特征值,使用BM25匹配方式,确定第一文档切片与所述目标问题之间的第二匹配度。
在一些实施例中,所述根据所述第一文档切片中每个词的出现频率和逆文本频率,确定所述第一文档切片对应的特征值,包括:
将所述第一文档切片中每个词的出现频率和逆文本频率的乘积,确定为所述第一文档切片对应的特征值。
在一些实施例中,所述根据每个所述第一文档切片对应的特征值,构建所述文档切片库,包括:
根据每个所述第一文档切片对应的特征值,对各所述第一文档切片进行倒排,并确定各所述第一文档切片的索引;
根据具有索引的各所述第一文档切片,构建所述文档切片库。
在一些实施例中,所述根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片,包括:
将所述N个第一文档切片中与所述目标问题之间的第一匹配度最大的第一文档切片,确定为所述目标问题的答案切片。
在一些实施例,所述方法还包括:
显示所述目标问题的答案切片。
在一些实施例中,所述确定所述第一文档切片对应的特征值,包括:
确定所述第一文档切片中每个词的出现频率;
确定所述第一文档切片中每个词的逆文本频率;
根据所述第一文档切片中每个词的出现频率和逆文本频率,确定所述第一文档切片对应的特征值。
第二方面,本申请实施例提供一种问答装置,包括:
获取单元,用于获取目标问题;
第一确定单元,用于在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档,用于根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片。
在一些实施例中,第一确定单元,具体用于针对所述N个第一文档切片中的每个所述第一文档切片,根据所述第一文档切片的特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度;确定所述第一文档切片中标题与所述目标问题之间的第三匹配度、所述第一文档切片中正文与所述目标问题之间的第四匹配度、所述第一文档切片的正文中句子与所述目标问题之间的第五匹配度中的至少一个匹配度;根据所述第二匹配度,以及所述第三匹配度、所述第四匹配度和所述第五匹配度中的至少一个匹配度,确定所述第一文档切片与所述目标问题之间的第一匹配度。
在一些实施例中,第一确定单元,具体用于确定所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度;将所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度中的最大匹配度,确定为所述第五匹配度。
在一些实施例中,第一确定单元,具体用于将所述第二匹配度、所述第三匹配度、所述第四匹配度和所述第五匹配度之和,确定为所述第一文档切片与所述目标问题之间的第一匹配度。
在一些实施例中,所述第一文档切片的特征值包括所述第一文档切片中每个词的第一特征值,第一确定单元,具体用于根据所述第一文档切片中每个词的第一特征值,确定所述目标问题中每个词在所述第一文档切片中的第一特征值;根据所述目标问题中每个词在所述第一文档切片中的第一特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度。
在一些实施例中,第一确定单元,具体用于针对所述目标问题中的每个词,若所述第一文档切片中包含所述词,则从所述文档切片库中获取所述词在所述第一文档切片中的第一特征值;若所述第一文档切片中不包含所述词,则确定所述词在所述第一文档切片中的第一特征值为第一数值。
在一些实施例中,第一确定单元,具体用于根据所述目标问题中每个词在所述第一文档切片中的第一特征值,使用BM25匹配方式,确定第一文档切片与所述目标问题之间的第二匹配度。
在一些实施例中,所述装置还包括构建单元,构建单元用于获取目标类型文档集,所述目标类型文档集包括多个目标类型文档;根据目标类型文档的特征,对每个所述目标类型文档进行切片,得到每个所述目标类型文档的至少一个第二文档切片;针对每个第二文档切片,将所述第二文档切片与所述第二文档切片所属的标题组成第一文档切片,并确定所述第一文档切片对应的特征值;根据每个所述第一文档切片对应的特征值,构建所述文档切片库。
在一些实施例中,构建单元,具体用于根据所述目标类型文档的特征,对所述目标类型文档进行标题识别,得到所述目标类型文档的标题信息;根据所述目标类型文档的标题信息,对所述目标类型文档进行切片,得到所述目标类型文档的至少一个第二文档切片。
在一些实施例中,构建单元,具体用于若所述目标类型文档的一级标题下不存在二级标题,则将所述一级标题下的正文文本作为一个第二文档切片;若所述目标类型文档的一级标题下存在二级标题且所述二级标题下存在正文文本,则将所述二级标题下存在正文文本作为一个第二文档切片;若所述目标类型文档的一级标题下存在二级标题且相邻的二级标题之间不存在正文文本,则将所述相邻的二级标题作为一个第二文档切片。
在一些实施例中,构建单元,具体用于确定所述第一文档切片中每个词的出现频率;确定所述第一文档切片中每个词的逆文本频率;根据所述第一文档切片中每个词的出现频率和逆文本频率,确定所述第一文档切片对应的特征值。
在一些实施例中,构建单元,具体用于将所述第一文档切片中每个词的出现频率和逆文本频率的乘积,确定为所述第一文档切片对应的特征值。
在一些实施例中,构建单元,具体用于根据每个所述第一文档切片对应的特征值,对各所述第一文档切片进行倒排,并确定各所述第一文档切片的索引;根据具有索引的各所述第一文档切片,构建所述文档切片库。
在一些实施例中,第二确定单元,具体用于将所述N个第一文档切片中与所述目标问题之间的第一匹配度最大的第一文档切片,确定为所述目标问题的答案切片。
在一些实施例中,所述装置还包括显示单元,显示单元用于显示所述目标问题的答案切片。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得计算机实施第一方面所述的方法。
本申请实施例提供的问答方法、装置与电子设备,通过获取目标问题;在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与目标问题之间的第一匹配度;根据每个第一文档切片与目标问题之间的第一匹配度,从N个第一文档切片中确定出目标问题的答案切片。本申请实施例以文档的切片作为答案的最小粒度,在文档切片库中自动查询目标问题的答案切片,提高了问答效率,降低了问答成本。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例涉及的一种系统示意图;
图2为本申请一实施例涉及的分布式系统示意图;
图3为本申请一实施例涉及的一种应用场景示意图;
图4为本申请一实施例提供的另一种应用场景示意图;
图5为本申请实施例涉及的又一种应用场景示意图;
图6为本申请一实施例提供的问答方法的流程示意图;
图7为本申请实施例涉及的一种切片示意图;
图8为本申请一实施例提供的问答方法的流程示意图;
图9为本申请实施例提供的问答装置的一种结构示意图;
图10为本申请实施例涉及的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应理解,在本发明实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
本申请实施例应用于软件测试技术领域,尤其应用于对需求数据的合法性检查,以便于根据合法的需求数据稳定、高效地生成测试用例。
为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念进行如下简单介绍:
非结构化文本:是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
Elastic Search:基于Lucene的搜索服务器,提供分布式实时分析搜索引擎。
召回:从全量信息集合中触发尽可能多的正确结果。
冷启动:是一个产品(或者新功能)刚诞生的一个阶段,面临验证市场需求、数据缺失、用户缺失的困难。
词频特征(term frequency简称TF),是根据某个词在当前文档出现的频率统计出来的特征。
逆文档频率(Inverse Document Frequency简称IDF),是某个词出现在所有文档中次数的倒数,如果一个词在所有文档中出现的频率比较高,那么该词信息就小,通过逆文档频率可以很好地修正词频指标。
应用程序接口(Application Programming Interface,简称API),是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问原码,或理解内部工作机制的细节。
图1为本申请实施例涉及的一种系统示意图,包括终端设备10和服务器20。
在一些实施例中,服务器20可以是独立的物理服务器。
在一些实施例中,服务器20可以是多个物理服务器构成的服务器集群或者分布式系统。以分布式系统为区块链(Block chain)为例,如图2所示,该区块链100包括多个节点101,服务器20可以为多个节点101中的一个节点。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在一些实施例中,服务器20还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云服务也可以称为人工智能云服务,一般也被称作是AIaaS(AI as aService,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
云数据库可以理解为位于云端的数据库(Database),数据库可视为电子化的文件柜,存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
在一些实施例中,终端设备10可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
终端设备10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请对此不作限制。
在一些实施例中,本申请实施例的服务器还用于创建上述文档切片库,即服务器根据目标类型文档的特征,对目标类型文档进行切片,根据切片后的文档切片构建文档切片库。
在一些实施例中,还可以是除服务器之外的其他电子设备执行本申请实施例的方法创建上述文档切片库,再将创建的文档切片库存储在上述服务器中。
如图1所示,本申请实施例的服务器20可以访问已构建的文档切片库,例如服务器20上存储有已构建的文档切片库,或者服务器20访问存储在其他设备上的文档切片库。
本申请实施例中,用户通过终端设备10发送目标问题,服务器20根据终端设备10发送的目标问题,在文档切片库中查询与目标问题匹配的答案切片,并将与目标问题匹配的答案切片发送给终端设备10,使得终端设备10将答案切片呈现给用户。
本申请实施例的文档切片库中包括目标类型文档的文档切片,在文档切片库中自动查询目标问题的答案切片,提高了问答效率,降低了问答成本。
另外,本申请实施例以文档切片为粒度进行答案匹配,降低了匹配的数据量,避免答案中存在不必要的冗余信息,提高答案的精准性。
图3为本申请一实施例涉及的一种应用场景示意图,如图3所示,本申请实施例提供的问答方法可以作为云服务提供给企业客户,帮助提供基础问答服务,从海量文档中检索出相关切片返回用户。
如图3所示,云服务器31上保存有文档切片库,该文档切片库中包括多个第一文档切片。终端设备32与云服务器31通过网络连接,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
在一些实施例中,云服务器31提供一个应用接口供终端设备32使用,示例性的,云服务器31提供一个数据增广服务的API。
如图3所示,用户在终端设备32上输入目标问题,终端设备32对目标问题进行处理,得到如下表1所示的输入参数:
表1
Figure BDA0003066952880000111
终端设备32将上述输入参数发送给云服务器31,云服务器31根据上述输入参数,在文档切片库中查找答案切片。云服务器31对答案切片进行处理,得到如表2所示输出参数:
表2
Figure BDA0003066952880000112
其中,表2中的结果单元ResponceList中的元素描述如表3所示:
表3
DocumentID String 答案所在文档ID
PieceID String 答案的片段ID
Title String 文档的标题
Heading_Level_1 String 片段所在的一级标题
Heading_Level_2 String 片段所在的二级标题
Answer String 答案片段的正文文本
终端设备32接收到云服务器31发送的输出参数后,根据该输出参数在终端设备32上向用户呈现目标问题的答案切片,进而实现对目标问题答案的快速准确确定。
图4为本申请一实施例提供的另一种应用场景示意图,该应用场景可以理解为人工客服场景。
如图4所示,包括:终端设备41、终端设备42和服务器43。其中,终端设备41与终端设备42之间通过网络连接,终端设备42与服务器43之间通过网络连接。
其中,终端设备41为用户侧的终端设备,用户在终端设备41上输入目标问题。
终端设备42为人工客服侧的终端设备,终端设备41将用户输入的目标问题发送给终端设备42,终端设备42将目标问题呈现给人工客服。人工客服通过终端设备42将目标问题发送给服务器43,服务器43在文档切片库中查询该目标问题对应的答案切片,并将匹配的答案切片发送给终端设备42。人工客服根据服务器43发送的答案切片,进一步编辑后直接回复给用户。
示例性的,如图5所示,用户输入的目标问题是“对于状态1的用户,办理业务A需要准备审核材料呢?”,人工客服通过智能客服助手,在文档切片库中查询得到目标问题对应的3个答案切片,分别为:答案切片1“(一)满足条件1,1、材料1,2、材料2,3、材料3”、答案切片2“(三)处于状态2的用户,1、材料1等”、答案切片3“二、办理方式及流程,网上办理:以条件(一)(五)申请取出”。
人工客服根据上述3个答案切片,编辑输出目标问题的答案,例如,将上述答案切片1作为目标问题的答案输出给用户。
需要说明的是,图3或图4示例性的示出了本申请的一种应用场景示意图,本申请的应用场景包括但不限于图3或图4所示。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例一
首先对本申请实施例涉及的文档切片库的创建过程进行介绍。
图6为本申请一实施例提供的问答方法的流程示意图,如图6所示,本申请实施例的方法包括:
S601、获取目标类型文档集,目标类型文档集包括多个目标类型文档。
本申请实施例的执行主体为在文档切片库中查询目标问题对应的答案切片的装置,该装置可以包括图1所示的服务器。
在一些实施例中,上述目标类型文档为政务文档。
目标类型文档集中包括多个目标类型文档,例如包括多个政务文档。
S602、根据目标类型文档的特征,对每个目标类型文档进行切片,得到每个目标类型文档的至少一个第二文档切片。
本申请实施例的目标类型文档比较规范,通常包括一级标题、二级标题等标题信息,以及正文信息。基于目标类型文档的这些特征,对目类型文档集中的每个目标类型文档进行切片,得到每个目标类型文档的至少一个第二文档切片。
在一些实施例中,上述S602包括如下步骤S602-A1和S602-A2:
S602-A1、根据目标类型文档的特征,对目标类型文档进行标题识别,得到目标类型文档的标题信息;
S602-A2、根据目标类型文档的标题信息,对目标类型文档进行切片,得到目标类型文档的至少一个第二文档切片。
由于目标类型文档相对规范,可以通过模式匹配的方法,识别出目标类型文档的一级标题和二级标题,从而进一步获取到目标类型文档的脉络,并自动从目标类型文档中切分出非固定长度的切片。具体是,根据目标类型文档的特征,对目标类型文档进行标题识别,得到目标类型文档的标题信息;根据目标类型文档的标题信息,对目标类型文档进行切片,得到目标类型文档的至少一个第二文档切片。
举例说明,首先对目标类型文档的标题信息的初始识别,例如对目标类型文档的两级标题的初步识别:
1、一级标题主要分为两种情况:
1)、直接以“第*章”开头,长度控制在预设数量个(例如30)字,且独立成段的文本,比如“第一章补贴政策”。
2)、以中文阿拉伯数字开头,且长度控制在预设数量个(例如30),且独立成段的文本,比如“一、申请条件”、“二、网上办理方式及流程”。
2、二级标题大致分为两种情况:
1)、直接以“第*节”、“第*条”开头,长度控制在预设数量个(例如30)字,且独立成段的文本,比如“第三条、退休人员补助”。
2)、以括号开头,括号中包含中文阿拉伯数字,且长度控制在预设数量个(例如30)字,且独立成段的文本,比如“(一)退休人员补助材料”。
根据上述规律对目标类型文档的标题信息进行识别,接着执行S602-A2根据目标类型文档的标题信息,对目标类型文档进行切片。
在一些实施例中,上述S602-A2中根据目标类型文档的标题信息,对目标类型文档进行切片的方式包括但不限于如下情况:
情况1,若目标类型文档的一级标题下不存在二级标题,则将一级标题下的正文文本作为一个第二文档切片。
情况2,若目标类型文档的一级标题下存在二级标题且二级标题下存在正文文本,则将二级标题下存在正文文本作为一个第二文档切片。
情况3,若目标类型文档的一级标题下存在二级标题且相邻的二级标题之间不存在正文文本,则将相邻的二级标题作为一个第二文档切片。
举例说明,如图7所示,办理A的指南包括3个一级标题,分别为:一、申请条件;二、办理方式及流程;三、申请材料,其中,一级标题申请条件下包括多个二级标题,一级标题办理方式及流程下不包括二级标题,但包括正文,一级标题申请材料下包括二级标题,且二级标题下包括正文。
如图7所示,一级标题办理方式及流程下不包括二级标题,则将办理方式及流程下的正文文本划分为一个第二文档切片,例如第二文档切片2。一级标题申请材料下包括二级标题,且二级标题下包括正文,则将申请材料下的各二级标题下的正文文本划分为一个第二文档切片,例如第二文档切片3。一级标题申请条件下包括多个二级标题,且相邻的二级标题之间不存在正文文本,则将相邻的二级标题作为一个第二文档切片,例如第二文档切片1。
需要说明的是,上述是本申请实施例涉及的根据目标类型文档的标题信息,对目标类型文档进行切片的一种方式,本申请实施例的切片方式包括但不限于如上几种。
S603、针对每个第二文档切片,将第二文档切片与第二文档切片所属的标题组成第一文档切片,并确定第一文档切片对应的特征值。
根据上述S602对目标类型文档进行切片后,对切片入库。
具体是,将第二文档切片与该第二文档切片所属的标题组成第一文档切片,例如图7所示,以第二文档切片2为例,第二文档切片2具有一级标题“办理方式和流程”而不具有二级标题,因此,将第二文档切片2和一级标题“办理方式和流程”作为一个第一文档切片。以第二文档切片3为例,第二文档切片3具有一级标题“申请材料”和二级标题“(一)满足条件1”,将第二文档切片2和第二文档切片2所属的一级标题和二级标题作为一个第一文档切片。
由上述可知,一个第二文档切片对应一个第一文档切片。
在一些实施例中,通过ElasticSearch工具,自动构建出各第一文档切片的索引,并提取第一文档切片的特征。
在一些实施例中,本申请实施例使用第一文档切片的词频特征(term frequency简称TF)和逆文档频率(Inverse Document Frequency简称IDF)特征来表征第一文档切片的特征。
在一些实施例中,上述S603中确定第一文档切片对应的特征值包括如下步骤S603-A1至S603-A3:
S603-A1、确定第一文档切片中每个词的出现频率,其中第一文档切片中每个词的出现频率可以理解为第一文档切片的词频特征。
在一种可能的实现方式中,以一个第一文档切片为例,根据如下公式(1)确定第一文档切片中每个词的出现频率:
Figure BDA0003066952880000161
其中,w为第一文档切片中的某一个词,ND(w)表示第一文档切片中包含w的数目,Nw表示第一文档切片中的总词数目,TF(w)表示w在第一文档切片中的出现频率。
需要说明的是,上述公式(1)只是一种示例,对上述公式(1)的任意变形也属于本申请实施例的保护范围,例如,对上述公式(1)的等价变形,或者对上述公式(1)乘以、除以、相加或相减某一个或几个参数等,均属于本申请实施例的保护范围。
S603-A2、确定第一文档切片中每个词的逆文本频率,其中第一文档切片中每个词的逆文本频率可以理解为第一文档切片的逆文档频率特征。
在一种可能的实现方式中,根据如下公式(2)确定第一文档切片中每个词的逆文本频率:
Figure BDA0003066952880000162
其中,Nd表示预设语料库中文档数目总数,N(w)表示预设语料库中包含词w的数目。
需要说明的是,上述公式(2)只是一种示例,对上述公式(2)的任意变形也属于本申请实施例的保护范围,例如,对上述公式(2)的等价变形,或者对上述公式(2)乘以、除以、相加或相减某一个或几个参数等,均属于本申请实施例的保护范围。
S603-A3、根据第一文档切片中每个词的出现频率和逆文本频率,确定第一文档切片对应的特征值。
在一种可能的实现方式中,将第一文档切片中每个词的出现频率和逆文本频率确定为第一文档切片对应的特征值。
在一种可能的实现方式中,将第一文档切片中每个词的出现频率和逆文本频率的乘积,确定为第一文档切片对应的特征值。
示例性的,根据如下公式(3)确定为第一文档切片对应的特征值:
TF-IDF(w)=TF(w)*IDT(w) (3)
TF-IDF是一种统计方法,用以评估一词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。比如“的”几乎出现在所有文档中,因此就比“文档问答”信息量小。因此通过逆文档频率可以很好地修正词频指标。因此通过构建文档中每个词的TF-IDF特征从而获得文档的特征表示。
在一种可能的实现方式中,将第一文档切片中每个词的出现频率TF(w)和逆文本频率IDF(w),以及将第一文档切片中每个词的出现频率和逆文本频率的乘积TF-IDF(w),确定为第一文档切片对应的特征值。
S604、根据每个第一文档切片对应的特征值,构建文档切片库。
本申请实施例根据每个第一文档切片对应的特征值,对各第一文档切片进行排序,确定各第一文档切片的索引,这些排序后的第一文档切片构成文档切片库。
在一些实施例中,可以根据每个第一文档切片对应的特征值,对各第一文档切片进行顺序排序,并确定各第一文档切片的索引,这些具有索引的各第一文档切片,构成文档切片库。
在一些实施例中,可以根据每个第一文档切片对应的特征值,对各第一文档切片进行倒排,并确定各第一文档切片的索引,根据具有索引的各第一文档切片,构建文档切片库。
本步骤根据每个第一文档切片对应的特征值对各第一文档切片进行排序后入库,方便后续在该文档切片库中进行搜索。
本申请实施例通过目标类型文档的特征,自动识别出目标类型文档的标题、正文信息,并个根据这些信息获得不同长度的切片,避免由于固定窗口导致的语义单元被切分。另外,针对政务领域答案长度往往比较长的特点,本申请实施例以文档的切片作为答案的最小粒度,进而提高答案的精确性。
上文对文档切片库的创建过程进行详细介绍,在此基础上,下面对在创建好的文档切片库中查询目标问题的答案切片的过程进行介绍。
图8为本申请一实施例提供的问答方法的流程示意图,如图8所示,包括:
S801、获取目标问题。
以政务领域为例,用户在终端设备上打开政务系统,该政务系统对应提问的选择框内输入目标问题,以查询该目标问题对应的答案。
在如图3所示的应用场景中,该目标问题为用户通过终端设备直接发送给云端服务器的。
在如图4所示的应用场景中,该目标问题为用户通过终端设备41发送给人工客服对应的终端设备42,终端设备42再将该目标问题发送给服务器43。
S802、在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与目标问题之间的第一匹配度。
其中,文档切片库中包括N个第一文档切片、以及每个第一文档切片的特征值,N为正整数。
其中,上述S802中根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与目标问题之间的第一匹配度的方式包括但不限于如下几种:
方式一,针对N个第一文档切片中每个第一文档切片的特征值,根据该第一文档切片的特征值,确定该第一文档切片与目标问题之间的第二匹配度,将该第二匹配度确定为第一文档切片与目标问题之间的第一匹配度。
方式二,上述S802包括如下S802-A1至S802-A3:
S802-A1、针对N个第一文档切片中的每个第一文档切片,根据第一文档切片的特征值,确定第一文档切片与目标问题之间的第二匹配度;
S802-A2、确定第一文档切片中标题与目标问题之间的第三匹配度、第一文档切片中正文与目标问题之间的第四匹配度、第一文档切片的正文中句子与目标问题之间的第五匹配度中的至少一个匹配度;
S802-A3、根据第二匹配度,以及第三匹配度、第四匹配度和第五匹配度中的至少一个匹配度,确定第一文档切片与目标问题之间的第一匹配度。
下面对上述S802-A1中根据第一文档切片的特征值,确定第一文档切片与目标问题之间的第二匹配度的过程进行介绍。
在一些实施例中,若第一文档切片的特征值包括第一文档切片中每个词的第一特征值,则上述S802-A1包括S802-A11和S802-A12:
S802-A11、根据第一文档切片中每个词的第一特征值,确定目标问题中每个词在第一文档切片中的第一特征值;
S802-A12、根据目标问题中每个词在第一文档切片中的第一特征值,确定第一文档切片与目标问题之间的第二匹配度。
在一种可能的实现方式中,上述S802-A11包括:针对目标问题中的每个词,若第一文档切片中包含该词,则从文档切片库中获取该词在第一文档切片中的第一特征值;若第一文档切片中不包含该词,则确定该词在第一文档切片中的第一特征值为第一数值。可选的,第一数值为0。
接着,根据目标问题中每个词在第一文档切片中的第一特征值,确定第一文档切片与目标问题之间的第二匹配度。
在一种示例中,根据目标问题中每个词在第一文档切片中的第一特征值之和,确定第一文档切片与目标问题之间的第二匹配度,例如目标问题中每个词在第一文档切片中的第一特征值之和越大,则确定第一文档切片与目标问题之间的第二匹配度越大,若目标问题中每个词在第一文档切片中的第一特征值之和越小,则确定第一文档切片与目标问题之间的第二匹配度越小。
在另一种示例中,根据目标问题中每个词在第一文档切片中的第一特征值,使用BM25匹配方式,确定第一文档切片与目标问题之间的第二匹配度。
在一些实施例中,根据如下公式(4),确定第一文档切片与目标问题之间的第二匹配度:
Figure BDA0003066952880000191
其中,k1,b为调节因子,通常根据经验设置,一般k1=2,b=0.75,Q为目标问题所包括的词集,Q中包括n个词,n为正整数,qi为Q中的第i个词,d1为第一文档切片,d1l为第一文档切片d1的长度,avgdl为预设语料库中所有文档的平均长度,f1i为qi在第一文档切片d1中的出现频率,IDF(qi)1为qi在第一文档切片d1中的逆文档频率。Score(Q,d1)为第一文档切片与目标问题之间的第二匹配度。
在一些实施例中,根据目标问题中每个词在第一文档切片的标题中的第一特征值,确定第一文档切片中标题与目标问题之间的第三匹配度。
示例性的,根据如下公式(5),确定第一文档切片中标题与目标问题之间的第三匹配度:
Figure BDA0003066952880000201
其中,d2为第一文档切片的标题,d2l为第一文档切片的标题的长度,avgdl为预设语料库中所有文档的平均长度,f2i为qi在第一文档切片的标题中的出现频率,IDF(qi)2为qi在第一文档切片的标题中的逆文档频率。Score(Q,d2)为第一文档切片中标题与目标问题之间的第三匹配度。
在一些实施例中,根据目标问题中每个词在第一文档切片的正文中的第一特征值,确定第一文档切片的正文与目标问题之间的第四匹配度。
在一些实施例中,根据如下公式(6)确定第一文档切片的正文与目标问题之间的第四匹配度:
Figure BDA0003066952880000202
其中,d3为第一文档切片的正文,d3l为第一文档切片的正文的长度,avgdl为预设语料库中所有文档的平均长度,f3i为qi在第一文档切片的正文中的出现频率,IDF(qi)3为qi在第一文档切片的正文中的逆文档频率。Score(Q,d3)为第一文档切片中正文与目标问题之间的第四匹配度。
在一些实施例中,上述S802-A2中确定第一文档切片的正文中句子与目标问题之间的第五匹配度包括:确定第一文档切片的正文中每个句子与目标问题之间的匹配度;将第一文档切片的正文中每个句子与目标问题之间的匹配度中的最大匹配度,确定为第五匹配度。
示例性的,根据如下公式(7)确定第一文档切片中某一句子与目标问题之间的第五匹配度:
Figure BDA0003066952880000203
其中,d4为第一文档切片的的某一个句子,d4l为该句子的长度,f4i为qi在该句子中的出现频率,IDF(qi)4为qi在该句子中的逆文档频率。Score(Q,d4)为该句子与目标问题之间的第五匹配度。
根据上述公式(7)可以确定出第一文档切片的正文中每个句子与目标问题之间的匹配度,将第一文档切片的正文中每个句子与目标问题之间的匹配度中的最大匹配度,确定为第五匹配度。
该方式二中,根据第二匹配度,以及第三匹配度、第四匹配度和第五匹配度中的至少一个匹配度,确定第一文档切片与目标问题之间的第一匹配度,进而提高了第一文档切片与目标问题之间的第一匹配度的确定准确性。
在一些实施例中,上述S802-A3包括:将第二匹配度、第三匹配度、第四匹配度和第五匹配度之和,确定为第一文档切片与目标问题之间的第一匹配度。
在一些实施例中,上述S802-A3包括:将第二匹配度、第三匹配度、第四匹配度和第五匹配度乘积,确定为第一文档切片与目标问题之间的第一匹配度。
在一些实施例中,上述S802-A3包括:将第二匹配度、第三匹配度、第四匹配度和第五匹配度的平均值,确定为第一文档切片与目标问题之间的第一匹配度。
可选的,上述平均值为算数平均值。
可选的,上述平均值为加权平均值。
S803、根据每个第一文档切片与目标问题之间的第一匹配度,从N个第一文档切片中确定出目标问题的答案切片。
在一种可能的实现方式中,将N个第一文档切片中与目标问题之间的第一匹配度最大的第一文档切片,确定为目标问题的答案切片。
在一种可能的实现方式中,将N个第一文档切片中与目标问题之间的第一匹配度大于预设值的第一文档切片,确定为目标问题的答案切片。
在一种可能的实现方式中,选择N个第一文档切片中与目标问题之间的第一匹配度最大的预设数量个第一文档切片,确定为目标问题的答案切片。
在一些实施例中,本申请实施例还包括:显示目标问题的答案切片。
本申请实施例的方法,通过获取目标问题;在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档切片的特征值,所述N为正整数;根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片,可以基于非结构化政务文本自动化、低成本地构建问答能力,从而降低人工编写问答对带来的时间和人力成本。在人工客服智能助手等场景中,给人工客服快速推荐相关答案片段,避免了人工客服阅读大量政策文档。该方法在传统的KBQA[6]、QA匹配等传统结构化数据自动问答方法基础上,进一步提高了政务领域非结构化数据的利用率。
另外,本申请实施例不采用阅读理解模型获取最终答案,而是基于自动识别出的标题、标题、正文等信息构造多粒度特征,对召回的切片进行排序,从而获得最终的答案切片,降低了匹配的数据量,避免答案中存在不必要的冗余信息,提高答案的精准性。
以政务文档为例,本申请以政务文档作为语料,首先根据政务领域文档特点自动地对文档进行切分,自动构造出答案片段库;针对用户提出的问题,自动召回相关片段作为候选答案库,并根据标题、正文、重点句子等多个粒度、多个特征进行最佳答案排序,最终从提供的文档集合中选取片段作为答案,同时给出最佳匹配的短答案。通过该问答方案,可以运用大量易于获取的非结构化文档作为语料,自动快速地构建政务问答能力,降低人工构造问答对的成本,解决因人工标注数据不足导致的冷启动问题,提高了问答能力构建的效率。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文结合图6至图8,详细描述了本申请的方法实施例,下文结合图9至图10,详细描述本申请的装置实施例。
图9为本申请实施例提供的问答装置的一种结构示意图。该问答装置可以是电子设备,也可以是电子设备的部件(例如,集成电路,芯片等等),该电子设备可以为图1所示的服务器。
如图9所示,该问答装置300可以包括:获取单元310、第一确定单元320、第二确定单元330。
获取单元310,用于获取目标问题;
第一确定单元320,用于在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档切片的特征值,所述N为正整数;
第二确定单元330,用于根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片。
在一些实施例中,第一确定单元320,具体用于针对所述N个第一文档切片中的每个所述第一文档切片,根据所述第一文档切片的特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度;确定所述第一文档切片中标题与所述目标问题之间的第三匹配度、所述第一文档切片中正文与所述目标问题之间的第四匹配度、所述第一文档切片的正文中句子与所述目标问题之间的第五匹配度中的至少一个匹配度;根据所述第二匹配度,以及所述第三匹配度、所述第四匹配度和所述第五匹配度中的至少一个匹配度,确定所述第一文档切片与所述目标问题之间的第一匹配度。
在一些实施例中,第一确定单元320,具体用于确定所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度;将所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度中的最大匹配度,确定为所述第五匹配度。
在一些实施例中,第一确定单元320,具体用于将所述第二匹配度、所述第三匹配度、所述第四匹配度和所述第五匹配度之和,确定为所述第一文档切片与所述目标问题之间的第一匹配度。
在一些实施例中,所述第一文档切片的特征值包括所述第一文档切片中每个词的第一特征值,第一确定单元320,具体用于根据所述第一文档切片中每个词的第一特征值,确定所述目标问题中每个词在所述第一文档切片中的第一特征值;根据所述目标问题中每个词在所述第一文档切片中的第一特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度。
在一些实施例中,第一确定单元320,具体用于针对所述目标问题中的每个词,若所述第一文档切片中包含所述词,则从所述文档切片库中获取所述词在所述第一文档切片中的第一特征值;若所述第一文档切片中不包含所述词,则确定所述词在所述第一文档切片中的第一特征值为第一数值。
在一些实施例中,第一确定单元320,具体用于根据所述目标问题中每个词在所述第一文档切片中的第一特征值,使用BM25匹配方式,确定第一文档切片与所述目标问题之间的第二匹配度。
在一些实施例中,所述装置还包括构建单元340,构建单元340用于获取目标类型文档集,所述目标类型文档集包括多个目标类型文档;根据目标类型文档的特征,对每个所述目标类型文档进行切片,得到每个所述目标类型文档的至少一个第二文档切片;针对每个第二文档切片,将所述第二文档切片与所述第二文档切片所属的标题组成第一文档切片,并确定所述第一文档切片对应的特征值;根据每个所述第一文档切片对应的特征值,构建所述文档切片库。
在一些实施例中,构建单元340,具体用于根据所述目标类型文档的特征,对所述目标类型文档进行标题识别,得到所述目标类型文档的标题信息;根据所述目标类型文档的标题信息,对所述目标类型文档进行切片,得到所述目标类型文档的至少一个第二文档切片。
在一些实施例中,构建单元340,具体用于若所述目标类型文档的一级标题下不存在二级标题,则将所述一级标题下的正文文本作为一个第二文档切片;若所述目标类型文档的一级标题下存在二级标题且所述二级标题下存在正文文本,则将所述二级标题下存在正文文本作为一个第二文档切片;若所述目标类型文档的一级标题下存在二级标题且相邻的二级标题之间不存在正文文本,则将所述相邻的二级标题作为一个第二文档切片。
在一些实施例中,构建单元340,具体用于确定所述第一文档切片中每个词的出现频率;确定所述第一文档切片中每个词的逆文本频率;根据所述第一文档切片中每个词的出现频率和逆文本频率,确定所述第一文档切片对应的特征值。
在一些实施例中,构建单元340,具体用于将所述第一文档切片中每个词的出现频率和逆文本频率的乘积,确定为所述第一文档切片对应的特征值。
在一些实施例中,构建单元340,具体用于根据每个所述第一文档切片对应的特征值,对各所述第一文档切片进行倒排,并确定各所述第一文档切片的索引;根据具有索引的各所述第一文档切片,构建所述文档切片库。
在一些实施例中,第二确定单元330,具体用于将所述N个第一文档切片中与所述目标问题之间的第一匹配度最大的第一文档切片,确定为所述目标问题的答案切片。
在一些实施例中,所述装置还包括显示单元350,显示单元350用于显示所述目标问题的答案切片。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图9所示的装置可以对应于执行本申请实施例的方法中的相应主体,并且问答装置100中的各个模块的前述和其它操作和/或功能分别为了实现图6至图8中的各个方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图10为本申请实施例涉及的电子设备的框图,该设备可以是图1所示的服务器,用于执行上述实施例所述的方法,具体参见上述方法实施例中的说明。
图10所示的电子设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如,存储器201、处理器202、通信接口203之间可以采用网络连接的方式,实现通信连接。或者,上述电子设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图10是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的电子设备200。
存储器201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(RandomAccess Memory,RAM)。存储器201可以存储程序,当存储器201中存储的程序被处理器202执行时,处理器202和通信接口203用于执行上述方法。
处理器202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器202读取存储器201中的信息,结合其硬件完成本申请实施例的方法。
通信接口203使用例如但不限于收发器一类的收发模块,来实现电子设备200与其他设备或通信网络之间的通信。例如,可以通过通信接口203获取数据集。
当上述电子设备200包括总线204时,总线204可包括在电子设备200各个部件(例如,存储器201、处理器202、通信接口203)之间传送信息的通路。
根据本申请的还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,各个方法实施例之间、各个装置实施例之间也可以互相参考,在不同实施例中的相同或对应内容可以互相引用,不做赘述。

Claims (10)

1.一种问答方法,其特征在于,包括:
获取目标问题;
在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档切片的特征值,所述N为正整数;
根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片。
2.根据权利要求1所述的方法,其特征在于,所述根据N个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,包括:
针对所述N个第一文档切片中的每个所述第一文档切片,根据所述第一文档切片的特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度;
确定所述第一文档切片中标题与所述目标问题之间的第三匹配度、所述第一文档切片中正文与所述目标问题之间的第四匹配度、所述第一文档切片的正文中句子与所述目标问题之间的第五匹配度中的至少一个匹配度;
根据所述第二匹配度,以及所述第三匹配度、所述第四匹配度和所述第五匹配度中的至少一个匹配度,确定所述第一文档切片与所述目标问题之间的第一匹配度。
3.根据权利要求2所述的方法,其特征在于,确定所述第一文档切片的正文中句子与所述目标问题之间的第五匹配度,包括:
确定所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度;
将所述第一文档切片的正文中每个句子与所述目标问题之间的匹配度中的最大匹配度,确定为所述第五匹配度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二匹配度,以及所述第三匹配度、所述第四匹配度和所述第五匹配度中的至少一个匹配度,确定所述第一文档切片与所述目标问题之间的第一匹配度,包括:
将所述第二匹配度、所述第三匹配度、所述第四匹配度和所述第五匹配度之和,确定为所述第一文档切片与所述目标问题之间的第一匹配度。
5.根据权利要求2所述的方法,其特征在于,所述第一文档切片的特征值包括所述第一文档切片中每个词的第一特征值,所述根据所述第一文档切片的特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度,包括:
根据所述第一文档切片中每个词的第一特征值,确定所述目标问题中每个词在所述第一文档切片中的第一特征值;
根据所述目标问题中每个词在所述第一文档切片中的第一特征值,确定所述第一文档切片与所述目标问题之间的第二匹配度。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取目标类型文档集,所述目标类型文档集包括多个目标类型文档;
根据目标类型文档的特征,对每个所述目标类型文档进行切片,得到每个所述目标类型文档的至少一个第二文档切片;
针对每个第二文档切片,将所述第二文档切片与所述第二文档切片所属的标题组成第一文档切片,并确定所述第一文档切片对应的特征值;
根据每个所述第一文档切片对应的特征值,构建所述文档切片库。
7.根据权利要求6所述的方法,其特征在于,所述根据目标类型文档的特征,对每个所述目标类型文档进行切片,得到每个所述目标类型文档的至少一个第二文档切片,包括:
根据所述目标类型文档的特征,对所述目标类型文档进行标题识别,得到所述目标类型文档的标题信息;
根据所述目标类型文档的标题信息,对所述目标类型文档进行切片,得到所述目标类型文档的至少一个第二文档切片。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标类型文档的标题信息,对所述目标类型文档进行切片,得到所述目标类型文档的至少一个第二文档切片,包括:
若所述目标类型文档的一级标题下不存在二级标题,则将所述一级标题下的正文文本作为一个第二文档切片;
若所述目标类型文档的一级标题下存在二级标题且所述二级标题下存在正文文本,则将所述二级标题下存在正文文本作为一个第二文档切片;
若所述目标类型文档的一级标题下存在二级标题且相邻的二级标题之间不存在正文文本,则将所述相邻的二级标题作为一个第二文档切片。
9.一种问答装置,其特征在于,包括:
获取单元,用于获取目标问题;
第一确定单元,用于在已构建的文档切片库中,根据N个第一文档切片中每个第一文档切片的特征值,确定每个第一文档切片与所述目标问题之间的第一匹配度,其中,所述文档切片库中包括所述N个第一文档切片、以及每个所述第一文档切片的特征值,所述N为正整数;
第二确定单元,用于根据每个所述第一文档切片与所述目标问题之间的第一匹配度,从所述N个第一文档切片中确定出所述目标问题的答案切片。
10.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至8任一项所述的问答方法。
CN202110529809.3A 2021-05-14 2021-05-14 问答方法、装置与电子设备 Pending CN115344674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529809.3A CN115344674A (zh) 2021-05-14 2021-05-14 问答方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529809.3A CN115344674A (zh) 2021-05-14 2021-05-14 问答方法、装置与电子设备

Publications (1)

Publication Number Publication Date
CN115344674A true CN115344674A (zh) 2022-11-15

Family

ID=83947272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529809.3A Pending CN115344674A (zh) 2021-05-14 2021-05-14 问答方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN115344674A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216208A (zh) * 2023-09-01 2023-12-12 北京开普云信息科技有限公司 基于长文档的问答方法、装置、存储介质及设备
CN117786066A (zh) * 2023-12-13 2024-03-29 暗物质(北京)智能科技有限公司 一种面向文档的知识问答方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216208A (zh) * 2023-09-01 2023-12-12 北京开普云信息科技有限公司 基于长文档的问答方法、装置、存储介质及设备
CN117216208B (zh) * 2023-09-01 2024-08-20 北京开普云信息科技有限公司 基于长文档的问答方法、装置、存储介质及设备
CN117786066A (zh) * 2023-12-13 2024-03-29 暗物质(北京)智能科技有限公司 一种面向文档的知识问答方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108509547B (zh) 一种信息管理方法、信息管理系统及电子设备
US10248674B2 (en) Method and apparatus for data quality management and control
US11087414B2 (en) Distance-based social message pruning
US20170322930A1 (en) Document based query and information retrieval systems and methods
US10528761B2 (en) Data anonymization in an in-memory database
US10956469B2 (en) System and method for metadata correlation using natural language processing
US20240152558A1 (en) Search activity prediction
US9940354B2 (en) Providing answers to questions having both rankable and probabilistic components
US20170046367A1 (en) Data skipping and compression through partitioning of data
CN115344674A (zh) 问答方法、装置与电子设备
US20140289268A1 (en) Systems and methods of rationing data assembly resources
US9507767B2 (en) Caching of deep structures for efficient parsing
WO2022111148A1 (en) Metadata indexing for information management
US11755633B2 (en) Entity search system
CN110941952A (zh) 一种完善审计分析模型的方法及装置
CN115295164A (zh) 医保数据的处理方法、装置、电子设备和存储介质
Hasan et al. A scalable framework to analyze data from heterogeneous sources at different levels of granularity
US11456996B2 (en) Attribute-based quasi-identifier discovery
US10671587B2 (en) Reduced fixed length sort of variable length columns
US11841857B2 (en) Query efficiency using merged columns
US9576025B1 (en) Abstracting denormalized data datasets in relational database management systems
US11797576B2 (en) Sensitivity-based database processing and distributed storage
US11893032B2 (en) Measuring relevance of datasets to a data science model
US20220067539A1 (en) Knowledge induction using corpus expansion
US20200050708A1 (en) Graphical Match Policy for Identifying Duplicative Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination