CN113515932B - 处理问答信息的方法、装置、设备和存储介质 - Google Patents

处理问答信息的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113515932B
CN113515932B CN202110860634.4A CN202110860634A CN113515932B CN 113515932 B CN113515932 B CN 113515932B CN 202110860634 A CN202110860634 A CN 202110860634A CN 113515932 B CN113515932 B CN 113515932B
Authority
CN
China
Prior art keywords
original
answer
question
quality
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110860634.4A
Other languages
English (en)
Other versions
CN113515932A (zh
Inventor
张文君
庞海龙
宋丹丹
张玉东
张铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110860634.4A priority Critical patent/CN113515932B/zh
Publication of CN113515932A publication Critical patent/CN113515932A/zh
Application granted granted Critical
Publication of CN113515932B publication Critical patent/CN113515932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种处理问题信息的方法,涉及计算机技术领域,尤其涉及问答技术领域。具体实现方案为:利用质量判断模型确定原始问答对是否满足预定质量条件,其中,上述原始问答对包括原始问题和针对原始问题的原始回答;在确定上述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定上述原始问答对中的原始回答是否存在过简问题;以及在确定上述原始回答存在过简问题的情况下,扩展上述原始回答。本公开还提供了一种处理问题信息的装置、电子设备及存储介质。

Description

处理问答信息的方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及问答技术领域,具体涉及一种处理问答信息的方法、装置、设备和存储介质。
背景技术
知识问答平台是一个为大众提供知识需求和知识供给的一个互动式、开放式平台。这类平台的模式主要是用户根据自身的需求提出问题,由其他用户给出回答。随着用户的贡献,社区积累的问答量越来越多,一个提问下往往有多个回答,这些回答里可以包括优质回答、普通回答和低质回答。
发明内容
本公开提供了一种处理问答信息的方法、装置、设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种处理问答信息的方法,包括:利用质量判断模型确定原始问答对是否满足预定质量条件,其中,上述原始问答对包括原始问题和针对原始问题的原始回答;在确定上述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定上述原始问答对中的原始回答是否存在过简问题;以及在确定上述原始回答存在过简问题的情况下,扩展上述原始回答。
根据本公开的另一方面,提供了一种处理问答信息的装置,包括:质量判断模块,用于利用质量判断模型确定原始问答对是否满足预定质量条件,其中,上述原始问答对包括原始问题和针对原始问题的原始回答;简略判断模块,用于在确定上述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定上述原始问答对中的原始回答是否存在过简问题;以及扩展模块,用于在确定上述原始回答存在过简问题的情况下,扩展上述原始回答。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一个实施例的适于处理问答信息的方法和装置的系统架构;
图2是根据本公开一个实施例的处理问答信息的方法的流程图;
图3是根据本公开一个实施例的处理问答信息的方法的流程图
图4是根据本公开一个实施例的处理问题信息的方法的流程图
图5A是根据本公开一个实施例的原始问答对的示意图;
图5B是根据本公开一个实施例的扩展后的原始问答对的示意图;
图5C是根据本公开另一个实施例的扩展后的原始问答对的示意图;
图6是根据本公开一个实施例的处理问题信息的装置的框图;
图7示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着用户的贡献,社区积累的问答量越来越多,一个提问下往往有多个回答。理想情况下,这些回答中低质回答、普通回答及优质回答在分布上遵循着正态分布,回答为普通质量的占大多数,优质的占少数。但实际上,一个提问下往往一个优质回答都没有。优质回答的缺少,对下游的展现、分发以及用户体验都产生了不同程度的影响。
可以通过人工生产的方式增加优质回答,例如找专门的回答生产者(比如对应领域的作者或机构),去人工回答这些问题,同时约定回答的质量。但此种方式生产效率低,花费成本高,且很难保证相应回答生产这提供的都是优质回答
也可以采用问题相关性回插的方式生成优质回答,通过问题与问题的匹配程度,进行内容回插。此种方式可以提高效率,但仅依靠提问相关性难以保证待回插的内容满足回插的提问,同时如果没有库存的优质回答,则无法通过回插生产优质回答。
图1是根据本公开一个实施例的适于处理问答信息的方法和装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图1所示,该系统架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101通过网络102与服务器103进行交互,以接收或发送消息等。终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。终端设备101可以提供小程序运行的环境。
本公开实施例所提供的处理问答信息的方法中的至少之一一般可以由服务器103执行。相应地,本公开实施例所提供的处理问答信息的装置中的至少之一一般可以设置于服务器103中。本公开实施例所提供的处理问答信息的方法也可以由不同于服务器103且能够与多个终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的处理问答信息的装置也可以设置于不同于服务器103且能够与多个终端设备101和/或服务器103通信的服务器或服务器集群中。
应该理解,图1中的终端设备和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备和服务器。
图2是根据本公开一个实施例的处理问答信息的方法的流程图。
如图2所示,该处理问答信息的方法200可以包括操作S210~操作S230。
在操作S210,利用质量判断模型确定原始问答对是否满足预定质量条件,其中,上述原始问答对包括原始问题和针对原始问题的原始回答。
在本公开实施例中,质量判断模型包括通用问答质量模型、问题模型、领域模型、重复问题模型、问答相关度模型、权威用户模型、排版模型其中至少一个。
例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以将原始问答对的原始问题D和原始回答E分别输入通用问答质量模型,确定该原始回答E是否解决该原始问题D。在一个示例中,通用问答质量模型的输出为针对回答的打分,可以为0、1或2,0表征该原始回答E不解决该原始问题D,1表征该原始回答E解决该原始问题D但并未扩展(该原始回答E不可以用于解决其他问题),2表征该原始回答E解决该原始问题D并扩展了回答的适用性(该原始回答E可以用于解决其他问题)。在一个示例中,通用问答质量模型可以是例如分类模型。
又例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以将原始问答对的原始问题D输入问题模型,确定原始问题D是否符合问句形式。其中,问题模型可以是分类模型,模型输出结果为符合问句形式或者不符合问句形式两种分类结果。问题模型可以采用深度学习模型,问题模型同样可以利用样本数据和验证标签预先训练得到。
又例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以将原始问答对的原始问题D输入领域模型,得到原始问题D所属的领域。其中,领域例如可以包括经济、科技、游戏、娱乐等领域。在一个示例中,领域模型可以是例如分类模型。
在确定原始问题D的领域之后,可以从预设的优质问答库中选择与原始问题D属于相同领域的多个历史问题,将原始问题D与每个历史问题构成一个问题对,将每个问题对依次输入重复问题模型进行判断,模型可以判断出问题对涉及的两个问题是否属于重复问题,进而可以判断原始问题D是否与预设优质问答库中的每个历史问题均不重合。在一个示例中,重复问题模型可以是例如分类模型。
又例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以将原始问答对的原始问题D和原始回答E一同输入问答相关度模型,得到原始问题D与原始回答E之间的相关度。问答相关度模型可以采用深度学习模型,问答相关度模型可以预先利用若干个问答对样本及各个样本的相关度验证标签训练得到。
又例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以获得原始问答对的问题提出用户和回答用户各自的用户特征信息,将问题提出用户(提问用户)和回答用户各自的用户特征信息分别输入权威用户模型,确定提问用户和回答用户各自是否为权威用户。用户特征信息例如包括用户已提交的回答和/或问题的数量、用户提交的问题或回答被平台自动删除和/或保留的次数,用户提交的问题或回答被标记为优质问答的次数等等。权威用户模型可以是分类模型,权威用户模型的输出结果可以是权重值,也可以是属于权威用户或者不属于权威用户两种分类结果。权威用户模型可以采用机器学习模型,权威用户模型可以预先利用若干用户的用户特征及相应用户的验证标签训练得到。
又例如,在利用质量判断模型对原始问答对<D,E>进行验证的过程中,可以将原始问答对的原始问题D和原始回答E分别输入排版模型,得到原始问题D和原始回答E的排版质量。排版模型例如可以是分类模型。排版质量可以表示为一个排版质量值,该排版质量值越大,排版越优质。排版质量也可以表示为优质排版或者低质排版这两种分类结果。在本公开的实施例中,在将原始问题D和原始回答E输入排版模型之前可以先提取原始问题D和原始回答E各自的排版特征。排版特征例如包括:有无换行、有无图片、图片位置和比例、逗号等标点符号的数量等等。在一个示例中,以上各个排版特征可以采用遍历的方式统计,从原始问题文档的第一个字符开始遍历,每发现一个逗号就将逗号数量加1;每发现一个换行符号,就将行数加1等等。在一个示例中,图片位置和比例可以采用以下方式确定:遍历文档的过程中,确定图片在文档中的起始位置和结束位置,其中,起始位置即为图片的插入位置,若图片在第20个字符后插入,则起始位置为21。若图片占用4个字符的位置,则图片的位置为21~24,若文档占用的总字符数为30,则图片的比例为4/30。排版模型可以采用机器学习模型,排版模型可以预先利用若干问题和回答样本的排版特征及各个样本的验证标签训练得到。
在本公开的实施例中,上述预定质量条件包括以下条件中的至少一种:上述原始问题和上述原始回答之间的相关度大于等于预设相关度阈值;上述原始问答对的提问用户和/或回答用户为权重值高于第一预定值的用户;上述原始问题和/或上述原始回答的排版质量大于第二预定值;上述原始问题与历史质量问答对的问题不重合;以及上述原始问题符合问句形式。
针对以上优质问答融合模型包含的各个模型以及相应的判断条件,可以根据实际需要使用全部或者使用其中的部分,各个模型的使用顺序也可以根据实际需要确定。
例如,可以先使用问题模型,若判断出原始问题D不符合问句形式,则认为原始问题D实质上不属于问题,可以将原始问题D所在的原始问答对丢弃;若判断出原始问题D属于问题,则可以使用问答相关度模型、用户权威模型、排版模型和重复问题模型得到针对原始问答对的相关模型结果,并结合这四个模型的结果进行综合判断。在一个示例中,若原始问答对同时满足相关度超过预设相关度阈值、提问用户和/或回答用户为权重值高于第一预定值的用户(权威用户)、原始问题和/或原始回答的排版质量大于第二预定值、原始问题与历史质量问答对的问题不重合这四个条件则可以确定原始问答对为满足预定质量条件。
又例如,可以先使用问题模型,若判断出原始问题D符合问句形式,则可以继续利用领域模型和重复问题模型进行判断,若判断出原始问题D与历史质量问答对的问题不重合,则可以继续使用问答相关度模型、用户权威模型和排版模型得到模型结果,并结合三个模型的结果进行综合判断。在一个示例中,若原始问答对满足相关度大于预设相关度阈值、与历史质量问答对的问题不重合且排版质量大于第二预定值这三个条件,即使没有涉及得到权重值也可以将原始问答对确定为满足预定质量条件。
在操作S220,在确定上述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定上述原始问答对中的原始回答是否存在过简问题。
在本公开实施例中,简略判断模型可以用于判断原始回答的长度是否达到预设长度,标点符号数量、html标签数量、实体词数量、名称数量、动词数据、递进词数量等是否分别达到对应的预设数量,及是否包含相应信息。简略判断模型可以通过训练普通的神经网络模型或者BERT(Bidirectional Encoder Representation from Transformers)模型得到。
例如,简略判断模型可以检测原始回答的长度,比如原始回答的长度为10个字符,预设长度为20字符时,可以确定原始回答存在过简问题。
又例如,简略判断模型可以检测原始回答中标点符号的数量,比如原始回答中共有10个标点符号,预设数量为15个标点符号,可以确定原始回答存在过简问题。
又例如,简略判断模型可以检测原始回答中是否包含相应信息,比如原始问题中包含的关键字“某某”,可以检测原始回答中是否也包含该关键字“某某”,若原始回答中不包含该关键字,可以确定原始回答存在过简问题。
在操作S230,在确定上述原始回答存在过简问题的情况下,扩展上述原始回答。
例如,可以邀请专门的回答生产者(比如对应领域的作者或机构),去人工回答扩展该原始回答。
例如,可以计算上述多个历史问答对中的问题与上述原始问题之间的问题相似度,用问题相似度大于问题相似度阈值的多个历史问答对中的问题的回答扩展上述原始回答。
例如,可以计算上述多个历史问答对中的回答与上述原始回答之间的回答相似度,用回答相似度大于回答相似度阈值的多个历史问答对中的回答扩展上述原始回答。
通过本公开实施例,可以对普通回答进行扩充或增强,构建优质回答,摆脱对优质库的依赖。
图3是根据本公开一个实施例的处理问答信息的方法的流程图。
如图3所示,该处理问答信息的方法330可以在确定所示原始回答存在过简问题的情况时执行。
该处理问答信息的方法330可以确定问答库中与上述原始回答对应的目标回答。
在操作S331,根据上述原始问答对,确定上述问答库中的至少一个原始问答对,其中,上述原始问答对包括一个原始问题和与上述原始问题对应的原始回答。
在本公开实施例中,可以对原始问答对建立索引,以该索引检索上述问答库,将检索出问答对作为候选原始问答对。
例如,可以提取原始问题和原始回答中的关键字,以该关键字为索引检索上述问答库,将检索出的包含该关键字或者与该关键字相关的问答对作为候选原始问答对。在一个示例中,原始问题中包括关键字“机器”,原始回答中包括关键字“操作”,可以从上述问答库中检索出包含“机器”的原始问题,以及检索出包含“操作”的原始回答。
接下来,该处理问答信息的方法330可以确定上述至少一个原始问答对中的每个原始问答对与上述原始问答对之间的相似度,下面将参考下述操作S332~操作S333进行详细说明。
在操作S332,针对每个原始问答对,确定上述原始问答对中的原始问题与上述原始问题之间的第一相似度,以及上述原始问答对中的原始回答与上述原始回答之间的第二相似度。
在本公开实施例中,可以通过文本相似度模型确定上述第一相似度或上述第二相似度。
例如,文本相似度模型可以是TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文本频率指数)模型、LDA(Linear Discriminant Analysis,线性判别分析)模型、BERT模型、word2vec模型的其中一种或几种。
又例如,根据原始问题和原始回答,确定了N个候选原始问答对(<q1,r1>,<q2,r2>,……,<qN,rN>),进而可以计算了N个候选原始问答对与原始问答对<D,E>的相似度。可以计算N个候选原始问答对中N个问题(q1,q2,……,qN)与原始问答对<D,E>中原始问题D的第一相似度,可以计算N个候选原始问答对中N个回答(r1,r2,……,rN)与原始问答对<D,E>中回答E的第二相似度。在一个示例中,上述N个第一相似度为(similar_q1,similar_q2,……,similar_qN),上述N个第二相似度为(similar_r1,similar_r2,……,similar_rN)。
在操作S333,根据上述第一相似度与第二相似度,确定上述原始问答对与上述原始问答对之间的相似度。
在本公开实施例中,可以根据预设的问题权重和预设的回答权重进行加权计算,得到上述原始问答对与上述原始问答对之间的相似度。
例如,上述预设的问题权重为wq,上述预设的回答权重为wr,N个问答中第i个问答对与原始问答对<D,E>的相似度可以通过下式计算:
similar_i=wq*similar_qi+wr*similar_ri
(一),
其中,1≤i≤N。进而,可以得到N个原始问答对与原始问答对<D,E>的相似度(similar_1,similar_2,……,similar_N)。在一个示例中,wq=wr=0.5。
在操作S334,确定上述至少一个原始问答对中相似度大于相似度阈值的原始问答对的原始回答作为上述目标回答。
例如,N个原始问答对中第1个和第4个原始问答对的相似度大于相似度阈值,可以将r1和r4作为目标回答。
在操作S335,根据上述目标回答,扩展上述原始回答。
在本公开实施例中,可以将目标回答加入原始问答对中,以扩展上述原始回答。
例如,目标回答为r1和r4,原始问答对为<D,E>,则扩展后的原始问答对为<D,(E、r1、r4)>,或者为<D,(r1、r4)>。
通过本公开实施例,可以从提问和回答两个角度出发,进行回插,提高目标回答与原始回答的相关性。
图4是根据本公开一个实施例的处理问题信息的方法的流程图。
如图4所示,该处理问答信息的方法430可以在确定所示原始回答存在过简问题的情况时执行。
该处理问答信息的方法430可以确定与上述原始回答对应的素材。下面将参考下述操作S431~操作S432进行详细说明。
在操作S431,提取上述原始回答中的关键信息。
在本公开实施例中,关键信息可以是原始回答中的关键字。
例如,原始回答为文本回答时,关键字可以是文本中的主语或宾语。又例如,原始回答为视频或语音回答时,关键字可以是视频或语音中的多次出现的名词。
在操作S432,根据上述关键信息,在素材库中查找与上述原始回答对应的素材。
在本公开实施例中,上述素材包括案例、配图和释义信息中的至少一个。
例如,素材可以是与关键信息有关的案例,也可以是与关键信息有关的图片,或者也可以是对关键信息的释义信息。
该处理问答信息的方法430可以根据上述素材,扩展上述原始回答。下面将参考下述操作S433~操作S434进行详细说明。
在操作S433,在上述素材包括多个素材的情况下,确定与上述多个素材对应的衔接关系语句。
在本公开实施例中,衔接关系语句可以是用于引出案例素材的语句。
例如,在素材库中匹配到的素材是与关键信息相关的一个或多个案例,那么衔接关系语句可以是“例如”、“比如”等等。
在本公开实施例中,衔接关系语句可以是用于引出配图素材的语句。
例如,在素材库中匹配到的素材是与关键信息相关的一个或多个配图,那么衔接关系语句可以是“如下图所示”、“在下图中”等等。
在本公开实施例中,衔接关系语句可以是用于引出释义信息素材的语句。
例如,在素材库中匹配到的素材是与关键信息相关的一个或多个释义信息,那么衔接关系语句可以是“即”、“换言之”等等。
在操作S434,根据上述衔接关系语句,将上述多个素材整合至上述原始回答中。
在本公开实施例中,在上述关键信息之后,插入衔接关系语句,再插入上述素材。
例如,上述素材为配图,可以在上述关键信息之后,插入衔接关系语句(比如“如下图所示”),然后将配图插入至上述衔接关系语句之后。
在本公开实施例中,可以在将上述多个素材整合至上述原始回答之后,进行排版,得到整合后的回答。
例如,素材为配图时,在衔接关系语句之后,插入换行符;在配图之后,也插入换行符,完成排版,得到整合后的回答。
通过本公开实施例,采用素材对原始回答进行扩展,可以增强原始回答,使得扩展后的原始回答有可能成为优质回答。
图5A是根据本公开一个实施例的原始问答对的示意图。
如图5A所示,原始问答对<D’,E’>包括原始问题D’501和原始回答E’502。
图5B是根据本公开一个实施例的扩展后的原始问答对的示意图。
如图5B所示,原始问答对<D’,E’>经扩展后,增加了目标回答503和目标回答504。目标回答503、目标回答504与原始回答502具有较高的相似度,并且,与目标回答503对应的问题、与目标回答504对应的问题与原始问题D’501也具有较高的相关度。在一个示例中,可以根据例如图3中的处理问答信息的方法330确定目标回答503和目标回答504。
图5C是根据本公开另一个实施例的扩展后的原始问答对的示意图。
如图5C所示,根据原始回答502中的关键信息,比如“××××机器”,在素材库中查找到释义信息5051、配图5052和案例5053。并确定了与多个素材对应的衔接关系语句,比如与配图5052对应的衔接关系语句“如下图所示”,比如与案例5053对应的衔接关系语句“例如”。将释义信息5051、配图5052、案例5053以及衔接关系语句整合到原始回答502中,得到了整合后的回答505。在一个示例中,可以根据例如图4中的处理问答信息的方法430确定释义信息5051、配图5052、案例5053及衔接关系语句。
图6是根据本公开一个实施例的处理问题信息的装置的框图。
如图6所示,该处理问题信息的装置600可以包括质量判断模块610、简略判断模块620和扩展模块630。
质量判断模块610,用于利用质量判断模型确定原始问答对是否满足预定质量条件,其中,上述原始问答对包括原始问题和针对原始问题的原始回答。
简略判断模块620,用于在确定上述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定上述原始问答对中的原始回答是否存在过简问题。
扩展模块630,用于在确定上述原始回答存在过简问题的情况下,扩展上述原始回答。
在一些实施例中,上述扩展模块包括:第一确定子模块,用于确定问答库中与上述原始回答对应的目标回答;以及第一扩展子模块,用于根据上述目标回答,扩展上述原始回答。
在一些实施例中,上述确定子模块包括:第一确定单元,用于根据上述原始问答对,确定上述问答库中的至少一个原始问答对,其中,上述原始问答对包括一个原始问题和与上述原始问题对应的原始回答;第二确定单元,用于确定上述至少一个原始问答对中的每个原始问答对与上述原始问答对之间的相似度;以及第三确定单元,用于确定上述至少一个原始问答对中相似度大于相似度阈值的原始问答对的原始回答作为上述目标回答。
在一些实施例中,上述第二确定单元包括:第一确定子单元,用于针对每个原始问答对,确定上述原始问答对中的原始问题与上述原始问题之间的第一相似度,以及上述原始问答对中的原始回答与上述原始回答之间的第二相似度;以及第二确定子单元,用于根据上述第一相似度与第二相似度,确定上述原始问答对与上述原始问答对之间的相似度。
在一些实施例中,上述扩展模块包括:第二确定子模块,用于确定与上述原始回答对应的素材;以及第二扩展子模块,用于根据上述素材,扩展上述原始回答。
在一些实施例中,上述第二确定子模块包括:提取单元,用于提取上述原始回答中的关键信息;以及查找单元,用于根据上述关键信息,在素材库中查找与上述原始回答对应的素材。
在一些实施例中,上述第二扩展子模块包括:第四确定单元,用于在上述素材包括多个素材的情况下,确定与上述多个素材对应的衔接关系语句;以及整合单元,用于根据上述衔接关系语句,将上述多个素材整合至上述原始回答中。
在一些实施例中,上述素材包括案例、配图和释义信息中的至少一个。
在一些实施例中,上述预定质量条件包括以下条件中的至少一种:上述原始问题和上述原始回答之间的相关度大于等于预设相关度阈值;上述原始问答对的提问用户和/或回答用户为权重值高于第一预定值的用户;上述原始问题和/或上述原始回答的排版质量大于第二预定值;上述原始问题与历史质量问答对的问题不重合;以及上述原始问题符合问句形式。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如处理问题信息的方法。例如,在一些实施例中,处理问题信息的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的处理问题信息的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行处理问题信息的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (8)

1.一种处理问答信息的方法,包括:
利用质量判断模型确定原始问答对是否满足预定质量条件,其中,所述原始问答对包括原始问题和针对原始问题的原始回答;
在确定所述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定所述原始问答对中的原始回答是否存在过简问题;以及
在确定所述原始回答存在过简问题的情况下,扩展所述原始回答;
其中,所述扩展所述原始回答包括:
提取所述原始回答中的关键信息;
根据所述关键信息,在素材库中查找与所述原始回答对应的素材;
在所述素材包括多个素材的情况下,确定与所述多个素材对应的衔接关系语句;以及
根据所述衔接关系语句,将所述多个素材整合至所述原始回答中。
2.根据权利要求1所述的方法,其中,所述素材包括案例、配图和释义信息中的至少一个。
3.根据权利要求1所述的方法,其中,所述预定质量条件包括以下条件中的至少一种:
所述原始问题和所述原始回答之间的相关度大于等于预设相关度阈值;
所述原始问答对的提问用户和/或回答用户为权重值高于第一预定值的用户;
所述原始问题和/或所述原始回答的排版质量大于第二预定值;
所述原始问题与历史质量问答对的问题不重合;以及
所述原始问题符合问句形式。
4.一种处理问答信息的装置,包括:
质量判断模块,用于利用质量判断模型确定原始问答对是否满足预定质量条件,其中,所述原始问答对包括原始问题和针对原始问题的原始回答;
简略判断模块,用于在确定所述原始问答对不满足预定质量条件的情况下,利用简略判断模型确定所述原始问答对中的原始回答是否存在过简问题;以及
扩展模块,用于在确定所述原始回答存在过简问题的情况下,扩展所述原始回答;
其中,所述扩展模块包括:
提取单元,用于提取所述原始回答中的关键信息;
查找单元,用于根据所述关键信息,在素材库中查找与所述原始回答对应的素材;
第四确定单元,用于在所述素材包括多个素材的情况下,确定与所述多个素材对应的衔接关系语句;以及
整合单元,用于根据所述衔接关系语句,将所述多个素材整合至所述原始回答中。
5.根据权利要求4所述的装置,其中,所述素材包括案例、配图和释义信息中的至少一个。
6.根据权利要求4所述的装置,其中,所述预定质量条件包括以下条件中的至少一种:
所述原始问题和所述原始回答之间的相关度大于等于预设相关度阈值;
所述原始问答对的提问用户和/或回答用户为权重值高于第一预定值的用户;
所述原始问题和/或所述原始回答的排版质量大于第二预定值;
所述原始问题与历史质量问答对的问题不重合;以及
所述原始问题符合问句形式。
7. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的方法。
CN202110860634.4A 2021-07-28 2021-07-28 处理问答信息的方法、装置、设备和存储介质 Active CN113515932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860634.4A CN113515932B (zh) 2021-07-28 2021-07-28 处理问答信息的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860634.4A CN113515932B (zh) 2021-07-28 2021-07-28 处理问答信息的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113515932A CN113515932A (zh) 2021-10-19
CN113515932B true CN113515932B (zh) 2023-11-10

Family

ID=78068876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860634.4A Active CN113515932B (zh) 2021-07-28 2021-07-28 处理问答信息的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113515932B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238611B (zh) * 2021-12-23 2023-05-16 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090742A (zh) * 2019-12-19 2020-05-01 东软集团股份有限公司 一种问答对的评价方法、装置、存储介质及设备
CN111159363A (zh) * 2018-11-06 2020-05-15 航天信息股份有限公司 一种基于知识库的问题答案确定方法及装置
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN111984775A (zh) * 2020-08-12 2020-11-24 北京百度网讯科技有限公司 问答质量确定方法、装置、设备和存储介质
WO2021068615A1 (zh) * 2019-10-12 2021-04-15 深圳壹账通智能科技有限公司 文书中问答数据获取方法、装置、计算机设备和存储介质
CN112732885A (zh) * 2020-12-30 2021-04-30 北京云迹科技有限公司 用于问答系统的答案扩展方法、装置及电子设备
CN112836035A (zh) * 2021-03-04 2021-05-25 泰康保险集团股份有限公司 匹配数据的方法、装置、设备和计算机可读介质
CN112966081A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740769B2 (en) * 2014-07-17 2017-08-22 International Business Machines Corporation Interpreting and distinguishing lack of an answer in a question answering system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159363A (zh) * 2018-11-06 2020-05-15 航天信息股份有限公司 一种基于知识库的问题答案确定方法及装置
WO2021068615A1 (zh) * 2019-10-12 2021-04-15 深圳壹账通智能科技有限公司 文书中问答数据获取方法、装置、计算机设备和存储介质
CN111090742A (zh) * 2019-12-19 2020-05-01 东软集团股份有限公司 一种问答对的评价方法、装置、存储介质及设备
CN111737399A (zh) * 2020-05-28 2020-10-02 北京百度网讯科技有限公司 扩展问答集的方法、装置、电子设备和可读存储介质
CN111984775A (zh) * 2020-08-12 2020-11-24 北京百度网讯科技有限公司 问答质量确定方法、装置、设备和存储介质
CN112732885A (zh) * 2020-12-30 2021-04-30 北京云迹科技有限公司 用于问答系统的答案扩展方法、装置及电子设备
CN112836035A (zh) * 2021-03-04 2021-05-25 泰康保险集团股份有限公司 匹配数据的方法、装置、设备和计算机可读介质
CN112966081A (zh) * 2021-03-05 2021-06-15 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
检索式自动问答研究综述;赵芸 等;计算机学报;第44卷(第6期);全文 *

Also Published As

Publication number Publication date
CN113515932A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CN106874441B (zh) 智能问答方法和装置
CN112966081B (zh) 处理问答信息的方法、装置、设备和存储介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
US8918404B1 (en) Displaying content in a user interface in a social network system
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
US20240211692A1 (en) Method of training ranking model, and electronic device
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113515932B (zh) 处理问答信息的方法、装置、设备和存储介质
CN117421403A (zh) 智能对话方法、装置及电子设备
CN115186163B (zh) 搜索结果排序模型的训练与搜索结果排序方法、装置
CN112052390A (zh) 一种资源筛选方法、装置、电子设备及存储介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN113076395B (zh) 语义模型训练、搜索显示方法、装置、设备及存储介质
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN114925185B (zh) 交互方法、模型的训练方法、装置、设备及介质
CN115129816B (zh) 问答匹配模型的训练方法、装置及电子设备
CN113190779B (zh) 网页评估方法和装置
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant