CN110196929A - 问答对的生成方法和装置 - Google Patents

问答对的生成方法和装置 Download PDF

Info

Publication number
CN110196929A
CN110196929A CN201910420007.1A CN201910420007A CN110196929A CN 110196929 A CN110196929 A CN 110196929A CN 201910420007 A CN201910420007 A CN 201910420007A CN 110196929 A CN110196929 A CN 110196929A
Authority
CN
China
Prior art keywords
subtitle
question
candidate
similarity
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910420007.1A
Other languages
English (en)
Inventor
崔建青
刘璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910420007.1A priority Critical patent/CN110196929A/zh
Publication of CN110196929A publication Critical patent/CN110196929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种问答对的生成方法和装置,其中,方法包括:获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题;获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题;确定多级子标题中高于预设级别的第二子标题;将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;根据预设的筛选策略确定多个拼接候选问题中的目标拼接问题;根据目标拼接问题和第一子标题包括的文本信息内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。

Description

问答对的生成方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种问答对的生成方法和装置。
背景技术
随着计算技术的发展,很多信息以文档或者网页等文本的形式存在,文本信息中包含了很多的优质的内容,有些高质量的内容是可以直接作为用户问题的答案的。基于文本信息的内容为用户提供问答服务,是目前常用的一种服务方式。
相关技术中,构建问答对实现问答服务,基于文本信息的内容生成问题,进而,基于问题与对应的文档内容构建问答对,然而,这种方式,导致生成的问题受到内容的多种影响,生成的问题总结性不高,质量较差。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种问答对的生成方法,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。
本发明的第二个目的在于提出一种问答对的生成装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种问答对的生成方法,包括以下步骤:
获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;根据所述多个拼接候选问题确定目标拼接问题;根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。
本发明实施例的问答对的生成方法,获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题,获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题,确定多级子标题中高于预设级别的第二子标题,进而,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题,最后,根据多个拼接候选问题确定目标拼接问题,并根据目标拼接问题和第一子标题包括的段落内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。
为达上述目的,本发明第二方面实施例提出了一种问答对的生成装置,包括:提取模块,用于获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;第一获取模块,用于获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;第一确定模块,用于在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;第二获取模块,用于将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;第二确定模块,用于根据所述多个拼接候选问题确定目标拼接问题;构建模块,用于根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。
本发明实施例的问答对的生成装置,获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题,获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题,确定多级子标题中高于预设级别的第二子标题,进而,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题,最后,根据多个拼接候选问题确定目标拼接问题,并根据目标拼接问题和第一子标题包括的段落内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的问答对的生成方法。
为了达上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,所述计算机程序被处理器执行时实现如上述实施例所述的问答对的生成方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种问答对的生成方法的流程示意图;
图2为本发明实施例所提供的一种问答对的生成方法的应用场景示意图;
图3为本发明实施例所提供的另一种问答对的生成方法的应用场景示意图;
图4为本发明实施例所提供的另一种问答对的生成方法的流程示意图;
图5为本发明实施例所提供的又一种问答对的生成方法的流程示意图;
图6为本发明实施例所提供的一种问答对的生成装置的结构示意图;
图7为本发明实施例所提供的另一种问答对的生成装置的结构示意图;
图8为本发明实施例所提供的又一种问答对的生成装置的结构示意图;以及
图9为实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的问答对的生成方法和装置。其中,本发明中生成的问答对应用于问答服务的各种场景中,比如,应用于基于人工智能的搜索机器人,基于用户的问题,与问答对中的问题进行匹配,为用户提供优质的回答。
针对上述背景技术中提到的生成的问题质量不高的技术问题,本发明中发现无论是文档还是网页中,都会存在标题和多级子标题这样的半结构化数据,而每个标题都是对应段落内容的针对性总结,因此,本发明中将对应的子标题作为问题,将该子标题对应的内容作为答案,另外,在本发明的实施例中,为了进一步提高问答对的质量,考虑到一些子标题表述过于书面化,可能不能作为一个完整的问题,因此,基于子标题进行口语化的扩展,扩展出与用户的习惯问题形式符合的问题表达,由此,结合扩展的子标题生成问题,保证了问答对的实用性更高。
具体而言,图1为本发明实施例所提供的一种问答对的生成方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤101,获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题。
其中,待解析的文本信息包括文档、网页、文本图片等任意包含文本内容的多媒体形式。
具体地,提取文本信息中的文本标题和子标题,即发现文本信息中的半结构化数据,其中,根据文本信息的不同,提取文本信息中的文本标题和多级子标题的方式不同,示例如下:
第一种示例:文本信息为网页。
在本示例中,获取网页的HTML语言,基于HTML语言中的标题标签确定文本标题和子标题。
第二种示例:文本信息为图片,比如,包含书本内容的图片、网页内容的图片等。
在本示例中,可以基于图像文字识别技术,基于标题和子标题的图像特征(比如位置特征、字体特征等)识别文本标题和多级子标题。
步骤102,获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题。
不难理解的是,每个子标题是对其对应的段落内容的针对性总结,比如,对如图2所示的文档内容,A段落的内容对应于室外机的构造,B段落的内容对应于室内机的构造等,基于图2所示的内容可以获知,子标题的等级越低,则其对应的段落内容越细化,比如,二级子标题“清洗方法”相对于三级子标题“室内机的清洗”包含了更广泛的内容,三级子标题对应的内容仅仅集中在室内机的清洗上,因此,确定的子标题的等级越低,则得到的答案越发的细致,力度更细,范围更窄。
因而,在本发明的实施例中,根据应用场景的要求,确定答案的细致度,决定待扩展的子标题的预设级别,当然,同一个预设级别的子标题可能有多个,因此,在本发明的实施例中,根据需要获取与多级子标题中的预设级别的第一子标题,该第一子标题可以是预设级别的所有的子标题,也可以是指定的部分预设等级的子标题,比如,满足包含主题词的子标题,以过滤掉含义不明确的子标题。
当然了,例如“清洗方法”这类标题可能过于书面化,这与用户在日常中常用的问题偏差较大,比如,用户可能的问题为:“空调是怎么洗的啊”等,因此,在本发明的实施例中,为了提高问题的质量,需要确定与第一子标题对应的扩展标题,以更加全面的覆盖到口语化的表述。
在实际执行过程中,为了进一步的提高问题的指令,还可以对第一子标题以及高于预设等级的所有子标题都进行子标题的扩展,进一步丰富问题。
步骤103,在多级子标题中,确定与第一子标题对应的第二子标题,其中,第二子标题的等级高于预设级别。
其中,第二子标题可以为第一子标题上所有高等级的第二子标题,也可以是高于预设级别预设等级的第二子标题,其中,第二子标题与第一子标题相关,也就是说,下位标题中不包含第一子标题的子标题不属于第二子标题。
步骤104,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题。
具体地,由于子标题可能不是一个完整的问题,比如“清洗方法”并不是一个完整的问题,因此,在本发明的实施例中,确定多级子标题中高于预设级别的第二子标题,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题。
举例而言,当文档的结构如图3所示,文档标题为a,第一级子标题为b、c,第一级子标题为b下的第二级子标题包括d,第一级子标题为c下的第二级子标题包括e和f,第二级子标题为f下的第三级子标题包括g和h,其中,当确定第一子标题为第二级子标题f、e、d,则对第一子标题f、e、d扩展,生成扩展子标题分别为f1-f10、e1-e15、d1-d9,则对之上等级的第二子标题和文档标题拼接,确定的多个拼接候选问题为abd1,abd2…abd9;ace1,ace2…ace15;acf1,acf2…acf10。当然了,在拼接生成候选问题时候,还可以对重复实体词进行去重处理,对语序进行调整等。
在本发明的一个实施例中,考虑到子标题中包含了噪音信息,比如,子标题为“关于XXX的通告”,其中“关于”和“的通告”属于无用的非主体词汇,因此,为了进一步提高生成的问题的质量,还可识别预设级别的第一子标题和第二子标题中的主体内容,比如,基于词性识别的方式识别子标题中的主体内容,去除第一子标题和第二子标题中的非主体内容。
当然,去除的噪音信息还包括标点符号信息等其他噪音信息,在此不再一一举例。
步骤105,根据多个拼接候选问题确定目标拼接问题。
需要说明的是,多个拼接候选问题的质量参差不齐,因而,为了进一步提高问题的质量,根据多个拼接候选问题确定目标拼接问题,比如,预设的筛选策略确定多个拼接候选问题中的目标拼接问题,即对拼接候选问题进行筛选。
作为一种可能的实现方式,获取用户针对该文本信息的搜索词日志集合,获取多个拼接候选问题中的每个拼接候选问题和搜索词集合中搜索词的第一相似度,获取第一子标题的段落内容,并计算段落内容和搜索词集合中搜索词的第二相似度,其中,第一子标题的段落内容,包含了第一子标题所在等级及所属的更低等级的段落内容,比如,对于图2中的子标题“清洗方法”,其对应的段落内容包含D段、E段和F段的段落内容,该第二相似度可表示语义相似度等,根据第一相似度和第二相似度获取每个拼接候选问题的相似度得分,比如,为第一相似度和第二相似度进行评分归一化处理,获取相似度得分,当然,在不同的场景中,还可以为第二相似度和第二相似度设置不同的权重,结合权重进行相似度得分的获取,进而,根据相似度得分确定多个拼接候选问题中的目标拼接问题,比如,将得分处于TOP前预设个数的拼接候选问题作为目标拼接问题,又比如,将得分大于一定值的拼接候选问题作为目标拼接问题。
作为另一种可能的实现方式,将大量拼接候选问题作为输入,将反馈较好的目标拼接问题作为输出,训练深度模型,该深度模型可以是seq2seq模型等,由此,在深度模型训练完成后,将多个拼接候选问题输入预先训练的深度模型,获取深度模型输出的目标拼接问题。
步骤106,根据目标拼接问题和第一子标题包括的段落内容构建问答对。
具体的,根据目标拼接问题和第一子标题包括的文本信息内容构建问答对,其中,第一子标题包含的文本信息内容第一子标题所在等级及所属的更低等级的段落内容,比如,对于图2中的子标题“空调的清洗方法”,其对应的段落内容包含C段、D段和E段的段落内容,当然,在生成问答对时,还可以对第一子标题包括的文本信息内容进行去噪处理,精炼文本信息内容。
为了更加清楚的描述本发明实施例的问答对的生成方法,下面举例说明,在本示例中,文本信息为文档,如图4所示,对文档进行文档解析后,对解析内容进行预处理获取文本标题和多级子标题,基于多级子标题和文本标题生成问题,对问题进行筛选后,得到问答对。
需要说明的是,在不同的应用场景中,并确定与第一子标题对应的扩展标题的方式不同,如图4所示,可以使用基于复述的问题生成方式,也可以使用基于深度模型的生成方式,具体说明如下:
第一种示例,使用复述问题的生成方式。
具体而言,获取针对文本信息的点击日志信息,并获取与日志信息对应的搜索词集合,即可得到共同点击本文本信息的url的搜索词集合,进而,提取搜索词集合中的实体词(包含专用名词和专有事件名词等),对包含同样实体词的搜索词泛化处理获取共现短语,由此,扩展了搜索词的覆盖范围,且避免了和其他更高级别的子标题在实体词上的重复,比如,将搜索词“空调的清洗的方式”泛化为“清洗的方式”,在对搜索词进行处理时,还可对停用词等噪音信息进行滤除,进而,根据共现短语获取扩展标题,比如,将共现短语出现概率高的作为属性复述对,如果对准确率要求较高,可以再经过人工标注得到最终的属性复述对,基于该附属对得到扩展标题。比如,得到针对第一子标题“清洗方法”得到扩展标题“洗涤方式”、“洁净方法”等。
也就是说,在本实施例中,将文本标题看作主体,子标题看作属性,通过挖掘的属性复述对,将子标题进行扩展,对扩展的子标题进行多级标题拼接生成非自然语言的问题。
如图5所示,在一种可能的实现方式中,得到包含文本标题和多级子标题的半结构化数据后,进行去噪预处理,基于属性复述对扩展子标题,得到多个拼接候选问题,进而,基于搜索日志进行检索,计算多个拼接候选问题和搜索日志中搜索词的相似度,基于相似度确定候选搜索词,进而计算子标题下的文本内容和多个候选搜索词的相关性,筛选出候选搜索词中的目标搜索词,并根据目标搜索词生成目标拼接问题,比如,将目标搜索词于第二子标题和文本标题拼接梳理后,得到目标拼接问题。
第二种示例,使用深度模型生成扩展标题。
将第一子标题输入预设深度模型,获取深度模型输出的扩展标题。该深度模型可以是seq2seq模型等。
综上,本发明实施例的问答对的生成方法,获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题,获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题,确定多级子标题中高于预设级别的第二子标题,进而,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题,最后,根据多个拼接候选问题确定目标拼接问题,并根据目标拼接问题和第一子标题包括的段落内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。
为了实现上述实施例,本发明还提出一种问答对的生成装置。
图6为本发明实施例提供的一种问答对的生成装置的结构示意图。
如图6所示,该问答对的生成装置包括:提取模块100、第一获取模块200、第一确定模块300、第二获取模块400、第二确定模块500和构建模块600。
其中,提取模块100,用于获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题。
第一获取模块200,用于获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题。
第一确定模块300,用于在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别。
第二获取模块400,用于将文本标题和第二子标题与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题。
第二确定模块500,用于根据多个拼接候选问题确定目标拼接问题。
构建模块600,用于根据目标拼接问题和第一子标题包括的段落内容构建问答对。
在本发明的一个实施例中,如图7所示,在如图6所示的基础上,第一获取模块200包括第一获取单元210、第二获取单元220、生成单元230,其中,
第一获取单元210,用于获取针对文本信息的点击日志信息,以及与日志信息对应的搜索词集合。
第二获取单元220,用于提取搜索词集合中的实体词,并对包含同样实体词的搜索词泛化处理获取共现短语。
生成单元230,用于根据共现短语生成扩展标题。
在本发明的一个实施例中,如图8所示,在如图6所示的基础上,第二获取模块400包括:第三获取单元410、第四获取单元420、第一计算单元430、第二计算单元440、筛选单元450,其中,
第三获取单元410,用于获取针对文本信息的点击日志信息,以及与日志信息对应的搜索词集合。
第四获取单元420,用于获取多个拼接候选问题中的每个拼接候选问题和搜索词集合中搜索词的第一相似度。
第一计算单元430,用于获取第一子标题的段落内容,并计算段落内容和搜索词集合中搜索词的第二相似度。
第二计算单元440,用于根据第一相似度和第二相似度计算得到每个拼接候选问题的相似度得分。
筛选单元450,用于根据相似度得分筛选出多个拼接候选问题中的目标拼接问题。
需要说明的是,前述对问答对的生成方法实施例的解释说明也适用于该实施例的问答对的生成装置,此处不再赘述。
综上,本发明实施例的问答对的生成装置,获取待解析的文本信息,并提取文本信息中的文本标题和多级子标题,获取与多级子标题中的预设级别的第一子标题,并确定与第一子标题对应的扩展标题,确定多级子标题中高于预设级别的第二子标题,进而,将文本标题和第二子标题,与第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题,最后,根据多个拼接候选问题确定目标拼接问题,并根据目标拼接问题和第一子标题包括的段落内容构建问答对。由此,丰富了问答对,召回了更多的问答资源,实现了问答对中的问题与实际应用中的用户问题更加贴近,实用性较强,提高了为用户提供的问答服务质量。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,实现上述实施例描述的问答对的生成方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行上述实施例示出的问答对的生成方法。
图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种问答对的生成方法,其特征在于,包括以下步骤:
获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;
获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;
在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;
将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;
根据所述多个拼接候选问题确定目标拼接问题;
根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。
2.如权利要求1所述的方法,其特征在于,所述并确定与所述第一子标题对应的扩展标题,包括:
获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;
提取所述搜索词集合中的实体词,并对包含同样实体词的搜索词泛化处理获取共现短语;
根据所述共现短语生成所述扩展标题。
3.如权利要求2所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:
获取所述多个拼接候选问题中的每个拼接候选问题和所述搜索词集合中每个搜索词的相似度;
确定所述相似度大于预设阈值的候选搜索词;
计算所述候选搜索词和对应的拼接候选问题中的第一子标题的段落内容的相关度;
根据所述相似度和所述相关度在所述候选搜索词中确定目标搜索词,并根据所述目标搜索词生成所述目标拼接问题。
4.如权利要求1所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:
获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;
获取所述多个拼接候选问题中的每个拼接候选问题和所述搜索词集合中搜索词的第一相似度;
获取所述第一子标题的段落内容,并计算所述段落内容和所述搜索词集合中搜索词的第二相似度;
根据所述第一相似度和所述第二相似度计算得到所述每个拼接候选问题的相似度得分;
根据所述相似度得分筛选出所述多个拼接候选问题中的目标拼接问题。
5.如权利要求1所述的方法,其特征在于,所述根据所述多个拼接候选问题确定目标拼接问题,包括:
将所述多个拼接候选问题输入预先训练的深度模型;
获取所述深度模型输出的所述目标拼接问题。
6.如权利要求1所述的方法,其特征在于,在所述并确定与所述第一子标题对应的扩展标题之前,还包括:
识别所述预设级别的第一子标题和所述第二子标题中的主体内容;
去除所述第一子标题和所述第二子标题中的非主体内容。
7.一种问答对的生成装置,其特征在于,包括:
提取模块,用于获取待解析的文本信息,并提取所述文本信息中的文本标题和多级子标题;
第一获取模块,用于获取与所述多级子标题中的预设级别的第一子标题,并确定与所述第一子标题对应的扩展标题;
第一确定模块,用于在所述多级子标题中,确定与所述第一子标题对应的第二子标题,其中,所述第二子标题的等级高于所述预设级别;
第二获取模块,用于将所述文本标题和所述第二子标题与所述第一子标题及其对应的扩展标题中的每个标题拼接,获取多个拼接候选问题;
第二确定模块,用于根据所述多个拼接候选问题确定目标拼接问题;
构建模块,用于根据所述目标拼接问题和所述第一子标题包括的段落内容构建问答对。
8.如权利要求7所述的装置,其特征在于,所述第一获取模块,包括:
第一获取单元,用于获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;
第二获取单元,用于提取所述搜索词集合中的实体词,并对包含同样实体词的搜索词泛化处理获取共现短语;
生成单元,用于根据所述共现短语生成所述扩展标题。
9.如权利要求7所述的装置,其特征在于,所述第二获取模块,包括:
第三获取单元,用于获取针对所述文本信息的点击日志信息,以及与所述日志信息对应的搜索词集合;
第四获取单元,用于获取所述多个拼接候选问题中的每个拼接候选问题和所述搜索词集合中搜索词的第一相似度;
第一计算单元,用于获取所述第一子标题的段落内容,并计算所述段落内容和所述搜索词集合中搜索词的第二相似度;
第二计算单元,用于根据所述第一相似度和所述第二相似度计算得到所述每个拼接候选问题的相似度得分;
筛选单元,用于根据所述相似度得分筛选出所述多个拼接候选问题中的目标拼接问题。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6中任一所述的问答对的生成方法。
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的问答对的生成方法。
CN201910420007.1A 2019-05-20 2019-05-20 问答对的生成方法和装置 Pending CN110196929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910420007.1A CN110196929A (zh) 2019-05-20 2019-05-20 问答对的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910420007.1A CN110196929A (zh) 2019-05-20 2019-05-20 问答对的生成方法和装置

Publications (1)

Publication Number Publication Date
CN110196929A true CN110196929A (zh) 2019-09-03

Family

ID=67752934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910420007.1A Pending CN110196929A (zh) 2019-05-20 2019-05-20 问答对的生成方法和装置

Country Status (1)

Country Link
CN (1) CN110196929A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
CN111581381A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN113434650A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN114328852A (zh) * 2021-08-26 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理的方法、相关装置及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781274A (zh) * 2019-09-16 2020-02-11 腾讯科技(深圳)有限公司 一种问答对生成的方法与装置
CN111581381A (zh) * 2020-04-29 2020-08-25 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN111581381B (zh) * 2020-04-29 2023-10-10 北京字节跳动网络技术有限公司 文本分类模型的训练集合的生成方法、装置和电子设备
CN112347229A (zh) * 2020-11-12 2021-02-09 润联软件系统(深圳)有限公司 一种答案抽取方法、装置、计算机设备及存储介质
CN113434650A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN113434650B (zh) * 2021-06-29 2023-11-14 平安科技(深圳)有限公司 问答对扩展方法、装置、电子设备及可读存储介质
CN114328852A (zh) * 2021-08-26 2022-04-12 腾讯科技(深圳)有限公司 一种文本处理的方法、相关装置及设备
CN114328852B (zh) * 2021-08-26 2024-06-14 腾讯科技(深圳)有限公司 一种文本处理的方法、相关装置及设备

Similar Documents

Publication Publication Date Title
CN110196929A (zh) 问答对的生成方法和装置
KR100359265B1 (ko) 텍스트 프로세서
JP4148522B2 (ja) 表現検出システム、表現検出方法、及びプログラム
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
CN108009293A (zh) 视频标签生成方法、装置、计算机设备和存储介质
CN107436922A (zh) 文本标签生成方法和装置
CN109887497A (zh) 语音识别的建模方法、装置及设备
CN109348275A (zh) 视频处理方法和装置
De Klerk Corpus linguistics and world Englishes: An analysis of Xhosa English
CN108563655A (zh) 基于文本的事件识别方法和装置
McKee et al. The online dictionary of New Zealand Sign Language: A case study of contemporary sign lexicography
Reganti et al. Modeling satire in English text for automatic detection
Cignarella et al. Application and analysis of a multi-layered scheme for irony on the Italian Twitter Corpus TWITTIRÒ
Valerio et al. Using automatically generated concept maps for document understanding: A human subjects experiment
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN107844531A (zh) 答案输出方法、装置和计算机设备
CN107704549A (zh) 语音搜索方法、装置及计算机设备
JP3735336B2 (ja) 文書要約方法及びシステム
Chang et al. Automated Chinese essay scoring based on multilevel linguistic features
CN109657043A (zh) 自动生成文章的方法、装置、设备及存储介质
Cunningham Features of digital African American language in a social network site
Hiltmann et al. Digital Methods in Practice: The Epistemological Implications of Applying Text Re-Use Analysis to the Bloody Accounts of the Conquest of Jerusalem (1099)
CN108415995A (zh) 搜索方法和装置
CN109166356B (zh) 英语体系动词性结构表达训练系统及其方法
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190903