CN112052308A - 一种摘要文本提取方法、装置、存储介质和电子设备 - Google Patents

一种摘要文本提取方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112052308A
CN112052308A CN202010846957.3A CN202010846957A CN112052308A CN 112052308 A CN112052308 A CN 112052308A CN 202010846957 A CN202010846957 A CN 202010846957A CN 112052308 A CN112052308 A CN 112052308A
Authority
CN
China
Prior art keywords
text
target
candidate
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010846957.3A
Other languages
English (en)
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010846957.3A priority Critical patent/CN112052308A/zh
Publication of CN112052308A publication Critical patent/CN112052308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种摘要文本提取方法、装置、存储介质和电子设备,所述方法涉及人工智能领域中的自然语言处理方向,包括:搜索得到目标检索字段对应的搜索结果,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定文本作者信息、以及语句相似度,基于文本作者信息确定文本可信度,对语句相似度、以及文本可信度进行融合,以迭代计算重要性指标,基于重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并显示目标摘要文本。该方案可以通过从搜索结果中提取语句,并利用提取出的语句构建目标检索字段对应的目标摘要文本,有效提升了搜索准确性。

Description

一种摘要文本提取方法、装置、存储介质和电子设备
技术领域
本申请涉及计算机技术领域,具体涉及一种摘要文本提取方法、装置、存储介质和电子设备。
背景技术
随着互联网医疗问诊平台的发展,很多用户在感觉身体不适时,都会选择医疗搜索以了解相应疾病的诊疗信息。但是,由于现有医疗搜索引擎主要是基于关键字进行搜索,无法有效排除相关度较低的内容,导致搜索准确性较低,使得在医疗搜索过程中可能搜索出误导性甚至错误的信息,出现耽误治疗或者错误治疗等严重后果,因此,如何能够提高搜索准确性是目前亟待解决的问题。
发明内容
本申请实施例提供一种摘要文本提取方法、装置、存储介质和电子设备,该方案可以提升搜索准确性。
本申请实施例提供一种摘要文本提取方法,包括:
基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本;
将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度;
基于所述文本作者信息确定所述每个候选语句对应的文本可信度;
对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,所述重要性指标表征所述候选语句对于所述目标检索字段的重要程度;
基于每个所述候选语句对应的重要性指标,从所述多个候选语句中确定目标语句;
基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。
相应的,本申请实施例还提供一种摘要文本提取装置,包括:
搜索模块,用于基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本;
分割模块,用于将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度;
确定模块,用于基于所述文本作者信息确定所述每个候选语句对应的文本可信度;
迭代模块,用于对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,所述重要性指标表征所述候选语句对于所述目标检索字段的重要程度;
语句确定模块,用于基于每个所述候选语句对应的重要性指标,从所述多个候选语句中确定目标语句;
显示模块,用于基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。
可选的,在一些实施例中,所述搜索模块可以包括搜索子模块、相似度确定子模块和文本确定子模块,如下:
搜索子模块,用于基于目标检索字段进行搜索,得到所述目标检索字段对应的初始搜索结果,所述初始搜索结果包括多个候选文本;
相似度确定子模块,用于确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度;
文本确定子模块,用于基于所述相似度,从所述多个候选文本中确定用于文本提取的多个目标文本。
则此时,所述相似度确定子模块,具体可以用于分别对所述目标检索字段、以及每个所述候选文本的文本标题进行向量编码,得到用于表征所述目标检索字段的检索文本向量、以及用于表征所述文本标题的标题文本向量,基于所述检索文本向量、以及多个所述标题文本向量,确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度。
可选的,在一些实施例中,所述分割模块可以包括分割子模块、向量确定子模块和语句相似度子模块,如下:
分割子模块,用于将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句;
向量确定子模块,用于确定每个候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量;
语句相似度子模块,用于基于所述候选语句的语句向量,确定两两候选语句之间的语句相似度。
则此时,所述分割子模块,具体可以用于将所述多个目标文本合并为整体的目标合成文本,基于预设标识将所述目标合成文本分割为多个候选语句。
则此时,所述向量确定子模块,具体可以用于确定每个所述候选语句对应的文本作者信息,获取每个所述候选语句对应的多个候选词语,对所述多个候选词语进行向量编码,得到用于表征每个所述候选词语的词语向量,基于所述词语向量确定用于表征每个所述候选语句的语句向量。
则此时,所述确定模块,具体可以用于基于所述文本作者信息,确定文本作者所在机构的机构信息、以及所述文本作者在所述机构中的等级信息,基于所述机构信息、以及所述等级信息,确定所述每个候选语句对应的文本可信度。
则此时,所述迭代模块,具体可以用于从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标,基于所述两两候选语句之间的语句相似度、所述文本可信度、以及所述其他候选语句对应的初始重要性指标,确定所述当前候选语句对应的初始重要性指标,返回执行所述从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标的步骤,直至收敛,得到每个所述候选语句对应的重要性指标。
此外,本申请实施例还提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种摘要文本提取方法中的步骤。
此外,本申请实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请实施例提供的任一种摘要文本提取方法中的步骤。
本申请实施例可以基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。该方案提取出的目标摘要文本由于考虑了文本可信性、以及相关性等因素,从而使得返回的目标摘要文本可信度更高,可以有效提升搜索准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的摘要文本提取系统的场景示意图;
图2是本申请实施例提供的摘要文本提取方法的第一流程图;
图3是本申请实施例提供的摘要文本提取方法的第二流程图;
图4是本申请实施例提供的多个候选文本界面示意图;
图5是本申请实施例提供的从多个目标文本中提取目标摘要文本流程图;
图6是本申请实施例提供的目标摘要文本示意图;
图7是本申请实施例提供的摘要文本提取装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种摘要文本提取方法、装置、存储介质和电子设备。具体地,本申请实施例的摘要文本提取方法可以由电子设备执行,其中,该电子设备可以为终端或者服务器等设备,该终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC,Personal Computer)等设备。其中,终端可以包括客户端,该客户端可以是视频客户端或浏览器客户端等,服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群。
例如,参见图1,以该摘要文本提取方法由电子设备执行为例,该电子设备可以基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。
本申请实施例提供的摘要文本提取方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过计算文本标题与目标检索字段之间的相似度,确定出多个用于提取目标摘要文本的候选语句,并利用自然语言处理方法计算出每个候选语句的重要性指标,然后将重要性指标数值高的若干个语句聚合成目标摘要文本。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供了一种摘要文本提取方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以摘要文本提取方法由服务器执行为例来进行说明,如图2所示,该摘要文本提取方法的具体流程可以如下:
201、基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本。
其中,搜索引擎是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息并反馈给用户的一门检索技术,它旨在提高用户获取信息的速度,从而为用户提供更好的网络使用环境。
其中,目标检索字段是用户在利用搜索引擎搜索内容时所输入的字段,比如,当用户感冒需要了解吃什么感冒药时,可以输入“感冒药如何选择”的字段,该字段即可称为目标检索字段,搜索引擎会向用户返回相应的搜索结果。
其中,搜索结果是用户利用搜索引擎进行信息搜索时,搜索引擎根据用户输入的检索字段返回的结果。比如,如图4所示,当用户感冒时,可以在搜索引擎中输入“感冒了怎么办”的字段,搜索引擎可以相应地返回搜索结果,该搜索结果可以由《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》等多个按顺序排列的文本组成,其中,排列顺序越靠前的文本是搜索引擎所检索出的与检索字段关系越紧密的文本。
在实际应用中,比如,可以确定目标检索字段为“感冒了怎么办”,并使用搜索引擎获取“感冒了怎么办”对应的搜索结果:《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》等多个按顺序排列的目标文本。
在一实施例中,可能搜索引擎给出的搜索结果中存在与目标检索字段契合度不太高的文本,可以将这类文本予以删除。具体地,步骤“基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本”,可以包括:
基于目标检索字段进行搜索,得到所述目标检索字段对应的初始搜索结果,所述初始搜索结果包括多个候选文本;
确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度;
基于所述相似度,从所述多个候选文本中确定用于文本提取的多个目标文本。
在实际应用中,比如,可以确定目标检索字段为“感冒了怎么办”,并使用搜索引擎获取“感冒了怎么办”对应的初始搜索结果:《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》、《宝宝感冒怎么办》等多个按顺序排列的候选文本。其中,可以预先设置初始搜索结果中候选文本的数量,如设置为5,那么就从搜索引擎搜索出的文本中取前5篇作为初始搜索结果。可以见得候选文本《宝宝感冒怎么办》与目标检索字段“感冒了怎么办”的匹配度没有其余四篇候选文本高,因此,可以分别获取每个候选文本的文本标题“感冒了,该怎么办?”、“感冒了怎么办?”、“感冒了怎么办”、“感冒了怎么办才好的快”、“宝宝感冒怎么办”与目标检索字段“感冒了怎么办”之间的相似度数值,并将其中相似度数值大于预设数值0.9的候选文本《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》确定为用于文本提取的目标文本。
在一实施例中,可以将目标检索字段和文本标题都表示为向量的形式,并通过余弦相似度计算二者之间的相似度。具体地,步骤“确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度”,可以包括:
分别对所述目标检索字段、以及每个所述候选文本的文本标题进行向量编码,得到用于表征所述目标检索字段的检索文本向量、以及用于表征所述文本标题的标题文本向量;
基于所述检索文本向量、以及多个所述标题文本向量,确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度。
其中,Word2vec是一种词向量计算模型,该模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。在Word2vec的词袋模型假设下,词的顺序是不重要的,网络以词表现,并且需猜测相邻位置的输入词,训练完成之后,Word2vec模型可用于将每个词映射为一个向量,可用来表示词与词之间的关系。
其中,余弦相似度是通过计算两个向量的夹角余弦值以评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。余弦值的范围在[-1,1]之间,余弦值越趋近于1,代表两个向量的方向越接近;余弦值越趋近-1,代表两个向量的方向越相反;余弦值越趋近于0,表示两个向量近乎于正交。
在实际应用中,比如,可以确定目标检索字段为“感冒了怎么办”,并使用搜索引擎获取“感冒了怎么办”对应的初始搜索结果:《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》、《宝宝感冒怎么办》等5个按顺序排列的候选文本。然后利用Word2vec模型,将目标检索字段“感冒了怎么办”、以及5个候选文本的文本标题“感冒了,该怎么办?”、“感冒了怎么办?”、“感冒了怎么办”、“感冒了怎么办才好的快”、“宝宝感冒怎么办”分别表示为向量的形式,也即能够获得目标检索字段对应的检索文本向量、以及文本标题对应的标题文本向量。然后计算每个标题文本向量与检索文本向量之间的余弦相似度,其中,余弦相似度的计算公式可以如下:
Figure BDA0002643363000000091
其中,进行余弦相似度计算的标题文本向量可以表示为A=(A1,A2,...,An),进行余弦相似度计算的检索文本向量可以表示为B=(B1,B2,...,Bn),标题文本向量和检索文本向量可以为基于Word2vec模型映射得到的向量。
根据两个向量之间的余弦相似度就能够得知候选文本的文本标题与目标检索字段在统计学方法中的相似度情况。本申请可以取余弦相似度数值大于0.9的候选文本作为目标文本。
202、将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度。
其中,文本作者信息是指候选语句所在文本的文本来源信息,比如,文本作者信息可以是撰写文本的作者名称,张三、李四、王五等,文本作者信息可以是文本的出品组织,xxx医院、xxx研究所等,文本作者信息还可以是文本的来源,xxx书籍、xxx报刊等等。
在实际应用中,比如,对于医疗搜索而言,越有经验、越专业的医师给出的建议往往更加准确,因此,在摘要文本提取的过程中,可以将文本作者信息的内容进行考虑,使得那些越有经验、越专业的医师撰写的文本有更大的可能性生成摘要并展示给用户。为了方便摘要提取,可以将多个目标文本中的每个目标文本进行分割,得到多个候选语句,这样只需要从多个候选语句中筛选需要的语句即可。然后可以确定每个候选语句所对应的文本作者信息、以及两两候选语句之间的语句相似度,其中,两两候选语句之间的语句相似度是每两个候选语句之间都要进行语句相似度的计算。
在一实施例中,可以通过将候选语句表示为向量的形式,并通过计算余弦相似度获取候选语句之间的语句相似度。具体地,步骤“将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度”,可以包括:
将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句;
确定每个所述候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量;
基于所述候选语句的语句向量,确定两两候选语句之间的语句相似度。
在实际应用中,比如,可以将多个目标文本中的每个目标文本进行分割,得到多个候选语句,然后通过Word2vec模型将每个候选语句都表示为向量形式的语句向量,并确定每个候选语句对应的文本作者信息,然后通过计算余弦相似度,确定两两候选语句之间的语句相似度。
在一实施例中,具体地,步骤“将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句”,可以包括:
将所述多个目标文本合并为整体的目标合成文本;
基于预设标识将所述目标合成文本分割为多个候选语句。
在实际应用中,比如,可以将获取到的多个目标文本进行合并,合并到一起看作一个整体的目标合成文本,然后按标点符号将目标合成文本分割成多个候选语句。
在一实施例中,具体地,步骤“确定每个所述候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量”,可以包括:
确定每个所述候选语句对应的文本作者信息;
获取每个所述候选语句对应的多个候选词语;
对所述多个候选词语进行向量编码,得到用于表征每个所述候选词语的词语向量;
基于所述词语向量确定用于表征每个所述候选语句的语句向量。
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。
在实际应用中,比如,可以确定每个候选语句对应的文本作者信息,然后将每个候选语句去除停用词,得到多个候选词语。可以从Word2vec词向量文件中获取每个候选词语对应的词语向量,每个向量大小为100个元素,然后取这些向量的平均值,作为整个候选语句的语句向量。
203、基于文本作者信息确定每个候选语句对应的文本可信度。
在实际应用中,比如,对于医疗搜索而言,越有经验、越专业的医师给出的建议往往更加准确,更加权威,因此这些医师所撰写的文本更具有可信性。所以可以根据医生所处的医院、医生的等级等信息,对医生所撰写文本的文本可信度进行衡量。
在一实施例中,具体地,步骤“基于所述文本作者信息确定所述每个候选语句对应的文本可信度”,可以包括:
基于所述文本作者信息,确定文本作者所在机构的机构信息、以及所述文本作者在所述机构中的等级信息;
基于所述机构信息、以及所述等级信息,确定所述每个候选语句对应的文本可信度。
在实际应用中,比如,医疗文章的医生作者的权威度可以根据医生所在的医院等级和医生职称来综合评判。其中,可以根据文本作者信息,确定医生所在的医院(也即文本作者所在机构)、以及职称等级信息(也即文本作者在机构中的等级信息)。结合互联网上事先公开的医院级别资格表数据可知,医院根据1~3级医院+甲、乙两等,共计6个等级,分别从高到低记Hospital_Rank为6~1分。另外职称至少分为助理医师、医师、副主任医师、主任医师等级别,分别记Pro_Rank为2、4、7、8。也即文本可信度分数Specialty_Score(i)计算公式可以如下:
Specialty_Score(i)=Hospital_Rank*Pro_Rank
其中,文本作者所在机构与文本作者在机构中的等级信息所分配权重可以根据实际情况进行调整。
204、对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标。
其中,重要性指标可以表征候选语句对于目标检索字段的重要程度。
其中,TextRank算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(如词语、语句等)并建立图模型,针对文本当中的语句或词语的重要性进行判断而设计的算法。其利用投票原理,让语句或词语之间互相打分,得分越高的语句或词语就越重要。
在实际应用中,比如,TextRank在构建语句节点图时,会将语句之间的相似度作为语句节点的边权重,但是这样只能衡量两个句子间的文本语义相似度,并不能有效刻画不同来源语句自身的文本可信度。显然同样两个高相似度的语句,来自于两个高权威度的医生,该语句被选为摘要的可能性应该越高。因此可以对两两候选语句之间的语句相似度、以及文本可信度进行融合,得到综合相似度,并将该综合相似度作为TextRank算法中语句节点的边权重,然后通过迭代的方法,计算得到每个候选语句对应的重要性指标。其中,综合相似度的计算公式可以如下:
RrlAuthWeight=两两语句的语句相似度*两两语句的文本可信度乘积
在一实施例中,具体地,步骤“对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标”,可以包括:
从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标;
基于所述两两候选语句之间的语句相似度、所述文本可信度、以及所述其他候选语句对应的初始重要性指标,确定所述当前候选语句对应的初始重要性指标;
返回执行所述从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标的步骤,直至收敛,得到每个所述候选语句对应的重要性指标。
在实际应用中,比如,利用TextRank算法可以构建语句节点图,也就是以候选语句为节点、以综合相似度分数为边的图结构G=(V,E),其中节点集合可以表示为V,边集合可以表示为E,E是V*V的子集。图结构中任意两点Vi、Vj之间的边权重为ωji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。其中,点Vi的重要性指标得分计算公式可以如下:
Figure BDA0002643363000000131
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定节点指向其他节点的概率,一般取值为0.85。vi表示候选语句节点i,vj表示候选语句节点j,In(vi)表示候选语句节点i的入度,Out(vj)表示候选语句节点j的出度。WS(vi)表示候选语句i的重要性指标得分,WS(vj)表示候选语句j的重要性指标得分,ωji表示候选语句i对候选语句j的重要性打分(边权重),ωjk表示候选语句k对候选语句j的重要性打分(边权重)。使用TextRank算法计算每个候选语句对应的重要性指标时,需要给每个节点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。
205、基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句。
在实际应用中,比如,获取到每个候选语句对应的重要性指标后,就可以取重要性指标分数最高的不超过10个候选语句作为目标语句。
206、基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。
在实际应用中,比如,可以将确定出的目标语句聚合为一个目标摘要文本,并将该目标摘要文本发送给终端等显示设备,以便终端将该目标摘要文本展示给用户,以供用户阅读。
在一实施例中,比如,除使用改进型TextRank从整体的目标合成文本提取目标摘要文本外,也可以使用LDA主题模型从整体的目标合成文本提取目标摘要文本。其中,LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
在一实施例中,比如,用户通过搜索引擎输入目标检索字段后,可以如图6所示直接显示目标摘要文本,该目标摘要文本可以总结搜索引擎所搜索出的同质化医疗内容,同时又考虑到不同医疗文章的不同权威性来源,用户即可根据显示出的目标摘要文本,获取更为准确更为权威的信息,无疑可以有效降低用户阅读同一个搜索查询下不同医疗文章所花费的精力。
同时,该方法可以覆盖所有query搜索,由于目标摘要文本综合了不同可信度文本中相关性(同一个语句被多个文本阐述则该句更重要,相关性更高)更高的语句,可以让用户在相同篇幅内获得该query更多的内容信息量。
由上可知,本申请实施例可以基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。该方案可以通过改进的TextRank模型,从搜索引擎所搜索出的多个目标文本中,兼顾语句与目标检索字段的相关性、以及语句所在文本的文本可信性,自动提取出多个目标语句,作为针对目标检索字段返回的目标摘要文本,并呈现给用户阅读。通过这种方法提取出的目标摘要文本由于考虑了文本可信性、以及相关性等因素,从而使得返回的目标摘要文本可信度更高,有效提升了搜索准确性。
根据前面实施例所描述的方法,以下将以该摘要文本提取装置具体集成在电子设备中举例作进一步详细说明。
参考图3,本申请实施例的摘要文本提取方法的具体流程可以如下:
301、通过搜索引擎获取目标检索字段下的前五个候选文本作为搜索结果。
在实际应用中,比如,用户通过搜索引擎输入“感冒了怎么办”,会返回多个按顺序排列的文本,取其中前五个候选文本《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》、《宝宝感冒怎么办》作为搜索结果。
302、确定每个候选文本的文本标题与目标检索字段之间的相似度。
在实际应用中,比如,利用Word2vec模型,将目标检索字段“感冒了怎么办”、以及五个候选文本的文本标题“感冒了,该怎么办?”、“感冒了怎么办?”、“感冒了怎么办”、“感冒了怎么办才好的快”、“宝宝感冒怎么办”分别表示为向量的形式,然后计算每个文本标题对应的向量与目标检索字段对应的向量之间的余弦相似度,作为候选文本的文本标题与目标检索字段之间的相似度。
303、将相似度数值满足预设数值的候选文本确定为目标文本。
在实际应用中,比如,将余弦相似度数值大于0.9的候选文本《感冒了,该怎么办?》、《感冒了怎么办?》、《感冒了怎么办》、《感冒了怎么办才好的快》确定为目标文本。
304、将多个目标文本合并为整体的目标合成文本。
305、将目标合成文本分割为多个候选语句。
在实际应用中,比如,如图5所示,可以按标点符号将目标合成文本分割成多个候选语句。
306、确定每个候选语句对应的文本作者信息,并根据文本作者信息确定每个候选语句对应的文本可信度。
在实际应用中,比如,可以确定每个候选语句所在文本对应的文本作者信息,并根据文本作者信息,确定医生所在的医院、以及职称等级信息。结合互联网上事先公开的医院级别资格表数据可知,医院根据1~3级医院+甲、乙两等,共计6个等级,分别从高到低记Hospital_Rank为6~1分。另外职称至少分为助理医师、医师、副主任医师、主任医师等级别,分别记Pro_Rank为2、4、7、8。也即文本可信度分数Specialty_Score(i)计算公式可以如下:
Specialty_Score(i)=Hospital_Rank*Pro_Rank
307、确定每个候选语句的语句向量,并确定两两候选语句之间的语句相似度。
在实际应用中,比如,如图5所示,可以将每个候选语句去除停用词,得到多个候选词语。从Word2vec词向量文件中获取每个候选词语对应的词语向量,每个向量大小为100个元素,然后取这些向量的平均值,作为整个候选语句的语句向量,并通过计算余弦相似度确定两两候选语句之间的语句相似度。
其中,步骤306和步骤307之间并没有明确时间先后关系。
308、根据文本可信度、以及语句相似度,确定每个候选语句的重要性指标。
其中,可以对两两候选语句之间的语句相似度、以及文本可信度进行融合,得到综合相似度,并将该综合相似度作为TextRank算法中语句节点的边权重,然后通过迭代的方法,计算得到每个候选语句对应的重要性指标。其中,综合相似度的计算公式可以如下:
RrlAuthWeight=两两语句的语句相似度*两两语句的文本可信度乘积
在实际应用中,比如,利用TextRank算法可以构建语句节点图,也就是以候选语句为节点、以综合相似度分数为边的图结构G=(V,E),其中节点集合可以表示为V,边集合可以表示为E,E是V*V的子集。图结构中任意两点Vi、Vj之间的边权重为ωji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。其中,点Vi的重要性指标得分计算公式可以如下:
Figure BDA0002643363000000161
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定节点指向其他节点的概率,一般取值为0.85。vi表示候选语句节点i,vj表示候选语句节点j,In(vi)表示候选语句节点i的入度,Out(vj)表示候选语句节点j的出度。WS(vi)表示候选语句i的重要性指标得分,WS(vj)表示候选语句j的重要性指标得分,ωji表示候选语句i对候选语句j的重要性打分,ωjk表示候选语句k对候选语句j的重要性打分。使用TextRank算法计算每个候选语句对应的重要性指标时,需要给每个节点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。
309、根据重要性指标的数值,从候选语句中选取十个目标语句聚合成目标摘要文本。
在实际应用中,比如,获取到每个候选语句对应的重要性指标后,就可以取重要性指标分数最高的十个候选语句作为目标语句,并将这些目标语句聚合为一个目标摘要文本供用户阅读。
由上可知,本申请实施例可以通过搜索引擎获取目标检索字段下的前五个候选文本作为搜索结果,确定每个候选文本的文本标题与目标检索字段之间的相似度,将相似度数值满足预设数值的候选文本确定为目标文本,将多个目标文本合并为整体的目标合成文本,将目标合成文本分割为多个候选语句,确定每个候选语句对应的文本作者信息,并根据文本作者信息确定每个候选语句对应的文本可信度,确定每个候选语句的语句向量,并确定两两候选语句之间的语句相似度,根据文本可信度、以及语句相似度,确定每个候选语句的重要性指标,根据重要性指标的数值,从候选语句中选取十个目标语句聚合成目标摘要文本。该方案可以通过改进的TextRank模型,从搜索引擎所搜索出的多个目标文本中,兼顾语句与目标检索字段的相关性、以及语句所在文本的文本可信性,自动提取出多个目标语句,作为针对目标检索字段返回的目标摘要文本,并呈现给用户阅读。通过这种方法提取出的目标摘要文本由于考虑了文本可信性、以及相关性等因素,从而使得返回的目标摘要文本可信度更高,有效提升了搜索准确性。
为了更好地实施以上方法,相应的,本申请实施例还提供一种摘要文本提取装置,该摘要文本提取装置可以集成在电子设备中,参考图7,该摘要文本提取装置包括搜索模块71、分割模块72、确定模块73、迭代模块74、语句确定模块75和显示模块76,如下:
搜索模块71,用于基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本;
分割模块72,用于将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度;
确定模块73,用于基于所述文本作者信息确定所述每个候选语句对应的文本可信度;
迭代模块74,用于对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,所述重要性指标表征所述候选语句对于所述目标检索字段的重要程度;
语句确定模块75,用于基于每个所述候选语句对应的重要性指标,从所述多个候选语句中确定目标语句;
显示模块76,用于基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。
在一实施例中,所述搜索模块71可以包括搜索子模块、相似度确定子模块和文本确定子模块,如下:
搜索子模块,用于基于目标检索字段进行搜索,得到所述目标检索字段对应的初始搜索结果,所述初始搜索结果包括多个候选文本;
相似度确定子模块,用于确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度;
文本确定子模块,用于基于所述相似度,从所述多个候选文本中确定用于文本提取的多个目标文本。
在一实施例中,所述相似度确定子模块可以具体用于:
分别对所述目标检索字段、以及每个所述候选文本的文本标题进行向量编码,得到用于表征所述目标检索字段的检索文本向量、以及用于表征所述文本标题的标题文本向量;
基于所述检索文本向量、以及多个所述标题文本向量,确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度。
在一实施例中,所述分割模块72可以包括分割子模块、向量确定子模块和语句相似度子模块,如下:
分割子模块,用于将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句;
向量确定子模块,用于确定每个候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量;
语句相似度子模块,用于基于所述候选语句的语句向量,确定两两候选语句之间的语句相似度。
在一实施例中,所述分割子模块可以具体用于:
将所述多个目标文本合并为整体的目标合成文本;
基于预设标识将所述目标合成文本分割为多个候选语句。
在一实施例中,所述向量确定子模块可以具体用于:
确定每个所述候选语句对应的文本作者信息;
获取每个所述候选语句对应的多个候选词语;
对所述多个候选词语进行向量编码,得到用于表征每个所述候选词语的词语向量;
基于所述词语向量确定用于表征每个所述候选语句的语句向量。
在一实施例中,所述确定模块73可以具体用于:
基于所述文本作者信息,确定文本作者所在机构的机构信息、以及所述文本作者在所述机构中的等级信息;
基于所述机构信息、以及所述等级信息,确定所述每个候选语句对应的文本可信度。
在一实施例中,所述迭代模块74可以具体用于:
从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标;
基于所述两两候选语句之间的语句相似度、所述文本可信度、以及所述其他候选语句对应的初始重要性指标,确定所述当前候选语句对应的初始重要性指标;
返回执行所述从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标的步骤,直至收敛,得到每个所述候选语句对应的重要性指标。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例可以通过搜索模块71基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,通过分割模块72将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,通过确定模块73基于文本作者信息确定每个候选语句对应的文本可信度,通过迭代模块74对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,通过语句确定模块75基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,通过显示模块76基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。该方案可以通过改进的TextRank模型,从搜索引擎所搜索出的多个目标文本中,兼顾语句与目标检索字段的相关性、以及语句所在文本的文本可信性,自动提取出多个目标语句,作为针对目标检索字段返回的目标摘要文本,并呈现给用户阅读。通过这种方法提取出的目标摘要文本由于考虑了文本可信性、以及相关性等因素,从而使得返回的目标摘要文本可信度更高,有效提升了搜索准确性。
本申请实施例还提供一种电子设备,该电子设备可以集成本申请实施例所提供的任一种摘要文本提取装置。
例如,如图8所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器81、一个或一个以上计算机可读存储介质的存储器82、电源83和输入单元84等部件。本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器81是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器82内的软件程序和/或模块,以及调用存储在存储器82内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器81可包括一个或多个处理核心;优选的,处理器81可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、玩家界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器81中。
存储器82可用于存储软件程序以及模块,处理器81通过运行存储在存储器82的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器82可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器82还可以包括存储器控制器,以提供处理器81对存储器82的访问。
电子设备还包括给各个部件供电的电源83,优选的,电源83可以通过电源管理系统与处理器81逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源83还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元84,该输入单元84可用于接收输入的数字或字符信息,以及产生与玩家设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器81会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文本加载到存储器82中,并由处理器81来运行存储在存储器82中的应用程序,从而实现各种功能,如下:
基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例可以基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。该方案可以通过改进的TextRank模型,从搜索引擎所搜索出的多个目标文本中,兼顾语句与目标检索字段的相关性、以及语句所在文本的文本可信性,自动提取出多个目标语句,作为针对目标检索字段返回的目标摘要文本,并呈现给用户阅读。通过这种方法提取出的目标摘要文本由于考虑了文本可信性、以及相关性等因素,从而使得返回的目标摘要文本可信度更高,有效提升了搜索准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种电子设备,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种摘要文本提取方法中的步骤。例如,该指令可以执行如下步骤:
基于目标检索字段进行搜索,得到目标检索字段对应的搜索结果,搜索结果包括多个目标文本,将多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,基于文本作者信息确定每个候选语句对应的文本可信度,对两两候选语句之间的语句相似度、以及文本可信度进行融合,以迭代计算每个候选语句对应的重要性指标,重要性指标表征候选语句对于目标检索字段的重要程度,基于每个候选语句对应的重要性指标,从多个候选语句中确定目标语句,基于目标语句构建目标检索字段对应的目标摘要文本,并将目标摘要文本发送给显示设备,以使显示设备显示目标摘要文本。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述摘要文本提取方面的各种可选实现方式中提供的方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种摘要文本提取方法中的步骤,因此,可以实现本申请实施例所提供的任一种摘要文本提取方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种摘要文本提取方法、装置、存储介质和电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种摘要文本提取方法,其特征在于,包括:
基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本;
将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度;
基于所述文本作者信息确定所述每个候选语句对应的文本可信度;
对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,所述重要性指标表征所述候选语句对于所述目标检索字段的重要程度;
基于每个所述候选语句对应的重要性指标,从所述多个候选语句中确定目标语句;
基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。
2.根据权利要求1所述的摘要文本提取方法,其特征在于,基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本,包括:
基于目标检索字段进行搜索,得到所述目标检索字段对应的初始搜索结果,所述初始搜索结果包括多个候选文本;
确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度;
基于所述相似度,从所述多个候选文本中确定用于文本提取的多个目标文本。
3.根据权利要求2所述的摘要文本提取方法,其特征在于,确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度,包括:
分别对所述目标检索字段、以及每个所述候选文本的文本标题进行向量编码,得到用于表征所述目标检索字段的检索文本向量、以及用于表征所述文本标题的标题文本向量;
基于所述检索文本向量、以及多个所述标题文本向量,确定每个所述候选文本的文本标题与所述目标检索字段之间的相似度。
4.根据权利要求1所述的摘要文本提取方法,其特征在于,将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度,包括:
将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句;
确定每个所述候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量;
基于所述候选语句的语句向量,确定两两候选语句之间的语句相似度。
5.根据权利要求4所述的摘要文本提取方法,其特征在于,将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,包括:
将所述多个目标文本合并为整体的目标合成文本;
基于预设标识将所述目标合成文本分割为多个候选语句。
6.根据权利要求4所述的摘要文本提取方法,其特征在于,确定每个所述候选语句对应的文本作者信息、以及用于表征每个所述候选语句的语句向量,包括:
确定每个所述候选语句对应的文本作者信息;
获取每个所述候选语句对应的多个候选词语;
对所述多个候选词语进行向量编码,得到用于表征每个所述候选词语的词语向量;
基于所述词语向量确定用于表征每个所述候选语句的语句向量。
7.根据权利要求1所述的摘要文本提取方法,其特征在于,基于所述文本作者信息确定所述每个候选语句对应的文本可信度,包括:
基于所述文本作者信息,确定文本作者所在机构的机构信息、以及所述文本作者在所述机构中的等级信息;
基于所述机构信息、以及所述等级信息,确定所述每个候选语句对应的文本可信度。
8.根据权利要求1所述的摘要文本提取方法,其特征在于,对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,包括:
从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标;
基于所述两两候选语句之间的语句相似度、所述文本可信度、以及所述其他候选语句对应的初始重要性指标,确定所述当前候选语句对应的初始重要性指标;
返回执行所述从所述多个候选语句中确定当前候选语句、以及除所述当前候选语句外每个其他候选语句对应的初始重要性指标的步骤,直至收敛,得到每个所述候选语句对应的重要性指标。
9.一种摘要文本提取装置,其特征在于,包括:
搜索模块,用于基于目标检索字段进行搜索,得到所述目标检索字段对应的搜索结果,所述搜索结果包括多个目标文本;
分割模块,用于将所述多个目标文本中的每个目标文本进行分割,得到多个候选语句,并确定每个候选语句对应的文本作者信息、以及两两候选语句之间的语句相似度;
可信度确定模块,用于基于所述文本作者信息确定所述每个候选语句对应的文本可信度;
迭代模块,用于对所述两两候选语句之间的语句相似度、以及所述文本可信度进行融合,以迭代计算每个所述候选语句对应的重要性指标,所述重要性指标表征所述候选语句对于所述目标检索字段的重要程度;
语句确定模块,用于基于每个所述候选语句对应的重要性指标,从所述多个候选语句中确定目标语句;
显示模块,用于基于所述目标语句构建所述目标检索字段对应的目标摘要文本,并将所述目标摘要文本发送给显示设备,以使所述显示设备显示所述目标摘要文本。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-8任一项所述的摘要文本提取方法。
11.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
CN202010846957.3A 2020-08-21 2020-08-21 一种摘要文本提取方法、装置、存储介质和电子设备 Pending CN112052308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010846957.3A CN112052308A (zh) 2020-08-21 2020-08-21 一种摘要文本提取方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010846957.3A CN112052308A (zh) 2020-08-21 2020-08-21 一种摘要文本提取方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112052308A true CN112052308A (zh) 2020-12-08

Family

ID=73599213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010846957.3A Pending CN112052308A (zh) 2020-08-21 2020-08-21 一种摘要文本提取方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112052308A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN113590796A (zh) * 2021-08-04 2021-11-02 百度在线网络技术(北京)有限公司 排序模型的训练方法、装置和电子设备
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN114239587A (zh) * 2021-11-24 2022-03-25 北京三快在线科技有限公司 一种摘要生成方法、装置、电子设备及存储介质
CN115130022A (zh) * 2022-07-04 2022-09-30 北京字跳网络技术有限公司 内容搜索方法、装置、设备及介质
CN115878784A (zh) * 2022-12-22 2023-03-31 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备
CN116662536A (zh) * 2022-02-18 2023-08-29 腾讯科技(深圳)有限公司 一种摘要提取方法及相关装置
CN117725197A (zh) * 2023-03-28 2024-03-19 书行科技(北京)有限公司 搜索结果的摘要确定方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
US20180365323A1 (en) * 2017-06-16 2018-12-20 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN111428024A (zh) * 2020-03-18 2020-07-17 北京明略软件系统有限公司 实现文本摘要抽取的方法、装置、计算机存储介质及终端
CN111444320A (zh) * 2020-06-16 2020-07-24 太平金融科技服务(上海)有限公司 文本检索方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
US20180365323A1 (en) * 2017-06-16 2018-12-20 Elsevier, Inc. Systems and methods for automatically generating content summaries for topics
CN107832414A (zh) * 2017-11-07 2018-03-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109739973A (zh) * 2018-12-20 2019-05-10 北京奇安信科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN111428024A (zh) * 2020-03-18 2020-07-17 北京明略软件系统有限公司 实现文本摘要抽取的方法、装置、计算机存储介质及终端
CN111444320A (zh) * 2020-06-16 2020-07-24 太平金融科技服务(上海)有限公司 文本检索方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘德喜等: "基于多重增强图和主题分析的社交短文本检索方法", 《中文信息学报》, vol. 32, no. 3, pages 110 - 119 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN112559671B (zh) * 2021-02-20 2021-06-08 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN113590796A (zh) * 2021-08-04 2021-11-02 百度在线网络技术(北京)有限公司 排序模型的训练方法、装置和电子设备
CN113590796B (zh) * 2021-08-04 2023-09-05 百度在线网络技术(北京)有限公司 排序模型的训练方法、装置和电子设备
CN114239587A (zh) * 2021-11-24 2022-03-25 北京三快在线科技有限公司 一种摘要生成方法、装置、电子设备及存储介质
CN114239587B (zh) * 2021-11-24 2024-07-23 北京三快在线科技有限公司 一种摘要生成方法、装置、电子设备及存储介质
CN114218923A (zh) * 2021-12-20 2022-03-22 北京中科闻歌科技股份有限公司 文本摘要抽取方法、装置、设备及存储介质
CN116662536A (zh) * 2022-02-18 2023-08-29 腾讯科技(深圳)有限公司 一种摘要提取方法及相关装置
CN115130022A (zh) * 2022-07-04 2022-09-30 北京字跳网络技术有限公司 内容搜索方法、装置、设备及介质
CN115878784A (zh) * 2022-12-22 2023-03-31 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备
CN115878784B (zh) * 2022-12-22 2024-03-15 北京百度网讯科技有限公司 基于自然语言理解的摘要生成方法、装置及电子设备
CN117725197A (zh) * 2023-03-28 2024-03-19 书行科技(北京)有限公司 搜索结果的摘要确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112052308A (zh) 一种摘要文本提取方法、装置、存储介质和电子设备
Mourão et al. Multimodal medical information retrieval with unsupervised rank fusion
CN111475729B (zh) 搜索内容推荐方法及装置
Zhang et al. Organizing books and authors by multilayer SOM
US7031909B2 (en) Method and system for naming a cluster of words and phrases
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN109906449A (zh) 一种查找方法及装置
WO2013133985A1 (en) Entity augmentation service from latent relational data
Choi et al. Semantic concept-enriched dependence model for medical information retrieval
CN111401045A (zh) 一种文本生成方法、装置、存储介质和电子设备
Aletras et al. Computing similarity between items in a digital library of cultural heritage
He et al. A framework of query expansion for image retrieval based on knowledge base and concept similarity
Qassimi et al. The role of collaborative tagging and ontologies in emerging semantic of web resources
CN111368555B (zh) 一种数据识别方法、装置、存储介质和电子设备
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
Chang et al. Using word semantic concepts for plagiarism detection in text documents
Spanier et al. A new method for the automatic retrieval of medical cases based on the RadLex ontology
Saranya et al. Intelligent medical data storage system using machine learning approach
Gkoufas et al. Suppl 1: Combining textual and visual information for image retrieval in the medical domain
Evrim et al. Context-based information analysis for the web environment
Hajlaoui et al. Enhancing patent expertise through automatic matching with scientific papers
Bouslimi et al. Semantic medical image retrieval in a medical social network
Boulemden et al. Content-based image retrieval with pachinko allocation model and a combination of colour, texture and text features
Safaei et al. Multidimensional indexing technique for medical images retrieval
Xing et al. Mixture model based contextual image retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination