CN113591452A - 一种文本摘要分析方法、装置、电子设备及存储介质 - Google Patents

一种文本摘要分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113591452A
CN113591452A CN202110182229.1A CN202110182229A CN113591452A CN 113591452 A CN113591452 A CN 113591452A CN 202110182229 A CN202110182229 A CN 202110182229A CN 113591452 A CN113591452 A CN 113591452A
Authority
CN
China
Prior art keywords
text
abstract
target text
determining
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110182229.1A
Other languages
English (en)
Inventor
陈旺
李丕绩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110182229.1A priority Critical patent/CN113591452A/zh
Publication of CN113591452A publication Critical patent/CN113591452A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本摘要分析方法,包括:确定所述摘要文本对应的自参照冗余度参数;确定所述目标文本对应的伪参照信息;基于所述目标文本对应的伪参照信息,确定与目标文本相匹配的中心度加权参数;基于述摘要文本对应的自参照冗余度参数和目标文本相匹配的中心度加权参数,确定目标文本与摘要文本的相关度参数,确定摘要文本的分析结果。本发明还提供了文本摘要分析装置、电子设备及存储介质。本发明能够实现通过目标文本相匹配的中心度加权参数,减少伪参照信息中的噪声信息对摘要文本的分析结果的影响,通过摘要文本对应的自参照冗余度参数,更加准确地对没有人工标注参照的摘要文本进行自动处理,提升了摘要文本测评的效率。

Description

一种文本摘要分析方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术,尤其涉及文本摘要分析方法、装置、电子设备及存储介质。
背景技术
文本信息的摘要可以通过简短的文字描述,如新闻、医疗病历、论文、微博、聊天等文本内容,从文本信息中提取关键内容形成摘要,节省用户的文本浏览时间。通过人工智能生成文本摘要是一种高效的解决手段,为此,人工智能技术(AI,ArtificialIntelligence)提供了适当的文本处理进程的运行机制来支持上述应用的方案。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能,在文本处理领域中,可以利用数字计算机或者数字计算机控制的机器实现对文本信息的识别。
其中,不同的机器学习技术对同一文本所生成的摘要文本并不相同,质量也会有所差异。因此需要科学、准确对摘要文本进行分析,判断摘要文本的文本质量。
发明内容
有鉴于此,本发明实施例提供一种文本摘要分析方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例通过了一种文本摘要分析方法,包括:
获取文本摘要分析环境中的目标文本以及摘要文本;
通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;
通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;
基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;
基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;
基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
本发明实施例还提供了一种文本摘要分析装置,所述装置包括:
信息传输模块,用于获取文本摘要分析环境中的目标文本以及摘要文本;
信息处理模块,用于通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;
所述信息处理模块,用于通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;
所述信息处理模块,用于基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;
所述信息处理模块,用于基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;
所述信息处理模块,用于基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
上述方案中,
所述信息处理模块,用于通过文本信息处理模型的编码网络对所述摘要文本进行处理,提取与所述摘要文本相匹配的摘要特征向量;
所述信息处理模块,用于根据所述摘要特征向量确定与所述摘要文本所对应的第一词语级的隐向量;
所述信息处理模块,用于对所述第一词语级的隐向量进行最大池化处理,形成第一语句级的隐向量;
所述信息处理模块,用于对所述第一词语级的隐向量和所述第一语句级的隐向量进行拼接,形成第一拼接向量;
所述信息处理模块,用于通过所述第一拼接向量,确定所述第一词语级的隐向量中不同单词之间的相似度,以及所述第一语句级的隐向量中不同语句之间的相似度;
所述信息处理模块,用于通过不同单词之间的相似度和不同语句之间的相似度,确定所述摘要文本对应的自参照冗余度参数。
上述方案中,
所述信息处理模块,用于根据所述摘要特征向量确定与所述目标文本所对应的第二词语级的隐向量;
所述信息处理模块,用于对所述第二词语级的隐向量进行池化处理,形成第二语句级的隐向量;
所述信息处理模块,用于基于所述第二语句级的隐向量,确定所述目标文本中每个语句所对应的中心度分数;
所述信息处理模块,用于对所述目标文本中每个语句所对应的中心度分数进行排序,根据中心度分数的排序结果确定所述目标文本对应的伪参照信息。
上述方案中,
所述信息处理模块,用于根据所述文本摘要分析环境,确定所述伪参照信息的单词数量;
所述信息处理模块,用于基于所述伪参照信息的单词数量,在所述中心度分数的排序结果中获取相应数量的语句作为所述目标文本对应的伪参照信息。
上述方案中,
所述信息处理模块,用于对第二词语级的隐向量和第二语句级的隐向量进行拼接,形成第二拼接向量;
所述信息处理模块,用于确定所述目标文本对应的伪参照信息中每个语句和单词所对应的权重参数;
所述信息处理模块,用于基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,确定与所述目标文本相匹配的中心度加权参数。
上述方案中,
所述信息处理模块,用于确定所述目标文本中每个语句所对应的中心度分数;
所述信息处理模块,用于对所述目标文本中每个语句所对应的中心度分数进行归一化处理,形成语句级的中心度分数;
所述信息处理模块,用于确定所述伪参照信息中每个单词所归属的语句;
所述信息处理模块,用于根据所述伪参照信息中每个单词所归属的语句的中心度分数;确定词语级的中心度分数;
所述信息处理模块,用于根据所述语句级的中心度分数和所述词语级的中心度分数,确定所述伪参照信息中每个语句和单词所对应的权重参数。
上述方案中,
所述信息处理模块,用于基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的准确率参数;
所述信息处理模块,用于通过所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的召回率参数;
所述信息处理模块,用于根据所述准确率参数和所述召回率参数确定与所述目标文本相匹配的中心度加权参数。
上述方案中,
所述信息处理模块,用于当所述文本摘要分析环境中目标文本对应的召回率参数的权重小于等于所述准确率参数的权重时,与所述目标文本相匹配的中心度加权参数作为所述目标文本与摘要文本的相关度参数。
上述方案中,
所述信息处理模块,用于当所述文本摘要分析环境中目标文本对应的召回率参数的权重大于所述准确率参数的权重时,
所述信息处理模块,用于确定所述召回率参数的权重与准确率参数的权重的比值;
所述信息处理模块,用于基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,通过所述召回率参数的权重与准确率参数的权重的比值,确定所述目标文本与摘要文本的相关度参数。
上述方案中,
所述信息处理模块,用于根据所述目标文本所携带的文本参数信息,触发相应的分词库;
所述信息处理模块,用于通过所触发的所述分词库单词词典对所述目标文本进行分词处理,形成不同的词语级特征向量;
所述信息处理模块,用于对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与文本信息处理模型的使用环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的动态词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与文本信息处理模型的使用环境相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述目标文本相对应的固定词语级特征向量集合。
上述方案中,
所述信息处理模块,用于对所述目标文本进行分词处理,形成分词处理结果;
所述信息处理模块,用于响应于所述分词处理结果,对所述目标文本进行去停用词处理,以形成与所述目标文本相匹配的文本关键词;
所述信息处理模块,用于根据所述目标文本相匹配的文本关键词,确定与所述目标文本相匹配的词性标注结果,并形成与所述目标文本相对应的词性特征向量集合。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中实现前序的文本摘要分析方法。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本摘要分析方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本摘要分析方法。
本发明实施例具有以下有益效果:
通过获取文本摘要分析环境中的目标文本以及摘要文本;通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。由此,不但实现了对于摘要文本的自动化测评,并且通过目标文本相匹配的中心度加权参数,减少伪参照信息中的噪声信息对摘要文本的分析结果的影响,通过摘要文本对应的自参照冗余度参数,更加准确地对没有人工标注参照的摘要文本进行自动处理,提升了摘要文本测评的效率,提升用户的使用体验。
附图说明
图1为本发明实施例提供的文本摘要分析方法的使用场景示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例提供的文本摘要分析方法一个可选的流程示意图;
图4为本发明实施例中摘要文本测评过程一个可选的数据处理流程示意图;
图5为本发明实施例中文本信息处理模型一个可选的结构示意图;
图6为本发明实施例提供的文本摘要分析一个可选的流程示意图;
图7为本发明实施例中摘要文本测评过程一个可选的数据处理流程示意图;
图8为对不同病历文本信息处理的示意图;
图9为本发明实施例提供的文本摘要分析方法一个可选的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)分词库:又称切词库,指一种特定的分词方法,不同的分词库各自对应的单词字典,并可以根据各自对应的单词字典对相应的文本信息进行分词处理。
3)一致性(consistency):表示在不同服务器访中问到的数据始终唯一。
4)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
5)编码器-解码器结构:机器翻译技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
6)小程序(Mini Program),是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML,Hyper Text Markup Language)页面中实现服务的程序,由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件,节省在客户端中安装的步骤。例如,通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。
7)BERT:全称为Bidirectional Encoder Representations from Transformers,一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务,如文本分类、文本匹配、机器阅读理解等。
8)摘要summary:自动文本摘要生成系统通过不同的机器学习进程所生成的摘要文本。
9)centrality-weighted relevance:中心度加权的相关度参数,用于表征通过伪参照每个单词和句子的中心度分数计算文本信息和摘要文本相关度的参数,通过准确率和召回率的比值确定;recall/precision:相关度分数中的准确率和召回率,其中,准确率表明摘要文本的准确性,召回率表明摘要文本中被采用的信息的数量,召回率越高说明被准确提取的摘要信息越多,self-referenced redundancy Score:自参照的冗余度参数,用于表征摘要文本中冗余信息的多少,冗余信息越多自参照的冗余度参数越大。
10)hidden representation:隐向量表示,一个连续的向量,表示所代表单词或者语句的语义信息。sentence-level/word-level:语句级别和单词级别。
11)pseudo reference:伪参照,由文本信息重要语句所组成的文本,作为需要评测摘要的参照,帮助反应摘要中包含多少文本信息中的重要信息。
12)centrality-based sentence selection:基于中心度的语句选择,选择文本信息语句作为伪参照的方法。
13)relevance score:相关度分数,代表了摘要包含文本信息重要信息的多少,是摘要质量的核心指标之一。
14)averaged relevance score:平均相关度分数,当有多个文本信息时,摘要最终的相关度分数是摘要与每个文本信息相关度分数的平均值。
图1为本发明实施例提供的文本摘要分析方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中,所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文本信息(包括但不限于:资讯文章、专业论文、公众号文章、小说、病历信息)进行浏览,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文本信息类型并不相同,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取任意类型的文本信息,也可以通过网络300从相应的服务器200中获取浏览摘要信息后选择所需要的文本内容进行浏览。服务器200中可以保存不同的机器学习进程通过不同的文本处理神经网络所形成的针对同一目标文本所形成的不同摘要文本,通过本申请所提供的文本摘要分析方法,可以通过目标文本相匹配的中心度加权参数,减少伪参照信息中的噪声信息对摘要文本的分析结果的影响,通过摘要文本对应的自参照冗余度参数,更加准确地对没有人工标注参照的摘要文本进行自动处理,提升了摘要文本测评的效率,使得阅读用户最终获得与目标文本相匹配的摘要文本,以提升文本信息的处理效率。在本发明的一些实施例中,服务器200中所保存的不同类型的文本信息可以是在不同的在不同文本摘要分析环境中利用编程语言的软件代码环境中所编写的,代码对象可以是不同类型的代码实体。例如,在C语言的软件代码中,一个代码对象可以是一个函数。在JAVA语言的软件代码中,一个代码对象可以是一个类,IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中,一个代码对象可以是一个类或一个函数以执行来自于不同终端的文本处理指令。其中本申请中不再对文本信息处理模型所要处理的文本信息的来源进行区分。
服务器200通过网络300向终端(终端10-1和/或终端10-2)发送不同类型的文本信息的过程中服务器200需要确定用户所选取的文本信息进行监控,因此。作为一个事例,服务器200用于获取文本摘要分析环境中的目标文本以及摘要文本;通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果,最终在显示界面中呈现相匹配的摘要文本,便于用户执行性后续的不同操作。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有文本处理功能的专用终端,也可以为带有文本处理功能的电子设备,例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本摘要分析装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本摘要分析装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本摘要分析方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本摘要分析装置采用软硬件结合实施的示例,本发明实施例所提供的文本摘要分析装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本摘要分析方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本摘要分析装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本摘要分析方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本摘要分析方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本摘要分析装置可以采用软件方式实现,图2示出了存储在存储器202中的文本摘要分析装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本摘要分析装置2020,文本摘要分析装置2020中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当文本摘要分析装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本摘要分析方法,下面对文本摘要分析装置2020中各个软件模块的功能进行介绍:
信息传输模块2081,用于获取文本摘要分析环境中的目标文本以及摘要文本。
信息处理模块2082,用于通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数。
所述信息处理模块2082,用于通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息。
所述信息处理模块2082,用于基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数。
所述信息处理模块2082,用于基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数。
所述信息处理模块2082,用于基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本摘要分析方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
结合图2示出的电子设备20说明本发明实施例提供的文本摘要分析方法,参见图3,图3为本发明实施例提供的文本摘要分析方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行文本摘要分析装置的各种电子设备执行,例如可以是如带有检索指令处理功能的专用终端、电子设备或者电子设备集群。下面针对图3示出的步骤进行说明。
步骤301:文本摘要分析装置获取文本摘要分析环境中的目标文本以及摘要文本。
其中,在实际应用中,为了方便用户快速了解该一篇文本信息的主旨思想,决定是否要查阅整篇文本信息内容,通常可以通过不同的机器学习的神经网络生成相应的文本摘要,即从该文本信息中抽取的若干个语句构成的总结段落,展示在文本信息的最开始部分,或者在文本推荐展示在该文本信息的扎还要文本。对于不同神经网络所生成的摘要文本可以评测这些文本摘要的质量,即其是否能够准确概率整篇文本信息,进而据此调整质量较差的文本摘要,或者调整相应的神经网络,提升用户对筛选文本信息可靠性及效率。
由于目标文本的类型不同,因此文本处理的领域也不相同,不同领域中的文本信息的内容差别巨大,因此,为了实现提升摘要文本的测评速度,可以根据所述目标文本所携带的文本参数信息,触发相应的分词库;通过所触发的所述分词库单词词典对所述目标文本进行分词处理,形成不同的词语级特征向量;对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。在本发明的一些实施例中,可以确定与文本信息处理模型的使用环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的动态词语级特征向量集合。例如,学术翻译的使用环境中,终端所显示的文本信息仅包括了学术论文的文本信息与所述文本信息处理模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的阅读环境中的动态噪声阈值。
同样的,还可以确定与文本信息处理模型的使用环境相对应的固定噪声阈值;根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述目标文本相对应的固定词语级特征向量集合。其中,当文本信息处理模型固化于相应的硬件机构中,例如车载终端或者智慧医疗系统中时,使用环境为专业术语文本信息(或者某一领域的文本信息)时,由于噪声较为单一,通过固定文本信息处理模型相对应的固定噪声阈值,能够有效提升文本信息处理模型的处理速度,减少用户的等待时间,提升用户的使用体验。进一步地,由于文本信息处理模型所处理的文本不仅包括单一语种的文本信息还可能是多语种的复杂文本信息(例如作为文本信息的中英文混合学术论文),其中,与英文直接将空格作为词之间的间隔不同,对于中文文本,相应的需要对中文文本进行分词,因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具Jieba对中文文本进行分词。另外,相应的需要对分词后的关键词集合去停用词处理,因为类似“是的”,“可以”这类词语对于相应的摘要文本测评是没有信息帮助。比如对于文本“是的,我喜欢做实验”,分词,去停用词得到“喜欢/做实验”(使用/作为分隔符,以下相同)两个关键词组成的集合,由此,能够有效提升文本信息处理模型的处理速度。
步骤302:文本摘要分析装置通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数。
在本发明的一些实施例中,参考图4,图4为本发明实施例中摘要文本测评过程一个可选的数据处理流程示意图,其中,通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数,可以通过以下方式实现:
通过文本信息处理模型的编码网络对所述摘要文本进行处理,提取与所述摘要文本相匹配的摘要特征向量;根据所述摘要特征向量确定与所述摘要文本所对应的第一词语级的隐向量;对所述第一词语级的隐向量进行最大池化处理,形成第一语句级的隐向量;对所述第一词语级的隐向量和所述第一语句级的隐向量进行拼接,形成第一拼接向量;通过所述第一拼接向量,确定所述第一词语级的隐向量中不同单词之间的相似度,以及所述第一语句级的隐向量中不同语句之间的相似度;通过不同单词之间的相似度和不同语句之间的相似度,确定所述摘要文本对应的自参照冗余度参数。其中,由于在对不同机器学习的神经网络模型所生成的摘要文本进行测评时,摘要文本通常为无标注信息(例如医疗病历的摘要形成的实时性特点,不能够对每一个病例的病历信息进行标注),因此,摘要文本对应的自参照冗余度参数能够有效的确定摘要文本中的冗余信息的比例,越高质量的摘要应该含有越少的冗余信息。基于摘要的混合表示
Figure BDA0002941747240000161
参考公式1获得评测摘要的冗余度:
Figure BDA0002941747240000162
其中xi表示X中的第i个元素,“j:i≠j”表示不考虑单词或语句与它本身的语义相似度,scorered∈[-1,1]表示的冗余度分数。从公式可以看出,的冗余度分数利用摘要自身作为参照计算了摘要中每一个单词和语句与其他单词和语句的语义相似度,平均过后得到整个摘要的冗余度分数。
步骤303:文本摘要分析装置通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息。
在本发明的一些实施例中,通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息,可以通过以下方式实现:
根据所述摘要特征向量确定与所述目标文本所对应的第二词语级的隐向量;对所述第二词语级的隐向量进行池化处理,形成第二语句级的隐向量;基于所述第二语句级的隐向量,确定所述目标文本中每个语句所对应的中心度分数;对所述目标文本中每个语句所对应的中心度分数进行排序,根据中心度分数的排序结果确定所述目标文本对应的伪参照信息。其中,在筛选不同数量的排序结果中的语句时,可以根据所述文本摘要分析环境,确定所述伪参照信息的单词数量;基于所述伪参照信息的单词数量,在所述中心度分数的排序结果中获取相应数量的语句作为所述目标文本对应的伪参照信息。其中,以第k个文档dk和摘要(summary)x为例,其中,文本处理型的组成可以包括:编码器网络和解码器网络,在本发明的一些实施例中,文本信息处理模型可以为双向注意力神经网络模型(BERTBidirectional Encoder Representations from Transformers)。继续参考图5,图5为本发明实施例中文本信息处理模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个融合子层网络(sub-layers)。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。其中,解码器网络(Decoder)包括:由N=6个相同的Layer组成,这里的layer包含了三个融合子层网络(sub-layers),其中有一个可以配置为自注意力层网络(self-attention layer),文本信息处理模型的最后是一个可以配置为全连接层网络,通过图5所示的文本信息处理模型,SUPERT文本处理模型将文档dk和摘要x都分解成语句,然后使用基于BERT网络的分词器和词嵌入器将每个语句分词成单词序列并且将每个单词都编码成隐向量表示(hiddenrepresentation)。摘要x就可以用单词序列对应的隐向量表示序列来表示,记为
Figure BDA0002941747240000171
其中n表示摘要的长度即单词数量。计算文档dk中每个语句的隐向量表示,方法是对每个语句所有单词的隐向量表示做平均池化或者最大池化。然后文档dk的每个语句的隐向量表示被输入到PacSum算法中计算每个语句的中心度分数。根据得到的中心度分数对文档dk的所有语句进行排序,中心度分数最高的M个语句组成文档dk的伪参照r。将所选择的语句按照顺序链接,也可以得到伪参照的单词序列所对应的隐向量表示序列:
Figure BDA0002941747240000172
其中m表示伪参照的单词数量。
步骤304:文本摘要分析装置基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数。
结合图2示出的电子设备20说明本发明实施例提供的文本摘要分析方法,参见图6,图6为本发明实施例提供的文本摘要分析一个可选的流程示意图,可以理解地,图6所示的步骤可以由运行文本摘要分析装置的各种电子设备执行,例如可以是如带有文本摘要分析功能的专用终端、服务器或者服务器集群用于对文本信息处理模型进行训练,以确定与所述文本信息处理模型相适配的模型参数,具体包括以下步骤:
步骤601:服务器对第二词语级的隐向量和第二语句级的隐向量进行拼接,形成第二拼接向量。
步骤602:服务器确定所述目标文本中每个语句所对应的中心度分数。
步骤603:服务器对所述目标文本中每个语句所对应的中心度分数进行归一化处理,形成语句级的中心度分数。
步骤604:服务器确定所述伪参照信息中每个单词所归属的语句,并根据所述伪参照信息中每个单词所归属的语句的中心度分数;确定词语级的中心度分数。
步骤605:服务器根据所述语句级的中心度分数和所述词语级的中心度分数,确定所述伪参照信息中每个语句和单词所对应的权重参数。
其中,所确定的目标文本对应的伪参照信息中每个语句和单词所对应的权重参数可以不同,以实现更加准确地区分伪参照信息中的语句与单词的重要程度。
步骤606:服务器基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,确定与所述目标文本相匹配的中心度加权参数。
在本发明的一些实施例中,于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,确定与所述目标文本相匹配的中心度加权参数,可以通过以下方式实现:
基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的准确率参数;通过所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的召回率参数;根据所述准确率参数和所述召回率参数确定与所述目标文本相匹配的中心度加权参数。其中,参考图7,图7为本发明实施例中摘要文本测评过程一个可选的数据处理流程示意图,其中,摘要文本的单词序列对应的隐向量表示
Figure BDA0002941747240000181
和伪参照的单词序列对应的隐向量表示
Figure BDA0002941747240000182
然后,对摘要和伪参照中的每个语句里面的所有单词的隐向量表示做最大化池化处理,得到摘要的语句级别隐向量表示
Figure BDA0002941747240000183
其中N是摘要的语句数量和伪参照的语句级别的隐向量表示
Figure BDA0002941747240000184
其中M是伪参照的语句数量。最终链接单词级别的隐向量表示和语句级别隐向量表示分别得到一个混合表示来代表摘要和伪参照。将摘要的混合表示记为
Figure BDA0002941747240000191
伪参照的混合表示记为
Figure BDA0002941747240000192
在本发明的一些实施例中,还可以对伪参照的单词和语句赋予不同的权重从而显示其重要性的差异帮助模型更准确的计算摘要的相关度分数。在建立伪参照时,保留伪参照每个语句的中心度分数,然后将这些分数归一化并记为
Figure BDA0002941747240000193
其中上标s表示语句级别(sentence-level),进一步地,还可以参考公式2和公式3通过继承的方法得到单词级别(word-level)的中心度分数:
Figure BDA0002941747240000194
Figure BDA0002941747240000195
公式(5)中的“i:wj∈si”表明每个伪参照的单词wj从它所属的语句si继承同样的中心度分数。由于单词的语义组成了语句的语义,所以这种中心度分数继承是合理的。最终,参考公式4、公式5、公式6通过链接单词级别的中心度分数
Figure BDA0002941747240000196
和语句级别的中心度分数
Figure BDA0002941747240000197
并做归一化后得到伪参照混合表示的中心度分数:
Figure BDA0002941747240000198
Figure BDA0002941747240000199
Figure BDA00029417472400001910
其中“sum”表示所有元素的加和。
在得到伪参照每个单词和语句的中心度分数过后,就可以计算由中心度加权(centrality-weighted)的摘要的相关度分数。使用Xj表示摘要混合表示X中的第j个元素,riri表示伪参照混合表示Rk中的第i个元素,ai表示伪参照中心度分数a中的第i个元素,参考参考公式7、公式8、公式9,中心度加权的相关度分数计算公式如下:
Figure BDA00029417472400001911
Figure BDA00029417472400001912
Figure BDA0002941747240000201
在本发明的一些实施例中,基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数,可以通过以下方式实现:
当所述文本摘要分析环境中目标文本对应的召回率参数的权重小于等于所述准确率参数的权重时,与所述目标文本相匹配的中心度加权参数作为所述目标文本与摘要文本的相关度参数,或者,当所述文本摘要分析环境中目标文本对应的召回率参数的权重大于所述准确率参数的权重时,确定所述召回率参数的权重与准确率参数的权重的比值;基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,通过所述召回率参数的权重与准确率参数的权重的比值,确定所述目标文本与摘要文本的相关度参数。继续参考图7,F1分数就作为摘要x与文档dk的相关度分数。除了基于F1的分数,在本发明的一些实施例中还可以通过基于Fβ的相关度分数计算方式,其中β的物理意义是Recall被认为比Precision更重要β倍。具体的。参考公式10和公式11计算方法如下:
Figure BDA0002941747240000202
Figure BDA0002941747240000203
其中|Rk|=m+M代表Rk元素数量,|X|=n+N代表x元素数量,γ是一个可以调节的超参数。β的大小是根据伪参照和摘要的混合表示的元素数量的比值自适应地决定。伪参照越长,摘要越短,那么β越大。这样设置的动机在于伪参照越长表示文档中重要信息越多,然而此时越短的摘要越不能全面地包含伪参照里面的重要内容,即Recall越低,这种情况下增加Recall的权重来帮助筛选出这种摘要。
步骤305:文本摘要分析装置基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数。
其中,摘要的最终评测分数代表着摘要综合的质量,参考公式12,最终评测分数由的相关度分数和冗余度分数线性组合而成:
Figure BDA0002941747240000211
其中λ是可调节的超参数,score∈[-1,1]表示的最终评测分数。
步骤306:文本摘要分析装置基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
在本发明的一些实施例中,当所要测评的文本信息由不同的文本组成时(例如用户的病历信息由多个科室的诊疗结果的文字信息汇总形成),对于这种摘要文本的测评环境,需要计算摘要x与每个文档dk的相关度分数然后取平均得到摘要的最终相关度分数,参考公式13,计算方式如下:
Figure BDA0002941747240000212
其中“mean”表示取平均值,
Figure BDA0002941747240000213
表示摘要与文档dk的相关度分数,下标“*”或者是1或者是β表示对应的F分数计算方式,scorerel∈[-1,1]表示的最终相关度分数。
下面以确定医疗诊断环境中的医疗信息为例对本发明所提供的文本摘要分析方法进行说明,参考图8,图8为对不同病历文本信息处理的示意图。其中,通过对同一患者的不同的病历信息提取相应的摘要文本,能够使的医生获得更加全面的了解,为了提取病历信息中的摘要文本辅助医生诊疗分析,可以通过文本信息处理模型对病历信息的文本进行处理,由于病历文本信息的内容复杂(专业术语多、专业名称简写多、语句长度较长),以图8所示的病历文本信息为例,其中,T1MD代表1型糖尿病,T2MD代表2型糖尿病,这一过程中,医学电子病历虽然能够通过患者体征和问答形式采集到一些信息,如性别,年龄,血检指标,体温血压等生物信息,但是在文本信息处理模型的处理过中,有的机器学习方法只考虑了单词层级的隐向量表示而忽略了语句级别的隐向量表示,使得伪参照和摘要的语义映射关系单一,从而无法准确的显示伪参照和摘要的相关度,同时伪参照中的信息具有同样的权重,现实情况中,一个文档的核心信息是不均匀地分布在每个语句当中,因此伪参照中也有相对重要和相对不重要的语句,简单的认为所有语句同样重要可能会给相关度计算带来额外噪音,因此,所生成的摘要文本可能会出现冗余信息,不利于医生的辅助诊疗,例如,具体体内病灶信息如心脏大脑等出血或梗死病变往往只能无法通过病历信息的摘要文本获得,只能够由医生再次浏览病历信息获取,因此需要对不同机器学习的文本信息处理模型所生成的摘要文本进行测评。
为解决上述问题,参考图9,图9为本发明实施例提供的文本摘要分析方法一个可选的流程示意图,其中用户可以为医生,处理的目标文本信息为同一患者的不同病历信息以及通过不同的机器学习的神经网络获得的病历的摘要文本,具体包括以下步骤:
步骤901:获取病历信息文本和不同神经网络模型生成的摘要文本。
其中,如图8所示,病历文本信息可以包括病患的现病史有是否肌力下降,感觉症状,失语,视物不清,眩晕,头痛,恶心,呕吐,认知障碍,意识障碍等。既往史有是否有糖尿病,高血压,心脏病,高血脂,脑卒中,是否用阿司匹林等。家族史有父母是否有脑血管病史,心血管病史,儿女是否有脑血管病史,心血管病史,兄弟姐妹是否有脑血管病史,心血管病史等。因此可以简单的将这些信息转化为数字特征,比如-1代表无,1代表有,0代表不清楚。通过对摘要文本的测评可以选择与诊疗环境相适配的机器学习神经网络,对大规模的病历信息进行处理。
步骤902:分别确定不同的摘要文本各自对应的自参照冗余度参数。
步骤903:确定作为目标文本的病历信息对应的伪参照信息。
步骤904:基于伪参照信息,确定中心度加权参数。
步骤905:基于不同摘要文本分别对应的自参照冗余度参数和中心度加权参数,通过所述召回率参数的权重与准确率参数的权重的比值,确定病历信息和不同摘要文本之间的相关度参数。
步骤906:基于病历信息和不同摘要文本之间的相关度参数,筛选辅助诊疗环境相匹配的文本信息处理模型。
由此,不同的医疗终端中,通过本申请所提供的摘要文本测评方法,可以对不同神经网络模型所生成的摘要文本你进行自动测评,获得与诊疗环境相适配的神经网络模型,以获得最适合的摘要信息辅助进行医疗诊断。
有益技术效果:
通过获取文本摘要分析环境中的目标文本以及摘要文本;通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。由此,不但实现了对于摘要文本的自动化测评,并且通过目标文本相匹配的中心度加权参数,减少伪参照信息中的噪声信息对摘要文本的分析结果的影响,通过摘要文本对应的自参照冗余度参数,更加准确地对没有人工标注参照的摘要文本进行自动处理,提升了摘要文本测评的效率,提升用户的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种文本摘要分析方法,其特征在于,所述方法包括:
获取目标文本以及摘要文本;
通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;
通过所述文本信息处理模型对所述进行处理,确定所述目标文本对应的伪参照信息;
基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;
基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;
基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
2.根据权利要求1所述的方法,其特征在于,所述通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数,包括:
通过文本信息处理模型的编码网络对所述摘要文本进行处理,提取与所述摘要文本相匹配的摘要特征向量;
根据所述摘要特征向量确定与所述摘要文本所对应的第一词语级的隐向量;
对所述第一词语级的隐向量进行最大池化处理,形成第一语句级的隐向量;
对所述第一词语级的隐向量和所述第一语句级的隐向量进行拼接,形成第一拼接向量;
通过所述第一拼接向量,确定所述第一词语级的隐向量中不同单词之间的相似度;
通过所述第一拼接向量,确定所述第一语句级的隐向量中不同语句之间的相似度;
通过不同单词之间的相似度和不同语句之间的相似度,确定所述摘要文本对应的自参照冗余度参数。
3.根据权利要求1所述的方法,其特征在于,所述通过所述文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息,包括:
根据所述摘要特征向量确定与所述目标文本所对应的第二词语级的隐向量;
对所述第二词语级的隐向量进行池化处理,形成第二语句级的隐向量;
基于所述第二语句级的隐向量,确定所述目标文本中每个语句所对应的中心度分数;
对所述目标文本中每个语句所对应的中心度分数进行排序,根据中心度分数的排序结果确定所述目标文本对应的伪参照信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述参照文本中每个语句所对应的中心度分数进行排序,根据中心度分数的排序结果确定所述参照文本对应的伪参照信息,包括:
根据文本摘要分析环境,确定所述伪参照信息的单词数量;
基于所述伪参照信息的单词数量,在所述中心度分数的排序结果中获取相应数量的语句作为所述目标文本对应的伪参照信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数,包括:
对第二词语级的隐向量和第二语句级的隐向量进行拼接,形成第二拼接向量;
确定所述目标文本对应的伪参照信息中每个语句和单词所对应的权重参数;
基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,确定与所述目标文本相匹配的中心度加权参数。
6.根据权利要求5所述的方法,其特征在于,所述确定所述目标文本对应的伪参照信息中每个语句和单词所对应的权重参数,包括:
确定所述目标文本中每个语句所对应的中心度分数;
对所述目标文本中每个语句所对应的中心度分数进行归一化处理,形成语句级的中心度分数;
确定所述伪参照信息中每个单词所归属的语句;
根据所述伪参照信息中每个单词所归属的语句的中心度分数;确定词语级的中心度分数;
根据所述语句级的中心度分数和所述词语级的中心度分数,确定所述伪参照信息中每个语句和单词所对应的权重参数。
7.根据权利要求5所述的方法,其特征在于,所述基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,确定与所述目标文本相匹配的中心度加权参数,包括:
基于所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的准确率参数;
通过所述第二拼接向量和伪参照信息中每个语句和单词所对应的权重参数,利用所述第一拼接向量,确定所述目标文本对应的召回率参数;
根据所述准确率参数和所述召回率参数确定与所述目标文本相匹配的中心度加权参数。
8.根据权利要求7所述的方法,其特征在于,所述基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数,包括:
当所述文本摘要分析环境中目标文本对应的召回率参数的权重小于等于所述准确率参数的权重时,将所述目标文本相匹配的中心度加权参数作为所述目标文本与摘要文本的相关度参数。
9.根据权利要求7所述的方法,其特征在于,所述基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数,包括:
当所述文本摘要分析环境中目标文本对应的召回率参数的权重大于所述准确率参数的权重时,
确定所述召回率参数的权重与准确率参数的权重的比值;
基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,通过所述召回率参数的权重与准确率参数的权重的比值,确定所述目标文本与摘要文本的相关度参数。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标文本所携带的文本参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述目标文本进行分词处理,形成不同的词语级特征向量;
对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。
11.根据权利要求10所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合,包括:
确定与文本信息处理模型的使用环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,形成与所述目标文本相对应的动态词语级特征向量集合。
12.根据权利要求11所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合,包括:
确定与文本信息处理模型的使用环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,与所述目标文本相对应的固定词语级特征向量集合。
13.一种文本摘要分析装置,其特征在于,所述装置包括:
信息传输模块,用于获取文本摘要分析环境中的目标文本以及摘要文本;
信息处理模块,用于通过文本信息处理模型对所述摘要文本进行处理,确定所述摘要文本对应的自参照冗余度参数;
所述信息处理模块,用于通过文本信息处理模型对所述目标文本进行处理,确定所述目标文本对应的伪参照信息;
所述信息处理模块,用于基于所述目标文本对应的伪参照信息,确定与所述目标文本相匹配的中心度加权参数;
所述信息处理模块,用于基于所述摘要文本对应的自参照冗余度参数和所述目标文本相匹配的中心度加权参数,确定所述目标文本与摘要文本的相关度参数;
所述信息处理模块,用于基于所述目标文本与摘要文本的相关度参数,确定所述摘要文本的分析结果。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至12任一项所述的文本摘要分析方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至12任一项所述的文本摘要分析方法。
CN202110182229.1A 2021-02-09 2021-02-09 一种文本摘要分析方法、装置、电子设备及存储介质 Pending CN113591452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182229.1A CN113591452A (zh) 2021-02-09 2021-02-09 一种文本摘要分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182229.1A CN113591452A (zh) 2021-02-09 2021-02-09 一种文本摘要分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113591452A true CN113591452A (zh) 2021-11-02

Family

ID=78238085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182229.1A Pending CN113591452A (zh) 2021-02-09 2021-02-09 一种文本摘要分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113591452A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743838A (zh) * 2024-02-20 2024-03-22 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743838A (zh) * 2024-02-20 2024-03-22 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法
CN117743838B (zh) * 2024-02-20 2024-04-30 卓世智星(成都)科技有限公司 用于大语言模型的数据知识提取方法

Similar Documents

Publication Publication Date Title
CN112131393B (zh) 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
US10095740B2 (en) Selective fact generation from table data in a cognitive system
Chan et al. Reproducible extraction of cross-lingual topics (rectr)
CN117251699B (zh) 基于人工智能的医疗大数据分析方法及系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111540470B (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
US11532387B2 (en) Identifying information in plain text narratives EMRs
Coiera et al. Architecture for knowledge-based and federated search of online clinical evidence
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN113591452A (zh) 一种文本摘要分析方法、装置、电子设备及存储介质
CN113571196A (zh) 构建医疗训练样本的方法及装置、医疗文本的检索方法
CN117251527A (zh) 医学循证方法、系统、电子设备及存储介质
Nunes et al. Chronic pain and language: A topic modelling approach to personal pain descriptions
Westbury Prenominal adjective order is such a fat big deal because adjectives are ordered by likely need
CN112948580B (zh) 一种文本分类的方法和系统
CN112765940B (zh) 一种基于主题特征和内容语义的网页去重方法
CN113314236A (zh) 一种面向高血压的智能问答系统
CN113515935A (zh) 一种标题生成方法、装置、终端及介质
CN113268651B (zh) 一种搜索信息的摘要自动生成方法及装置
US20190056912A1 (en) Sorting of Numeric Values Using an Identification of Superlative Adjectives
CN114281959B (zh) 语句处理的方法、装置、设备、介质及计算机程序产品
Liang et al. Knowledge graph enhanced transformer for generative question answering tasks
Song et al. A hybrid model for community-oriented lexical simplification
CN113051373B (zh) 文本分析方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056125

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination