CN112861510A - 纪要处理方法、装置、设备和存储介质 - Google Patents

纪要处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112861510A
CN112861510A CN202110180583.0A CN202110180583A CN112861510A CN 112861510 A CN112861510 A CN 112861510A CN 202110180583 A CN202110180583 A CN 202110180583A CN 112861510 A CN112861510 A CN 112861510A
Authority
CN
China
Prior art keywords
sentences
text
sentence
processed
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110180583.0A
Other languages
English (en)
Inventor
郑翔
杨晶生
钱程
熊梦园
陈可蓉
庄辉玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202110180583.0A priority Critical patent/CN112861510A/zh
Publication of CN112861510A publication Critical patent/CN112861510A/zh
Priority to US18/276,208 priority patent/US20240104302A1/en
Priority to PCT/CN2022/075396 priority patent/WO2022166962A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种纪要处理方法、装置、设备和存储介质,其中该方法包括:获取待处理文本;基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句;从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。通过上述技术方案,实现了从多个维度提取待处理文本的纪要,提高了纪要对各种文本形式的兼容性、纪要的信息含量和待处理文本的查询效率。

Description

纪要处理方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种纪要处理方法、装置、设备和存储介质。
背景技术
纪要是一种非常重要的文本信息总结、提炼方式。在进行纪要提取时,要求尽量概括文本内容,且长度尽量简短。基于此,目前主流的纪要提取方式是基于内容进行纪要提取。将其应用至会议场景下,就是基于会议文本的内容信息进行纪要提取,获得会议纪要。会议纪要可以帮助会议相关人员快速了解或回顾会议内容。但是,基于内容的会议纪要提取方式所得的会议纪要所包含的会议信息量有限。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种纪要处理方法、装置、设备和存储介质。
本公开实施例提供了一种纪要处理方法,该方法包括:
获取待处理文本;
基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句;
从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。
本公开实施例还提供了一种纪要处理方法,该方法包括:
获取待处理文本中各预设纪要类别对应的纪要语句,其中,所述纪要语句是按照各所述预设纪要类别对所述待处理文本进行纪要提取而获得;
显示各所述预设纪要类别和相应预设纪要类别下的各所述纪要语句;
响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。
本公开实施例还提供了一种纪要处理装置,所述装置包括:
文本获取模块,用于获取待处理文本;
纪要语句确定模块,用于基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句;
关联关系存储模块,用于从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。
本公开实施例还提供了一种纪要处理装置,所述装置包括:
纪要语句获取模块,用于获取待处理文本中各预设纪要类别对应的纪要语句,其中,所述纪要语句是按照各所述预设纪要类别对所述待处理文本进行纪要提取而获得;
纪要语句显示模块,用于显示各所述预设纪要类别和相应预设纪要类别下的各所述纪要语句;
其他语句显示模块,用于响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的纪要处理方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的纪要处理方法。
本公开实施例提供的纪要处理方案,能够按照预设纪要类别对待处理文本进行纪要提取,分别获得各预设纪要类别对应的纪要语句,实现了从多个维度提取待处理文本的纪要,提高了纪要对各种文本形式的兼容性和纪要的信息含量。并且,能够将待处理文本中剩余的其他语句与纪要语句相关联,实现了从纪要语句快速获知与其关联的其他文本内容,提高了待处理文本的查询效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种纪要处理方法的流程示意图;
图2为本公开实施例提供的又一种纪要处理方法的流程示意图;
图3为本公开实施例提供的又一种纪要处理方法的流程示意图;
图4为本公开实施例提供的一种纪要处理装置的结构示意图;
图5为本公开实施例提供的另一种纪要处理装置的结构示意图;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开实施例提供的纪要处理方法,主要适用于为各种文本生成纪要的场景,例如适用于为各种会议生成会议纪要。本公开实施例提供的纪要处理方法可以由纪要处理装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有文本处理功能的电子设备中,例如手机、掌上电脑、平板电脑、笔记本电脑、台式电脑或服务器等。
图1是本公开实施例提供的一种纪要处理方法的流程图。参见图1,该纪要处理方法具体包括:
S110、获取待处理文本。
其中,待处理文本是指需要进行文本纪要提取的文本,其可以是文章、网页内容、会议的字幕文本(即会议文本)等。本公开实施例中将以待处理文本为会议文本为例进行说明,由此纪要便为会议纪要。
获取会议的字幕文本,即会议文本。在一些实施例中,可以通过对会议过程中录制的会议语音进行转换而获得会议文本。在一些实施例中,可以通过人工记录来获得会议文本。在一些实施例中,还可以通过对语音转换而获得的会议文本和人工记录所得的会议文本进行融合,来获得准确性更高的会议文本。
S120、基于预设纪要类别,对待处理文本进行纪要提取,确定出属于各预设纪要类别的纪要语句。
其中,预设纪要类别是预先设定的文本类别,其对应于会议文本的不同维度。预设纪要类别可以根据业务需求来确定。在一些实施例中,预设纪要类别包括任务规划类别、文本结论类别和文本主题类别中的至少一个。任务规划类别对应于下一步任务安排等文本内容。文本结论类别和文本主题类型在会议场景下分别对应于会议结论类别和会议主题类别。会议结论类别对应于会议内容的总结、或给定会议讨论的问题的解决方案等文本类别。会议主题类别对应于各会议议题的文本内容。本实施例中,预设纪要类别可以是任务规划类别、文本结论类别和文本主题类别中的任一个、或任两个、或三个。
相关技术中是从整个会议文本的内容层面进行会议纪要的生成,其只是对会议内容的整体性概括。但是,该会议纪要生成方式忽略了会议参与人员较多、会议议题较多和会议形式多样性等特性,使得生成的会议纪要信息量不足,且无法全面反映会议内容,也使得用户无法根据该会议纪要快速获取自己所需的信息。例如,如果某个会议发言人对应的会议文本在整个会议文本中的占比较小,且其与整个会议文本的相关性也较小,那么基于内容的会议纪要提取方式所得的会议纪要中很可能不会包含该发言人的会议内容,或者仅是对其进行了很简单的概述。如果会后有人对该发言人的会议内容感兴趣,那么其无法在会议纪要中获取到所需信息,或者只能获取到极少信息。这种情况下,只能查看完整的会议文本,使得会议内容的查询效率低下。
基于上述情况,本公开实施例中从多个维度来提取纪要语句,即按照预设纪要类别来提取会议文本中的纪要语句,并由各预设纪要类别及其对应的纪要语句来构成会议纪要,以使会议纪要中包含更加全面和多样的会议内容。
具体地,可以通过不同预设纪要类别对应的待处理文本特性来实现相应预设纪要类别的纪要语句的提取。在一些实施例中,可以利用机器学习模型来实现不同预设纪要类别的纪要语句提取。在另一些实施例中,可以预先设置不同预设纪要类别的纪要语句相关的文本信息,再基于文本匹配的方式来提取纪要语句。
S130、从待处理文本中确定与纪要语句相关联的其他语句,并存储各纪要语句与相应其他语句之间的关联关系。
其中,其他语句是指待处理文本中除了纪要语句之外的语句。关联关系是指纪要语句和其他语句之间的对应关系。该关联关系用于后续对纪要和待处理文本的显示或分析,例如用于显示与纪要相关联的其他语句,以提高用户查询待处理文本的效率。
相关技术中,如果用户对某些纪要语句的会议内容感兴趣,要深入了解更加详细的会议内容,通常只能查看完整的会议文本,但这种方式耗时耗力且效率很低。为了提高会议文本的查询效率,本公开实施例中在内容主题层面上,建立每个纪要语句与会议文本中其他语句之间的关联关系。例如,可以通过文本相似度来计算纪要语句与其他语句之间的相似度,并设置相似度阈值来确定关联的语句。又如,建立机器学习模型来筛选与各纪要语句关联的其他语句等。并且,为了提高后续使用便捷性,可以将纪要语句及其关联的其他语句之间的关联关系存储下来,以供用户访问查看。
本公开实施例提供的纪要处理方案,能够按照预设纪要类别对待处理文本进行纪要提取,分别获得各预设纪要类别对应的纪要语句,实现了从多个维度提取文本纪要,提高了纪要对各种文本形式的兼容性和纪要的信息含量。并且,能够将待处理文本中剩余的其他语句与纪要语句相关联,实现了从纪要语句快速获知与其关联的其他文本内容,提高了待处理文本的查询效率。
图2是本公开实施例提供的又一种纪要处理方法的流程图。其对“基于预设纪要类别,对待处理文本进行纪要提取,确定出属于各预设纪要类别的纪要语句”进行了进一步优化。在此基础上,还可以进一步对“从待处理文本中确定与纪要语句相关联的其他语句”进行优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,该纪要处理方法包括:
S210、获取待处理文本。
S220、对待处理文本中的每个语句进行向量化处理,确定相应语句的向量化结果。
为了提高纪要语句提取的准确性,本公开实施例中采用机器学习模型(即文本识别模型)来实现纪要语句的提取,而文本识别模型的输入数据为语句的数字化表征,即向量化结果。具体地,首先对会议文本进行断句和过滤(如过短语句的剔除),获得会议文本对应的多个语句。然后,利用诸如Word2vec模型等方法对每个语句进行向量化处理,获得每个语句的向量化结果。
S230、将各向量化结果输入预先训练的文本识别模型,并根据模型输出结果确定出属于各预设纪要类别的纪要语句。
其中,文本识别模型用于识别语句是否属于其中一个预设纪要类别。该文本识别模型的输出可判断输入语句是否属于其中一个预设纪要类别。在一些实施例中,文本识别模型为机器学习模型;机器学习模型的训练样本为多个包含类别指示词的语句。本实施例中,文本识别模型为机器学习模型,例如可以是深度学习模型。在S230之前,需要收集训练样本并训练上述机器学习模型,获得文本识别模型。该训练样本中包含属于每个预设纪要类别的多个语句。例如,收集包含各预设纪要类别对应的类别指示词的语句。这些语句的收集来源优选是各种会议文本。但是,为了完善训练样本和提高模型的精确度,还可以从文章、新闻和网页等其他来源收集所需的语句。
分别将S220中所得的语句的向量化结果输入至训练好的文本识别模型中,经过模型运算,得到相应的模型输出结果。该模型输出结果表征输入的向量化结果是否属于某个预设纪要类别。例如,模型输出结果表明输入的向量化结果属于任务规划类别,则将该向量化结果对应的语句确定为任务规划类别下的纪要语句。如果模型输出结果表明输入的向量化结果不属于任一预设纪要类别,则剔除该向量化结果对应的语句。
S240、基于预设纪要类别对应的类别指示词,对待处理文本进行文本匹配,并根据匹配结果确定出属于各预设纪要类别的纪要语句。
通过表征每个预设纪要类别的特征词(即类别指示词),对会议文本进行文本匹配来实现纪要语句的提取。这里的类别指示词例如可以是任务规划类别中的“下一步”、“计划”、“安排”等表明任务安排等的词,会议结论类别中的“所以”、“总之”、“综上”、“总的来说”等表明结论或决定的词,会议主题类别中的“议题”、“讨论”等引出会议议题的词。具体实施时,可以是将各预设纪要类别对应的类别指示词,与会议文本中每个语句中包含的有效词(非语气助词、停用词等)进行文本相似度计算。当文本相似度达到一定的阈值时,便可确定该文本相似度对应的语句属于参与该文本相似度计算的类别指示词对应的预设纪要类别,该语句便为该类别下的纪要语句。这样能够以更加简单的逻辑实现不同纪要类别下的纪要语句的提取,提高会议纪要生成的便捷性。
需要说明的是,S220~S230和S240择一执行即可,例如可以执行S210、S240和S250~S270,也可以执行S210~S230和S250~S270。
S250、基于待处理文本中各语句在文本中的位置和各纪要语句在待处理文本中的位置,确定与每个纪要语句相关联的其他语句。
如果某个其他语句和纪要语句在会议文本中的位置越接近,那么该其他语句与该纪要语句在内容层面上相关联的可能性越大,就可以将该其他语句确定为与该纪要语句关联的语句。所以,可以根据会议文本中每个语句在会议文本中的位置(全文位置或段落位置),及其与纪要语句在会议文本中的位置之间的远近,确定每个纪要语句关联的其他语句。
S260、基于待处理文本中各语句的向量化结果和各纪要语句的向量化结果,确定与每个纪要语句对应的其他语句。
如果某个其他语句和纪要语句之间的文本相似度越高,那么该其他语句与该纪要语句在内容层面上相关联的可能性越大,就可以将该其他语句确定为与该纪要语句关联的语句。所以,可以利用会议文本中每个语句的向量化结果和纪要语句的向量化结果计算文本相似度,并根据该文本相似度来确定纪要语句关联的其他语句。
需要说明的是,S250和S260可以择一执行,也可以全部执行。当S250和S260均执行时,两者执行顺序不限定。在S250和S260均执行的实施例中,可以设置位置相近程度和文本相似度两个指标间的综合方式,如相乘或者加权求和等,并设置综合值的过滤规则,例如设置过滤阈值,满足过滤阈值的其他语句可被确定为关联的语句。也可以不综合两个指标,而是单个指标设置过滤规则。这样可以进一步提高其他语句和纪要语句的关联关系的准确性。
S270、存储各纪要语句与相应其他语句之间的关联关系。
本公开实施例提供的纪要处理方案,通过对待处理文本中的每个语句进行向量化处理,确定相应语句的向量化结果;将各向量化结果输入预先训练的文本识别模型,并根据模型输出结果确定出属于各预设纪要类别的纪要语句。实现了基于机器学习模型来识别待处理文本中的纪要语句,提高了纪要语句提取的准确性和全面性,从而进一步丰富纪要的信息量。通过从待处理文本中确定与纪要语句相关联的其他语句,并存储各纪要语句与相应其他语句之间的关联关系。实现了待处理文本中其他语句与纪要语句的关联,进一步梳理待处理文本的内容,为后续内容的高效查询与显示提供基础。
图3是本公开实施例提供的又一种纪要处理方法的流程图。参见图3,该纪要处理方法具体包括:
S310、获取待处理文本中各预设纪要类别对应的纪要语句,其中,纪要语句是按照各预设纪要类别对待处理文本进行纪要提取而获得。
显示会议纪要之前,先获取按照预设纪要类别提取的各纪要语句。
S320、显示各预设纪要类别和相应预设纪要类别下的各纪要语句。
为了更加清晰地展示会议纪要,本公开实施例中需要按照预设纪要类别来显示会议纪要。例如,显示各个预设纪要类别,并对应于每个预设纪要类别显示相应的纪要语句。显示方式可以是在区别于会议文本显示区域的区域或页面中,以列表或分段等形式来显示。
S330、响应于检测到关联显示指令,基于关联显示指令对应的目标纪要语句、以及各纪要语句与待处理文本中其他语句之间的关联关系,显示目标纪要语句关联的其他语句。
其中,关联显示指令是指启动关联显示其他语句的指令。
如果检测到关联显示指令,则根据该关联显示指令确定需要显示关联的其他语句的纪要语句(即目标纪要语句)。然后,从存储的各纪要语句与其他语句之间的关联关系中匹配出目标纪要语句,并确定出该目标纪要语句关联的其他语句。最后,显示确定出的其他语句,其显示方式应当能体现出这些其他语句与目标纪要语句之间的关联关系。例如,在相同显示区域,以上下级的显示位置来分别目标显示纪要语句和其他语句;或者,在不同显示区域中分别显示,但是在目标纪要语句的显示区域和其他语句的显示区域之间建立可视化的关联关系等。这样的设置能够更加方便地显示与纪要语句相关的会议细节语句,便于用户快速定位感兴趣的会议内容。
在一些实施例中,检测到关联显示指令包括:若检测到用户对目标纪要语句的语句触发操作,则将语句触发操作对应的指令确定为关联显示指令。本实施例中,为显示界面中显示的纪要语句设置了控件功能,其能够被点击触发或光标驻留触发(光标停留一定时间便触发),且将其点击事件或光标驻留触发事件设置为关联显示指令的生成。所以,如果检测到用户对目标纪要语句的点击触发操作或光标驻留触发操作(即语句触发操作),那么就可以生成指向目标纪要语句的关联显示指令。
在一些实施例中,检测到关联显示指令包括:若检测到用户对目标纪要语句处的关联显示控件的控件触发操作,则将控件触发操作对应的指令确定为关联显示指令。本实施例中,在每个纪要语句的周边显示专门的关联显示控件,例如显示有“相关语句/关联语句/关联内容”等文字的点击控件,或者“+”控件等。并且,该关联显示控件的触发事件设置为关联显示指令的生成。所以,如果检测到用户对目标纪要语句周边的关联显示控件的点击触发操作(即控件触发操作),那么就可以生成指向目标纪要语句的关联显示指令。
在一些实施例中,显示目标纪要语句关联的其他语句包括以下至少一者:在目标纪要语句的下方显示目标纪要语句关联的其他语句;在目标纪要语句对应的下拉框中显示目标纪要语句关联的其他语句;在新的悬浮窗口中显示目标纪要语句关联的其他语句;在待处理文本中突出显示目标纪要语句关联的其他语句。
本实施例中,显示关联的其他语句的方式可以是在目标纪要语句的下方显示其他语句。该显示方式例如可以是以分级目录的形式来显示预设纪要类别、目标纪要语句和其他语句。
或者,显示关联的其他语句的方式也可以是为目标纪要语句设置下拉框功能,以便在下拉框中显示其他语句。
或者,显示关联的其他语句的方式也可以是开启新的悬浮窗口,该悬浮窗口与目标纪要语句的显示位置之间具有可视化的关联关系,并在该悬浮窗口中显示其他语句。
或者,显示关联的其他语句的方式还可以是在待处理文本中突出显示其他语句。例如,会议场景下,用户点击目标纪要语句后,会议文本中以高亮或者区别于会议文本的字体/字号等形式突出显示关联的其他语句。这样能够使得用户在看到其他语句的同时,看到其上下文内容,进一步方便用户查找其感兴趣的内容。
本公开实施例提供的纪要处理方案,通过获取待处理文本中各预设纪要类别对应的纪要语句,并显示各预设纪要类别和相应预设纪要类别下的各纪要语句;响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。实现了多维度纪要的结构化展示,以及与纪要语句相关的细节语句的特别展示,使得用户能够更加便捷地定位感兴趣的文本内容。
图4为本公开实施例提供的一种纪要处理装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,可通过执行纪要处理方法来生成纪要。如图4所示,该装置包括:
文本获取模块410,用于获取待处理文本;
纪要语句确定模块420,用于基于预设纪要类别,对待处理文本进行纪要提取,确定出属于各预设纪要类别的纪要语句;
关联关系存储模块430,用于从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。
在一些实施例中,预设纪要类别包括任务规划类别、文本结论类别和文本主题类别中的至少一个。
在一些实施例中,纪要语句确定模块420具体用于:
对待处理文本中的每个语句进行向量化处理,确定相应语句的向量化结果;
将各向量化结果输入预先训练的文本识别模型,并根据模型输出结果确定出属于各预设纪要类别的纪要语句;其中,文本识别模型用于识别语句是否属于其中一个预设纪要类别。
在一些实施例中,文本识别模型为机器学习模型;机器学习模型的训练样本为多个包含类别指示词的语句,类别指示词用于指示语句所属的预设纪要类别。
在一些实施例中,纪要语句确定模块420具体用于:
基于预设纪要类别对应的类别指示词,对待处理文本进行文本匹配,并根据匹配结果确定出属于各预设纪要类别的纪要语句。
在一些实施例中,关联关系存储模块430具体用于:
基于所述待处理文本中各语句在文本中的位置和各所述纪要语句在所述待处理文本中的位置,确定与每个所述纪要语句对应的所述其他语句;和/或,
基于所述待处理文本中各语句的向量化结果和各所述纪要语句的向量化结果,确定与每个所述纪要语句对应的所述其他语句。
通过本公开实施例提供的一种纪要处理装置,能够按照预设纪要类别对待处理文本进行纪要提取,分别获得各预设纪要类别对应的纪要语句,实现了从多个维度提取文本纪要,提高了纪要对各种文本形式的兼容性和纪要的信息含量。并且,能够将待处理文本中剩余的其他语句与纪要语句相关联,实现了从纪要语句快速获知与其关联的其他文本内容,提高了待处理文本的查询效率。
图5为本公开实施例提供的另一种纪要处理装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,可通过执行纪要处理方法来显示纪要。如图5所示,该装置包括:
纪要语句获取模块510,用于获取待处理文本中各预设纪要类别对应的纪要语句,其中,纪要语句是按照各预设纪要类别对待处理文本进行纪要提取而获得;
纪要语句显示模块520,用于显示各预设纪要类别和相应预设纪要类别下的各纪要语句;
其他语句显示模块530,用于响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。
在一些实施例中,其他语句显示模块530具体用于:
若检测到用户对目标纪要语句的语句触发操作,则将语句触发操作对应的指令确定为关联显示指令。
在一些实施例中,其他语句显示模块530具体用于:
若检测到用户对目标纪要语句处的关联显示控件的控件触发操作,则将控件触发操作对应的指令确定为关联显示指令。
在一些实施例中,其他语句显示模块530还具体用于通过以下至少一种方式显示目标纪要语句关联的其他语句:
在目标纪要语句的下方显示目标纪要语句关联的其他语句;
在目标纪要语句对应的下拉框中显示目标纪要语句关联的其他语句;
在新的悬浮窗口中显示目标纪要语句关联的其他语句;
在待处理文本中突出显示目标纪要语句关联的其他语句。
通过本公开实施例提供的一种纪要处理装置,实现了多维度纪要的结构化展示,以及与纪要语句相关的细节语句的特别展示,使得用户能够更加便捷地定位感兴趣的文本内容。
本公开实施例所提供的纪要处理装置可执行本发明任意实施例所提供的相应的纪要处理方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述纪要处理装置的实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
图6为本公开实施例提供的一种电子设备的结构示意图。如图6所示,电子设备600包括一个或多个处理器601和存储器602。
处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备600中的其他组件以执行期望的功能。
存储器602可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器601可以运行程序指令,以实现上文所说明的本公开的实施例的纪要处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如纪要语句、其他语句、关联关系等各种内容。
在一个示例中,电子设备600还可以包括:输入装置603和输出装置604,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置603还可以包括例如键盘、鼠标等等。
该输出装置604可以向外部输出各种信息,包括待处理文本、确定出的纪要语句、关联的其他语句等。该输出装置604可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备600中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备600还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的纪要处理方法。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的纪要处理方法。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种纪要处理方法,其特征在于,包括:
获取待处理文本;
基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句;
从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述预设纪要类别包括任务规划类别、文本结论类别和文本主题类别中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句包括:
对所述待处理文本中的每个语句进行向量化处理,确定相应语句的向量化结果;
将各所述向量化结果输入预先训练的文本识别模型,并根据模型输出结果确定出属于各所述预设纪要类别的纪要语句;其中,所述文本识别模型用于识别所述语句是否属于其中一个预设纪要类别。
4.根据权利要求3所述的方法,其特征在于,所述文本识别模型为机器学习模型;所述机器学习模型的训练样本为多个包含类别指示词的语句,所述类别指示词用于指示语句所属的预设纪要类别。
5.根据权利要求1所述的方法,其特征在于,所述基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句包括:
基于所述预设纪要类别对应的类别指示词,对所述待处理文本进行文本匹配,并根据匹配结果确定出属于各所述预设纪要类别的纪要语句。
6.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本中确定与所述纪要语句相关联的其他语句包括:
基于所述待处理文本中各语句在文本中的位置和各所述纪要语句在所述待处理文本中的位置,确定与每个所述纪要语句对应的所述其他语句;和/或,
基于所述待处理文本中各语句的向量化结果和各所述纪要语句的向量化结果,确定与每个所述纪要语句对应的所述其他语句。
7.一种纪要处理方法,其特征在于,包括:
获取待处理文本中各预设纪要类别对应的纪要语句,其中,所述纪要语句是按照各所述预设纪要类别对所述待处理文本进行纪要提取而获得;
显示各所述预设纪要类别和相应预设纪要类别下的各所述纪要语句;
响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。
8.根据权利要求7所述的方法,其特征在于,所述检测到关联显示指令包括:
若检测到用户对所述目标纪要语句的语句触发操作,则将所述语句触发操作对应的指令确定为所述关联显示指令。
9.根据权利要求7所述的方法,其特征在于,所述检测到关联显示指令包括:
若检测到用户对所述目标纪要语句处的关联显示控件的控件触发操作,则将所述控件触发操作对应的指令确定为所述关联显示指令。
10.根据权利要求7所述的方法,其特征在于,所述显示所述目标纪要语句关联的所述其他语句包括以下至少一者:
在所述目标纪要语句的下方显示所述目标纪要语句关联的所述其他语句;
在所述目标纪要语句对应的下拉框中显示所述目标纪要语句关联的所述其他语句;
在新的悬浮窗口中显示所述目标纪要语句关联的所述其他语句;
在所述待处理文本中突出显示所述目标纪要语句关联的所述其他语句。
11.一种纪要处理装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
纪要语句确定模块,用于基于预设纪要类别,对所述待处理文本进行纪要提取,确定出属于各所述预设纪要类别的纪要语句;
关联关系存储模块,用于从所述待处理文本中确定与所述纪要语句相关联的其他语句,并存储各所述纪要语句与相应其他语句之间的关联关系。
12.一种纪要处理装置,其特征在于,包括:
纪要语句获取模块,用于获取待处理文本中各预设纪要类别对应的纪要语句,其中,所述纪要语句是按照各所述预设纪要类别对所述待处理文本进行纪要提取而获得;
纪要语句显示模块,用于显示各所述预设纪要类别和相应预设纪要类别下的各所述纪要语句;
其他语句显示模块,用于响应于检测到关联显示指令,基于所述关联显示指令对应的目标纪要语句、以及各所述纪要语句与所述待处理文本中其他语句之间的关联关系,显示所述目标纪要语句关联的所述其他语句。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6中任一所述的纪要处理方法或实现上述权利要求7-10中任一所述的纪要处理方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6中任一所述的纪要处理方法或实现上述权利要求7-10中任一所述的纪要处理方法。
CN202110180583.0A 2021-02-08 2021-02-08 纪要处理方法、装置、设备和存储介质 Pending CN112861510A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110180583.0A CN112861510A (zh) 2021-02-08 2021-02-08 纪要处理方法、装置、设备和存储介质
US18/276,208 US20240104302A1 (en) 2021-02-08 2022-02-07 Minutes processing method and apparatus, device, and storage medium
PCT/CN2022/075396 WO2022166962A1 (zh) 2021-02-08 2022-02-07 纪要处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110180583.0A CN112861510A (zh) 2021-02-08 2021-02-08 纪要处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112861510A true CN112861510A (zh) 2021-05-28

Family

ID=75989747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110180583.0A Pending CN112861510A (zh) 2021-02-08 2021-02-08 纪要处理方法、装置、设备和存储介质

Country Status (3)

Country Link
US (1) US20240104302A1 (zh)
CN (1) CN112861510A (zh)
WO (1) WO2022166962A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166962A1 (zh) * 2021-02-08 2022-08-11 北京字跳网络技术有限公司 纪要处理方法、装置、设备和存储介质
WO2023124648A1 (zh) * 2021-12-30 2023-07-06 科大讯飞股份有限公司 一种文本纪要生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112931A (ja) * 1998-10-08 2000-04-21 Toshiba Corp インテリジェント会議サポートシステム
CN106875157A (zh) * 2017-02-15 2017-06-20 超锐创新(北京)科技有限公司 会议处理方法和装置
CN110019744A (zh) * 2018-08-17 2019-07-16 深圳壹账通智能科技有限公司 辅助生成会议纪要的方法、装置、设备及计算机存储介质
CN111666746A (zh) * 2020-06-05 2020-09-15 中国银行股份有限公司 会议纪要的生成方法及装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861510A (zh) * 2021-02-08 2021-05-28 北京字跳网络技术有限公司 纪要处理方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000112931A (ja) * 1998-10-08 2000-04-21 Toshiba Corp インテリジェント会議サポートシステム
CN106875157A (zh) * 2017-02-15 2017-06-20 超锐创新(北京)科技有限公司 会议处理方法和装置
CN110019744A (zh) * 2018-08-17 2019-07-16 深圳壹账通智能科技有限公司 辅助生成会议纪要的方法、装置、设备及计算机存储介质
CN111666746A (zh) * 2020-06-05 2020-09-15 中国银行股份有限公司 会议纪要的生成方法及装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022166962A1 (zh) * 2021-02-08 2022-08-11 北京字跳网络技术有限公司 纪要处理方法、装置、设备和存储介质
WO2023124648A1 (zh) * 2021-12-30 2023-07-06 科大讯飞股份有限公司 一种文本纪要生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20240104302A1 (en) 2024-03-28
WO2022166962A1 (zh) 2022-08-11

Similar Documents

Publication Publication Date Title
Belinkov et al. Analysis methods in neural language processing: A survey
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
Stamatatos et al. Automatic authorship attribution
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
US9251248B2 (en) Using context to extract entities from a document collection
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110597952A (zh) 信息处理方法、服务器及计算机存储介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
US10417338B2 (en) External resource identification
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN108920450B (zh) 一种基于电子设备的知识点复习方法及电子设备
US20240104302A1 (en) Minutes processing method and apparatus, device, and storage medium
CN110909531A (zh) 信息安全的甄别方法、装置、设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN113392195A (zh) 舆情监测方法及装置、电子设备及存储介质
CN114116736A (zh) 知识库更新、更新验证和基于知识库的搜索方法及装置
CN111008519A (zh) 阅读页面的展示方法、电子设备及计算机存储介质
CN115759048A (zh) 一种剧本文本处理方法及装置
CN115113967A (zh) 问题反馈方法和装置、电子设备及存储介质
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination