CN112732896A - 目标信息显示方法、装置、电子设备和介质 - Google Patents

目标信息显示方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN112732896A
CN112732896A CN202011633709.7A CN202011633709A CN112732896A CN 112732896 A CN112732896 A CN 112732896A CN 202011633709 A CN202011633709 A CN 202011633709A CN 112732896 A CN112732896 A CN 112732896A
Authority
CN
China
Prior art keywords
weight
word
target
sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011633709.7A
Other languages
English (en)
Other versions
CN112732896B (zh
Inventor
裴宏悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happy Life Technology Co ltd
Original Assignee
Tianjin Happy Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happy Life Technology Co ltd filed Critical Tianjin Happy Life Technology Co ltd
Priority to CN202011633709.7A priority Critical patent/CN112732896B/zh
Publication of CN112732896A publication Critical patent/CN112732896A/zh
Application granted granted Critical
Publication of CN112732896B publication Critical patent/CN112732896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种目标信息显示方法、装置、电子设备和计算机可读存储介质,涉及信息处理领域。其中,目标信息显示方法包括:基于注意力机制的权重模型的第一层模型,确定词向量表示的第一权重;基于词向量表示的第一权重,将多个词向量表示处理为对应的语句向量表示;基于权重模型的第二层模型,确定语句向量表示的第二权重;将第二权重大于第一阈值的语句向量表示对应的原始文本中的语句文本配置为目标语句序列;将第一权重大于第二阈值的词向量表示对应的目标语句序列中的词文本配置为目标词序列;对目标语句序列和/或目标词序列进行突出显示。通过本公开的技术方案,能够提高关键信息提取的准确性,以提升辅助用户阅读的效果。

Description

目标信息显示方法、装置、电子设备和介质
技术领域
本公开涉及信息处理领域,尤其涉及一种目标信息显示方法、装置、电子设备和计算机可读存储介质。
背景技术
关键词句的高亮显示,是指为了让读者通过阅读文章部分文字,了解全篇的关键信息。将这些起到关键作用的文字高亮显示,引导读者将注意力放到高亮的文字上,从而更快的获取想要的关键信息。
相关技术中,在已知关键词的前提下,通过全文搜索关键词,对关键词进行定位,并将关键词前后的内容确定为整片文章的主要内容,并进行高亮,但存在以下缺陷:
由于通常通过阅读大量文章才能确定关键词,因此具体的关键词内容和关键词数量较难确定,导致得到的关键信息的准确率低,效果差。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种目标信息显示方法、装置、电子设备和计算机可读存储介质,至少在一定程度上克服相关技术中关键信息提取的准确率低,效果差的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种目标信息显示方法,包括:将原始文本处理为多个词向量表示;基于注意力机制的权重模型的第一层模型,确定所述词向量表示的第一权重;基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示;基于所述权重模型的第二层模型,确定所述语句向量表示的第二权重;将所述第二权重大于第一阈值的所述语句向量表示对应的所述原始文本中的语句文本配置为目标语句序列;将所述第一权重大于第二阈值的所述词向量表示对应的所述目标语句序列中的词文本配置为目标词序列;在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示。
在一个实施例中,所述将原始文本处理为多个词向量表示包括:基于分割符号对所述原始文本进行切分,生成多个句序列;对所述句序列进行分词处理,生成多个词序列;将所述词序列转化为所述词向量表示;以及对所述句序列和所述词序列在所述原始文本中的位置进行标注,生成位置标注信息。
在一个实施例中,所述将所述词序列转化为所述词向量表示包括:基于独热编码将所述词序列转换为所述词向量表示。
在一个实施例中,所述基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示包括:将每个所述词向量表示与对应的所述第一权重相乘,得到第一乘积向量;对多个所述第一乘积向量进行求和,得到所述语句向量表示。
在一个实施例中,还包括:基于所述权重模型的第二层模型输出所述原始文本的分类标签。
在一个实施例中,所述基于所述权重模型的第二层模型输出所述原始文本的分类标签包括:将每个所述语句向量表示与对应的所述第二权重相乘,得到第二乘积向量;对多个所述第二乘积向量进行求和,得到文本向量表示;基于所述文本向量表示对所述原始文本进行分类,以根据分类结果得到所述分类标签。
在一个实施例中,所述基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列包括:将所述第二权重大于第一阈值的所述语句向量表示确定为目标语句向量;基于所述目标语句向量提取所述原始文本中的所述目标语句序列;将所述第一权重大于第二阈值的所述词向量表示确定为目标词向量;基于所述目标词向量提取所述目标语句序列中的所述目标词序列。
在一个实施例中,所述在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示包括:对所述目标语句序列和所述目标词序列进行突出显示,包括:从所述位置标注信息中提取所述目标语句序列的第一位置标注信息,以及所述目标词序列的第二位置标注信息,基于所述第一位置标注信息与所述第二位置标注信息确定所述原始文本中的突出显示位置,以基于所述突出显示位置进行突出显示。
在一个实施例中,在将原始文本处理为多个词向量表示之前,还包括:将已打标签的训练文本输入分层注意力机制的神经网络模型;基于所述神经网络模型输出的预测标签与所述已打标签之间的误差,对所述神经网络模型的参数进行迭代训练,直至所述误差减小至小于或等于误差阈值,其中,所述神经网络的参数包括所述第一权重与所述第二权重。
在一个实施例中,所述训练文本被处理为训练词向量,所述基于所述神经网络模型输出的预测标签与所述已打标签之间的误差,对所述神经网络模型的参数进行迭代训练包括:对每个所述训练词向量的权重进行第一初始赋值基于所述第一初始赋值,将所述多个训练词向量处理为对应的训练语句向量;对每个所述训练语句向量的权重进行第二初始赋值;基于所述第二初始赋值,将所述多个训练语句向量处理为对应的训练文本向量;对所述训练文本向量进行分类预测,以输出所述预测标签;基于预测标签与所述已打标签之间的误差,对所述词向量的权重与所述训练语句向量的权重进行迭代更新,直至所述误差减小至小于或等于所述误差阈值,以基于所述迭代更新的结果得到所述第一权重与所述第二权重。
根据本公开的另一个方面,提供一种目标信息显示装置,包括:第一处理模块,用于将原始文本处理为多个词向量表示;第一确定模块,用于基于注意力机制的权重模型的第一层模型,确定所述词向量表示的第一权重;第二处理模块,用于基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示;第二确定模块,用于基于所述权重模型的第二层模型,确定所述语句向量表示的第二权重;提取模块,用于基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列;显示模块,用于在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示。
根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的目标信息显示方法。
根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的目标信息显示方法。
本公开的实施例所提供的目标信息显示方案,当接收到没有标签的原始文本时,通过学到的权重模型,得到原始文本中的语句的第二权重,以及词语的第一权重,并基于第二权重与第一阈值的关系,确定目标语句序列,以及目标语句序列中第一权重与第二阈值的关系,确定目标语句中包括的目标词,基于目标语句和/或目标词,得到关键词句,关键词句即文本中权重较高的句子,及权重高的句子中,权重较高的单词,通过对目标语句序列和/或所述目标词序进行突出显示,得到重新显示的文本,从而能够提高关键信息提取的准确性,以提升辅助用户阅读的效果,进而提升突出显示对用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开实施例中一种目标信息显示系统结构的示意图;
图2示出本公开实施例中一种目标信息显示方法的流程图;
图3示出本公开实施例中另一种目标信息显示方法的流程图;
图4示出本公开实施例中再一种目标信息显示方法的流程图;
图5示出本公开实施例中又一种目标信息显示方法的流程图;
图6示出本公开实施例中又一种目标信息显示方法的流程图;
图7示出本公开实施例中训练模型的示意图;
图8示出本公开实施例中一种目标信息显示方案的示意图;
图9示出本公开实施例中一种目标信息显示装置的示意图;
图10示出本公开实施例中一种电子设备的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本申请提供的方案,通过对提取出的目标语句序列和/或所述目标词序列进行突出显示,得到重新显示的文本,从而能够提高关键信息提取的准确性,以提升辅助用户阅读的效果,进而提升突出显示对用户的使用体验。
为了便于理解,下面首先对本申请涉及到的几个名词进行解释。
注意力机制:指神经网络中的注意力机制,神经网络在处理输入数据时,会根据输入数据对结果的重要性,给予对结果重要的部分更高的权重。是一种模仿人类利用有限的注意力资源从大量信息中筛选出高价值信息的手段。
关键词句:在一篇文章中,并不是所有的内容,都是读者感兴趣的。根据读者的目的不同,对同一篇文章感兴趣的部分也会不同。关键词句就是指,针对特定的目的,寻找出文章中对该目的起较重要的句子,以及这些重要的句子中的重点单词。
训练数据:数据挖掘过程中用于模型构建的数据。一般要求样本尽可能大、种类多样化,数据质量尽可能高。
神经网络模型:一种由数学方法模拟人类神经网络的结构。由大量的、简单的神经元广泛互连而形成的复杂网络系统,能反应人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。
分词:将连续的字符序列按照一定的规范重新组合成词序列的过程,并且词序列中的每个词都有实际意义。
独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效,即只有一个比特是1,其余全是0。
Word embedding指将词汇表里的单词映射到实数的向量,把每个单词从一定维度的空间映射到具有更低维度的连续向量空间的数学嵌入。
本申请实施例提供的方案涉及信息处理与模型训练等技术,具体通过如下实施例进行说明。
图1示出本公开实施例中一种目标信息显示系统的结构示意图,包括多个终端120和服务器集群140。
终端120可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、智能家居设备、AR(Augmented Reality,增强现实)设备、VR(Virtual Reality,虚拟现实)设备等移动终端,或者,终端120也可以是个人计算机(Personal Computer,PC),比如膝上型便携计算机和台式计算机等等。
其中,终端120中可以安装有用于提供的目标信息显示的应用程序。
终端120与服务器集群140之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
服务器集群140是一台服务器,或者由若干台服务器组成,或者是一个虚拟化平台,或者是一个云计算服务中心。服务器集群140用于为提供目标信息显示应用程序提供后台服务。可选地,服务器集群140承担主要计算工作,终端120承担次要计算工作;或者,服务器集群140承担次要计算工作,终端120承担主要计算工作;或者,终端120和服务器集群140之间采用分布式计算架构进行协同计算。
在一些可选的实施例中,服务器集群140用于存储目标信息显示模型等。
可选地,不同的终端120中安装的应用程序的客户端是相同的,或两个终端120上安装的应用程序的客户端是不同控制系统平台的同一类型应用程序的客户端。基于终端平台的不同,该应用程序的客户端的具体形态也可以不同,比如,该应用程序客户端可以是手机客户端、PC客户端或者全球广域网(World Wide Web,Web)客户端等。
本领域技术人员可以知晓,上述终端120的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
可选的,该系统还可以包括管理设备(图1未示出),该管理设备与服务器集群140之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(ExtensibleMarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(InternetProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
下面,将结合附图及实施例对本示例实施方式中的目标信息显示方法中的各个步骤进行更详细的说明。
图2示出本公开实施例中一种目标信息显示方法流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的终端120和/或服务器集群140。在下面的举例说明中,以终端120为执行主体进行示例说明。
如图2所示,终端120执行目标信息显示方法,包括以下步骤:
步骤S202,将原始文本处理为多个词向量表示。
其中,原始文本为不具有文本标签的,需要将关键词句,即目标信息进行突出显示的文本。
词向量表示即将原始文本中的单词或短语被映射到实数的向量。
步骤S204,基于注意力机制的权重模型的第一层模型,确定词向量表示的第一权重。
其中,权重模型为基于神经网络模型训练的用于确定每个词向量的第一权重的模型。
具体地,权重模型可以为对采用分层注意力机制的神经网络模型进行训练生成的模型,分层注意力机制包括第一层与第二层,其中,第一层用于输出词向量表示的第一权重。
步骤S206,基于词向量表示的第一权重,将多个词向量表示处理为对应的语句向量表示。
其中,在得到每个词向量表示的第一权重后,将属于一个语句中的多个词向量表示处理为该语句的语句向量表示,属于一个语句中的毒攻额词向量的第一权重之和为1。
步骤S208,基于权重模型的第二层模型,确定语句向量表示的第二权重。
其中,分层注意力机制的第二层用于输出语句向量表示的第二权重。原始文本中所有语句的第二权重之和为1。
步骤S210,基于第二权重提取原始文本中的目标语句序列,以及基于第一权重提取目标语句序列中的目标词序列。
在一个实施例中,步骤S210,基于第二权重提取原始文本中的目标语句序列,以及基于第一权重提取目标语句序列中的目标词序列的一种实现方式,包括:
将第二权重大于第一阈值的语句向量表示确定为目标语句向量。
基于目标语句向量提取原始文本中的目标语句序列,即将目标语句向量对应的原始文本中的语句文本配置为目标语句序列。
将第一权重大于第二阈值的词向量表示确定为目标词向量。
基于目标词向量提取目标语句序列中的目标词序列,将目标词向量对应的目标语句序列中的词文本配置为目标词序列。
其中,采用第一阈值作为是否进行语句突出显示的临界值,目标语句序列为关键词句中的语句。
采用第二阈值作为对显示的语句中的词语是否突出显示的临界值,目标词序列为关键词句中的词语。
步骤S212,在原始文本中,对目标语句序列和/或目标词序列进行突出显示。
其中,突出显示,可以将目标语句序列和/或目标词序列配置为与文本中的其它语句不同的颜色,或将目标语句序列和/或目标词序列配置为与文本中的其它语句不同的字体,或将目标语句序列和/或目标词序列进行加粗、倾斜、添加下划线设置等。
在该实施例中,当接收到没有标签的原始文本时,通过学到的权重模型,得到原始文本中的语句的第二权重,以及词语的第一权重,并基于第二权重与第一阈值的关系,确定目标语句序列,以及目标语句序列中第一权重与第二阈值的关系,确定目标语句中包括的目标词,基于目标语句和/或目标词,得到关键词句,关键词句即文本中权重较高的句子,及权重高的句子中,权重较高的单词,通过对目标语句序列和/或目标词序列进行突出显示,得到重新显示的文本,从而能够提高关键信息提取的准确性,以提升辅助用户阅读的效果,进而提升突出显示对用户的使用体验。
在一个实施例中,步骤S202,将原始文本处理为多个词向量表示的一种具体实现方式,包括:
步骤S302,基于分割符号对原始文本进行切分,生成多个句序列。
步骤S304,对句序列进行分词处理,生成多个词序列。
具体地,首先将输入的原始文本切分成不同的句子,可以将句号等标点作为分割符号。
然后使用分词工具将每句话进行分词,并根据需要添加停用词及自定义词典,以将每个句序列划分为多个词序列。
步骤S306,将词序列转化为词向量表示。
具体地,步骤S306,将词序列转化为词向量表示的一种具体实现方式,包括:
基于独热编码将词序列转换为稀疏向量;以及
基于词嵌入的处理方式将稀疏向量转化为词向量表示。
具体地,基于独热编码one-hot encoding生成的稀疏向量能够对每个词语进行向量表示,但无法表示出词语的意义以及与其它词语的关系,词嵌入word embedding将one-hot encoding的向量映射到一个新的空间,得到对应的词向量表示,在这个空间里,表示近似含义的单词会更加接近彼此,因此向量间的相似度也更有意义。
步骤S308,对句序列和词序列在原始文本中的位置进行标注,生成位置标注信息。
其中,同时要记录句序列和词序列在原文中的具体位置。
在该实施例中,通过对原始文本进行预处理,先得到语句序列,再得到词序列,以进一步将词序列转化为词向量,便于执行模型训练得到权重模型,从而能够通过具有注意力机制的权重模型得到每个词向量的第一权重。
如图4所示,在一个实施例中,步骤S206,基于词向量表示的第一权重,将多个词向量表示处理为对应的语句向量表示的一种具体实现方式,包括:
步骤S402,将每个词向量表示与对应的第一权重相乘,得到第一乘积向量。
步骤S404,对多个第一乘积向量进行求和,得到语句向量表示。
在一个实施例中,基于权重模型确定第一权重值和第二权重值后,还包括:基于权重模型的第二层模型输出原始文本的分类标签。
如图4所示,在一个实施例中,基于权重模型的第二层模型输出原始文本的分类标签包括:
步骤S406,将每个语句向量表示与对应的第二权重相乘,得到第二乘积向量。
步骤S408,对多个第二乘积向量进行求和,得到文本向量表示。
步骤S410,基于文本向量表示对原始文本进行分类,以根据分类结果得到分类标签。
在该实施例中,在确定每个语句中的单词对应的词向量的第一权重后,然后根据每个单词的权重乘个字单词的向量并求和,得到语句的向量化表示,在得到每个语句向量表示的第二权重后,将每个语句向量的权重乘以各自的语句向量并求和,最终得到整个原始文本的文本向量表示。
具体地,权重模型中还包括分类器,基于权重模型中的分类器对文本向量表示进行分类,得到原始文本的分类标签,以基于分类标签确定文章的类型,在用户基于对目标语句序列和/或目标词序列重点关注的前提下阅读文本时,基于阅读结果判断输出的分类标签是否正确,以在检测到存在误差时,通过反馈继续优化权重模型,有利于进一步提升关键信息提取的准确性。
在一个实施例中,在原始文本中,对目标语句序列和/或目标词序列进行突出显示包括:对目标语句序列和目标词序列进行突出显示。
如图5所示,具体地,对目标语句序列和目标词序列进行突出显示的一种实现方式,包括:
步骤S502,从位置标注信息中提取目标语句序列的第一位置标注信息,以及目标词序列的第二位置标注信息。
步骤S504,基于第一位置标注信息与第二位置标注信息确定原始文本中的突出显示位置,以基于突出显示位置进行突出显示。
在该实施例中,通过得到位置标志信息,基于位置标注信息对目标语句序列以及目标词序列在原始文本总的位置进行定位,以确定突出显示位置,从而基于突出显示位置实现突出显示,以辅助用户将注意力集中在突出显示的部分。
如图6所示,在一个实施例中,在步骤S202,将原始文本处理为多个词向量表示之前,还包括:
步骤S602,将已打标签的训练文本输入分层注意力机制的神经网络模型。
其中,在执行模型训练之前,通过基于读者目的对每篇文本打标签,得到已打标签的训练文本。
在步骤S602之后,继续执行:基于神经网络模型输出的预测标签与已打标签之间的误差,对神经网络模型的参数进行迭代训练,直至误差减小至小于或等于误差阈值,其中,神经网络的参数包括第一权重与第二权重。
其中,神经网络模型采用分层注意力机制,第一层通过学习每个单词的权重,对句子进行向量化表示。第二层通过学习每个句子的权重,对文本进行向量化表示,并通过文本向量获得最终的标签。根据句子的权重和单词的权重,判断的对结果影响较大的关键词句。
具体地,基于神经网络模型输出的预测标签与已打标签之间的误差,对神经网络模型的参数进行迭代训练的一种实现方式,包括:
步骤S604,训练文本被处理为训练词向量,对每个训练词向量的权重进行第一初始赋值基于第一初始赋值,将多个训练词向量处理为对应的训练语句向量。
步骤S606,对每个训练语句向量的权重进行第二初始赋值。
步骤S608,基于第二初始赋值,将多个训练语句向量处理为对应的训练文本向量。
步骤S610,对训练文本向量进行分类预测,以输出预测标签。
步骤S612,基于预测标签与已打标签之间的误差,对词向量的权重与训练语句向量的权重进行迭代更新,直至误差减小至小于或等于误差阈值,以基于迭代更新的结果得到第一权重与第二权重。
如图7所示,将通过分词处理得到的第二语句S2的T个词序列702,包括ω21、ω22以及ω2T等输入词编码器704采用one-hot的形式表示每个单词,通过word embedding技术,使词编码器输出词向量表示,采用权重分配模块Uω706随机给每个词向量表示一定的权重,包括α21、α22以及α2T等,其中,一个语句中所有单词权重和为1,根据每个单词的权重乘个字单词的向量并求和,得到S1、S2以及SL等,即一个文本中有L个语句,通过语句编码器708得到语句向量表示,采用权重分配模块US710每个句子赋予一定的权重,包括α1、α2以及αL等,将每个句子的权重乘以各自的句子向量并求和,得到整个文本的向量化表示v712,经过分类器714输出文本标签。
当有了文本向量表示表示后,就可以用分类器对文章进行分类,再通过分类结果和实际结果的误差,进行权重及各种参数的更新。反复多次迭代后,即可得到可用的权重模型。
如图8所示,根据本公开的一个实施例的目标信息显示方案,包括:
将不含标签的原始文本802输入基于分层注意力机制的权重模型804,输出原始文本802中每个语句的第二权重8022,以及每个语句中单词的第一权重8024,以及原始文本的分类标签806,并基于每个语句的第二权重8022以及每个语句中单词的第一权重8024,生成包含突出显示文本的更新文本808。
其中,权重模型804基于对采用分层注意力机制的神经网络模型810训练生成。
通过设置第一阈值8122和第二阈值8124,基于第二权重与第一阈值之间的关系,第一权重与第二阈值之间的关系确定突出显示文本。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的目标信息显示装置900。图9所示的目标信息显示装置900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
目标信息显示装置900以硬件模块的形式表现。目标信息显示装置900的组件可以包括但不限于:第一处理模块902,用于将原始文本处理为多个词向量表示;第一确定模块904,用于基于注意力机制的权重模型的第一层模型,确定词向量表示的第一权重;第二处理模块906,用于基于词向量表示的第一权重,将多个词向量表示处理为对应的语句向量表示;第二确定模块908,用于基于权重模型的第二层模型,确定语句向量表示的第二权重;提取模块910,用于基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列;显示模块912,用于在原始文本中,对目标语句序列和/或目标词序列进行突出显示。
在一个实施例中,第一处理模块902还用于:基于分割符号对原始文本进行切分,生成多个句序列;对句序列进行分词处理,生成多个词序列;将词序列转化为词向量表示;以及对句序列和词序列在原始文本中的位置进行标注,生成位置标注信息。
在一个实施例中,第一处理模块902还用于:基于独热编码将词序列转换为数字向量;基于词嵌入的方式将数字向量配置为词向量表示。
在一个实施例中,第二处理模块906还用于:将每个词向量表示与对应的第一权重相乘,得到第一乘积向量;对多个第一乘积向量进行求和,得到语句向量表示。
在一个实施例中,还包括:输出模块916,用于基于权重模型的第二层模型输出原始文本的分类标签。
在一个实施例中,输出模块916还用于:将每个语句向量表示与对应的第二权重相乘,得到第二乘积向量;对多个第二乘积向量进行求和,得到文本向量表示;基于文本向量表示对原始文本进行分类,以根据分类结果得到分类标签。
在一个实施例中,提取模块910还用于:将第二权重大于第一阈值的语句向量表示确定为目标语句向量;基于目标语句向量提取原始文本中的目标语句序列;将第一权重大于第二阈值的词向量表示确定为目标词向量;基于目标词向量提取目标语句序列中的目标词序列。
在一个实施例中,显示模块912还用于:对目标语句序列和目标词序列进行突出显示,包括:从位置标注信息中提取目标语句序列的第一位置标注信息,以及目标词序列的第二位置标注信息,基于第一位置标注信息与第二位置标注信息确定原始文本中的突出显示位置,以基于突出显示位置进行突出显示。
在一个实施例中,还包括:训练模块914,用于将已打标签的训练文本输入分层注意力机制的神经网络模型;基于神经网络模型输出的预测标签与已打标签之间的误差,对神经网络模型的参数进行迭代训练,直至误差减小至小于或等于误差阈值,其中,神经网络的参数包括第一权重与第二权重。
在一个实施例中,训练文本被处理为训练词向量,训练模块914还用于:对每个训练词向量的权重进行第一初始赋值基于第一初始赋值,将多个训练词向量处理为对应的训练语句向量;对每个训练语句向量的权重进行第二初始赋值;基于第二初始赋值,将多个训练语句向量处理为对应的训练文本向量;对训练文本向量进行分类预测,以输出预测标签;基于预测标签与已打标签之间的误差,对词向量的权重与训练语句向量的权重进行迭代更新,直至误差减小至小于或等于误差阈值,以基于迭代更新的结果得到第一权重与第二权重。
下面参照图10来描述根据本发明的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。
其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元1010可以执行如图2中所示的步骤S202、S204至S214,以及本公开的目标信息显示方法中限定的其他步骤。
存储单元1020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202,还可以进一步包括只读存储单元(ROM)10203。
存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204,这样的程序模块10205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1000也可以与一个或多个外部设备1060(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,电子设备1000还可以通过网络适配器1050与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1050通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (13)

1.一种目标信息显示方法,其特征在于,包括:
将原始文本处理为多个词向量表示;
基于注意力机制的权重模型的第一层模型,确定所述词向量表示的第一权重;
基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示;
基于所述权重模型的第二层模型,确定所述语句向量表示的第二权重;
基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列;
在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示。
2.根据权利要求1所述的目标信息显示方法,其特征在于,所述将原始文本处理为多个词向量表示包括:
基于分割符号对所述原始文本进行切分,生成多个句序列;
对所述句序列进行分词处理,生成多个词序列;
将所述词序列转化为所述词向量表示;以及
对所述句序列和所述词序列在所述原始文本中的位置进行标注,生成位置标注信息。
3.根据权利要求2所述的目标信息显示方法,其特征在于,所述将所述词序列转化为所述词向量表示包括:
基于独热编码将所述词序列转换为稀疏向量;
基于词嵌入的处理方式将所述稀疏向量转化为所述词向量表示。
4.根据权利要求1所述的目标信息显示方法,其特征在于,所述基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示包括:
将每个所述词向量表示与对应的所述第一权重相乘,得到第一乘积向量;
对多个所述第一乘积向量进行求和,得到所述语句向量表示。
5.根据权利要求1所述的目标信息显示方法,其特征在于,还包括:
基于所述权重模型的第二层模型输出所述原始文本的分类标签。
6.根据权利要求5所述的目标信息显示方法,其特征在于,所述基于所述权重模型的第二层模型输出所述原始文本的分类标签包括:
将每个所述语句向量表示与对应的所述第二权重相乘,得到第二乘积向量;
对多个所述第二乘积向量进行求和,得到文本向量表示;
基于所述文本向量表示对所述原始文本进行分类,以根据分类结果得到所述分类标签。
7.根据权利要求1所述的目标信息显示方法,其特征在于,所述基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列包括:
将所述第二权重大于第一阈值的所述语句向量表示确定为目标语句向量;
基于所述目标语句向量提取所述原始文本中的所述目标语句序列;
将所述第一权重大于第二阈值的所述词向量表示确定为目标词向量;
基于所述目标词向量提取所述目标语句序列中的所述目标词序列。
8.根据权利要求2所述的目标信息显示方法,其特征在于,所述在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示包括:
对所述目标语句序列和所述目标词序列进行突出显示,包括:
从所述位置标注信息中提取所述目标语句序列的第一位置标注信息,以及所述目标词序列的第二位置标注信息;
基于所述第一位置标注信息与所述第二位置标注信息确定所述原始文本中的突出显示位置,以基于所述突出显示位置进行突出显示。
9.根据权利要求1至8中任一项所述的目标信息显示方法,其特征在于,在将原始文本处理为多个词向量表示之前,还包括:
将已打标签的训练文本输入分层注意力机制的神经网络模型;
基于所述神经网络模型输出的预测标签与所述已打标签之间的误差,对所述神经网络模型的参数进行迭代训练,直至所述误差减小至小于或等于误差阈值,
其中,所述神经网络的参数包括所述第一权重与所述第二权重。
10.根据权利要求9所述的目标信息显示方法,其特征在于,所述训练文本被处理为训练词向量,所述基于所述神经网络模型输出的预测标签与所述已打标签之间的误差,对所述神经网络模型的参数进行迭代训练包括:
对每个所述训练词向量的权重进行第一初始赋值;
基于所述第一初始赋值,将所述多个训练词向量处理为对应的训练语句向量;
对每个所述训练语句向量的权重进行第二初始赋值;
基于所述第二初始赋值,将所述多个训练语句向量处理为对应的训练文本向量;
对所述训练文本向量进行分类预测,以输出所述预测标签;
基于预测标签与所述已打标签之间的误差,对所述词向量的权重与所述训练语句向量的权重进行迭代更新,直至所述误差减小至小于或等于所述误差阈值,以基于所述迭代更新的结果得到所述第一权重与所述第二权重。
11.一种目标信息显示装置,其特征在于,包括:
第一处理模块,用于将原始文本处理为多个词向量表示;
第一确定模块,用于基于注意力机制的权重模型的第一层模型,确定所述词向量表示的第一权重;
第二处理模块,用于基于所述词向量表示的第一权重,将所述多个词向量表示处理为对应的语句向量表示;
第二确定模块,用于基于所述权重模型的第二层模型,确定所述语句向量表示的第二权重;
提取模块,用于基于所述第二权重提取所述原始文本中的目标语句序列,以及基于所述第一权重提取所述目标语句序列中的目标词序列;
显示模块,用于在所述原始文本中,对所述目标语句序列和/或所述目标词序列进行突出显示。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~10中任意一项所述的目标信息显示方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~10中任意一项所述的目标信息显示方法。
CN202011633709.7A 2020-12-31 2020-12-31 目标信息显示方法、装置、电子设备和介质 Active CN112732896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633709.7A CN112732896B (zh) 2020-12-31 2020-12-31 目标信息显示方法、装置、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633709.7A CN112732896B (zh) 2020-12-31 2020-12-31 目标信息显示方法、装置、电子设备和介质

Publications (2)

Publication Number Publication Date
CN112732896A true CN112732896A (zh) 2021-04-30
CN112732896B CN112732896B (zh) 2023-04-07

Family

ID=75608556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633709.7A Active CN112732896B (zh) 2020-12-31 2020-12-31 目标信息显示方法、装置、电子设备和介质

Country Status (1)

Country Link
CN (1) CN112732896B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114910A (zh) * 2022-04-01 2022-09-27 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
US20200004823A1 (en) * 2018-06-30 2020-01-02 Wipro Limited Method and device for extracting point of interest from natural language sentences
CN110781669A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 文本关键信息提取方法与装置、电子设备、存储介质
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN111125354A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 文本分类方法及装置
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质
CN111985229A (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 一种序列标注方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200004823A1 (en) * 2018-06-30 2020-01-02 Wipro Limited Method and device for extracting point of interest from natural language sentences
CN110852110A (zh) * 2018-07-25 2020-02-28 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN111125354A (zh) * 2018-10-31 2020-05-08 北京国双科技有限公司 文本分类方法及装置
CN110033022A (zh) * 2019-03-08 2019-07-19 腾讯科技(深圳)有限公司 文本的处理方法、装置和存储介质
CN111985229A (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 一种序列标注方法、装置及计算机设备
CN110781669A (zh) * 2019-10-24 2020-02-11 泰康保险集团股份有限公司 文本关键信息提取方法与装置、电子设备、存储介质
CN111241304A (zh) * 2020-01-16 2020-06-05 平安科技(深圳)有限公司 基于深度学习的答案生成方法、电子装置及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114910A (zh) * 2022-04-01 2022-09-27 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品
CN115114910B (zh) * 2022-04-01 2024-04-02 腾讯科技(深圳)有限公司 文本处理方法、装置、设备、存储介质及产品

Also Published As

Publication number Publication date
CN112732896B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN111090987B (zh) 用于输出信息的方法和装置
US10275712B2 (en) Automatic data interpretation and answering analytical questions with tables and charts
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US20220300546A1 (en) Event extraction method, device and storage medium
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN113434642B (zh) 文本摘要生成方法、装置及电子设备
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN115757731A (zh) 对话问句改写方法、装置、计算机设备及存储介质
CN112732896B (zh) 目标信息显示方法、装置、电子设备和介质
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN113239799A (zh) 训练方法、识别方法、装置、电子设备和可读存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN111968624A (zh) 数据构建方法、装置、电子设备及存储介质
CN113569929A (zh) 基于小样本扩展的互联网服务提供方法、装置及电子设备
CN114490969A (zh) 基于表格的问答方法、装置以及电子设备
CN117131152B (zh) 信息存储方法、装置、电子设备和计算机可读介质
CN114385814A (zh) 一种信息检索的方法、装置、计算机设备及存储介质
CN116562232A (zh) 词向量处理方法及装置、存储介质及电子设备
CN115455954A (zh) 一种文本摘要生成方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant