CN113268953A - 文本重点词抽取方法、装置、计算机设备及存储介质 - Google Patents

文本重点词抽取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113268953A
CN113268953A CN202110798630.8A CN202110798630A CN113268953A CN 113268953 A CN113268953 A CN 113268953A CN 202110798630 A CN202110798630 A CN 202110798630A CN 113268953 A CN113268953 A CN 113268953A
Authority
CN
China
Prior art keywords
text
word
sub
key
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110798630.8A
Other languages
English (en)
Inventor
侯晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110798630.8A priority Critical patent/CN113268953A/zh
Publication of CN113268953A publication Critical patent/CN113268953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种文本重点词抽取方法、装置、计算机设备及存储介质,包括:通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本;根据所述目标重点词询问文本和待抽取文本生成输入文本序列;通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量;根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列;通过全连接层根据所述表征序列抽取重点词。本发明能够提高文本中的重点词的抽取准确率。

Description

文本重点词抽取方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种文本重点词抽取方法、装置、计算机设备及存储介质。
背景技术
在可视化交流中很大程度依赖图片和短文本,不论是传单、广告还是社交帖子,通常都是进行了特别的设计来让图片或文本的某些部位与众不同,让这些部位和其余部位有差异,以达到高效地抓住用户的注意力并传递想表达的信息。
发明人在实现本发明的过程中发现,现有技术是通过关键词抽取的方法来抽取重点词,但关键词抽取的方法主要是抽取一些重要的名词或名词短语,而社交媒体文本通常是一些短文本,重点词主要是一些带有情感的形容词,用来表达情感、对照、捕获读者的兴趣或者呈现一些信息,因而,通过关键词抽取的方式抽取社交媒体文本中的重点词,效果较差,重点词抽取的准确度较低。
发明内容
鉴于以上内容,有必要提出一种文本重点词抽取方法、装置、计算机设备及存储介质,重点词抽取的准确度较高。
本发明的第一方面提供一种文本重点词抽取方法,所述方法包括:
通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本;
根据所述目标重点词询问文本和待抽取文本生成输入文本序列;
通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量;
根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列;
通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
根据本发明的一个可选的实施例,所述根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列包括:
将第一个子词对应的表征向量确定为所述第一个子词的token;
计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值得到所述后一个子词的token;
计算每个子词的token的数量;
判断所述token的数量是否大于1;
当所述token的数量大于1时,对所述token进行卷积运算得到目标token;
当所述token的数量等于1时,将所述token确定为目标token;
根据所述目标token得到表征序列。
根据本发明的一个可选的实施例,所述通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本包括:
根据每个测试抽取文本及每个测试重点词询问文本生成测试输入文本;
使用所述RoBERTa模型抽取每个测试输入文本中的重点词;
根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率;
确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本。
根据本发明的一个可选的实施例,所述根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率包括:
比较每个测试抽取文本中的第一重点词及对应的测试输入文本中的第二重点词;
计算所述第二重点词中与所述第一重点词相同的重点词的第一数量;
计算所述第一数量与所述第一重点词的第二数量之间的比值,得到对应的测试输入文本的重点词抽取成功率。
根据本发明的一个可选的实施例,所述根据所述目标重点词询问文本和待抽取文本生成输入文本序列包括:
在所述目标重点词询问文本的首部添加第一字符及在尾部添加第二字符得到重点词询问文本序列;
在所述待抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到待抽取文本序列;
拼接所述重点词询问文本序列和所述待抽取文本序列得到输入文本序列。
根据本发明的一个可选的实施例,所述根据所述重要度获取重点词包括:
根据所述重要度对所述多个子词进行倒序排序;
抽取倒序排序后的多个子词中的前预设数量的子词,作为重点词。
根据本发明的一个可选的实施例,所述方法还包括:
基于所述重点词构建重点词字典;
对待识别文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本。
本发明的第二方面提供一种文本重点词抽取装置,所述装置包括:
测试模块,用于通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本;
生成模块,用于根据所述目标重点词询问文本和待抽取文本生成输入文本序列;
编码模块,用于通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量;
对齐模块,用于根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列;
获取模块,用于通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述文本重点词抽取方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述文本重点词抽取方法。
综上所述,本发明所述的文本重点词抽取方法、装置、计算机设备及存储介质,可以应用于抽取社交媒体文本中的重点词,通过重点词表达情感、对照、捕获读者的兴趣或者呈现一些信息,本发明通过对多个测试抽取文本进行模拟测试,确定多个测试重点词询问文本中的目标重点词询问文本,来为RoBERTa模型引入一些语义先验知识,从而辅助RoBERTa模型高效的抽取重点词;对于待抽取文本,根据所述目标重点词询问文本和待抽取文本生成输入文本序列,并通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量,接着根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列,实现了保持表征序列与输入文本序列的长度的一致性,有助于全连接层计算每个子词的重要度,最后,通过全连接层根据所述表征序列抽取重点词,抽取的重点词的准确度较高。
附图说明
图1是本发明实施例一提供的文本重点词抽取方法的流程图。
图2是本发明实施例提供的根据每个子词的token对多个子词进行对齐处理的示意图。
图3是本发明实施例二提供的文本重点词抽取装置的结构图。
图4是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的文本重点词抽取方法由计算机设备执行,相应地,文本重点词抽取装置运行于计算机设备中。
图1是本发明实施例一提供的文本重点词抽取方法的流程图。所述文本重点词抽取方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本。
其中,所述测试抽取文本是指用来模拟测试抽取重点词的文本,所述测试抽取文本中的第一重点词已通过人工方式进行了标注。
其中,所述测试重点词询问文本为预先编写的测试脚本,用来辅助增加RoBERTa模型的抽取注意力,从而完成测试抽取文本中的重点词的抽取。中文预训练模型RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了更先进的效果。
测试重点词询问文本能够增强RoBERTa模型聚集一些特定的词,并且通过加入测试重点词询问文本,相当于为RoBERTa模型引入一些语义先验知识,这些先验知识能够加速RoBERTa模型的训练效率及训练效果。
示例性的,所述多个测试重点词询问文本可以为:请找出重点词,重点词是哪些,请找出文本中的前4个重点词,重点词是哪一个。
在一个可选的实施例中,所述通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本包括:
根据每个测试抽取文本及每个测试重点词询问文本生成测试输入文本;
使用RoBERTa模型抽取每个测试输入文本中的重点词;
根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率;
确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本。
针对每一个测试重点词询问文本,计算机设备在所述测试重点词询问文本的首部添加第一字符及在尾部添加第二字符得到测试重点词询问文本序列,然后针对每一个测试抽取文本,在所述测试抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到测试抽取文本序列,最后拼接所述测试重点词询问文本序列和所述测试抽取文本序列得到测试输入文本。
使用预先训练完成的RoBERTa模型抽取每个测试输入文本中的第二重点词,为便于描述,将测试抽取文本中由人工标注的重点词称之为第一重点词,将测试输入文本中由RoBERTa模型抽取的重点词称之为第二重点词。
计算机设备比较每个测试抽取文本中的第一重点词及对应的测试输入文本中的第二重点词,计算所述第二重点词中与所述第一重点词相同的重点词的第一数量,并计算所述第一数量与所述第一重点词的第二数量之间的比值,得到对应的测试输入文本的重点词抽取成功率。示例性的,假设某个测试抽取文本中的第一重点词包括:A,B,C,D,对应的测试输入文本中的第二重点词包括:B,C,D,E,所述第二重点词中与所述第一重点词相同的重点词为B,C,D,则第一数量为3,计算所述第一数量3与所述第一重点词的第二数量4之间的比值为75%,得到对应的测试输入文本的重点词抽取成功率75%。然后,计算每个测试重点词询问文本对应的所有测试输入文本的重点词抽取成功率之和,得到每个测试重点词询问文本的重点词抽取成功率。重点词抽取成功率越大,表明对应的测试重点词询问文本辅助增强RoBERTa模型聚集特定的词的能力越强;重点词抽取成功率越小,表明对应的测试重点词询问文本辅助增强RoBERTa模型聚集特定的词的能力越弱。
该可选的实施例中,通过随机定义多个测试重点词询问文本,并使用多个测试抽取文本进行模拟测试,从而确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本,能够增强RoBERTa模型聚集特定的词的能力,从而提高RoBERTa模型抽取重点词的效果。
S12,根据所述目标重点词询问文本和待抽取文本生成输入文本序列。
其中,所述待抽取文本为需要进行重点词抽取的文本。所述待抽取文本可以为一个文本语句,也可以为一个文本片段。当所述待抽取文本为一个文本语句时,根据目标重点词询问文本和待抽取文本生成一个输入文本。当所述待抽取文本为一个文本片段时,先对所述文本片段进行语句切分得到多个文本语句,再根据所述目标重点词询问文本和每一个切分得到的文本语句生成一个输入文本,从而得到多个输入文本。
下面以所述待抽取文本可以为一个文本语句进行举例说明。
在一个可选的实施例中,所述根据所述目标重点词询问文本和待抽取文本生成输入文本序列包括:
在所述目标重点词询问文本的首部添加第一字符及在尾部添加第二字符得到重点词询问文本序列;
在所述待抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到待抽取文本序列;
拼接所述重点词询问文本序列和所述待抽取文本序列得到输入文本序列。
在将所述目标重点词询问文本和所述待抽取文本输入至训练完成的RoBERTa模型之前,先对所述目标重点词询问文本和所述待抽取文本进行分词,并在分词后的目标重点词询问文本的首部及在分词后的待抽取文本的首部均加上第一字符,在分词后的目标重点词询问文本的尾部及在分词后的待抽取文本的尾部均加上第二字符。所述第一字符可以为分类符,例如<s>,所述第二字符可以为分隔符,例如</s>。
最后将所述重点词询问文本序列和所述待抽取文本序列进行拼接得到输入文本序列。示例性的,假设待抽取文本为“if you have the ability to love, love yourselffirst”,所述目标重点词询问文本为“find candidates for emphasis”,则生成的输入文本序列为“<s> find candidates for emphasis </s><s> if you have the ability tolove, love yourself first </s>”。
输入所述输入文本序列至所述RoBERTa模型中,通过所述RoBERTa模型对所述输入文本序列进行动态词向量转换,以获得所述输入文本序列的表示。
S13,通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量。
RoBERTa(Robustlyoptimized BERT Pretraining approach,稳健优化的BERT预训练方法),是在BERT的基础上提出的基于动态词向量建模方法。
所述RoBERTa模型包括:输入层、子词编码器层、双向表征编码器层、子词融合层及全连接层,其中,所述子词编码器层连接所述输入层及所述双向表征编码器层,所述双向表征编码器层还连接所述子词融合层,所述全连接层为最后一层。
计算机设备输入所述输入文本序列至所述RoBERTa模型的输入层,所述输入层将所述输入文本序列输入至所述子词编码器层进行编码,通过所述子词编码器层输出所述输入文本序列中的多个子词(subword)。子词编码器层输入所述多个子词至双向表征编码器层进行进一步编码,通过双向表征编码器层输出每个子词的表征向量,所述表征向量用于唯一表示所述子词,其中,所述双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术进行编码。
所述双向表征编码器层首先根据词表将每个子词映射成一个768维的词向量;再根据每个子词在输入文本序列中的位置,将位置映射成一个768维的位置向量;最后将所述词向量和所述位置向量中的每个元素相加作为子词对应的表征向量。所述双向表征编码器层不仅能够高效捕捉更长距离的语义依赖关系,而且能够获取双向的上下文信息来生成语义信息更丰富的向量表示。
S14,根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列。
由于RoBERTa模型的双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术对每个字词进行编码,因此,为每个子词生成的表征向量不同,有些子词的表征向量的序列长度与该子词对应的序列长度相同,有些子词的表征向量的序列长度比该子词对应的序列长度要长,因而,基于多个子词的表征向量得到的编码序列的长度会比输入的文本序列的长度要长,通过计算每个子词的token,并根据所述每个子词的token对所述多个子词的表征向量进行对齐处理,使得每个子词对应的对齐处理后的表征向量的序列长度能够相同,从而使得基于多个子词的表征向量得到的编码序列的长度与所述输入文本序列的长度保持一致,从而便于后续使用全连接层计算每个子词的重要度。
在一个可选的实施例中,所述根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列包括:
将第一个子词对应的表征向量确定为所述第一个子词的token;
计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值得到所述后一个子词的token;
计算每个子词的token的数量;
判断所述token的数量是否大于1;
当所述token的数量大于1时,对所述token进行卷积运算得到目标token;
当所述token的数量等于1时,将所述token确定为目标token;
根据所述目标token得到表征序列。
其中,所述第一个子词是指位于所述输入文本序列中的第一个位置的词。
示例性的,如图2所示,第一个子词为<s>,对应的表征向量为(0),第二个子词为Ski,对应的表征向量为(0,104,3104),第三个子词为passes,对应的表征向量为(0,104,3104,3974),则第一个子词的token为0,第二子词的token为表征向量(0,104,3104)和表征向量(0)之间的差值104,3104,第三子词的token为表征向量(0,104,3104,3974)和表征向量(0,104,3104)之间的差值3974。
可以看出,第一个子词的token的数量和第三个子词的token的数量均为1,第二个子词的token的数量为2(104和3104)。
通过对第二子词的两个token进行卷积运算,实现了将两个token简化为一个token的效果。根据每个子词的所述目标token进行拼接得到表征序列。
该可选的实施例中,由于通过RoBERTa模型提取得到的表征向量的长度大于所述输入文本序列的长度,而通过所述每个子词对应的表征计算每个子词的token,能够快速的确定出表征向量中哪些子词的表征多大,最后通过将所有token的数量大于1的token进行卷积运算,实现了对所述token对应的子词的表征的简化,从而能够有效的保证根据每个子词对应的目标token得到的表征序列的长度与所述输入文本序列的长度一致。
S15,通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
所述全连接层使用一个全连接神经网络。
在一个可选的实施例中,所述根据所述重要度获取重点词包括:
根据所述重要度对所述多个子词进行倒序排序;
获取倒序排序后的多个子词中的前预设数量的子词,作为重点词。
所述全连接层将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否为重点词的得分。所述得分用以表示单词为重点词的重要度。重要度越大,表明单词为重点词的可能性越大,重要度越小,表明单词为重点词的可能性越小。
输入所述表征序列至所述全连接层,通过所述全连接层对所述表征序列进行计算,得到每个子词的重要度;将所述重要度进行从大到小排序,得到重要度排序序列,确定所述重要度排序序列中的重要度对应的子词,得到子词排序序列,将排序在前K个的子词作为重点词。
计算机确定出待抽取文本中的重点词之后,再确定所述重点词在所述待抽取文本中的位置,通过对所述位置进行高光显示,例如,通过颜色、背景、字体或样式来标识重点词,能够加强用户的理解以及快速传递用户的意图。
在一个可选的实施例中,所述方法还包括:
基于所述重点词构建重点词字典;
对待识别文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本。
在社交媒体平台中,通过运用本发明所述的文本重点词抽取方法,抽取每一个社交媒体文本中的重点词,并基于所述重点词构建社交媒体重点词字典。
所述待识别文本为用户上传至社交媒体平台上的文本,需要对每个上传的文本进行识别,判断是否为社交媒体文本。
计算机设备可以采用分词工具,例如,结巴分词,对所述待识别文本进行分词,得到多个分词,将每个分词与重点词字典中的每个重点词进行匹配,计算分词中与重点词匹配成功的分词的第一分词数量,计算多个分词的第二分词数量,计算第一分词数量与第二分词数量之间的比值得到匹配度,根据所述匹配度确定所述待识别文本为噪声文本还是社交媒体文本。当匹配度大于或者等于所述预设匹配度阈值时,识别所述待识别文本为社交媒体文本;当匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本,即不为社交媒体文本。
在其他实施例中,所述计算机设备还可以接收用户上传的已标识为社交媒体文本的目标文本,通过使用本发明所述的文本重点词抽取方法,抽取所述目标文本中的目标重点词,并将所述目标重点词写入所述重点词字典中,扩充了社交媒体重点词词典中的重点词的数量。对社交媒体重点词词典中的重点词进行扩充,能够进一步提高识别所述待识别文本是否为噪声文本的识别效果。
本发明所述的文本重点词抽取方法,可以应用于抽取社交媒体文本中的重点词,通过重点词表达情感、对照、捕获读者的兴趣或者呈现一些信息,本发明通过对多个测试抽取文本进行模拟测试,确定多个测试重点词询问文本中的目标重点词询问文本,来为RoBERTa模型引入一些语义先验知识,从而辅助RoBERTa模型高效的抽取重点词;对于待抽取文本,根据所述目标重点词询问文本和待抽取文本生成输入文本序列,并通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量,接着根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列,实现了保持表征序列与输入文本序列的长度的一致性,有助于全连接层计算每个子词的重要度,最后,通过全连接层根据所述表征序列抽取重点词,抽取的重点词的准确度较高。
需要强调的是,为进一步保证上述目标重点词询问文本的私密性和安全性,上述目标重点词询问文本可存储于区块链的节点中。
图3是本发明实施例二提供的文本重点词抽取装置的结构图。
在一些实施例中,所述文本重点词抽取装置20可以包括多个由计算机程序段所组成的功能模块。所述文本重点词抽取装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)重点词抽取的功能。
本实施例中,所述文本重点词抽取装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:测试模块201、生成模块202、编码模块203、对齐模块204、获取模块205及识别模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述测试模块201,用于通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本。
其中,所述测试抽取文本是指用来模拟测试抽取重点词的文本,所述测试抽取文本中的第一重点词已通过人工方式进行了标注。
其中,所述测试重点词询问文本为预先编写的测试脚本,用来辅助增加RoBERTa模型的抽取注意力,从而完成测试抽取文本中的重点词的抽取。中文预训练模型RoBERTa是BERT的改进版,通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了更先进的效果。
测试重点词询问文本能够增强RoBERTa模型聚集一些特定的词,并且通过加入测试重点词询问文本,相当于为RoBERTa模型引入一些语义先验知识,这些先验知识能够加速RoBERTa模型的训练效率及训练效果。
示例性的,所述多个测试重点词询问文本可以为:请找出重点词,重点词是哪些,请找出文本中的前4个重点词,重点词是哪一个。
在一个可选的实施例中,所述测试模块201通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本包括:
根据每个测试抽取文本及每个测试重点词询问文本生成测试输入文本;
使用RoBERTa模型抽取每个测试输入文本中的重点词;
根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率;
确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本。
针对每一个测试重点词询问文本,计算机设备在所述测试重点词询问文本的首部添加第一字符及在尾部添加第二字符得到测试重点词询问文本序列,然后针对每一个测试抽取文本,在所述测试抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到测试抽取文本序列,最后拼接所述测试重点词询问文本序列和所述测试抽取文本序列得到测试输入文本。
使用预先训练完成的RoBERTa模型抽取每个测试输入文本中的第二重点词,为便于描述,将测试抽取文本中由人工标注的重点词称之为第一重点词,将测试输入文本中由RoBERTa模型抽取的重点词称之为第二重点词。
计算机设备比较每个测试抽取文本中的第一重点词及对应的测试输入文本中的第二重点词,计算所述第二重点词中与所述第一重点词相同的重点词的第一数量,并计算所述第一数量与所述第一重点词的第二数量之间的比值,得到对应的测试输入文本的重点词抽取成功率。示例性的,假设某个测试抽取文本中的第一重点词包括:A,B,C,D,对应的测试输入文本中的第二重点词包括:B,C,D,E,所述第二重点词中与所述第一重点词相同的重点词为B,C,D,则第一数量为3,计算所述第一数量3与所述第一重点词的第二数量4之间的比值为75%,得到对应的测试输入文本的重点词抽取成功率75%。然后,计算每个测试重点词询问文本对应的所有测试输入文本的重点词抽取成功率之和,得到每个测试重点词询问文本的重点词抽取成功率。重点词抽取成功率越大,表明对应的测试重点词询问文本辅助增强RoBERTa模型聚集特定的词的能力越强;重点词抽取成功率越小,表明对应的测试重点词询问文本辅助增强RoBERTa模型聚集特定的词的能力越弱。
该可选的实施例中,通过随机定义多个测试重点词询问文本,并使用多个测试抽取文本进行模拟测试,从而确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本,能够增强RoBERTa模型聚集特定的词的能力,从而提高RoBERTa模型抽取重点词的效果。
所述生成模块202,用于根据所述目标重点词询问文本和待抽取文本生成输入文本序列。
其中,所述待抽取文本为需要进行重点词抽取的文本。所述待抽取文本可以为一个文本语句,也可以为一个文本片段。当所述待抽取文本为一个文本语句时,根据目标重点词询问文本和待抽取文本生成一个输入文本。当所述待抽取文本为一个文本片段时,先对所述文本片段进行语句切分得到多个文本语句,再根据所述目标重点词询问文本和每一个切分得到的文本语句生成一个输入文本,从而得到多个输入文本。
下面以所述待抽取文本可以为一个文本语句进行举例说明。
在一个可选的实施例中,所述生成模块202根据所述目标重点词询问文本和待抽取文本生成输入文本序列包括:
在所述目标重点词询问文本的首部添加第一字符及在尾部添加第二字符得到重点词询问文本序列;
在所述待抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到待抽取文本序列;
拼接所述重点词询问文本序列和所述待抽取文本序列得到输入文本序列。
在将所述目标重点词询问文本和所述待抽取文本输入至训练完成的RoBERTa模型之前,先对所述目标重点词询问文本和所述待抽取文本进行分词,并在分词后的目标重点词询问文本的首部及在分词后的待抽取文本的首部均加上第一字符,在分词后的目标重点词询问文本的尾部及在分词后的待抽取文本的尾部均加上第二字符。所述第一字符可以为分类符,例如<s>,所述第二字符可以为分隔符,例如</s>。
最后将所述重点词询问文本序列和所述待抽取文本序列进行拼接得到输入文本序列。示例性的,假设待抽取文本为“if you have the ability to love, love yourselffirst”,所述目标重点词询问文本为“find candidates for emphasis”,则生成的输入文本序列为“<s> find candidates for emphasis </s><s> if you have the ability tolove, love yourself first </s>”。
输入所述输入文本序列至所述RoBERTa模型中,通过所述RoBERTa模型对所述输入文本序列进行动态词向量转换,以获得所述输入文本序列的表示。
所述编码模块203,用于通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量。
RoBERTa(Robustlyoptimized BERT Pretraining approach,稳健优化的BERT预训练方法),是在BERT的基础上提出的基于动态词向量建模方法。
所述RoBERTa模型包括:输入层、子词编码器层、双向表征编码器层、子词融合层及全连接层,其中,所述子词编码器层连接所述输入层及所述双向表征编码器层,所述双向表征编码器层还连接所述子词融合层,所述全连接层为最后一层。
计算机设备输入所述输入文本序列至所述RoBERTa模型的输入层,所述输入层将所述输入文本序列输入至所述子词编码器层进行编码,通过所述子词编码器层输出所述输入文本序列中的多个子词(subword)。子词编码器层输入所述多个子词至双向表征编码器层进行进一步编码,通过双向表征编码器层输出每个子词的表征向量,所述表征向量用于唯一表示所述子词,其中,所述双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术进行编码。
所述双向表征编码器层首先根据词表将每个子词映射成一个768维的词向量;再根据每个子词在输入文本序列中的位置,将位置映射成一个768维的位置向量;最后将所述词向量和所述位置向量中的每个元素相加作为子词对应的表征向量。所述双向表征编码器层不仅能够高效捕捉更长距离的语义依赖关系,而且能够获取双向的上下文信息来生成语义信息更丰富的向量表示。
所述对齐模块204,用于根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列。
由于RoBERTa模型的双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术对每个字词进行编码,因此,为每个子词生成的表征向量不同,有些子词的表征向量的序列长度与该子词对应的序列长度相同,有些子词的表征向量的序列长度比该子词对应的序列长度要长,因而,基于多个子词的表征向量得到的编码序列的长度会比输入的文本序列的长度要长,通过计算每个子词的token,并根据所述每个子词的token对所述多个子词的表征向量进行对齐处理,使得每个子词对应的对齐处理后的表征向量的序列长度能够相同,从而使得基于多个子词的表征向量得到的编码序列的长度与所述输入文本序列的长度保持一致,从而便于后续使用全连接层计算每个子词的重要度。
在一个可选的实施例中,所述对齐模块204根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列包括:
将第一个子词对应的表征向量确定为所述第一个子词的token;
计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值得到所述后一个子词的token;
计算每个子词的token的数量;
判断所述token的数量是否大于1;
当所述token的数量大于1时,对所述token进行卷积运算得到目标token;
当所述token的数量等于1时,将所述token确定为目标token;
根据所述目标token得到表征序列。
其中,所述第一个子词是指位于所述输入文本序列中的第一个位置的词。
示例性的,如图2所示,第一个子词为<s>,对应的表征向量为(0),第二个子词为Ski,对应的表征向量为(0,104,3104),第三个子词为passes,对应的表征向量为(0,104,3104,3974),则第一个子词的token为0,第二子词的token为表征向量(0,104,3104)和表征向量(0)之间的差值104,3104,第三子词的token为表征向量(0,104,3104,3974)和表征向量(0,104,3104)之间的差值3974。
可以看出,第一个子词的token的数量和第三个子词的token的数量均为1,第二个子词的token的数量为2(104和3104)。
通过对第二子词的两个token进行卷积运算,实现了将两个token简化为一个token的效果。根据每个子词的所述目标token进行拼接得到表征序列。
该可选的实施例中,由于通过RoBERTa模型提取得到的表征向量的长度大于所述输入文本序列的长度,而通过所述每个子词对应的表征计算每个子词的token,能够快速的确定出表征向量中哪些子词的表征多大,最后通过将所有token的数量大于1的token进行卷积运算,实现了对所述token对应的子词的表征的简化,从而能够有效的保证根据每个子词对应的目标token得到的表征序列的长度与所述输入文本序列的长度一致。
所述获取模块205,用于通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
所述全连接层使用一个全连接神经网络。
在一个可选的实施例中,所述获取模块205根据所述重要度获取重点词包括:
根据所述重要度对所述多个子词进行倒序排序;
获取倒序排序后的多个子词中的前预设数量的子词,作为重点词。
所述全连接层将包含上下文信息的子词表示转化为一个2维表示,并将子词合并成原始单词,从而得到每个单词是否为重点词的得分。所述得分用以表示单词为重点词的重要度。重要度越大,表明单词为重点词的可能性越大,重要度越小,表明单词为重点词的可能性越小。
输入所述表征序列至所述全连接层,通过所述全连接层对所述表征序列进行计算,得到每个子词的重要度;将所述重要度进行从大到小排序,得到重要度排序序列,确定所述重要度排序序列中的重要度对应的子词,得到子词排序序列,将排序在前K个的子词作为重点词。
计算机确定出待抽取文本中的重点词之后,再确定所述重点词在所述待抽取文本中的位置,通过对所述位置进行高光显示,例如,通过颜色、背景、字体或样式来标识重点词,能够加强用户的理解以及快速传递用户的意图。
所述识别模块206,用于识别待识别文本是否为噪声文本。
在一个可选的实施例中,所述识别模块206识别待识别文本是否为噪声文本包括:
基于所述重点词构建重点词字典;
对待识别文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本。
在社交媒体平台中,通过运用本发明所述的文本重点词抽取方法,抽取每一个社交媒体文本中的重点词,并基于所述重点词构建社交媒体重点词字典。
所述待识别文本为用户上传至社交媒体平台上的文本,需要对每个上传的文本进行识别,判断是否为社交媒体文本。
计算机设备可以采用分词工具,例如,结巴分词,对所述待识别文本进行分词,得到多个分词,将每个分词与重点词字典中的每个重点词进行匹配,计算分词中与重点词匹配成功的分词的第一分词数量,计算多个分词的第二分词数量,计算第一分词数量与第二分词数量之间的比值得到匹配度,根据所述匹配度确定所述待识别文本为噪声文本还是社交媒体文本。当匹配度大于或者等于所述预设匹配度阈值时,识别所述待识别文本为社交媒体文本;当匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本,即不为社交媒体文本。
在其他实施例中,所述计算机设备还可以接收用户上传的已标识为社交媒体文本的目标文本,通过使用本发明所述的文本重点词抽取方法,抽取所述目标文本中的目标重点词,并将所述目标重点词写入所述重点词字典中,扩充了社交媒体重点词词典中的重点词的数量。对社交媒体重点词词典中的重点词进行扩充,能够进一步提高识别所述待识别文本是否为噪声文本的识别效果。
本发明所述的文本重点词抽取装置,可以应用于抽取社交媒体文本中的重点词,通过重点词表达情感、对照、捕获读者的兴趣或者呈现一些信息,本发明通过对多个测试抽取文本进行模拟测试,确定多个测试重点词询问文本中的目标重点词询问文本,来为RoBERTa模型引入一些语义先验知识,从而辅助RoBERTa模型高效的抽取重点词;对于待抽取文本,根据所述目标重点词询问文本和待抽取文本生成输入文本序列,并通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量,接着根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列,实现了保持表征序列与输入文本序列的长度的一致性,有助于全连接层计算每个子词的重要度,最后,通过全连接层根据所述表征序列抽取重点词,抽取的重点词的准确度较高。
需要强调的是,为进一步保证上述目标重点词询问文本的私密性和安全性,上述目标重点词询问文本可存储于区块链的节点中。
参阅图4所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图4示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的文本重点词抽取方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的文本重点词抽取方法的全部或者部分步骤;或者实现文本重点词抽取装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本重点词抽取方法,其特征在于,所述方法包括:
通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本;
根据所述目标重点词询问文本和待抽取文本生成输入文本序列;
通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量;
根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列;
通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
2.如权利要求1所述的文本重点词抽取方法,其特征在于,所述根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列包括:
将第一个子词对应的表征向量确定为所述第一个子词的token;
计算后一个子词对应的表征向量与前一个子词对应的表征向量之间的向量差值得到所述后一个子词的token;
计算每个子词的token的数量;
判断所述token的数量是否大于1;
当所述token的数量大于1时,对所述token进行卷积运算得到目标token;
当所述token的数量等于1时,将所述token确定为目标token;
根据所述目标token得到表征序列。
3.如权利要求1或者2所述的文本重点词抽取方法,其特征在于,所述通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本包括:
根据每个测试抽取文本及每个测试重点词询问文本生成测试输入文本;
使用所述RoBERTa模型抽取每个测试输入文本中的重点词;
根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率;
确定最大的重点词抽取成功率对应的测试重点词询问文本为目标重点词询问文本。
4.如权利要求3所述的文本重点词抽取方法,其特征在于,所述根据每个测试重点词询问文本对应的多个测试输入文本的重点词计算得到抽取成功率包括:
比较每个测试抽取文本中的第一重点词及对应的测试输入文本中的第二重点词;
计算所述第二重点词中与所述第一重点词相同的重点词的第一数量;
计算所述第一数量与所述第一重点词的第二数量之间的比值,得到对应的测试输入文本的重点词抽取成功率。
5.如权利要求4所述的文本重点词抽取方法,其特征在于,所述根据所述目标重点词询问文本和待抽取文本生成输入文本序列包括:
在所述目标重点词询问文本的首部添加第一字符及在尾部添加第二字符得到重点词询问文本序列;
在所述待抽取文本的首部添加所述第一字符及在尾部添加所述第二字符得到待抽取文本序列;
拼接所述重点词询问文本序列和所述待抽取文本序列得到输入文本序列。
6.如权利要求4所述的文本重点词抽取方法,其特征在于,所述根据所述重要度获取重点词包括:
根据所述重要度对所述多个子词进行倒序排序;
抽取倒序排序后的多个子词中的前预设数量的子词,作为重点词。
7.如权利要求6所述的文本重点词抽取方法,其特征在于,所述方法还包括:
基于所述重点词构建重点词字典;
对待识别文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待识别文本为噪声文本。
8.一种文本重点词抽取装置,其特征在于,所述装置包括:
测试模块,用于通过对多个测试抽取文本进行模拟测试确定多个测试重点词询问文本中的目标重点词询问文本;
生成模块,用于根据所述目标重点词询问文本和待抽取文本生成输入文本序列;
编码模块,用于通过RoBERTa模型的子词编码器层对所述输入文本序列进行编码得到多个子词,并通过所述RoBERTa模型的双向表征编码器层对每个子词进行编码得到每个子词对应的表征向量;
对齐模块,用于根据所述表征向量确定每个子词的token,并根据所述每个子词的token对所述多个子词进行对齐处理得到表征序列;
获取模块,用于通过全连接层对所述表征序列进行计算得到每个子词的重要度,并根据所述重要度获取重点词。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的文本重点词抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本重点词抽取方法。
CN202110798630.8A 2021-07-15 2021-07-15 文本重点词抽取方法、装置、计算机设备及存储介质 Pending CN113268953A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110798630.8A CN113268953A (zh) 2021-07-15 2021-07-15 文本重点词抽取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110798630.8A CN113268953A (zh) 2021-07-15 2021-07-15 文本重点词抽取方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113268953A true CN113268953A (zh) 2021-08-17

Family

ID=77236717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110798630.8A Pending CN113268953A (zh) 2021-07-15 2021-07-15 文本重点词抽取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113268953A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859916A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 古诗关键词提取、诗句生成方法、装置、设备及介质
CN111966812A (zh) * 2020-10-20 2020-11-20 中国人民解放军国防科技大学 一种基于动态词向量的自动问答方法和存储介质
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112883171A (zh) * 2021-02-02 2021-06-01 中国科学院计算技术研究所 基于bert模型的文档关键词抽取方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859916A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 古诗关键词提取、诗句生成方法、装置、设备及介质
CN111966812A (zh) * 2020-10-20 2020-11-20 中国人民解放军国防科技大学 一种基于动态词向量的自动问答方法和存储介质
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112883171A (zh) * 2021-02-02 2021-06-01 中国科学院计算技术研究所 基于bert模型的文档关键词抽取方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENYANG GUO ET AL.: "FPAI at SemEval-2020 Task 10: A Query Enhanced Model with RoBERTa for Emphasis Selection", 《PROCEEDINGS OF THE 14TH INTERNATIONAL WORKSHOP ON SEMANTIC EVALUATION》 *
何伟名: "中文社交媒体话题关键词抽取算法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN112231485B (zh) 文本推荐方法、装置、计算机设备及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN111581623B (zh) 智能数据交互方法、装置、电子设备及存储介质
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN114007131A (zh) 视频监控方法、装置及相关设备
CN112906385A (zh) 文本摘要生成方法、计算机设备及存储介质
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN113378970A (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN114461777A (zh) 智能问答方法、装置、设备及存储介质
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN113704410A (zh) 情绪波动检测方法、装置、电子设备及存储介质
CN115983271A (zh) 命名实体的识别方法和命名实体识别模型的训练方法
CN114021582A (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN112634017A (zh) 远程开卡激活方法、装置、电子设备及计算机存储介质
He et al. Deep learning in natural language generation from images
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN115346095A (zh) 视觉问答方法、装置、设备及存储介质
CN114401346A (zh) 基于人工智能的应答方法、装置、设备及介质
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质
CN113268953A (zh) 文本重点词抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817

RJ01 Rejection of invention patent application after publication