CN112528026A - 关键词识别方法、装置、设备及介质 - Google Patents

关键词识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN112528026A
CN112528026A CN202011498911.3A CN202011498911A CN112528026A CN 112528026 A CN112528026 A CN 112528026A CN 202011498911 A CN202011498911 A CN 202011498911A CN 112528026 A CN112528026 A CN 112528026A
Authority
CN
China
Prior art keywords
word
keyword
input text
score
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011498911.3A
Other languages
English (en)
Inventor
李浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011498911.3A priority Critical patent/CN112528026A/zh
Publication of CN112528026A publication Critical patent/CN112528026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种关键词识别方法,包括:对输入文本中的词进行分类,得到每个词的关键词概率,计算所述输入文本中词与词之间的相关性得分,根据所述相关性得分计算所述输入文本中各词的重要性得分,根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分,根据所述关键词得分识别所述输入文本中的关键词。本公开还提供了一种关键词识别装置,一种电子设备及一种可读存储介质。

Description

关键词识别方法、装置、设备及介质
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种关键词识别方法、装置、设备及介质。
背景技术
文本关键词识别任务是在输入文本中识别出关键词的任务。通常来说,实现该任务的方法有两种。第一种是有监督的方法,根据输入文本中的关键词标签,训练一个序列标注任务。第二种是无监督的方法,比如基于图的方法,将文本中的词作为图的节点,节点之间的边为词与词之间的关系,通过基于图的算法计算每个词的重要性得分,抽取出得分高的词作为关键词。
然而,有监督的方法依赖于标注数据,倾向于挖掘输入文本与输出标签的相关性,而忽视了输入文本之间的相关性,关键词识别的准确性较低。无监督的方法依赖于构图的准确性,即图中每个词之间的相关性计算,一般来说,词之间的相关性可以通过词向量之间的余弦相似度或tf-idf(用于信息检索与数据挖掘的常用加权技术)向量余弦相似度进行表示,但这些基于静态向量的方法对词与词之间的相似度建模不足,无法准确的表征词与词之间的相似度,关键词识别的准确性也较低。
发明内容
有鉴于此,本公开提供了一种关键词识别方法、装置、设备及介质。
本公开的一个方面提供了一种关键词识别方法,包括:对输入文本中的词进行分类,得到每个词的关键词概率;计算所述输入文本中词与词之间的相关性得分;根据所述相关性得分计算所述输入文本中各词的重要性得分;根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分;以及根据所述关键词得分识别所述输入文本中的关键词。
根据本公开的实施例,所述对输入文本中的词进行分类,得到每个词的关键词概率包括:基于Transformer的预训练模型,对所述输入文本进行编码,生成一系列隐层序列,其中,所述隐层序列中的每一元素代表一个词;对所述一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
根据本公开的实施例,所述计算所述输入文本中词与词之间的相关性得分包括:基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,所述隐层语义向量包括所述输入文本的查询向量及键值对中键对应的向量;根据所述查询向量及所述键对应的向量计算输入文本中词与词之间的相关性得分。
根据本公开的实施例,所述Transformer的预训练模型包括至少一层Transformer层,针对于每一层Transformer层,根据:
Figure BDA0002841100430000021
计算所述相关性得分,其中,i、j表示所述输入文本中词的编号,n表示Transformer层的层数编号,
Figure BDA0002841100430000022
表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,
Figure BDA0002841100430000023
为比例因子,soft max()表示归一化指数函数;根据:
Figure BDA0002841100430000024
计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。
根据本公开的实施例,所述根据所述相关性得分计算所述输入文本中各词的重要性得分包括:根据si=∑iDi,j计算所述重要性得分;其中,i、j表示所述输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。
根据本公开的实施例,所述根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分包括:根据公式:
yi=pi*si
计算所述关键词得分,其中,yi表示第i个词的关键词得分,si表示第i个词的重要性得分,pi表示第i个词的关键词概率。
根据本公开的实施例,所述对输入文本中的词进行分类,得到每个词的关键词概率包括:根据:
pi=sigmoid(Whhi)
对所述输入文本中的词进行分类,其中,pi表示第i个词的关键词概率,sigmoid()表示激活函数,Wh表示参数矩阵,hi表示第i个词在所述隐层序列中对应的元素。
根据本公开的实施例,所述关键词识别方法还包括:构建基于Transformer的预训练模型,其中,所述基于Transformer的预训练模型的自注意力机制为:
Figure BDA0002841100430000031
其中,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,K表示键值对中值对应的向量,
Figure BDA0002841100430000032
为比例因子,soft max()表示归一化指数函数;获取训练输入文本,将所述训练输入文本输入所述预训练模型进行训练,直至所述基于Transformer的预训练模型的损失函数不再降低。
根据本公开的实施例,所述损失函数为:Lp=piln(yi)+(1-pi)ln(1-yi),其中,yi表示第i个词的关键词得分,pi表示第i个词的关键词概率。
本公开另一方面提供一种关键词识别装置,包括:分类模块,用于对输入文本中的词进行分类,得到每个词的关键词概率;第一计算模块,用于计算所述输入文本中词与词之间的相关性得分;第二计算模块,用于根据所述相关性得分计算所述输入文本中各词的重要性得分;第三计算模块,用于根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分;以及识别模块,用于根据所述关键词得分识别所述输入文本中的关键词。
根据本公开的实施例,所述分类模块对输入文本中的词进行分类,得到每个词的关键词概率包括:基于Transformer的预训练模型,对所述输入文本进行编码,生成一系列隐层序列,其中,所述隐层序列中的每一元素代表一个词;对所述一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
根据本公开的实施例,所述第一计算模块计算所述输入文本中词与词之间的相关性得分包括:基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,所述隐层语义向量包括所述输入文本的查询向量及键值对中键对应的向量;根据所述查询向量及所述键对应的向量计算输入文本中词与词之间的相关性得分。
根据本公开的实施例,所述Transformer的预训练模型包括至少一层Transformer层,针对于每一层Transformer层,根据:
Figure BDA0002841100430000041
计算所述相关性得分,其中,i、j表示所述输入文本中词的编号,n表示Transformer层的层数编号,
Figure BDA0002841100430000042
表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,
Figure BDA0002841100430000043
为比例因子,soft max()表示归一化指数函数;根据:
Figure BDA0002841100430000044
计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。
根据本公开的实施例,所述第二计算模块根据所述相关性得分计算所述输入文本中各词的重要性得分包括:
根据si=∑iDi,j计算所述重要性得分;其中,i、j表示所述输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。
根据本公开的实施例,所述第三计算模块根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分包括:根据公式:yi=pi*si计算所述关键词得分,其中,yi表示第i个词的关键词得分,si表示第i个词的重要性得分,pi表示第i个词的关键词概率。
本公开的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以实现关键词识别方法示例性系统架构100;
图2示意性示出了根据本公开实施例的关键词识别方法的流程图;
图3示意性示出了根据本公开实施例的对输入文本中的词进行分类的方法流程图;
图4示意性示出了根据本公开实施例的计算输入文本中词与词之间的相关性得分的方法流程图;
图5示意性示出了根据本公开实施例的基于Transformer的预训练模型构建方法的流程图;
图6示意性示出了根据本公开的实施例的关键词识别装置的框图;
图7示意性示出了根据本公开的实施例的分类模块的框图;
图8示意性示出了根据本公开的实施例的第一计算模块的框图;
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种关键词识别方法以及能够应用该方法的装置。该方法包括对输入文本中的词进行分类,得到每个词的关键词概率。计算输入文本中词与词之间的相关性得分。根据相关性得分计算输入文本中各词的重要性得分。根据关键词概率及重要性得分计算输入文本中各词的关键词得分。根据关键词得分识别输入文本中的关键词。
图1示意性示出了根据本公开实施例的可以实现关键词识别方法示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括数据库101、网络102和服务器103。网络102用以在数据库100和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
数据库100中例如可以存储需要进行关键词识别的输入文本,网络103可以将需要进行关键词识别的输入文本输入服务器103,服务器103可以是提供各种服务的服务器,例如输入文本的获取,对获取的输入文本进行关键词识别。
需要说明的是,本公开实施例所提供的关键词识别方法一般可以由服务器103执行。相应地,本公开实施例所提供的关键词识别装置一般可以设置于服务器103中。本公开实施例所提供的关键词识别方法也可以由不同于服务器103且能够与数据库101,和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提关键词识别装置也可以设置于不同于服务器103且能够与数据库101和/或服务器103通信的服务器或服务器集群中。
例如,在进行关键词识别时,对关键词识别的过程并不直接由服务器103执行,而是由能够与数据库101、服务器103通信的服务器或服务器集群执行,关键词识别完成后,再将关键词识别的结果发送至服务器103进行。
应该理解,图1中的数据库、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的数据库、网络和服务器。
图2示意性示出了根据本公开实施例的关键词识别方法的流程图。
如图2所示,该方法包括操作S201~S205。
在操作S201,对输入文本中的词进行分类,得到每个词的关键词概率。
例如输入文本选择为商品的消息描述文本,记为{x1,x2,...,xn},其中,每一个xi代表一个词,可以对每一个词xi是否是卖点词进行分类,也即卖点词即为关键词,卖点词的关键词概率一般高于非卖点词。
在操作S202,计算输入文本中词与词之间的相关性得分。
继续沿用上述例子,对于输入文本{x1,x2,...,xn},计算词xi与词xj之间的相关性得分。在本公开实施例中,词与词之间的相关性可以指不同词语之间的意义相关性,例如包括同义词,反义词的分析等等。
在操作S203,根据相关性得分计算输入文本中各词的重要性得分。
在本公开实施例中,可以通过计算入度中心度得分作为词的重要性得分。
在操作S204,根据关键词概率及重要性得分计算输入文本中各词的关键词得分。
在操作S205,根据关键词得分识别输入文本中的关键词。
通过本公开实施例提供的关键词识别方法,在关键词识别过程,由于既获得每个词的关键词概率,又根据词与词之间的相关性计算得到每个词的重要性得分,便可以依据每个词关键词概率及重要性得分来获取每个词最终的关键词概率,即发挥了关键词标签的优势,又可以有效地通过挖掘词与词之间的相关性,获取词的重要性得分,用以指导有监督,从而将有监督和无监督的文本关键词识别有机地结合起来,以提高文本关键词识别的准确性。
下面结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开实施例的对输入文本中的词进行分类的方法流程图。
如图3所示,该分类方法例如可以包括操作S301~S302。
在操作S301,基于Transformer的预训练模型,对输入文本进行编码,生成一系列隐层序列,其中,隐层序列中的每一元素代表一个词。
继续沿用上述例子,对于输入文本{x1,x2,...,xn},本公开实施例基于Transformer的预训练模型对文本中的每个词进行编码。该模型一般包括编码器及解码器,编码器例如可以由多个基本层堆叠起来,每个基本层包含两个子层,第一个子层是一个注意力机制,第二个子层是一个全连接前向神经网络。对两个子层都引入了残差边以及层标准化。解码器也可以由多个基本层堆叠起来,每个基本层除了编码器里面的两个子层以外,还增加了一层自注意力机制,该层自注意力机制同样引入残差边以及层标准化。
由于基于Transformer的预训练模型一般都包含多层,因此,对于同一输入文本,会生成一系列的隐层序列,每一隐层序列均代表该输入文本,隐层序列中的每一元素代表该输入文本一个词。例如,隐层序列记为{h1,h2,...,hn},则h1代表词x1,h2代表词x2,......,hn代表词xn。其中,基于Transformer的预训练模型力图可以选择BERT(Bidirectional Encoder Representations from Transformers)模型,BERT是一种语言表示模型,BERT代表来自Transformer的双向编码器表示。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。
在操作S302,对一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
根据本公开实施例,选择一系列隐层序列中最上层的隐层序列代表该输入文本进行分类,这是因为相比于其他隐层序列,最上层的隐层序列最能代表该输入文本,对其进行分类的效果更好。
根据本公开实施例,可以根据公式:
pi=sigmoid(Whhi)
对输入文本中的词进行分类,其中,pi表示第i个词的关键词概率,sigmoid()表示激活函数,Wh表示参数矩阵,hi表示第i个词在隐层序列中对应的元素。
例如,对于商品的消息描述文本{x1,x2,...,xn},pi是xi的卖点得分。在分类时,当xi为卖点词时,其pi接近于1,反之当xi为非卖点词时,其pi接近于0。也即,pi介于0与1之间。
通过本公开实施例提供的分类方法,由于基于Transformer的预训练模型对输入文本进行编码,并且利用对编码结果中最上层及隐层序列进行分类,可充分利用关键词标签的优势,得到准确的关键词概率,进而提高后续关键词识别的准确性。
图4示意性示出了根据本公开实施例的计算输入文本中词与词之间的相关性得分的方法流程图。
如图4所示,该分类方法例如可以包括操作S401~S402。
在操作S401,基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,该隐层语义向量包括输入文本的查询向量及键值对中键对应的向量。
本公开实施例提供的Transformer的预训练模型的核心模块是自注意力机制。其中,自注意力机制指的是能够把输入文本对应的输入序列上不同位置的信息联系起来,然后计算出整条序列的某种表达,最后基于该种表达去识别关键词。具体地,自注意力机制例如可以是给定一个查询(query)和一个键值表(key-value pairs),将查询映射到正确的输入的过程。此处,查询、键、值和最终的输出都是向量。输出往往是一个加权求和的形式,而权重则由查询、键和值决定。因此,在操作S401,可以基于自注意力机制生成包括输入文本的查询向量及键对应的向量的隐层语义向量。其中,该Transformer的预训练模型也可以是BERT模型。
在操作S402,根据查询向量、键对应的向量计算输入文本中词与词之间的相关性得分。
通过本公开实施例提供的相关性得分的计算方法,由于基于Transformer的预训练模型可以动态的获取获取词与词之间的相关性,即该相关性汇综合考虑两个词存在的上下文语义,而非传统的静态向量方法,因而该方法可充分考虑两个词的相关性根据语境变化而变化情况(即在不同语境下,两个词的相关性不同),相比于传统的静态向量方法,计算得到的相关性得分更准确,进而提高关键词识别的准确性。
根据本公开的实施例,Transformer的预训练模型一般包括至少一层Transformer层,每一Transformer层均可以获取词xi与词xj之间的一个相关性得分。针对于每一层Transformer层,可以依据如下具体计算方式计算词与词之间的相关性得分。
具体地,可以根据公式:
Figure BDA0002841100430000111
计算相关性得分,其中,i、j表示输入文本中词的编号,n表示Transformer层的层数编号,
Figure BDA0002841100430000112
表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,
Figure BDA0002841100430000113
为比例因子,soft max()表示归一化指数函数。
获取每一层词xi与词xj之间的一个相关性得分后,可以将多层相关性得分平均,获取最终的相关性得分。即:
根据公式:
Figure BDA0002841100430000114
计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。
通过本公开实施例提供的具体相关性得分的计算方法,可以进一步保证相关性得分的准确性,进而保证关键词识别的准确性。
根据本公开的实施例,通过计算入度中心度得分,将其作为词xi的重要性得分。具体如下:
根据si=∑iDi,j计算第i个词xi的重要性得分,其中,i、j表示输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。
通过本公开实施例提供的具体重要性得分的计算方法,可以进一步保证重要性得分的准确性,进而保证关键词识别的准确性。
根据本公开的实施例,根据公式:
yi=pi*si
计算第i个词xi的关键词得分,其中,yi表示第i个词的关键词得分,si表示第i个词的重要性得分,pi表示第i个词的关键词概率。
通过本公开实施例提供的关键词得分的计算方法,将有监督和无监督的文本关键词识别有机地结合起来,以保证文本关键词识别的准确性。
图5示意性示出了根据本公开实施例的基于Transformer的预训练模型构建方法的流程图。
如图5所示,该模型构建方法例如可以包括操作S501~操作S502。
在操作S501,构建基于Transformer的预训练模型。
根据本公开实施例,将基于Transformer的预训练模型的自注意力机制配置为:
Figure BDA0002841100430000121
其中,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,K表示键值对中值对应的向量,
Figure BDA0002841100430000122
为比例因子,soft max()表示归一化指数函数。
Q、K、V可以由输入文本经过线性变换后得到,例如可以为:
Figure BDA0002841100430000123
其中,表示x表示输入文本,WQ表示Q对应的线性变换矩阵,WK表示K对应的线性变换矩阵,WV表示V对应的线性变换矩阵。
在操作S502,获取训练输入文本,将训练输入文本输入预训练模型进行训练,直至基于Transformer的预训练模型的损失函数不再降低。
根据本公开的实施例,该损失函数例如可以为:
Lp=piln(yi)+(1-pi)ln(1-yi)
其中,yi表示第i个词的关键词得分,pi表示第i个词的关键词概率。
通过本公开实施例提供的基于Transformer的预训练模型构建方法,通过关键词概率及关键词得分合理设计训练的损失函数,可以获得性能更好的基于Transformer的预训练模型,进而更好地进行关键词识别。
图6示意性示出了根据本公开的实施例的关键词识别装置的框图。
如图6所示,关键词识别装置600例如可以包括分类模块610、第一计算模块620、第二计算模块630、第三计算模块640及识别模块650。
分类模块610,用于对输入文本中的词进行分类,得到每个词的关键词概率。
第一计算模块620,用于计算输入文本中词与词之间的相关性得分。
第二计算模块630,用于根据相关性得分计算输入文本中各词的重要性得分;
第三计算模块640,用于根据关键词概率及重要性得分计算输入文本中各词的关键词得分;以及
识别模块650,用于根据关键词得分识别输入文本中的关键词。
下面结合附图对图6所示的关键词识别装置600进行进一步说明。
图7示意性示出了根据本公开的实施例的分类模块的框图。
根据本公开的实施例,如图7所示,分类模块610例如可以包括第一编码单元611及分类单元612。
第一编码单元611,用于基于Transformer的预训练模型,对输入文本进行编码,生成一系列隐层序列。
分类单元612,对一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
图8示意性示出了根据本公开的实施例的第一计算模块的框图。
根据本公开的实施例,如图8所示,第一计算模块620例如可以包括第二编码单元621及计算单元622。
第二编码单元621,用于基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,该隐层语义向量包括输入文本的查询向量及键值对中键对应的向量。
计算单元622,用于根据查询向量、键对应的向量计算输入文本中词与词之间的相关性得分。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,分类模块610、第一计算模块620、第二计算模块630、第三计算模块640及识别模块650中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,分类模块610、第一计算模块620、第二计算模块630、第三计算模块640及识别模块650中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,分类模块610、第一计算模块620、第二计算模块630、第三计算模块640及识别模块650中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中关键词识别装置部分与本公开的实施例中关键词识别方法部分是相对应的,其具体实施细节及带来的技术效果也是相同的,在此不再赘述。
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,根据本公开实施例的电子设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (17)

1.一种关键词识别方法,包括:
对输入文本中的词进行分类,得到每个词的关键词概率;
计算所述输入文本中词与词之间的相关性得分;
根据所述相关性得分计算所述输入文本中各词的重要性得分;
根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分;以及
根据所述关键词得分识别所述输入文本中的关键词。
2.根据权利要求1所述的关键词识别方法,其中,所述对输入文本中的词进行分类,得到每个词的关键词概率包括:
基于Transformer的预训练模型,对所述输入文本进行编码,生成一系列隐层序列,其中,所述隐层序列中的每一元素代表一个词;
对所述一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
3.根据权利要求1所述的关键词识别方法,其中,所述计算所述输入文本中词与词之间的相关性得分包括:
基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,所述隐层语义向量包括所述输入文本的查询向量及键值对中键对应的向量;
根据所述查询向量及所述键对应的向量计算输入文本中词与词之间的相关性得分。
4.根据权利要求3所述的关键词识别方法,其中,所述Transformer的预训练模型包括至少一层Transformer层,针对于每一层Transformer层,根据:
Figure FDA0002841100420000011
计算所述相关性得分,其中,i、j表示所述输入文本中词的编号,n表示Transformer层的层数编号,
Figure FDA0002841100420000012
表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,
Figure FDA0002841100420000021
为比例因子,softmax()表示归一化指数函数;
根据:
Figure FDA0002841100420000022
计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。
5.根据权利要求1所述的关键词识别方法,其中,所述根据所述相关性得分计算所述输入文本中各词的重要性得分包括:
根据si=∑iDi,j计算所述重要性得分;
其中,i、j表示所述输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。
6.根据权利要求1所述的关键词识别方法,其中,所述根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分包括:
根据公式:
yi=pi*si
计算所述关键词得分,其中,yi表示第i个词的关键词得分,si表示第i个词的重要性得分,pi表示第i个词的关键词概率。
7.根据权利要求2所述的关键词识别方法,其中,所述对输入文本中的词进行分类,得到每个词的关键词概率包括:
根据:
pi=sigmoid(Whhi)
对所述输入文本中的词进行分类,其中,pi表示第i个词的关键词概率,sigmoid()表示激活函数,Wh表示参数矩阵,hi表示第i个词在所述隐层序列中对应的元素。
8.根据权利要求1-7任一项所述的关键词识别方法,所述关键词识别方法还包括:
构建基于Transformer的预训练模型,其中,所述基于Transformer的预训练模型的自注意力机制为:
Figure FDA0002841100420000031
其中,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,K表示键值对中值对应的向量,
Figure FDA0002841100420000032
为比例因子,soft max()表示归一化指数函数;
获取训练输入文本,将所述训练输入文本输入所述预训练模型进行训练,直至所述基于Transformer的预训练模型的损失函数不再降低。
9.根据权利要求8所述的关键词识别方法,其中,所述损失函数为:
Lp=piln(yi)+(1-pi)ln(1-yi)
其中,yi表示第i个词的关键词得分,pi表示第i个词的关键词概率。
10.一种关键词识别装置,包括:
分类模块,用于对输入文本中的词进行分类,得到每个词的关键词概率;
第一计算模块,用于计算所述输入文本中词与词之间的相关性得分;
第二计算模块,用于根据所述相关性得分计算所述输入文本中各词的重要性得分;
第三计算模块,用于根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分;以及
识别模块,用于根据所述关键词得分识别所述输入文本中的关键词。
11.根据权利要求10所述的关键词识别装置,其中,所述分类模块对输入文本中的词进行分类,得到每个词的关键词概率包括:
基于Transformer的预训练模型,对所述输入文本进行编码,生成一系列隐层序列,其中,所述隐层序列中的每一元素代表一个词;
对所述一系列隐层序列中最上层的隐层序列进行分类,得到每个词的关键词概率。
12.根据权利要求10所述的关键词识别装置,其中,所述第一计算模块计算所述输入文本中词与词之间的相关性得分包括:
基于Transformer的预训练模型,对输入文本进行编码,生成隐层语义向量,其中,所述隐层语义向量包括所述输入文本的查询向量及键值对中键对应的向量;
根据所述查询向量及所述键对应的向量计算输入文本中词与词之间的相关性得分。
13.根据权利要求12所述的关键词识别装置,其中,所述Transformer的预训练模型包括至少一层Transformer层,针对于每一层Transformer层,根据:
Figure FDA0002841100420000041
计算所述相关性得分,其中,i、j表示所述输入文本中词的编号,n表示Transformer层的层数编号,
Figure FDA0002841100420000042
表示第n层Transformer层获取的第i词及第j个词之间的相关性得分,Q表示所述查询向量,K表示所述键对应的向量,T表示K的转置,
Figure FDA0002841100420000043
为比例因子,soft max()表示归一化指数函数;
根据:
Figure FDA0002841100420000044
计算第i词及第j个词之间的最终相关性得分,其中,L表示所述Transformer层的总层数,Di,j表示第i词及第j个词之间的最终相关性得分。
14.根据权利要求10所述的关键词识别装置,其中,所述第二计算模块根据所述相关性得分计算所述输入文本中各词的重要性得分包括:
根据si=∑iDi,j计算所述重要性得分;
其中,i、j表示所述输入文本中词的编号,Di,j表示第i个词及第j个词之间的最终相关性得分,si表示第i个词的重要性得分。
15.根据权利要求10所述的关键词识别装置,其中,所述第三计算模块根据所述关键词概率及所述重要性得分计算所述输入文本中各词的关键词得分包括:
根据公式:
yi=pi*si
计算所述关键词得分,其中,yi表示第i个词的关键词得分,si表示第i个词的重要性得分,pi表示第i个词的关键词概率。
16.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至9中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至9中任一项所述的方法。
CN202011498911.3A 2020-12-17 2020-12-17 关键词识别方法、装置、设备及介质 Pending CN112528026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011498911.3A CN112528026A (zh) 2020-12-17 2020-12-17 关键词识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011498911.3A CN112528026A (zh) 2020-12-17 2020-12-17 关键词识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112528026A true CN112528026A (zh) 2021-03-19

Family

ID=75001209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011498911.3A Pending CN112528026A (zh) 2020-12-17 2020-12-17 关键词识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112528026A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
US20190163690A1 (en) * 2016-11-10 2019-05-30 Tencent Technology (Shenzhen) Company Limited Keyword extraction method, apparatus and server
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678418A (zh) * 2012-09-25 2014-03-26 富士通株式会社 信息处理方法和信息处理设备
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
US20190163690A1 (en) * 2016-11-10 2019-05-30 Tencent Technology (Shenzhen) Company Limited Keyword extraction method, apparatus and server
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法
CN110826328A (zh) * 2019-11-06 2020-02-21 腾讯科技(深圳)有限公司 关键词提取方法、装置、存储介质和计算机设备
CN111914564A (zh) * 2020-07-13 2020-11-10 北京邮电大学 一种文本关键词确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜永清;赵宪佳;: "基于文本的关键词提取方法研究与实现", 信息与电脑(理论版), no. 05, 10 March 2020 (2020-03-10) *

Similar Documents

Publication Publication Date Title
US11960519B2 (en) Classifying data objects
US11288593B2 (en) Method, apparatus and device for extracting information
US11714993B2 (en) Classifying input examples using a comparison set
US11436487B2 (en) Joint embedding of corpus pairs for domain mapping
US11907337B2 (en) Multimodal image classifier using textual and visual embeddings
CN112487807B (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
US20200104311A1 (en) Method and system for extracting information from graphs
CN115485696A (zh) 机器学习模型的对抗预训练
US10657189B2 (en) Joint embedding of corpus pairs for domain mapping
CN111475617A (zh) 事件主体抽取方法、装置及存储介质
US10642919B2 (en) Joint embedding of corpus pairs for domain mapping
CN110678882A (zh) 使用机器学习从电子文档选择回答跨距
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN112307738A (zh) 用于处理文本的方法和装置
US20230070966A1 (en) Method for processing question, electronic device and storage medium
US11783244B2 (en) Methods and systems for holistic medical student and medical residency matching
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
US11880664B2 (en) Identifying and transforming text difficult to understand by user
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN112528026A (zh) 关键词识别方法、装置、设备及介质
CN112347242A (zh) 摘要生成方法、装置、设备及介质
CN113822018A (zh) 实体关系联合抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination