CN116361422B - 关键词提取方法、文本检索方法及相关设备 - Google Patents

关键词提取方法、文本检索方法及相关设备 Download PDF

Info

Publication number
CN116361422B
CN116361422B CN202310649615.6A CN202310649615A CN116361422B CN 116361422 B CN116361422 B CN 116361422B CN 202310649615 A CN202310649615 A CN 202310649615A CN 116361422 B CN116361422 B CN 116361422B
Authority
CN
China
Prior art keywords
text
processed
sequence
syntax
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310649615.6A
Other languages
English (en)
Other versions
CN116361422A (zh
Inventor
李杰坷
雷宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Deli Technology Co ltd
Original Assignee
Shenzhen Deli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Deli Technology Co ltd filed Critical Shenzhen Deli Technology Co ltd
Priority to CN202310649615.6A priority Critical patent/CN116361422B/zh
Publication of CN116361422A publication Critical patent/CN116361422A/zh
Application granted granted Critical
Publication of CN116361422B publication Critical patent/CN116361422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及自然语言处理技术领域,公开了一种关键词提取方法、文本检索方法、装置、计算机设备及计算机可读存储介质,该关键词提取方法包括:获取待处理文本;提取所述待处理文本对应的待处理文本特征序列,所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。通过上述方式,本发明实施例实现了对文本中关键词的准确提取。

Description

关键词提取方法、文本检索方法及相关设备
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种关键词提取方法、文本检索方法、装置、计算机设备及计算机可读存储介质。
背景技术
目前,对于信息检索系统的工作过程,一般的方式是:用户输入一段文本,系统对文本进行分词得到分词词汇集合,然后利用词汇匹配的方式从检索数据库中检索出需要相关的文档,系统会根据文档中的词汇于分词词汇集合的匹配程度进行相关性排序,从而确定文档中的关键词。简单来讲,匹配命中分词词汇集合中的词汇越多的文档匹配程度越高。
然而,由于用户输入的文本中总是存在如“的”、“吗”等一些虚词,或者其他的与表达的核心语义无关的词汇,这些词汇参与到检索系统的匹配过程会明显影响匹配的相关性,故需要设计一个核心关键词提取模型,从用户输入的文本中提取能表达核心信息的词汇集合,再使用该词汇集合去进行检索,可以减少无效词汇对检索的影响,可以更加精准的检索到用户需要的信息。
现存的关键词提取模型虽然也加入了知识图谱、类目等信息,并使用深度模型学习来学习关键词提取任务,但其中存在两个问题:
1、现有的关键词提取模型并没有使用更加有效的文本语法信息,无法反应文本词汇之间的关系,不利于关键词汇的提取;
2、现有的关键词提取模型仅使用单一的关键词提取任务训练深度模型,并不能充分学习所提供的除了文本特征之外的特征。
因此,现有的关键词提取模型对于文本关键词的不够准确。
发明内容
鉴于上述问题,本发明实施例提供了一种关键词提取方法、文本检索方法、装置、计算机设备及计算机可读存储介质,用于解决现有技术中存在的关键词提取模型对于文本关键词的不够准确的问题。
根据本发明实施例的一个方面,提供了一种关键词提取方法,所述方法包括:
获取待处理文本;
提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;
将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括深度特征提取模块;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。
在一种可选的方式中,所述神经网络模型还包括特征序列嵌入模块;所述将所述待处理文本输入关键词提取模型中,得到目标关键词之前,所述方法还包括:构建文本样本;通过所述特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;将所述样本文本特征向量序列输入所述神经网络模型进行迭代训练,得到关键词提取模型。
在一种可选的方式中,所述对所述文本样本进行向量化处理,得到样本文本特征向量序列,包括:将所述文本样本中的样本字符标签、对应的样本文本词性标签、样本文本句法标签分别转化为样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列;将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。
在一种可选的方式中,所述神经网络模型还包括多个全连接网络;将所述样本文本特征向量序列输入神经网络模型进行迭代训练,得到关键词提取模型,包括:将所述样本文本特征向量序列依次输入所述深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果;根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失;根据所述文本句法预测结果及所述文本句法标签,计算句法标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失及所述句法标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行上述步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型。
在一种可选的方式中,所述将所述样本文本特征向量序列依次输入深度特征提取模块中,得到关键词预测结果、文本词性预测结果、文本句法预测结果,包括:将所述样本文本特征向量序列依次输入深度特征提取模块中,得到输出向量;将所述输出向量通过各个全连接网络确定关键词预测结果、文本词性预测结果、文本句法预测结果。
在一种可选的方式中,所述提取所述待处理文本对应的待处理文本特征序列,包括:对待处理文本进行分词,得到各个待处理文本中的各个字符序列;对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。
在一种可选的方式中,所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络。
根据本发明实施例的另一方面,提供了一种文本检索方法,所述方法包括:
提取待处理文本中的目标关键词,所述目标关键词根据所述的关键词提取方法提取得到;
根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
根据本发明实施例的另一方面,提供了一种关键词提取装置,包括:
获取模块,用于获取待处理文本;
转换模块,用于提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;
提取模块,用于将所述待处理文本输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型及条件随机场模型;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。
根据本发明实施例的另一方面,提供了一种计算机设备,包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行所述的关键词提取方法或所述的文本检索方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行所述的关键词提取方法或所述的文本检索方法的操作。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型及条件随机场模型;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型及条件随机场模型能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的关键词提取方法的流程示意图;
图2示出了本发明实施例提供的关键词提取方法中关键词提取模型的结构示意图;
图3示出了本发明实施例提供的文本检索方法的流程示意图;
图4示出了本发明实施例提供的关键词提取装置的结构示意图;
图5示出了本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
图1示出了本发明实施例提供的关键词提取方法的流程图,该方法由计算机设备执行。该计算机设备可以是台式电脑、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等设备,本申请实施例对计算机设备的具体类型不作任何限制。如图1所示,该方法包括以下步骤:
步骤110:获取待处理文本。
其中,该待处理文本为需要提取关键词的文本对象,可以是一个或多个给定的文本段落、文章等。其中,该待处理文本还可以是用户输入的文本内容、从图片、语音或视频中提取出的文本,或从特定系统或网站等生成的文本等,本发明实施例不做具体限制。
步骤120:提取所述待处理文本对应的待处理文本特征序列。
其中,所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列。由于本发明实施例中利用了文本的词性和句法分析信息,其中,句法分析信息包括组成句法分析信息和依存句法分析信息,因此,本发明实施例在将待处理文本转换为待处理文本特征序列时,待处理文本特征序列中还包括了待处理文本中各个句法及各个词性的相关特征信息。
其中,待处理文本的字符序列包括待处理文本中各个字符特征,待处理文本词性序列包括待处理文本中各个词的词性特征,待处理文本句法序列包括待处理文本中各个句子的句法特征。具体地,通过以下方式确定对应的待处理文本特征序列中的字符序列、对应的待处理文本词性序列、待处理文本句法序列:对待处理文本进行分词,得到各个待处理文本中的各个字符序列;对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。本发明实施例中,可预先通过文本识别工具及分词工具,对待处理文本进行识别及分词,得到各个待处理文本中的各个字符及词,以及待处理文本中各个句子的句法特征又包括组成句法特征及句法依存特征。其中,组成句法特征表征句子中词与词之间的组合关系。句法依存特征表征各个词语之间的依存关系。
其中,所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列分别可以表示为:
待处理文本的字符序列:[TW1,TW2,TW3,...,TWn];其中,TWn表示待处理文本的第n个字符特征;
待处理文本词性序列:[TP1,TP2,TP3,...,TPn];其中,TPn表示待处理文本的第n个词性特征。
待处理文本组成句法序列:[TC1,TC2,TC3,...,TCn];其中,TCn表示待处理文本的第n个组成句法特征。
待处理文本依存句法序列:[TA1,TA2,TA3,...,TAn];其中,TAn表示待处理文本的第n个依存句法特征。
步骤130:将所述待处理文本输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型及条件随机场模型;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。
如图2所示,本发明实施例的关键词提取模型基于神经网络模型构建,该神经网络模型包括特征序列嵌入模块、深度特征提取模块、全连接网络及预测输出模块。
其中,在将所述待处理文本输入关键词提取模型中,得到目标关键词之前,所述方法预先对该关键词提取模型进行训练,具体包括:
步骤001:构建文本样本。分别对文本样本进行分词、词性分析及句法分析,得到文本词性标签、文本句法标签,并对文本样本进行关键词标签标注,得到关键词标签。从而构建得到带标签的文本样本,该文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。其中,文本句法标签包括文本组成句法标签及文本句法依存标签。
该文本样本的标签可以表示为:
关键词标签:[tw1,tw2,tw3,...,twn];其中,twn表示文本样本中第n个关键词特征;
文本词性标签:[tp1,tp2,tp3,...,tpn];其中,tpn表示文本样本中第n个词性特征。
文本组成句法标签:[tc1,tc2,tc3,...,tcn];其中,tcn表示文本样本中第n个文本组成句法特征。
文本句法依存标签:[ta1,ta2,ta3,...,tan];其中,tan表示文本样本中第n个依存句法特征。
步骤002:通过所述特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列。其中,特征序列嵌入模块用于将待处理文本特征序列进行向量化。具体地,特征序列嵌入模块包括字符序列嵌入模块、词性序列嵌入模块、组成句法序列嵌入模块及依存句法嵌入模块。具体地,通过字符序列嵌入模块将所述文本样本中的样本字符标签转化为样本字符向量序列;通过词性序列嵌入模块将对应的样本文本词性标签转化为样本文本词性向量序列;通过组成句法序列嵌入模块将文本组成句法标签转化为文本组成句法向量序列;通过依存句法嵌入模块将文本句法依存标签转化为文本句法依存向量序列。
其中,分别表示为:
[Ew1,Ew2,...,Ewn];其中,Ewn表示样本字符向量序列中的第n个关键词字符向量;
[Ep1,Ep2,...,Epn];其中,Epn表示样本文本词性向量序列中的第n个文本样本词性向量;
[Ec1,Ec2,...,Ecn];其中,Ecn表示样本文本组成句法向量序列中的第n个样本文本组成句法向量;
[Ea1,Ea2,...,Ean];其中,Ean表示样本文本依存句法向量序列中的第n个样本文本依存句法向量。
之后,将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。可以表示为:
[Ein1,Ein2,...,Einn]=[Ew1,Ew2,...,Ewn]+[Ep1,Ep2,...,Epn]+[Ec1,Ec2,...,Ecn]+[Ea1,Ea2,...,Ean]。
其中,Einn表示样本文本特征向量序列中的第n个特征。
步骤003:将所述样本文本特征向量序列输入所述神经网络模型进行迭代训练,得到关键词提取模型。
具体地,将所述样本文本特征向量序列依次输入所述深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果。其中,将所述样本文本特征向量序列依次输入所述深度特征提取模块,得到样本输出向量序列,可以表示为:[E01,E02,E03,...,E0n]。本发明实施例中,深度特征提取模块包括多层自注意力模型(Transformer)和场随机条件模型(CRF),用于对所述待处理文本字符向量序列、所述待处理文本词性向量序列及所述待处理文本句法向量序列进行深度融合和信息提取。该深度特征提取模块由两部分组成:12个自注意力模型叠加的模型和条件随机场模型,最终经过深度特征提取模型得到文本样本的样本输出向量序列。本发明实施例的神经网络模型包括四个2层全连接网络,每个全连接网络用于对样本输出向量序列中的每一个向量进行维度为1的转换,得到对应的维度下的预测结果,也即关键词预测结果、文本词性预测结果、文本句法预测结果。文本句法预测结果包括组成句法预测结果及句法依存预测结果。
在得到关键词预测结果、文本词性预测结果、文本句法预测结果后,分别计算关键词预测任务损失、词性标签预测任务损失、组成句法标签预测任务损失、句法依存标签预测损失。具体地,根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失L1;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失L2;根据所述组成句法预测结果及所述组成文本句法标签,计算组成句法标签预测任务损失L3;根据所述句法依存预测结果及所述文本句法依存标签,计算句法依存标签预测任务损失L4;根据所述关键词预测任务损失L1、所述词性标签预测任务损失L2及所述组成句法标签预测任务损失L3、句法依存标签预测任务损失L4,计算总损失L。其中,相加得到总的损失:L=L1+L2+L3+L4。本发明实施例中,所述关键词预测任务损失L1、所述词性标签预测任务损失L2及所述组成句法标签预测任务损失L3、句法依存标签预测任务损失L4分别根据交叉熵损失函数计算得到。
其中,在得到总损失之后,根据所述总损失调整所述神经网络模型的参数,并继续迭代执行上述步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型。
本发明实施例中,在得到训练好的关键词提取模型之后,即可用于对待处理文本进行关键词提取。其中,在步骤120得到待处理文本中的字符序列、对应的待处理文本词性序列、待处理文本句法序列后,首先分别通过关键词提取模型中的字符序列嵌入模块、词性序列嵌入模块、组成句法序列嵌入模块及依存句法嵌入模块,转化为待处理文本字符向量序列、待处理文本词性向量序列、待处理文本句法向量序列。转换后的待处理文本字符向量序列、待处理文本词性向量序列、待处理文本句法向量序列分别表示为:
[EW1,EW2,...,Ewn];其中,Ewn表示待处理文本字符向量序列中的第n个待处理文本字符向量;
[EP1,EP2,...,EPn];其中,EPn表示待处理文本词性向量序列中的第n个待处理文本词性向量;
[EC1,EC2,...,ECn];其中,ECn表示待处理文本组成句法向量序列中的第n个待处理文本组成句法向量;
[EA1,EA2,...,EAn];其中,EAn表示待处理文本待处理文本依存句法向量序列中的第n个待处理文本依存句法向量。
然后,通过深度特征提取模块对所述待处理文本字符向量序列、所述待处理文本词性向量序列及所述待处理文本句法向量序列进行融合,得到待处理文本特征序列。
其中,将所述待处理文本字符向量序列、所述待处理文本词性向量序列及所述待处理文本句法向量序列进行融合,得到待处理文本特征序列,具体可以表示为:
[EIN1,EIN2,...,EINn]=[EW1,EW2,...,Ewn]+[EP1,EP2,...,EPn]+[EC1,EC2,...,ECn]+[EA1,EA2,...,EAn]。其中,EINn表示待处理文本特征序列中的第n个特征。
将融合后得到的待处理文本特征序列输入深度特征提取模块进行深度特征融合及信息提取,得到待处理文本的输出向量序列,可以表示为:[EO1,EO2,EO3,...,EOn]。
然后,通过全连接层的一个全连接网络对待处理文本的输出向量序列中的每一个向量进行维度为1的转换,得到对应的关键词维度下的预测结果,也即关键词预测结果[P1,P2,...,Pn]。本发明实施例中,预测序列中的每个预测值与待处理文本中字符序列中的字符一一对应,因此取预测值大于预设阈值的位置对应的字符为目标关键词。本发明实施例并不具体限制该预测阈值的具体取值,在本发明一个实施例中该预测阈值可以为0.5,也即大于0.5位置Pi对应的字符,为预测的关键词。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型及条件随机场模型;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型及条件随机场模型能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
图3示出了本发明另一实施例提供的文本检索方法的流程图,该方法由计算机设备执行。如图3所示,该方法包括以下步骤:
步骤210:提取待处理文本中的目标关键词。
其中,所述目标关键词根据前述实施例所述的关键词提取方法提取得到,此处不再赘述。
其中,待处理文本为给定一个需要检索匹配的文本段落。也即,对于给定的一个文本段落,将其确定为待处理文本,以从检索数据库中检索匹配的文本信息。
步骤220:根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
其中,该检索数据库可以为检索网站、专用检索系统等,本发明实施例不做具体限制。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型及条件随机场模型;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型及条件随机场模型能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
图4示出了本发明实施例提供的关键词提取装置的结构示意图。如图4所示,该装置300包括:
获取模块310,用于获取待处理文本;
转换模块320,用于提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;
提取模块330,用于将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括深度特征提取模块;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。
在一种可选的方式中,所述神经网络模型还包括特征序列嵌入模块;所述装置还包括:构建模块,用于构建文本样本;向量化模块,用于通过所述特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;迭代训练模块,用于将所述样本文本特征向量序列输入所述神经网络模型进行迭代训练,得到关键词提取模型。
在一种可选的方式中,所述向量化模块,进一步用于:将所述文本样本中的样本字符标签、对应的样本文本词性标签、样本文本句法标签分别转化为样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列;将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。
在一种可选的方式中,所述神经网络模型还包括多个全连接网络;所述迭代训练模块,进一步用于:将所述样本文本特征向量序列依次输入所述深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果;根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失;根据所述文本句法预测结果及所述文本句法标签,计算句法标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失及所述句法标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行上述步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型。
在一种可选的方式中,所述迭代训练模块,具体用于:将所述样本文本特征向量序列依次输入深度特征提取模块中,得到输出向量;将所述输出向量通过各个全连接网络确定关键词预测结果、文本词性预测结果、文本句法预测结果。
在一种可选的方式中,所述提取所述待处理文本对应的待处理文本特征序列,包括:对待处理文本进行分词,得到各个待处理文本中的各个字符序列;对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。
在一种可选的方式中,所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络。
本发明实施例中的关键词提取装置的具体工作过程与上述关键词提取方法实施例的具体方法步骤大体一致,此处不再赘述。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型、条件随机场模型及全连接网络能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
图5示出了本发明实施例提供的计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。处理器402,用于执行程序410,具体可以执行上述用于关键词提取方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机可执行指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以被处理器402调用使计算机设备执行以下操作:
获取待处理文本;
提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;
将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括深度特征提取模块;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签;
或者,
提取所述待处理文本中的目标关键词,所述目标关键词根据所述的关键词提取方法提取得到;
根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
在一种可选的方式中,所述神经网络模型还包括特征序列嵌入模块;所述将所述待处理文本输入关键词提取模型中,得到目标关键词之前,所述方法还包括:构建文本样本;通过所述特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;将所述样本文本特征向量序列输入所述神经网络模型进行迭代训练,得到关键词提取模型。
在一种可选的方式中,所述对所述文本样本进行向量化处理,得到样本文本特征向量序列,包括:将所述文本样本中的样本字符标签、对应的样本文本词性标签、样本文本句法标签分别转化为样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列;将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。
在一种可选的方式中,所述神经网络模型还包括多个全连接网络;将所述样本文本特征向量序列输入神经网络模型进行迭代训练,得到关键词提取模型,包括:将所述样本文本特征向量序列依次输入所述深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果;根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失;根据所述文本句法预测结果及所述文本句法标签,计算句法标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失及所述句法标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行上述步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型。
在一种可选的方式中,所述将所述样本文本特征向量序列依次输入深度特征提取模块中,得到关键词预测结果、文本词性预测结果、文本句法预测结果,包括:将所述样本文本特征向量序列依次输入深度特征提取模块中,得到输出向量;将所述输出向量通过各个全连接网络确定关键词预测结果、文本词性预测结果、文本句法预测结果。
在一种可选的方式中,所述提取所述待处理文本对应的待处理文本特征序列,包括:对待处理文本进行分词,得到各个待处理文本中的各个字符序列;对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。
在一种可选的方式中,所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型、条件随机场模型及全连接网络能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在计算机设备上运行时,使得所述计算机设备执行上述任意方法实施例中的关键词提取方法或文本检索方法。
可执行指令具体可以用于使得计算机设备执行以下操作:
获取待处理文本;
提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列;
将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;所述关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括深度特征提取模块;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签;
或者,
提取所述待处理文本中的目标关键词,所述目标关键词根据所述的关键词提取方法提取得到;
根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
在一种可选的方式中,所述神经网络模型还包括特征序列嵌入模块;所述将所述待处理文本输入关键词提取模型中,得到目标关键词之前,所述方法还包括:构建文本样本;通过所述特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;将所述样本文本特征向量序列输入所述神经网络模型进行迭代训练,得到关键词提取模型。
在一种可选的方式中,所述对所述文本样本进行向量化处理,得到样本文本特征向量序列,包括:将所述文本样本中的样本字符标签、对应的样本文本词性标签、样本文本句法标签分别转化为样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列;将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。
在一种可选的方式中,所述神经网络模型还包括多个全连接网络;将所述样本文本特征向量序列输入神经网络模型进行迭代训练,得到关键词提取模型,包括:将所述样本文本特征向量序列依次输入所述深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果;根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失;根据所述文本句法预测结果及所述文本句法标签,计算句法标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失及所述句法标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行上述步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型。
在一种可选的方式中,所述将所述样本文本特征向量序列依次输入深度特征提取模块中,得到关键词预测结果、文本词性预测结果、文本句法预测结果,包括:将所述样本文本特征向量序列依次输入深度特征提取模块中,得到输出向量;将所述输出向量通过各个全连接网络确定关键词预测结果、文本词性预测结果、文本句法预测结果。
在一种可选的方式中,所述提取所述待处理文本对应的待处理文本特征序列,包括:对待处理文本进行分词,得到各个待处理文本中的各个字符序列;对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。
在一种可选的方式中,所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络。
根据本发明实施例的另一方面,提供了一种文本检索方法,所述方法包括:
提取所述待处理文本中的目标关键词,所述目标关键词根据所述的关键词提取方法提取得到;
根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
本发明实施例通过获取待处理文本,提取所述待处理文本对应的待处理文本特征序列,将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词。其中,该关键词提取模型根据带标签的文本样本输入神经网络模型中训练得到;所述神经网络模型包括多层依次连接的自注意力模型、条件随机场模型及全连接网络;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、文本句法标签。本发明实施例在对关键词提取模型进行训练时,通过结合文本的词性信息和句法分析,来使用文本更加有效的文本语法信息,来更加直观地反映文本词汇之间的关系,更有利于关键词的准确提取。并且通过多层依次连接的自注意力模型、条件随机场模型及全连接网络能够更加有效地提取文本的深层特征,克服了现有技术中仅通过单一的关键词进行模型训练,使得不能充分学习除关键词特征之外的特征,本发明实施例所提取的关键词集合既包含所给定文本的全部核心语义信息,又尽量不包含非核心语义信息之外的冗余信息,实现了对文本中关键词的更加准确地提取。
本发明实施例提供一种关键词提取装置,用于执行上述关键词提取方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使计算机设备执行上述任意方法实施例中的关键词提取方法或文本检索方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的关键词提取方法或文本检索方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (7)

1.一种关键词提取方法,其特征在于,所述方法包括:
构建文本样本;
通过特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;所述样本文本特征向量序列包括:样本字符向量序列、样本文本词性向量序列、样本组成句法向量序列及样本组成文本句法向量序列;
将所述样本文本特征向量序列输入神经网络模型进行迭代训练,得到关键词提取模型,包括:将所述样本文本特征向量序列依次输入深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、组成句法预测结果及句法依存预测结果;根据所述关键词预测结果及关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及文本词性标签,计算词性标签预测任务损失;根据所述组成句法预测结果及组成文本句法标签,计算组成句法标签预测任务损失;根据所述句法依存预测结果及文本句法依存标签,计算句法依存标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失、组成句法预测结果及所述句法依存标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行将所述样本文本特征向量序列依次输入深度特征提取模块及各个全连接网络,计算总损失,根据所述总损失调整所述神经网络模型的参数的步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型;所述神经网络模型包括深度特征提取模块,所述深度特征提取模块由两部分组成:12个自注意力模型叠加的模型和条件随机场模型;所述神经网络模型还包括四个2层全连接网络;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、组成文本句法标签及文本句法依存标签;
获取待处理文本;
提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列、待处理文本组成句法序列及待处理文本依存句法序列;其中,文本组成句法序列表征句子中词与词之间的组合关系,待处理文本依存句法序列表征各个词语之间的依存关系;
将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;其中,通过关键词提取模型中的字符序列嵌入模块、词性序列嵌入模块、组成句法序列嵌入模块及依存句法嵌入模块,转化为待处理文本字符向量序列、待处理文本词性向量序列、待处理文本句法向量序列;通过深度特征提取模块对所述待处理文本字符向量序列、所述待处理文本词性向量序列及所述待处理文本句法向量序列进行融合机特征提取,得到待处理文本特征序列;将融合后得到的待处理文本特征序列输入深度特征提取模块进行深度特征融合及信息提取,得到待处理文本的输出向量序列;通过全连接层的一个全连接网络对待处理文本的输出向量序列中的每一个向量进行维度为1的转换,得到对应的关键词维度下的预测结果;将预测结果大于预设阈值的位置对应的字符为目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本样本进行向量化处理,得到样本文本特征向量序列,包括:
将所述文本样本中的样本字符标签、对应的样本文本词性标签、样本文本句法标签分别转化为样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列;
将所述样本字符向量序列、样本文本词性向量序列、样本文本句法向量序列进行特征融合,得到样本文本特征向量序列。
3.根据权利要求1或2所述的方法,其特征在于,所述提取所述待处理文本对应的待处理文本特征序列,包括:
对待处理文本进行分词,得到各个待处理文本中的各个字符序列;
对待处理文本进行词性分析及句法分析,得到待处理文本的待处理文本词性序列及待处理文本句法序列;
将所述待处理文本中的字符序列、待处理文本词性序列及待处理文本句法序列组合,得到待处理文本特征序列。
4.一种文本检索方法,其特征在于,所述方法包括:
提取待处理文本中的目标关键词,所述目标关键词根据如权利要求1-3任一项所述的关键词提取方法提取得到;
根据所述目标关键词,在检索数据库中搜索匹配的文本信息。
5.一种关键词提取装置,其特征在于,所述装置包括:
构建模块,用于构建文本样本;
向量化模块,用于通过特征序列嵌入模块对所述文本样本进行向量化处理,得到样本文本特征向量序列;所述样本文本特征向量序列包括:样本字符向量序列、样本文本词性向量序列、样本组成句法向量序列及样本组成文本句法向量序列;
迭代训练模块,用于将所述样本文本特征向量序列输入神经网络模型进行迭代训练,得到关键词提取模型,包括:将所述样本文本特征向量序列依次输入深度特征提取模块及各个全连接网络中,得到关键词预测结果、文本词性预测结果、文本句法预测结果;根据所述关键词预测结果及所述关键词标签,计算关键词预测任务损失;根据所述文本词性预测结果及所述文本词性标签,计算词性标签预测任务损失;根据所述文本句法预测结果及所述文本句法标签,计算句法标签预测任务损失;根据所述关键词预测任务损失、所述词性标签预测任务损失及所述句法标签预测任务损失,计算总损失;根据所述总损失调整所述神经网络模型的参数,并继续迭代执行将所述样本文本特征向量序列依次输入深度特征提取模块及各个全连接网络,计算总损失,根据所述总损失调整所述神经网络模型的参数的步骤,直至所述总损失小于预设阈值或达到最大迭代次数,得到训练好的关键词提取模型;所述神经网络模型包括深度特征提取模块,所述深度特征提取模块由两部分组成:12个自注意力模型叠加的模型和条件随机场模型;所述神经网络模型还包括四个2层全连接网络;所述文本样本的标签包括文本样本对应的关键词标签、文本词性标签、组成文本句法标签及文本句法依存标签;
获取模块,用于获取待处理文本;
转换模块,用于提取所述待处理文本对应的待处理文本特征序列;所述待处理文本特征序列包括待处理文本中的字符序列、待处理文本词性序列、待处理文本组成句法序列及待处理文本依存句法序列;其中,文本组成句法序列表征句子中词与词之间的组合关系,待处理文本依存句法序列表征各个词语之间的依存关系;
提取模块,用于将所述待处理文本特征序列输入关键词提取模型中,得到目标关键词;其中,通过关键词提取模型中的字符序列嵌入模块、词性序列嵌入模块、组成句法序列嵌入模块及依存句法嵌入模块,转化为待处理文本字符向量序列、待处理文本词性向量序列、待处理文本句法向量序列;通过深度特征提取模块对所述待处理文本字符向量序列、所述待处理文本词性向量序列及所述待处理文本句法向量序列进行融合机特征提取,得到待处理文本特征序列;将融合后得到的待处理文本特征序列输入深度特征提取模块进行深度特征融合及信息提取,得到待处理文本的输出向量序列;通过全连接层的一个全连接网络对待处理文本的输出向量序列中的每一个向量进行维度为1的转换,得到对应的关键词维度下的预测结果;将预测结果大于预设阈值的位置对应的字符为目标关键词。
6.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3任意一项所述的关键词提取方法或如权利要求4所述的文本检索方法的操作。
7.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在计算机设备上运行时,使得计算机设备执行如权利要求1-3任意一项所述的关键词提取方法或如权利要求4所述的文本检索方法的操作。
CN202310649615.6A 2023-06-02 2023-06-02 关键词提取方法、文本检索方法及相关设备 Active CN116361422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310649615.6A CN116361422B (zh) 2023-06-02 2023-06-02 关键词提取方法、文本检索方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310649615.6A CN116361422B (zh) 2023-06-02 2023-06-02 关键词提取方法、文本检索方法及相关设备

Publications (2)

Publication Number Publication Date
CN116361422A CN116361422A (zh) 2023-06-30
CN116361422B true CN116361422B (zh) 2023-09-19

Family

ID=86929111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310649615.6A Active CN116361422B (zh) 2023-06-02 2023-06-02 关键词提取方法、文本检索方法及相关设备

Country Status (1)

Country Link
CN (1) CN116361422B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
JP2019192247A (ja) * 2018-04-20 2019-10-31 株式会社Nttドコモ 文ラベル方法及び文ラベル装置
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111339751A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种文本关键词处理方法、装置及设备
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN113392305A (zh) * 2020-11-25 2021-09-14 腾讯科技(深圳)有限公司 关键词的提取方法及装置、电子设备、计算机存储介质
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法
CN116010567A (zh) * 2022-12-26 2023-04-25 清华大学 关键词抽取方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210064821A1 (en) * 2019-08-27 2021-03-04 Ushur, Inc. System and method to extract customized information in natural language text

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019192247A (ja) * 2018-04-20 2019-10-31 株式会社Nttドコモ 文ラベル方法及び文ラベル装置
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111339751A (zh) * 2020-05-15 2020-06-26 支付宝(杭州)信息技术有限公司 一种文本关键词处理方法、装置及设备
CN113392305A (zh) * 2020-11-25 2021-09-14 腾讯科技(深圳)有限公司 关键词的提取方法及装置、电子设备、计算机存储介质
CN112464656A (zh) * 2020-11-30 2021-03-09 科大讯飞股份有限公司 关键词抽取方法、装置、电子设备和存储介质
CN114297388A (zh) * 2021-12-31 2022-04-08 天津光电通信技术有限公司 一种文本关键词提取方法
CN116010567A (zh) * 2022-12-26 2023-04-25 清华大学 关键词抽取方法及装置

Also Published As

Publication number Publication date
CN116361422A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US10437929B2 (en) Method and system for processing an input query using a forward and a backward neural network specific to unigrams
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN108829757B (zh) 一种聊天机器人的智能服务方法、服务器及存储介质
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110955761A (zh) 文书中问答数据获取方法、装置、计算机设备和存储介质
US20190340503A1 (en) Search system for providing free-text problem-solution searching
CN111191032B (zh) 语料扩充方法、装置、计算机设备和存储介质
CN110737839A (zh) 短文本的推荐方法、装置、介质及电子设备
CN111460303B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114519120A (zh) 基于多模态算法的图像搜索方法及装置
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113282711A (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113128232A (zh) 一种基于albert与多重词信息嵌入的命名实体识别方法
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
AU2018226420A1 (en) Voice assisted intelligent searching in mobile documents
CN116361422B (zh) 关键词提取方法、文本检索方法及相关设备
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN111680132A (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
CN114548109B (zh) 命名实体识别模型训练方法及命名实体识别方法
CN113779202B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN114003773A (zh) 一种基于自构建多场景的对话追踪方法
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113806536A (zh) 文本分类方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant