CN113239668B - 关键词智能提取方法、装置、计算机设备及存储介质 - Google Patents

关键词智能提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113239668B
CN113239668B CN202110600155.9A CN202110600155A CN113239668B CN 113239668 B CN113239668 B CN 113239668B CN 202110600155 A CN202110600155 A CN 202110600155A CN 113239668 B CN113239668 B CN 113239668B
Authority
CN
China
Prior art keywords
sentence
vector
vocabulary
text
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110600155.9A
Other languages
English (en)
Other versions
CN113239668A (zh
Inventor
李志韬
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110600155.9A priority Critical patent/CN113239668B/zh
Publication of CN113239668A publication Critical patent/CN113239668A/zh
Application granted granted Critical
Publication of CN113239668B publication Critical patent/CN113239668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了关键词智能提取方法、装置、计算机设备及存储介质,方法包括:将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。本发明属于语义解析技术领域,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,大幅提高了从文本中进行关键词提取的准确性。

Description

关键词智能提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及语义解析技术领域,属于智慧城市中对文本进行关键词智能提取的应用场景,尤其涉及一种关键词智能提取方法、装置、计算机设备及存储介质。
背景技术
关键词提取是传统自然语言处理中非常常见的任务,关键词是从文本中提取出来比较特别的、且能够代表文本基本含义词汇,从文本中提取到的关键词的质量对下游任务而言是至关重要的。传统技术方法均是对文本中词汇的出现频率进行分析统计,基于词汇出现频率确定文本中的关键词,然而发明人发现,文本中部分出现频率不高的词汇可能会具有显著体现文本特征的作用,而现有的关键词提取方法基于词汇出现频率确定关键词,会导致提取到的关键词无法准确体现文本的含义,影响了从文本中提取到的关键词的质量,导致关键词提取的准确性不高。因此,现有的技术方法中关键词提取方法存在的关键词提取准确性不高的问题。
发明内容
本发明实施例提供了一种关键词智能提取方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所关键词提取方法所存在的关键词提取准确性不高的问题。
第一方面,本发明实施例提供了一种关键词智能提取方法,其包括:
若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;
将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;
根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;
根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;
获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;
根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。
第二方面,本发明实施例提供了一种关键词智能提取装置,其包括:
初始文本转换单元,用于若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;
语句向量矩阵获取单元,用于将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;
词汇向量提取单元,用于根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;
标准单位向量获取单元,用于根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;
相似度计算结果获取单元,用于获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;
关键词提取结果获取单元,用于根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的关键词智能提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的关键词智能提取方法。
本发明实施例提供了一种关键词智能提取方法、装置、计算机可读存储介质。将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。通过上述方法,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,可提高所提取到的关键词的质量,以此大幅提高从文本中进行关键词提取的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的关键词智能提取方法的流程示意图;
图2为本发明实施例提供的关键词智能提取方法的子流程示意图;
图3为本发明实施例提供的关键词智能提取方法的另一子流程示意图;
图4为本发明实施例提供的关键词智能提取方法的另一子流程示意图;
图5为本发明实施例提供的关键词智能提取方法的另一子流程示意图;
图6为本发明实施例提供的关键词智能提取方法的另一流程示意图;
图7为本发明实施例提供的关键词智能提取装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的关键词智能提取方法的流程示意图;该关键词智能提取方法应用于用户终端或管理服务器中,该关键词智能提取方法通过安装于用户终端或管理服务器中的应用软件进行执行,用户终端即是可接收用户输入的初始文本并进行关键词智能提取的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等,管理服务器即是可接收用户通过用终端发送的初始文本并进行关键词智能提取的服务器端,如企业或政府部门所构建的服务器。如图1所示,该方法包括步骤S110~S160。
S110、若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息。
若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息。用户可输入初始文本,初始文本为由一个文本语句或多个文本语句组成的一段文字信息,可对初始文本进行转换,得到文本编码信息,则文本编码信息中包含由每一文本语句对应转换得到的语句编码,语句编码采用编码形式对文本语句中的每一字符进行表示。
在一实施例中,如图2所示,步骤S110包括子步骤S111和S112。
S111、将所述初始文本拆分为对应的多个文本语句。
可将初始文本拆分为对应的多个文本语句,具体的,可预先配置多个拆分标记,若初始文本中包含与任一拆分标记相匹配的符号,则通过该符号对初始文本进行拆分。若初始文本中包含m个与拆分标记相匹配的符号,则可通过对应符号将初始文本拆分为m+1个文本语句。具体的,可配置拆分标记为“,”、“;”及“。”。
S112、根据预置的转换词典对所述多个文本语句进行转换得到与每一文本语句对应的语句编码。
转换词典中包含与每一字符对应的字符编码,则可根据字符与字符编码的映射关系,将每一文本语句包含的多个字符转换为对应字符编码,文本语句对应的多个字符编码、语句起始编码及语句终止编码即组合为该文本语句的语句编码,则语句编码中所包含的字符编码数量等于该文本语句包含的字符数量加二,也即是包含n个字符的文本语句所得到的语句编码中字符编码的数量为n+2。
例如,“发”在转换词典中对应的字符编码为“5341”,“展”对应的字符编码为“1476”,“生”对应的字符编码为“2716”,“产”对应的字符编码为“3541”,“力”对应得到的语句编码为“6241”,则对应得到的语句编码为“0001,5341,1476,2716,3541,6241,9999”,其中“0001”为语句起始编码,“9999”为语句终止编码。
S120、将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵。
将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵。可将所得到的文本编码信息输入预置的神经网络模型,神经网络模型可以是基于注意力机制构建的自监督向量获取模型,神经网络模型可由12层Transformers网络构建得到,每一层Transformers网络中均包含至少两个节点层,相邻两个节点层中分别取一个节点,则所取的两个节点之间采用关联公式进行关联,关联公式中包含相应参数。将文本编码信息中包含的每一语句编码分别输入神经网络模型进行计算,即可得到每一语句编码对应的语句向量矩阵。例如,将包含n+2个字符编码的语句编码输入神经网络模型进行计算,所得到的语句向量矩阵的维度为(n+2)×768,则语句向量矩阵中每一个1×768维度的向量即与一个字符编码相对应,语句向量矩阵也即包含与相应的文本语句中每一个字符对应的字符向量。
在一实施例中,如图6所示,步骤S120之前还包括步骤S1201。
S1201、根据预置的训练规则及预存的训练语句集对所述神经网络模型进行训练,以得到训练后的神经网络模型。
可根据训练规则及预存的训练语句集对神经网络模型进行训练,得到训练后的神经网络模型。具体的,训练语句集中可包含多条训练语句,可将一条训练语句中的任意一个字符进行替换为一个空字符得到训练替换语句,根据转换词典分别获取该训练语句对应的训练语句编码及该训练替换语句对应的替换语句编码,将训练语句编码及替换语句编码分别输入神经网络模型得到两个语句向量矩阵,基于训练规则中的损失函数计算公式计算两个语句向量矩阵的损失值,并根据训练规则中的梯度下降计算公式及损失值计算神经网络模型中每一参数的更新值,这一计算过程也即为梯度下降计算,基于该更新值对每一参数的原始参数值进行更新,即可完成对神经网络模型的一次训练。一条训练语句与对应的一条训练替换语句即可对神经网络模型进行一次训练,则训练语句集中的多条训练语句可实现对神经网络模型进行多次迭代训练,得到训练后的神经网络模型。
S130、根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量。
可根据预置的词汇集合及初始文本包含的文本语句,从每一语句向量矩阵中提取得到对应的词汇向量。具体的,词汇集合由多个词汇组合得到,则可根据词汇集合对文本语句进行分词,文本语句中与词汇集合中的任一词汇相同,即可基于该词汇对文本语句进行分词,得到相应的分词结果,则文本语句的分词结果中即包含该文本语句中与词汇集合中词汇相匹配的多个词汇,语句向量矩阵中包含相应的文本语句中每一个字符对应的字符向量,则可根据分词结果提取得到与分词结果中每一词汇对应的词汇向量。
在一实施例中,如图3所示,步骤S130包括子步骤S131、S132和S133。
S131、根据所述词汇集合对每一所述语句向量矩阵对应的文本语句进行分词得到每一所述文本语句的分词结果;S132、从每一所述语句向量矩阵中提取与所述分词结果包含的词汇所对应的字符向量信息。
可获取文本语句中与词汇集合相匹配的词汇,并将相匹配的词汇作为与该文本语句对应的分词结果,分词结果的词汇中至少包含一个字符,则可根据分词结果中词汇包含的字符从语句向量矩阵中获取对应字符向量,得到与每一分词结果包含的词汇对应的字符向量信息。
S133、对每一所述词汇的字符向量信息进行平均计算得到与每一所述词汇对应的词汇向量。
若词汇的字符向量信息中仅包含一个字符向量,则直接将该字符向量作为与该词汇对应的词汇向量。若词汇的字符向量信息中包含多个字符向量,则对该字符向量信息包含的多个字符向量进行平均计算,将多个字符向量在每一维度上的向量值进行平均计算,得到每一维度的平均值,将计算结果作为与该词汇对应的词汇向量。例如,若每一字符向量均为1×768维度的向量,则进行平均计算后所得到的词汇向量的维度也为1×768。
S140、根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量。
根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量。为提高对词汇与该词汇所属的文本语句之间相似度进行计算的精确性,可将每一词汇向量对应转换为标准单位向量,基于该标准单位向量可更精确获取词汇与词汇所属的文本语句之间的相似度。
在一实施例中,如图4所示,步骤S140包括子步骤S141、S142、S143和S144。
S141、将每一所述语句向量矩阵的语句标识向量及对应的多个所述词汇向量进行组合,得到与每一所述语句向量矩阵对应的初始向量集合。
可从每一语句向量矩阵中获取对应的语句标识向量,语句标识向量为语句向量矩阵中第一个1×768维度的向量,则语句标识向量即为语句向量矩阵中与语句起始编码对应的向量。每一语句向量矩阵均与多个词汇向量相对应,可将语句向量矩阵的语句标识向量与该语句向量矩阵对应的多个词汇向量进行组合,得到初始向量集合,则每一语句向量矩阵均可对应获取得到一个初始向量集合。
S142、计算每一所述初始向量集合对应的协方差矩阵。
具体的,可首先计算初始向量集合的均值向量μ,均值向量μ即由初始向量集合中所包含的所有向量在每一维度上的均值组合而成,其中μ的计算方法与词汇向量的计算方法相同。每一初始向量集合所对应的协方差矩阵可通过公式(1)计算得到;
Figure BDA0003092650050000071
其中xi为一个初始向量集合中第i个字符向量,∑为与该初始向量集合对应的一个协方差矩阵,T为矩阵转置计算。则通过上述计算方法可计算得到每一初始向量集合对应的协方差矩阵。
S143、对每一所述协方差矩阵进行奇异值分解及矩阵变换处理得到对应的协方差单位矩阵。
具体的,可对每一协方差矩阵进行奇异值分解(Singular Value Decomposition,SVD),分解过程可通过公式(2)进行表示;
UΛUT=∑ (2);
则通过上述分解方式可对任一协方差矩阵∑进行分解,分解得到矩阵U及矩阵Λ,T为矩阵转置计算。对进行奇异值分解所得到的矩阵进行矩阵变换处理,即可得到对应的协方差矩阵,进行矩阵变换处理的过程可通过公式(3)进行表示;
Figure BDA0003092650050000081
其中,W即为进行矩阵变换处理所得到的协方差单位矩阵。对每一协方差矩阵分别进行上述处理即可对应得到与每一协方差矩阵对应的协方差单位矩阵。
S144、将每一所述词汇向量与对应均值向量的差值与所述词汇向量对应的协方差单位矩阵相乘,得到每一所述词汇向量对应的标准单位向量。
计算每一词汇向量与该词汇向量所属初始向量集合的均值向量之间的差值,将差值与该词汇向量所述初始向量集合的协方差单位矩阵相乘,即可计算得到该词汇向量对应的标准单位向量,标准单位向量了通过公式(4)计算得到;
Figure BDA0003092650050000082
其中,
Figure BDA0003092650050000083
即为计算得到的与xi对应的标准单位向量,μ为与词汇向量xi所属初始向量集合对应的均值向量。则每一个词汇向量均可计算得到对应的一个标准单位向量,标准单位向量的维度数与词汇向量的维度数相等,例如,标准单位向量均为1×768维度的向量。
S150、获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果。
获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果。其中,相似度可以是语句标识向量与标准单位向量之间的余弦相似度。则可分别计算每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量的余弦相似度,得到所述相似度计算结果,则每一标准单位向量均可对应计算得到一个余弦相似度。具体的,计算语句标识向量与标准单位向量之间余弦相似度可采用公式(5)计算得到;
Figure BDA0003092650050000084
其中,Aj即为语句向量矩阵的语句标识向量中第j个维度的维度值,R即为语句标识向量中维度的总数值,Bj即为与语句标识向量Aj对应的任意一个标准单位向量中第j个维度的维度值,SC即为计算得到的余弦相似度。
在其他实施例中,也可通过其他方式计算得到语句标识向量与标准单位向量之间的相似度,相似度值越大,则表明语句标识向量与标准单位向量之间的差别越小;相似度值越小,则表明语句标识向量与标准单位向量之间的差别越大。
S160、根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。
根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。可基于相似度计算结果从初始文本的分词结果中获取得到与词汇筛选规则相匹配的目标词汇,初始文本的目标词汇即可作为与初始文本相对应的关键词提取结果。
在一实施例中,如图5所示,步骤S160包括子步骤S161、S162和S163。
S161、根据所述相似度计算结果对每一所述语句向量矩阵对应的多个所述标准单位向量进行排序。
一个语句向量矩阵即与初始文本中一个文本语句相对应,则对一个语句向量矩阵对应的多个标准单位向量进行排序,即为对该语句向量矩阵对应的一个文本语句包含的多个词汇进行排序。每一语句向量矩阵的相似度即为文本语句中对应词汇的相似度,则可根据文本语句中每一语句向量矩阵的相似度对该文本语句对应的词汇进行排序,得到每一文本语句包含的多个词汇的排序结果。
S162、根据所述标准单位向量的排序结果从每一所述语句向量矩阵对应的多个词汇中筛选得到满足所述词汇筛选规则的备选词汇。
可根据标准单位向量的排序结果,从语句向量矩阵对应的词汇中筛选得到满足词汇筛选规则的备选词汇,具体的,词汇筛选规则可以是获取排序结果中排序靠前的词汇作为备选词汇,则词汇筛选规则中包含获取数量,如获取数量为2,则可获取排序结果中排序前2的标准单位向量对应的词汇作为备选词汇;词汇筛选规则也可以是获取排序结果中相似度大于相应相似度阈值的词汇作为备选词汇,则词汇筛选规则中包含相似度阈值,如相似度阈值为60%,则可获取排序结果中相似度大于60%的标准单位向量对应的词汇作为备选词汇。
S163、对每一所述语句向量矩阵对应的备选词汇进行整合处理得到对应的目标词汇作为所述关键词提取结果。
对语句向量矩阵对应的备选词汇进行整合以获取对应的目标词汇,并将所得到的目标词汇作为关键词提取结果。具体的,整合可以是对获取到的备选词汇进行去重处理,则进行去重处理后的多个备选词汇即可作为对应的目标词汇;还可以是对备选词汇进行去重处理后,再对意思表示相同的备选词汇进行整合,意思表示是否相同可通过计算两个备选词汇的标准单位向量之间的相似度并对相似度是否大于预置阈值进行判断以确定,如从两个意思表示相同的两个备选词汇中选取其中一个备选词汇作为目标词汇,则进行整合后所得到的多个目标词汇即组合为对应的关键词提取结果。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对文本进行关键词智能提取的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的关键词智能提取方法中,将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。通过上述方法,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,可提高所提取到的关键词的质量,以此大幅提高从文本中进行关键词提取的准确性。
本发明实施例还提供一种关键词智能提取装置,该关键词智能提取装置可配置于用户终端中,该关键词智能提取装置用于执行前述的关键词智能提取方法的任一实施例。具体地,请参阅图7,图7为本发明实施例提供的关键词智能提取装置的示意性框图。
如图7所示,关键词智能提取装置100包括初始文本转换单元110、语句向量矩阵获取单元120、词汇向量提取单元130、标准单位向量获取单元140、相似度计算结果获取单元150和关键词提取结果获取单元160。
初始文本转换单元110,用于若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息。
在一具体实施例中,所述初始文本转换单元110包括子单元:文本拆分单元,用于将所述初始文本拆分为对应的多个文本语句;语句编码获取单元,用于根据预置的转换词典对所述多个文本语句进行转换得到与每一文本语句对应的语句编码。
语句向量矩阵获取单元120,用于将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵。
在一具体实施例中,所述关键词智能提取装置100还包括子单元:模型训练单元,用于根据预置的训练规则及预存的训练语句集对所述神经网络模型进行训练,以得到训练后的神经网络模型。
词汇向量提取单元130,用于根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量。
在一具体实施例中,所述词汇向量提取单元130包括子单元:分词处理单元,用于根据所述词汇集合对每一所述语句向量矩阵对应的文本语句进行分词得到每一所述文本语句的分词结果;字符向量信息获取单元,用于从每一所述语句向量矩阵中提取与所述分词结果包含的词汇所对应的字符向量信息;词汇向量获取单元,用于对每一所述词汇的字符向量信息进行平均计算得到与每一所述词汇对应的词汇向量。
标准单位向量获取单元140,用于根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量。
在一具体实施例中,所述标准单位向量获取单元140包括子单元:初始向量集合获取单元,用于将每一所述语句向量矩阵的语句标识向量及对应的多个所述词汇向量进行组合,得到与每一所述语句向量矩阵对应的初始向量集合;协方差矩阵计算单元,用于计算每一所述初始向量集合对应的协方差矩阵;协方差单位矩阵获取单元,用于对每一所述协方差矩阵进行奇异值分解及矩阵变换处理得到对应的协方差单位矩阵;计算单元,用于将每一所述词汇向量与对应均值向量的差值与所述词汇向量对应的协方差单位矩阵相乘,得到每一所述词汇向量对应的标准单位向量。
相似度计算结果获取单元150,用于获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果。
其中,相似度可以是语句标识向量与标准单位向量之间的余弦相似度。则可分别计算每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量的余弦相似度,得到所述相似度计算结果。
关键词提取结果获取单元160,用于根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。
在一具体实施例中,所述关键词提取结果获取单元160包括子单元:标准单位向量排序单元,用于根据所述相似度计算结果对每一所述语句向量矩阵对应的多个所述标准单位向量进行排序;备选词汇获取单元,用于根据所述标准单位向量的排序结果从每一所述语句向量矩阵对应的多个词汇中筛选得到满足所述词汇筛选规则的备选词汇;整合处理单元,用于对每一所述语句向量矩阵对应的备选词汇进行整合处理得到对应的目标词汇作为所述关键词提取结果。
在本发明实施例所提供的关键词智能提取装置应用上述关键词智能提取方法,将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。通过上述方法,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,可提高所提取到的关键词的质量,以此大幅提高从文本中进行关键词提取的准确性。
上述关键词智能提取装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行关键词智能提取方法对文本进行关键词智能提取的用户终端或管理服务器。
参阅图8,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行关键词智能提取方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行关键词智能提取方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的关键词智能提取方法中对应的功能。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的关键词智能提取方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种关键词智能提取方法,其特征在于,所述方法包括:
若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;
将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;
根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;
根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;
获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;
根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果;
所述根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量,包括:
根据所述词汇集合对每一所述语句向量矩阵对应的文本语句进行分词得到每一所述文本语句的分词结果;
从每一所述语句向量矩阵中提取与所述分词结果包含的词汇所对应的字符向量信息;
对每一所述词汇的字符向量信息进行平均计算得到与每一所述词汇对应的词汇向量。
2.根据权利要求1所述的关键词智能提取方法,其特征在于,所述将所述初始文本转换为由语句编码组合形成的文本编码信息,包括:
将所述初始文本拆分为对应的多个文本语句;
根据预置的转换词典对所述多个文本语句进行转换得到与每一文本语句对应的语句编码。
3.根据权利要求1所述的关键词智能提取方法,其特征在于,所述根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量,包括:
将每一所述语句向量矩阵的语句标识向量及对应的多个所述词汇向量进行组合,得到与每一所述语句向量矩阵对应的初始向量集合;
计算每一所述初始向量集合对应的协方差矩阵;
对每一所述协方差矩阵进行奇异值分解及矩阵变换处理得到对应的协方差单位矩阵;
将每一所述词汇向量与对应均值向量的差值与所述词汇向量对应的协方差单位矩阵相乘,得到每一所述词汇向量对应的标准单位向量。
4.根据权利要求1所述的关键词智能提取方法,其特征在于,所述相似度为余弦相似度,所述获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果,包括:
分别计算每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量的余弦相似度,得到所述相似度计算结果。
5.根据权利要求1所述的关键词智能提取方法,其特征在于,所述根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为关键词提取结果,包括:
根据所述相似度计算结果对每一所述语句向量矩阵对应的多个所述标准单位向量进行排序;
根据所述标准单位向量的排序结果从每一所述语句向量矩阵对应的多个词汇中筛选得到满足所述词汇筛选规则的备选词汇;
对每一所述语句向量矩阵对应的备选词汇进行整合处理得到对应的目标词汇作为所述关键词提取结果。
6.根据权利要求1所述的关键词智能提取方法,其特征在于,所述将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵,包括:
根据预置的训练规则及预存的训练语句集对所述神经网络模型进行训练,以得到训练后的神经网络模型。
7.一种关键词智能提取装置,其特征在于,所述装置包括:
初始文本转换单元,用于若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;
语句向量矩阵获取单元,用于将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;
词汇向量提取单元,用于根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;
标准单位向量获取单元,用于根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;
相似度计算结果获取单元,用于获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;
关键词提取结果获取单元,用于根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果;
所述根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量,包括:
根据所述词汇集合对每一所述语句向量矩阵对应的文本语句进行分词得到每一所述文本语句的分词结果;
从每一所述语句向量矩阵中提取与所述分词结果包含的词汇所对应的字符向量信息;
对每一所述词汇的字符向量信息进行平均计算得到与每一所述词汇对应的词汇向量。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的关键词智能提取方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的关键词智能提取方法。
CN202110600155.9A 2021-05-31 2021-05-31 关键词智能提取方法、装置、计算机设备及存储介质 Active CN113239668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600155.9A CN113239668B (zh) 2021-05-31 2021-05-31 关键词智能提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600155.9A CN113239668B (zh) 2021-05-31 2021-05-31 关键词智能提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113239668A CN113239668A (zh) 2021-08-10
CN113239668B true CN113239668B (zh) 2023-06-23

Family

ID=77136070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600155.9A Active CN113239668B (zh) 2021-05-31 2021-05-31 关键词智能提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113239668B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836928B (zh) * 2021-09-28 2024-02-27 平安科技(深圳)有限公司 文本实体生成方法、装置、设备及存储介质
CN115221873B (zh) * 2022-09-20 2023-01-17 深圳大道云科技有限公司 输入词汇的补全方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562717A (zh) * 2017-07-24 2018-01-09 南京邮电大学 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN110750629A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 机器人对话生成方法、装置、可读存储介质及机器人
WO2020213158A1 (ja) * 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562717A (zh) * 2017-07-24 2018-01-09 南京邮电大学 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
WO2020213158A1 (ja) * 2019-04-19 2020-10-22 富士通株式会社 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置
CN110750629A (zh) * 2019-09-18 2020-02-04 平安科技(深圳)有限公司 机器人对话生成方法、装置、可读存储介质及机器人
CN112732899A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 摘要语句提取方法、装置、服务器及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Federated Learning of Unsegmented Chinese Text Recognition Model;Xinghua Zhu 等;《2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI)》;第1341-1345页 *
基于映射的无监督跨语言词向量模型研究;杨奭喆;《中国优秀硕士学位论文全文数据库》;第1-46页 *

Also Published As

Publication number Publication date
CN113239668A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN112328742B (zh) 基于人工智能的培训方法、装置、计算机设备及存储介质
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN111680159B (zh) 数据处理方法、装置及电子设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN113239668B (zh) 关键词智能提取方法、装置、计算机设备及存储介质
CN110019758B (zh) 一种核心要素提取方法、装置及电子设备
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN111694946A (zh) 文本关键词可视化显示方法、装置及计算机设备
CN113192497B (zh) 基于自然语言处理的语音识别方法、装置、设备及介质
CN112434131A (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN109299246B (zh) 一种文本分类方法及装置
CN114529903A (zh) 文本细化网络
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN114140673B (zh) 一种违规图像识别方法、系统及设备
CN113268971B (zh) 演示报告智能生成方法、装置、计算机设备及存储介质
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质
CN114138954A (zh) 用户咨询问题推荐方法、系统、计算机设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113705194A (zh) 简称抽取方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant