CN111914564B - 一种文本关键词确定方法及装置 - Google Patents

一种文本关键词确定方法及装置 Download PDF

Info

Publication number
CN111914564B
CN111914564B CN202010667115.1A CN202010667115A CN111914564B CN 111914564 B CN111914564 B CN 111914564B CN 202010667115 A CN202010667115 A CN 202010667115A CN 111914564 B CN111914564 B CN 111914564B
Authority
CN
China
Prior art keywords
candidate
candidate keyword
word
importance
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010667115.1A
Other languages
English (en)
Other versions
CN111914564A (zh
Inventor
熊翱
刘德荣
邱雪松
孟洛明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010667115.1A priority Critical patent/CN111914564B/zh
Publication of CN111914564A publication Critical patent/CN111914564A/zh
Application granted granted Critical
Publication of CN111914564B publication Critical patent/CN111914564B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本关键词确定方法及装置,上述方法包括:提取各个候选关键词在文本中所表达语义的语义特征;并确定每一候选关键词的语义重要度、频率重要度与位置重要度;针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。应用本发明实施例提供的方案确定文本中的关键词时,能够提高文本关键词确定的准确度。

Description

一种文本关键词确定方法及装置
技术领域
本发明涉及文本处理技术领域,特别是涉及一种文本关键词确定方法及装置。
背景技术
关键词是表达文本主旨内容的一组词语。为了在短时间内快速获取文本的核心观点和主要内容,需要快速确定文本中的关键词。现有技术中,是基于文本中各个词语的出现频率来确定文本中的关键词的,具体的,将出现频率最高的词语作为文本的关键词。
然而,由于是将出现频率最高的词语作为文本的关键词,但出现频率最高的词语可能并非是文本的关键词,例如:以“关键词是表达文本主旨内容的一组词语。为了在短时间内快速获取文本的核心观点和主要内容,需要快速确定文本中的关键词。”这段文本为例,上述文本中出现频率最高的词语为“文本”,但上述文本所表达的主要内容为:确定关键词的重要性,所以“确定关键词”为上述文本的关键词,而“文本”并非为上述文本的关键词。因此,采用现有技术的方法确定文本中的关键词时,导致文本关键词确定的准确度较低。
发明内容
本发明实施例的目的在于提供一种文本关键词确定方法及装置,以提高文本关键词确定的准确度。具体技术方案如下:
第一方面,本发明实施例提供了一种文本关键词确定方法,所述方法包括:
从待提取关键词的文本包含的各个词语中选择候选关键词;
针对每一候选关键词,基于所述文本中该候选关键词的上下文信息,提取该候选关键词在所述文本中所表达语义的语义特征;
基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在所述文本中出现的位置,确定每一候选关键词的位置重要度;
基于各个候选关键词在所述文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系;
针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,其中,所述词权重表征候选关键词为所述文本的关键词的概率;
基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。
第二方面,本发明实施例提供了一种文本关键词确定装置,所述装置包括:
候选关键词提取模块,用于从待提取关键词的文本包含的各个词语中选择候选关键词;
语义特征提取模块,用于针对每一候选关键词,基于所述文本中该候选关键词的上下文信息,提取该候选关键词在所述文本中所表达语义的语义特征;
重要度确定模块,用于基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在所述文本中出现的位置,确定每一候选关键词的位置重要度;
指向关系确定模块,用于基于各个候选关键词在所述文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系;
更新幅度计算模块,用于针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,其中,所述词权重表征候选关键词为所述文本的关键词的概率;
关键词确定模块,用于基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。
由以上可见,应用本发明实施例提供的方案确定文本中的关键词时,由于是根据候选关键词的关系词所指向的候选关键词的语义重要度、位置重要度、频率重要度计算候选关键词的词权重的更新幅度的,且上述关系词指向的候选关键词包括上述待计算词权重的更新幅度的候选关键词。又由于候选关键词的语义重要度用于反映候选关键词在上述文本中所表达语义的信息、位置重要度用于反映候选关键词在上述文本中出现的位置、频率重要度用于反映候选关键词在上述文本中出现的频率,因此,从上述三个方面能够更加准确地计算候选关键词的词权重的更新幅度,从而基于所计算的候选关键词的词权重的更新幅度能够较为准确地确定文本中的关键词。
另外,候选关键词的语义重要度是根据所提取的候选关键词的语义特征确定的,且上述候选关键词的语义特征是基于文本中该候选关键词的上下文信息所确定的,所以候选关键词的语义特征能够较为准确地确定上述候选关键词在文本中所表达语义的语义信息。因此,基于所提取每一候选关键词的语义特征能够较为准确地确定每一候选关键词的语义重要度,从而能够较为准确地确定文本中的关键词。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种文本关键词确定方法的流程示意图;
图2为本发明实施例提供的第二种文本关键词确定方法的流程示意图;
图3为本发明实施例提供的一种词图模型的结构示意图;
图4a为本发明实施例提供的一种所确定文本关键词准确率的对比图;
图4b为本发明实施例提供的一种所确定文本关键词召回率的对比图;
图4c为本发明实施例提供的一种所确定文本关键词F1值的对比图;
图4d为本发明实施例提供的一种准确率-召回率曲线的示意图;
图5为本发明实施例提供的第一种文本关键词确定装置的结构示意图;
图6为本发明实施例提供的第二种文本关键词确定装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1为本发明实施例提供的第一种文本关键词确定方法的流程示意图,上述方法包括S101-S106。
S101:从待提取关键词的文本包含的各个词语中选择候选关键词。
上述待提取关键词的文本可以为新闻文章、小说、剧本等文本。
上述候选关键词可以理解为:待提取关键词的文本中各个词语为关键词的概率比较大的词语。
本发明的一个实施例中,在从待提取关键词的文本包含的各个词语中选择候选关键词时,可以识别上述文本包含的各个词语的词性,根据所识别的各个词语的词性确定候选关键词。
具体的,当识别词语的词性为名词、动词时,可以将上述词语作为候选关键词;当识别词语的词性为连接词、人称代词时,可以将上述词语不作为候选关键词。
从待提取关键词的文本包含的各个词语中选择候选关键词的具体方法还可以参加后续实施例,在此暂不详述。
S102:针对每一候选关键词,基于文本中该候选关键词的上下文信息,提取该候选关键词在文本中所表达语义的语义特征。
上述候选关键词在文本中所表达语义的语义特征用于反映候选关键词在文本中所表达语义的语义信息。
上述文本中候选关键词的上下文信息可以为:在上述文本中与候选关键词所在的文本段相邻的文本段所表达的信息。
由于词语可以具有多种含义,且同一词语在不同的文本中所表达语义可以是不同的。因此,需要确定候选关键词在上述待提取关键词的文本中所表达语义的语义信息。
由于在同一文本中,大部分词语所表达语义的语义信息基本一致,因此,可以基于文本中该候选关键词的上下文信息,提取每一候选关键词在文本中所表达语义的语义特征,从而能够更加准确获得候选关键词在文本中所表达语义的语义信息。
具体的,在提取每一候选关键词在上述文本中所表达语义的语义特征时,可以基于上述文本中候选关键词的上下文信息,对候选关键词进行语义分析,从而获得候选关键词在上述文本中所表达语义的语义特征。
本发明的一个实施例中,在提取每一候选关键词在上述文本中所表达语义的语义特征时,还可以采用BERT(Bidirectional Encoder Representations fromTransformers,双向编码器)模型对上述待提取关键词的文本中的每一候选关键词进行编码,得到每一候选关键词的编码结果,作为每一候选关键词在上述文本中所表达语义的语义特征。
上述BERT模型以字符为单位进行编码,且采用了多层的Transformer编码器,对文本中每一字符进行编码时结合了文本内上下文信息,因此,采用BERT模型对每一候选关键词进行编码所获得的编码结果能够反映每一候选关键词在上述文本中所表达语义的语义特征。
具体的,BERT模型的输入为预设长度的文本段,对于文本段中的每一候选关键词,基于每一候选关键词词的词向量、文本向量以及位置向量,输出上述文本段中每一候选关键词的词向量,上述候选关键词的词向量可以用于表示候选关键词在文本中所表达语义的语义特征。
S103:基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在文本中出现的位置,确定每一候选关键词的位置重要度。
上述候选关键词的语义重要度可以理解为:上述候选关键词在上述待提取关键词的文本中所表达语义的语义信息与上述文本的关键词所表达的语义信息间的关系。具体的,当二者所表达语义信息较为接近时,上述候选关键词的语义重要度越高;当二者所表达语义信息较不同时,上述候选关键词的语义重要度越低。
由于在新闻文章、剧本等文本中,文本中的大部分词语所表达语义与文本的关键词所表达语义较为接近,又由于候选关键词的语义特征是基于文本中该候选关键词的上下文信息所确定的,也就是候选关键词的语义特征能够较为准确地确定上述候选关键词在文本中所表达语义的语义信息。因此,基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,能够较为准确地确定每一候选关键词的语义重要度。
具体的,可以将候选关键词的语义特征与其他候选关键词的语义特征间的相似度作为该候选关键词的语义重要度。
上述候选关键词的频率重要度可以表示上述候选关键词在文本中出现的频率。具体的,当上述候选关键词在文本中出现的频率越高,上述候选关键词的频率重要度越高;当上述候选关键词在文本中出现的频率越低,上述候选关键词的频率重要度越低。
具体的,可以将候选关键词在文本中出现的频率作为候选关键词的频率重要度。
上述候选关键词的位置重要度可以表示上述候选关键词在文本中出现的位置。具体的,当上述候选关键词在文本中的位置为预设位置时,上述候选关键词位置重要度越高;当上述候选关键词在文本的位置为非预设位置时,上述候选关键词位置重要度越低。
上述预设位置可以为上述文本中起总结、概括作用的文本段所在的位置。例如:上述预设位置可以为文本中摘要文本段的位置、文本导读文本段的位置等。
S104:基于各个候选关键词在文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系。
上述预设长度可以由工作人员根据经验设定的。例如:上述预设长度可以为10个字节、20个字节等。
由于是基于各个候选关键词在文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系。又由于各个候选关键词在文本中预设长度的文本段中出现的顺序是唯一确定的,因此,各个候选关键词间的指向关系是单向关系。
具体的,在确定各个候选关键词的指向关系时,根据各个候选关键词在文本中预设长度的文本段中出现的前后顺序,可以将出现在前的候选关键词指向出现在后的候选关键词,还可以将出现在后的候选关键词指向出现在前的候选关键词。
例如:以“可以根据各个候选关键词在文本中预设长度的文本段中出现的前后顺序”这个文本段为例,假设“候选关键词”、“文本”“预设长度”为候选关键词,在上述文本段中,“候选关键词”所在的位置位于“文本”所在的位置之前,“候选关键词”所在的位置位于“预设长度”所在的位置之前,“文本”所在的位置位于“预设长度”所在的位置之前。因此,上述三个候选关键词间的指向关系可以为:“候选关键词”指向“文本”、“候选关键词”指向“预设长度”、“文本”指向“预设长度”。上述三个候选关键词的指向关系还可以为:“文本”指向“候选关键词”、“预设长度”指向“候选关键词”、“预设长度”指向“文本”。
S105:针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据上述关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度。
由于是根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度计算候选关键词的词权重的更新幅度的,且上述关系词指向的候选关键词包括上述待计算词权重的更新幅度的候选关键词。又由于候选关键词的语义重要度反映了候选关键词在上述文本中所表达语义的信息、位置重要度反映了候选关键词在上述文本中出现的位置、频率重要度反映了候选关键词在上述文本中出现的频率,因此,从上述三个方面能够更加准确地计算候选关键词的词权重的更新幅度。
另外,由于是根据各个候选关键词间的指向关系来确定关系词,从而计算候选关键词的词权重的更新幅度。又由于各个候选关键词间的指向关系能够反映各个候选关键词在预设长度的文本段中出现的顺序。当候选关键词与数量较多的候选关键词具有指向关系时,表示上述候选关键词为文本的关键词的概率较大。因此,基于各个候选关键词间的指向关系能够更加准确地计算候选关键词的词权重的更新幅度。
具体的,在确定指向各个候选关键词的候选关键词时,可以根据上述各个候选关键词间的指向关系,确定各个候选关键词的关系词。
例如:假设候选关键词1指向候选关键词2、候选关键1指向候选关键词3、候选关键词2指向候选关键词3,可以确定指向候选关键词2的候选关键词为候选关键词1,指向候选关键词3的候选关键词为候选关键词1、候选关键词2。
上述关系词指向的候选关键词可以仅包括待计算词权重的更新幅度的候选关键词,还可以包括待计算词权重的更新幅度的候选关键词以及上述关系词所指向的候选关键词中除上述待计算词权重的更新幅度的候选关键词之外的候选关键词。
上述词权重表征候选关键词为文本的关键词的概率。当候选关键词为文本的关键词的概率越大,上述候选关键词的词权重的权重值越高;当候选关键词为文本的关键词的概率越小,上述候选关键词的词权重的权重值越低。
当关系词指向的候选关键词仅包括待计算词权重的更新幅度的候选关键词时,可以根据上述候选关键词的语义重要度、位置重要度以及频率重要度计算上述候选关键词的词权重的更新幅度。
例如:可以将上述候选关键词的语义重要度、位置重要度、频率重要度之和作为上述候选关键词的词权重的更新幅度。
当关系词指向的候选关键词包括:待计算词权重的更新幅度的候选关键词以及上述关键词所指向的候选关键词除上述待计算词权重的更新幅度的候选关键词之外的候选关键词时,可以根据上述两种候选关键词的语义重要度、位置重要度以及频率重要度计算上述待计算词权重的更新幅度的候选关键词的词权重的更新幅度。
例如:可以将上述两者候选关键词的语义重要度、位置重要度以及频率重要度之和间的比值,作为上述待计算词权重的更新幅度的候选关键词的词权重的更新幅度。
S106:基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为文本的关键词。
上述候选关键词的词权重的预设初始值可以由工作人员根据经验设定的。例如:上述预设初始值可以为10、20等。
具体的,在更新各个候选关键词的词权重时,可以将预设数量次更新后的词权重的权重值作为各个候选关键词的词权重的最终权重值。例如:上述预设数量可以为:1、5、10等。
例如:以预设数量为5为例,第一次更新时,计算各个候选关键词的词权重的预设初始值与更新幅度之和,作为第一次更新后的候选关键词的词权重的权重值。第二次更新时,计算各个候选关键词的词权重的更新幅度与第一次更新后的权重值之和,作为第二次更新后的候选关键词的词权重的权重值。……。第五次更新时,计算各个候选关键词的词权重的更新幅度与第四次更新后的权重值之和,作为各个候选关键词的词权重的最终权重值。
由于候选关键词的词权重用于反映候选关键词为文本的关键词的概率。当候选关键词为文本的关键词的概率最大,候选关键词的词权重也最大。因此,选择预设数量个更新后词权重最高的候选关键词作为文本的关键词能够较为准确地确定文本中的关键词。上述预设数量可以由工作人员根据经验设定。例如:上述预设数量可以为3、5等。
由以上可见,应用本实施例提供的方案确定文本中的关键词时,由于是根据候选关键词的关系词所指向的候选关键词的语义重要度、位置重要度、频率重要度计算候选关键词的词权重的更新幅度的,且上述关系词指向的候选关键词包括上述待计算词权重的更新幅度的候选关键词。又由于候选关键词的语义重要度用于反映候选关键词在上述文本中所表达语义的信息、位置重要度用于反映候选关键词在上述文本中出现的位置、频率重要度用于反映候选关键词在上述文本中出现的频率,因此,从上述三个方面能够更加准确地计算候选关键词的词权重的更新幅度,从而基于所计算的候选关键词的词权重的更新幅度能够较为准确地确定文本中的关键词。
另外,候选关键词的语义重要度是根据所提取的候选关键词的语义特征确定的,且上述候选关键词的语义特征是基于文本中该候选关键词的上下文信息所确定的,所以候选关键词的语义特征能够较为准确地确定上述候选关键词在文本中所表达语义的语义信息。因此,基于所提取每一候选关键词的语义特征能够较为准确地确定每一候选关键词的语义重要度,从而能够较为准确地确定文本中的关键词。
参见图2,图2为本发明实施例提供的第二种文本关键词确定方法的流程示意图,可以按照以下S105A1-S105A2实现上述S105中针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度。
S105A1:根据各个候选关键词和各个候选关键词间的指向关系,构建由节点和节点间的指向关系描述的词图模型,每一节点分别与每一候选关键词一一对应,两个节点间的指向关系与两个节点分别对应的候选关键词间的指向关系一致。
上述词图模型是用节点和节点间的指向关系描述的,且每一节点分别与每一候选关键词一一对应,两个节点间的指向关系与两个节点分别对应的候选关键词间的指向关系一致。
例如:假设候选关键词为V=[v1,v2,…,vn],其中,n为候选关键词的序号,v1表示第1个候选关键词,v2表示第2个候选关键词,vn表示第n个候选关键词,V表示候选关键词的集合,各个候选关键词间的指向关系用集合E表示,那么所构建的词图模型G=(V,E)。
以图3为例,图3为本发明实施例提供的一种词图模型的结构示意图。在图3中包括3个圆形框。其中,每一圆形框为一个节点,包括节点1、节点2、节点3,各个圆形框间的箭头表示各个节点间的指向关系。
在图3中可以得到,各个节点间的关系为:节点1指向节点2,节点1还指向节点3,节点2指向节点3。从而可以确定节点1对应的候选关键词与节点2对应的候选关键词之间具有指向关系、且节点1对应的候选关键词指向节点2对应的候选关键词;节点1对应的候选关键词与节点3对应的候选关键词之间具有指向关系、且节点1对应的候选关键词指向节点3对应的候选关键词;节点2对应的候选关键词与节点3对应的候选关键词之间具有指向关系、且节点2对应的候选关键词指向节点2对应的候选关键词。
S105A2:针对词图模型中的每一节点,确定指向该节点的节点,作为关系节点,并根据关系节点指向的节点对应的候选关键词的语义重要度、位置重要度、频率重要度,计算上述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,作为该节点对应的候选关键词的词权重的更新幅度。
由于是根据关系节点指向的节点对应的候选关键词的语义重要度、位置重要度、频率重要度确定各个节点对应的候选关键词的词权重的权重更新幅度,且上述关系节点指向的节点对应的候选关键词包括上述待计算词权重的权重更新幅度的候选关键词。又由于候选关键词的语义重要度反映了候选关键词在上述文本中所表达语义的信息、位置重要度反映了候选关键词在上述文本中出现的位置、频率重要度反映了候选关键词在上述文本中出现的频率,因此,从上述三个方面能够更加准确地计算候选关键词的词权重的更新幅度。
上述关系节点指向的节点可以仅包括待计算词权重的更新幅度的候选关键词对应的节点,还可以包括待计算词权重的更新幅度的候选关键词对应的节点以及上述关系节点所指向的节点中除上述待计算词权重的更新幅度的候选关键词对应的节点之外的节点。
当关系节点指向的节点仅包括待计算词权重的更新幅度的候选关键词对应的节点时,可以根据上述待计算词权重的更新幅度的候选关键词的语义重要度、位置重要度以及频率重要度,计算上述候选关键词的词权重的更新幅度。
例如:可以将上述候选关键词的语义重要度、位置重要度、频率重要度之和作为上述候选关键词的词权重的更新幅度。
当关系节点指向的节点包括:待计算词权重的更新幅度的候选关键词对应的节点以及上述关系节点所指向的节点中除上述待计算词权重的更新幅度的候选关键词对应的节点之外的节点时,可以根据上述两种候选关键词的语义重要度、位置重要度以及频率重要度,计算上述候选关键词的词权重的更新幅度。例如:可以将上述两种候选关键词的语义重要度、位置重要度以及频率重要度之和间的比值,作为上述候选关键词的词权重的更新幅度。
这样,由于是基于各个候选关键词和各个候选关键词间的指向关系,构建由节点和节点间的指向关系描述的词图模型。又由于所构建的词图模型能够更加准确地反映各个候选关键词以及各个候选关键词间的指向关系,因此,基于所构建的词图模型能够更加准确地计算词图模型中各个节点对应的候选关键词的词权重的更新幅度。
本发明的一个实施例中,可以按照以下表达式计算上述S105中针对每一候选关键词,确定与该候选关键词具有指向关系的候选关键词,作为关系词,并根据与所述关系词具有指向关系的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度。
Figure BDA0002580747770000121
其中,j表示候选关键词的序号,i表示第j个候选关键词的关系词的序号,k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的序号,Pj表示第j个候选关键词的词权重的更新幅度,pi表示第i个关系词的词权重的权重值,in(j)表示指向第j个候选关键词的关系词的集合,out(i)表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的集合,wioc.j表示第j个候选关键词的位置重要度,wvec.j表示第j个候选关键词的语义重要度,wtf.j表示第j个候选关键词的频率重要度,wioc.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的位置重要度,wvec.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的语义重要度,wtf.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的频率重要度,A为位置重要度对应的预设比例权重,B为语义重要度对应的预设比例权重,C为频率重要度对应的预设比例权重。
基于上述实施例,可以按照以下表达式计算更新后的候选关键词的词权重的权重值。
WS(Pf)=(1-d)+d*Pj
其中,d表示阻尼系数,取值范围从0到1,WS(Pj)表示更新后的第j个候选关键词的词权重的权重值。
在上述实施例的基础上,本发明的一个实施例中,可以按照以下步骤B1-B2实现上述S106中基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重。
B1:针对上述词图模型中每一节点,根据该节点所对应候选关键词的词权重的预设初始值、关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,对该节点对应的候选关键词的词权重进行更新。
具体的,在对各个节点对应的候选关键词的词权重进行更新时,可以计算各个节点对应的候选关键词的词权重的预设初始值与所计算的关系节点对应的候选关键词向各个节点对应的候选关键词传递词权重的权重值之和,将计算后的各个节点所对应候选关键词的词权重的权重值作为各个节点所对应候选关键词的更新后词权重。
B2:判断各个节点对应的候选关键词的更新后词权重是否满足预设收敛性条件,若为否,返回上述B1。
上述预设收敛性条件可以由工作人员根据经验设定。例如:上述预设收敛性条件可以为预设更新次数。
当更新后的各个节点对应的候选关键词的词权重不满足预设收敛性条件时,需要基于当前各个节点所对应候选关键词的更新后词权重、所计算的所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,对该节点对应的候选关键词的词权重进行更新,直至各个节点所对应候选关键词的更新后词权重满足预设收敛性条件。
可以理解的是,上述更新的过程也是一种迭代的过程。
这样,由于当更新后的各个节点对应的候选关键词的词权重不满足预设收敛性条件时,重新对各个节点对应的候选关键词的词权重进行更新,当更新后的各个节点对应的候选关键词的词权重满足预设收敛性条件时,能够得到各个节点对应的候选关键词的词权重的权重值。因此,能够更加准确地获得各个节点对应的候选关键词的词权重的最终权重值。
本发明的一个实施例中,可以按照以下步骤C1-C2实现上述S103中基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度。
C1:基于各个候选关键词所表达语义的特征间的相似度,对各个候选关键词进行聚类,得到各个词簇。
上述每一词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值。上述预设差异阈值可以由工作人员根据经验设定。
由于每一词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值,因此,每一词簇内各个候选关键词所表达语义的特征间的相似度较高。
具体的,在进行聚类时,可以计算各个候选关键词所表达语义的特征间的相似度,将相似度小于预设差异阈值的候选关键词作为一个词簇。
本发明的一个实施例中,还可以采用基于欧式距离的k-means聚类。上述聚类方法能够基于各个候选关键词所表达语义的特征间的相似度,对各个候选关键词进行聚类,获得各个词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值。
C2:针对每一词簇,获得该词簇内各个候选关键词与该词簇的质心间的距离最小的候选关键词,作为簇中心词,将第一预设语义重要度作为簇中心词的语义重要度,并将第二预设语义重要度作为该词簇内除簇中心词外的各个候选关键词的语义重要度。
上述第二预设语义重要度小于第一预设语义重要度。上述第一预设语义重要度、第二预设语义重要度可以由工作人员根据经验设定。例如:上述第一预设语义重要度可以为10,第二预设语义重要度可以为1。
具体的,在确定簇中心词时,可以针对每一词簇,获得该词簇内各个候选关键词与该词簇的质心间的欧式距离、余弦距离等距离最小的候选关键词,作为簇中心词。
由于簇中心词为与该词簇的质心间的距离最小的候选关键词,上述簇中心词可以理解为与文本的大部分候选关键词所表达的语义信息均较为接近的候选关键词。所以,上述簇中心词为上述文本的关键词的概率相对较大。因此,可以将第一预设语义重要度作为簇中心词的语义重要度,将小于上述第一预设语义重要度的第二预设语义重要度作为该簇内除簇中心词外的各个候选关键词的语义重要度。
这样,由于簇中心词为上述文本的关键词的概率相对较大。因此将第一预设语义重要度作为簇中心词的语义重要度,将小于上述第一预设语义重要度的第二预设语义重要度作为该簇内除簇中心词外的各个候选关键词的语义重要度,能够更加准确地确定各个候选关键词的语义重要度。
本发明的一个实施例中,可以按照以下表达式计算各个候选关键词的频率重要度。
Wtf.j=Fj/n
其中,j表示候选关键词的序号,Wtf.j表示第j个候选关键词的频率重要度,Fj表示第j个候选关键词在文本中出现的频次,n表示文本中包含的词语的数量。
这样,根据候选关键词在文本中出现的频次以及文本中包含的词语的数量能够更加地确定候选关键词的频率重要度。
本发明的一个实施例中,可以按照以下方式实现上述S103中基于每一候选键词在待提取关键词的文本中出现的位置,确定每一候选关键词的位置重要度。
当候选关键词在待提取关键词的文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;当候选关键词不在上述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度。
上述第二预设位置重要小于第一预设位置重要度。上述第一预设位置重要度、第二预设位置重要度可以由工作人员根据经验设定的。例如:上述第一预设位置重要度可以为10,上述第二预设位置重要度可以为1。
由于文本的标题往往包含文本的关键词,因此,当候选关键词在文本的标题中时,表示上述候选关键词为文本的关键词的概率相对较大;当候选关键词不在文本的标题中时,表示上述候选关键词为文本的关键词的概率相对较小。从而,可以当候选关键词在待提取关键词的文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;当候选关键词不在上述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度。
这样,由于文本的标题往往包含文本的关键词,因此,当候选关键词在待提取关键词的文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;当候选关键词不在上述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度。从而能够更加准确地确定各个候选关键词的位置重要度。
本发明的一个实施例中,在从待提取关键词的文本包含的各个词语中选择候选关键词时,可以基于预设分句符号,将待提取关键词的文本划分为各个待提取关键词的文本句;并针对每一文本句,对每一文本句进行分词、词性标注、去掉停用词等预处理,从预处理后的文本句包含的各个词语中选择候选关键词。
上述预设分句符号可以为:逗号、句号等符号。
具体的,对待提取关键词的文本进行整句分割后,可以得到各个文本句的集合S=[s1,s2,……,sm,],其中,m表示文本句的序号,s1表示第1个文本句,s2表示第2个文本句,sm表示第m个文本句。
具体的,在选择候选关键词时,可以将上述预处理后的文本局包含的各个词语作为候选关键词。
本发明的一个实施例中,在从待提取关键词的文本包含的各个词语中选择候选关键词时,还可以根据上述文本包含的各个词语在日常生活的使用频次来确定候选关键词。
具体的,可以将词语在日常生活的使用频次低于预设阈值的词语作为候选关键词;可以将词语在日常生活的使用频次高于预设阈值的词语作为候选关键词。
上述词语在日常生活的使用频次可以基于统计分析的结果来确定的,还可以根据工作人员的日常生活经验确定。
例如:以“可以将词语在日常生活的使用频次低于预设阈值的词语作为候选关键词;可以将词语在日常生活的使用频次高于预设阈值的词语作为候选关键词”这句话为例。其中,“词语”、“生活”“阈值”等词语在日常生活的使用频次高于预设阈值,因此,“词语”、“生活”“阈值”不作为候选关键词;“候选关键词”等词语在日常生活的使用频次低于预设阈值,因此,“候选关键词”作为候选关键词。
参见图4a,图4a为本发明实施例提供的一种所确定文本关键词准确率的对比图。
在图4a中两条折线分别对应两种文本关键词确定方法,包括:TR(TextRank)和SCTR(Semantic clustering TextRank),其中,SCTR为本发明实施例采用的文本关键词确定方法。图4a中横坐标为关键词提取个数,单位为:个,纵坐标为准确率。
从图4a可以看出;当关键词提取个数较少时,两种文本关键词确定算法的准确率基本接近,当关键词提取个数达到5左右时,本实施例文提供的文本关键词确定算法的准确率明显优于传统的TR算法的准确率。
参见图4b,图4b为本发明实施例提供的一种所确定文本关键词召回率的对比图。
图4b中横坐标为关键词提取个数,单位为:个,纵坐标为召回率。
从图4b可以看出;当关键词提取个数较少时,两种文本关键词确定算法的召回率基本接近,当关键词提取个数达到5左右时,本实施例文提供的文本关键词确定算法的召回率明显优于传统的TR算法的召回率。
参见图4c,图4c为本发明实施例提供的一种所确定文本关键词F1值的对比图。
图4c中横坐标为关键词提取个数,单位为:个,纵坐标为F1值。
从图4c可以看出;当关键词提取个数较少时,两种文本关键词确定算法的F1值基本接近,当关键词提取个数达到5左右时,本实施例文提供的文本关键词确定算法的F1值明显优于传统的TR算法的F1值。
参见图4d,图4d为本发明实施例提供的一种准确率-召回率曲线的示意图。图4d中横坐标为准确率,纵坐标为召回率。
从图4d的准确率-召回率曲线可以得到,准确率与召回率是负相关的关系。另外,本实施例提供的SCTR算法的曲线总是在TR曲线的内侧,这说明随着准确率(召回率)的提高,SCTR算法的召回率(准确率)基本总是大于TR算法。
与上述文本关键词确定方法相对应,本发明实施例还提供了一种文本关键词确定装置。
参见图5,图5为本发明实施例提供的第一种文本关键词确定装置的结构示意图,上述装置包括501-506。
候选关键词提取模块501,用于从待提取关键词的文本包含的各个词语中选择候选关键词;
语义特征提取模块502,用于针对每一候选关键词,基于所述文本中该候选关键词的上下文信息,提取该候选关键词在所述文本中所表达语义的语义特征;
重要度确定模块503,用于基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在所述文本中出现的位置,确定每一候选关键词的位置重要度;
指向关系确定模块504,用于基于各个候选关键词在所述文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系;
更新幅度计算模块505,用于针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,其中,所述词权重表征候选关键词为所述文本的关键词的概率;
关键词确定模块506,用于基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词。
由以上可见,应用本实施例提供的方案确定文本中的关键词时,由于是根据候选关键词的关系词所指向的候选关键词的语义重要度、位置重要度、频率重要度计算候选关键词的词权重的更新幅度的,且上述关系词指向的候选关键词包括上述待计算词权重的更新幅度的候选关键词。又由于候选关键词的语义重要度用于反映候选关键词在上述文本中所表达语义的信息、位置重要度用于反映候选关键词在上述文本中出现的位置、频率重要度用于反映候选关键词在上述文本中出现的频率,因此,从上述三个方面能够更加准确地计算候选关键词的词权重的更新幅度,从而基于所计算的候选关键词的词权重的更新幅度能够较为准确地确定文本中的关键词。
另外,候选关键词的语义重要度是根据所提取的候选关键词的语义特征确定的,且上述候选关键词的语义特征是基于文本中该候选关键词的上下文信息所确定的,所以候选关键词的语义特征能够较为准确地确定上述候选关键词在文本中所表达语义的语义信息。因此,基于所提取每一候选关键词的语义特征能够较为准确地确定每一候选关键词的语义重要度,从而能够较为准确地确定文本中的关键词。
参见图6,图6为本发明实施例提供的第二种文本关键词确定装置的结构示意图。在上述505更新幅度计算模块,包括505D1-505D2。
词图模块构建子模块505D1,用于根据各个候选关键词和各个候选关键词间的指向关系,构建由节点和节点间的指向关系描述的词图模型,每一节点分别与每一候选关键词一一对应,两个节点间的指向关系与所述两个节点分别对应的候选关键词间的指向关系一致;
更新幅度确定子模块505D2,用于针对所述词图模型中的每一节点,确定指向该节点的节点,作为关系节点,并根据关系节点指向的节点对应的候选关键词的语义重要度、位置重要度、频率重要度,计算所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,作为该节点对应的候选关键词的词权重的更新幅度。
这样,由于是基于各个候选关键词和各个候选关键词间的指向关系,构建由节点和节点间的指向关系描述的词图模型。又由于所构建的词图模型能够更加准确地反映各个候选关键词以及各个候选关键词间的指向关系,因此,基于所构建的词图模型能够更加准确地计算词图模型中各个节点对应的候选关键词的词权重的更新幅度。
本发明的一个实施例中,上述关键词确定模块506,包括:
第一词权重更新单元,用于针对所述词图模型中每一节点,根据该节点所对应候选关键词的词权重的预设初始值、所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,对该节点对应的候选关键词的词权重进行更新;
词权重判断单元,用于判断各个节点对应的候选关键词的更新后词权重是否满足预设收敛性条件;若为否,触发第一词权重更新单元。
这样,由于当更新后的各个节点对应的候选关键词的词权重不满足预设收敛性条件时,重新对各个节点对应的候选关键词的词权重进行更新,当更新后的各个节点对应的候选关键词的词权重满足预设收敛性条件时,能够得到各个节点对应的候选关键词的词权重的权重值。因此,能够更加准确地获得各个节点对应的候选关键词的词权重的最终权重值。
本发明的一个实施例中,上述更新幅度计算模块505具体用于按照以下表达式计算每一候选关键词的词权重的更新幅度:
Figure BDA0002580747770000211
其中,j表示候选关键词的序号,i表示第j个候选关键词的关系词的序号,k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的序号,Pj表示第j个候选关键词的词权重的更新幅度,pi表示第i个关系词的词权重的权重值,in(j)表示指向第j个候选关键词的关系词的集合,out(i)表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的集合,wioc.j表示第j个候选关键词的位置重要度,wvec.j表示第j个候选关键词的语义重要度,wtf.j表示第j个候选关键词的频率重要度,wioc.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的位置重要度,wvec.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的语义重要度,wtf.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的频率重要度,A为位置重要度对应的预设比例权重,B为语义重要度对应的预设比例权重,C为频率重要度对应的预设比例权重。
本发明的一个实施例中,上述重要度确定模块503,包括:
词簇获得子模块,用于基于各个候选关键词所表达语义的特征间的相似度,对各个候选关键词进行聚类,得到各个词簇,其中,每一词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值;
语义重要度确定子模块,用于针对每一词簇,获得该词簇内各个候选关键词与该词簇的质心间的距离最小的候选关键词,作为簇中心词,将第一预设语义重要度作为所述簇中心词的语义重要度,并将第二预设语义重要度作为该词簇内除所述簇中心词外的各个候选关键词的语义重要度,其中,所述第二预设语义重要度小于所述第一预设语义重要度。
这样,由于簇中心词为上述文本的关键词的概率相对较大。因此将第一预设语义重要度作为簇中心词的语义重要度,将小于上述第一预设语义重要度的第二预设语义重要度作为该簇内除簇中心词外的各个候选关键词的语义重要度,能够更加准确地确定各个候选关键词的语义重要度。
本发明的一个实施例中,上述重要度确定模块503具体用于按照以下表达式计算各个候选关键词的频率重要度:
Wtf.j=Fj/n
其中,j表示候选关键词的序号,Wtf.j表示第j个候选关键词的频率重要度,Fj表示第j个候选关键词在文本中出现的频次,n表示文本中包含的词语的数量。
这样,根据候选关键词在文本中出现的频次以及文本中包含的词语的数量能够更加地确定候选关键词的频率重要度。
本发明的一个实施例中,上述重要度确定模块503具体用于当候选关键词在所述文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;当候选关键词不在所述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度,其中,所述第二预设位置重要小于所述第一预设位置重要度。
这样,由于文本的标题往往包含文本的关键词,因此,当候选关键词在待提取关键词的文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;当候选关键词不在上述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度。从而能够更加准确地确定各个候选关键词的位置重要度。
与上述文本关键词确定方法相对应,本发明实施例还提供了一种电子设备。
参见图7,图7为本发明实施例提供的一种终端设备的结构示意图,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现本发明实施例提供的文本关键词确定方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的文本关键词确定方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行时实现本发明实施例提供的文本关键词确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种文本关键词确定方法,其特征在于,所述方法包括:
从待提取关键词的文本包含的各个词语中选择候选关键词;
针对每一候选关键词,基于所述文本中该候选关键词的上下文信息,提取该候选关键词在所述文本中所表达语义的语义特征;
基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在所述文本中出现的位置,确定每一候选关键词的位置重要度;
基于各个候选关键词在所述文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系;
针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,其中,所述词权重表征候选关键词为所述文本的关键词的概率;
基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词;
所述基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,包括:
基于各个候选关键词所表达语义的特征间的相似度,对各个候选关键词进行聚类,得到各个词簇,其中,每一词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值;
针对每一词簇,获得该词簇内各个候选关键词与该词簇的质心间的距离最小的候选关键词,作为簇中心词,将第一预设语义重要度作为所述簇中心词的语义重要度,并将第二预设语义重要度作为该词簇内除所述簇中心词外的各个候选关键词的语义重要度,其中,所述第二预设语义重要度小于所述第一预设语义重要度;
所述针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,包括:
按照以下表达式计算每一候选关键词的词权重的更新幅度:
Figure FDA0004005337230000021
其中,j表示候选关键词的序号,i表示第j个候选关键词的关系词的序号,k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的序号,Pj表示第j个候选关键词的词权重的更新幅度,pi表示第i个关系词的词权重的权重值,in(j)表示指向第j个候选关键词的关系词的集合,out(i)表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的集合,wioc.j表示第j个候选关键词的位置重要度,wvec.j表示第j个候选关键词的语义重要度,wtf.j表示第j个候选关键词的频率重要度,wioc.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的位置重要度,wvec.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的语义重要度,wtf.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的频率重要度,A为位置重要度对应的预设比例权重,B为语义重要度对应的预设比例权重,C为频率重要度对应的预设比例权重。
2.根据权利要求1所述的方法,其特征在于,所述针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,包括:
根据各个候选关键词和各个候选关键词间的指向关系,构建由节点和节点间的指向关系描述的词图模型,每一节点分别与每一候选关键词一一对应,两个节点间的指向关系与所述两个节点分别对应的候选关键词间的指向关系一致;
针对所述词图模型中的每一节点,确定指向该节点的节点,作为关系节点,并根据关系节点指向的节点对应的候选关键词的语义重要度、位置重要度、频率重要度,计算所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,作为该节点对应的候选关键词的词权重的更新幅度。
3.根据权利要求2所述的方法,其特征在于,所述基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,包括:
针对所述词图模型中每一节点,根据该节点所对应候选关键词的词权重的预设初始值、所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,对该节点对应的候选关键词的词权重进行更新;
判断各个节点对应的候选关键词的更新后词权重是否满足预设收敛性条件;
若为否,返回所述针对所述词图模型中每一节点,根据该节点所对应候选关键词的词权重的预设初始值、所述关系节点对应的候选关键词向该节点对应的候选关键词传递词权重的权重值,对该节点对应的候选关键词的词权重进行更新的步骤。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,包括:
按照以下表达式计算各个候选关键词的频率重要度:
Wtf.j=Fj/n
其中,j表示候选关键词的序号,Wtf.j表示第j个候选关键词的频率重要度,Fj表示第j个候选关键词在文本中出现的频次,n表示文本中包含的词语的数量。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于每一候选键词在所述文本中出现的位置,确定每一候选关键词的位置重要度,包括:
当候选关键词在所述文本的标题中时,将第一预设位置重要度确定为候选关键词的位置重要度;
当候选关键词不在所述文本的标题中时,将第二预设位置重要度确定为候选关键词的位置重要度,其中,所述第二预设位置重要小于所述第一预设位置重要度。
6.一种文本关键词确定装置,其特征在于,所述装置包括:
候选关键词提取模块,用于从待提取关键词的文本包含的各个词语中选择候选关键词;
语义特征提取模块,用于针对每一候选关键词,基于所述文本中该候选关键词的上下文信息,提取该候选关键词在所述文本中所表达语义的语义特征;
重要度确定模块,用于基于每一候选关键词的语义特征与其他候选关键词的语义特征间的相似度,确定每一候选关键词的语义重要度,基于每一候选关键词在所述文本中出现的频率,确定每一候选关键词的频率重要度,并基于每一候选关键词在所述文本中出现的位置,确定每一候选关键词的位置重要度;
指向关系确定模块,用于基于各个候选关键词在所述文本中预设长度的文本段中出现的顺序,确定各个候选关键词间的指向关系;
更新幅度计算模块,用于针对每一候选关键词,确定指向该候选关键词的候选关键词,作为关系词,并根据关系词指向的候选关键词的语义重要度、位置重要度、频率重要度,计算该候选关键词的词权重的更新幅度,其中,所述词权重表征候选关键词为所述文本的关键词的概率;
关键词确定模块,用于基于各个候选关键词的词权重的更新幅度以及预设初始值,更新各个候选关键词的词权重,确定预设数量个更新后词权重最高的候选关键词为所述文本的关键词;
所述重要度确定模块,具体用于基于各个候选关键词所表达语义的特征间的相似度,对各个候选关键词进行聚类,得到各个词簇,其中,每一词簇中各个候选关键词所表达语义的特征间的相似度小于预设差异阈值;
针对每一词簇,获得该词簇内各个候选关键词与该词簇的质心间的距离最小的候选关键词,作为簇中心词,将第一预设语义重要度作为所述簇中心词的语义重要度,并将第二预设语义重要度作为该词簇内除所述簇中心词外的各个候选关键词的语义重要度,其中,所述第二预设语义重要度小于所述第一预设语义重要度;
所述更新幅度计算模块,具体用于按照以下表达式计算每一候选关键词的词权重的更新幅度:
Figure FDA0004005337230000051
其中,j表示候选关键词的序号,i表示第j个候选关键词的关系词的序号,k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的序号,Pj表示第j个候选关键词的词权重的更新幅度,pi表示第i个关系词的词权重的权重值,in(j)表示指向第j个候选关键词的关系词的集合,out(i)表示第i个关系词指向的候选关键词中除第j个候选关键词之外的候选关键词的集合,wioc.j表示第j个候选关键词的位置重要度,wvec.j表示第j个候选关键词的语义重要度,wtf.j表示第j个候选关键词的频率重要度,wioc.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的位置重要度,wvec.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的语义重要度,wtf.k表示第i个关系词指向的候选关键词中除第j个候选关键词之外的第k个候选关键词的频率重要度,A为位置重要度对应的预设比例权重,B为语义重要度对应的预设比例权重,C为频率重要度对应的预设比例权重。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202010667115.1A 2020-07-13 2020-07-13 一种文本关键词确定方法及装置 Expired - Fee Related CN111914564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010667115.1A CN111914564B (zh) 2020-07-13 2020-07-13 一种文本关键词确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010667115.1A CN111914564B (zh) 2020-07-13 2020-07-13 一种文本关键词确定方法及装置

Publications (2)

Publication Number Publication Date
CN111914564A CN111914564A (zh) 2020-11-10
CN111914564B true CN111914564B (zh) 2023-03-14

Family

ID=73227762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010667115.1A Expired - Fee Related CN111914564B (zh) 2020-07-13 2020-07-13 一种文本关键词确定方法及装置

Country Status (1)

Country Link
CN (1) CN111914564B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464654B (zh) * 2020-11-27 2022-06-17 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112836045A (zh) * 2020-12-25 2021-05-25 中科恒运股份有限公司 基于文本数据集的数据处理方法、装置及终端设备
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110147425A (zh) * 2019-05-22 2019-08-20 华泰期货有限公司 一种关键词提取方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334533B (zh) * 2017-10-20 2021-12-24 腾讯科技(深圳)有限公司 关键词提取方法和装置、存储介质及电子装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN110147425A (zh) * 2019-05-22 2019-08-20 华泰期货有限公司 一种关键词提取方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
News keywords extraction algorithm based on TextRank and classified TF-IDF;Xiong Ao等;《2020 international wireless communications and mobile computing(IWCMC)》;20200619;第1364-1369页 *
融合LSTM和LDA差异的新闻文本关键词抽取方法;宁珊等;《计算机工程与科学》;20200115(第01期);第157-164页 *

Also Published As

Publication number Publication date
CN111914564A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111914564B (zh) 一种文本关键词确定方法及装置
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN110222182B (zh) 一种语句分类方法及相关设备
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN111414746B (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN113053367B (zh) 语音识别方法、语音识别的模型训练方法以及装置
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN113407679A (zh) 文本主题挖掘方法、装置、电子设备及存储介质
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN114661861B (zh) 文本匹配方法及装置、存储介质、终端
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
US20240220772A1 (en) Method of evaluating data, training method, electronic device, and storage medium
CN114661881A (zh) 一种基于问答模式的事件抽取方法、装置和设备
CN110162595B (zh) 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
US7895206B2 (en) Search query categrization into verticals
CN117312513B (zh) 文档搜索模型训练方法、文档搜索方法及相关装置
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
AU2022204669B2 (en) Disfluency removal using machine learning
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN113011162B (zh) 一种指代消解方法、装置、电子设备及介质
CN114254634A (zh) 一种多媒体数据的挖掘方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230314

CF01 Termination of patent right due to non-payment of annual fee