CN112417845A - 一种文本评价方法、装置、电子设备及存储介质 - Google Patents
一种文本评价方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112417845A CN112417845A CN202011299045.5A CN202011299045A CN112417845A CN 112417845 A CN112417845 A CN 112417845A CN 202011299045 A CN202011299045 A CN 202011299045A CN 112417845 A CN112417845 A CN 112417845A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- word vector
- topic
- weight
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 230
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000005259 measurement Methods 0.000 claims abstract description 13
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 238000012546 transfer Methods 0.000 claims abstract description 7
- 238000013508 migration Methods 0.000 claims description 22
- 230000005012 migration Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000011524 similarity measure Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 13
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请提供一种文本评价方法、装置、电子设备及存储介质,涉及评估技术领域。该方法包括:基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;将关键词转换为具有权重的词向量,得到文本语料的文本词典;获取目标主题词典,目标主题词典是基于文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;获取文本词典中各个词向量的第一平均值,以及获取目标主题词典中各个词向量的第二平均值;根据第一平均值和第二平均值,确定文本语与第二主题的相似度。能够评价文本语料内容与特定主题之间的匹配程度。
Description
技术领域
本申请涉及评估技术领域,具体而言,涉及一种文本评价方法、装置、电子设备及存储介质。
背景技术
随着互联网的高速发展,用户能够在网络中通过图像、文字、影视等载体,获取到越来越多的资讯。对于不同的文本内容或者影视内容的评价通常是各有所见的,由于不同的人,因其知识面、价值观的不同,并且由于人们各自的立场或角度的不同,因此在面对一个文本或者影视内容时,评价的角度以及层次往往不相同。目前,对于一个文本或者影视内容的评价没有固定的标准,存在不能对文本或者影视内容关于某个特定主题进行量化评价的问题。因此,对于某一待评价的文本或影视中所包含的内容与我们所关心的某一特定主题的匹配程度,目前没有能够评价的手段。
发明内容
为了解决上述技术问题,本申请实施例的目的在于提供一种文本评价方法、装置、电子设备及存储介质。
为了解决上述技术问题,第一方面,本发明实施例提供一种文本评价方法,包括:
基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;
将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典;
获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;
根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值;
根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
在上述实现过程中,当检测到输入的待评价的文本语料时,基于预设的相似度衡量算法从待评价的文本语料中提取出关键词,在提取关键词之后,将所有关键词转换为词向量,生成待分析文本语料的文本词典。之后,获取目标主题词典,目标主题词典是基于文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典,根据文本词典中各个词向量的权重,获取文本词典中各个词向量的第一平均值,以及根据目标主题词典中各个词向量的权重,获取目标主题词典中各个词向量的第二平均值,根据第一平均值与第二平均值,确定文本语料与所述第二主题的相似度。由此可见,能够评价待评价的文本语料内容与特定主题之间的匹配程度,从而能够解决对文本语料关于特定主题进行量化评分的问题。
可选的,所述排序算法包括TextRank算法,所述相似度衡量算法包括BM25算法,所述基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词,包括:
利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子;
对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词;
利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,以生成所述预处理后的多个句子的相似度矩阵;
根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序;
根据所述句子排序,确定所述多个关键句子;
从所述多个关键句子中提取关键词。
在上述实现过程中,可以对文本语料以句子为单位,进行预处理,并在预处理后基于BM25算法获取句子之间的相似度,然后利用所述TextRank对经过预处理后的多个句子进行排序,并根据句子排序提取确定关键句子,以从所述多个关键句子提取出关键词。能够从文本语料中提取出关键句子和关键词汇,为之后对文本的评价提供准确的依据。
可选的,所述获取目标主题词典,包括:
获取所述第二主题词典中的每个词向量,以及每个词向量在所述第二主题下的权重;
从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典;
根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重;
根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量的在所述第一主题下的权重,得到所述目标主题词典。
在上述实现过程中,通过对第二主题中的词向量进行权重迁移,得到能够用于评价第一主题的文本语料的目标主题词典。能够解决由于待评价的文本语料所述的第一主题和第二主题可能属于不同的领域,而导致的直接用第二主题的第二主题词典对文本语料的文本词典进行评价不够准确的问题。使得迁移后得到的目标主题词典能够适用于对第一主题的内容进行评价。从而,由此能够实现在已有主题词典的情况下的新词识别,增加了在不同领域的适用性。
可选的,所述将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典,包括:
通过预先训练好的word2vec模型,将每个所述关键词转换为具有权重的词向量,以得到所述文本词典;
所述目标主题词典中的词向量为具有权重的word2vec向量,所述根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值,包括:
根据所述文本词典中的每个词向量在所述第一主题下的权重进行加权平均计算,以确定所述文本词典中各个词向量的第一平均值;
根据所述目标主题词典中的每个词向量的权重进行加权平均计算,确定所述目标主题词典中各个词向量的第二平均值。
在上述实现过程中,词向量为word2vec向量,根据文本词典中各个词向量的权重进行加权平均,获取所述文本词典中各个词向量的第一平均值,以及根据目标主题词典中各个词向量的权重进行加权平均,获取目标主题词典中各个词向量的第二平均值。通过词向量的加权平均值,为后续计算文本语料在目标主题下的相似性得分提供依据。
可选的,所述根据所述第一平均值和所述第二平均值,确定所述文本语料与所述第二主题的相似度,包括:
计算所述第一平均值和所述第二平均值的余弦相似度,作为所述文本语料与所述第二主题的相似度。
在上述实现过程中,提供了一种将文本内容进行量化评价的方法,能够客观准确地评价文本语料与特定主题相似度,从而确定文本语料与特定主题的相关程度。
第二方面,本发明实施例提供一种文本评价装置,包括:
提取模块,用于基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;
转换模块,用于将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典;
迁移模块,用于获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;
计算模块,用于根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值;
确定模块,用于根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
在上述实现过程中,当检测到输入的待评价的文本语料时,基于预设的相似度衡量算法从待评价的文本语料中提取出关键词,在提取关键词之后,将所有关键词转换为词向量,生成待分析文本语料的文本词典。之后,获取目标主题词典,目标主题词典是基于文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典,根据文本词典中各个词向量的权重,获取文本词典中各个词向量的第一平均值,以及根据目标主题词典中各个词向量的权重,获取目标主题词典中各个词向量的第二平均值,根据第一平均值与第二平均值,确定文本语料与所述第二主题的相似度。由此可见,能够评价待评价的文本语料内容与特定主题之间的匹配程度,从而能够解决对文本语料关于特定主题进行量化评分的问题。
可选的,所述排序算法包括TextRank算法,所述相似度衡量算法包括BM25算法,所述提取模块,包括:
分割子模块,用于利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子;
预处理模块,用于对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词;
相似度计算子模块,用于利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,以生成所述预处理后的多个句子的相似度矩阵;
排序子模块,用于根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序;
确定子模块,用于根据所述句子排序,确定所述多个关键句子,所述每个关键句子包含至少一个关键词;
关键词提取子模块,用于从所述多个关键句子中提取关键词。
在上述实现过程中,可以对文本语料以句子为单位,进行预处理,并在预处理后基于BM25算法获取句子之间的相似度,然后利用所述TextRank对经过预处理后的多个句子进行排序,并根据句子排序提取确定关键句子,以从所述多个关键句子提取出关键词。能够从文本语料中提取出关键句子和关键词汇,为之后对文本的评价提供准确的依据。
可选的,所述迁移模块,包括:
第一获取子模块,用于获取所述第二主题词典中的每个词向量,以及每个词向量在所述第二主题下的权重;
第二获取子模块,用于从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典;
权重计算子模块,用于根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重;
词典获取子模块,根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量的在所述第一主题下的权重,得到所述目标主题词典。
在上述实现过程中,通过对第二主题中的词向量进行权重迁移,得到能够用于评价第一主题的文本语料的目标主题词典。能够解决由于待评价的文本语料所述的第一主题和第二主题可能属于不同的领域,而导致的直接用第二主题的第二主题词典对文本语料的文本词典进行评价不够准确的问题。使得迁移后得到的目标主题词典能够适用于对第一主题的内容进行评价。从而,由此能够实现在已有主题词典的情况下的新词识别,增加了在不同领域的适用性。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述第一方面中任一项所述方法中的步骤。
第四方面,本申请实施例一种计算机可读存储介质,包括:其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述第一方面中任一项所述方法中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文本评价方法的流程图;
图2为本申请实施例提供的另一种文本评价方法的流程图;
图3为本申请实施例提供的一种关键词提取方法的流程图;
图4为本申请实施例提供的一种权重迁移方法的流程图;
图5是本申请实施例示出一种文本评价装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的一种文本评价方法的流程图,请参见图1,该文本评价方法可以包括如下步骤:
在步骤S101中,基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词。
其中,待评价的文本语料可以是从文章、图片、视频、音频等载体中提取出的文本语料。相似度衡量算法,例如可以是BM25算法,用于在将文本语料的内容以句子为单位进行分割后,获取句子之间的相似度,得到相似度矩阵。预设的排序算法例如可以是TextRank算法,在得到上述相似度矩阵后,依据该相似度矩阵,基于TextRank算法对各个句子进行排序,从而可以确定重要性较高的关键句子,并从关键句子中提取出关键词。
在步骤S102中,将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典。
示例性的,可以预先建立针对某一主题的词向量模型,用于将文本语料中的关键词转换为带有权重的词向量。该词向量模型可以是Word2Vec模型,然后可以利用大量的该主题下的文本语料中提取出的大量词汇,对建立好的词向量模型进行训练,以得到训练好的关于该主题的词向量模型,通过该训练好的词向量模型既可将关键词转换为带有权重的Word2Vec词向量。
例如,当前待评价的文本语料是影视剧的剧本中提取的文本语料,则可以预先建立针对影视主题的Word2Vec模型,然后,可以利用大量的影视主题的文本语料中提取的大量词汇对建立好的Word2Vec模型进行训练,以得到训练好的影视主题的Word2Vec模型。从而,在得到待评价的文本语料中提取出的关键词后,通过该Word2Vec模型将每个关键词映射为带有权重的Word2Vec词向量后,得到多个Word2Vec词向量,作为待评价的文本语料的文本词典。
在步骤S103中,获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典。
其中,第一主题可以理解为当前待评价的文本语料所属的主题,例如,该文本语料为一影视剧的内容的文本语料时,该第一主题为影视主题。第二主题用来评价该文本语料的特定主题。第一主题的第一主题词典和第二主题的第二主题词典中的词向量可以都是具有权重的Word2Vec词向量,该第一主题词典和第二主题词典均是预先训练好的。
该第一主题词典和第二主题词典的训练过程与步骤S102中所述的词向量模型的训练过程相似。可以先建立该主题对应的该词向量模型,即Word2Vec模型,然后可以利用大量的该主题下的文本语料中提取出的大量词汇,对建立好的词向量模型进行训练,可以训练好的关于该主题的词向量模型,以及该大量词汇对应的带有权重的词向量,从而形成该主题的主题词典。
通过上述过程就实现了第二主题词典的词向量权重迁移,得到能够用于评价第一主题的文本语料的目标主题词典。进行上述过程是由于待评价的文本语料所述的第一主题和第二主题可能属于不同的领域,因此直接用第二主题的第二主题词典对文本语料的文本词典进行评价,可能会不够准确。因此,需要基于第一主题将第二主题中的各个词向量进行权重迁移,使得迁移后得到的目标主题词典能够适用于对第一主题的内容进行评价。
在步骤S104中,根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值。
在步骤S105中,根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
其中,以词向量为Word2Vec词向量为例,根据上述文本词典中各个Word2Vec词向量以及其权重,可以计算出各个Word2Vec词向量的加权平均值,作为该第一平均值,同理,可以计算出目标主题词典中各个Word2Vec词向量的加权平均值,作为该第二平均值。然后,可以根据第一平均值和第二平均值的余弦相似度,作为所述文本语料与所述第二主题的相似度评分。通过该评分能够表征所述文本语料与所述第二主题的匹配程度。
由此可见,通过上述方法,能够评价文本语料内容与特定主题之间的匹配程度,能够解决对文本语料关于特定主题进行量化评分的问题。
图2为本申请实施例提供的另一种文本评价方法的流程图,请参见图2,该文本评价方法可以包括如下步骤:
步骤S201,获取第一主题的第一主题词典,和第二主题的第二主题词典。
其中,第一主题可以是待评价的文本语料所属的主题,第二主题是我们将要对文本语料进行评价的主题,以确认该文本语料与第二主题的匹配程度。例如,该文本语料为一影视剧的内容的文本语料时,该第一主题为影视主题,第二主题是某一特定价值观主题,用于评价文本语料的内容与该特定价值观主题的匹配程度(或称为相关程度)。关于第一主题词典和第二主题词典的训练过程与步骤103中所述的方法相同,不再赘述。
步骤S202,获取待评价的文本语料。
待评价的文本语料可以是通过从图片、文章,音频或者视频中提取内容,获得的文本语料。
步骤S203,基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词。
示例的,所述相似度衡量算法包括BM25算法,所述关键词提取算法包括TextRank算法。TextRank算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,并利用投票机制对文本中的重要成分进行排序。BM25是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法。
图3为本申请实施例提供的一种关键词提取方法的流程图,请参见图3,上述步骤S203可以包括以下步骤:
步骤S2031,利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子。
示例的,分隔符可以为:“。”,“!”,“?”等符号。
步骤S2032,对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词。
步骤S2033,利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,并基于每两个句子之间的相似度生成所述预处理后的多个句子的相似度矩阵。
在上述通过对每个原始句子进行分词和去除停用词处理后,得到的每个预处理后的句子中包含多个词。
基于预处理后的多个句子中的每个词,可以通过以下公式计算句子之间的相似度:
其中,S(A,B)表示句子A对句子B的相似度评分,表示R(ai,A)句子A中的词ai对句子A的重要程度,表示R(ai,B)词ai对句子B的重要程度;
其中,N表示文本语料中全部句子的数量,n(ai)表示包含词ai的句子的数量。
其中,k1、k2、z为调节参数,Bfi为ai在句子B中的出现频率,Afi为词ai在句子A中的出词频,Bl为句子B的长度(指词语数量),avgl为文本语料中句子的平均长度。
然后,基于每两个句子之间的相似度生成所述预处理后的多个句子的相似度矩阵V。
步骤S2034,根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序。
TextRank一般模型可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,集合E是V×V的子集。图中任两点Vi,Vj之间边的权重为Wj,i,对于一个给定的点Vi,In(Vi)表示指向该点Vi的点集合,Out(Vi)表示点Vi指向的点集合。
利用所述TextRank算法对所述预处理后的多个句子进行排序,示例的可以包括以下步骤:
步骤1,对于句子i,初始化句子i的重要性得分WS(Vi);
步骤2,计算更新后的句子i的重要性得分WS(Vi)new:
其中,更新WS(Vi)=WS(Vi)new;Vj表示所有指向Vi的点,Vk表示所有指向Vj的点,Wj,k表示Vk与Vj两点间边的权重值,也就是句子之间的相似度;通过迭代更新计算出每个句子的重要性得分。
步骤3,再次执行步骤2,直至所有句子的WS(Vi)new-WS(Vi)小于预设阈值,得到每个句子当前的WS(Vi);
步骤4,根据每个句子当前的WS(Vi)对各个句子进行排序。
步骤S2035,根据所述句子排序,确定所述多个关键句子。
示例的,可以依据上述得到的句子排序,选择排名最高的前M个句子作为关键句子。
步骤S2036,从所述多个关键句子中提取关键词。
步骤S204,将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典。示例的,可以通过预先训练好的word2vec模型,将每个所述关键词转换为具有权重的词向量,以得到所述文本词典,该方法与步骤S102中所示的方法相同,不再赘述。
步骤S205,获取目标主题词典。所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典。
这是由于待评价的文本语料所述的第一主题和第二主题可能属于不同的领域,因此直接用第二主题的第二主题词典对文本语料的文本词典进行评价,可能会不够准确。因此,需要基于第一主题将第二主题中的各个词向量进行权重迁移,使得迁移后得到的目标主题词典能够适用于对第一主题的内容进行评价。
示例的,图4为本申请实施例提供的一种权重迁移方法的流程图,请参见图4,该S205可以具体包括以下步骤:
步骤S2051,获取所述第二主题词典中的每个词向量,以及每个词向量在所述第二主题下的权重。
步骤S2052,从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典。
步骤S2053,根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重。
示例的,可以通过以下公式计算迁移后的权重:
scoreij=weighti×αi,j
其中,weighti表示第二主题词典中的词向量i在第二主题下的权重,αi,j表示权重调节参数,即词向量i在第一主题词典中的近义词向量j在第一主题下的权重,scoreij表示词向量i的迁移后的权重。
其中,需要说明的是,如果词向量i在第二主题词典中存在来源于不同位置的多个词向量i,并且多个词向量i具有不同的权重时,取最高的权重作为词向量i在第二主题下的权重,上述不同位置可以理解为,在训练第二主题词典时,相同的词出现在不同文本语料中。
步骤S2054,根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量在所述第一主题下的权重,得到所述目标主题词典。
步骤S206,根据所述文本词典中的每个词向量在所述第一主题下的权重进行加权平均计算,以确定所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中的每个词向量的权重进行加权平均计算,确定所述目标主题词典中各个词向量的第二平均值。
以词向量为Word2Vec词向量为例,根据上述文本词典中各个Word2Vec词向量以及其权重,可以计算出各个Word2Vec词向量的加权平均值,作为该第一平均值,同理,可以计算出目标主题词典中各个Word2Vec词向量的加权平均值,作为该第二平均值。
步骤S207,根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
示例的,可以计算所述第一平均值和所述第二平均值的余弦相似度,作为所述文本语料与所述第二主题的相似度。可以理解为将第一平均值和所述第二平均值的余弦相似度的值,作为所述文本语与所述第二主题的相似度评分,通过该评分能够表征所述文本语料与所述第二主题的匹配程度,从而实现对文本语料内容与特定主题之间的匹配程度进行量化评价。
基于同一发明构思,本申请实施例中还提供一种文本评价装置,请参看图5,图5是本申请实施例示出一种文本评价装置的结构图,请参见图5,所述文本评价装置500可以包括:
提取模块501,用于基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;
转换模块502,用于将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典;
迁移模块503,用于获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;
计算模块504,用于根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值;
确定模块505,用于根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
可选的,所述排序算法包括TextRank算法,所述相似度衡量算法包括BM25算法,所述提取模块501,可以包括:
分割子模块,用于利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子;
预处理模块,用于对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词;
相似度计算子模块,用于利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,以生成所述预处理后的多个句子的相似度矩阵;
排序子模块,用于根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序;
确定子模块,用于根据所述句子排序,确定所述多个关键句子,所述每个关键句子包含至少一个关键词;
关键词提取子模块,用于从所述多个关键句子中提取关键词。
可选的,所述转换模块502,具体用于:
通过预先训练好的word2vec模型,将每个所述关键词转换为具有权重的词向量,以得到所述文本词典。
可选的,所述迁移模块503,可以包括:
第一获取子模块,用于获取所述第二主题词典中的每个词向量,以及每个词向量在所述第二主题下的权重;
第二获取子模块,用于从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典;
权重计算子模块,用于根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重;
词典获取子模块,根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量的在所述第一主题下的权重,得到所述目标主题词典,所述目标主题词典中的词向量为具有权重的word2vec向量。
所述计算模块504,具体用于:
根据所述文本词典中的每个词向量在所述第一主题下的权重进行加权平均计算,以确定所述文本词典中各个词向量的第一平均值;
根据所述目标主题词典中的每个词向量的权重进行加权平均计算,确定所述目标主题词典中各个词向量的第二平均值。
可选的,所述确定模块505,具体用于:
计算所述第一平均值和所述第二平均值的余弦相似度,作为所述文本语料与所述第二主题的相似度。
由此可见,通过上述装置所执行的实施方式,能够评价文本语料内容与特定主题之间的匹配程度,能够解决对文本语料关于特定主题进行量化评分的问题。
本申请实施例还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行上述任一实施例中所述的文本评价方法的步骤。
本申请实施例还提供一种计算机可读存储介质,包括:其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一实施例中所述的文本评价方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本评价方法,其特征在于,包括:
基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;
将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典;
获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;
根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值;
根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
2.根据权利要求1所述的方法,其特征在于,所述排序算法包括TextRank算法,所述相似度衡量算法包括BM25算法,所述基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词,包括:
利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子;
对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词;
利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,以生成所述预处理后的多个句子的相似度矩阵;
根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序;
根据所述句子排序,确定多个关键句子;
从所述多个关键句子中提取关键词。
3.根据权利要求1所述的方法,其特征在于,所述获取目标主题词典,包括:
获取所述第二主题词典中的每个词向量,以及每个词向量在所述第二主题下的权重;
从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典;
根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重;
根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量的在所述第一主题下的权重,得到所述目标主题词典。
4.根据权利要求1所述的方法,其特征在于,所述将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典,包括:
通过预先训练好的word2vec模型,将每个所述关键词转换为具有权重的词向量,以得到所述文本词典;
所述目标主题词典中的词向量为具有权重的word2vec向量,所述根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值,包括:
根据所述文本词典中的每个词向量在所述第一主题下的权重进行加权平均计算,以确定所述文本词典中各个词向量的第一平均值;
根据所述目标主题词典中的每个词向量的权重进行加权平均计算,确定所述目标主题词典中各个词向量的第二平均值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一平均值和所述第二平均值,确定所述文本语料与所述第二主题的相似度,包括:
计算所述第一平均值和所述第二平均值的余弦相似度,作为所述文本语料与所述第二主题的相似度。
6.一种文本评价装置,其特征在于,包括:
提取模块,用于基于预设的排序算法和相似度衡量算法,从待评价的文本语料中提取关键词;
转换模块,用于将所述关键词转换为具有权重的词向量,得到所述文本语料的文本词典;
迁移模块,用于获取目标主题词典,所述目标主题词典是基于所述文本语料所属第一主题的第一主题词典中词向量的权重,对第二主题的第二主题词典中词向量的权重进行权重迁移后得到的主题词典;
计算模块,用于根据所述文本词典中各个词向量的权重,获取所述文本词典中各个词向量的第一平均值,以及根据所述目标主题词典中各个词向量的权重,获取所述目标主题词典中各个词向量的第二平均值;
确定模块,用于根据所述第一平均值和所述第二平均值,确定所述文本语与所述第二主题的相似度。
7.根据权利要求6所述的装置,其特征在于,所述排序算法包括TextRank算法,所述相似度衡量算法包括BM25算法,所述提取模块,包括:
分割子模块,用于利用所述TextRank算法根据所述文本语料中的分隔符,将所述文本语料以句子为单位进行分割,得到多个原始句子;
预处理模块,用于对所述多个原始句子中的每个句子进行预处理,得到预处理后的多个句子,所述预处理包括:分词处理和去除停用词;
相似度计算子模块,用于利用所述BM25算法确定所述预处理后的多个句子中每两个句子之间的相似度,以生成所述预处理后的多个句子的相似度矩阵;
排序子模块,用于根据所述相似度矩阵,利用所述TextRank算法对所述预处理后的多个句子进行排序,得到句子排序;
确定子模块,用于根据所述句子排序,确定多个关键句子,每个所述关键句子包含至少一个关键词;
关键词提取子模块,用于从所述多个关键句子中提取关键词。
8.根据权利要求6所述的装置,其特征在于,所述迁移模块,包括:
第一获取子模块,用于获取所述第二主题词典中的每个词向量向量,以及每个词向量在所述第二主题下的权重;
第二获取子模块,用于从所述第一主题词典中,获取所述第一主题词典中的每个词向量对应的近义词向量词典;
权重计算子模块,用于根据所述第二主题词典中每个词向量在所述第二主题下的权重,以及所述每个词向量对应的近义词向量词典中的每个近义词向量的权重调节参数,获取所述第二主题词典中每个词向量对应的每个近义词向量在所述第一主题下的权重,所述权重调节参数用于表示所述第二主题词典的词向量的近义词向量在所述第二主题下的权重;
词典获取子模块,根据所述第二主题词典每个词向量对应的每个近义词向量,以及每个近义词向量的在所述第一主题下的权重,得到所述目标主题词典。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1至4中任一项所述方法中的步骤。
10.一种计算机可读存储介质,包括:其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299045.5A CN112417845A (zh) | 2020-11-18 | 2020-11-18 | 一种文本评价方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011299045.5A CN112417845A (zh) | 2020-11-18 | 2020-11-18 | 一种文本评价方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417845A true CN112417845A (zh) | 2021-02-26 |
Family
ID=74773711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011299045.5A Pending CN112417845A (zh) | 2020-11-18 | 2020-11-18 | 一种文本评价方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449507A (zh) * | 2021-07-08 | 2021-09-28 | 北京航空航天大学 | 质量改进方法及装置、电子设备、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016161089A1 (en) * | 2015-04-03 | 2016-10-06 | Klangoo, Inc. | Techniques for understanding the aboutness of text based on semantic analysis |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
CN111651657A (zh) * | 2020-06-04 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 情报监控方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-11-18 CN CN202011299045.5A patent/CN112417845A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016161089A1 (en) * | 2015-04-03 | 2016-10-06 | Klangoo, Inc. | Techniques for understanding the aboutness of text based on semantic analysis |
CN107844493A (zh) * | 2016-09-19 | 2018-03-27 | 上海泓智信息科技有限公司 | 一种文件关联方法及系统 |
CN108334533A (zh) * | 2017-10-20 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
CN110705304A (zh) * | 2019-08-09 | 2020-01-17 | 华南师范大学 | 一种属性词提取方法 |
CN110705248A (zh) * | 2019-10-09 | 2020-01-17 | 厦门今立方科技有限公司 | 一种文本相似度计算方法、终端设备及存储介质 |
CN111651657A (zh) * | 2020-06-04 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 情报监控方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
唐晓波;顾娜;谭明亮;: "基于句子主题发现的中文多文档自动摘要研究", 情报科学, no. 03, 1 March 2020 (2020-03-01), pages 11 - 16 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449507A (zh) * | 2021-07-08 | 2021-09-28 | 北京航空航天大学 | 质量改进方法及装置、电子设备、存储介质 |
CN113449507B (zh) * | 2021-07-08 | 2023-02-17 | 北京航空航天大学 | 质量改进方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284357B (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN106599226B (zh) | 一种内容推荐方法及内容推荐系统 | |
Bruni et al. | Distributional semantics from text and images | |
US9087297B1 (en) | Accurate video concept recognition via classifier combination | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN107679070B (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
CN111444387A (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
CN112231555A (zh) | 基于用户画像标签的召回方法、装置、设备及存储介质 | |
JP6486165B2 (ja) | 候補キーワード評価装置及び候補キーワード評価プログラム | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN107092679B (zh) | 一种特征词向量获得方法、文本分类方法及装置 | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
CN112417845A (zh) | 一种文本评价方法、装置、电子设备及存储介质 | |
CN114943549A (zh) | 一种广告投放方法及装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |