CN103646074B - 一种确定图片簇描述文本核心词的方法及装置 - Google Patents
一种确定图片簇描述文本核心词的方法及装置 Download PDFInfo
- Publication number
- CN103646074B CN103646074B CN201310674702.3A CN201310674702A CN103646074B CN 103646074 B CN103646074 B CN 103646074B CN 201310674702 A CN201310674702 A CN 201310674702A CN 103646074 B CN103646074 B CN 103646074B
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- word
- basic word
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000005520 cutting process Methods 0.000 claims abstract description 49
- 238000010606 normalization Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 230000001629 suppression Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 241000239290 Araneae Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明提供一种确定图片簇描述文本核心词的方法及装置,解决现有核心词确定不准确的问题。该方法针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描述文本进行切词,根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的分数值及每个基础词在文本簇中的总分数值,从而确定图片簇的核心词。由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述图片簇的语意。
Description
技术领域
本发明涉及数据通信技术领域,尤其涉及一种确定图片簇描述文本核心词的方法及装置。
背景技术
现有技术中搜索引擎依据网络爬虫/网络蜘蛛抓取互联网上的各个页面,针对每个页面的描述文本,可以确定每个页面的核心词。
但是,当搜索引擎抓取到的海量图片做相似度识别后会发现很多一组一组的相似图片,其中,每张图片都有源网页上自身的不完全相同的图片描述文本,同时也有可能是描述不实的图片描述文本。这样要确定图片对应其内容的真实的图片描述文本或核心词就异常困难,对于不断更新的海量图片全部通过人工标注的方式也是不现实的。另外,因为图片描述文本一般包含的字节数较少,并且其中还可能包含很多与图片不相关的干扰信息,从而无法从中确定较准确的核心词,也为确定与图片真实匹配的核心词或描述文本造成了极大的困难。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种确定图片簇描述文本核心词的方法及装置。
本发明实施例提供一种确定图片簇描述文本核心词的方法,该方法包括:
针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中;
对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;
根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。
较佳地,为了准确的确定出每个图片簇的核心词,确定每个基础词在文本簇中的总分数值之后,所述方法还包括:
根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;
判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本的数量是否达到设定的收敛阈值;
当该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词,否则,重新确定该文本簇中剩余的每个图片描述文本的总得分值直至确定出图片簇的核心词。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述确定每个基础词在每个图片描述文本中的权值之前,所述方法还包括下述至少一个步骤:
对切词处理后的基础词进行去噪声处理;和
对文本簇中每个图片描述文本进行去噪声处理。
较佳地,在本发明实施例中为了更加准确的确定文本簇的核心词。所述对切词处理后的基础词进行去噪声处理包括:
将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;
当匹配成功时,确定该基础词为无意义词,将该基础词删除。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述对文本簇中每个图片描述文本进行去噪声处理包括以下至少一个处理步骤:
判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和
将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述确定该基础词在该图片描述文本中的权值包括:
根据统计的每个基础词的频度,确定该基础词的基础值;
根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;
根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;
根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;
根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;
根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述重新确定每个图片描述文本的总得分值包括:
根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;或
根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而确定较准确的图片簇的核心词。所述对该基础词的分数值进行归一化处理包括:
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理;或
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
本发明实施例提供一种确定图片簇描述文本核心词的装置,所述装置包括:
图片簇库,用于存储每个图片簇,其中每个图片簇中包括多张图片;并根据核心词提取模块确定的每个图片簇的核心词,保存每个图片簇及其核心词的对应关系;
文本簇库,用于针对每个图片簇,存储该图片簇中每个图片提取出的图片描述文本构成的文本簇;
切词模块,用于对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
分数值计算模块,用于根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;
总分数值计算模块,用于根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
核心词提取模块,用于根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。
较佳地,为了准确的确定出每个图片簇的核心词,所述装置还包括:
总得分值计算模块,用于根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
删除判断模块,用于根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值;当确定文本簇中包含的图片描述文本数量未达到设定的收敛阈值时,通知总得分值计算模块重新确定该文本簇中剩余的每个图片描述文本的总得分值;
所述核心词提取模块,还用于当删除判断模块确定该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述装置还包括:
过滤模块,用于对切词处理后的基础词进行去噪声处理;和/或对文本簇中每个图片描述文本进行去噪声处理。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述过滤模块,具体用于将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础词删除。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述过滤模块,具体用于判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和/或将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述分数值计算模块,具体用于根据统计的每个基础词的频度,确定该基础词的基础值;根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块,还用于根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块,还用于根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
本发明实施例提供一种确定图片簇描述文本核心词的方法及装置,该方法包括针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描述文本进行切词处理得到每个基础词,根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词在文本簇中的总分数值,确定图片簇的核心词。由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述图片簇的语意。
附图说明
图1为本发明实施例提供的一种确定图片簇描述文本核心词的过程示意图;
图2为本发明实施例提供的一种确定图片簇描述文本核心词的详细实施过程示意图;
图3为本发明实施例提供的一种确定图片簇描述文本核心词的另一详细实施过程示意图;
图4为本发明实施例提供的一种确定图片簇描述文本核心词的再一详细实施过程示意图;
图5为本发明实施例提供的一种确定图片簇描述文本核心词的装置结构示意图。
具体实施方式
为了能够准确的确定出近似多张图片的图片簇的核心词,从而准确的描述图片簇的语意,本发明实施例提供了一种确定图片簇描述文本核心词的方法及装置。
本发明实施例在进行核心词的确定时,将整个确定过程抽象为一个投票过程。例如有10个投票人,N个候选人,每个投票人有一次投票的权利。在本发明实施例中就是将每个投票人的一次投票权利拆分开来,例如其可以向A投0.1票,向B投0.9票。
每个投票人都有自己的背景和主流意识,因此将导致投票结果的不同。在进行多次投票时,每一次投票之后,候选人之间会有一个排名。投票人可能会受本次投票结果的启发,从而调整自己下一次的投票。另外,通过投票的结果也可以发现一些比较“恶劣的投票人”,这些人应该从投票队伍中剔除,并且他们投的“候选人”也可能是恶劣性质的可疑的人。
本发明实施例基于该抽象过程,可以将基础词作为投票人,将图片描述文本作为候选人,根据基础词的属性信息确定最终的图片描述文本,从而从中确定相应的核心词。
下面结合说明书附图,对本发明实施例进行详细说明。
图1为本发明实施例提供的一种确定图片簇描述文本核心词的过程示意图,该过程包括以下步骤:
S101:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中。
在每个图片簇中包含相似的多张图片,该相似的多张图片可以是包含同一特定信息的图片,或者都是源于同一张图片做图片处理后得到的。例如在某一图片簇中都包含某一人物,张三,或者在某一图片簇中都包含某一特定信息,海啸、地震等等。这些相似图片可以通过现有图片识别技术来确定。在图片簇中每个图片都有其对应的图片描述文本,将图片簇中每个图片的描述文本提取出来保存到文本簇中,从而得到每个图片簇对应的每个文本簇。
S102:对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词。
对图片描述文本进行切词处理的过程属于现有技术,在本发明实施例中就不对该过程进行说明,相信本领域技术人员可以根据本发明实施例的描述确定相应的切词方式。
将图片描述文本进行切词后,得到每个图片描述文本包括的基础词,每个图片描述文本中可以包括一个、两个、三个以上的基础词。并且图片描述文本中包含的每个基础词之间可以不同,也可以相同。例如某一图片描述文本中切词后得到基础词A、B、C、A、D,该图片描述文本包含的基础词为4个,其中基础词A在该图片描述文本中出现了2次。
S103:根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值。
确定每个基础词在每个图片描述文本中的权值时,根据每个基础词的属性信息来确定。具体的针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值。
当确定了每个图片描述文本中的基础词后,确定图片描述文本中的每个基础词,在该图片描述文本中的权值。具体的,在确定基础词在图片描述文本中的权值时,根据基础词的属性信息及该基础词在该图片描述文本中出现的次数确定。该基础词的属性信息包括:基础词的频度信息、基础词在图片描述文本中的位置信息、基础词包含的字节数信息以及基础词的词性信息等。
另外,图片描述文本中可能包括多个相同的基础词,而每个基础词在该图片描述文本中出现的位置不同,因此同一基础词在同一图片描述文本中,由于其位于图片描述文本的不同位置,因此同一基础词可能对应多个不同的子权值,将该同一基础词对应的多个子权值相加,即可得到该基础词在该图片描述文本中的权值。
当确定了每个基础词在每个图片描述文本中的权值后,针对每个图片描述文本,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
确定了图片描述文本中的每个基础词在该图片描述文本中的权值后,为了确定每个基础词在图片描述文本中的重要程度,在本发明实施例中需要确定每个基础词在图片描述文本中的分数值。在确定每个基础词在图片描述文本中的分数值时,根据每个基础词在该图片描述文本中的权值,及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定该基础词在该图片描述文本中的分数值。
采用上述方法后,在一个图片描述文本中,其包含的每个基础词在该图片描述文本中的分数值的和为1。
S104:根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
具体的,在确定每个基础词在文本簇中的总分数值时,在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
当一个基础词在文本簇中出现的频率非常的高,说明该基础词对该文本簇来说非常重要。为了衡量每个基础词对文本簇的重要程度,在本发明实施例中,针对每个基础词,根据确定的每个基础词在每个图片描述文本中的分数值的和,确定每个基础词在文本簇中的总分数值,从而可以将该总分数值作为衡量该基础词在该文本簇中的重要程度。
S105:根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。
当确定了每个基础词在文本簇中的总得分值后,可以确定出每个基础词在文本簇中的重要程度。根据每个基础词在文本簇中的重要程度,按照每个基础词在文本簇中的总得分值,选择设定数量的基础词作为该图片簇的核心词。
由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述图片簇的语意。
在本发明实施例中为了进一步准确的确定图片簇的核心词,在确定了每个基础词在文本簇中的总得分值后,该方法还包括:
根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;
判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本的数量是否达到设定的收敛阈值;
当该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词,否则,重新确定该文本簇中剩余的每个图片描述文本的总得分值直至确定出图片簇的核心词。
当确定了每个基础词在文本簇中的重要程度后,可以根据确定的每个基础词在文本簇中的总分数,确定每个图片描述文本在文本簇中的重要程度。具体的,可以针对每个图片描述文本,根据该图片描述文本中包含的每个基础词在该文本簇中的总分数的和,确定每个图片描述文本的总得分数。
得到衡量每个图片描述文本在文本簇中的重要程度的总得分值后,可以将图片描述文本的总得分值按照大小顺序排序,从总得分值最小的图片描述文本开始,删除设定数量的图片描述文本,此时可以认为该图片描述文本在该文本簇中不重要,可以将该图片描述文本删除。在删除图片描述文本时,每次根据设定的数量,删除相应数量的图片描述文本,例如该设定数量可以为1,或者2,即每次在进行图片描述文本删除时,可以删除总得分数最低的一个图片描述文本,或者删除总得分数最低的2个图片描述文本。
删除设定数量的图片描述文本后,该文本簇中剩余的图片描述文本的数量达到设定的收敛阈值时,可以认为该文本簇中剩余的都是对该核心词提取比较重要的图片描述文本,在该图片描述文本中确定核心词时,可以保证确定的核心词的准确性。
删除设定数量的图片描述文本后,该文本簇中剩余的图片描述文本的数量达到设定的收敛阈值时,为了保证确定的核心词的准确性,在本发明实施例中,由于一些图片描述文本已经删除,基础词在文本簇中的总分数值发生变化,需要重新确定每个图片描述文本的总得分值,从而根据每个图片描述文本的总得分值,再一步删除设定数量的图片描述文本,直到该文本簇中图片描述文本的数量达到设定的收敛阈值,便于准确的确定核心词。
为了进一步提高图片簇核心词提取的准确性,克服一些噪音的干扰,在本发明实施例中确定每个基础词在每个图片描述文本中的权值之前,可以针对切词后得到的每个基础词进行去噪声处理;和对文本簇中每个图片描述文本进行去噪声处理。上述两种去噪声的方式可以结合在一起使用,也可以单独使用,结合在一起使用时两种去噪声的方式可以同步进行,也可以采用任意顺序进行。同时采用两种去噪声的方式,可以有效的避免文本簇中噪声的干扰,进一步提高核心词提取的准确性。
在本发明实施例中对切词处理后的基础词进行去噪声处理包括:将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础词删除。
具体的,在本发明实施例中可以预先保存无意义词库,在该无意义词库中保存有一些作为停止词的基础词,例如“把”、“的”、“原来如此”等等相对核心词来说无意义的词。由于该无意义词库中保存有一些无意义的基础词,因此将切词后得到的每个基础词与该无意义词库中保存的每个词进行匹配,当匹配成功时,认为该基础词为无意义词,无法作为核心词,将该基础词删除,否则,认为该基础词可能为核心词,保留该基础词。
为了有效的去除一些干扰图片描述文本,在本发明实施例中可以对文本簇中的图片描述文本进行去噪声处理,具体的处理过程可以包括以下至少一个处理步骤:
判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和
将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
之所以要对文本簇中的图片描述文本进行去噪声处理是因为,有些图片描述文本可能是一些无意义的文本,其对核心词提取的贡献非常的小,例如图片描述文本非常的短,即其包含的字节数非常的少,或者在该图片描述文本中根本不存在名词以表述该文本语意,再或者图片描述文本非常的长,即其包含的字节数非常的多,这些情况下都可以认为图片描述文本是无意义的。
因此也就可以根据上述描述设置图片描述文本的过滤条件,在判断图片描述文本是否满足设定的过滤条件时,具体可以判断图片描述文本包含的字节数是否小于设定的第一长度阈值,当图片描述文本包含的字节数小于设定的第一长度阈值时,认为该图片描述文本满足设定的过滤条件;或者判断图片描述文本中是否包含名词,当该图片描述文本中不包含名词时,认为该图片描述文本满足设定的过滤条件;或者判断图片描述文本包含的字节数是否大于设定的第二长度阈值,当图片描述文本包含的字节数大于设定的第二长度阈值时,认为该图片描述文本满足设定的过滤条件,其中第二长度阈值大于第一长度阈值。当图片描述文本满足设定的过滤条件时,将该图片描述文本删除。
另外,在本发明实施例中当对某一图片描述文本进行复制粘贴操作时,文本簇中可能会存在多个内容相同的图片描述文本,复制粘贴得到的图片描述文本可能会影响后续核心词确定的准确性。因此为了克服复制粘贴图片描述文本的操作对最终核心词的确定,在本发明实施例中可以针对每两个图片描述文本,判断其中一个图片描述文本是否为复制粘贴得到的图片描述文本。
由于复制粘贴后得到的图片描述文本应该与原图片描述文本相同,因此针对进行比较的两个图片描述文本进行判断时,可以先判断该两个图片描述文本包含的基础词的数量是否相同,当该两个图片描述文本包含的基础词的数量不同时,可以认为该两个图片描述文本不是复制粘贴得到的图片描述文本,当该两个图片描述文本包含的基础词的数量相同时,按照每个基础词在每个图片描述文本中的顺序,依次比较两个图片描述文本中每个基础词是否相同,当两个图片描述文本中按照顺序出现相同基础词的数量达到设定的数量阈值时,认为其中一个图片描述文本为复制粘贴操作得到的图片描述文本,在该文本簇中将其中一个图片描述文本删除。
图2为本发明实施例提供的一种确定图片簇描述文本核心词的详细实施过程示意图,该过程包括以下步骤:
S201:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词。
对图片描述文本切词后,可以记录每个图片描述文本包含几个基础词,分别是哪些基础词,每个基础词在该图片描述文本中出现了几次,分别在什么位置出现的。
S202:对切词后的基础词进行去噪声处理,并对对文本簇中每个图片描述文本进行去噪声处理。
S203:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值。
S204:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
S205:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
S206:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
S207:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。
S208:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S209,否则,进行步骤S210。
S209:选择文本簇中设定数量的基础词作为该文本簇的核心词。
S210:重新确定每个图片描述文本的总得分值直至确定出核心词。
由于在本发明实施例中在切词处理后,对切词得到的基础词和图片描述文本进行去噪声处理,从而可以过滤文本簇中的干扰,进一步提高后续核心词确定的准确性。
对文本簇中的基础词及图片描述文本进行去噪声处理后,根据每个基础词的属性信息确定每个图片描述文本的总得分值。在确定每个图片描述文本的总得分值之前,首先需要确定每个基础词在图片描述文本中的权值。在本发明实施例中确定该基础词在该图片描述文本中的权值包括:
根据统计的每个基础词的频度,确定该基础词的基础值;根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
在确定每个基础词在每个图片描述文本中的权值时,针对每个图片描述文本,根据该图片描述文本中包含的每个基础词,确定每个基础词在该图片描述文本中的权值。在确定时,根据该基础词的属性信息及该基础词在该图片描述文本中出现的次数确定。该基础词的属性信息包括:基础词的频度(IDF)、基础词在图片描述文本中出现的位置(position)、基础词包含的字节数(length)以及基础词的词性(type)等信息。
具体可以根据下述公式确定:
IDF为基础词的基础知识,Position为基础词的位置值,Length为基础词的长度值,Type为基础词的词性值,M为基础词在当前该图片描述文本中出现的次数,W为基础词在图片描述文本中的权值。
基础词的频度根据统计的大量文本切词后得到的每个基础词的出现的频次和,及该基础词出现的频次的商确定。该商即为该基础词在该图片描述文本中的基础值。
基础词在图片描述文本中出现的位置不同,可以标识出该基础词在该图片描述文本中的重要程度,如果该基础词在该图片描述文本中的位置比较靠前,说明该基础词在该图片描述文本中比较重要,相反位置比较靠后,重要程度就会比较低。因此可以设置每个位置对应的位置权重值,根据每个基础词在图片描述文本中位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值。
基础词包含的字节数的多少也可以反映出基础词的重要程度,当基础词包含的字节数比较多时,可以认为该基础词包含的信息比较多,相对比较重要,相反基础词包含的字节数少,说明该基础词较不重要。因此可以设置基础词的长度对应的长度权重值,根据每个基础词包含的字节数,及该设置的基础词的长度对应的长度权重值,可以确定基础词的长度值。
当基础词的词性不同时,基础词的重要程度也会不同,一般情况下名词能够标识比较重要的语意,形容词表述语意的程度较名词弱,但是较动词强,因此可以根据词性的重要程度,设置每种词性对应的词性权重值。当确定了基础词的词性后,根据设置的每种词性对应的词性权重值,确定该基础词的词性值。基础词词性的确定属于现有技术,在本发明实施例中对该过程就不就行赘述。
确定了基础词的基础值、位置值、长度值和词性值后,将基础值、位置值、长度值和词性值相加作为该基础词的子权值。如果图片描述文本中该基础词只出现一次则该子权值即为该基础词在该图片描述文本中的权值,如果基础词在当前该图片描述文本中出现了多次,则该基础词在该图片描述文本每个位置出现时对应的子权值的和,即为该基础词在图片描述文本中的权值。
针对每个图片描述文本,根据该图片描述文本中包含的每个基础词,确定了每个基础词在该图片描述文本中的权值后,根据每个基础词在该图片描述文本中的权值,及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值,即确定对该图片描述文本中每个基础词的投票得分。
具体根据下述公式计算:
FK为图片描述文本中第k个基础词的投票得分,即该第k个基础词在该图片描述文本中的分数值,WK为图片描述文本中第k个基础词的在该图片描述文本中的权值,该图片描述文本中包含N个基础词,Wtext是图片描述文本的基础投票分数,为了简化,对应每段图片描述文本Wtext=1。
经过上述过程,在每个图片描述文本中每个基础词的分数值的和为1,基础词在该图片描述文本中的分数值的多少,可以反映该基础词在该图片描述文本中的重要程度,也可以反映出对该基础词的投票结果。
确定了每个基础词在每个图片描述文本中的分数值后,针对同一基础词,根据该基础词在不同图片描述文本中的分数值的和,确定该基础词在文本簇中的总分数值,从而得到每个基础词在该文本簇中的总分数值,该总分数值可以反映出在该文本簇中对该基础词的投票结果。具体根据下式计算:
Wi为基础词在第i个图片文本中的分数值,N为文本簇中包含的图片描述文本的数量,当该图片描述文本中不存在该基础词时,该基础词在该图片描述文本中的分数值为0,Wi'为基础词在文本簇中的总分数值。
根据确定的每个基础词在该文本簇中的总分数值,并根据每个图片描述文本包含的基础词,将该图片描述文本中每个基础词在该文本簇中的总分数值的和作为该图片描述文本的总得分值。具体根据可以根据下述公式计算:
Tw为图片描述文本的总得分值,Wi'为该图片描述文本中每个基础词在该文本簇中的总分数值,k为该图片描述文本包含的基础词的数量。
得到每个图片描述文本的总得分值后,就确定了对图片描述文本的投票结果,根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。在该结果中根据图片描述文本的总得分值进行排序,删除总得分值较少的设定数量的图片描述文本,该设定数量可以是一个也可以几个,用户可以根据需要设置不同的数量。在文本簇中删除设定数量的图片描述文本后,判断该文本簇是否满足收敛条件,即判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值,例如判断该文本簇中包含的图片描述文本数量是否小于4个。
当该文本簇中包含的图片描述文本数量达到设定的收敛阈值时,确定该文本簇中剩余的图片描述文本为投票选出的较重要的图片描述文本,在这些图片描述文本中选择出设定数量的基础词作为该文本簇的核心词。该设定数量可以是3、4、5个等,可以根据要求设置。选择核心词时,可以选择该文本簇中总分数值较高的基础词,也可以任意选择。
当该文本簇中包含的图片描述文本数量未达到设定的收敛阈值时,此时该文本簇中删除了一些图片描述文本,因此有些基础词在该文本簇中的总分数值可能会发生变化。因此为了确定出该文本簇的核心词,在本发明实施例中需要重新确定文本簇中剩余的每个图片描述文本的总得分值。
在重新确定文本簇中剩余的每个图片描述文本的总得分值时,可以采用上述办法,即根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
图3为本发明实施例提供的一种确定图片簇描述文本核心词的另一详细实施过程示意图,该过程包括以下步骤:
S301:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切词处理。
S302:对切词后的基础词进行去噪声处理,并对文本簇中每个图片描述文本进行去噪声处理。
S303:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值。
S304:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
S305:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
S306:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
S307:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。
S308:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S309,否则,进行步骤S305。
S309:选择该文本簇中设定数量的基础词作为对应图片簇的核心词。
但本发明实施例中为了根据投票的结果,调整自身的投票行为,从而使投票结果更加的准确,以便确定出较准确的核心词,在本发明实施例中在重新图片描述文本的总得分值时,还包括:
根据文本簇中删除图片描述文本后,每个基础词在每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
具体的对该基础词的分数值进行归一化处理包括:
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理;或
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
具体的,在进行处理时,根据该文本簇中剩余的图片描述文本,根据每个基础词在每个图片描述文本中的分数值,在该文本簇中对该基础词的分数值进行归一化处理,从而确定每个基础词在文本簇中归一化后的分数值。
例如针对基础词A,该基础词在文本簇的4个图片描述文本中出现,该基础词A在每个图片描述文本中的分数值分别为0.5、0.5、0.3和0.5,在确定该基础词A在每个图片描述文本中归一化后的分数值时,将该基础词A在每个图片描述文本中的分数值分别相加(0.5+0.5+0.3+0.5=1.8),1.8乘以0.5得到的第一积,1.8乘以(0.5+0.5+0.3+0.5)得到第二积,将第一积和第二积的商作为该基础词A在该图片描述文本中的归一化后的分数值,之后,根据基础词A在每个图片描述文本中的分数值,可以确定基础词A在每个图片描述文本中的归一化后的分数值。其中基础词A在第一、第二和第四图片描述文本中的归一化后的分数值相等分别为1.8乘以0.5得到的第一积,1.8乘以(0.5+0.5+0.3+0.5)得到第二积,将第一积和第二积的商,基础词A在第三图片描述文本中的归一化后的分数值为第一积和第二积的商,其中1.8乘以0.3得到的第一积,1.8乘以(0.5+0.5+0.3+0.5)得到第二积。
具体可以根据下述公式计算:
Fi''为基础词在第i个图片描述文本中归一化后的分数值,Fi'为基础词在文本簇中的总分数值,Fi为基础词在第i个图片描述文本中的分数值,K为该文本簇中包含的图片描述文本的数量。
或者,在本发明实施例中为了保证确定的核心词的准确性,在对基础词的分数值进行归一化处理时,还可以采用和的方式确定。沿用上例,针对基础词A,该基础词在文本簇的4个图片描述文本中出现,该基础词A在每个图片描述文本中的分数值分别为0.5、0.5、0.3和0.5,在确定该基础词A在每个图片描述文本中归一化后的分数值时,将该基础词A在每个图片描述文本中的分数值分别相加0.5+0.5+0.3+0.5=1.8,1.8加0.5得到的第一和,1.8加(0.5+0.5+0.3+0.5)得到第二和,将第一和和第二和的商作为该基础词A在该图片描述文本中的归一化后的分数值。之后,根据基础词A在每个图片描述文本中的分数值,可以确定基础词A在每个图片描述文本中的归一化后的分数值。其中基础词A在第一、第二和第四图片描述文本中的归一化后的分数值相等分别为1.8加0.5得到的第一和,1.8加(0.5+0.5+0.3+0.5)得到第二和,将第一和和第二和的商;基础词A在第三图片描述文本中的归一化后的分数值为第一加和第二加的商,其中1.8加0.3得到的第一和,1.8加(0.5+0.5+0.3+0.5)得到第二和。
无论采用哪种方式,确定了每个基础词在每个图片描述文本中归一化后的分数值后,根据每个根据图片描述文本包含的基础词归一化后的分数值,可以确定每个图片描述文本归一化后的总得分值。确定了每个图片描述文本归一化后的总得分值后,删除总得分值较少的设定数量的图片描述文本,判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值,当该文本簇中包含的图片描述文本数量达到设定的收敛阈值时,选择该文本簇中设定数量的基础词作为该文本簇对应的图片簇的核心词,否则,重复上述过程直至确定出核心词。
图4为本发明实施例提供的一种确定图片簇描述文本核心词的再一详细实施过程示意图,该过程包括以下步骤:
S401:针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中,对文本簇中的每个图片描述文本进行切词处理。
S402:对切词后的基础词进行去噪声处理,并对文本簇中每个图片描述文本进行去噪声处理。
S403:去噪声处理后,针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值。
S404:在该图片描述文本中,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
S405:在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
S406:根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
S407:根据每个图片描述文本的总得分值,删除设定数量的图片描述文本。
S408:判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值,当判断结果为是时,进行步骤S409,否则,进行步骤S410。
S409:选择该文本簇中设定数量的基础词作为该文本簇对应的图片簇的核心词。
S410:根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值,根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和,及该本簇中该基础词的总分数值与每个基础词在每个图片描述文本中的分数值的和的商,对该基础词的分数值进行归一化处理。
S411:根据归一化处理后每个图片描述文本中每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值,之后进行步骤S407。
图5为本发明实施例提供的一种确定图片簇描述文本核心词的装置结构示意图,所述装置包括:
图片簇库51,用于存储每个图片簇,其中每个图片簇中包括多张图片;并根据核心词提取模块确定的每个图片簇的核心词,保存每个图片簇及其核心词的对应关系;
文本簇库52,用于针对每个图片簇,存储该图片簇中每个图片提取出的图片描述文本构成的文本簇;
切词模块53,用于对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
分数值计算模块54,用于根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;
总分数值计算模块55,用于根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
核心词提取模块56,用于根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。
所述分数值计算模块54包括:
权值计算单元541,针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值;
分数值计算单元542,用于对每个图片描述文本,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述权值计算模块541,具体用于根据统计的每个基础词的频度,确定该基础词的基础值;根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
所述装置还包括:
总得分值计算模块57,用于根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
删除判断模块58,用于根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值;当确定文本簇中包含的图片描述文本数量的未达到设定的收敛阈值时,通知总得分值计算模块重新确定该文本簇中剩余的每个图片描述文本的总得分值;
所述核心词提取模块56,还用于当删除判断模块确定该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块57,还用于根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块57,还用于根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块57,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理。
较佳地,在本发明实施例中为了能够根据每个基础词在每个图片描述文本中的分数值,影响其他基础词的分数值,从而选择较准确的核心词。所述总得分值计算模块57,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心词。所述装置还包括:
过滤模块59,用于对切词处理后的基础词进行去噪声处理;和/或对文本簇中每个图片描述文本进行去噪声处理。
较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心词。所述过滤模块59,具体用于将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础词删除。
较佳地,在本发明实施例中为了更加准确的确定图片簇描述文本的核心词。所述过滤模块59,具体用于判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和/或将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
本发明实施例提供一种确定图片簇描述文本核心词的方法及装置,该方法包括针对图片簇中每个图片描述文本构成的文本簇,对文本簇中的每个图片描述文本进行切词处理得到每个基础词,根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词在文本簇中的总分数值,确定图片簇的核心词。由于在本发明实施例中针对图片簇中每个图片描述文本构成的文本簇,根据每个图片描述文本中的基础词的属性信息,确定每个基础词的在每个图片描述文本中的权值,从而确定每个基础词在文本簇中的总分数值,根据每个基础词的总分数值确定图片簇的核心词,从而可以保证选择出的核心词能准确描述图片簇的语意。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (22)
1.一种确定图片簇描述文本核心词的方法,其特征在于,该方法包括:
针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中;
对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;其中,基础词的属性信息包括:基础词的频度信息、基础词在图片描述文本中的位置信息、基础词包含的字节数信息以及基础词的词性信息;
根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词;
根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;
在删除设定数量的图片描述文本后,若该文本簇中包含的图片描述文本的数量达到设定的收敛阈值,则在该文本簇中确定该图片簇的核心词。
2.如权利要求1所述的方法,其特征在于,所述确定每个基础词在每个图片描述文本中权值包括:
针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值。
3.如权利要求1或2所述的方法,其特征在于,所述确定该基础词在该图片描述文本中的权值包括:
根据统计的每个基础词的频度,确定该基础词的基础值;
根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;
根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;
根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;
根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;
根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
4.如权利要求1-2任一项所述的方法,其特征在于,所述确定每个基础词在每个图片描述文本中分数值包括:
针对每个图片描述文本,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
5.如权利要求1-2任一项所述的方法,其特征在于,所述确定每个基础词在文本簇中的总分数值包括:
在文本簇中针对每个基础词,根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值。
6.如权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
若该文本簇中包含的图片描述文本的数量未达到设定的收敛阈值时,则重新确定该文本簇中剩余的每个图片描述文本的总得分值直至确定出图片簇的核心词。
7.如权利要求6所述的方法,其特征在于,所述重新确定该文本簇中剩余的每个图片描述文本的总得分值包括:
根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;或
根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本中的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
8.如权利要求7所述的方法,其特征在于,所述对该基础词的分数值进行归一化处理包括:
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理;或
根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
9.如权利要求1-2任一项所述的方法,其特征在于,所述确定每个基础词在每个图片描述文本中的权值之前,所述方法还包括下述至少一个步骤:
对切词处理后的基础词进行去噪声处理;和
对文本簇中每个图片描述文本进行去噪声处理。
10.如权利要求9所述的方法,其特征在于,所述对切词处理后的基础词进行去噪声处理包括:
将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;
当匹配成功时,确定该基础词为无意义词,将该基础词删除。
11.如权利要求9所述的方法,其特征在于,所述对文本簇中每个图片描述文本进行去噪声处理包括以下至少一个处理步骤:
判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和
将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
12.一种确定图片簇描述文本核心词的装置,其特征在于,所述装置包括:
图片簇库,用于存储每个图片簇,其中每个图片簇中包括多张图片;并根据核心词提取模块确定的每个图片簇的核心词,保存每个图片簇及其核心词的对应关系;
文本簇库,用于针对每个图片簇,存储该图片簇中每个图片提取出的图片描述文本构成的文本簇;
切词模块,用于对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
分数值计算模块,用于根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;其中,基础词的属性信息包括:基础词的频度信息、基础词在图片描述文本中的位置信息、基础词包含的字节数信息以及基础词的词性信息;
总分数值计算模块,用于根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
核心词提取模块,用于根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词;
总得分值计算模块,用于根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
删除判断模块,用于根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本数量是否达到设定的收敛阈值;
所述核心词提取模块还用于当删除判断模块确定该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词。
13.如权利要求12所述的装置,其特征在于,所述分数值计算模块包括:
权值计算单元,针对每个图片描述文本,根据切词后该图片描述文本中每个基础词的属性信息及该基础词在该图片描述文本中出现的次数,确定该基础词在该图片描述文本中的权值;
分数值计算单元,用于对每个图片描述文本,根据确定的每个基础词在该图片描述文本中的权值及该图片描述文本中每个基础词在该图片描述文本中的权值和,确定每个基础词在该图片描述文本中的分数值。
14.如权利要求12或13所述的装置,其特征在于,所述权值计算单元,具体用于根据统计的每个基础词的频度,确定该基础词的基础值;根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
15.如权利要求12-13任一项所述的装置,其特征在于,
删除判断模块还用于当确定文本簇中包含的图片描述文本数量的未达到设定的收敛阈值时,通知总得分值计算模块重新确定该文本簇中剩余的每个图片描述文本的总得分值。
16.如权利要求15所述的装置,其特征在于,所述总得分值计算模块,还用于根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;根据每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值。
17.如权利要求15所述的装置,其特征在于,所述总得分值计算模块,还用于根据每个基础词在文本簇剩余的每个图片描述文本中的分数值,对该基础词的分数值进行归一化处理,确定该基础词在每个图片描述文本的归一化后的分数值;针对每个图片描述文本,根据其每个基础词归一化后的分数值,确定每个图片描述文本归一化后的总得分值。
18.如权利要求17所述的装置,其特征在于,所述总得分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的和对该基础词的分数值进行归一化处理。
19.如权利要求17所述的装置,其特征在于,所述总得分值计算模块,具体用于根据每个基础词在每个图片描述文本中的分数值,确定文本簇中该基础词的总分数值;根据确定的该基础词的总分数值与每个图片描述文本中该基础词的分数值的积对该基础词的分数值进行归一化处理。
20.如权利要求12-13任一项所述的装置,其特征在于,所述装置还包括:
过滤模块,用于对切词处理后的基础词进行去噪声处理;和/或对文本簇中每个图片描述文本进行去噪声处理。
21.如权利要求20所述的装置,其特征在于,所述过滤模块,具体用于将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;当匹配成功时,确定该基础词为无意义词,将该基础词删除。
22.如权利要求20所述的装置,其特征在于,所述过滤模块,具体用于判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和/或将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674702.3A CN103646074B (zh) | 2013-12-11 | 2013-12-11 | 一种确定图片簇描述文本核心词的方法及装置 |
US15/103,267 US20160306885A1 (en) | 2013-12-11 | 2014-09-22 | Method and apparatus for determining core word of image cluster description text |
PCT/CN2014/087084 WO2015085805A1 (zh) | 2013-12-11 | 2014-09-22 | 一种确定图片簇描述文本核心词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310674702.3A CN103646074B (zh) | 2013-12-11 | 2013-12-11 | 一种确定图片簇描述文本核心词的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646074A CN103646074A (zh) | 2014-03-19 |
CN103646074B true CN103646074B (zh) | 2017-06-23 |
Family
ID=50251288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310674702.3A Expired - Fee Related CN103646074B (zh) | 2013-12-11 | 2013-12-11 | 一种确定图片簇描述文本核心词的方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160306885A1 (zh) |
CN (1) | CN103646074B (zh) |
WO (1) | WO2015085805A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646074B (zh) * | 2013-12-11 | 2017-06-23 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
KR102407630B1 (ko) * | 2015-09-08 | 2022-06-10 | 삼성전자주식회사 | 서버, 사용자 단말 및 이들의 제어 방법. |
CN105808526B (zh) | 2016-03-30 | 2019-07-30 | 北京京东尚科信息技术有限公司 | 商品短文本核心词提取方法和装置 |
CN107784023A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 一种图文信息的生成方法及装置 |
CN110889285B (zh) * | 2018-08-16 | 2023-06-16 | 阿里巴巴集团控股有限公司 | 确定核心词的方法、装置、设备和介质 |
CN110413819B (zh) * | 2019-07-12 | 2022-03-29 | 深兰科技(上海)有限公司 | 一种图片描述信息的获取方法及装置 |
WO2021237562A1 (zh) * | 2020-05-28 | 2021-12-02 | 深圳市欢太数字科技有限公司 | 文本模板提取方法、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN102270234A (zh) * | 2011-08-01 | 2011-12-07 | 北京航空航天大学 | 一种图像搜索方法及其搜索引擎 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3573572B2 (ja) * | 1996-05-23 | 2004-10-06 | 株式会社リコー | キーワード抽出装置及びキーワード表示装置 |
US6470307B1 (en) * | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
CN103646074B (zh) * | 2013-12-11 | 2017-06-23 | 北京奇虎科技有限公司 | 一种确定图片簇描述文本核心词的方法及装置 |
-
2013
- 2013-12-11 CN CN201310674702.3A patent/CN103646074B/zh not_active Expired - Fee Related
-
2014
- 2014-09-22 US US15/103,267 patent/US20160306885A1/en not_active Abandoned
- 2014-09-22 WO PCT/CN2014/087084 patent/WO2015085805A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和系统 |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
CN102270234A (zh) * | 2011-08-01 | 2011-12-07 | 北京航空航天大学 | 一种图像搜索方法及其搜索引擎 |
Also Published As
Publication number | Publication date |
---|---|
WO2015085805A1 (zh) | 2015-06-18 |
US20160306885A1 (en) | 2016-10-20 |
CN103646074A (zh) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646074B (zh) | 一种确定图片簇描述文本核心词的方法及装置 | |
US20200081977A1 (en) | Keyword extraction method and apparatus, storage medium, and electronic apparatus | |
CN107423613B (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN103425635B (zh) | 一种答案推荐方法和装置 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN109597986A (zh) | 异常问题的定位方法、装置、设备及存储介质 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
CN106897462A (zh) | 数据统计分析平台系统 | |
CN110490238A (zh) | 一种图像处理方法、装置及存储介质 | |
CN108304328B (zh) | 一种众包测试报告的文本描述生成方法、系统及装置 | |
CN110503143A (zh) | 基于意图识别的阈值选取方法、设备、存储介质及装置 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN111159404A (zh) | 文本的分类方法及装置 | |
CN109472008A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN112507176A (zh) | 域名侵权的自动化判定方法、装置、电子设备和存储介质 | |
CN109284700A (zh) | 图像中多个人脸检测的方法、存储介质、设备及系统 | |
CN106372231A (zh) | 一种搜索方法及装置 | |
CN113297345B (zh) | 分析报告生成方法、电子设备及相关产品 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN110941638B (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
CN111339287B (zh) | 摘要生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170623 Termination date: 20211211 |